Vorrichtung und Verfahren zur differenzierten Sprachausgabe
Die vorliegende Erfindung betrifft eine Vorrichtung zur differenzierten Sprachausga- be bzw Spracherzeugung und ein zugehöriges Verfahren, Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesondere zum Einsatz in einem Fahrzeug.
In Fahrzeugen werden einzelne Systeme eingesetzt, die über eine akustische Mensch-Maschine-Schnittstelle zur Sprachausgabe verfügen. Bei diesen Systemen ist jeweils ein Sprachausgabemodul direkt zugeordnet. Die verwendeten sprachproduzierenden Verfahren beruhen meist auf Puls-Code-Modulation (= PCM), wobei eine nachfolgende Komprimierung (z. B. MPEG) angeschlossen sein kann. Andere Systeme verwenden Sprachsyntheseverfahren, die hauptsächlich über das Zusam- menstellen von Silbensegmenten (Phoneme) Worte und Sätze bilden (Signalmanipulation).
Bei den genannten Sprachausgabeverfahren besteht auch eine Sprecherabhängigkeit, die es erfordert, bei Erweiterung des Wort- oder Textumfanges immer wieder den gleichen menschlichen Sprecher für Aufnahmen zu bemühen. Des weiteren erfordern PCM-Verfahren genauso wie eine qualitativ hochwertige Phonemsynthese durch Signalmanipulation erheblichen Speicherplatz, um Texte oder Silbensegmente abzulegen. Bei beiden Verfahren nimmt der Speicherplatz noch erheblich zu, wenn unterschiedliche Landessprachen ausgegeben werden sollen.
Weiterhin sind Verfahren bekannt, die auf einer Vollsynthese der Sprache beruhen. Bekannt sind insbesondere Verfahren, die den menschlichen Vokaltrakt als elektrische Entsprechung umsetzen und mit einem Tongenerator und mehreren nachgeschalteten Filtern arbeiten (Quelle-Filter-Modell). Ein nach diesem Verfahren arbei- tendes Gerät ist ein sog. Formantsynthetisator (z. B. KLATTALK). Ein solcher Formantsynthetisator hat den Vorteil, daß die stimmcharakteristischen Eigenschaften beeinflußbar sind.
Der Erfindung liegt die Aufgabe zugrunde, eine Vorrichtung und ein zugehöriges Verfahren bereitzustellen, mit denen eine differenzierte Sprachausgabe möglich ist, sowie Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesonde- re zur Verwendung in Fahrzeugen bereitzustellen.
Diese Aufgabe wird mit den Merkmalen der Patentansprüche gelöst.
Die Erfindung hat den Vorteil, daß mit einer einzigen Sprachausgabeeinrichtung bzw Sprachsyntheseeinrichtung Sprachausgaben für verschiedene Systeme möglich sind, wobei jedes System durch stimmcharakteristische Unterschiede identifizierbar ist.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist für jedes System ein Parametersatz zugeordnet, der von der Sprachsyntheseeinrichtung bei einer Sprachausgabe von diesem System verwendet wird. Beispielsweise wird ein erster Parametersatz für einen Bordcomputer, ein zweiter Parametersatz für ein Navigationssystem, ein dritter Parametersatz für Verkehrsinformationen, ein vierter Parametersatz für ein TTS-System (Text to Speach-System), wie E-Mail und ein oder meh- rere weitere Parametersätze' für zusätzliche Systeme bereitgestellt.
Abhängig von dem zugeordneten Parametersatz erzeugt die Sprachsyntheseeinrichtung die Sprachausgabe beispielsweise mit einer weichen weiblichen Stimme, z. B. für Sprachausgaben eines Navigationssystems, oder mit einer harten männlichen Baßstimme, z. B. für die Sprachausgabe von Verkehrsmeldungen.
Gemäß einer bevorzugten Ausführungsform der Erfindung wird ein Verfahren und eine Vorrichtung für eine Vollsynthese der Sprache verwendet, vorzugsweise ein Formantsynthetisator. Dabei werden die Steuerparameter für den Synthetisator in Klassen geteilt. Eine Klasse von dynamischen Parametern steuert die Artikulation, wie die Bewegung des Sprachtraktes beim Sprechen. Eine zweite Klasse von statischen Parametern steuert sprechercharakteristische Merkmale, wie die Generatorgrundfrequenz und feststehende Formanten, die bei einem Kind, einer Frau oder
einem männlichen Sprecher durch die unterschiedliche geometrische Dimension des Sprachtraktes gebildet werden.
Bei einem erweiterten Modell des Formantsynthetisators ist eine getrennte Generie- rung von stimmhaften und stimmlosen Lauten möglich. Dabei können durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder eingeschaltet oder die dynamischen Parameter für die Artikulation beeinflußt werden.
Die erfindungsgemäße Vorrichtung bzw. das erfindungsgemäße Verfahren ist ins- besondere einsetzbar in Systemen eines Fahrzeuges. Jedes System hat für eine Sprachausgabe zwei Möglichkeiten, die Sprachausgabe zu steuern. Die erste Möglichkeit der Sprachausgabe umfaßt das Senden einer Ausgabe von Steuerbefehlen für die Sprachartikulation, wobei die Abfolge der Steuerparameter für Wörter, Sätze und Satzfolgen im System abgespeichert sind. Die zweite Möglichkeit zur Steuerung der Sprachausgabe erfolgt über eine zweite Ausgabe, die einen Parametersatz umschaltet, der für die Sprechercharakteristik bestimmend ist.
Alternativ oder zusätzlich ist es auch möglich, diesen Parameterdatensatz direkt im System zu speichern und bei einer erforderlichen Sprachausgabe den Parameterda- tensatz in die Sprachsyntheseeinrichtung zu laden.
Gemäß einer weiteren bevorzugten Ausführungsform, die alternativ oder zusätzlich zu den vorstehenden Ausführungsformen einsetzbar ist, können zur Unterscheidung der Informationsquellen, d. h. der Systeme, die eine Sprachausgabe durchführen, die Generator- und Formantparameter zusätzlich dynamisch geändert werden. Dadurch können hörbare Unterschiede in der Prosodie erreicht werden, wie die Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie. Im speziellen kann eine prosodische Modulation in Abhängigkeit z. B. von einer Verkehrslage o- der einer Verkehrssituation für die Sprachausgabe von Ansagetexten genutzt wer- den. Schließlich kann die Brisanz einer Information durch Modulation der Stimme ausgedrückt werden.
Die Erfindung hat den Vorteil, daß z. B. in einem Fahrzeug nur ein einziger Sprachgenerator mit kleinem Parameterspeicher von mehreren Informationsquellen ange-
steuert werden kann. Die Informationsquellen können dabei mit unterschiedlichen Stimmcharakteristiken ausgestattet werden.
Bei dem Einsatz einer Vollsyntheseeinrichtung, z. B. einer Vokaltrakt- Syntheseeinrichtung ergibt sich, daß das Verfahren sprecherunabhängig ist und keine hochwertigen Studioaufzeichnungen benötigt werden.
Bei einem erweiterten Formantsynthetisator kann erfindungsgemäß auch emotionaler Ausdruck in der Stimme mitgegeben werden.
Durch vorgefertigte Parameterschablonen kann sehr einfach die Stimmcharakteristik verändert werden. Das Verfahren eignet sich auch für die Umsetzung freier Texte in Sprache (Text to Speech), z. B. das Vorlesen von E-Mail.
Die Erfindung wird nachstehend anhand eines Ausführungsbeispiels und der Zeichnung näher erläutert.
Fig. 1 zeigt eine Prinzipdarstellung einer bevorzugten Ausführungsform der Erfindung zur differenzierten Sprachausgabe mit mehreren erfindungsgemäßen Syste- men.
Die in Fig. 1 dargestellte bevorzugte Ausführungsform der Erfindung weist eine Sprachausgabeeinheit 1 mit einer Sprachsyntheseeinrichtung 10 auf, die in dem Beispiel ein Vokaltraktsynthesemodul ist und auf einer Vollsynthese der Sprache beruht. Beispielsweise kann ein Formantsynthetisator wie KLATTALK eingesetzt werden. Die Sprachsyntheseeinrichtung 10 ist mit einem Verstärker 12 verbunden, dessen Ausgang 14 ein Audiosignal liefert, das über einen Lautsprecher (nicht dargestellt) Sprache ausgibt. Der Sprachsyntheseeinrichtung 10 sind N Parametersätze 21 , 22 bis 2N zugeordnet, die in dem gezeigten Beispiel in einem Speicher 20 der Sprachausgabeeinheit 1 gespeichert sind. Weiterhin sind N Systeme 31 , 32 bis 3N gezeigt, die jeweils über eine Datenverbindung, wie einzelne Leitungen, ein Bussystem oder Datenkanäle, mit der Sprachausgabeeinheit 1 verbunden sind. Jedes System kann über die Sprachausgabeeinheit eine Sprachausgabe durchführen. Im einzelnen ist ein Bordcomputer 31 mit einem zugehörigen Parametersatz für den Bord-
Computer 21 , ein Navigationssystem 32 mit einem zugehörigen Parametersatz für die Navigation 22, ein Verkehrsinformationssystem 33 mit einem zugehörigen Parametersatz für die Verkehrsinformation 23, ein E-Mail-System wie TTS-System 34 mit einem zugehörigen Parametersatz für E-Mail 24 vorhanden. Es können weitere Systeme 3N mit einem jeweiligen zugeordneten Parametersatz 2N vorgesehen werden. In dem gezeigten Beispiel ist es möglich, unter Verwendung einer einzigen Sprachausgabeeinheit 1 das Navigationssystem 32 zum Beispiel mit einer weichen weiblichen Stimme sprechen zu lassen, die durch den Parametersatz für das Navigationssystem 22 bestimmt ist. Weiter kann beispielsweise für Verkehrsmeldungen ein Parametersatz 23 vorgesehen sein, mit dem eine harte männliche Baßstimme bei der Sprachausgabe verwendet wird.
Die Reihenfolge der Sprachausgaben kann zeitlich nacheinander erfolgen entsprechend dem Eingang des Auftrags zur Sprachausgabe von den Systemen. Vorzugs- weise werden Informationen mit höherer Priorität, z.B. Verkehrsinformationen bei Gefahrsituationen wie Falschfahrer zuerst per Sprachausgabe ausgegeben. Besonders bevorzugt werden Informationen mit höchster Priorität, z.B. Informationen vom Bordcomputer über Fehlfunktionen des Fahrzeuges oder einsetzende Fahrbahnglätte sofort ausgegeben, wobei eine laufende Sprachausgabe unterbrochen werden kann. Die unterbrochene Sprachausgabe kann anschließend zu Ende geführt oder wiederholt werden.
Die Erfindung hat den Vorteil, daß Systeme mit akustischer Anzeige dem Fahrer, ohne ihn von seiner Aufgabe abzulenken, wie das bei visuellen Anzeigen der Fall ist, Auskunft von verschiedenen Systemen bereitzustellen. Durch den Einsatz einer Sprachsyntheseeinrichtung, die von verschiedenen Bordcomputern verwendbar ist, lassen sich Kosten sparen. Gegenüber bisher verwendeten sprachproduzierenden Verfahren bei beispielsweise Navigationssystemen läßt sich der Speicherplatzbedarf verringern.
Die Erfindung ist insbesondere in vorteilhafter Weise einsetzbar in Kraftfahrzeugen.