WO2002050815A1

WO2002050815A1 - Vorrichtung und verfahren zur differenzierten sprachausgabe

Info

Publication number: WO2002050815A1
Application number: PCT/EP2001/013488
Authority: WO
Inventors: Georg Obert; Klaus Bengler
Original assignee: Bayerische Motoren Werke Aktiengesellschaft
Priority date: 2000-12-20
Filing date: 2001-11-21
Publication date: 2002-06-27
Also published as: US7698139B2; DE50115798D1; US20030225575A1; EP1344211A1; EP1344211B1; JP2004516515A; DE10063503A1; ES2357700T3

Abstract

Die Vorrichtung und das Verfahren dienen zu einer differenzierten Sprachausgabe. Die in einem Fahrzeug vorhandenen Systeme wie Bordcomputer, Navigationssystem u. a. sind mit einer Sprachausgabevorrichtung verbindbar, wobei Sprachausgaben von verschiedenen Systemen über Stimmcharakteristika unterscheidbar sind.

Description

Vorrichtung und Verfahren zur differenzierten Sprachausgabe

Die vorliegende Erfindung betrifft eine Vorrichtung zur differenzierten Sprachausga- be bzw Spracherzeugung und ein zugehöriges Verfahren, Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesondere zum Einsatz in einem Fahrzeug.

In Fahrzeugen werden einzelne Systeme eingesetzt, die über eine akustische Mensch-Maschine-Schnittstelle zur Sprachausgabe verfügen. Bei diesen Systemen ist jeweils ein Sprachausgabemodul direkt zugeordnet. Die verwendeten sprachproduzierenden Verfahren beruhen meist auf Puls-Code-Modulation (= PCM), wobei eine nachfolgende Komprimierung (z. B. MPEG) angeschlossen sein kann. Andere Systeme verwenden Sprachsyntheseverfahren, die hauptsächlich über das Zusam- menstellen von Silbensegmenten (Phoneme) Worte und Sätze bilden (Signalmanipulation).

Bei den genannten Sprachausgabeverfahren besteht auch eine Sprecherabhängigkeit, die es erfordert, bei Erweiterung des Wort- oder Textumfanges immer wieder den gleichen menschlichen Sprecher für Aufnahmen zu bemühen. Des weiteren erfordern PCM-Verfahren genauso wie eine qualitativ hochwertige Phonemsynthese durch Signalmanipulation erheblichen Speicherplatz, um Texte oder Silbensegmente abzulegen. Bei beiden Verfahren nimmt der Speicherplatz noch erheblich zu, wenn unterschiedliche Landessprachen ausgegeben werden sollen.

Weiterhin sind Verfahren bekannt, die auf einer Vollsynthese der Sprache beruhen. Bekannt sind insbesondere Verfahren, die den menschlichen Vokaltrakt als elektrische Entsprechung umsetzen und mit einem Tongenerator und mehreren nachgeschalteten Filtern arbeiten (Quelle-Filter-Modell). Ein nach diesem Verfahren arbei- tendes Gerät ist ein sog. Formantsynthetisator (z. B. KLATTALK). Ein solcher Formantsynthetisator hat den Vorteil, daß die stimmcharakteristischen Eigenschaften beeinflußbar sind. Der Erfindung liegt die Aufgabe zugrunde, eine Vorrichtung und ein zugehöriges Verfahren bereitzustellen, mit denen eine differenzierte Sprachausgabe möglich ist, sowie Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesonde- re zur Verwendung in Fahrzeugen bereitzustellen.

Diese Aufgabe wird mit den Merkmalen der Patentansprüche gelöst.

Die Erfindung hat den Vorteil, daß mit einer einzigen Sprachausgabeeinrichtung bzw Sprachsyntheseeinrichtung Sprachausgaben für verschiedene Systeme möglich sind, wobei jedes System durch stimmcharakteristische Unterschiede identifizierbar ist.

Gemäß einer bevorzugten Ausführungsform der Erfindung ist für jedes System ein Parametersatz zugeordnet, der von der Sprachsyntheseeinrichtung bei einer Sprachausgabe von diesem System verwendet wird. Beispielsweise wird ein erster Parametersatz für einen Bordcomputer, ein zweiter Parametersatz für ein Navigationssystem, ein dritter Parametersatz für Verkehrsinformationen, ein vierter Parametersatz für ein TTS-System (Text to Speach-System), wie E-Mail und ein oder meh- rere weitere Parametersätze^' für zusätzliche Systeme bereitgestellt.

Abhängig von dem zugeordneten Parametersatz erzeugt die Sprachsyntheseeinrichtung die Sprachausgabe beispielsweise mit einer weichen weiblichen Stimme, z. B. für Sprachausgaben eines Navigationssystems, oder mit einer harten männlichen Baßstimme, z. B. für die Sprachausgabe von Verkehrsmeldungen.

Gemäß einer bevorzugten Ausführungsform der Erfindung wird ein Verfahren und eine Vorrichtung für eine Vollsynthese der Sprache verwendet, vorzugsweise ein Formantsynthetisator. Dabei werden die Steuerparameter für den Synthetisator in Klassen geteilt. Eine Klasse von dynamischen Parametern steuert die Artikulation, wie die Bewegung des Sprachtraktes beim Sprechen. Eine zweite Klasse von statischen Parametern steuert sprechercharakteristische Merkmale, wie die Generatorgrundfrequenz und feststehende Formanten, die bei einem Kind, einer Frau oder einem männlichen Sprecher durch die unterschiedliche geometrische Dimension des Sprachtraktes gebildet werden.

Bei einem erweiterten Modell des Formantsynthetisators ist eine getrennte Generie- rung von stimmhaften und stimmlosen Lauten möglich. Dabei können durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder eingeschaltet oder die dynamischen Parameter für die Artikulation beeinflußt werden.

Die erfindungsgemäße Vorrichtung bzw. das erfindungsgemäße Verfahren ist ins- besondere einsetzbar in Systemen eines Fahrzeuges. Jedes System hat für eine Sprachausgabe zwei Möglichkeiten, die Sprachausgabe zu steuern. Die erste Möglichkeit der Sprachausgabe umfaßt das Senden einer Ausgabe von Steuerbefehlen für die Sprachartikulation, wobei die Abfolge der Steuerparameter für Wörter, Sätze und Satzfolgen im System abgespeichert sind. Die zweite Möglichkeit zur Steuerung der Sprachausgabe erfolgt über eine zweite Ausgabe, die einen Parametersatz umschaltet, der für die Sprechercharakteristik bestimmend ist.

Alternativ oder zusätzlich ist es auch möglich, diesen Parameterdatensatz direkt im System zu speichern und bei einer erforderlichen Sprachausgabe den Parameterda- tensatz in die Sprachsyntheseeinrichtung zu laden.

Gemäß einer weiteren bevorzugten Ausführungsform, die alternativ oder zusätzlich zu den vorstehenden Ausführungsformen einsetzbar ist, können zur Unterscheidung der Informationsquellen, d. h. der Systeme, die eine Sprachausgabe durchführen, die Generator- und Formantparameter zusätzlich dynamisch geändert werden. Dadurch können hörbare Unterschiede in der Prosodie erreicht werden, wie die Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie. Im speziellen kann eine prosodische Modulation in Abhängigkeit z. B. von einer Verkehrslage o- der einer Verkehrssituation für die Sprachausgabe von Ansagetexten genutzt wer- den. Schließlich kann die Brisanz einer Information durch Modulation der Stimme ausgedrückt werden.

Die Erfindung hat den Vorteil, daß z. B. in einem Fahrzeug nur ein einziger Sprachgenerator mit kleinem Parameterspeicher von mehreren Informationsquellen ange- steuert werden kann. Die Informationsquellen können dabei mit unterschiedlichen Stimmcharakteristiken ausgestattet werden.

Bei dem Einsatz einer Vollsyntheseeinrichtung, z. B. einer Vokaltrakt- Syntheseeinrichtung ergibt sich, daß das Verfahren sprecherunabhängig ist und keine hochwertigen Studioaufzeichnungen benötigt werden.

Bei einem erweiterten Formantsynthetisator kann erfindungsgemäß auch emotionaler Ausdruck in der Stimme mitgegeben werden.

Durch vorgefertigte Parameterschablonen kann sehr einfach die Stimmcharakteristik verändert werden. Das Verfahren eignet sich auch für die Umsetzung freier Texte in Sprache (Text to Speech), z. B. das Vorlesen von E-Mail.

Die Erfindung wird nachstehend anhand eines Ausführungsbeispiels und der Zeichnung näher erläutert.

Fig. 1 zeigt eine Prinzipdarstellung einer bevorzugten Ausführungsform der Erfindung zur differenzierten Sprachausgabe mit mehreren erfindungsgemäßen Syste- men.

Die in Fig. 1 dargestellte bevorzugte Ausführungsform der Erfindung weist eine Sprachausgabeeinheit 1 mit einer Sprachsyntheseeinrichtung 10 auf, die in dem Beispiel ein Vokaltraktsynthesemodul ist und auf einer Vollsynthese der Sprache beruht. Beispielsweise kann ein Formantsynthetisator wie KLATTALK eingesetzt werden. Die Sprachsyntheseeinrichtung 10 ist mit einem Verstärker 12 verbunden, dessen Ausgang 14 ein Audiosignal liefert, das über einen Lautsprecher (nicht dargestellt) Sprache ausgibt. Der Sprachsyntheseeinrichtung 10 sind N Parametersätze 21 , 22 bis 2N zugeordnet, die in dem gezeigten Beispiel in einem Speicher 20 der Sprachausgabeeinheit 1 gespeichert sind. Weiterhin sind N Systeme 31 , 32 bis 3N gezeigt, die jeweils über eine Datenverbindung, wie einzelne Leitungen, ein Bussystem oder Datenkanäle, mit der Sprachausgabeeinheit 1 verbunden sind. Jedes System kann über die Sprachausgabeeinheit eine Sprachausgabe durchführen. Im einzelnen ist ein Bordcomputer 31 mit einem zugehörigen Parametersatz für den Bord- Computer 21 , ein Navigationssystem 32 mit einem zugehörigen Parametersatz für die Navigation 22, ein Verkehrsinformationssystem 33 mit einem zugehörigen Parametersatz für die Verkehrsinformation 23, ein E-Mail-System wie TTS-System 34 mit einem zugehörigen Parametersatz für E-Mail 24 vorhanden. Es können weitere Systeme 3N mit einem jeweiligen zugeordneten Parametersatz 2N vorgesehen werden. In dem gezeigten Beispiel ist es möglich, unter Verwendung einer einzigen Sprachausgabeeinheit 1 das Navigationssystem 32 zum Beispiel mit einer weichen weiblichen Stimme sprechen zu lassen, die durch den Parametersatz für das Navigationssystem 22 bestimmt ist. Weiter kann beispielsweise für Verkehrsmeldungen ein Parametersatz 23 vorgesehen sein, mit dem eine harte männliche Baßstimme bei der Sprachausgabe verwendet wird.

Die Reihenfolge der Sprachausgaben kann zeitlich nacheinander erfolgen entsprechend dem Eingang des Auftrags zur Sprachausgabe von den Systemen. Vorzugs- weise werden Informationen mit höherer Priorität, z.B. Verkehrsinformationen bei Gefahrsituationen wie Falschfahrer zuerst per Sprachausgabe ausgegeben. Besonders bevorzugt werden Informationen mit höchster Priorität, z.B. Informationen vom Bordcomputer über Fehlfunktionen des Fahrzeuges oder einsetzende Fahrbahnglätte sofort ausgegeben, wobei eine laufende Sprachausgabe unterbrochen werden kann. Die unterbrochene Sprachausgabe kann anschließend zu Ende geführt oder wiederholt werden.

Die Erfindung hat den Vorteil, daß Systeme mit akustischer Anzeige dem Fahrer, ohne ihn von seiner Aufgabe abzulenken, wie das bei visuellen Anzeigen der Fall ist, Auskunft von verschiedenen Systemen bereitzustellen. Durch den Einsatz einer Sprachsyntheseeinrichtung, die von verschiedenen Bordcomputern verwendbar ist, lassen sich Kosten sparen. Gegenüber bisher verwendeten sprachproduzierenden Verfahren bei beispielsweise Navigationssystemen läßt sich der Speicherplatzbedarf verringern.

Die Erfindung ist insbesondere in vorteilhafter Weise einsetzbar in Kraftfahrzeugen.

Claims

Patentansprüche

1. Vorrichtung zur differenzierten Sprachausgabe (1), die mit einem ersten System (31) und mindestens einem weiteren System (32, 33 bis 3N) verbindbar ist, wobei der Sprachausgabe des ersten Systems (31) eine erste Stimmcharakteristik zugeordnet ist und der weiteren Sprachausgabe des weiteren Systems (32, 33 bis 3N) eine weitere Stimmcharakteristik zugeordnet ist, die sich von der ersten Stimmcharakteristik hörbar unterscheidet.

2. Vorrichtung nach Anspruch 1 mit einer Sprachsyntheseeinrichtung (10), die Steuerparameter erhält, die eine erste Klasse von dynamischen Parametern und eine zweite Klasse von statischen Parametern aufweisen, wobei die dynamischen Parameter die Artikulation, entsprechend der Bewegung eines Sprachtraktes, und die statischen Parameter die stimmcharakteristischen Merkmale steuert .

3. Vorrichtung nach Anspruch 2, wobei die statischen Parameter eine Generatorgrundfrequenz und/oder feststehende Formanten aufweisen, die vorzugsweise der unterschiedlichen geometrischen Dimension des Sprachtraktes bei einem Kind, einer Frau oder einem männlichen Sprecher entsprechen.

4. Vorrichtung nach Anspruch 3, wobei Generator- und/oder Formantparameter für die Sprachausgabe von verschiedenen Systemen änderbar sind und vorzugsweise hörbare Unterschiede in der Prosodie wie der Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie bewirkt werden.

5. Vorrichtung nach einem der Ansprüche 2 bis 4, wobei die Sprachsyntheseeinrichtung (10) ein Formantsynthetisator ist, mit dem die stimmcharakteristischen Eigenschaften beeinflußbar sind.

6. Vorrichtung nach Anspruch 5, wobei der Formantsynthetisator geeignet ist, stimmhafte und stimmlose Laute getrennt zu generieren, und wobei insbesondere durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder ein- schaltbar sind und/oder die dynamischen Parameter für die Artikulation beeinflußbar sind.

7. Vorrichtung nach einem der Ansprüche 2 bis 6, wobei die dynamischen Parameter entsprechend der Abfolge von Wörtern, Sätzen und Satzfolgen in jedem System abgespeichert sind.

8. Vorrichtung nach einem der Ansprüche 2 bis 7, wobei die statischen Parameter als Parametersatz in jedem System gespeichert sind und bei einer erforderlichen Sprachausgabe dieser Parametersatz zur Sprachsyntheseeinrichtung (10) übertragen wird.

9. Vorrichtung nach einem der Ansprüche 2 bis 7, wobei die statischen Parameter für die Systeme als zugeordnete Parametersätze in einem Speicher (20) der Sprachausgabevorrichtung gespeichert sind und abhängig von einem Auswahlsig- nal eines Systems ein zugeordneter Parametersatz von der Sprachsyntheseeinrichtung (10) für die Sprachausgabe verwendet wird.

10. Vorrichtung nach einem der Ansprüche 2 bis 9, wobei die Sprachsyntheseeinrichtung (10) mit einem Verstärker (12) verbunden ist und über einen Audioaus- gang (14) des Verstärkers (12) eine Sprachausgabe erfolgt .

11. System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 10, mit einem ersten Ausgang zur Ausgabe von dynamischen Parametern und einem zweiten Ausgang zum Ausgeben eines Auswahlsignals zum Umschalten ei- nes Parametersatzes in der Sprachausgabevorrichtung (10).

12. System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 10, mit einem Ausgang zur Ausgabe von dynamischen Parametern und statischen Parametern vorzugsweise als ein Parametersatz an die Sprachausgabevorrichtung (10).

13. Kombination einer Vorrichtung nach einem der Ansprüche 1 bis 10 mit mindestens einem ersten und einem weiteren System, wie ein Bordcomputer (31), ein Navigationssystem (32), ein Verkehrsinformationssystem (33), ein E-Mail-System (34), oder ein Informationssystem (3N), vorzugsweise zur Verwendung in einem Fahrzeug.

14. Verfahren zur differenzierten Sprachausgabe unter Verwendung einer Vorrichtung nach einem der Ansprüche 1 bis 10.