Verfahren und Vorrichtung für einen akustischen Zugang zu einem Anwendungsrechner
Die Erfindung betrifft eine Vorrichtung für einen akustischen Zugang zu mindestens einem Anwendungsrechner gemäß dem Oberbegriff des Anspruchs 1 und ein entsprechendes Verfahren gemäß dem Oberbegriff des Anspruchs 25.
Aus der DE 101 38 059 A1 sind eine Vorrichtung und ein Verfahren für einen akustischen Zugriff mittels Telefon auf ein Computernetzwerk, umfassend mindestens einen Anwendungsrechner, bekannt. Dateien des Anwendungsrechners liegen dabei mit textuellem und/oder graphischem Inhalt vor. In diesem Format eignen die Dateien sich beispielsweise für eine Wiedergabe auf einem Bildschirm. Die visuelle Wahrnehmung unterscheidet sich deutlich von einer akustischen Wahrnehmung. Eine direkte Übersetzung der Dateien mittels einer Text-to-Speech-(TTS) Einrichtung und eine akustische Wiedergabe der „Übersetzung" ist daher für einen Nutzer meistens nur schwer intuitiv erfassbar. Aus der DE 101 38 059 A1 ist daher ein Interpreter bekannt, wobei der Interpreter derart ausgebildet ist, dass Dateien des Anwendungsrechners mit textuellem und/oder graphischem Inhalt in ein Format umwandelbar sind, dass für ein Sprachgateway, umfassend einen automatischen Spracherkenner und eine Text-to- Speech-(TTS) Einrichtung, geeignet ist. Das Computernetzwerk ist somit durch das Telefon zugänglich, ohne dass eine Änderung der bestehenden Infrastruktur des Computernetzwerks notwendig ist. Um gewünschte Informationen aus dem Computernetzwerk zu erhalten, muss ein Nutzer sich jedoch im Regelfall durch verschiedene Ebenen eines Menüs durcharbeiten.
Der Erfindung liegt daher das technische Problem zugrunde, ein Verfahren und eine Vorrichtung für eine verbesserten akustischen Zugang zu einem Anwendungsrechner zu schaffen.
Die Lösung des Problems ergibt sich durch die Gegenstände mit den Merkmalen der Patentansprüche 1 und 25. Weitere vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
Hierfür umfasst ein Interpreter ein Dialog-Design, wobei ein Nutzer für einen Zugriff auf den Anwendungsrechner ergonomisch führbar ist. Daten und/oder Dokumente eines
Anwendungsrechners sind durch den Interpreter für das Format einer Ein- und/oder Ausgabeeinheit und/oder eines Sprach-Browsers aufbereitbar. Der Sprach-Browser umfasst einen automatischen Spracherkenner und eine Text-to-Speech-(TTS) Einrichtung. Das Dialog-Design soll nach Möglichkeit einen Dialog zwischen dem Nutzer und der Maschine gestalten, der intuitiv, menschlich, intelligent und/oder unterhaltsam ist. Durch die im Dialog gewonnenen Informationen ist der Inhalt eines Dokuments des Anwendungsrechners geeignet aufbereitbar, um so dem Nutzer möglichst schnell eine gewünschte Information zu liefern. Der Anwendungsrechner ist beispielsweise als Server eines Intranets und/oder des Internets ausgebildet. Daten und/oder Dokumente des Anwendungsrechners liegen dabei mit textuellem und/oder graphischem Inhalt vor. Daneben ist es auch denkbar, dass der Anwendungsrechner als ein Steuergerät ausgebildet ist und/oder einem Steuergerät zugeordnet ist und Daten aus einem speziellen Format des Steuergeräts in ein Format für die Mensch-Maschine- Kommunikation umzuwandeln sind. Durch eine Anpassung des Interpreters ist die Mensch-Maschine-Kommunikation an ein beliebiges Format des Anwendungsrechners anpassbar, ohne dass hierfür Änderungen in einer Soft- und/oder Hardware des Anwendungsrechners und/oder der Ein- und/oder Ausgabeeinheit notwendig sind.
In einer bevorzugten Ausführungsform ist der Interpreter mit einer „Barge-ln"-Funktion ausgebildet. Unter einem „Barge-In" wird eine Unterbrechung einer Textausgabe durch eine Spracheingabe eines Nutzers verstanden. Dadurch ist es dem Nutzer möglich, den Dialog und/oder eine Ausgabe einer Information jederzeit zu unterbrechen.
In einer bevorzugten Ausführungsform ist das Dialog-Design adaptiv ausgebildet. Dadurch ist der Dialog zwischen Nutzer und Anwendungsprogramm an besondere Vorlieben und/oder Eigenarten des Nutzers und/oder an eine bestimmte Anwendung anpassbar. Dadurch können Informationen bei einem erneuten Zugriff des Nutzers auf ein bestimmtes Anwendungsprogramm noch schneller zur Verfügung gestellt werden.
In einer weiteren bevorzugten Ausführungsform ist der Spracherkenner als Ganzworterkenner, sprecherunabhängig und/oder mit einem Wortschatzerweiter er ausgebildet. Ganzworterkenner erlauben es einem Nutzer in natürlicher Sprache und in ganzen Sätzen Informationen anzufordern. Durch eine Sprecherunabhängigkeit ist das System von mehreren Sprechern ohne Lernphase nutzbar. Es ist jedoch auch denkbar, den Spracherkenner mindestens teilweise an einen Sprecher anzupassen, um so spezielle Spracheigenschaften eines Nutzers zu berücksichtigen. Für eine Erweiterung des Wortschatzes werden Ansagen, welche nicht vom System verstanden wurden, als
„No-Match"-Dateien in einem Audio-Format abgespeichert. Die abgespeicherten Dateien werden vorzugsweise einem bestimmten Nutzer zugeordnet. Durch Auswertung der „No- Match"-Dateien sind bisher unbekannte Wörter in eine Grammatik und/oder ein Benutzerwörterbuch des Spracherkenners einarbeitbar. Vorzugsweise wird als Audio- Format ein WAV-Format verwendet.
In einer weiteren bevorzugten Ausführungsform ist die Ein- und/oder Ausgabeeinheit als Telefon ausgebildet. Mobiltelefone und Festnetztelefone sind weitverbreitete Kommunikationsmittel. Durch Nutzung des Telefons für einen Zugriff auf den Anwendungsrechner kann theoretisch jeder Telefonbesitzer und/oder Nutzer einer Telefonanlage auf den Anwendungsrechner zugreifen. In der Praxis kann der Zugang durch spezielle Einwahlcodes und/oder Identifizierungsverfahren beschränkt werden. In bestimmten Anwendungsumgebungen, beispielsweise in einem Fahrzeug, ist als Ein- und/oder Ausgabeeinheit alternativ oder zusätzlich eine Freisprechanlage und/oder ein Ausgang eines vorhandenen Audio-Systems nutzbar. Moderne Mobiltelefone sind vielfach mit einem Display ausgebildet. Eine derartige zusätzliche Ausgabemöglichkeit kann durch das System erkennbar sein, so dass neben einer Sprachausgabe eine graphische und/oder textuelle Ausgabe auf dem Display denkbar ist. Vorzugsweise sind die Daten des Anwendungsrechners dabei jedoch ebenfalls auf die beschränkte Größe des Displays geeignet anzupassen. Das Telefon kommuniziert beispielsweise über eine Bluetooth-Schnittstelle mit dem Interpreter und dem Sprachbrowser. Dabei ist es denkbar, dass der Interpreter und/oder der Sprachbrowser ein vorhandenes Telefon in ihrer Umgebung automatisch erkennen und versuchen, eine Kommunikation aufzubauen.
In einer weiteren bevorzugten Ausführungsform ist die Ein- und/oder Ausgabeeinheit als Ein-Tasten-Gerät ausgebildet. Die Taste dient der Aktivierung und/oder Deaktivierung des Geräts. Der Zugang zu Informationen des Anwendungsprogramms erfolgt ausschließlich über die Sprache. Dadurch ist eine besonders kompakte und einfache Ausbildung der Ein- und/oder Ausgabeeinheit möglich. Ein- und/oder Ausgabeeinheit, Interpreter und Sprach-Browser können dabei kompakt als ein Gerät ausgebildet sein. Das kompakte Gerät kann dabei mit Schnittstellen ausgebildet sein, welche eine Anbindung zusätzlicher Ein- und/oder Ausgabeeinheiten, beispielsweise eines Telefons und/oder eines Lautsprechers, ermöglichen.
In einer weiteren bevorzugten Ausführungsform ist der Interpreter als multimodal Interpreter ausgebildet, wobei Dateien des Anwendungsrechners mit textuellem und/oder
graphischem Inhalt, Dateien im Format des Sprach-Browser und/oder Dateien in einem Format des Ein- und/oder Ausgabegeräts ineinander umwandelbar sind. Der Interpreter bildet somit die Schnittstelle zwischen verschiedenen Technologien. Durch Anpassung des Interpreters sind weitere Technologien in die Kommunikation einbindbar, ohne bestehende Strukturen verändern zu müssen.
In einer weiteren Ausführungsform ist der Anwendungsrechner als Server ausgebildet. Über den Anwendungsrechner sind dadurch prinzipiell alle im Internet verfügbaren Dateien nutzbar. Dadurch können Daten für eine Anwendung zentral verwaltet und/oder gepflegt werden. Der Anwendungsrechner wird beispielsweise über einen Content- Anbieter gespeist. Dabei ist keine Anpassung der Daten des Content-Anbieters für die sprachgesteuerte Ein- und/oder Ausgabeeinheit notwendig.
In einer weiteren bevorzugten Ausführungsform ist die Ein- und/oder Ausgabeeinheit, der Interpreter, der Sprach-Browser und/oder der Anwendungsrechner in einem Fahrzeug integrierbar, wobei unter „integriert" jede kurzfristige oder längerfristige, lose oder feste Aufnahme in einem Fahrzeug verstanden wird. Dabei ist es denkbar, dass beispielsweise eine als Telefon ausgebildete Ein- und/oder Ausgabeeinheit kurzfristig in das Fahrzeug integriert wird, ohne dass hierfür eine mechanische Verbindung zwischen dem Fahrzeug und dem Telefon notwendig ist. Das Telefon kommuniziert über Funk mit einem Server, wobei der Server mit einem Interpreter und einem Sprach-Browser ausgebildet ist. Ist der Server mit dem Internet verbunden, so stehen dem Nutzer im Fahrzeug die Informationen des Internets zur Verfügung. Anstelle der Funkverbindung zu dem Server ist es auch denkbar, dass das Telefon eine im Fahrzeug vorhandene GPS und/oder GSM-Antenne nutzt. Die Verbindung zwischen dem Telefon und der Antenne ist beispielsweise durch eine Bluetooth-Schnittstelle realisierbar. Daneben ist es auch denkbar, dass Interpreter und Sprachbrowser in dem Fahrzeug integriert sind. Die Kommunikation zwischen der Ein- und/oder Ausgabeeinheit und dem Interpreter und/oder dem Sprach-Browser ist dabei unter Verwendung unterschiedlicher Protokolle denkbar. Sprachsignale werden vorzugsweise über das VoicelntemetProtokol (VolP) übermittelt, Steuerungssignale für die Ein- und/oder Ausgabeeinheit sind beispielsweise mit TCP versendbar. Es ist weiter denkbar, das auch der Anwendungsrechner dem Fahrzeug zugeordnet ist. Durch die Einbindung des Anwendungsrechners im Fahrzeug ist eine schnelle Kommunikation möglich. Vorzugsweise ist der Anwendungsrechner dabei mit einer Schnittstelle ausgebildet, welche eine Einbindung des Anwendungsrechners in ein Internet erlaubt. Dadurch können Informationen auf dem Anwendungsrechner von außen aktualisiert werden. Ist der Anwendungsrechner als
Server ausgebildet, so ist es weiter denkbar, dass Funktionen des Fahrzeugs über den Anwendungsrechner per Internet ansteuerbar sind. Dabei ist jedoch sicherzustellen, dass ausschließlich Berechtigten ein Zugang gewährt wird.
In einerweiteren bevorzugten Ausführungsform ist der Anwendungsrechner einer Büro- Anwendung, einer Hilfe-Funktion, einem Routenplaner, einem Navigationssystem und/oder einem Bedienhandbuch zugeordnet. Als Hilfe-Funktion ist dabei eine Funktion zu verstehen, welche Auskunft über die Vorrichtung zur sprachgesteuerten Kommunikation und deren Funktionen gibt. Im Bedienungshandbuch sind Funktionen des Fahrzeugs abgelegt.
In einer weiteren bevorzugten Ausführungsform umfasst die Büro-Anwendung ein eMail- Modul, ein Termin-Modul, ein Adressbuch-Modul und/oder ein Telefon-Modul.
Vorzugsweise sind durch das eMail-Modul eMails versendbar, empfangbar und weiterleitbar, wobei der Empfang eine Filterfunktion umfasst. Ein Nutzer kann beispielsweise aus einem bestehenden Adressbuch eMails an einen Empfänger durch Nennung des Namens versenden. Vorzugsweise ist der Befehl zum Senden der eMail gleichzeitig mit dem Empfänger in einem Satz sagbar. Dabei ist es denkbar, dass die Nachricht in Form einer Sprach-Datei, beispielsweise eines WAV-Files an den Empfänger übertragen wird. Daneben ist es auch denkbar, dass durch den Interpreter und/oder den Sprach-Browser die Sprach-Datei in eine geeignete Text-Datei übersetzt wird. Der Nutzer kann sich weiter eMails aus seinem Empfangsordner von einem beliebigen, im Vorfeld zu definierenden, externen Mail-Server, beispielsweise einem POP3 Mail-Account, vorlesen lassen. Dabei wird die als Text vorliegende eMail durch den Sprach-Browser in eine Sprach-Ausgabe übersetzt. Innerhalb der eMails seines Eingangsordners wird dem Nutzer zuerst der Absender, dann die Betreffszeile und danach der Text vorgelesen. Der Nutzer kann vorzugsweise zu jedem Zeitpunkt durch entsprechende Sprachbefehle Unterbrechern oder fortfahren. Der Nutzer kann innerhalb einer eMail diese durch Sprachbefehle sofort beantworten. Die Antwortmail ist dabei wieder als WAV-File und/oder übersetzt versendbar. Die eMail ist außerdem an einen Empfänger des Adressbuchs weiterleitbar. Durch eine Filterfunktion kann die Vorlesefunktion für eMails durch eine zusätzliche Angabe gefiltert werden. Dabei sind als Filter zum Beispiel folgende Angaben denkbar: „meine eMails von gestern", „... von heute", vom 21.01.2004", oder ,,... von meiner Familie", „... meinem Büro", „... von
Herr xxx". Das eMail-Modul sucht die entsprechenden eMails heraus und liest sie der
Reihe nach vor. Der Nutzer kann wiederum mit Hilfe der Befehle „weiter", „zurück", „die dritte" etc. zwischen den einzelnen gefundenen eMails navigieren.
In einer weiteren bevorzugten Ausführungsform wird der Nutzer automatisch über neue eMails informiertm wobei eine Empfindlichkeit einer Benachrichtigung einstellbar ist. Die Benachrichtigung erfolgt nur, wenn eine im Vorfeld definierte Anzahl an Nachrichten eingetroffen ist. Der Nutzer wird beispielsweise per Anruf über das Vorliegen neuer Nachrichten informiert. Der Dialog zwischen dem Anwendungsrechner und dem Nutzer nach Eintreffen der kritischen Zahl an Emails kann beispielsweise wie folgt gestartet werden. „Sie haben XX neue eMails. Wollen Sie diese jetzt abhören?" Dem Nutzer ist es somit freigestellt, die eMails abzuhören oder das Abhören auf einen späteren Zeitpunkt zu verschieben.
In einer weiteren bevorzugtenΑusführungsform ist für das Termin-Modul ein Vorausschau-Fenster bestimmbar. Der Nutzer kann ein Datum bestimmen, zu dem er seine Termine abrufen möchte, Vereinfacht kann ihm eine Drei-Tages-Vorschau durch Anwahl heute, morgen und übermorgen angeboten werden. Die Tage sind beispielsweise über eine bei einem Login-Prozess übergebene Systemzeit ermittelbar. Die Ansage der Termine zu einem ausgewählten Datum erfolgt automatisch, wobei der Nutzer vorzugsweise die Ansage jederzeit durch Sprachbefehle unterbrechen kann. Das Termin-Modul ist beispielsweise durch ein Web-Interface einfach pflegbar. Daneben sind Termine auch per Sprache durch den Nutzer eingebbar. Die Ansage des Nutzers ist dabei als Sprach-Datei unter dem gewünschten Datum ablegbar oder durch den Sprach- Browser und/oder den Interpreter in ein geeignetes Format für einen Eintrag in dem Termin-Modul übersetzbar.
In einer weiteren bevorzugten Ausführungsform stell das Adress-Modul ähnliche und/oder gleiche Namen zur Auswahl. Der Nutzer kann sich beispielsweise durch Nennung eines Namens per Telefon verbinden lassen und/oder eine eMail versenden. Die Namen werden in dem Adress-Modul gespeichert, wobei durch ein web-Interface eine einfach Pflege der Adressen möglich ist. Daneben ist eine automatische Kontaktgenerierung möglich. Beispielsweise werden Absendername und die zugehörige eMail-Adresse einer empfangenen eMail gespeichert, wenn die eMail gelesen wurden, nicht direkt gelöscht wurde und Name und Adresse vollständig vorhanden sind. Andere Kriterien für eine Speicherung sind durch den Nutzer definierbar. Bei Anwahl einer Person aus dem Adressbuch, für welche gleiche oder ähnlich klingende Namen abgelegt
sind, wird dem Nutzer eine Auswahlliste der zutreffenden Personen aus seinem Adressbuch genannt, aus welcher er anschließend auswählen kann.
In einer weiteren bevorzugten Ausführungsform ist das Telefon-Modul mit einer Hotword- Funktion ausgebildet. Durch das „Hotword" kann der Nutzer jederzeit die Verbindung per Sprachbefehl beenden.
In einer weiteren Ausführungsform umfasst das Hilfe-Modul eine Funktion für eine „Drei Sekunden Stille"-Hilfe, eine Fehler-Hilfe und/oder eine aktive Hilfe. Eine „Drei Sekunden Stille"-Hilfe erkennt, dass der Nutzer unschlüssig über den einzugebenden Befehl ist und unterstützt ihn beispielsweise durch Ansage möglicher Menüpunkte. Eine Fehler-Hilfe reagiert, wenn ein Befehl des Nutzers zum wiederholten Male nicht richtig verstanden wurde, und stellt beispielsweise eine direkte Verbindung zu einem Call-Center her. Die Empfindlichkeit kann dabei vorzugsweise durch den Nutzer vorgegeben werden. Eine aktive Hilfe ist als Funktion durch den Nutzer über ein Hotword anwählbar und unterstützt den Nutzer in der Nutzung der Sprachanwendung.
In einer weiteren bevorzugten Ausführungsform umfasst der Routenplaner eine Abfrage- Funktion für eine Abfrage von Stau- und/oder Gefahrenmeldungen. Grundlage für die Meldungen sind beispielsweise bundesweite Verkehrsmeldungen einer Landesmeldestelle der Polizei und/oder Routeninformationen von Webseiten. Der Nutzer in einem Fahrzeug hat die Möglichkeit verkehrsrelevante Informationen nach den Kriterien Strasse, Bundesland, Stadt und/oder Route abzufragen. Die allgemeinen Informationen werden entsprechend dieser Eingaben gefiltert. Die gefundenen Verkehrsmeldungen sind anschließend durch das System per Sprache ausgebbar.
In einerweiteren bevorzugten Ausführungsform umfasst die interaktive Bedienungsanleitung mindestens eine Gliederung und ein Stichwortverzeichnis. Der Inhalt der Bedienungsanleitung ist dadurch per Stichwort und/oder per Themengebiet durchsuchbar.
In einer weiteren bevorzugten Ausführungsform ist die interaktive Bedienungsanleitung durch Benutzereinstellungen und/oder mindestens ein Lesezeichen individualisierbar. Dadurch kann ein Nutzer bestimmte Themen der Bedienungsanleitung kennzeichnen und die gekennzeichneten Themen zu einem späteren Zeitpunkt direkt anwählen. Durch die Benutzereinstellungen ist es außerdem denkbar, dass eine Informationstiefe entsprechende einem Interesse des Nutzers voreinstellbar ist.
In einer weiteren bevorzugten Ausführungsform sind durch die interaktive Bedienungsanleitung step-by-step-Anweisungen ausgebbar. Durch step-by-step- Anweisungen kann ein Nutzer gezielt in die Bedienung bestimmter Anwendungen im Fahrzeug schrittweise eingewiesen werden.
In einer weiteren bevorzugten Ausführungsform ist die interaktive Bedienungsanleitung durch eine Transcoder erzeugbar und/oder aktualisierbar. Durch den Transcoder sind vorliegende Seiten eines Handbuchs, beispielsweise in XML, in entsprechende Informationen für eine Wiedergabe durch Sprache und/oder auf einer Anzeigeeinheit automatisch generierbar. Dadurch ist eine einfache Erweiterung der Bedienungsanleitung zu jedem Zeitpunkt möglich.
In einer weiteren bevorzugten Ausführungsform ist die interaktive Bedienungsanleitung an ein bestimmtes Fahrzeug anpassbar. Dadurch werden Informationen über bestimmte Ausführungsvarianten, beispielsweise Motorvarianten, Viertürer/Zweitürer, etc. berücksichtigt und der Nutzer wird gezielt über sein Fahrzeug informiert.
In einer weiteren bevorzugten Ausführungsform ist die interaktive Bedienungsanleitung an einen Nutzer anpassbar. Dadurch können beispielsweise auch unterschiedliche Fahrer eines Fahrzeugs unterschiedlich informiert werden. Eine mögliche Anpassungen ist beispielsweise eine Einstellung, gemäß welcher Texte automatisch vorgelesen werden oder erst nach einem Sprachbefehl.
Die Erfindung wird nachfolgend anhand eines bevorzugten Ausführungsbeispiels näher erläutert. Die Figuren zeigen:
Fig. 1 eine schematische Darstellung einer Technologiearchitektur für einen akustischen Zugang auf einen Anwendungsrechner,
Fig. 2 eine Startseite einer interaktiven Bedienungsanleitung,
Fig. 3 ein Inhaltsverzeichnis der interaktiven Bedienungsanleitung,
Fig. 4 eine Detailseite der interaktiven Bedienungsanleitung und
Fig. 5 ein Indexverzeichnis der interaktiven Bedienungsanleitung,
Fig. 1 zeigt schematisch einer Technologiearchitektur für einen akustischen Zugang auf einen Anwendungsrechner 4, umfassend eine Ein- und Ausgabeeinheit 1 , einen Interpreter 2 und einen Sprach-Browser 3. Die Ein- und Ausgabeeinheit 1 ist mit einem
Mikrofon 12, einem Lautsprecher 14, einer Anzeigeeinheit 16 und einer Antenne 18 ausgebildet. Bei der Ein- und Ausgabeeinheit kann es sich beispielsweise um ein kommerziell erhältliches Mobiltelefon, eine Pocket PC und/oder einen PDA handeln. Daneben ist es auch denkbar, mehrere Ein- und/oder Ausgabeeinheiten mit dem Interpreter 2 zu verbinden. Der Sprach-Browser 3 ist mit einer Spracherkennung 32, einer Text-to-Speech-Sprachausgabe 34, einem Audio Playback 36 und einem Audio Recording 38 ausgebildet. Die Ein- und Ausgabeeinheit 1 kommuniziert über Kanäle 21 ■, - 213 mit dem Interpreter 2, wobei die Kanäle zur Übertragung unterschiedlicher Signale dienen. Die Übertragung erfolgt per Funk mittels der Antenne 18. Es ist jedoch auch denkbar, die Ein- und/oder Ausgabeeinheit 1 für eine Übertragung mit dem Interpreter durch einen geeigneten Anschluss zum verbinden. Sprachsignale werden über den Kanal 2^ übertragen. Das zugehörige Protokoll ist das VoicelntemetProtokol. Signale zum Aufbau von Informationen auf der Anzeigeeinheit 16 werden über den Kanal 212 übertragen. Es handelt sich dabei um HTML Signale, welche über http übertragen werden. Signale zur Steuerung der Ein- und Ausgabeeinheit werden über den Kanal 213 gemäß TCP übertragen. Die Ein- und Ausgabeeinheit 1 nimmt Befehle eines Nutzers für den Anwendungsrechner 4 auf. Die Befehle sind dabei als Sprachbefehle eingebbar. Ist die Anzeigeeinheit 16 als Touchscreen ausgebildet, so sind durch eine Berührung der Anzeigeeinheit 16 ebenfalls Befehle eingebbar. Die durch die Ein- und Ausgabeeinheit 1 aufgenommenen Befehle werden an den Interpreter 2 übertragen. Befehle, die als Sprachbefehle eingegeben wurden, sind durch den Anwendungsrechner 4 im Regelfall nicht verständlich. Sie werden daher vor einer Weiterleitung an den Anwendungsrechner 4 dem Sprach-Browser 3 zugeführt. Mittels der Spracherkennung 32 ist der Sprach- Befehl in ein Signal für den Anwendungsrechner 4 umwandelbar. Dabei ist es denkbar, dass das Signal des Sprach-Browsers 3 vor einer Weiterleitung an den Anwendungsrechner 4 durch den Interpreter 2 geeignet aufbereitet wird. Der Interpreter 2 berücksichtigt für die Aufbereitung Eigenarten der Ein- und/oder Ausgabeeinheit, welche dem Anwendungsrechner 4 nicht bekannt sind. Dadurch lassen sich besondere Geräteeigenschaften, welche beispielsweise herstellerspezifisch auftreten, berücksichtigen, ohne dass eine Anpassung des Anwendungsrechners 4 notwendig ist. Daneben sind im Interpreter 2 auch nutzerbedingte Eigenschaften berücksichtigbar. TouchScreen Ereignisse können entweder direkt oder nach einer entsprechenden Aufbereitung durch den Interpreter 2 weitergeleitet werden. Der Sprach-Browser 3 und der Interpreter 2 kommunizieren über einen Kanal 23. Sie sind vorzugsweise als gemeinsames Bauteil ausgebildet. Bei einer getrennten Ausbildung des Interpreters 2 und des Sprach-Browsers 3 ist die Ein- und/oder Ausgabeeinheit 1 durch den Interpreter 2 und/oder durch den Sprach-Browser 3 steuerbar.
Vorzugsweise ist der Interpreter 2 und/oder der Sprach-Browser 3 derart ausgebildet, dass ein beliebiges Mobiltelefon angebunden werden kann. Die Verbindung erfolgt beispielsweise über Bluetooth, wobei ein in einem Fahrzeug vorhandener Interpreter 2 und/oder Sprach-Browser 3 ein Mobiltelefon im Sendebereich selbständig erkennt und eine entsprechende Verbindung aufbaut. In einer anderen Ausbildung sind der Interpreter 2 und/oder der Sprach-Browser 3 außerhalb des Fahrzeugs angeordnet. Die Verbindung zum Mobiltelefon erfolgt dabei beispielsweise über UMTS, GSM oder ähnliche Verbindungen.
Der Anwendungsrechner 4 ist beispielsweise einer Routenplanung für ein Fahrzeug, Büro-Anwendungen in einem Fahrzeug und/oder einer interaktiven Bedienungsanleitung in einem Fahrzeug zugeordnet. Je nach Anwendung ist der Anwendungsrechner 4 vorzugsweise im Fahrzeug oder außerhalb des Fahrzeugs angeordnet. Ein Anwendungsrechner 4, welcher einer Büro-Anwendungen zugeordnet ist, befindet sich vorzugsweise außerhalb des Fahrzeugs, beispielsweise auf einem Schreibtisch in einem Büroraum des Nutzers. Der Nutzer kann den Rechner per Sprache von einem beliebigen Ort aus anwählen. Dabei können die Ein- und Ausgabeeinheit 1 , der Interpreter 2 und der Sprach-Browser 3 beispielsweise als ein Gerät ausgebildet sein, über welches die Anwahl des Anwendungsrechners erfolgt. Daneben ist es auch denkbar, dass der Nutzer über ein Mobiltelefon oder eine ähnliche Ein- und Ausgabeeinheit 1 eine Zentrale anwählt, in welcher sich Interpreter 2 und Sprach-Browser 3 befinden und durch welche die Verbindung zum Anwendungsrechner 4 hergestellt wird.
Ist der Anwendungsrechner 4 einem interaktiven Bedienungshandbuch für ein Fahrzeug zugeordnet, so befinden sich die Ein- und Ausgabeeinheit 1 , der Interpreter 2, der Sprach-Browser 3 und der Anwendungsrechner 4 vorzugsweise im Fahrzeug. Als Ein- und/oder Ausgabeeinheit werden dabei -wenn vorhanden- zusätzlich ein im Fahrzeug integriertes Display und/oder eine vorhandene Freisprechanlage verwendet. Insbesondere wegen möglicher up-dates kann jedoch auch eine externe Anordnung des Anwendungsrechners 4 vorteilhafter sein.
Fig. 2 zeigt die Startseite auf einer Anzeigeeinheit für eine interaktive Bedienungsanleitung eines Fahrzeugs. Die Startseite umfasst eine Menüzeile 50 und eine Infofläche 52. In der Menüzeile 50 werden dabei mögliche Menüunterpunkte optisch wiedergegeben. Die möglichen Menüunterpunkte im dargestellten Beispiel sind „Vorlesen", „Gliederung", „Stichwörter", „Lesezeichen", „Einstellungen" und „Hilfe". Durch
„Hilfe" erhält der Nutzer Unterstützung bei der Handhabung des interaktiven Bedienungshandbuchs. Durch die „Einstellungen" kann der Nutzer beispielsweise wählen, ob ihm ein angezeigter Text automatisch vorgelesen werden soll oder nur wenn dies per Sprachbefehlgewünscht ist. Nach einem Einmaligen Vorlesen kann der Vorlesevorgang jederzeit durch den Sprachbefehl „Vorlesen" aus der Menüzeile 50 wiederholt werden. Im Beispiel begrüßt das System den Nutzer optisch und akustisch mit dem Text „Willkommen beim elektronischen Handbuch". Durch die Sprachbefehle „Bitte zeige mit die Gliederung", „Gliederung bitte", „Gliederung anzeigen", „Ich möchte die Gliederung sehen" oder einen ähnlichen Sprachbefehl, wird das Inhaltsverzeichnis der interaktiven Bedienungsanleitung aufgeschlagen.
Fig. 3 zeigt die Anzeige der Gliederung auf einer Anzeigeeinheit für die interaktive Bedienungsanleitung. Die Anzeige der Gliederung umfasst wieder die Menüzeile 50 und eine Infofläche 54. Auf der Infofläche 54 ist das Inhaltsverzeichnis der interaktiven Bedienungsanleitung wiedergegeben. Im Beispiel sind die Punkte „Fahren" und „Zündschloss" aufgeschlagen, sowie die zum Punkt „Zündschloss" gehörenden Unterpunkte „Elektronische Wegfahrsperre", „Stellungen des Zündschlüssels", „Motor abstellen", „Motor anlassen", „Zündschlüssel-Notentriegelung" und „Zündschlüssel- Abzugssperre". Durch den Befehl „Welche Stellungen des Zündschlüssels gibt es?" und/oder einen ähnlichen Befehl wechselt der Fahrer in die in Fig. 4 dargestellte Detailseite.
Fig. 4 zeigt die Anzeige der Detailseite „Stellungen des Zündschlüssels" auf einer Anzeigeeinheit für die interaktive Bedienungsanleitung. Die Anzeige der Gliederung umfasst eine Menüzeile 56 und eine Infofläche 58. Durch die Menüzeile 56 werden dem Nutzer Befehlsoptionen angezeigt. Dazu zählen die Möglichkeit, auf die höhere Ebene zurückzuspringen, sich die angezeigte Seite zu merken und/oder in den Detailseiten zu blättern. Auf der Infofläche 58 werden ihm die Stellungen des Zündschlüssels optisch angezeigt. Daneben ist eine Beschreibung der einzelnen Stellungen wiedergegeben. Der Nutzer kann sich die dargestellten Stellungen des Zündschlüssels auch akustisch beschreiben lassen.
Fig. 5 zeigt die Anzeige eines Indexverzeichnisses auf einer Anzeigeeinheit für die interaktive Bedienungsanleitung. Die Anzeige des Indexverzeichnisses umfasst wieder die Menüzeile 50 und eine Infofläche 59. Auf der Infofläche 59 ist ein Stichwortverzeichnis der interaktiven Bedienungsanleitung wiedergegeben. Im Beispiel sind Stichworte mit Anfangbuchstaben „A", nämlich „Automatikgetriebe",
„Automatikgetriebe mit Tiptronic" und „Automatische Distanzregelung ADR" angezeigt. Durch einen entsprechenden Sprachbefehl, beispielsweise „Gehe zu Buchstabe P", wird die Anzeige entsprechend verändert.
Ist die Anzeigeeinheit als Touchscreen ausgebildet, so ist neben dem Sprachbefehl auch eine Navigation in der interaktiven Bedienungsanleitung durch Berühren des Bildschirms denkbar. Dies ist insbesondere zum „Blättern" in längeren Textpassagen sehr vorteilhaft. Daneben ist eine weitere Eingabeeinheit denkbar, welche beispielsweise als Drück- Drehknopf ausgebildet ist, und durch welche der Nutzer entsprechende Menüpunkte wählen und durch Testspannungen scrollen kann. Durch die Möglichkeit, Eingabebefehle per Sprache zu geben, ist jedoch eine einfache Bedienung möglich. Dabei wird der Nutzer durch Dialoge mit dem System ergonomisch geführt, um so den Bedienungskomfort weiter zu verbessern. Da auch für die beschriebenen Office- Funktionen beispielsweise ein „Blättern" sinnvoll sein kann, wird allgemein eine kombinierte Eingabe mittels Sprache und Bedienelement wie beispielsweise Dreh-Drück- Geber oder Touch-Screen bevorzugt.