Elektrogerät mit Spracheingabeeinheit und Verfahren zur Spracheingabe
Die vorliegende Erfindung betrifft eine Anordnung mit einem elektrisch betriebenen Gerat, mit einer Spracheingabeeinheit und mit einer Sprachverarbeitungsemheit, die aus ge- sprochenen Eingabebefehlen erforderliche Steuersignale ableitet zum Steuern von Funktionen des Gerätes, sowie ein Verfahren zur Spracheingabe mit Korrektur von Storsigna- len
Eine derartige Anordnung und ein derartiges Verfahren sind bekannt aus der Druckschrift WO 98/559 92, in der ein Haushaltsgerät beschrieben ist, das durch Sprachsignale steu- erbar ist Zur Vermeidung von Fehlfunktionen, beispielsweise durch Sprachsignale, die nicht von einer Bedienperson, sondern z B von einem Radio stammen, ist dabei vorgesehen, dass ein Steuerungsprogramm in der Weise ausgestaltet ist, dass aufeinanderfolgende Sprachsignale nur dann zur Bildung eines Steuerbefehls fuhren, wenn die aufeinanderfolgenden Sprachsignale innerhalb einer vorgebbaren Zeit eingegeben werden
Weiterhin ist bereits ein Produkt mit der Bezeichnung „SICARE pilot" (Firma evosoft Software-Vertrieb GmbH, D-9041 1 Nürnberg/Deutschland) für den REHA-Bereich bekannt, das ein mobiles Gerat umfasst, welches gesprochene Befehle in Signale umsetzt Die Ausgabe der Signale erfolgt durch Infrarot-Sender, z B für die Steuerung von Fernsehgeraten, Videorecordern, HiFi-Anlagen, Telefon und Beleuchtung, durch Funksender, z B für die Steuerung von Hausturen, Fahrstuhlen, Ruf- und Alarmanlagen oder durch drahtgebundene Schnittstellen, z B für die Steuerung von elektrisch angetriebenen Rollstuhlen und motorverstellbaren Betten Das bekannte Produkt, das für körperbehinderte Personen bestimmt ist ermöglicht die Speicherung von max 64 Befehlen Das mobile Gerat sendet den Befehl für die gewünschte Aktion, z B „Fernseher an" automatisch über die zuvor ausgewählte Schnittstelle an das entsprechende Gerat Jede einzelne An-
Weisung kann mehrere Gerate gleichzeitig ansprechen Das bekannte Produkt wird auf die individuellen Sprachmuster einer Person trainiert und realisiert damit eine sprecherab- hangige Spracherkennung Im Idealzustand sind andere Personen nicht in der Lage, aus gesprochenen Befehlen Signale zu bilden, die das Gerat steuern Die Spracherkennung ist bei dem bekannten Produkt in der Weise realisiert, dass vorgegebene Worte (z B
„HausM „Licht", „Vier", „Minus") gemäß einem Menubaum mit mehreren Zweigen zu sprechen sind, wobei die einzelnen Worte in beliebigem zeitlichen Abstand gesprochen werden können Wenn wegen einer Unpasslichkeit der körperbehinderten Person die Spracheingabe vorzeitig abgebrochen wird, können einzelne Worte, z B aus einem Ra- dio- oder Fernsehgerat, die in dem nach dem Spracheingabeabbruch anstehenden Zweig des Menubaums vorgesehen sind, zur Bildung von Signalen fuhren, die ein oder mehrere Gerate steuern
Weiterhin ist aus der Druckschrift DE 196 37 352 A1 ein Verfahren zur automatischen Spracherkennung bekannt, wobei für unterschiedliche Worte zunächst Referenz- Äußerungen aufgenommen werden, und dann aus denen Folgen von zeitlich aufeinanderfolgenden Referenz-Merkmalsvektoren gebildet werden, die jeweils auf ein einheitliches zeitliches Intervall abgebildet werden Aus den dabei entstehenden Folgen von Modellvektoren für die Referenz-Äußerungen wird für jedes Wort ein einziges Modell der Referenz-Äußerungen gebildet, dessen Komponenten aus Ausgleichsfunktionen beste- hen Ein zu erkennendes Wort wird zu einer Folge von Merkmaisvektoren verarbeitet, die jeweils auf dasselbe zeitliche Intervall abgebildet wird Die dabei entstehende Folge von Abbildungsvektoren wird in Vergleichsschntten mit den abgespeicherten Modellen verglichen
Weiterhin ist allgemein aus dem Fachbuch „Sprachsynthese und Spracherkennung", J N Holmes, R Oldenbourg-Verlag München, Wien 1991 bekannt, dass aus dem zeitlichen
Verlauf des Sprachsignals durchaus einige Informationen über den phonetischen Inhalt des Sprachsignals abgeleitet werden können Das Zeitsignal ist jedoch erfahrungsgemäß nicht dafür geeignet, die Eigenschaften der gesprochenen Sprache darzustellen, die für die allgemeine Sprachqualltat und die Wahrnehmung phonetischer Details am wichtigsten sind Angesichts der Bedeutung der Resonanzen und ihren zeitlichen Veränderungen bei der lautsprachlichen Kommunikation ist ein Verfahren zur Darstellung dieser Merkmale
notig Das Kurzzeitspektrum des Signals, das den Betrag der Fouπertransformation des Zeitsignais entspricht, nachdem es mit einer Zeitfensterfunktion angemessener Dauer multipliziert wurde, kann natürlich keine Informationen aufweisen, die nicht auch im Originalsignal enthalten ist Es ist jedoch für die Darstellung der Resonanzen und insbesonde- re für die rechnergestutzte Signalverarbeitung deutlich besser geeignet
Aufgabe der vorliegenden Erfindung ist es, eine Anordnung und ein Verfahren bereitzustellen, bei denen die Spracherkennung trotz vorhandener Störgeräusche verbessert ist
Erfmdungsgemaß ist dies bei einer Anordnung nach dem Oberbegriff des Patentanspruches 1 dadurch erreicht, dass eine Betπebsstatus-Erkennungseinheit vorgesehen ist die den Betriebsstatus des Haushaltsgerätes oder anderer Geräuschquellen erkennt und an die Sprachverarbeitungsemheit meldet, und dass die Sprachverarbeitungsemheit eine Storgerauschkorrektur nur vornimmt, wenn eine Gerauschquelle eingeschaltet ist Das erfindungsgemaße Verfahren zur Spracheingabe mit Korrektur von Storsignalen ist dadurch gekennzeichnet, dass bei der Spracheingabe zur Steuerung eines Gerätes der Be- tπebsstatus zumindest einer die Spracheingabe störenden Gerauschquelle abgefragt wird, und dass die Sprachverarbeitungsemheit eine Storgerauschkorrektur nur vornimmt, wenn eine Gerauschquelle eingeschaltet ist Erfmdungsgemaß wird also, wenn der Sprachverarbeitungsemheit ein Sprachsignal zur Erkennung vorgelegt wird, nicht versucht in jedem Fall eine Storgerauschkorrektur durchzufuhren Dies fuhrt in all den Fallen zu einer Verbesserung der Spracherkennung, in denen das Sprachsignal gar nicht durch
Störgeräusche belastet ist Denn durch den Versuch, ein nicht vorhandenes Störgeräusch aus dem Sprachsignal zu entfernen bzw korrigierend zu berücksichtigen, wird die Qualität des Sprachsignals verringert Damit fallt die Erkennungsrate der Sprachverarbeitungs- bzw Spracherkennungsemheit beim Stand der Technik
Vorteilhafter Weise ist vorgesehen, dass die Sprachverarbeitungsemheit in Abhängigkeit vom jeweiligen Betriebsstatus der Gerauschquelle deren Storsignal bei der Verarbeitung der gesprochenen Eingabebefehle korrigierend berücksichtigt Dazu ist gemäß einer bevorzugten Ausfuhrungsform vorgesehen, dass die Anordnung eine Speichereinheit aufweist, die mit der Sprachverarbeitungsemheit in Verbindung steht, und dass in der Spei- cheremheit für jede Gerauschquelle zu jedem Betriebsstatus ein dem Storsignal entspre-
chender Datensatz gespeichert ist In einer Lernphase, die beim Hersteller im Labor oder erst beim Endkunden beim in dem Haus oder in der Küche installiertem Gesamtsystem durchgeführt wird, werden Storgerauschquellen in verschiedenen Betriebsarten betrieben Das jeweilige Störgeräusch wird durch die Sprachverarbeitungsemheit verarbeitet und beispielsweise ein entsprechendes Storgerauschsprektrum als betπebsstatusspezifisches
Storsignal in der Speichereinheit abgelegt Beim eigentlichen Betrieb eines erfmdungs- gemaßen Elektrogerätes, insbesondere eines Haushaltsgerätes in der Küche, wird bei der Spracheingabe zur Steuerung des Gerätes dann zunächst überprüft, ob in der Lernphase analysierte Storquellen in Betrieb sind Falls dies nicht der Fall ist, wird der emge- gebene Sprachbefehl ohne Gerauschquellenkorrektur verarbeitet Falls jedoch ein Stor- gerat aktiv ist, wird dessen Betriebsstatus festgestellt und einer dem Betriebsstatus entsprechender Störgeräusch-Datensatz korrigierend bei der Signalverarbeitung bzw Spracherkennung berücksichtigt Das bzgl des Störgeräusches korrigierte Sprachsignal wird dabei in bekannter Weise verarbeitet Erfmdungsgemaß wird die Tatsache genutzt, dass die Anzahl der Storquellen und deren typischer Störgeräusche in einigen Anwendungsfallen sowohl begrenzt als auch bekannt sind Eine Storgerauschkorrektur muss also nicht mit allgemeinen Korrektur-Ansätzen erfolgen, sondern es können alternativ oder zusätzlich die bekannten Störgeräusche korrigierend berücksichtigt werden
Um die Variabilität und Emsatzfahigkeit der erfindungsgemaßen Anordnung zu steigern ist einerseits vorgesehen, dass die Betriebsstatus-Erkennungseinheit über eine elektrische Leitung oder über eine drahtlose Kommunikationsleitung mit der Gerauschquelle verbunden ist, und andererseits, dass die Anordnung mehrere Spracheingabeeinheiten aufweist, die räumlich verteilt, beispielsweise in der Küche oder in einem Haus angeordnet sind
Eine besonders sichere Spracherkennung kann realisiert werden, wenn die über die
Spracheingabe gesteuerten Gerate zumindest ein Kochfeld und eine darüber angeordnete Dunstabzugshaube sind, und als Storquelle die Dunstabzugshaube mit ihren verschiedenen Leistungsstufen berücksichtigt wird
Vorteilhafterweise ist vorgesehen, dass die Spracheingabeeinheit, die Sprachverarbei- tungsemheit und die Betriebsstatus-Erkennungseinheit in einem durch die Spracheingabe
gesteuerten Gerat, insbesondere in der Dunstabzugshaube, angeordnet sind In der Dunstabzugshaube ist bei gunstigen thermischen Bedingungen ausreichend Platz vorhanden, um die genannten Komponenten aufzunehmen Weiterhin kann dabei ein Mikrofon etwa in Hohe des Kopfes einer vor dem unterhalb der Dunstabzugshaube angeordneten Kochfeld stehenden Bedienperson angeordnet sein Das Mikrofon kann eine entsprechende Richtcharakteristik aufweisen, um nicht zu stark von der Dunstabzugshaube gestört zu werden
Nachfolgend sind anhand schematischer Darstellungen zwei Ausfuhrungsbeispiele der erfindungsgemaßen Anordnung und des Verfahrens beschrieben
Es zeigen
Fig 1 in einer perspektivischen Ansicht die Anordnung gemäß dem ersten Ausfuhrungsbeispiel,
Fig 2 in einem stark vereinfachten Blockdiagramm die wesentlichen Komponenten der Anordnung gemäß dem zweiten Ausfuhrungsbeispiel,
Fig 3 ein vereinfachtes Ablaufdiagramm der Sprachsignalerkennung und
Fig 4 den zeitlichen Verlauf eines Storsignals bei verschiedenen Betnebsstati
Gemäß Fig 1 weist das erste Ausfuhrungsbeispiel der Anordnung ein Kochfeld 1 auf das in einem Ausschnitt einer Arbeitsplatte 3 montiert ist Auf einer Kochfeldplatte 5 die insbesondere aus Glaskeramik ist, sind verschiedene Kochzonen 7 markiert Entsprechend der Eingaben über eine Bedien- und Anzeigeeinheit 9 des Kochfeldes 1 können in an sich bekannter Weise von unterhalb der Kochfeldplatte angeordneten Heizelementen über eine Steuereinheit auf den Kochzonen 7 abgestellte Kochgefaße (nicht gezeigt) beheizt werden Dabei ist die Bedien- und Anzeigeeinheit 9 aus Bequemlichkeits- und Sicherheitsgründen vorhanden Sie kann allerdings auf ein sicherheitstechnisch vorgeschnebe- nes Minimum reduziert werden, da die Gesamtanordnung auch über eine Spracheingabeeinheit verfugt, wie nachfolgend beschrieben ist Im Kochfeld 1 ist weiterhin eine Sen-
de- und Empfangseinheit 11 vorgesehen, die über eine drahtlos arbeitenden Ubertra- gungsstrecke U in an sich bekannter Weise mit einer oberhalb des Kochfeldes 1 angeordneten Dunstabzugshaube 13 kommunizieren kann Die Ubertragungsstrecke kann dabei beispielsweise als Funkstrecke realisiert sein Zur Kommunikation mit dem Koch- feld 1 verfugt die Dunstabzugshaube 13 auch über eine geeignete Sende- und Empfangseinheit 15 Weiterhin kann die Dunstabzugshaube 13 entsprechend dem Kochfeld Bedien- und Anzeigeelemente 17 aufweisen Um eine Spracheingabe zu ermöglichen, ist in der Dunstabzugshaube 13 ein geeignetes Mikrofon 19 eingebaut Dieses ist mit einer Sprachverarbeitungselektronik 21 verbunden, welche zugleich auch mit der Sende- und Empfangseinheit 15 verbunden ist An die Sende- und Empfangseinheit 15 und/oder die
Sprachverarbeitungselektronik 21 ist weiterhin eine Betriebsstatus-Erkennungseinheit 23 angeschlossen
Nachfolgend wird kurz die grundsätzliche Funktionsweise der in Fig 1 gezeigten Anordnung beschrieben Eine Bedienperson tritt an das Kochfeld 1 heran und spricht beispiels- weise zum Einschalten des Kochfeldes den Befehl „Kochfeld ein" in das aktiv geschaltete
Mikrofon 19 Die Betriebsstatus-Erkennungseinheit 23 meldet zugleich an die Sprachverarbeitungselektronik 21 , ob die Dunstabzugshaube 13 lauft und damit ein Störgeräusch (S) verursacht oder nicht Falls die Dunstabzugshaube 13 nicht lauft, wird der gesprochene Befehl ohne Gerauschquellenkorrektur in der Sprachverarbeitungselektronik 21 verar- beitet, der Befehl erkannt und das Kochfeld über die Ubertragungsstrecke U eingeschaltet Falls die Bedienperson nun weitere Sprachbefehle zum Arbeiten mit dem Kochfeld 1 eingibt, wie z B „Kochstelle 3 Stufe 9", wird jeweils überprüft, ob die Dunstabzugshaube 13 lauft Die Dunstabzugshaube 13 kann automatisch bei jedem Einschalten des Kochfeldes 1 gestartet werden Die Haube 13 kann jedoch auch erst gestartet werden, wenn ein entsprechender Startbefehl von der Bedienperson in das Mikrofon 19 gesprochen wird Falls wahrend des Betriebs der Dunstabzugshaube 13 ein Befehl zur Änderung des Betriebszustandes des Kochfeldes 1 in das Mikrofon 19 gesprochen wird, ermittelt die Betriebsstatus-Erkennungseinheit 23 den vorhandenen Betriebsstatus (BS) der Dunstabzugshaube 13 Beispielsweise ist jeder Geblasestufe (BS1 , BS2, ) der Haube 13 ein bestimmtes Storsignal (S1 , S2, ) als Datensatz zugeordnet Die Einheit 23 leitet das zu dem jeweiligen Betriebsstatus der Gerauschquelle bzw der Dunstabzugshaube 13 gehörende Störgeräusch-Datenmaterial an die Sprachverarbeitungselektronik 21 , die dann
zunächst in einem ersten Signalverarbeitungsschritt den gesprochenen Kochfeld-Befehl um den Storanteil befreit und dann in einem zweiten Signalverarbeitungsschritt das verbleibende, vorverarbeitete Sprachsignal weiterverarbeitet Beim Fehlen eines Störgeräusches entfallt dagegen erfmdungsgemaß der erste Signalverarbeitungsschritt Der Ablauf der Sprachsignalverarbeitung und der zeitliche Verlauf eines Storsignals (S) bei verschiedenen Betnebsstati (BS1 , BS3) sind in Fig 3 und 4 stark vereinfacht dargestellt
Gemäß dem zweiten Ausfuhrungsbeispiel nach Fig 2 sind die verschiedenen Hausgerate an einen Hausgeratebus 31 angeschlossen Dabei ist die Gesamtanordnung durch einen Herd 33, eine darüber angeordnete Dunstabzugshaube 13 und ein Mikrowellengerat 35 gebildet, die gemeinsam in einer Küche aufgestellt sind Weiterhin ist die Sprachverarbeitungselektronik 21 an den Hausgeratebus 31 angeschlossen, wobei die Elektronik 21 an jedem beliebigen Ort des Hauses vorgesehen sein kann Weiterhin sind verschiedene Mikrofone 19 vorgesehen, die sowohl direkt an die Sprachverarbeitungselektronik 21 als auch an den Hausgeratebus 31 mit angeschlossen sein können In Fig 2 ist gezeigt, dass die Sprachverarbeitungselektronik 21 über einen Storgerauschspeicher 37 verfugt, in dem für jedes Gerat, das als Storquelle auftreten kann, für jeden Betriebsstatus (BS1 , BS2, ) ein entsprechendes Storsignal (S1 , S2, ) als Datensatz abgelegt ist Typischerweise können bei der gezeigten Anordnung und dem oben beschriebenen Verfahren die Luftungsgerausche der Dunstabzugshaube 13 oder die Luftergerausche sowie die Brummgerausche des Trafos des Mikrowellengerates 35 bei der Spracheingabe zur
Steuerung des Herdes 33, der Dunstabzugshaube 13 oder des Mikrowellengerates 35 korrigiert werden