VERFAHREN UND VOORICHTUNG ZUR BEARBEITUNG EINES SPRACHSIGNALS FÜR DIE ROBUSTE SPRACHERKENNUNG
5 Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Bearbeitung eines Sprachsignals, welches Rauschen aufweist, für eine anschließende Spracherkennung.
Spracherkennung wird in zunehmendem Maße eingesetzt, um die 10 Bedienung von elektrischen Geräten zu erleichtern. Um eine Spracherkennung zu ermöglichen, muss ein sogenanntes akustisches Modell erstellt werden. Dazu werden Sprachkommandos trainiert, was beispielsweise - für den Fall einer sprecherunabhängigen Spracherkennung -schon werkseitig 15 erfolgen kann. Unter Training versteht man dabei, dass auf der Basis von mehrfachem Sprechen eines Sprachkommandos sogenannte, das Sprachkommando beschreibende, Merkmalsvektoren erstellt werden. Diese Merkmalsvektoren (die auch Prototypen genannt werden) werden dann in dem 20 akustischen Modell, beispielsweise einem sogenannten HMM (Hidden Markov Modell) gesammelt. Das akustische Modell dient dazu einer gegebenen Folge von aus dem Vokabular ausgewählten Sprachkommandos bzw. Wörtern die Wahrscheinlichkeit der beobachteten Merkmalsvektoren 25 (während der Erkennung) zu ermitteln.
Zur Spracherkennung bzw. Erkennung der fließenden Sprache wird neben einem akustischen Modell auch ein sogenanntes Sprachmodell benutzt, das die Wahrscheinlichkeit des 30 Aufeinanderfolgens einzelner Wörter in der zu erkennenden Sprache angibt.
Ziel von derzeitigen Verbesserungen bei der Spracherkennung ist es, nach und nach bessere Spracherkennungsraten zu 35 erzielen, d.h. die Wahrscheinlichkeit zu erhöhen, dass ein von einem Benutzer des mobilen Kommunikationsgeräts gesprochenes Wort oder Sprachkommando auch als dieses erkannt
wird.
Da diese Spracherkennung vielseitig eingesetzt wird, erfolgt die Benutzung auch in Umgebungen, die durch Geräusch gestört sind. In diesem Fall sinken die Spracherkennungsraten drastisch, da die im akustischen Modell, beispielsweise dem HMM befindlichen Merkmalsvektoren auf Basis von reiner, d.h. nicht mit Rauschen behafteter Sprache erstellt wurden. Dies führt zu einer unbefriedigenden Spracherkennung in lauten Umgebungen, wie etwa auf der Straße, in viel besuchten Gebäuden oder auch im Auto.
Ausgehend von diesem Stand der Technik ist es Aufgabe der Erfindung, eine Möglichkeit zu schaffen, Spracherkennung auch in geräuschbehafteten Umgebungen mit einer hohen Spracherkennungsrate durchzuführen.
Diese Aufgabe wird durch die unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche .
Es ist Kern der Erfindung, dass eine Verarbeitung des Sprachsignals stattfindet, bevor dieses beispielsweise einer Spracherkennung zugeführt wird. Im Rahmen dieser Verarbeitung erfährt das Sprachsignal eine Geräuschunterdrückung. Anschließend wird das Sprachsignal hinsichtlich seine
Signallevels bzw. Signalpegels normiert. Das Sprachsignal umfasst hierbei ein oder mehrere Sprachkommandos.
Dies hat den Vorteil, dass die Spracherkennungsraten für ein Sprachkommando bei einem derart vorverarbeiteten Sprachsignal mit geräuschbehafteter Sprache signifikant höher sind als bei einer herkömmlich Spracherkennung mit geräuschbehafteten Sprachsignalen .
Optional kann das Sprachsignal nach der Geräuschunterdrückung auch einer Einheit zur Bestimmung der Sprachaktivität zugeführt werden. Aufgrund dieses geräuschreduzierten
Sprachsignals wird dann festgestellt ob Sprache oder eine Sprachpause vorliegt. In Abhängigkeit davon wird der Normierungsfaktor für eine Signallevelnormierung festgelegt . Insbesondere kann der Normierungsfaktor so festgelegt werden, dass Sprachpausen stärker unterdrückt werden. Damit wird der Unterschied zwischen Sprachsignalabschnitten, in denen Sprache vorliegt und solchen, in denen keine vorliegt (Sprachpausen), noch deutlicher. Dies erleichtert eine Spracherkennung .
Ein Verfahren mit den oben beschriebenen Merkmalen kann auch bei sogenannten verteilten Spracherkennungssystemen angewendet werden. Ein verteiltes Spracherkennungssystem ist dadurch gekennzeichnet, dass nicht alle Schritte im Rahmen der Spracherkennung in derselben Komponente durchgeführt werden. Es ist also mehr als eine Komponenten erforderlich. Beispielsweise kann es sich bei einer Komponente um ein Kommunikationsgerät und bei einer weiteren Komponente um ein Element eines Kommunikationsnetzwerkes handeln. Hierbei findet beispielsweise die Sprachsignalerfassung bei einem als Mobilstation ausgestalteten Kommunikationsgerät statt, die eigentliche Spracherkennung dagegen in dem Kommunikationsnetzwerk-Element netze-seitig.
Dieses Verfahren lässt sich sowohl bei der Spracherkennung anwenden, als auch bereits bei der Erstellung des akustischen Modells, beispielsweise eines HMM's. Eine Anwendung bereits bei der Erstellung von akustischen Modellen_zeigt in Zusammenhang mit einer Spracherkennung, die auf einem erfindungsgemäß vorverarbeiteten Signal basiert, eine weitere Erhöhung der Spracherkennungsrate .
Weitere Vorteile werden anhand ausgewählter Ausführungsbeispiele dargestellt, die auch in den Figuren abgebildet sind.
Es zeigen:
Fig.l: Ein Histogramm, in dem Sprachsignale, die ein oder mehrere Sprachkommandos enthalten, gegenüber ihrem Signallevel aufgetragen sind, für den Fall eines Trainings zur Erstellung eines akustischen Modells; Fig.2: Ein Histogramm von Sprachsignalen gegenüber ihrem Signallevel für den Fall einer Spracher ennung; Fig.3: Eine schematische Ausgestaltung einer erfindungsgemäßen Verarbeitung; Fig.4: Ein Histogramm, in dem das geräuschreduzierte und sprachlevelnormierte Sprachsignal gegen den Sprachsignallevel aufgetragen ist; Fig. 5 Ein Histogramm, in dem das geräuschreduzierte Sprachsignal gegenüber dem Signallevel aufgetragen ist; Fig. 6 Ein Histogramm, in dem das Sprachsignal im Training erfindungsgemäß vorverarbeitet wird; Fig. 7 Das Schema einer verteilten Sprachverarbeitung; Fig. 8 Ein elektrisches Gerät, welches im Rahmen einer verteilten Sprachverarbeitung einsetzbar ist .
In Fig. 8 ist ein als Mobiltelefon bzw. Mobilstation MS ausgebildetes elektrisches Gerät dargestellt. Es verfügt über ein Mikrofon M zur Aufnahme von Sprachkommandos enthaltender Sprachsignale, eine Prozessoreinheit CPU zur Verarbeitung der Sprachsignale und eine Funkschnittstelle FS zum Übermitteln von Daten, beispielsweise verarbeiteten Sprachsignalen.
Das elektrische Gerät kann allein oder im Zusammenhang mit anderen Komponenten eine Spracherkennung bezüglich des aufgenommenen bzw. erfassten Sprachkommandos realisieren.
Es sollen nun zunächst eingehende Untersuchungen dargestellt werden, die zur Erfindung geführt haben:
In Fig. 1 ist ein Histogramm zu sehen, in dem Sprachsignale, welche eines oder mehrere Sprachkommandos enthalten, bezüglich ihres Signallevels L sortiert wurden und diese Häufigkeit H gegenüber dem Signallevel bzw. -pegel L aufgetragen wurde. Dabei enthält ein Sprachsignal S, wie es z.B. in den folgenden Figuren bezeichnet wird, ein oder mehrere Sprachkommandos. Zur Vereinfachung sei im Folgenden angenommen, dass das Sprachsignal ein Sprachkommando enthalte. Ein Sprachkommando kann beispielsweise bei einem als Mobiltelefon ausgestalteten elektrischen Gerät durch die Aufforderung "Anruf" sowie optional einem bestimmten Namen gebildet werden. Ein Sprachkommando muss bei einer
Spracherkennung trainiert_werden, d.h. auf Basis eines oftmaligen Sprechens des Sprachkommandos wird ein Merkmalsvektor oder werden mehrere, d.h. mehr als ein, Merkmalsvektoren erstellt. Dieses Training findet im Rahmen der Erstellung des akustischen Modells, beispielsweise des
HMM's statt, welches bereits herstellerseitig erfolgt. Diese Merkmalsvektoren werden später zur Spracherkennung herangezogen .
Das Training von Sprachkommandos, welches zur Erstellung von Merkmalsvektoren dient, wird auf einem festgelegten Signallevel bzw. Lautstärkepegel durchgeführt ("Single Level Training") . Um den dynamischen Bereich des AD-Wandlers zum Umwandeln des Ξprachsignals in ein digitales Signal optimal auszunutzen, wird vorzugsweise bei -26 dB gearbeitet. Die Festlegung auf Dezibel (dB) ergibt sich aus den für den Signallevel zur Verfügung stehenden Bits . So würde 0 dB einen Überlauf bedeuten (also ein Überschreiten der maximalen Lautstärke bzw. des maximalen Pegels ) . Alternativ kann anstelle eines "Single Level Trainings" auch ein Training auf mehreren Signallevels, beispielsweise bei -16, -26 und -36
dB durchgeführt werden.
In Fig. 1 ist hierbei die Häufigkeitsverteilung des Sprachlevels bei einem Sprachkommando für ein Training zu sehen.
Es ergeben sich für ein Sprachkommando ein mittlerer Signalwert Xmean sowie eine gewisse Verteilung der Levels des Sprachsignals. Dies kann als eine Gauss-Funktion mit dem mittleren Signallevel Xmean und einer Varianz σ dargestellt werden .
Nachdem in Fig. 1 die Verteilung der Sprachkommandos für eine Trainingssituation zu sehen ist, ist in Fig. 2, welche wiederum die Häufigkeit H gegenüber dem Signallevel L entsprechend Fig. 1 angibt die Situation bei einer Spracherkennung dargestellt: Es ist hier das Sprachsignal S' mit einem oder mehreren Sprachkommandos, wie es in den nachfolgenden Figuren bezeichnet wird, hinsichtlich seines Signallevels L sortiert und die Häufigkeit H aufgetragen.
Aufgrund von Umgebungseinflüssen ergibt sich auch nach einer bereits angewendeten Geräuschunterdrückung NR (vgl. Fig. 3) eine gegenüber der Trainingssituation in Fig. 1 verschobene Verteilung mit einem neuen, gegenüber dem Mittelwert Xmean im Training verschobenen mittleren Signallevel xmean-
Es hat sich in Untersuchungen erwiesen, dass die Spracherkennungsrate aufgrund dieses verschobenen mittleren Signallevels xmean drastisch zurückgeht.
Dies ist aus der nachfolgenden Tabelle 1 zu ersehen:
Tabelle 1: Training mit reiner ("clean") Sprache verschiedener Lautstärkestufen bzw. Signallevel (Multi- Level) .
Die Spracherkennungsraten beziehen sich auf Testsprache, die auf die Signallevel -16, -26, -36 dB normalisiert wurde.
In Tabelle 1 ist die Spracherkennungsrate bzw.
Worterkennungsrate für verschiedene Gerauschumgebungen aufgeführt, wobei ein Training mit geräuschfreier Sprache ("Clean Speech") verschiedener Lautstärke stattgefunden hat. Die Testsprache, also das Spraσhsignal aus Fig. 1 wurde auf drei unterschiedliche Levels bzw. Pegeln bei -16 dB, -26 dB und -36 dB normiert. Für diese unterschiedlichen Testsprachenergielevel sind die Spracherkennungsraten für unterschiedliche Arten von Geräuschen mit einem Geräuschpegel von 5 dB aufgezeigt. Bei den unterschiedlichen Geräuschen handelt es sich um typische Umgebungsgeräusche wie etwa U-
Bahn bzw. "subway", sogenanntes Babble Noise, d.h. z.B. eine Cafeteria-Umgebung mit Sprache und anderen Geräuschen, das Hintergrundgeräusch in einem Auto bzw. "car", sowie eine AusStellungsumgebung bzw. "exhibition", (d.h. ähnlich wie Babble Noise nur schlimmer evtl. mit Durchsagen, Musik usw.) . Aus der Tabelle 1 ist ersichtlich, dass die Spracherkennung bei geräuschfreier Sprache weitgehend unbeeinflusst ist von Variationen im Testspracheenergielevel . Allerdings ist für geräuschbehaftete Sprache signifikanter Abfall der Spracherkennung zu erkennen. Zur Spracherkennung wurde hierbei die weiter unten beschriebene terminalbasierte Vorverarbeitung AFE, die zur Erstellung der Merkmalsvektoren dient, herangezogen.
Bei den in Tabelle 1 untersuchten Spracherkennungsraten - die gleichwohl nicht befriedigend sind- ist die Situation dennoch gegenüber einer Spracherkennung basierend auf einem Training mit nur einer Lautstärkenstufe wesentlich verbessert.
In anderen Worten, der Effekt, den ein Umgebungsgeräusch auf ein akustisches Modell hat, das auf Basis nur einer Lautstärke der Trainingssprache erstellt wurde, ist noch deutlicher verschlechternd.
Dies hat zu den im folgenden dargestellten erfindungsgemäßen Verbesserungen geführt:
In Fig. 3 ist nun der Ablauf gemäß einer Ausführungsform der Erfindung dargestellt. Das Sprachkommando bzw. Sprachsignal S, z.B. ein von einem Menschen gesprochenes Wort erfährt eine Geräuschunterdrückung NR. Nach dieser Geräuschunterdrückung NR liegt ein geräuschunterdrücktes Sprachsignal S' vor.
Das geräuschreduzierte Sprachsignal S " wird anschließend einer Signallevelnormierung bzw. Normierung des Signalwertes SLN unterzogen. Diese Normierung dient zur Herstellung eines Signalwertes, der mit dem mittleren Signalwert, der in Fig. 1 mit Xmean gekennzeichnet ist, vergleichbar ist. Es hat sich herausgestellt, dass bei vergleichbaren Signalmittelwerten höhere Spracherkennungsraten erzielt werden. Das heißt, dass durch diese Verschiebung des Signalwertes die Spracherkennungsrate bereits erhöht wird.
Im Anschluss an die Signalwertnormierung SLN liegt ein normiertes und geräuschreduziertes Sprachsignal S'' vor. Dies kann im Folgenden z.B. bei einer Spracherkennung SR mit einer höheren Spracherkennungsrate auch bei einer ursprünglich mit Rauschen behafteten Testsprache, verwendet werden.
Optional wird das geräuschreduzierte Signal S ' aufgespalten und fließt neben der Signalwertnormierung SLN auch einer Sprachaktivitätsbestimmungseinheit bzw. "Voice Activity Detection" VAD zu. In Abhängigkeit davon, ob Sprache oder eine Sprachpause vorliegt, der Normierungswert, mit dem das geräuschreduzierte Sprachsignal S1 normiert wird, eingestellt
werden. Beispielsweise kann in Sprachpausen ein kleinerer multiplikativer Normierungsfaktor verwendet werden, wodurch der Signallevel des geräuschreduzierten Sprachsignals S ' in Sprachpausen stärker reduziert wird, als während des Vorliegens von Sprache. Damit ist eine stärkere Unterscheidung zwischen Sprache, also z.B. einzelnen Sprachkommandos, und Sprachpausen möglich, was eine nachgeschaltete Spracherkennung hinsichtlich der Spracherkennungsrate weiter deutlich verbessert.
Weiterhin ist es vorgesehen, den Normierungsfaktor nicht nur zwischen Sprachpausen und Sprachabschnitten zu verändern, sondern auch innerhalb eines Wortes für unterschiedliche Sprachabschnitte zu variieren. Auch dadurch kann die Spracherkennung verbessert werden, da einige Sprachabschnitte aufgrund der in ihnen enthaltenen Phoneme einen sehr hohen Signallevel, beispielsweise bei Plosivlauten (z.B. p) , aufweisen, während andere eher inhärent leise sind.
Für die Signallevelnormierung werden unterschiedliche
Methoden herangezogen, beispielsweise eine Echt-Zeit-Energie- Normalisierung, wie sie im Artikel "Robust Endpoint Detection and Energy Normalisation for Real-Time Speech and Speaker recognition" von Qi Li et al . in IEEE Transactions on Speech and Audio Processing Vol. 10, No . 3, März 2002 im Abschnitt C (S. 149-150) beschrieben wird. Im Rahmen der ITU wurde weiterhin eine Signallevelnormierungsmethode beschrieben, die unter ITU-T, '"SVP56: The Speech Voltmeter'', in Software Tool Library 2000 User ' s Manual, Seiten 151-161, Genf, Schweiz, Dezember 2000 zu finden ist. Die dort beschriebene Normierung arbeitet "off-line" bzw. in einem sogenannten "Batch-Modus", d.h. nicht zeitgleich bzw. zeitnahe mit der Spracherfassung.
Für die Geräuschreduktion bzw. Geräuschunterdrückung NR (vgl. Fig.3) sind ebenfalls verschiedene bekannte Methoden vorgesehen, beispielsweise im Frequenzraum operierende
Methoden. Eine solche Methode ist in "Computationally efficient speech enhancement using RLS and psycho-acoustic motivated algorithm" von Ch. Beaugeant et al . in Proceedings of 6th World Multi-conference on Systemics, Cybernetics and Informatics, Orlando 2002 beschrieben. Das dort beschrieben System basiert auf einem Analyse-durch-Synthese System, bei dem rahmenweise rekursiv die das (reine) Sprachsignal und das Rauschsignal beschreibende Parameter extrahiert werden (vgl. dort Abschnitt 2 "Noise Reduction in the Frequency Domain", Abschnitt 3 "Recursive Implementation of the least Square algorithm") . Das so erhaltene reine Sprachsignal wird weiterhin gewichtet (Vgl. Abschnitt 4 "Practical RLS Weighting Rule") und eine Schätzung der Leistung des Rauschsignals erfolgt (Vgl. Abschnitt 5 "Noise Power Estimation") . Optional kann eine Verfeinerung des erhaltenen Resultats mittels psychoakustisch motivierter Methoden erfolgen (Abschnitt 6: "Psychoacoustic motivated method"). Weitere Geräuschreduktionsmethoden, die gemäß einer Ausführungsform nach Fig. 3 herangezogen werden können sind beispielsweise in ETSI ES 202 0505 VI.1.1 vom Oktober 2002 in Abschnitt 5.1 ("Noise Reduction") beschrieben.
Ein in Bezug auf Geräuschunterdrückung NR und Signallevelnormierung SN unbearbeitetes Sprachsignal S liegt den Häufigkeitsverteilungen in den Fig. 1 (Trainingssituation) und 2 (Testsituation, d.h. für eine Spracherkennung) zugrunde. Das geräuschreduziert Sprachsignal S' liegt der Häufigkeitsverteilung in der Figur 5 zugrunde. Das geräuschreduzierte und signallevelnormierte Signal liegt den Verteilungen in den Figuren 4 (Testsituation) und 5 (Trainingssituation) zugrunde.
Die zugrundeliegende Idee des in Fig. 3 gezeigten, schematischen Ablaufes einer SprachsignalVerarbeitung zu einer nachgeordneten Spracherkennung ist in den Figuren 4 bis 6 dargestellt.
In Fig. 5 ist eine Häufigkeitsverteilung für ein geräuschreduziertes Sprachsignal S' dargestellt, wie es z.B. in Fig. 3 nach der Geräuschunterdrückung NR auftritt. Gegenüber Fig. 2, die sich z.B. auf die Häufigkeits erteilung für ein in Fig. 3 dargestelltes Sprachsignal S bezieht, wurde also nach eine Geräuschunterdrückung NR durchgeführt.
Das Zentrum der Häufigkeitsverteilung dieses geräuschreduzierten Sprachsignals S ' gegenüber dem Sprachlevel L befindet sich bei einem Mittelwert xmean ' • Die
Verteilung hat eine breite σ' . Im Übergang zu Fig. 4 wird auf das in Fig. 5 dargestellte geräuschreduzierte Sprachsignal S' eine Signallevelnormierung SLN durchgeführt. Damit würde das der Verteilung in Fig. 4 zugrundeliegende Sprachsignal beispielsweise dem geräuschreduzierten und signallevelnormierten Sprachsignal S1' entsprechen. Eine Signallevelnormierung bringt den tatsächlichen Signallevel in Fig. 5, auf einen gewünschten Signallevel, beispielsweise den in Fig. 1 mit Xmean gekennzeichneten, im Training erzielten Signallevel. Weiterhin führt die
Signallevelnormierung SLN dazu, dass die Verteilung schmaler wird, d.h. also dass σ' ' kleiner ist als σ' . Dadurch kann der mittlere Signallevel xmean'' i-n Fig. 4 leichter mit dem mittleren Signallevel Xmean in. Fig. 1, welcher im Training erzielt wurde, zur Deckung gebracht werden. Dies führt zu höheren Spracherkennungsraten.
Im Zusammenhang mit Fig. 7 wird nun auf eine Anwendung des oben erläuterten für eine Spracherkennung eingegangen.
Wie bereits eingangs dargelegt, kann die Spracherkennung in einer Komponente oder auf mehrere Komponenten verteilt stattfinden.
Beispielsweise können sich in einem elektrischen Gerät MS, welches als Mobilstation ausgebildet ist, Mittel zum Erfassen des Sprachsignal, z.B. das in Fig. 8 gezeigt Mikrofon M,
Mittel zur Ger uschunterdrüσkung NR und Mittel zur Signallevelnormierung SN befinden. Letztere können im Rahmen der Prozessoreinheit CPU realisiert werden. Damit kann die in Fig. 3 dargestellte Idee einer SprachsignalVerarbeitung gemäß einer Aus ührungsform der Erfindung sowie die sich anschließende Spracherkennung in einem Mobilfunkgerät bzw. Mobilstation allein oder im Zusammenhang mit einem Element eines Kommunikationsnetzes implementiert werden.
Gemäß einer der Alternativen erfolgt die Spracherkennung SR (siehe Fig. 3) selbst netz-seitig. Dazu werden die aus einem Sprachsignal S'' erstellten Merkmalsvektoren über einen Kanal, insbesondere einen Funkkanal zu einer zentralen Einheit im Netz übertragen. Dort findet auf Basis der übertragenen Merkmalsvektoren dann die Spracherkennung auf
Basis des insbesondere bereits werkseitig erstellten Modells statt. Werkseitig kann insbesondere bedeuten, dass das akustische Modell vom Netzbetreiber erstellt wird.
Insbesondere kann die vorgeschlagene Spracherkennung auf sprecherunabhängige Spracherkennung, wie sie im Rahmen des sogenannten Aurora Szenarios vorgenommen wird, angewendet werden . Eine weitere Verbesserung ergibt sich, wenn Sprachkommandos bereits bei der werkseitigen Herstellung des akustischen Modells bzw. dem Training hinsichtlich ihres Signallevels normiert werden. Dadurch wird nämlich die Verteilung der Signallevel schmaler, wodurch eine noch bessere Übereinstimmung zwischen der in Fig. 4 gezeigten Verteilung und der im Training erzielten Verteilung erreicht wird. Eine solche Verteilung der Häufigkeit H gegenüber dem Signalpegel L bei einem Sprachkommando im Training, bei dem bereits eine Signallevelnormierung durchgeführt wurde, ist in Fig. 6 dargestellt. Der sich ergebende Trainings-Mittelwert Xmean_neu stimmt mit dem dem Mittelwert xmean ' ' (Fig.4) der geräuschreduzierten und signallevelnormierten Sprachsignals S"' (Fig.3) überein. Wie bereits dargelegt ist eine
Übereinstimmung der Mittelwerte eines der Kriterien für eine hohe Spracherkennungsrate.Weiterhin ist die Breite der Verteilung in Fig. 6 sehr schmal, was es erleichtert, diese Verteilung mit der Verteilung in Fig. 4 zur Deckung zu bringen, d.h. auf den gleichen Signallevel zu bringen.
In Fig.7 ist eine verteilte Spracherkennung bzw. "Distributed Speech Recognition" (DSR) dargestellt . Eine verteilte Spracherkennung kann beispielsweise im Rahmen bereits erwähnten AURORA-Projekts der ETSI STQ (Speech Transmission Quality) Anwendung finden.
Bei einer verteilten Spracherkennung wird bei einer Einheit ein Sprachsignal, beispielsweise ein Sprachkommando erfasst und dieses Sprachsignal beschreibende Merkmalsvektoren erstellt. Diese Merkmalsvektoren werden zu einer anderen Einheit, beispielsweise einem Netzwerkserver übertragen. Dort werden die Merkmalsvektoren verarbeitet und auf Basis dieser Merkmalsvektoren eine Spracherkennung durchgeführt.
In Fig. 7 ist eine Mobilstation MS als erste Einheit bzw. Komponente und eine Netzwerkelement NE dargestellt.
Die Mobilstation MS, welche auch als Terminal bezeichnet wird, weist Mittel AFE zurterminalbasierte Vorverarbeitung, die zur Erstellung der Merkmalsvektoren dient, .
Beispielsweise handelt es sich bei der Mobilstation MS um ein
Mobilfunk-Endgerät, portablen Computern, oder ein beliebiges anderes mobiles Kommunikationsgerät. Bei dem Mittel AFE zur terminalbasierten Vorverarbeitung handelt es sich beispielsweise um das im Rahmen des AURORA-Projekts diskutierte "Advanced Front End" .
Das Mittel AFE zur terminalbasierten Vorverarbeitung umfasst Mittel zur Standardbearbeitung von Sprachsignalen. Diese Standard-Sprachverarbeitung ist beispielsweise in der Spezifikation ETSI ES 202050 VI.1.1 vom Oktober 2002 in Bild
4.1 beschrieben. Auf Seiten der Mobilstation beinhaltet die Standard-Sprachverarbeitung eine Merkmalsextraktion mit den Schritten Geräuschreduktion, Signalform bzw. "Waveform- Processing", Cepstrum-Berechnung sowie einen verdeckten Ausgleich bzw. "Blind Equalization" . Anschließend erfolgt einer Merkmalskompression und eine Vorbereitung der Übertragung. Diese Verarbeitung ist dem Fachmann bekannt, weshalb hier nicht näher darauf eingegangen wird. Gemäß einer Ausgestaltung der Erfindung umfassen die Mittel AFE zur terminalbasierten Vorverarbeitung auch Mittel zur Signallevenormierung und Sprachaktivitätsdetektion, damit eine Vorverabeitung gemäß Fig. 3 realisiert wird.
Diese Mittel können in die Mittel AFE integriert oder alternativ als getrennte Komponente realisiert sein.
Über sich anschließende Mittel FC zur
Merkmalsvektorkomprimierung terminalbasierte Vorverarbeitung AFE werden der eine oder die mehreren Merkmalsvektoren, welche aus dem Sprachkommando erstellt werden, zum Zwecke der Übertragung über einen Kanal CH komprimiert.
Die andere Einheit wird beispielsweise durch einen Netzwerkserver als Netzwerkelement NE gebildet. In diesem Netzwerkelement NS werden die Merkmalsvektoren über Mittel FDC zur Merkmalsvektordekompression wieder dekomprimiert .Weiterhin erfolgt über Mittel SSP erfolgt eine serverseitige Vorverarbeitung , um dann mit Mitteln SR zur Spracherkennung eine Spracherkennung auf Basis eines Hidden Markov Modells HMM durchzuführen.
Die Ergebnisse von erfindungsgemäßen Verbesserungen werden nun erläutert: Spracherkennungsraten für verschiedene Trainings der Sprachkommandos sowie verschiedene Sprachlevel bzw. Lautstärken, die zur Spracherkennung herangezogen werden (Testsprache) sind in den Tabellen 1 bis 2 dargestellt.
In Tabelle 2 sind nun die Spracherkennungsraten für unterschiedliche Energielevel der Testsprache gezeigt. Das Training fand auf einem Sprachenergielevel von -26 dB statt. Die Testsprache wurde einer Geräuschunterdrückung und Sprachlevelnormalisierung gemäß Fig. 3 unterzogen. Aus Tabelle 2 ist zu sehen, dass die Spracherkennungsraten für reine Sprache wiederum gleichbleibend hoch sind. Die wesentliche Verbesserung gegenüber dem bisherigen Spracherkennungsverfahren liegt darin, dass der in Tabelle 1 ersichtliche Unterschied in den Spracherkennungsraten für geräuschbehaftete Sprache (bei einem Signal zu Rauschen Verhältnis bzw. "Signal-to-Noise Ratio" von 5 dB) in Abhängigkeit vom Energielevel der Testsprache aufgehoben ist. Für die Spracherkennung wurde das weiter oben beschriebene "Advanced Front End" herangezogen .
Tabelle 2 :