WO2001059761A1

WO2001059761A1 - Verfahren zur spracherkennung

Info

Publication number: WO2001059761A1
Application number: PCT/DE2001/000261
Authority: WO
Inventors: Ralf Kern; Karl-Heinz Pflaum
Original assignee: Siemens Aktiengesellschaft
Priority date: 2000-02-09
Filing date: 2001-01-23
Publication date: 2001-08-16
Also published as: DE10005609C1; AU3913801A

Abstract

Die während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierten Merkmale (Trainingsprobe), die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungsprobe für eine Spracherkennung verglichen werden, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei sie auf die Erkennungsprobe, die ebenfalls durch Verknüpfung des Sprachsignals mit zu der Störung analogen Signalen generiert wird, abgestimmt ist.

Description

Beschreibung

Verfahren zur Spracherkennung

Die vorliegende Erfindung betrifft ein Verfahren zur Kompensation von Störungen in Spracherkennungssystemen .

Die rasante technische Entwicklung im Bereich der Telekommunikation, insbesondere der Mobilkommunikation, hat in den letzten Jahren zu einer ständig erhöhten Anforderung an die Sprachverarbeitung geführt .

Insbesondere in Spracherkennungssystemen wird daher die Sprechweise der einzelnen Sprecher trainiert und eine Sprach- probe (Trainingssprachprobe) erzeugt und gespeichert, mit der eine zu einem späteren Zeitpunkt erfolgende aktuelle Spracheingabe (Erkennungssprachprobe) verglichen wird, so daß das Spracherkennungssystem feststellen kann, ob das akustische Signal vom Sprecher stammt oder ein Nebengeräusch ist bzw. den Inhalt der Spracheingabe erkennt.

Da die Spracheingabe in Spracherkennungssystemen nicht immer über dasselbe System aus Raum-Mikrofon-Vorverstärker (RMV- System) erfolgt und sich die Umgebung bzw. die Störgeräusch- kulisse, insbesondere bei der Mobilkommunikation, häufig ändert, so daß die Sprache bei der Spracheingabe durch verschiedenartige Übertragungsfunktionen und Störgeräusche (in der englischen Literatur, Saeed V.Vaseghi, "Advanced Signal Processing and Digital Noise Reduction" , Stuttgart, 1996, Teubner B. G., mit "convolutional noise" und "additive noise" bezeichnet) , beeinflußt wird, ergibt sich eine Variation der signifikanten Merkmale der Sprache, die wiederum zu einer Degradation der Erkennungsrate des Spracherkennungssystems bzw. einer Obstruktion der Spracherkennung führen.

Zur Vermeidung der beschriebenen Probleme sind verschiedene Ansätze bekannt, die sich im wesentlichen dadurch auszeich- nen, daß das Störsignal, mit dem das beispielsweise durch ein Mikrofon aufgenommene Sprachsignal behaftet ist, geschätzt und eine Erkennungssprachprobe, beispielsweise durch Subtraktion (z.B. spektrale Subtraktion) des geschätzten "additive noise" und Faltung (z.B. mit Wiener Filter, Inversfilter) mit dem inversen geschätzten "convolutional noise" gemäß folgender Formel

s_E(t) (n_c(t)* s(t) )*n_c (t) ^" + n_a(t) - n_{a est} (t!

s(t) Sprachsignal s_τ(t) Trainingssprachprobe s_E(t) Erkennungssprachprobe n_c(t) "convolutional noise" n_a(t) "additive noise" n_c_est ( t ) geschätztes (estimated) "convolutional noise" n_a_est ( ) geschätztes (estimated) "additional noise" * Faltungsoperator

erzeugt wird, wobei die Erkennungssprachprobe mit der Trainingssprachprobe verglichen wird.

Diese Ansätze haben den Nachteil, daß die beiden Arten der Störung lediglich geschätzt, jedoch nicht exakt vorhergesagt werden können.

Zur Optimierung dieser Ansätze sind zwar Verfahren bekannt, bei dem eine bzw. die für den späteren Einsatz eines Sprach- erkennungssystems zu erwartende Störgeräuschkulisse bzw. Störgeräusche während des Trainings simuliert wird, so daß die Trainingssprachprobe möglichst viel Informationen über die zu erwartenden akustischen Bedingungen während der Anwen- düng des Spracherkennungssystems enthält. Dennoch weisen alle genannten Verfahren das grundlegende Problem auf, daß sich die akustischen Bedingungen während des Trainings und während der späteren Anwendung (Spracheingabe) unterscheiden, da die tatsächlichen akustischen Bedingungen während einer Spracheingabe nicht exakt vorausgesagt werden können.

Aus der DE 195 21 258 AI ist ein Spracherkennungssystem bekannt, bei dem neben dem Sprachsignal ein zusätzliches, die Störung beschreibendes Eingabesignal so ausgewertet wird, dass die darin enthaltene Information bei der Erkennung möglichst unterdrückt wird. Dazu werden Vergleichsvektoren gebildet, die fortlaufend an die momentane Störung angepasst werden.

Die der Erfindung zugrunde liegende Aufgabe besteht darin, Störungen von in einem Spracherkennungssystem zu verarbeitender Signale zu kompensieren.

Diese Aufgabe wird durch die Merkmale des Verfahrensanspruchs 1 gelöst.

Grundgedanke des Verfahrens gemäß Anspruch 1 ist es, während eines Trainings eines Spracherkennungssystems auf einen neuen Sprecher generierte Merkmale (Trainingsprobe) , die mit einer auf Basis eines zu einem späteren Zeitpunkt aufgenommenen Sprachsignals erzeugten Erkennungssprachprobe für eine Spracherkennung verglichen wird, gegebenenfalls mit zu einer Störung, die während der Aufnahme des Sprachsignals auftritt und das Sprachsignal verfälschen kann, analogen Signalen zu verknüpfen, wobei die Erkennungsprobe ebenfalls durch Verknüpfung des Sprachsignals mit zu der Störung analogen Signalen generiert wird, so daß Trainingsprobe und Erkennungs- sprachprobe auf die aktuelle Störung abgestimmt sind.

Durch das erfindungsgemäße Verfahren wird daher gewährleistet, daß die bei der aktuellen Aufnahme eines Sprachsignals in

ergibt, so daß die Qualität und die Quantität der Erkennungsrate deutlich steigt.

Eine Schätzung einer den Unterschied zwischen einer Trai- ningsumgebung und aktuellen Umgebung des SpracherkennungsSystems wiedergebenden Funktion "convolutional noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Störungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat den Vorteil, daß sie sich als Algorithmus einfach implementieren läßt sowie eine Korrektur (Filterung bzw. Faltung mit inverser Funktion) einer sich durch den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherkennungssystems ergebenden veränderten Übertragungsfunktion ermöglicht.

Eine Schätzung der aktuellen Neben- bzw. Störgeräusche wiedergebenden Funktion "additive noise" erfolgt insbesondere durch eine mathematische Beschreibung eines Störungsmodells anhand signifikanter Merkmale, die eine aktuelle Sprachprobe aufweist, und hat ebenfalls den Vorteil, daß sie sich als Algorithmus einfach implementieren läßt sowie eine Korrektur des durch die Neben- bzw. Störgeräusche verfälschten Sprachsignals ermöglicht.

Die Schätzung und Verknüpfung sowohl von "convolutional noise" als auch "additive noise" verbessert die Kompensation von Störungen.

Eine Gewichtung der zur Störung analogen Signale durch Multi- plikation mit mindestens einem Faktor, der insbesondere als einstellbarer Parameter, dessen Wert beispielsweise mit Hilfe von Messungen oder durch Simulation ermittelt wird, gedacht ist, ermöglicht eine Optimierung der Kompensation, da optimierte Trainingsprobe und Erkennungssprachprobe aufeinander abgestimmt werden können. Die Weiterbildung gemäß Anspruch 6 ist einfach zu implementieren und erzielt sehr gute Werte bei der Kompensation der Störung, da sowohl "additive noise" als auch "convolutional noise" - durch bekannte Algorithmen - geschätzt sowohl mit dem Sprachsignal als auch mit den generierten Merkmalen

(Trainingsprobe) verknüpft wird, so daß die auftretende Störung im Idealfall sogar vollständig kompensiert wird.

Ein Ausführungsbeispiel der Erfindung wird anhand der einzi- gen FIGUR erläutert. Diese zeigt:

Ein Ablaufdiagramm des in einem Spracherkennungssystem eingesetzten erfindungsgemäßen Verfahrens.

Das in der FIGUR dargestellte Ablaufdiagramm gibt die wesentlichen Schritte des erfindungsgemäßen Verfahrens, welches in einem gängigen Spracherkennungssystem ohne weiteres eingesetzt werden kann.

Bei dem dargestellten Ausführungsbeispiel beginnt das Verfahren mit der Überprüfung (Abfrage) , ob eine Spracheingabe, welche über ein bekanntes Raum-Mikrofon-Vorverstarkersystem

(RMV-System) stattfindet, erfolgt ist, d.h. ob ein Sprachsignal s(t) aufgenommen wurde.

Diese Überprüfung wird solange durchgeführt, bis ein Sprach- signal s(t) aufgenommen wurde und somit eine Spracheingabe durch einen Sprecher erfolgt ist.

Ist die Spracheingabe erfolgt, wird das Sprachsignal s(t) a- nalysiert, so daß eine Schätzung von sich auf die Übertra- gungsfunktion auswirkender Anteile einer Störung "convolutional noise" n_c(t), die während der Aufnahme des Sprachsignals s(t) auftritt, sowie sich dem Sprachsignal überlagernder Anteile der Störung (Neben- bzw. Störgeräusch) "additive noise" n_a(t) durchgeführt wird. (Die Verfahrensschritte der Analyse und Schätzung sind der Fachwelt bekannt und werden daher an dieser Stelle nicht näher erläutert.)

Mit dem geschätzten "convolutional noise" n_c__est(t) und dem geschätzten "additive noise" n_a__est(t) wird in einem nächsten Schritt eine Erkennungsprobe s_E(t) gemäß der Formel

s_E(t) = (n_c(t)* s(t) )*

+ n_a(t) ßn_a (t)

sowie aus einer gespeicherten Trainingsprobe s_τ(t) in Verbindung mit dem geschätzten "convolutional noise" n_c__est(t) und dem geschätzten "additive noise" n_a__est(t) eine optimierte Trainingsprobe s_τ__opt (t) gemäß der Formel

s_τ__opt (t) = (Sτ(t)*(l-ß)n_c_eβt(t)) + (l-ß)n_a__est(t)

gebildet, wobei folgende Definitionen gelten:

s ( t ) Sprachsignal s_τ (t) Trainingssprachprobe ^sT_opt ( t , optimierte Trainingssprachprobe s_E (t ) Erkennungssprachprobe n_c (t) "convolutional noise" n_a (t ) "additive noise" n-c_est \ - 1 geschätztes (estimated) "convolutional noise" ⁿa est ( t ] geschätztes (estimated) "additional noise"

Gewichtungsfaktor

Faltungsoperator

In einem letzen Schritt wird ein Vergleich von optimierter Trainingsprobe s_τ__opt (t) und Erkennungsprobe s_E(t) gemäß einem der Fachwelt bekannten Algorithmus zur Spracherkennung aus Vergleich von einer Trainingsprobe und einer Erkennungsprobe zur Spracherkennung durchgeführt .

Das genannte Ausführungsbeispiel stellt nur einen Teil der durch die Erfindung möglichen Ausführungsformen dar. So ist

Claims

Patentansprüche

1. Verfahren zur Spracherkennung, mit folgenden Merkmalen: a) Durch Verknüpfung eines aktuellen Sprachsignals (s(t)) mit mindestens einer eine Störung (n_a(t), n_c(t)) des

Sprachsignals darstellenden Größe wird eine Erkennungssprachprobe (s_E(t)) erzeugt, b) durch Verknüpfung einer dem Spracherkennungssystem bekannten Trainingssprachprobe (s_τ(t)) mit mindestens einer die Störung (n_a(t), n_c(t)) darstellenden Größe wird eine optimierte Trainingssprachprobe (s_τ__opt (t)) erzeugt, c) die die Störung (n_a(t), n_c(t)) darstellende Größe wird durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und aktuellen Umgebung des Spracherken- nungssystems wiedergebenden Funktion "convolutional noise" (n_c__est(t)) ermittelt, d) die optimierte Trainingssprachprobe (s_τ__opt (t) ) und die Erkennungssprachprobe (s_E(t)) werden einem Spracherken- nungsverfahren zugeführt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß a) eine erste die Störung (n_a(t), n_c(t)) darstellende Größe durch Schätzung einer den Unterschied zwischen einer Trainingsumgebung und einer Aufnahme des Sprachsignals (s(t)) aktuellen Umgebung des Spracherkennungssystems wiedergebenden Funktion "convolutional noise" (n_c__eΞt(t)) ermittelt wird, b) eine zweite die Störung (n_a(t), n_c(t)) darstellende Größe durch Schätzung einer die aktuellen Neben- bzw. Störgeräusche wiedergebenden Funktion "additive noise" (n_a__est(t)) ermittelt wird.

3. Verfahren nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, daß die die Störung (n_a (t ) , n_c(t)) darstellende Größe durch Multiplikation mit mindestens einem Faktor gewichtet wird.

4. Verfahren nach Anspruch 5, dadurch gekennzeichnet , daß die Erkennungs sprachprobe (s_E(t)) gemäß der Formel

s_E(t) = (n_c(t)* s(t) )* ßn_c__est(t)-¹ + n_a(t) - ßn_a__est(t)

und die optimierte Trainingssprachprobe (s_τ__opt (t) ) gemäß der Formel

s_τ__opt (t) = (s_τ(t)*(l-ß)n_c_est(t) ) + (l-ß)n_a__est(t)

mit

s(t) Sprachsignal

Sχ(t) Trainingssprachprobe Sτ_opt ( ) optimierte Trainingssprachprobe s_E(t) Erkennungssprachprobe n_c(t) "convolutional noise" n_a(t) "additive noise" n_c_est ( t ) geschätztes "convolutional noise" n_a__est ( t ) geschätztes "additional noise" ß Gewichtungsfaktor

Faltungsoperator

gebildet werden.