WO1998003965A1

WO1998003965A1 - Verfahren zur verringerung von störungen eines sprachsignals

Info

Publication number: WO1998003965A1
Application number: PCT/EP1997/003482
Authority: WO
Inventors: Peter SCHRÖGMEIER; Tim Haulick; Klaus Linhard
Original assignee: Daimler-Benz Ag
Priority date: 1996-07-19
Filing date: 1997-07-02
Publication date: 1998-01-29
Also published as: EP0912974A1; CA2260893C; ATE191806T1; JP2002509620A; US6687669B1; JP4187795B2; DE19629132A1; DE59701446D1; EP0912974B1; ES2146107T3; CA2260893A1

Abstract

Für ein Verfahren zur Verringerung von Störungen eines Sprachsignals unter Einsatz eines Geräuschreduktionsverfahrens wird vorgeschlagen, sowohl für das Eingangs- als auch das Ausgangssignal der Geräuschreduktion je eine Verdeckungskurve zu bestimmen. Durch Vergleich der die jeweilige Verdeckungskurve übersteigenden Signalanteile können im Ausgangssignal neu hörbare Anteile als Störungen nach Art des musical tones detektiert und nachträglich selektiv gedämpft werden.

Description

Verfahren zur Verringerung von Störungen eines Sprachsignals

Die Erfindung betrifft ein Verfahren zur Verringerung von Störungen eines Sprachsignals.

Ein derartiges Verf hren kann vorteilhaft Anwendung zur Störbefreiung von Sprachsignalen für sprachliche Kommunikation, insbesondere Freisprechanlagen z.B. in Kraftfahr- zeugen, Spracherkennungssystejnen und ähnlichem finden.

Ein häufig verwandtes Verfahren zur Reduktion des Geräuschanteils in störungsbehafteten Sprachsignalen ist die sogenannte spektrale Subtraktion. Dieses Verfahren hat den Vorteil der einfachen aufwandsarmen Implementierung und einer deutlichen Geräuschreduktion.

Eine unangenehme Begleiterscheinung der Geräuschreduktion mittels spektraler Subtraktion ist das Auftreten von kurzzeitig hörbaren tonalen Geräuschanteilen, die aufgrund des vermittelten Höreindrucks als "musical tones" oder "musical noise" bezeichnet werden.

Maßnahmen zur Unterdrückung von "musical tones" bei der spektralen Subtraktion sind die Überschätzung der Störleistung also die Überkompensation der Störung mit dem Nachteil der erhöhten Sprachverzerrung oder das Zulassen eines relativ hohen Geräuschsockels mit dem Nachteil einer nur geringen Geräuschreduktion (z . B. "Enhancement of Speech Corrupted by Acoustic Noise" von Berouti , M. ; Schwartz , R. ; Makhoul , J. ; in Proceedings on ICASSP, pp . 208-211 , 1979) . Verfahren zur linearen oder nichtlinearen Glättung und damit zur Unterdrückung der "musical tones" werden z . B. in "Suppression of Acoustic Noise in Speech Using

Spectral Subtraction" von S .F. Boll in IEEE Vol . ASSP-27 , Nr. 2 , pp. 113-120 beschrieben. Ein effektives nichtlineares Glättungsverfahren mit Medianfilterung ist in der DE 44 05 723 AI angegeben.

Bekannt sind auch Verfahren welche zusätzlich zu der spektralen Subtraktion die psychoakustische Wahrnehmung mitberücksichtigen (z . B. T. Petersen und S . Boll , "Acoustic Noise Suppression in a Peceptual Model" in Proc. on ICASSP, pp. 1086-1088 , 1981) . Die Signale werden in den

Bereich der psychoakustischen autheit transformiert um so eine, gehörgerechtere Verarbeitung durchzuführen. Von D. Tsoukalas, P. Paraskevas und M. Mourjopoulos wird in "Speech Enhancement Using Psychoacoustic Criteria", Proc. on ICASSP, pp. II359-II362, 1993 und von G. Virag in "Speech Enhancement Based on Masking Properties of the Au- ditory System", Proc. on ICASSP, pp. 796-799, 1995, wird die errechnete Verdeckungskurve dazu benutzt, festzustellen, welche Spektrallinien vom Nutzsignal verdeckt sind und somit nicht gedämpft werden müssen. Die Qualität des Sprachsignals wird damit verbessert. Die störenden "musi- cal tones" werden damit aber nicht verringert.

Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Verfahren zur Verringerung von Störungen eines Sprachsignals anzugeben.

Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.

Die Erfindung basiert im wesentlichen darauf, daß Signalanteile, die erst durch die Geräuschreduktion einzeln hörbar in Erscheinung treten, als Störungen erkannt und nachträglich durch selektive Dämpfung verringert oder beseitigt werden. Als Hörbarkeitskriterium wird dabei in an sich bekannter Weise das Überschreiten einer Verdeckungs- kurve (masking threshold) herangezogen.

Die Bestimmung von Verdeckungskurven ist z.B. aus Teilen des eingangs genannten Standes der Technik, in ausführli- eher allgemeiner Form auch z.B. aus Sound Engineering,

Kap. 2., Psychoakustik und Geräuschbeurteilung (S. 10-33), Expert Verlag 1994 bekannt. Die Bestimmung der Verdec- kungskurven kann sowohl auf der Basis der aktuellen Sprachsignale als auch auf der Basis eines Geräuschsignals in Sprachpausen erfolgen, wobei verschiedene psychoakusti- sche Effekte mit berücksichtigt werden können. Die Verdeckungskurven, die auch als Maskierungskurven, Mithörschwellen, masking threshold und ähnlich in der Fachliteratur bezeichnet sind, können als eine frequenzabhängige Pegelschwelle für die Wahrnehmbarkeit eines schmalbandigen Tons angesehen werden.

Derartige Verdeckungskurven werden neben den Anwendungen zur Störbefreiung z.B. auch zur Datenreduktion bei der Kodierung von Audiosignalen eingesetzt. Eine ausführliche Vorgehensweise zur Bestimmung einer Verdeckungskurve ist neben den bereits genannten Veröffentlichungen auch z.B. aus "Transform Coding of Audio Signals Using Perceptual Noise Criteria" von J. Johnston in IEEE Journal on Select Areas Commun. , Vol. 6, pp. 314-323, Febr. 1988 entnehmbar. Wesentliche Schritte eines typischen Verfahrens zur Bestimmung einer Verdeckungskurve aus dem Kurzzeitspektrum eines gestörten Sprachsignals sind insbesondere

- Kritische Bandanalyse, bei welcher das Spektrum eines Signals in sogenannte kritische Bänder auf- geteilt und aus dem Leistungsspektrum P(i) durch

Aufsummierung innerhalb der kritischen Bänder ein kritisches Band-Spektrum B(n) (auch Bark-Spektrum, mit n als Bandindex) gewonnen wird

- Faltung des Bark-Spektrums mit einer Verbreiterungsfunktion (Spreading-Funktion) zur Berücksichtigung der Verdeckungseffekte über mehrere kriti- sehe Bänder hinweg; man erhält ein modifiziertes Bark-Spektrum

- evtl. zusätzliche Berücksichtigung der unter- schiedlichen Verdeckungseigenschaften von rauschhaften und tonhaften Anteilen durch einen aus der Zusammensetzung des Signals bestimmten Offsetfaktor

- Nach Renormierung im Verhältnis zur jeweiligen Energie in den kritischen Bändern und ggf. Anhebung tieferliegender Werte auf die Werte der Ruhehörschwelle ergibt sich eine barkbezogene Verdeckungskurve T(n) und daraus eine frequenzbezogene Verdeckungskurve V(i) mit V(i) = T(n) für alle

Frequenzen i innerhalb des jeweiligen kritischen Bandes n

Mit der bestimmten Verdeckungskurve V(i) können die Spek- tralanteile des Signales durch Vergleich des Leistungs- spektrums P(i) mit der Verdeckungskurve V(i) in hörbare, (P(i) > V(i)) und verdeckte (P(i) < V(i) ) Anteile unterschieden werden.

Die Erfindung ist nachfolgend anhand von Beispielen unter Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt

FIG. l ein Blockschaltbild eines Standardverfahrens zur spektralen Subtraktion FIG. 2 ein Blockschaltbild zu einem Verfahren nach der Erfindung

FIG. 3 ein Sprachsignal in verschiedenen Stufen des er- findungsgemäßen Signalverarbeitungsverfahrens.

Die Verfahren zur spektralen Subtraktion beruhen auf der Verarbeitung des Kurzzeitbetragsspektrums des gestörten Eingangssignals. In Sprachpausen wird das Störleistungs- spektrum geschätzt und anschließend gleichphasig vom gestörten Eingangssignal subtrahiert. Diese Subtraktion wird üblicherweise als Filterung durchgeführt. Durch die Filterung erfolgt eine Gewichtung der gestörten Spektralkomponenten mit einem reellen Faktor, in Abhängigkeit vom ge- schätzten Signal-zu-Rauschverhältnis des jeweiligen Spektralbandes. Die Geräuschreduktion ergibt sich demnach dadurch, daß gestörte spektrale Bereiche des Nutzungssignals im Verhältnis ihres Störanteils gedämpft werden. Ein vereinfachtes Blockdiagram in FIG. 1 zeigt eine typische Re- alisierung des Spektralsubtraktionsalgorithmus. In einer Analysestufe erfolgt die Zerlegung des gestörten Sprachsignals, beispielsweise durch eine diskrete Fourier Transformation (DFT) , in eine Reihe von Kurzzeitspektren Y(i). Aus den Fourier-Koeffizienten bildet die Einheit KM einen KurzZeitmittelwert, der einen Schätzwert für die mittlere Leistung Y (i) mit i als diskretem Frequenzindex des gestörten Eingangssignals darstellt. In einer Einheit LM erfolgt, gesteuert durch den Sprachpausendetektor SP, die Schätzung eines mittleren Störleistungsspektrums N²(i) in den sprachsignalfreien Abschnitten. Jede Spektrallinie

Y(i) des Eingangssignals wird anschließend mit einem reellen Filterkoeffizienten H(i) multipliziert, der aus dem Kurz zeitmittelwert Y ( i) und dem Störleistungsmittelwert N² ( i) in der Einheit FK berechnet wird. Der Verfahrensschritt der Geräuschreduktion ist als Multiplikationsstufe GR eingezeichnet. Durch eine inverse diskrete Fourier Transformation (IDFT) ergibt sich am Ausgang der Synthesestufe das geräuschreduzierte Sprachsignal .

Die Berechnung der Filterkoeffizienten H ( i) kann nach unterschiedlichen , an sich bekannten Gewichtungsregeln er- folgten. Typisch ist die Schätzung der Koeffizienten nach

H ( i) = max { ( 1- J N² ( i) /Y² ( i) ' ) , f 1 }

Mit fl als vorgebbarem Grundwert (auch spectral floor) , der eine untere Schranke für die Filterkoeffizienten darstellt und üblicherweise 0,1 < fl < 0,25 beträgt. Er bestimmt einen im Ausgangssignal der spektralen Subtraktion verbleibenden Restgeräuschanteil, der das Absenken der Mithörschwelle begrenzt und so schmalbandige Anteile im geräuschreduzierten Ausgangssignal der spektralen Subtraktion teilweise verdeckt. Die Einhaltung eines Grundwerts fl verbessert den subjektiven Höreindruck.

Zur Verdeckung aller Reststörungen der Art der "musical tones" müßte ein Grundwert von ca. 0,5 gewählt werden, wodurch die maximal erreichbare Geräuschreduktion auf etwa 6dB beschränkt wäre.

Ein bei dem erfindungsgemäßen Verfahren genutztes charak- teristisches Merkmal von musical tones ist, daß sie erst im Ausgangssignal des Geräuschreduktionsverfahrens für das menschliche Ohr wahrnehmbar als Störung in Erscheinung treten. Die Wahrnehmbarkeit kann durch die zweite Verdec- kungskurve für dieses Ausgangssignal quantitativ erfaßt werden. Gegenüber den gleichfalls die Pegelschwelle der zweiten Verdeckungskurve überschreitenden Sprach-Nutzan- teilen im Ausgangssignal, die auch bereits im Eingangssi- gnal als Pegelüberschreitung der ersten Verdeckungskurve wahrnehmbar sind, können die musical tones durch Vergleich der wahrnehmbaren Signalanteile im Ausgangssignal und Eingangssignal der Geräuschreduktion als neue hörbare Anteile unterschieden und in einem nachfolgenden Verarbeitungs- schritt gezielt selektiv gedämpft werden.

Das erfindungsgemäße Verfahren zur Detektion und Unterdrückung von sch albandigen Störungen wie musical tones ist anhand des Blockschaltbildes in FIG. 2 erläutert. Es stellt eine Erweiterung des in FIG. 1 dargestellten Standardverfahrens zur spektralen Subtraktion dar. Soweit das skizzierte Verfahren in FIG. 2 mit dem in FIG. 1 skizzierten bekannten Verfahren übereinstimmt, sind gleiche Be- zugszeichen verwandt. Aus den Eingangssignalen Y(i) der Geräuschreduktion GR wird in einer Einheit VE eine erste Verdeckungskurve VI (i) bestimmt. Aus den Ausgangssignalen Y' (i) der Geräuschreduktion wird in VA eine zweite Verdeckungskurve V2(i) bestimmt.

Alternativ dazu kann die erste Verdeckungskurve VI ( i) auch aus dem mittleren Störleistungsspektrum am Eingang der Geräuschreduktion in Sprachpausen bestimmt werden. Die zweite Verdeckungskurve kann auch aus der ersten Verdec- kungskurve abgeleitet werden, z . B. durch Multiplikation mit dem Grundwert fl , V2 (i) = fl ^* Vl ( i) . Der Vorteil der Bestimmung der Verdeckungskurven aus den aktuellen Eingangs- und Ausgangssignalen der Geräuschreduktion besteht insbesondere darin, daß auch instationäre Geräuschanteile sowie die verdeckende Wirkung der Sprach- anteile mitberücksichtigt werden. Wird dagegen die erste Verdeckungskurve aus dem mittleren Störleistungsspektrum ermittelt und die zweite Verdeckungskurve näherungsweise nach V2 ( i) = fl- Vl ( i) bestimmt, so ergibt sich eine erhebliche Verringerung der Rechenaufwands . Der Rechenaufwand kann weiter dadurch verringert werden , daß die Verdeckungskurve wesentlich weniger oft aktualisiert werden muß , da das mittlere Störleistungsspektrum in der Regel nur langsam zeitveränderlich ist . Das qualitativ bessere synthetisierte Sprachsignal wird aber mit der Bestimmung der Verdeckungskurven aus den aktuellen Signalen Y ( i) , Y ' ( i) erzielt.

Eine vorteilhafte Weiterbildung der Erfindung sieht eine weitere Verbesserung durch Detektion von stationären Si- gnalanteilen , die von der selektiven Dämpfung ausgenommen werden, auch wenn sie das Kriterium nur im Ausgangssignal Y * ( i) wahrnehmbar zu sein, erfüllen. In FIG. 2 ist hierfür ein Stationaritätsdetektor STAT eingezeichnet.

Er kann auf verschiedene Arten realisiert werden , beispielsweise durch die zeitliche Verfolgung einzelner Spektrallinien oder auch der Filterkoeffizienten . Eine einfache Realisierungsform ergibt sich mit der Forderung, daß mehrere zeitlich aufeinanderfolgende Filterkoeffizienten jeweils einen bestimmten Schwellwert thr_stat überschreiten müssen , so daß gilt: H_k__n(i) , . . . , H^ f i) , H_k(i) > thr_stat,

mit z.B. n=2 und thr_stat= 0,35.

Im Entscheider ENT werden zunächst mit Hilfe der zweiten Verdeckungskurve V₂(i) hörbare tonale Komponenten im Ausgangssignal des Geräuschreduktionsystems ermittelt. Handelt es sich hierbei nicht um eine stationäre Komponente, wird untersucht, ob der Spektralanteil schon vor der Fil- terung (Geräuschreduktion) hörbar war. Dies erfolgt unter Verwendung der ersten Verdeckungskurve V^(i). Wird der Frequenzanteil im Eingangssignal Y(i) als verdeckt festgestellt, wird die Spektralkomponente im Ausgangssignal als musical tone angenommen und in einer Nachverarbeitungs- stufe NV gedämpft. Im anderen Fall, d.h. bei Nichtverdec- kung im Eingangssignal wird auf Sprache entschieden und keine zusätzliche Dämpfung vorgenommen.

Die zusätzliche Dämpfung in der Nachverarbeitung kann auf verschiedene Weise erfolgen. So kann z.B. für eine als

Störung erkannte neu hörbare spektrale Komponente der Pegelwert auf den Wert der zweiten Verdeckungskurve gesetzt werden. Vorzugsweise wird der detektierte Pegelwert der störenden spektralen Komponente auf einen korrigierten Wert gesetzt, der sich aus der Filterung der spektral entsprechenden Eingangssignalkomponente mit dem Grundwert fl als Filterkoeffizient ergibt.

In FIG. 3 sind verschiedene Stadien der Signalverarbeitung für ein gestörtes Sprachsignal nach dem erfindungsgemäßen

Verfahren skizziert. FIG. 3A zeigt ein Leistungsspektrum P ( i) eines gestörten Signals am Eingang der Geräuschreduktion sowie eine daraus bestimmte erste Verdeckungskurve VI ( i) mit der Verdeckungskurve übersteigenden Signalanteilen s . Nach Durchfüh- rung der spektralen Subtraktion ergibt sich ein geräuschreduziertes Leistungsspektrum P * ( i) = Y ¹ (i) mit einer daraus bestimmten zweiten Verdeckungskurve V2 ( i) in welcher neben den auch in FIG. 3A die Verdeckungskurve VI ( i) überschreitenden Signalanteilen s weitere Signalan- teile als die zweite Verdeckungsschwelle überschreitend auftreten, die als nicht verdeckte und somit neu hörbare Signalanteile nach Art der musical tones erscheinen. Diese neu hörbaren Signalanteile können detektiert und durch selektive Dämpfung ohne Beeinträchtigung der Sprachanteile s unterdrückt werden . Das sich bei der selektiven Dämpfung ergebende Leistungsspektrum P^M ( i) ist in FIG. 3C skizziert. Nur die als Sprachsignale bewerteten Signalanteile s übersteigen die Verdeckungskurve , wobei diese Signale nunmehr um ein weit größeres Maß über der Verdeckungs urve V2 ( i) liegen als die entsprechenden Anteile im Eingangssignal über der dort geltenden Verdeckungskurve VI ( i) (FIG . 3A) und somit deutlicher hörbar sind. Die musical tones m aus FIG . 3B sind im Pegel unter die Verdeckungskurve V2 ( i) gedrückt und somit nicht mehr als individuelle Töne wahr- nehmbar.

Die Erfindung ist nicht auf die spektrale Subtraktion zur Geräuschreduktion beschränkt. Das Verfahren, die Verdeckungskurven am Eingang und am Ausgang einer Geräuschreduk- tion zu ermitteln und aufgrund neu hörbarer Anteile am

Ausgang Störungen zu detektieren und zu unterdrücken, läßt sich auch auf andere Signalverarbeitungssysteme, z.B. zur Signalkodierung übertragen.

Claims

Patentansprüche

1. Verfahren zur Verringerung von Störungen eines Sprachsignals, bei welchem ein Geräuschreduktionsverfahren eingesetzt und die spektrale psychoakustische Verdeckung mit berücksichtigt wird, dadurch gekennzeichnet, daß eine er- ste spektrale Verdeckungskurve für das Eingangssignal und eine zweite spektrale Verdeckungskurve für das Ausgangssignal des Geräuschreduktionsverfahrens bestimmt werden, daß die zweite Verdeckungskurve übersteigende neu hörbare Anteile des Ausgangssignals des Geräuschreduktionsverfah- rens, denen keine spektral entsprechenden, die erste Verdeckungskurve übersteigenden Anteile des Eingangssignals gegenüberstehen, zusätzlich selektiv gedämpft werden.

2 . Verfahren nach Anspruch 1 , gekennzeichnet durch ein spektrales Subtraktionsverfahren als Geräuschreduktionsverfahren.

3 . Verfahren nach Anspruch 2 , dadurch gekennzeichnet, daß die neu hörbaren Anteile auf ihren Grundwert der spektralen Subtraktion reduziert werden.

4 . Verfahren nach Anspruch 1 oder Anspruch 2 , dadurch ge- kennzeichnet, daß die neu hörbaren Anteile auf ihren Wert der spektralen Verdeckungskurve reduziert werden.

5. Verfahren nach einem der Ansprüche 1 bis 4 , dadurch gekennzeichnet, daß über ein vorgebbares Zeitintervall statische neu hörbare Anteile des Ausgangssignals von der zusätzlichen selektiven Dämpfung ausgenommen werden.

6. Verfahren nach einem der Ansprüche 1 bis 5 , dadurch gekennzeichnet, daß die zweite Verdeckungskurve aus dem Ausgangssignal der Geräuschreduktionsverfahrens bestimmt wird.

7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die zweite Verdeckungskurve aus der ersten Verdeckungskurve abgeleitet wird.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die erste Verdeckungskurve aus dem Eingangssignal des Geräuschreduktionsverfahrens bestimmt wird.

9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die erste Verdeckungskurve aus Geräuschsignalen in Sprachpausen bestimmt wird.