WO1998003965A1 - Verfahren zur verringerung von störungen eines sprachsignals - Google Patents

Verfahren zur verringerung von störungen eines sprachsignals Download PDF

Info

Publication number
WO1998003965A1
WO1998003965A1 PCT/EP1997/003482 EP9703482W WO9803965A1 WO 1998003965 A1 WO1998003965 A1 WO 1998003965A1 EP 9703482 W EP9703482 W EP 9703482W WO 9803965 A1 WO9803965 A1 WO 9803965A1
Authority
WO
WIPO (PCT)
Prior art keywords
masking curve
signal
noise reduction
masking
spectral
Prior art date
Application number
PCT/EP1997/003482
Other languages
English (en)
French (fr)
Inventor
Peter SCHRÖGMEIER
Tim Haulick
Klaus Linhard
Original Assignee
Daimler-Benz Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler-Benz Ag filed Critical Daimler-Benz Ag
Priority to CA002260893A priority Critical patent/CA2260893C/en
Priority to AT97930489T priority patent/ATE191806T1/de
Priority to EP97930489A priority patent/EP0912974B1/de
Priority to DE59701446T priority patent/DE59701446D1/de
Priority to JP50648198A priority patent/JP4187795B2/ja
Priority to US09/214,910 priority patent/US6687669B1/en
Publication of WO1998003965A1 publication Critical patent/WO1998003965A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the invention relates to a method for reducing interference in a speech signal.
  • Such a method can advantageously be used for interference-free speech signals for voice communication, in particular hands-free systems, e.g. found in motor vehicles, speech recognition systems and the like.
  • a commonly used method for reducing the noise component in speech signals with interference is the so-called spectral subtraction. This procedure has the advantage of simple, low-effort implementation and a significant reduction in noise.
  • Measures to suppress "musical tones" in the spectral subtraction are the overestimation of the interference power, ie the overcompensation of the interference with the disadvantage of increased speech distortion or the admission of a relatively high noise base with the disadvantage of only a slight noise reduction (eg “enhancement of Speech Corrupted by Acoustic Noise "by Berouti, M.; Schwartz, R.; Makhoul, J.; in Proceedings on ICASSP, pp. 208-211, 1979).
  • Methods for linear or non-linear smoothing and thus for suppressing the "musical tones" are known for. B. in "Suppression of Acoustic Noise in Speech Using
  • the object of the present invention is to provide an improved method for reducing interference in a speech signal.
  • the invention is essentially based on the fact that signal components that only become audible through the noise reduction are recognized as disturbances and subsequently reduced or eliminated by selective damping.
  • Exceeding a masking threshold is used as the audibility criterion in a manner known per se.
  • the masking curves which are also referred to as masking curves, listening thresholds, masking threshold and the like in the specialist literature, can be regarded as a frequency-dependent level threshold for the perceptibility of a narrowband sound.
  • Such masking curves are used in addition to interference-free applications, e.g. also used for data reduction when encoding audio signals.
  • a detailed procedure for determining a masking curve is in addition to the publications already mentioned, e.g. from "Transform Coding of Audio Signals Using Perceptual Noise Criteria" by J. Johnston in IEEE Journal on Select Areas Commun. , Vol. 6, pp. 314-323, Feb. 1988.
  • the essential steps of a typical method for determining a masking curve from the short-term spectrum of a disturbed speech signal are in particular
  • the spectral components of the signal can be compared to the masking curve V (i) in audible (P (i)> V (i)) and masked (P (i) ⁇ V (i)) shares can be distinguished.
  • FIG. l is a block diagram of a standard method for spectral subtraction
  • FIG. 2 shows a block diagram of a method according to the invention
  • FIG. 3 shows a speech signal in various stages of the signal processing method according to the invention.
  • the methods for spectral subtraction are based on processing the short-term magnitude spectrum of the disturbed input signal.
  • the interference power spectrum is estimated and then subtracted in phase from the disturbed input signal. This subtraction is usually carried out as filtering.
  • the filtering results in a weighting of the disturbed spectral components with a real factor, depending on the estimated signal-to-noise ratio of the respective spectral band.
  • the noise reduction therefore results from the fact that disturbed spectral regions of the usage signal are damped in the ratio of their interference component.
  • FIG. 1 shows a typical implementation of the spectral subtraction algorithm.
  • the disturbed speech signal is broken down, for example by a discrete Fourier transformation (DFT), into a series of short-term spectra Y (i).
  • DFT discrete Fourier transformation
  • the unit KM forms a short mean time value, which represents an estimate for the average power Y (i) with i as the discrete frequency index of the disturbed input signal.
  • an average interference power spectrum N 2 (i) is estimated in the speech signal-free sections. Every spectral line
  • Y (i) of the input signal is then multiplied by a real filter coefficient H (i), which results from the Short time average Y (i) and the interference power average N 2 (i) is calculated in the unit FK.
  • H (i) results from the Short time average Y (i) and the interference power average N 2 (i) is calculated in the unit FK.
  • the process step of noise reduction is shown as the multiplication level GR.
  • An inverse discrete Fourier transformation (IDFT) results in the noise-reduced speech signal at the output of the synthesis stage.
  • the filter coefficients H (i) can be calculated according to different weighting rules known per se.
  • the estimation of the coefficients according to is typical
  • H (i) max ⁇ (1- JN 2 (i) / Y 2 (i) '), f 1 ⁇
  • fl as the predeterminable basic value (also spectral floor), which represents a lower bound for the filter coefficients and is usually 0.1 ⁇ fl ⁇ 0.25. It determines a residual noise component remaining in the output signal of the spectral subtraction, which limits the lowering of the monitoring threshold and thus partially obscures narrowband components in the noise-reduced output signal of the spectral subtraction. Compliance with a basic value fl improves the subjective listening impression.
  • a basic value of approx. 0.5 would have to be selected in order to cover up all residual disturbances of the type of "musical tones", as a result of which the maximum achievable noise reduction would be limited to approx. 6 dB.
  • a characteristic feature of musical tones used in the method according to the invention is that they only appear as a disturbance to the human ear in the output signal of the noise reduction method to step.
  • the perceptibility can be determined quantitatively by means of the second compression curve for this output signal.
  • the musical tones can be heard as new audible signals by comparing the perceptible signal components in the output signal and the input signal Shares are differentiated and selectively damped in a subsequent processing step.
  • a first masking curve VI (i) is determined in a unit VE from the input signals Y (i) of the noise reduction GR.
  • a second masking curve V2 (i) is determined in VA from the output signals Y '(i) of the noise reduction.
  • the first masking curve VI (i) can also be determined from the mean interference power spectrum at the input of the noise reduction in speech pauses.
  • the computational effort can be further reduced by the fact that the masking curve has to be updated much less often, since the mean spectrum of interference power is usually only slowly changing over time.
  • the qualitatively better synthesized speech signal is, however, obtained by determining the masking curves from the current signals Y (i), Y '(i).
  • An advantageous development of the invention sees a further improvement by detection of stationary signal components which are excluded from the selective damping, even if they fulfill the criterion of being perceptible only in the output signal Y * (i).
  • a stationarity detector STAT is shown for this purpose.
  • audible tonal components in the output signal of the noise reduction system are first determined with the aid of the second masking curve V 2 (i). If this is not a stationary component, it is examined whether the spectral component was audible before the filtering (noise reduction). This is done using the first masking curve V ⁇ (i). If the frequency component in the input signal Y (i) is found to be hidden, the spectral component in the output signal is assumed to be a musical tone and is attenuated in a post-processing stage NV. In the other case, ie if the input signal is not covered, a decision is made in terms of speech and no additional attenuation is carried out.
  • the additional damping in post-processing can be done in different ways. For example, for one as
  • Disturbance detected newly audible spectral component the level value to be set to the value of the second masking curve.
  • the detected level value of the interfering spectral component is preferably set to a corrected value which results from the filtering of the spectrally corresponding input signal component with the basic value fl as the filter coefficient.
  • FIG. 3 are different stages of signal processing for a disturbed speech signal according to the invention.
  • FIG. 3A shows a power spectrum P (i) of a disturbed signal at the input of the noise reduction as well as a first masking curve VI (i) with the signal components s exceeding the masking curve.
  • P * (i) Y 1 (i) with a second masking curve V2 (i) determined therefrom, in which, in addition to the also shown in FIG. 3A, the signal components exceeding the masking curve VI (i) s more signal components than the second masking threshold occur, which appear as non-masked and thus newly audible signal components in the manner of the musical tones.
  • FIG. 3C The power spectrum P M (i) resulting from the selective damping is shown in FIG. 3C outlined. Only the signal components s assessed as speech signals exceed the masking curve, these signals now being a much larger amount above masking curve V2 (i) than the corresponding components in the input signal above masking curve VI (i) (FIG. 3A) and are therefore more clearly audible. The musical tones m from FIG. 3B are pressed below the masking curve V2 (i) and are therefore no longer perceptible as individual tones.
  • the invention is not limited to spectral subtraction for noise reduction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Für ein Verfahren zur Verringerung von Störungen eines Sprachsignals unter Einsatz eines Geräuschreduktionsverfahrens wird vorgeschlagen, sowohl für das Eingangs- als auch das Ausgangssignal der Geräuschreduktion je eine Verdeckungskurve zu bestimmen. Durch Vergleich der die jeweilige Verdeckungskurve übersteigenden Signalanteile können im Ausgangssignal neu hörbare Anteile als Störungen nach Art des musical tones detektiert und nachträglich selektiv gedämpft werden.

Description

Verfahren zur Verringerung von Störungen eines Sprachsignals
Die Erfindung betrifft ein Verfahren zur Verringerung von Störungen eines Sprachsignals.
Ein derartiges Verf hren kann vorteilhaft Anwendung zur Störbefreiung von Sprachsignalen für sprachliche Kommunikation, insbesondere Freisprechanlagen z.B. in Kraftfahr- zeugen, Spracherkennungssystejnen und ähnlichem finden.
Ein häufig verwandtes Verfahren zur Reduktion des Geräuschanteils in störungsbehafteten Sprachsignalen ist die sogenannte spektrale Subtraktion. Dieses Verfahren hat den Vorteil der einfachen aufwandsarmen Implementierung und einer deutlichen Geräuschreduktion.
Eine unangenehme Begleiterscheinung der Geräuschreduktion mittels spektraler Subtraktion ist das Auftreten von kurzzeitig hörbaren tonalen Geräuschanteilen, die aufgrund des vermittelten Höreindrucks als "musical tones" oder "musical noise" bezeichnet werden.
Maßnahmen zur Unterdrückung von "musical tones" bei der spektralen Subtraktion sind die Überschätzung der Störleistung also die Überkompensation der Störung mit dem Nachteil der erhöhten Sprachverzerrung oder das Zulassen eines relativ hohen Geräuschsockels mit dem Nachteil einer nur geringen Geräuschreduktion (z . B. "Enhancement of Speech Corrupted by Acoustic Noise" von Berouti , M. ; Schwartz , R. ; Makhoul , J. ; in Proceedings on ICASSP, pp . 208-211 , 1979) . Verfahren zur linearen oder nichtlinearen Glättung und damit zur Unterdrückung der "musical tones" werden z . B. in "Suppression of Acoustic Noise in Speech Using
Spectral Subtraction" von S .F. Boll in IEEE Vol . ASSP-27 , Nr. 2 , pp. 113-120 beschrieben. Ein effektives nichtlineares Glättungsverfahren mit Medianfilterung ist in der DE 44 05 723 AI angegeben.
Bekannt sind auch Verfahren welche zusätzlich zu der spektralen Subtraktion die psychoakustische Wahrnehmung mitberücksichtigen (z . B. T. Petersen und S . Boll , "Acoustic Noise Suppression in a Peceptual Model" in Proc. on ICASSP, pp. 1086-1088 , 1981) . Die Signale werden in den
Bereich der psychoakustischen autheit transformiert um so eine, gehörgerechtere Verarbeitung durchzuführen. Von D. Tsoukalas, P. Paraskevas und M. Mourjopoulos wird in "Speech Enhancement Using Psychoacoustic Criteria", Proc. on ICASSP, pp. II359-II362, 1993 und von G. Virag in "Speech Enhancement Based on Masking Properties of the Au- ditory System", Proc. on ICASSP, pp. 796-799, 1995, wird die errechnete Verdeckungskurve dazu benutzt, festzustellen, welche Spektrallinien vom Nutzsignal verdeckt sind und somit nicht gedämpft werden müssen. Die Qualität des Sprachsignals wird damit verbessert. Die störenden "musi- cal tones" werden damit aber nicht verringert.
Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Verfahren zur Verringerung von Störungen eines Sprachsignals anzugeben.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
Die Erfindung basiert im wesentlichen darauf, daß Signalanteile, die erst durch die Geräuschreduktion einzeln hörbar in Erscheinung treten, als Störungen erkannt und nachträglich durch selektive Dämpfung verringert oder beseitigt werden. Als Hörbarkeitskriterium wird dabei in an sich bekannter Weise das Überschreiten einer Verdeckungs- kurve (masking threshold) herangezogen.
Die Bestimmung von Verdeckungskurven ist z.B. aus Teilen des eingangs genannten Standes der Technik, in ausführli- eher allgemeiner Form auch z.B. aus Sound Engineering,
Kap. 2., Psychoakustik und Geräuschbeurteilung (S. 10-33), Expert Verlag 1994 bekannt. Die Bestimmung der Verdec- kungskurven kann sowohl auf der Basis der aktuellen Sprachsignale als auch auf der Basis eines Geräuschsignals in Sprachpausen erfolgen, wobei verschiedene psychoakusti- sche Effekte mit berücksichtigt werden können. Die Verdeckungskurven, die auch als Maskierungskurven, Mithörschwellen, masking threshold und ähnlich in der Fachliteratur bezeichnet sind, können als eine frequenzabhängige Pegelschwelle für die Wahrnehmbarkeit eines schmalbandigen Tons angesehen werden.
Derartige Verdeckungskurven werden neben den Anwendungen zur Störbefreiung z.B. auch zur Datenreduktion bei der Kodierung von Audiosignalen eingesetzt. Eine ausführliche Vorgehensweise zur Bestimmung einer Verdeckungskurve ist neben den bereits genannten Veröffentlichungen auch z.B. aus "Transform Coding of Audio Signals Using Perceptual Noise Criteria" von J. Johnston in IEEE Journal on Select Areas Commun. , Vol. 6, pp. 314-323, Febr. 1988 entnehmbar. Wesentliche Schritte eines typischen Verfahrens zur Bestimmung einer Verdeckungskurve aus dem Kurzzeitspektrum eines gestörten Sprachsignals sind insbesondere
- Kritische Bandanalyse, bei welcher das Spektrum eines Signals in sogenannte kritische Bänder auf- geteilt und aus dem Leistungsspektrum P(i) durch
Aufsummierung innerhalb der kritischen Bänder ein kritisches Band-Spektrum B(n) (auch Bark-Spektrum, mit n als Bandindex) gewonnen wird
- Faltung des Bark-Spektrums mit einer Verbreiterungsfunktion (Spreading-Funktion) zur Berücksichtigung der Verdeckungseffekte über mehrere kriti- sehe Bänder hinweg; man erhält ein modifiziertes Bark-Spektrum
- evtl. zusätzliche Berücksichtigung der unter- schiedlichen Verdeckungseigenschaften von rauschhaften und tonhaften Anteilen durch einen aus der Zusammensetzung des Signals bestimmten Offsetfaktor
- Nach Renormierung im Verhältnis zur jeweiligen Energie in den kritischen Bändern und ggf. Anhebung tieferliegender Werte auf die Werte der Ruhehörschwelle ergibt sich eine barkbezogene Verdeckungskurve T(n) und daraus eine frequenzbezogene Verdeckungskurve V(i) mit V(i) = T(n) für alle
Frequenzen i innerhalb des jeweiligen kritischen Bandes n
Mit der bestimmten Verdeckungskurve V(i) können die Spek- tralanteile des Signales durch Vergleich des Leistungs- spektrums P(i) mit der Verdeckungskurve V(i) in hörbare, (P(i) > V(i)) und verdeckte (P(i) < V(i) ) Anteile unterschieden werden.
Die Erfindung ist nachfolgend anhand von Beispielen unter Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt
FIG. l ein Blockschaltbild eines Standardverfahrens zur spektralen Subtraktion FIG. 2 ein Blockschaltbild zu einem Verfahren nach der Erfindung
FIG. 3 ein Sprachsignal in verschiedenen Stufen des er- findungsgemäßen Signalverarbeitungsverfahrens.
Die Verfahren zur spektralen Subtraktion beruhen auf der Verarbeitung des Kurzzeitbetragsspektrums des gestörten Eingangssignals. In Sprachpausen wird das Störleistungs- spektrum geschätzt und anschließend gleichphasig vom gestörten Eingangssignal subtrahiert. Diese Subtraktion wird üblicherweise als Filterung durchgeführt. Durch die Filterung erfolgt eine Gewichtung der gestörten Spektralkomponenten mit einem reellen Faktor, in Abhängigkeit vom ge- schätzten Signal-zu-Rauschverhältnis des jeweiligen Spektralbandes. Die Geräuschreduktion ergibt sich demnach dadurch, daß gestörte spektrale Bereiche des Nutzungssignals im Verhältnis ihres Störanteils gedämpft werden. Ein vereinfachtes Blockdiagram in FIG. 1 zeigt eine typische Re- alisierung des Spektralsubtraktionsalgorithmus. In einer Analysestufe erfolgt die Zerlegung des gestörten Sprachsignals, beispielsweise durch eine diskrete Fourier Transformation (DFT) , in eine Reihe von Kurzzeitspektren Y(i). Aus den Fourier-Koeffizienten bildet die Einheit KM einen KurzZeitmittelwert, der einen Schätzwert für die mittlere Leistung Y (i) mit i als diskretem Frequenzindex des gestörten Eingangssignals darstellt. In einer Einheit LM erfolgt, gesteuert durch den Sprachpausendetektor SP, die Schätzung eines mittleren Störleistungsspektrums N2(i) in den sprachsignalfreien Abschnitten. Jede Spektrallinie
Y(i) des Eingangssignals wird anschließend mit einem reellen Filterkoeffizienten H(i) multipliziert, der aus dem Kurz zeitmittelwert Y ( i) und dem Störleistungsmittelwert N2 ( i) in der Einheit FK berechnet wird. Der Verfahrensschritt der Geräuschreduktion ist als Multiplikationsstufe GR eingezeichnet. Durch eine inverse diskrete Fourier Transformation (IDFT) ergibt sich am Ausgang der Synthesestufe das geräuschreduzierte Sprachsignal .
Die Berechnung der Filterkoeffizienten H ( i) kann nach unterschiedlichen , an sich bekannten Gewichtungsregeln er- folgten. Typisch ist die Schätzung der Koeffizienten nach
H ( i) = max { ( 1- J N2 ( i) /Y2 ( i) ' ) , f 1 }
Mit fl als vorgebbarem Grundwert (auch spectral floor) , der eine untere Schranke für die Filterkoeffizienten darstellt und üblicherweise 0,1 < fl < 0,25 beträgt. Er bestimmt einen im Ausgangssignal der spektralen Subtraktion verbleibenden Restgeräuschanteil, der das Absenken der Mithörschwelle begrenzt und so schmalbandige Anteile im geräuschreduzierten Ausgangssignal der spektralen Subtraktion teilweise verdeckt. Die Einhaltung eines Grundwerts fl verbessert den subjektiven Höreindruck.
Zur Verdeckung aller Reststörungen der Art der "musical tones" müßte ein Grundwert von ca. 0,5 gewählt werden, wodurch die maximal erreichbare Geräuschreduktion auf etwa 6dB beschränkt wäre.
Ein bei dem erfindungsgemäßen Verfahren genutztes charak- teristisches Merkmal von musical tones ist, daß sie erst im Ausgangssignal des Geräuschreduktionsverfahrens für das menschliche Ohr wahrnehmbar als Störung in Erscheinung treten. Die Wahrnehmbarkeit kann durch die zweite Verdec- kungskurve für dieses Ausgangssignal quantitativ erfaßt werden. Gegenüber den gleichfalls die Pegelschwelle der zweiten Verdeckungskurve überschreitenden Sprach-Nutzan- teilen im Ausgangssignal, die auch bereits im Eingangssi- gnal als Pegelüberschreitung der ersten Verdeckungskurve wahrnehmbar sind, können die musical tones durch Vergleich der wahrnehmbaren Signalanteile im Ausgangssignal und Eingangssignal der Geräuschreduktion als neue hörbare Anteile unterschieden und in einem nachfolgenden Verarbeitungs- schritt gezielt selektiv gedämpft werden.
Das erfindungsgemäße Verfahren zur Detektion und Unterdrückung von sch albandigen Störungen wie musical tones ist anhand des Blockschaltbildes in FIG. 2 erläutert. Es stellt eine Erweiterung des in FIG. 1 dargestellten Standardverfahrens zur spektralen Subtraktion dar. Soweit das skizzierte Verfahren in FIG. 2 mit dem in FIG. 1 skizzierten bekannten Verfahren übereinstimmt, sind gleiche Be- zugszeichen verwandt. Aus den Eingangssignalen Y(i) der Geräuschreduktion GR wird in einer Einheit VE eine erste Verdeckungskurve VI (i) bestimmt. Aus den Ausgangssignalen Y' (i) der Geräuschreduktion wird in VA eine zweite Verdeckungskurve V2(i) bestimmt.
Alternativ dazu kann die erste Verdeckungskurve VI ( i) auch aus dem mittleren Störleistungsspektrum am Eingang der Geräuschreduktion in Sprachpausen bestimmt werden. Die zweite Verdeckungskurve kann auch aus der ersten Verdec- kungskurve abgeleitet werden, z . B. durch Multiplikation mit dem Grundwert fl , V2 (i) = fl * Vl ( i) . Der Vorteil der Bestimmung der Verdeckungskurven aus den aktuellen Eingangs- und Ausgangssignalen der Geräuschreduktion besteht insbesondere darin, daß auch instationäre Geräuschanteile sowie die verdeckende Wirkung der Sprach- anteile mitberücksichtigt werden. Wird dagegen die erste Verdeckungskurve aus dem mittleren Störleistungsspektrum ermittelt und die zweite Verdeckungskurve näherungsweise nach V2 ( i) = fl- Vl ( i) bestimmt, so ergibt sich eine erhebliche Verringerung der Rechenaufwands . Der Rechenaufwand kann weiter dadurch verringert werden , daß die Verdeckungskurve wesentlich weniger oft aktualisiert werden muß , da das mittlere Störleistungsspektrum in der Regel nur langsam zeitveränderlich ist . Das qualitativ bessere synthetisierte Sprachsignal wird aber mit der Bestimmung der Verdeckungskurven aus den aktuellen Signalen Y ( i) , Y ' ( i) erzielt.
Eine vorteilhafte Weiterbildung der Erfindung sieht eine weitere Verbesserung durch Detektion von stationären Si- gnalanteilen , die von der selektiven Dämpfung ausgenommen werden, auch wenn sie das Kriterium nur im Ausgangssignal Y * ( i) wahrnehmbar zu sein, erfüllen. In FIG. 2 ist hierfür ein Stationaritätsdetektor STAT eingezeichnet.
Er kann auf verschiedene Arten realisiert werden , beispielsweise durch die zeitliche Verfolgung einzelner Spektrallinien oder auch der Filterkoeffizienten . Eine einfache Realisierungsform ergibt sich mit der Forderung, daß mehrere zeitlich aufeinanderfolgende Filterkoeffizienten jeweils einen bestimmten Schwellwert thrstat überschreiten müssen , so daß gilt: Hk_n(i) , . . . , H^ f i) , Hk(i) > thrstat,
mit z.B. n=2 und thrstat= 0,35.
Im Entscheider ENT werden zunächst mit Hilfe der zweiten Verdeckungskurve V2(i) hörbare tonale Komponenten im Ausgangssignal des Geräuschreduktionsystems ermittelt. Handelt es sich hierbei nicht um eine stationäre Komponente, wird untersucht, ob der Spektralanteil schon vor der Fil- terung (Geräuschreduktion) hörbar war. Dies erfolgt unter Verwendung der ersten Verdeckungskurve V^(i). Wird der Frequenzanteil im Eingangssignal Y(i) als verdeckt festgestellt, wird die Spektralkomponente im Ausgangssignal als musical tone angenommen und in einer Nachverarbeitungs- stufe NV gedämpft. Im anderen Fall, d.h. bei Nichtverdec- kung im Eingangssignal wird auf Sprache entschieden und keine zusätzliche Dämpfung vorgenommen.
Die zusätzliche Dämpfung in der Nachverarbeitung kann auf verschiedene Weise erfolgen. So kann z.B. für eine als
Störung erkannte neu hörbare spektrale Komponente der Pegelwert auf den Wert der zweiten Verdeckungskurve gesetzt werden. Vorzugsweise wird der detektierte Pegelwert der störenden spektralen Komponente auf einen korrigierten Wert gesetzt, der sich aus der Filterung der spektral entsprechenden Eingangssignalkomponente mit dem Grundwert fl als Filterkoeffizient ergibt.
In FIG. 3 sind verschiedene Stadien der Signalverarbeitung für ein gestörtes Sprachsignal nach dem erfindungsgemäßen
Verfahren skizziert. FIG. 3A zeigt ein Leistungsspektrum P ( i) eines gestörten Signals am Eingang der Geräuschreduktion sowie eine daraus bestimmte erste Verdeckungskurve VI ( i) mit der Verdeckungskurve übersteigenden Signalanteilen s . Nach Durchfüh- rung der spektralen Subtraktion ergibt sich ein geräuschreduziertes Leistungsspektrum P * ( i) = Y 1 (i) mit einer daraus bestimmten zweiten Verdeckungskurve V2 ( i) in welcher neben den auch in FIG. 3A die Verdeckungskurve VI ( i) überschreitenden Signalanteilen s weitere Signalan- teile als die zweite Verdeckungsschwelle überschreitend auftreten, die als nicht verdeckte und somit neu hörbare Signalanteile nach Art der musical tones erscheinen. Diese neu hörbaren Signalanteile können detektiert und durch selektive Dämpfung ohne Beeinträchtigung der Sprachanteile s unterdrückt werden . Das sich bei der selektiven Dämpfung ergebende Leistungsspektrum PM ( i) ist in FIG. 3C skizziert. Nur die als Sprachsignale bewerteten Signalanteile s übersteigen die Verdeckungskurve , wobei diese Signale nunmehr um ein weit größeres Maß über der Verdeckungs urve V2 ( i) liegen als die entsprechenden Anteile im Eingangssignal über der dort geltenden Verdeckungskurve VI ( i) (FIG . 3A) und somit deutlicher hörbar sind. Die musical tones m aus FIG . 3B sind im Pegel unter die Verdeckungskurve V2 ( i) gedrückt und somit nicht mehr als individuelle Töne wahr- nehmbar.
Die Erfindung ist nicht auf die spektrale Subtraktion zur Geräuschreduktion beschränkt. Das Verfahren, die Verdeckungskurven am Eingang und am Ausgang einer Geräuschreduk- tion zu ermitteln und aufgrund neu hörbarer Anteile am
Ausgang Störungen zu detektieren und zu unterdrücken, läßt sich auch auf andere Signalverarbeitungssysteme, z.B. zur Signalkodierung übertragen.

Claims

Patentansprüche
1. Verfahren zur Verringerung von Störungen eines Sprachsignals, bei welchem ein Geräuschreduktionsverfahren eingesetzt und die spektrale psychoakustische Verdeckung mit berücksichtigt wird, dadurch gekennzeichnet, daß eine er- ste spektrale Verdeckungskurve für das Eingangssignal und eine zweite spektrale Verdeckungskurve für das Ausgangssignal des Geräuschreduktionsverfahrens bestimmt werden, daß die zweite Verdeckungskurve übersteigende neu hörbare Anteile des Ausgangssignals des Geräuschreduktionsverfah- rens, denen keine spektral entsprechenden, die erste Verdeckungskurve übersteigenden Anteile des Eingangssignals gegenüberstehen, zusätzlich selektiv gedämpft werden.
2 . Verfahren nach Anspruch 1 , gekennzeichnet durch ein spektrales Subtraktionsverfahren als Geräuschreduktionsverfahren.
3 . Verfahren nach Anspruch 2 , dadurch gekennzeichnet, daß die neu hörbaren Anteile auf ihren Grundwert der spektralen Subtraktion reduziert werden.
4 . Verfahren nach Anspruch 1 oder Anspruch 2 , dadurch ge- kennzeichnet, daß die neu hörbaren Anteile auf ihren Wert der spektralen Verdeckungskurve reduziert werden.
5. Verfahren nach einem der Ansprüche 1 bis 4 , dadurch gekennzeichnet, daß über ein vorgebbares Zeitintervall statische neu hörbare Anteile des Ausgangssignals von der zusätzlichen selektiven Dämpfung ausgenommen werden.
6. Verfahren nach einem der Ansprüche 1 bis 5 , dadurch gekennzeichnet, daß die zweite Verdeckungskurve aus dem Ausgangssignal der Geräuschreduktionsverfahrens bestimmt wird.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die zweite Verdeckungskurve aus der ersten Verdeckungskurve abgeleitet wird.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die erste Verdeckungskurve aus dem Eingangssignal des Geräuschreduktionsverfahrens bestimmt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die erste Verdeckungskurve aus Geräuschsignalen in Sprachpausen bestimmt wird.
PCT/EP1997/003482 1996-07-19 1997-07-02 Verfahren zur verringerung von störungen eines sprachsignals WO1998003965A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CA002260893A CA2260893C (en) 1996-07-19 1997-07-02 Method of reducing voice signal interference
AT97930489T ATE191806T1 (de) 1996-07-19 1997-07-02 Verfahren zur verringerung von störungen eines sprachsignals
EP97930489A EP0912974B1 (de) 1996-07-19 1997-07-02 Verfahren zur verringerung von störungen eines sprachsignals
DE59701446T DE59701446D1 (de) 1996-07-19 1997-07-02 Verfahren zur verringerung von störungen eines sprachsignals
JP50648198A JP4187795B2 (ja) 1996-07-19 1997-07-02 音声信号障害を低減するための方法
US09/214,910 US6687669B1 (en) 1996-07-19 1997-07-02 Method of reducing voice signal interference

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19629132A DE19629132A1 (de) 1996-07-19 1996-07-19 Verfahren zur Verringerung von Störungen eines Sprachsignals
DE19629132.1 1996-07-19

Publications (1)

Publication Number Publication Date
WO1998003965A1 true WO1998003965A1 (de) 1998-01-29

Family

ID=7800259

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP1997/003482 WO1998003965A1 (de) 1996-07-19 1997-07-02 Verfahren zur verringerung von störungen eines sprachsignals

Country Status (8)

Country Link
US (1) US6687669B1 (de)
EP (1) EP0912974B1 (de)
JP (1) JP4187795B2 (de)
AT (1) ATE191806T1 (de)
CA (1) CA2260893C (de)
DE (2) DE19629132A1 (de)
ES (1) ES2146107T3 (de)
WO (1) WO1998003965A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062039B1 (en) 1999-05-27 2006-06-13 Telefonaktiebolaget Lm Ericsson Methods and apparatus for improving adaptive filter performance by inclusion of inaudible information
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
DE19957220A1 (de) * 1999-11-27 2001-06-21 Alcatel Sa An den aktuellen Geräuschpegel adaptierte Geräuschunterdrückung
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
JP3566197B2 (ja) * 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7406412B2 (en) * 2004-04-20 2008-07-29 Dolby Laboratories Licensing Corporation Reduced computational complexity of bit allocation for perceptual coding
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
DE102005001345B4 (de) * 2004-11-10 2013-01-31 Ask Industries Gmbh Verfahren und Vorrichtung zur Verarbeitung und Wiedergabe von Audiosignalen
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US20080231557A1 (en) * 2007-03-20 2008-09-25 Leadis Technology, Inc. Emission control in aged active matrix oled display using voltage ratio or current ratio
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) * 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
US8135140B2 (en) 2008-11-20 2012-03-13 Harman International Industries, Incorporated System for active noise control with audio signal compensation
US9020158B2 (en) * 2008-11-20 2015-04-28 Harman International Industries, Incorporated Quiet zone control system
US8718289B2 (en) * 2009-01-12 2014-05-06 Harman International Industries, Incorporated System for active noise control with parallel adaptive filter configuration
US8189799B2 (en) * 2009-04-09 2012-05-29 Harman International Industries, Incorporated System for active noise control based on audio system output
US8199924B2 (en) * 2009-04-17 2012-06-12 Harman International Industries, Incorporated System for active noise control with an infinite impulse response filter
US8077873B2 (en) * 2009-05-14 2011-12-13 Harman International Industries, Incorporated System for active noise control with adaptive speaker selection
US9280964B2 (en) * 2013-03-14 2016-03-08 Fishman Transducers, Inc. Device and method for processing signals associated with sound

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0615226A2 (de) * 1993-03-11 1994-09-14 Daimler-Benz Aktiengesellschaft Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
WO1995016259A1 (en) * 1993-12-06 1995-06-15 Philips Electronics N.V. A noise reduction system and device, and a mobile radio station
EP0669606A2 (de) * 1994-02-23 1995-08-30 Daimler-Benz Aktiengesellschaft Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3805946A1 (de) * 1988-02-25 1989-09-07 Fraunhofer Ges Forschung Vorrichtung zur ermittlung von charakteristischen parametern aus den eingangs- und ausgangssignalen eines systems fuer die audiosignalverarbeitung
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
ES2137355T3 (es) * 1993-02-12 1999-12-16 British Telecomm Reduccion de ruido.
EP0707763B1 (de) * 1993-07-07 2001-08-29 Picturetel Corporation Verringerung des hintergrundrauschens zur sprachverbesserung
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0615226A2 (de) * 1993-03-11 1994-09-14 Daimler-Benz Aktiengesellschaft Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
WO1995016259A1 (en) * 1993-12-06 1995-06-15 Philips Electronics N.V. A noise reduction system and device, and a mobile radio station
EP0669606A2 (de) * 1994-02-23 1995-08-30 Daimler-Benz Aktiengesellschaft Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062039B1 (en) 1999-05-27 2006-06-13 Telefonaktiebolaget Lm Ericsson Methods and apparatus for improving adaptive filter performance by inclusion of inaudible information
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren

Also Published As

Publication number Publication date
EP0912974A1 (de) 1999-05-06
CA2260893C (en) 2005-05-17
ATE191806T1 (de) 2000-04-15
JP2002509620A (ja) 2002-03-26
US6687669B1 (en) 2004-02-03
JP4187795B2 (ja) 2008-11-26
DE19629132A1 (de) 1998-01-22
DE59701446D1 (de) 2000-05-18
EP0912974B1 (de) 2000-04-12
ES2146107T3 (es) 2000-07-16
CA2260893A1 (en) 1998-01-29

Similar Documents

Publication Publication Date Title
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE69803203T2 (de) Verfahren und vorrichtung zur rauschunterdrückung eines digitalen sprachsignals
DE69420027T2 (de) Rauschverminderung
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE69531710T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE112009000805B4 (de) Rauschreduktion
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE69905035T2 (de) Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
EP0669606B1 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
DE69804329T2 (de) Verfahren und vorrichtung zur rauschunterdrückung eines digitalen sprachsignals
DE69802431T2 (de) Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals
DE3230391C2 (de)
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
DE4445983C2 (de) Verfahren zur Rauschunterdrückung und Vorrichtungen zur Durchführung der Verfahren
DE10137685C1 (de) Verfahren zum Erkennen des Vorliegens von Sprachsignalen
DE102004008225A1 (de) Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1997930489

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2260893

Country of ref document: CA

Ref country code: CA

Ref document number: 2260893

Kind code of ref document: A

Format of ref document f/p: F

WWP Wipo information: published in national office

Ref document number: 1997930489

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09214910

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 1997930489

Country of ref document: EP