WO2004083884A2 - Verfahren und vorrichtung zum entmischen akustischer signale - Google Patents

Verfahren und vorrichtung zum entmischen akustischer signale Download PDF

Info

Publication number
WO2004083884A2
WO2004083884A2 PCT/DE2004/000450 DE2004000450W WO2004083884A2 WO 2004083884 A2 WO2004083884 A2 WO 2004083884A2 DE 2004000450 W DE2004000450 W DE 2004000450W WO 2004083884 A2 WO2004083884 A2 WO 2004083884A2
Authority
WO
WIPO (PCT)
Prior art keywords
dependent
frequency
acoustic
signals
time
Prior art date
Application number
PCT/DE2004/000450
Other languages
English (en)
French (fr)
Other versions
WO2004083884A3 (de
Inventor
Dorothea Kolossa
Wolf Baumann
Reinhold Orglmeister
Original Assignee
Technische Universität Berlin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universität Berlin filed Critical Technische Universität Berlin
Publication of WO2004083884A2 publication Critical patent/WO2004083884A2/de
Publication of WO2004083884A3 publication Critical patent/WO2004083884A3/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Entmischen von akustischen Signalen. Bei dem werden mit Hilfe von wenigstens zwei akustischen Sensoren M1 und M2 mindestens zwei zeitabhängige akustische Mischsignale x1(t) und x2(t) erfaßt, die jeweils gemischte Signalanteile zeitabhängiger akustischer Quellsignale sl(t) und s2(t) von akustischen Signalquellen Q1 und Q2 umfassen. Die akustischen Mischsignale xl(t) und x2(t) werden zum Bilden von frequenzabhängigen Mischsignalen X1(ω) und X2(ω) mit Hilfe einer Verarbeitungseinrichtung in den Frequenzbereich transformiert werden. Mit Hilfe der Verarbeitungseinrichtung werden die frequenzabhängigen Mischsignale X1(ω) und X2(ω) mittels einer im Frequenzbereich ausgeführten Null-Beamforming-Analyse auf Basis eines Delay-and-Sum Verfahrens analysiert, um entmischte frequenzabhängige Ausgangssignale Yl(ω) und Y2(ω) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale yl(t) und y2(t) transformiert werden, wobei Einfallswinkel φ1 und φ2 der aus den zeitabhängigen akustischen Mischsignalen xl(t) und x2(t) abgeleiteten, frequenzabhängigen Mischsignale X1(ω) bzw. X2(ω) bei der Null-Beamforming-Analyse auf Basis des Delay-and-Sum-Verfahrens als frequenzabhängige Einfallswinkel (φ1(ωk) und (φ2(ωk) für mehrere Frequenzbänder ωk (k = 1, 2, ...) optimiert werden.

Description

Verfahren und Vorrichtung zum Entmischen akustischer Signale
Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Entmischen akustischer Signale.
Das Entmischen akustischer Signale ist eine Aufgabenstellung in verschiedenen technischen Bereichen. Das grundlegende Problem besteht darin, daß sich in einer realen Umgebung stets akustische Signale von verschiedenen Geräuschquellen zu einem sonoren Umfeld überlagern. Akustische Sensoren nehmen in einem solchen Fall stets nur Superpositionen der verschiedenen akustischen Signale auf. Es besteht dann das Problem, die verschiedenen miteinander überlagerten akustischen Einzelsignale zu entmischen bzw. zu trennen.
Eine derartige Aufgabenstellung stellt sich beispielsweise in Verbindung mit einer Sprachsteuerung von Steuerungselementen. Die Steuerungselemente können zum Beispiel in einem Kraftfalirzeug angeordnet sein. Eine Sprachsteuerung kann dann beispielsweise für die Bedienung eines Audiosystems, eines elektronischen Orientierungssystems oder einer Mobil- ftink-Telefoneinrichtung in dem Kraftfahrzeug vorgesehen sein. Bei einer solchen Sprachsteuerung ist es wichtig, daß für den Fall von gleichzeitig sprechenden Kraftfahrzeuginsassen nur das Sprachsignal der Bedienperson an das Spracherkennungssystem weitergegeben wird, um Fehlbedienungen auszuschließen. Da die Insassen des Kraftfahrzeugs im allgemeinen keine Ansteckmikrofone benutzen, was die Zuordbarkeit des Sprachsignals der Bedienperson erleichtern würde, müssen die Sprachsignale der Insassen des Fahrzeugs getrennt werden. In ähnlicher Weise gestaltete Aufgabenstellungen bestehen jedoch nicht nur in Kraftfahrzeugen, sondern sind von allgemeiner Art bei Anwendungen, in denen ein akustisches Signal aus einer Superposition von mehreren akustischen Signalen heraus zu filtern ist.
Zum Trennen/Entmischen der akustischen Signale können unterschiedliche Verfahren herangezogen werden. Als ein mögliches Verfahren ist das sogenannte Beamforming bekannt (K. Haddad et. al.: Capabilities of a beamforming technique for acoustic measurements inside a moving car, The 2002 Interntional Congress and Exposition on Noise Control Engineering, Dearborn, MI, USA, 19.-21. August 2002). Beim Beamforming gemäß dem bekannten Verfahren werden mehrere Mikrofone zu einer Mikrofonanordnung zusammengeschaltet. Eine auf die Mikrofonanordnung einfallende Schallwelle erzeugt richtungsabhängige Phasendiffe- renzen zwischen den erfaßten Sensorsignalen an den mehreren Mikrofonen. Mit Hilfe der Phasendifferenz kann eine räumliche Filterung vorgenommen werden. Als ein Form des Beamforming wird die Delay-and-Sum- Analyse genannt.
Eine weitere Möglichkeit zum Trennen akustischer Signale bildet die sogenannte blinde Quellentrennung (BSS - „Blind Source Separation"). Bei diesem statistischen Verfahren werden die in den erfaßten Mikrofonsignalen unterschiedlichen Mischungsverhältnisse der einzelnen Geräuschquellen verwendet, um unter Annahme der gegenseitigen statistischen Unabhängigkeit der Geräuschquellen den Mischprozeß der akustischen Signale zu invertieren. Das Problem der blinden Quellentrennung kann mit Hilfe eines ICA- Verfahrens (ICA - „In- dependent Component Analysis") gelöst werden. Die IC- Analyse findet hierbei statistisch möglichst unabhängige akustische Komponenten aus der Superposition der akustischen Signale.
Aufgabe der Erfindung ist es, ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Entmischen akustischer Signale anzugeben, bei denen die Störanfälligkeit und der Ein- fluß ungewünschter Nebengeräusche beim Entmischen akustischer Signale vermindert ist.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach dem unabhängigen Anspruch 1 und eine Vorrichtung nach dem unabhängigen Anspruch 8 gelöst.
Die Erfindung umfaßt den Gedanken, zum Entmischen von akustischen Signalen ein im Frequenzbereich ausgeführtes Null-Beamforming auf Basis eines Delay-and-Sum- Verfahrens zu nutzen, wobei die Emfallswinlcel der akustischen Signale auf die akustischen Sensoren als frequenzabhängige Größen verwendet werden. Auf diese Weise wird ein frequenzabhängiges Beamforming ausgeführt. Im Vergleich zu herkömmlichen Beamforming- Verfahren besteht der Vorteil darin, daß nur so viele Mikrofone benutzt werden müssen, wie Geräuschquellen vorhanden sind. Von besonderem Vorteil im Vergleich zu bekannten Methoden der ICA- basierten blinden Quellentrennung ist, daß eine eindeutige Zuordnung der Ausgangssignale zu den einzelnen Geräuschquellen möglich ist und des weiteren, daß pro Frequenzband nur m reellwertige Parameter bestimmt werden müssen, wobei m der Anzahl der verwendeten Mikrofone entspricht. Mit Hilfe der Erfindung können akustische Signale von mehreren Geräuschquellen getrennt und die entmischten Signale den mehreren Geräuschquellen jeweils eindeutig zugeordnet werden, wobei es sich um beliebige Geräuschquellen handeln kann, die bei verschiedensten technischen Anwendungen auftreten.
Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels unter Bezugnahme auf eine Zeichnung näher erläutert. Hierbei zeigen:
Figur 1 eine Anordnung mit zwei Mikrofonen und zwei Geräuschquellen; und
Figur 2 eine schematische Darstellung zur Erläuterung des Verfahrens zum Entmischen akustischer Signale.
Figur 1 zeigt eine schematische Darstellung mit zwei Mikrofonen Mi und M , die in einem Abstand d angeordnet sind. Der Abstand d beträgt vorzugsweise nur einige Zentimeter, sollte jedoch nicht größer als etwa 1 m sein. Um den Einfluß von Mehrdeutigkeiten bei der räumlichen Abtastung zu vermindern, kann der Abstand d zweckmäßig so gewählt werden, daß der Abstand d etwa der halben Wellenlänge der maximalen Frequenz der akustischen Signale von den zu berücksichtigenden Geräuschquellen entspricht. Die folgende Beschreibung des Ausfuhrungsbeispiels erfolgt unter Bezugnahme auf die in Figur dargestellte Anordnung mit den beidem Mikrofonen Mi und M2. Zum Erfassen akustischer Signale können jedoch beliebige geeignete Sensoreinrichtungen zum Messen akustischer Signale genutzt werden, die der Fachmann in Abhängigkeit von einer gewünschten Meßwerterfassung unter den jeweiligen Umgebungsbedingungen des Anwendungsfalls auswählen kann. Zur Vereinfachung der Darstellung wurde zur Erläuterung des Ausführungsbeispiels eine Anordnung mit zwei Mikrofonen Mi. und M gewählt. Das Verfahren kann ohne weiteres auch für Anordnungen mit mehr Mikrofonen erweitert werden.
Mit Hilfe der beiden Mikrofone Mi und M2 werden akustische Signale von zwei Ge- räuschquellen Qi und Q2 empfangen, bei denen es sich um beliebige Geräuschquellen handeln kann, die einem Anwendungsfall akustische Signale abgeben, die sich überlagern. Das im folgenden erläuterte Verfahren ist jedoch nicht auf Anordnungen mit zwei Geräuschquellen beschränkt, sondern kann ohne weiteres vom Fachmann auch für Anwendungsfälle mit mehr als zwei Geräuschquellen ausgeführt werden. Aufgrund der gleichzeitigen Abgabe akusti- scher Signale durch die beiden Geräuschquellen Qi und Q2 werden von den Mikrofonen Mi und M2 jeweils Superpositionen der von den Geräuschquellen Qi, Q2 abgegebenen akustischen Signale empfangen. Die in Figur 1 schematisch dargestellte Anordnung der Mikrofone Mi, M , die als akustische Sensoreinrichtungen dienen, und der beiden Geräuschquellen Qi, Q entspricht, ohne hierauf beschränkt zu sein, zum Beispiel einer Situation in einem Kraftfahrzeug, bei dem die beiden Mikrofone Mi, M im Frontbereich des Fahrzeugs Beifahrer, beispielsweise integriert in einen Innenrückspiegel, vor dem Fahrer und dem angeordnet sind. Der Fahrer und der Beifahrer oder auch der Fahrer und das Fahrgeräusch im Kraftfahrzeug entsprechen dann den beiden Geräuschquellen Qls Q2. Vergleichbare reale Bedingungen be- stehen in verschiedensten Anwendungsbereichen grundsätzlich immer dann, wenn sich die von Geräuschquellen abgegebenen akustischen Signale aufgrund von Umgebungsbedingungen überlagern.
Figur 2 zeigt eine schematische Darstellung, bei der den beiden Mikrofonen Mi und M2 jeweils ein Verstärker 10, 20 und ein Analog-Digital-Wandler 30, 40 nachgeschaltet ist. Sind beide Sprecher gleichzeitig aktiv, überlagern sich die Sprachsignale an beiden Mikrofonen Mi und M2, im Signal xx (t) von Mikrofon 1 ist sowohl Sprachsignal sx (t) als auch Sprachsignal s2 (t) mit jeweils unbekanntem Anteil enthalten. Die an den beiden Mikrofonen Mi, M2 gemessenen akustischen Signale xt(t) und x2(t) ergeben sich als Überlagerung von gefilterten Versionen der originalen Sprachsignale. Die Filterung erfolgt jeweils mit der Impulsantwort zwischen Geräuschquelle (Sprecher) Qi, Q2 und Mikrofon Mi, M2 und wird mathematisch durch das Symbol "*" beschrieben. Daraus folgt für die Mikrofonsignale:
x1 (t) = hu * sl (i) + h12 * s2 (t)
(1) 2 ( = ^ι * si (t) + h72 * sι (t)
Um die Quellsignale wieder zu rekonstruieren, ist es nötig, geeignete Entmischungsfilter zu finden. Probleme dieser Art werden vorzugsweise im Frequenzbereich betrachtet, da sich dann die Filterung mit der Impulsantwort auf eine Multiplikation mit der entsprechenden Übertragungsfunlction reduziert. Für die gemessenen akustischen Signale x,(t) und x2(t) ergibt sich folgende Darstellung im Frequenzbereich: Xx(ώ) = Hn(ω) S^ω) + Hn(ω) S2(ω) X2(ω) = H21(ω) - S1(ω) + H22(ω) - S2(ω)
Die Transformation in den Frequenzbereich erfolgt mit Hilfe der diskreten Kurzzeit- Fouriertranfoπnation (STFT), beispielsweise mit Hilfe von Standard-Parametern (FFT-Länge = 512, Fensterlänge = FFT-Länge, Overlap = 3/4-Fensterlänge, Hanning-Fensterfünktion). Nach Durchlaufen des Algorithmus werden entmischte frequenzabhängige Ausgangssignale Yl (ω) und Y2 (ω) wieder in den Zeitbereich zurücktransfomiiert und überlappend aufaddiert.
Ausgehend von diesen Überlegungen wird im folgenden die Trem ung/Entmischung der beiden Sprachsignale erläutert werden. Das Verfahren beruht auf einer im Gegensatz zu den Gleichungen (1) und (2) etwas vereinfachten Darstellung der Mischung. Vernachlässigt man die in den Übertragungsfunktionen Hn(ω) bis H22(ω) auftretenden Dämpfungsfaktoren und betrachtet ein Delay-and-Sum-Beamforming Model, würden sich die Mikrofonsignale aus zeitverzögerten Versionen der einzelnen Sprachsignale zusammensetzen:
Xχ(t) = Ä. ( + s2(t)
(3) x2(t) = s1(t - τl) + s2(t - τ2)
Hierbei werden nur relative Verzögerungen betrachtet, also eine Zeitverzögerung von Null am Mikrofon Mi angenommen, n Frequenzbereich entspricht die Verzögerung einer Multiplikation mit einem Phasenfaktor, so daß die Überlagerung wie folgt dargestellt werden kann:
Xl(ω) = Sl(ω) + S2(ω)
(4)
X2(ω) = eι (<Pι ,ω) - Sl (ω) + e22 ,ω) - S2(ω)
wobei blickrichtungsabhängige Phasenfaktoren e φ ,ώ) und e22,ω) wie folgt definiert sind:
-ilπf-ύn(φ^ω)) e. (φ, , ω) = e c ' ' d (5)
-i2πf-sm(φ2(ώ» e2 (<p2,ω) = e c
In Matrixschreibweise ergibt sich hieraus: X(ω) = A(ω) -S(ω) , (6)
mit der Mischungsmatrix
Figure imgf000008_0001
Im Unterschied zum üblichen Delay-and-Sum-Beamforming wird eine frequenzabhangige Betrachtung durchgeführt, so daß die Einfallswinkel φλ und φ2 für verschiedene Frequenzen als nicht konstant angenommen werden, was einer realen Umgebung, beispielsweise in einem Fahrzeug, entspricht, da durch die Übertraguiigsftinktion zwischen Sprecher und Mikrofon zusätzliche Phasendrehungen auf die Signale wirken. Diese zusätzlichen Phasendrehungen sind jedoch unbekannt, so daß lediglich von einer ungefähren Einfallsrichtung ausgegangen werden kann, die sich von Frequenzband zu Frequenzband ändert. Aus diesem Grund wird das Verfahren frequenzvariiert implementiert, d.h. die Blickrichtungen φ und φ2 werden für jedes Frequenzband Cük (k = 2 bis NFFT/2) separat angepaßt.
Insbesondere für tiefe Frequenzbereiche können je nach Umgebungsbedingungen anwen- dungsfallabhängig Phasendrehungen auftreten, die größer als die mit Hilfe des Beamforming- Konzepts nach Gleichung (5) erfaßbaren Phasendrehungen sind. In diesem Fall kann eine zusätzliche Skalierungsfunktion λ(ω) in den Exponenten der beiden Terme in Gleichung (5) zu einer Verbesserung des Verfahrens fuhren.
Für jede Frequenz wird gefordert, daß im entmischten frequenzabhängigen Ausgangssignal 7j(cy) der Anteil von Sprecher 2 (Geräuschquelle Qi) gleich Null und der Anteil von Spre- eher 1 (Geräuschquelle Qi) gleich Eins ist. Für das entmischte frequenzabhangige Ausgangssignal Y2{ω) gilt dementsprechend, daß der Anteil von Sprecher 1 gleich Null und der Anteil von Sprecher 2 gleich Eins ist. Diese Bedingung kann durch die Bildung der Inversen der Mischungsmatrix aus Gleichung (7) realisiert werden. In jedem Frequenzband gibt es also eine folgendermaßen definierte Entmischungsmatrix:
Figure imgf000008_0002
wobei die Phasenfaktoren ex und e2 gemäß Gleichung (5) definiert sind. Die Ausgangssignale ergeben sich aus Multiplikation der Entmischungsmatrix mit den Mikrofonsignalen.
Y(ω) = W(ω)-X(ω) (9)
Für die einzelnen Ausgangssignale in jedem Frequenzband ergibt sich:
— e.
Yx{ω) Xχ(θ)) +- •X2{ώ) e β2
(10)
Y2(ω) = —^ — Xx(ω) + —-X2(ω) βx e2 ex e2
Damit ergibt sich eine wie in Figur 2 gezeigte Anordnung von zwei parallelen frequenzvari- anten Delay and Sum Beamformern, die auch als Anordnung von zwei parallelen Filter and Sum Beamformeπi, deren Filter beide eine Allpaßcharakteristik aufweisen, interpretiert werden kann.
Die Entmischungsfilter, also die Elemente der Entmischungsmatrix, hängen in jedem Frequenzband ausschließlich von den beiden Blickrichtungen φ {ω) und φ2(ω) ab. Die Optimierung dieser beiden Richtungen erfolgt mit Hilfe einer ICA-Analyse (ICA - „ Independent Component Analysis"). Hierbei ist stets gewährleistet, daß die Richtung minimaler Dämpfung des ersten Sprachsignales die Ausnullungsrichtung des zweiten Sprachsignales ist. Glei- ches gilt umgekehrt für das zweite Sprachsignal, dessen Blickrichtung gleichzeitig die Ausnullungsrichtung des ersten Sprachsignals ist.
Für den Einsatz im Kfz ist es günstig, tieffrequente Störungen gleich mit herauszufiltern. Zu diesem Zweck wird in der Entmischungsmatrix ein blickrichtungs- und frequenzabhängiger Dämpfungsfaktor \ el ~ e2 \ benutzt. Die endgültige Entmischungsmatrix lautet dann:
-e2 1 W(yα>) = | eι _ g2 (11) e. — e2 βj -1
In jedem Frequenzband werden die beiden Blickrichtungen des Beamformers, φx und φ2 , so angepaßt, daß die beiden Ausgangssignale 7I(ω)und Y2{co) des Beamformers (vgl. Figur 2) im statistischen Sinne möglichst unabhängig voneinander sind. Mathematisch betrachtet werden also die Richtungen φλ{ω) und φ2{ω) optimiert, so daß die beiden entmischten f equenzabhängigen Ausgangssignale 7j(<»)und Y2(ω) möglichst geringe statistische Abhängigkeiten voneinander besitzen.
Zur Beurteilung der statistischen Abhängigkeit wird als statistisches Maß vierter Ordnung die folgende Kreuzkumulante verwendet:
Figure imgf000010_0001
-γf f
Figure imgf000010_0002
-γ f (12)
Hierbei bilden Yx' und 72 mittelwertbefreite, normierte Versionen der entmischten frequenzabhängigen Ausgangssignale 71(ω)und 72(_y) :
Figure imgf000010_0003
Die Kostenfunktion J = Cum(Yx , 72 ) wird so optimiert, daß die optimalen φx(ώ) und φ2(ω) folgende Anforderung erfüllen müssen:
φ φ2 = arg m φ, ,iφn2 ] J W(φx2) -X) \ (14)
Die Suche nach den optimalen φ (ω) und φ2(ω) erfolgt sequentiell für jedes Frequenzband C0k (mit k=2 bis NFFT/2) mittels eines Gradientenabstiegs. Als Startwert in jedem Frequenzband ωk dienen die arithmetischen Mittelwerte der bis zu dieser Frequenz gefundenen Blickrichtungen:
Figure imgf000010_0004
Als Suchrichtung dienen die Realteile der partiellen Ableitungen dJ ldφx und dJ ldφ2
Figure imgf000011_0001
Bei der Berechnung der partiellen Ableitungen wurde der komplexe Vorfaktor aus Gleichung (11) weggelassen, was folgender Form der Εntmischungsmatrix entspricht:
Figure imgf000011_0002
Der Vorfaktor beeinflußt nicht den Grad der statistischen Unabhängigkeit, so daß er bei der Optimierung keine Rolle spielt. Für die tatsächliche Entmischung mit den optimierten Blickrichtungen muß er jedoch berücksichtigt werden, da sich andernfalls die Qualität der entmischten Signale deutlich verschlechtert.
Eine einfache Erweiterung des erläuterten Entmischungsverfahrens zur Berücksichtigung der in der Realität auftretenden Dämpfunsfaktoren wird erreicht, wenn die Faktoren ex und e2 in Gleichung (5) um einen Betragsanteil erweitert bzw. als komplexe Faktoren mit beliebigem Betrag definiert werden. Dieses bedeutet, daß abweichend vom Beamforming-Modell ex und e2 nicht mehr auf dem Einheitskreis in der komplexen Ebene liegen müssen, sondern frei variiert werden können. Wird für die weitere Optimierung die Kostenfunktion aus Gleichung (12) benutzt, ergeben sich die Ableitungen nach den konjugiert komplexen Faktoren, also nach e* und e2* , wie folgt:
Figure imgf000011_0003
Die bisher gefundenen Blickrichtungen werden als Startwerte benutzt, und anschließend werden in der Nachverarbeitung ex und e2 so optimiert, daß der Grad der statistischen Unabhän- gigkeit zwischen den frequenzabhängigen Ausgangssignalen 71(c?) und Y2(ω) ein Minimum erreicht. In dieser Weise kann das Verfahren als Vorverarbeitungsstufe für andere Methoden der blinden Quellentrennung von akustischen Signalen genutzt werden.
Das beschriebene Verfahren zum Entmischen akustischer Signale basiert auf zwei parallelen im Frequenzbereich implementierten Delay-and-Sum-Beamformern (vgl. Figur 2) unter Ver- wendung der Signale der beiden Mikrofone Mi und M . Die Blickrichtungen der beiden Be- amformer werden so definiert, daß die Einfallsrichtung der Geräuschquelle Qi die Aus- löschrichtung für die Geräuschquelle Q2 ist. Im Unterschied zu üblichen Beamforming- Verfahren sind hierbei die beiden Einfallsrichtungen nicht für alle Frequenzen gleich. Auf diese Weise wird eine Anpassung an reale Umgebungsbedingungen in verschiedensten An- Wendungen erreicht, so daß durch die Raumakustik bedingte zusätzliche Phasendrehungen ausgeglichen werden. Die frequenzabhängige Einstellung der beiden Einfallsrichtungen erfolgt mit Hilfe von Kriterien statistischer Unabhängigkeit. Hierbei wird gemäß der beispielhaften Ausführungsform ein Kriterium vierter Ordnung (Kreuzkumulante) benutzt. Als Maß für statistische Unabhängigkeit können ebenfalls ICA-Kriterien aus der Informations- und Schätztheorie verwendet werden. Mögliche Kriterien sind beispielsweise: Maximum Likeli- hood, Maximum Entropy, Negentropy, Kurtosis, Minimum Mutual Information, Kernelbasierte Verfahren, Statistik zweiter Ordnung (mit zusätzlicher Ausnutzung der Nichtstationa- rität oder Benutzung linearer Operatoren). Eine weitere Möglichkeit wäre, als Nicht-ICA- Kriterium die Ausnutzung von Statistik zweiter Ordnung zu verwenden, beispielsweise Kohä- renz oder Kovarianz.
Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausfuhrungsformen von Bedeutung sein.

Claims

Ansprüche
1. Verfahren zum Entmischen von akustischen Signalen, bei dem:
- mit Hilfe von wenigstens zwei akustischen Sensoren Mi und M mindestens zwei zeitabhängige akustische Mischsignale Xι(f) und x (t) erfaßt werden, die jeweils ge- mischte Signalanteile zeitabhängiger akustischer Quellsignale Sι(t) und s2(t) von akustischen Signalquellen Qi und Q umfassen;
- die akustischen Mischsignale Xι(t) und x (t) zum Bilden von frequenzabhängigen Mischsignalen Xι(ω) und X2(ω) mit Hilfe einer Verarbeitungseinrichtung in den Frequenzbereich transformiert werden; und - mit Hilfe der Verarbeitungseinrichtung die frequenzabhängigen Mischsignale Xι(ω) und X2(ω) mittels eines im Frequenzbereich ausgeführten Null-Beamformings auf Basis eines Delay-and-Sum- Verfahrens analysiert werden, um entmischte frequenzabhängige Ausgangssignale Yι(ω) und Y2(ω) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale yι(t) und y2(t) transformiert werden, wobei Einfalls- winkel der zeitabhängigen akustischen Quellsignale sι(t) und s2(t) bei dem Null-
Beamforming auf Basis des Delay-and-Sum- Verfahrens als frequenzabhängige Einfallswinkel φι(ωn) und φ2n) für mehrere Frequenzbänder ωn (n = 1, 2, ...) optimiert werden.
2. Verfahren nach Anspruch 1 , dadurch g ekennz eichnet, daß die frequenzabhängigen Einfallswinkel φι(ωn) und φ2n) in dem jeweiligen Frequenzband ωn optimiert werden, um für die entmischten frequenzabhängigen Ausgangssignale Yι(ω) und Y2(ω) eine optimierte statistische Unabhängigkeit auszubilden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß als ein Maß für die statistische Unabhängigkeit der entmischten frequenzabhängigen Ausgangssignale Yι(ω) und Y2(ω) eine Kreuzkumulante wie folgt verwendet wird:
cum{γ; , 72' ) = EJ ; |2 - \ r2 |2]-E|j 7/ pJ-
Figure imgf000013_0001
-Y2 f ,
wobei 7/ und 72 mittelwertbefreite, normierte Versionen der entmischten frequenzab- hängigen Ausgangsignale Yι(ω) und Y2(ω) wie folgt darstellen:
Figure imgf000014_0001
4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennz ei chnet, daß die Optimierung der Einfallswinkel φι(ωn) und φ (ωn) für das jeweilige Frequenzband ωn mit Hilfe eines ICA-Kriteriums (ICA - „Independent Component Analysis") ausgeführt wird.
5. Verfahren nach einem der vorangehenden Ansprüche, wobei die folgenden Bildungsregeln für die zeitabhängigen akustischen Mischsignalen Xι(t) und x2(t) xx(t) = sx{t) + s2(t) x2(t) = sx(t-τ ) + s2(t-τ2)
und die frequenzabhängigen Mischsignale Xι(ω) und X2(ω)
Xx(ω) = S (ω) + S2(ω)
X2 (ω) = exx , ω) - Sx (ω) + e22 ,ώ) - S2 {ώ)
verwendet werden, wobei die blickrichtungsabhängigen Phasenfaktoren exx,ω) und e22 , ω) wie folgt definiert sind:
-ttπf-smiφ^ω)) ex (φ ,ω) = e
-i2πf-sin(φ (a>)) e22,ω) = e
6. Verfahren nach Anspruch 5, dadurch g ekennz ei chnet, daß für eine weitere Optimierung der Phasenfaktoren e (φ ,ω) und e22,ώ) komplexe Ableitungen einer Kosten- funktion nach e* und e2* wie folgt berechnet werden:
7. Verwendung eines Verfahrens nach einem der vorangehenden Ansprüche zum Entmischen von akustischen Signalen in einem Fahrzeug.
8. Vorrichtung zum Entmischen akustischer Signale gemäß einem Verfahren nach einem der Ansprüche 1 bis 7 mit einer Anordnung von mindestens zwei akustischen Sensoren Mi und M2 zum Erfassen von zwei zeitabhängigen akustischen Mischsignalen xι(t) und x (t), die jeweils Signalanteile zeitabhängiger akustischer Quellsignale sι(t) und s (t) von akustischen Signalquellen Qi und Q2 umfassen, und einer Verarbeitungseinrichtung, die konfiguriert ist, um die folgenden Mittel aufzuweisen:
- Mittel zum Bilden von frequenzabhängigen Mischsignalen Xι(ω) und X (ω) im Frequenzbereich aus den akustischen Mischsignalen xι(t) und x (t); und
- Mittel, um ausgehend von den frequenzabhängigen Mischsignalen Xι(ω) und X (ω) mittels eines im Frequenzbereich ausgeführten Null-Beamformings auf Basis eines
Delay-and-Sum- Verfahrens entmischte frequenzabhängige Ausgangssignale Yι(ω) und Y2(ω) zu bilden, die anschließend in entmischte zeitabhängige Ausgangssignale yι(t) und y2(t) transformiert werden, wobei Einfallswinkel φi und φ2 der zeitabhängigen akustischen Quellsignale sι(t) und s (t) beim Null-Beamforming auf Basis des Delay-and-Sum- Verfahrens als frequenzabhängige Einfallswinkel φι(ωn) und φ2n) für mehrere Frequenzbänder ωn (n = 1, 2, ...) optimiert werden.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die akustischen Sensoren Mi und M in einem kleinen räumlichen Abstand voneinander angeordnet sind.
10. Vorrichtung nach Anspruch 9, dadurch gekennz ei chnet, daß der räumliche Abstand kleiner als 1 m ist.
11. Vorrichtung nach Anspruch 9 oder 10, dadurch g ekennz ei chnet, daß die akustischen Sensoren Mi und M2 in einem Fahrzeug angeordnet sind.
12. Vorrichtung nach Anspruch 11 , dadurch gekennz ei chnet , die akustischen S ensoren Mi und M an einem imieren Fahrzeugrückspiegel des Fahrzeugs angeordnet sind.
PCT/DE2004/000450 2003-03-18 2004-03-08 Verfahren und vorrichtung zum entmischen akustischer signale WO2004083884A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10312065.3 2003-03-18
DE2003112065 DE10312065B4 (de) 2003-03-18 2003-03-18 Verfahren und Vorrichtung zum Entmischen akustischer Signale

Publications (2)

Publication Number Publication Date
WO2004083884A2 true WO2004083884A2 (de) 2004-09-30
WO2004083884A3 WO2004083884A3 (de) 2005-01-27

Family

ID=33015910

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2004/000450 WO2004083884A2 (de) 2003-03-18 2004-03-08 Verfahren und vorrichtung zum entmischen akustischer signale

Country Status (2)

Country Link
DE (1) DE10312065B4 (de)
WO (1) WO2004083884A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051959A1 (en) 2007-10-18 2009-04-23 Motorola, Inc. Robust two microphone noise suppression system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
EP0820210A3 (de) * 1997-08-20 1998-04-01 Phonak Ag Verfahren zur elektronischen Strahlformung von akustischen Signalen und akustisches Sensorgerät
CN1830026B (zh) * 2001-01-30 2011-06-15 汤姆森特许公司 几何源分离的几何信号处理技术
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AAPO HYV[RINEN: "Blind Source Separation by Nonstationarity of Variance: A Cumulant-Based Approach" IEEE TRANSACTIONS ON NEURAL NETWORKS, Bd. 12, Nr. 6, November 2001 (2001-11), Seiten 1471-1474, XP002302155 Gefunden im Internet: URL:http://www.cs.helsinki.fi/u/ahyvarin/p apers/TNN01.pdf> [gefunden am 2004-10-20] *
BAUMANN W ET AL: "Beamforming-based convolutive source separation" 2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). HONG KONG, APRIL 6 - 10, 2003, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY : IEEE, US, Bd. VOL. 1 OF 6, 6. April 2003 (2003-04-06), Seiten V357-V360, XP010639282 ISBN: 0-7803-7663-3 *
HIROSHI SARUWATARI ET AL: "Blind Source Separation for Speech Based on Fast-Convergence Algorithm with ICA and Beamforming" EUROSPEECH 2001 SCANDINAVIA, Bd. 4, 3. September 2001 (2001-09-03), Seiten 2603-2606, XP007004927 AALBORG, DENMARK *
JEAN-FRANÇOIS CARDOSO: "HIGH-ORDER CONTRASTS FOR INDEPENDENT COMPONENT ANALYSIS" NEURAL COMPUTATION, Bd. 11, 1999, Seiten 157-192, XP002302154 MASSACHUSETTS INSTITUTE OF TECHNOLOGY Gefunden im Internet: URL:http://www.tsi.enst.fr/~cardoso/guides epsou.html> [gefunden am 2004-10-20] *
LUCAS C. PARRA: "An Introduction to Independent Component Analysis and Blind Source Separation" 25. April 1999 (1999-04-25), Seiten 1-30, XP002302156 PRINCETON, NJ 08543, USA Gefunden im Internet: URL:http://newton.bme.columbia.edu/~lparra /publish/princeton98.pdf> [gefunden am 2004-10-20] *
PARRA L ET AL: "Convolutive blind separation of non-stationary sources" IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, IEEE INC. NEW YORK, US, Bd. 8, Nr. 3, Mai 2000 (2000-05), Seiten 320-327, XP002154443 ISSN: 1063-6676 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051959A1 (en) 2007-10-18 2009-04-23 Motorola, Inc. Robust two microphone noise suppression system
EP2183853A1 (de) * 2007-10-18 2010-05-12 Motorola, Inc. Starke anordnung zur geräuschunterdrückung mit zwei mikrofonen
EP2183853A4 (de) * 2007-10-18 2010-11-03 Motorola Inc Starke anordnung zur geräuschunterdrückung mit zwei mikrofonen
US8046219B2 (en) 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
KR101171494B1 (ko) * 2007-10-18 2012-08-07 모토로라 모빌리티, 인크. 강인한 두 마이크로폰 잡음 억제 시스템

Also Published As

Publication number Publication date
WO2004083884A3 (de) 2005-01-27
DE10312065B4 (de) 2005-10-13
DE10312065A1 (de) 2004-10-21

Similar Documents

Publication Publication Date Title
EP1595427B1 (de) Verfahren und vorrichtung zur separierung von schallsignalen
DE102014201228B4 (de) System und Verfahren zur aktiven Lärmkontrolle
EP1655998B1 (de) Verfahren zur Erzeugung von Stereosignalen für getrennte Quellen und entsprechendes Akustiksystem
DE102011012573B4 (de) Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE112017007800T5 (de) Störgeräuscheliminierungseinrichtung und Störgeräuscheliminierungsverfahren
EP3375204B1 (de) Audiosignalverarbeitung in einem fahrzeug
EP1771034A2 (de) Mikrofonkalibrierung bei einem RGSC-Beamformer
DE102018109937A1 (de) Aktive Tondesensibilisierung für tonale Geräusche in einem Fahrzeug
EP1647972A2 (de) Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
DE102006027673A1 (de) Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
WO2002075725A1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE102014017293A1 (de) Verfahren zur Verzerrungskompensation im Hörfrequenzbereich und damit zu verwendendes Verfahren zur Schätzung akustischer Kanäle
EP0624046B1 (de) Geräuschkompensierte Freisprechanlage in Kraftfahrzeugen
WO2015049332A1 (de) Ableitung von multikanalsignalen aus zwei oder mehreren grundsignalen
DE102010028845A1 (de) Verfahren und Vorrichtung zur Aufpralldetektion in Fahrzeugen
WO2014138758A2 (de) Verfahren zur erhöhung der sprachverständlichkeit
DE10312065B4 (de) Verfahren und Vorrichtung zum Entmischen akustischer Signale
DE10035222A1 (de) Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE102009039889B4 (de) Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug
DE102017212980A1 (de) Verfahren zur Kompensation von Störgeräuschen bei einer Freisprecheinrichtung in einem Kraftfahrzeug und Freisprecheinrichtung
DE102016005904A1 (de) Unverzögerte Störschallunterdrückung in einem Kraftfahrzeug
DE102017011415A1 (de) Vorrichtung und Verfahren zur Ermittlung akustischer Sprachsignale

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase