WO2005076659A1 - Verfahren und vorrichtung zur separierung von schallsignalen - Google Patents

Verfahren und vorrichtung zur separierung von schallsignalen Download PDF

Info

Publication number
WO2005076659A1
WO2005076659A1 PCT/EP2005/050386 EP2005050386W WO2005076659A1 WO 2005076659 A1 WO2005076659 A1 WO 2005076659A1 EP 2005050386 W EP2005050386 W EP 2005050386W WO 2005076659 A1 WO2005076659 A1 WO 2005076659A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
signals
frequency
angle
Prior art date
Application number
PCT/EP2005/050386
Other languages
English (en)
French (fr)
Inventor
Dietmar Ruwisch
Original Assignee
Dietmar Ruwisch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dietmar Ruwisch filed Critical Dietmar Ruwisch
Priority to US10/557,754 priority Critical patent/US7327852B2/en
Priority to EP05707893A priority patent/EP1595427B1/de
Priority to DE502005000226T priority patent/DE502005000226D1/de
Publication of WO2005076659A1 publication Critical patent/WO2005076659A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a method and a device for separating sound signals.
  • the invention is in the field of digital signal processing for segregating various acoustic signals from different spatial directions, which are recorded stereo with two microphones at a known distance.
  • Exemplary applications of the invention can thus be found in communication devices in which the position of a speaker is known and in which interference from background noises or other speakers as well as speaker outputs are present.
  • Application examples are car hands-free systems in which the microphones e.g. are housed in the rearview mirror and a so-called directional hyperbola is aimed at the driver.
  • a second directional hyperbola can be directed at the front passenger, so that it is possible to switch back and forth between the driver and front passenger during a telephone call.
  • the geometric source separation is a powerful tool.
  • the standard method of this class of "beam forming" - Algorithms is the so-called “shift and add” method, in which a filter is applied to one of the microphone signals, and the filtered signal is then added to the second microphone signal (see, for example, Haddad and Benoit, “Capabilities of a beamforming technique for acoustic measurements inside a moving car ", The 2002 International Congress and Exposition On Noise Control Engineering, Deabom, Mi, USA, August 19-21, 2002).
  • Adaptive methods prove to be useful, but a priori information is usually also required here , since an algorithm cannot usually decide which of the detected speech sources is the useful and which is the interference signal.Disadvantage of all known adaptive methods is the fact that the algorithms need a certain adaptation time before there is sufficient convergence and the source separation is successful In principle, adaptive methods are more susceptible to diffuse background disturbances, since these can significantly impair convergence.
  • a serious disadvantage with the classic “shift and add” method is that
  • DE 69314514 T2 discloses a method for separating sound signals according to the preamble of claim 1.
  • the method proposed in this document carries out a separation of the sound signals in such a way that a desired useful sound signal is freed from ambient noise, and names the speech signals of a vehicle occupant as application examples, which are difficult to understand due to the general and non-localized vehicle noise.
  • this prior art document suggests using two microphones to measure a total sound signal, to subject each of the two microphone signals to a Fourier transformation in order to determine its frequency spectrum, in several frequency bands based on the respective phase difference, an angle of incidence of the respective signal to determine, and finally to carry out the actual "filtering". For this purpose, a preferred angle of incidence is determined, and then one
  • Filter function namely a noise spectrum, subtracted from one of the two frequency spectra, this noise spectrum being selected in such a way that sound signals from the surroundings of the preferred angle of incidence, which is assigned to the speaker, relative to the other sound signals, which are essentially background noise of the
  • the method disclosed in DE 69314514 T2 suffers from several disadvantages: a)
  • the sound signal separation according to this prior art document is based on the complete removal of a part of the originally measured total sound signal, namely that part which is referred to as noise.
  • This document is based on an acoustic scenario in which there is only a single useful sound source, the signals of which are, as it were, embedded in interference signals from sources that are not or less localized, in particular vehicle noise.
  • the method according to this prior art document therefore only allows the filtering out of this one useful signal by completely eliminating all noise signals.
  • this document also provides additional signal processing, namely immediately before this actual filtering: namely, in all frequency bands, after the dominant angle of incidence has been determined, the noise components in the frequency band are determined by corresponding phase shift of one of the two Fourier-transformed sound signals in this frequency band attenuated in each frequency band relative to the useful sound signals possibly also contained in this frequency band.
  • this document sees the filtering disclosed in it in the form of a subtraction of the noise spectrum itself as insufficient, so that it itself proposes further, namely immediately preceding signal processing steps that are carried out by components provided for this purpose.
  • the system requires upstream means 20 for phase shifting and means 21 for the in-phase addition of spectra in the individual
  • the method according to the invention does not require any convergence time and can be separated with two microphones more than two sound sources in the room, provided that they are sufficiently separated.
  • the process places little demands on memory requirements and computing power, and it is very stable against diffuse interference signals. In contrast to conventional beam forming, such diffuse disturbances can be effectively dampened.
  • the spatial areas between which the method can differentiate are rotationally symmetrical to the microphone axis, ie to the straight line, which is defined by the two microphone positions. In a section through the room that contains the axis of symmetry, the area in which a sound source must be located in order to be considered as a useful signal corresponds to a hyperbola.
  • the angle O 0 that the apex of the hyperbola makes to the axis of symmetry is freely selectable, and the width of the hyperbola, which is determined by an angle ⁇ 3 db, is also a selectable parameter.
  • output signals can be generated at any desired different angles ⁇ 0 , the separation sharpness between the areas with the degree of overlap of the corresponding hyperbola decreases.
  • Sound sources within a hyperbola are considered useful signals and attenuated with less than 3 db. Interference signals are eliminated depending on their angle of incidence ⁇ , with attenuation of> 25db for angle of incidence ⁇ outside the acceptance hyperbola.
  • the method works in the frequency domain.
  • the signal spectrum to be assigned to a directional hyperbola is created by multiplying a correction function K2 (x1) and a filter function F (f, T) by the signal spectrum M (f, T) of one of the microphones.
  • the filter function is created by spectral smoothing (eg by diffusion) of an assignment function Z ( ⁇ - ⁇ 0 ), the calculated angle of incidence 0 of a spectral signal component being in the argument of the assignment function.
  • This angle of incidence ⁇ is determined from the phase angle ⁇ of the complex quotient of the spectra of the two microphone signals, M2 (f, T) / M1 (f, T), by multiplying ⁇ by the speed of sound c and dividing by 2 ⁇ fd, where d is the microphone distance designated.
  • ⁇ 3db 4 shows the structure of the source separator, in which the time signals of two microphones, m1 (t) and m2 (t), in a stereo scanning and Fourier transformer unit (20) to spectra M1 (f, T) and M2 (f, T) are transformed, where T denotes the time at which the spectra were formed.
  • the frequency-dependent angle of incidence ⁇ (f, T) and the corrected microphone spectrum M (f, T) are calculated from the spectra in the ⁇ calculation unit (30), from which signal generators (40) for various directional angles ⁇ 0 output signals s s0 (t) arise.
  • FIG. 5 shows the structure of the ⁇ calculation unit (30), in which the phase angle ⁇ (f, T) of a spectral component of the complex quotient of the two microphone spectra M1 (f, T) and M2 (f, T) is calculated, which one then multiply by the speed of sound c and divide by 2 ⁇ fd, where d denotes the microphone distance.
  • the size x1 (f, T) arises, which represents the argument of the two correction functions K2 and K1.
  • FIG. 6 shows a signal generator in which an assignment function Z ( ⁇ - ⁇ o) with an adjustable angle ⁇ o is smoothed by spectral diffusion to form a filter function F (f, T) which has to be multiplied by the corrected microphone spectrum M (f, T) is. This results in an output spectrum S 3 o (f, T), from which an inverse Fourier transformation produces an output signal sao (t) which contains the sound signals within the spatial range defined by the assignment function Z and the angle ⁇ o.
  • FIG. 7 shows an example of the two correction functions K2 (x1) and K1 (x1).
  • a basic idea of the invention is to assign an angle of incidence ⁇ to each spectral component of the incident signal at any time T and to decide whether or not the corresponding sound source is within a desired directional hyperbola solely on the basis of the calculated angle of incidence.
  • a "soft" assignment function Z ( ⁇ ) (FIG. 2) is used instead of a hard yes / no decision, which allows a continuous transition between desired and undesired directions of incidence, which has an advantageous effect on the integrity of the signals
  • the width of the assignment function then corresponds to the width of the directional hyperbola (FIG. 3).
  • the phase difference ⁇ is first calculated for each frequency f at a time T. Using the speed of sound c and the frequency f The corresponding signal component can be used to calculate a path difference from the phase difference, which lies between the two microphones if the signal was emitted from a point source. If the microphone distance d is known, a simple geometric consideration reveals that the quotient x1 from path difference and microphone distance is the cosine of the searched Corresponds to the angle of incidence. In practice, due to disturbances such as diffuse noise or room reverberation, the assumption of a point source is rarely fulfilled, which is why x1 is usually not restricted to the expected value range [-1.1].
  • the time signals m1 (t) and m2 (t) of two microphones that have a fixed distance d from one another are fed to an arithmetic unit (10) (FIG. 4), where they are in a stereo sampling and Fourier transformer unit (20) can be discretized and digitized with a sampling rate f A.
  • a sequence of a samples of each of the microphone signals m1 (t) and m2 (t) is transformed by Fourier transformation to the complex-valued spectrum M1 (f, T) or M2 (f, T), where f is the Denotes the frequency of the respective signal component, and T indicates the time at which a spectrum is formed.
  • f A 11025 Hz
  • a 256
  • the microphone distance d should be less than half the wavelength of the highest frequency to be processed, which results from the sampling frequency, ie d ⁇ c / 4f A.
  • a microphone distance d 20 mm is suitable for the parameter selection given above.
  • the spectra M1 (f, T) and M2 (f, T) are fed to a ⁇ calculation unit with spectrum correction (30), which from the spectra M1 (f, T) and M2 (f, T) have an angle of incidence ⁇ ( f, T), which indicates from which direction, relative to the microphone axis, a signal component with frequency f enters the microphones at time T (FIG. 1).
  • M2 (f, T) is complexly divided by M1 (f, T).
  • ⁇ (f, T) denote the phase angle of this quotient.
  • arctan ((Re1 * lm2-lm1 * Re2) / (Re1 * Re2 + lm1 * lm2)), where Re1 and Re2 are the real parts and Im1 and Im2 denote the imaginary parts of M1 and M2, respectively.
  • x1 x1 (f, T).
  • This correction serves to reduce the corresponding signal component in cases in which the first correction function takes effect, since it can be assumed that interference has been superimposed that falsifies the signal.
  • the spectrum M (f, T) is fed together with the angle ⁇ (f, T) to one or more signal generators (40), where, with the aid of an assignment function Z ( ⁇ ) (FIG. 2) and a selectable angle ⁇ o, one is to be output Signal s a o (t) arises.
  • This is done by multiplying each spectral component of the spectrum M (f, T) at a time T by the corresponding component of a ⁇ o-specific filter F 30 (f, T).
  • F M (f, T) results from spectral smoothing of Z ( ⁇ - ⁇ o). This smoothing takes place, for example, by spectral diffusion:
  • F 90 (f, T) Z ( ⁇ (f, T) - ⁇ 0 ) + D ⁇ 2 f Z ( ⁇ (f, T) - ⁇ 0 ).
  • D denotes the diffusion constant, which is a freely selectable parameter greater than or equal to zero.
  • the discrete diffusion operator ⁇ 2 f is an abbreviation for
  • Sao (f, T) F ⁇ o (fT) M (f, T), which by inverse Fourier transform into the time signal
  • the signal s 9 o (t) to be output by a signal generator (40) corresponds to the sound signal within that spatial area which is caused by the
  • Assignment function Z ( ⁇ ) and the angle ⁇ 0 is defined. For the sake of simplicity, only one is used in the nomenclature chosen for different signal generators Assignment function Z ( ⁇ ) assumed, different signal generators only use different angles ⁇ o. In practice, of course, there is no reason not to choose a separate form of the assignment function in each signal generator.
  • the use of assignment functions, which decide on the belonging of signal components to different spatial areas, is one of the central ideas of the invention.
  • the area in which signals with less than 3db are attenuated corresponds to a hyperbola with an opening angle 2 ⁇ 3db (FIG. 3) and apex at the angle ⁇ o.
  • the present invention is not limited to use in motor vehicles and hands-free devices: further applications are conference telephone systems in which several directional hyperbolas are placed in different spatial directions in order to extract the speech signals of individual people and to avoid feedback or echo effects.
  • the method can be combined with a camera, the directional hyperbola always looking in the same direction as the camera, and so only sound signals coming from the image area are recorded.
  • a monitor is also connected to the camera, in which the microphone arrangement can also be installed in order to generate a directional hyperbola perpendicular to the monitor surface, since it is to be expected that the speaker is in front of the monitor.
  • a completely different class of applications arises if, instead of the signal to be output, the determined angle of incidence ⁇ is evaluated by averages over frequencies f at a time T.
  • Such a ⁇ (T) evaluation can be used for monitoring purposes if the position of a sound source is to be located within an otherwise quiet room.
  • the correct "cutting out" of the desired area in accordance with the useful sound signal to be separated from a microphone spectrum does not have to take place, as shown by way of example in FIG. 6, by multiplication with a filter function, the assignment function of which has the exemplary course shown in FIG.
  • any other type of linkage of the microphone spectrum with a filter function is suitable, as long as this filter function and this linkage lead to values in the microphone spectrum being "attenuated" the more the associated angle of incidence ⁇ of the preferred angle of incidence ⁇ o (for example the direction of the driver in the Motor vehicle) is removed.
  • 10 arithmetic unit for performing the method steps according to the invention 20 stereo sampling and Fourier transformer unit 30 ⁇ calculation unit 40 signal generator a number of samples that are transformed into spectra M1 and M2 d microphone distance D diffusion constant, selectable parameters greater than or equal to zero ⁇ 2 f diffusion operator f frequency f

Abstract

Bei einem Verfahren zur Separierung von Schallsignalen von einer Mehrzahl von Schallquellen, umfassend die Schritte: Anordnen von zwei Mikrofonen (MIK1, MIK2) in einem vorbestimmten Abstand (d) zueinander; Erfassen der Schallsignale mit beiden Mikrofonen (MIK1, MIK2) und Erzeugen zugeordneter Mikrofonsignale (m1, m2); und Separieren des Schallsignals einer der Schallquellen (S1) von den Schallsignalen der anderen Schallquellen (S2) basierend auf den Mikrofonausgangssignalen (m1, m2), wird vorgeschlagen, dass der Schritt des Separierens umfaßt: Fourier-Transformieren der Mikrofonausgangssignale zur Ermittlung ihrer Frequenzspektren (M1, M2); Bestimmen der Phasendifferenz (φ) zwischen den beiden Mikrofonausgangssignalen (m1, m2) für jede Frequenzkomponente ihrer Frequenzspektren (M1, M2); Bestimmen des Einfallswinkels (δ) jedes einer Frequenz der Frequenzspektren (M1, M2) zugeordneten Schallsignals basierend auf dem relativen Phasenwinkel (φ) und der Frequenz; Erzeugen eines Signalspektrums (S) eines auszugebenden Signals durch Verknüpfen eines der beiden Frequenzspektren (M1, M2) mit einer Filterfunktion (Fδ0), die derart gewählt ist, dass Schallsignale aus einer Umgebung (Ϝ3dB) um einen bevorzugten Einfallswinkel (δ0) herum relativ zu Schallsignalen von außerhalb dieser Umgebung (Ϝ3dB) verstärkt werden; und inverses Fourier-Transformieren des derart erzeugten Signalspektrums.

Description

Verfahren und Vorrichtung zur Separierung von Schallsignalen
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Separierung von Schallsignalen.
Die Erfindung liegt auf dem Gebiet der digitalen Signalverarbeitung zum Entmischen verschiedener akustischer Signale aus unterschiedlichen Raumrichtungen, welche mit zwei Mikrofonen in bekanntem Abstand stereo aufgenommen werden.
Das Gebiet der Quellentrennung, auch „beam forming" genannt, erfährt wachsende Bedeutung durch die Zunahme der mobilen Kommunikation sowie der automatischen Verarbeitung menschlicher Sprache. In sehr vielen Anwendungen tritt das Problem auf, dass das gewünschte Sprachsignal (Nutzsignal) durch verschiedene Störeinflüsse beeinträchtigt ist. Hier sind hauptsächlich Störungen durch Hintergrundgeräusche, Störungen durch andere Sprecher sowie Störungen durch Lautsprecherausgaben von Musik oder Sprache zu nennen. Die verschiedenen Störeinflusse erfordern je nach Ihrer Art und nach der Vorkenntnis über das Nutzsignal unterschiedliche Behandlungen.
Beispielhafte Anwendungen der Erfindung finden sich also in Kommunikationseinrichtungen, in denen die Position eines Sprechers bekannt ist, und in denen Störungen durch Hintergrundgeräusche oder andere Sprecher sowie Lautsprecherausgaben vorhanden sind. Anwendungsbeispiele sind Kfz- Freisprecheinrichtungen, in denen die Mikrofone z.B. im Rückspiegel untergebracht sind und eine sogenannte Richthyperbel auf den Fahrer gerichtet wird. In dieser Anwendung kann eine zweite Richthyperbel auf den Beifahrer gerichtet werden, so dass während eines Telefongesprächs gezielt zwischen Fahrer und Beifahrer hin- und hergeschaltet werden kann.
In Fällen, in denen die geometrische Position der Nutzsignalquelle zu den aufnehmenden Mikrofonen bekannt ist, ist die geometrische Quellenseparation ein mächtiges Werkzeug. Das Standardverfahren dieser Klasse von „beam forming"- Algorithmen ist das sog. „shift and add" Verfahren, bei welchem auf eines der Mikrofonsignale ein Filter angewendet wird, und das gefilterte Signal sodann zum zweiten Mikrofonsignal hinzuaddiert wird (siehe z.B. Haddad und Benoit, „Capabilities of a beamforming technique for acoustic measurements inside a moving car", The 2002 International Congress and Exposition On Noise Control Engineering, Deabom, Mi, USA, August 19-21 , 2002).
Eine Erweiterung dieses Verfahrens beschäftigt sich mit „adaptiven beam forming" bzw. „adaptiver Quellenseparation", wo die Lage der Quellen im Raum a priori unbekannt ist und durch die Algorithmen erst ermittelt werden muss (WO 02/061732, US6,654,719). Hier ist es das Ziel, die Lage der Quellen im Raum aus den Mikrofonsignalen zu bestimmen und nicht, wie beim „geometrischen" beam forming, fest vorzugeben. Adaptive Verfahren erweisen sich zwar als nützlich, allerdings ist auch hier gewöhnlich a-priori-lnformation erforderlich, da ein Algorithmus in der Regel nicht entscheiden kann, welche der detektierten Sprachquellen Nutz- und welche Störsignal ist. Nachteilig bei allen bekannten adaptiven Verfahren ist die Tatsache, dass die Algorithmen eine gewisse Adaptionszeit benötigen, bevor ausreichende Konvergenz besteht und die Quellentrennung gelingt. Außerdem sind adaptive Verfahren prinzipiell anfälliger für diffuse Hintergrundstörungen, da diese die Konvergenz erheblich beeinträchtigen können. Ein gravierender Nachteil beim klassischen „shift and add"-Verfahren ist die
Tatsache, dass sich mit zwei Mikrofonen lediglich zwei Signalquellen voneinander separieren lassen und die Dämpfung von diffusem Hintergrundschall in der Regel nicht in ausreichendem Maße gelingt.
Aus der DE 69314514 T2 ist ein Verfahren zur Separierung von Schallsignalen gemäß dem Oberbegriff von Anspruch 1 bekannt. Das in diesem Dokument vorgeschlagene Verfahren führt eine Separation der Schallsignale dergestalt durch, dass ein gewünschtes Nutzschallsignal von Umgebungsrauschen befreit wird, und nennt als Anwendungsbeispiele die Sprachsignale eines Fahrzeuginsassen, die auf Grund des allgemeinen und nicht lokalisierten Fahrzeuglärms nur schwer verständlich sind. Zum Herausfiltern des Sprachsignals schlägt dieses Dokument des Stands der Technik vor, mit Hilfe von zwei Mikrophonen jeweils ein Gesamtschallsignal zu messen, jedes der beiden Mikrophonsignale zur Ermittlung seines Frequenzspektrums einer Fouriertransformation zu unterziehen, in mehreren Frequenzbändern basierend auf der jeweiligen Phasendifferenz einen Einfallswinkel des jeweiligen Signals zu bestimmen, und schließlich die eigentliche "Filterung" vorzunehmen. Hierzu wird ein bevorzugter Einfallswinkel bestimmt, und dann eine
Filterfunktion, nämlich ein Rauschspektrum, von einem der beiden Frequenzspektren subtrahiert, wobei dieses Rauschspektrum derart gewählt ist, dass Schallsignale aus der Umgebung des bevorzugten Einfallswinkels, der dem Sprecher zugeordnet ist, relativ zu den anderen Schallsignalen, die im wesentlichen Hintergrundlärm des
Fahrzeugs darstellen, verstärkt werden. Das derart gefilterte Frequenzspektrum wird anschließend einer inversen Fourier-Transformation unterzogen und als gefiltertes
Schallsignal ausgegeben.
Das in der DE 69314514 T2 offenbarte Verfahren leidet an mehreren Nachteilen: a) Die Schallsignalseparation gemäß diesem Dokument des Stands der Technik basiert auf dem vollständigen Entfernen eines Anteils des ursprünglich gemessenen Gesamtschallsignals, nämlich demjenigen Anteil, der als Rauschen bezeichnet wird. Dieses Dokument geht nämlich von einem akustischen Szenario aus, bei dem nur eine einzige Nutzschallquelle vorhanden ist, deren Signale gleichsam eingebettet sind in Störsignale von nicht beziehungsweise weniger lokalisierten Quellen, insbesondere Fahrzeuglärm. Das Verfahren gemäß diesem Dokument des Stands der Technik erlaubt daher ausschließlich das Herausfiltem dieses einen Nutzsignals durch vollständiges Eliminieren aller Rauschsignale.
In Fällen mit einem einzigen Nutzschallsignal mag das Verfahren gemäß dieses Dokuments zufriedenstellende Ergebnisse liefern. Es kann jedoch auf Grund seines Grundprinzips nicht sinnvoll in Situationen eingesetzt werden, in denen nicht nur eine Nutzschallquelle, sondern mehrere derartige Quellen zum Gesamtschallsignal beitragen. Dies liegt insbesondere daran, dass gemäß dieser Lehre nur ein einziger sog. dominanter Ankunftswinkel verarbeitet werden kann, nämlich derjenige Einfallswinkel, unter dem das energiereichste Schallsignal einfällt. Alle Signale, die unter anderen Ankunftswinkeln auf die Mikrophone fallen, werden zwangsläufig als Rauschen behandelt. Darüber hinaus scheint dieses Dokument selbst davon auszugehen, dass die dort vorgeschlagene Filterung in Form einer Subtraktion des Rauschspektrums von einem der beiden Frequenzspektren noch keine zufriedenstellenden Ergebnisse liefert. Daher sieht dieses Dokument zusätzlich, nämlich unmittelbar vor dieser eigentlichen Filterung, noch eine weitere Signalverarbeitung vor: Es werden nämlich in allen Frequenzbändern, nachdem der dominante Einfallswinkel bestimmt worden ist, durch entsprechende Phasenverschiebung eines der beiden fourier-transformierten Schallsignale in diesem Frequenzband die Rauschanteile im jeweiligen Frequenzband relativ zu den in diesem Frequenzband möglicherweise ebenfalls enthaltenen Nutzschallsignalen abgeschwächt. Somit sieht dieses Dokument die in ihr offenbarte Filterung in Form einer Subtraktion des Rauschspektrums offenbar selbst als ungenügend an, so dass sie selbst weitere, nämlich unmittelbar vorhergehende Signalverarbeitungsschritte vorschlägt, die durch hierfür gesondert bereitgestellte Bauteile vorgenommen werden. Insbesondere benötigt das System zusätzlich zu einer Rauschspektrumsubtraktions- vorrichtung (Vorrichtung 24 in der einzigen Figur dieses Dokuments) vorgeschaltete Mittel 20 zur Phasenverschiebung sowie Mittel 21 zur phasenrichtigen Addition von Spektren in den einzelnen
Frequenzbändern (vergleiche die entsprechenden Bauteile in der einzigen Figur dieses Dokuments). Hierdurch werden das Verfahren und die zu seiner Durchführung erforderliche Vorrichtung aufwendig.
Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren zur Separierung von Schallsignalen von einer Mehrzahl von Schallquellen sowie eine entsprechende Vorrichtung vorzuschlagen, die durch den reinen Filterschritt eine ausreichende Qualität der Ausgangssignale erzeugen, ohne zuvor eine phasenrichtige Addition von Schallspektren in verschiedenen Frequenzbändern durchführen zu müssen, um eine zufriedenstellende Separierung zu erzielen, und die es femer erlaubt, nicht nur Signale einer einzigen Nutzschallquelle von allen anderen Schallsignalen zu befreien, sondern grundsätzlich in der Lage ist, Schallsignale von einer Mehrzahl von Schallquellen ohne Eliminierung separat auszugeben.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren nach Anspruch 1 bzw. eine Vorrichtung nach Anspruch 7 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind in den jeweiligen Unteransprüchen definiert.
Das erfindungsgemäße Verfahren benötigt keine Konvergenzzeit und kann mit zwei Mikrofonen mehr als zwei Schallquellen im Raum separierbaren, sofern diese in ausreichendem Maße räumlich getrennt sind. Das Verfahren stellt nur geringe Anforderungen an Speicherbedarf und Rechenleistung, und es ist sehr stabil gegenüber diffusen Störsignalen. Anders als beim herkömmlichen beam forming lassen sich solche diffusen Störungen effektiv dämpfen. Wie bei allen Zwei-Mikrofon- Verfahren sind die Raumbereiche, zwischen denen das Verfahren differenzieren kann, rotationssymmetrisch zur Mikrofon-Achse, d.h. zu der Geraden, welche durch die beiden Mikrofonpositionen definiert ist. In einem Schnitt durch den Raum, welcher die Symmetrieachse enthält, entspricht der Raumbereich, in dem sich eine Schallquelle befinden muss um als Nutzsignal betrachtet zu werden, einer Hyperbel. Der Winkel O0, den der Scheitel der Hyperbel zur Symmetrieachse einnimmt, ist frei wählbar, und die Breite der Hyperbel, welche durch einen Winkel γ3db bestimmt wird, ist ebenfalls ein wählbarer Parameter. Mit nur zwei Mikrofonen lassen sich gleichzeitig Ausgangssignale zu beliebigen, verschiedenen Winkeln θ0 erzeugen, wobei die Trennschärfe zwischen den Bereichen mit dem Überlappungsgrad der entsprechenden Hyperbeln abnimmt. Schallquellen innerhalb einer Hyperbel werden als Nutzsignale betrachtet und mit weniger als 3 db gedämpft. Störsignale werden in Abhängigkeit ihres Einfallswinkels θ eliminiert, wobei eine Dämpfung von >25db für Einfallswinkel θ außerhalb der Akzeptanzhyperbel erreichbar ist.
Das Verfahren arbeitet im Frequenzbereich. Das einer Richthyperbel zuzuordnende Signalspektrum entsteht durch Multiplikation einer Korrekturfunktion K2(x1 ) sowie einer Filterfunktion F(f,T) mit dem Signalspektrum M(f,T) eines der Mikrofone. Die Filterfunktion entsteht durch spektrale Glättung (z.B. durch Diffusion) einer Zuordnungsfunktion Z(θ-θ0), wobei im Argument der Zuordnungsfunktion der berechnete Einfallswinkel 0 einer spektralen Signalkomponente steht. Dieser Einfallswinkel θ wird aus dem Phasenwinkel φ des komplexen Quotienten der Spektren der beiden Mikrofonsignale, M2(f,T)/M1(f,T), ermittelt, indem man φ mit der Schallgeschwindigkeit c multipliziert und durch 2πfd dividiert, wobei d den Mikrofonabstand bezeichnet. Das Ergebnis x1= φc/2πfd, welches zugleich das Argument der Korrekturfunktion K2(x1) ist, liefert nach Beschränkung x=K1(x1 ) auf einen Betrag kleiner oder gleich eins den Kosinus des Einfallswinkels θ, welcher im Argument der Zuordnungsfunktion Z(θ-00) steht; K1(x1) bezeichnet dabei eine weitere Korrekturfunktion.
Kurzbeschreibung der Abbildungen:
Fig. 1 zeigt die Definition des Einfallswinkels O durch die Positionen beiden Mikrofone, deren Signale verarbeitet werden.
Fig. 2 zeigt beispielhaft eine Zuordnungsfunktion Z(θ) mit Halbwertsbreite 2γ3dt>, aus welcher eine Hyperbel mit Scheitel bei β=0 resultiert.
Fig. 3 zeigt eine Hyperbel mit Scheitel bei θ=θ0, die die Richtcharakteristik der Quellenseparation bestimmt. Signale innerhalb des durch die Hyperbel definierten Raumbereichs werden mit einer Dämpfung <3db als Nutzsignal ausgegeben Fig. 4 zeigt den Aufbau des Quellenseparators, in welchem die Zeitsignale zweier Mikrofone, m1(t) und m2(t), in einer Stereo-Abstast- und -Fourier- Transformator-Einheit (20) zu Spektren M1(f,T) und M2(f,T) transformiert werden, wobei T den Zeitpunkt der Entstehung der Spektren bezeichnet. Aus den Spektren wird in der θ-Berechnungseinheit (30) der frequenzabhängige Einfallswinkel θ(f,T) sowie das korrigierte Mikrofonspektrum M(f,T) berechnet, woraus in Signalgeneratoren (40) für verschiedene Richtwinkel θ0 Ausgangssignale ss0(t) entstehen.
Fig. 5 zeigt den Aufbau der θ-Berechnungseinheit (30), in welcher der Phasenwinkel φ(f,T) einer spektralen Komponenten des komplexen Quotienten der beiden Mikrofonspektren M1(f,T) und M2(f,T) berechnet wird, welcher sodann mit der Schallgeschwindigkeit c zu multiplizieren und durch 2πfd zu dividieren ist, wobei d den Mikrofonabstand bezeichnet. Bei dieser Operation entsteht die Größe x1(f,T), welche das Argument der beiden Korrekturfunktionen K2 und K1 darstellt. Mit diesen Korrekturfunktionen entsteht das korrigierte Mikrofonspektrum M(f,T)=M1(f,T)*K2(x1(f,T)) sowie die Größe x(f,T)=K1 (x1 (f,T)), aus welcher durch Anwendung der Arcuskosinus-Funktion der Einfallswinkel θ(f,T) zu berechnen ist.
Fig. 6 zeigt einen Signalgenerator, in welcher eine Zuordnungsfunktion Z(θ-θo) mit einem einstellbaren Winkel θo durch spektrale Diffusion zu einer Filterfunktion F(f,T) geglättet wird, welche mit dem korrigierten Mikrofonspektrum M(f,T) zu multiplizieren ist. Daraus resultiert ein Ausgangsspektrum S3o (f,T), aus welchem durch inverse Fouriertransformation ein Ausgangssignal sao(t) entsteht, welches die Schallsignale innerhalb des durch die Zuordnungsfunktion Z und den Winkel θo festgelegten Raumbereichs enthält.
Fig. 7 zeigt exemplarisch die beiden Korrekturfunktionen K2(x1) und K1(x1). Ein Grundgedanke der Erfindung ist es, jeder spektralen Komponente des einfallenden Signals zu jedem Zeitpunkt T einen Einfallswinkel θ zuzuordnen und allein anhand des berechneten Einfallswinkels zu entscheiden, ob die entsprechende Schallquelle innerhalb einer gewünschten Richthyperbel liegt, oder nicht. Um die Zugehörigkeitsentscheidung etwas abzumildern, wird anstatt einer harten Ja/Nein- Entscheidung eine „weiche" Zuordnungsfunktion Z(θ) (Fig. 2) benutzt, die einen kontinuierlichen Übergang zwischen erwünschten und unerwünschten Einfallsrichtungen erlaubt, was sich vorteilhaft auf die Integrität der Signale auswirkt. Die Breite der Zuordnungsfunktion entspricht dann der Breite der Richthyperbel (Fig. 3). Durch Division der komplexen Spektren der beiden Mikrofonsignale wird zunächst für jede Frequenz f zu einem Zeitpunkt T die Phasendifferenz φ berechnet. Mit Hilfe der Schallgeschwindigkeit c und der Frequenz f der entsprechenden Signalkomponente lässt sich aus der Phasendifferenz ein Wegunterschied berechnen, der zwischen den beiden Mikrofonen liegt, wenn das Signal von einer Punktquelle ausgesandt wurde. Ist der Mikrofonabstand d bekannt, ergibt eine einfache geometrische Überlegung, dass der Quotient x1 aus Wegunterschied und Mikrofonabstand dem Kosinus des gesuchten Einfallswinkels entspricht. In der Praxis ist aufgrund von Störungen wie diffusem Störschall oder Raumhall die Annahme einer Punktquelle selten erfüllt, weshalb x1 gewöhnlich nicht auf den erwarteten Wertebereich [-1,1] beschränkt ist. Bevor der Einfallswinkel θ berechnetet werden kann, ist daher noch eine Korrektur erforderlich, die x1 auf das genannte Intervall beschränkt. Wurde zum Zeitpunkt T für jede Frequenz f der Einfallswinkel θ(f,T) bestimmt, ergibt sich das Spektrum des gewünschten Signals innerhalb einer Richthyperbel mit Scheitel beim Winkel θ=θ0 durch einfache frequenzweise Multiplikation mit dem Spektrum eines der Mikrofone, also M1(f,T)K(θ(f,T)- θ0). Unter Umständen ist es vorteilhaft, K(θ(f,T)- θ0) vor Ausführung der Multiplikation spektral zu glätten. Eine Glättung, deren Ergebnis als Fao(f,T) bezeichnet sei, erhält man z.B. durch Anwendung eines Diffusionsoperators. In Fällen, in denen durch Störeinflüsse die Größe x, die zur Berechnung des Einfallswinkels dient, außerhalb ihres Wertebereichs liegt, ist es vorteilhaft, die entsprechende spektrale Komponente des Mikrofonsignals abzuschwächen, da zu vermuten ist, dass sich Störsignale überlagert haben. Dies geschieht z.B. durch Anwendung einer Korrekturfunktion, deren Argument die Größe x1 ist. Sei M(f,T) das korrigierte Mikrofonsignal, dann schreibt sich die Erzeugung des gewünschten Signalspektrums inklusive spektraler Glättung und Korrektur als S3o(f,T)=F9o(f,T)M(f,T). Aus S3o(f,T) ensteht durch inverse Fouriertransformation das Zeitsignal sso(t) für die entsprechende Richthyperbel mit Scheitelwinkel θ0.
Anders ausgedrückt ist es eine Grundidee der Erfindung, verschiedene Schallquellen, beispielsweise den Fahrer und den Beifahrer in einem Kraftfahrzeug, räumlich voneinander zu unterscheiden und somit beispielsweise das Nutz- Sprachsignal des Fahrers vom Stör-Sprachsignal des Beifahrers zu separieren, indem man die Tatsache ausnutzt, dass diese beiden Sprachsignale, also Schallsignale, in der Regel auch bei unterschiedlichen Frequenzen vorliegen. Die erfindungsgemäß vorgesehene Frequenzanalyse erlaubt also zunächst, das Gesamt-Schallsignal in die zwei Einzel-Schallsignale (nämlich vom Fahrer und vom Beifahrer) aufzuspalten. Es muß dann "nur noch" mit Hilfe geometrischer Überlegungen anhand der jeweiligen Frequenz jedes der beiden Schallsignale und der zu ermittelnden Phasendifferenz zwischen dem Ausgangssignal des Mikrofons 1 und des Mikrofons 2, die jeweils diesem Schallsignal zugeordnet sind, die Einfallsrichtung jedes der beiden Schallsignale berechnet werden. Da die Geometrie zwischen beispielsweise der Position des Fahrers, der Position des Beifahrers und der Position der Mikrofone, etwa in einer Freisprecheinrichtung im Kraftfahrzeug, bekannt ist, kann dann das weiter zu verarbeitende Nutz-Schallsignal aufgrund seines anderen Einfallswinkels vom Stör-Schallsignal separiert werden. Es folgt ein detailliertes Ausführungsbeispiel der Erfindung, das anhand der Abbildungen beschrieben wird.
Die Zeitsignale m1 (t) und m2(t) zweier Mikrofone, die einen festen Abstand d zueinander haben, werden einem Rechenwerk (10) zugeführt (Fig. 4), wo sie in einer Stereo-Abtast- und -Fourier-Transformator-Einheit (20) mit einer Abtastrate fA diskretisiert und digitalisiert werden. Eine Folge von a Abtastwerten jeweils eines der Mikrofonsignale m1(t) und m2(t) wird durch Fourier-Transformation zum komplexwertigen Spektrum M1(f,T) bzw. M2(f,T) transformiert, wobei f die Frequenz der jeweiligen Signalkomponente bezeichnet, und T den Zeitpunkt der Entstehung eines Spektrums angibt. Für die praktische Anwendung ist folgende Parameterwahl geeignet: fA =11025 Hz, a=256, T a/2=t. Wenn Rechenleitung und Speicherplatz es erlauben, ist jedoch a=1024 zu bevorzugen. Der Mikrofonabstand d sollte kleiner sein als die halbe Wellenlänge der höchsten zu verarbeitenden Frequenz, welche sich aus der Abtastfrequenz ergibt, d.h. d < c/4fA. Für die oben angegebene Parameterwahl eignet sich ein Mikrofonabstand d = 20 mm.
Die Spektren M1(f,T) und M2(f,T) werden einer θ-Berechnungseinheit mit Spektrum-Korrektur (30) zugeführt, die aus den Spektren M1(f,T) und M2(f,T) einen Einfallswinkel θ(f,T) berechnet, der angibt, aus welcher Richtung relativ zur Mikrofonachse eine Signalkomponente mit Frequenz f zum Zeitpunkt T in die Mikrofone einfällt (Fig.1). Dazu wird M2(f,T) durch M1(f,T) komplex dividiert. φ(f,T) bezeichne den Phasenwinkel dieses Quotienten. Wo Verwechslungen ausgeschlossen sind, wird im folgenden das Argument (f,T) der zeit- und frequenzabhängigen Größen fortgelassen. Die genaue Rechenvorschrift zur Bestimmung von φ lautet gemäß der Eulerschen Formel und den Rechenregeln für komplexe Zahlen: φ=arctan((Re1*lm2-lm1*Re2)/(Re1*Re2+lm1*lm2)), wobei Re1 und Re2 die Realteile und Im1 und Im2 die Imaginärteile von M1 bzw. M2 bezeichnen. Die Größe
Figure imgf000012_0001
entsteht mit Hilfe der Schallgeschwindigkeit c aus dem Winkel φ, auch x1 ist frequenz- und zeitabhängig: x1=x1(f,T). Der Wertebereich von x1 muss in der Praxis mit Hilfe einer Korrekturfunktion x=K1(x1 ) (Fig. 7) auf das Intervall [-1 ,1] beschränkt werden. Auf die so berechnete Größe x wird durch Anwendung der Arcuskosinus-Funktion ein Einfallswinkel θ der betrachteten Signalkomponente errechnet, welcher von der Mikrofonachse zu messen ist, d.h. von der durch die Positionen der beiden Mikrofone definierten Geraden (Fig. 1 ). Unter Berücksichtigung aller Abhängigkeiten lautet damit der Einfallswinkel einer Signalkomponente mit Frequenz f zum Zeitpunkt T: θ(f,t)=arccos(x(f,T)). Des weiteren wird mit Hilfe einer zweiten Korrekturfunktion K2(x1 ) das Mikrofonspektrum korrigiert (Fig. 7): M(f,T)=K2(x1 )M1 (f,T). Diese Korrektur dient dazu, in Fällen, in denen die erste Korrekturfunktion greift, die entsprechende Signalkomponente zu reduzieren, da zu vermuten ist, dass sich Störungen überlagert haben, die das Signal verfälschen. Die zweite Korrektur ist optional, alternativ kann auch M(f,T)=M1 (f,T) gewählt werden; M(f,T)=M2(f,T) ist ebenfalls möglich.
Das Spektrum M(f,T) wird zusammen mit dem Winkel θ(f,T) einem oder mehreren Signalgeneratoren (40) zugeführt, wo mit Hilfe einer Zuordnungsfunktion Z(θ) (Fig. 2) und einem wählbaren Winkel θo jeweils ein auszugebendes Signal sao(t) entsteht. Dies geschieht, indem zu einem Zeitpunkt T jede spektrale Komponente des Spektrums M(f,T) mit der entsprechenden Komponente eines θo-spezifischen Filters F30(f,T) multipliziert wird. FM(f,T) entsteht durch spektrale Glättung von Z(θ- θo). Diese Glättung erfolgt z.B. durch spektrale Diffusion: F90(f,T) = Z(θ(f,T)-θ0) + DΔ2 f Z(θ(f,T)-θ0).
Dabei bezeichnet D die Diffusionskonstante, welche ein frei wählbarer Parameter größer oder gleich null ist. Der diskrete Diffusionsoperators Δ2 f ist eine Abkürzung für
Δ2 f Z(O(f,T)-θ0)) = (Z(θ(f- fA/a),T)-θ0)-2Z(θ(f,T)-θ0))+Z(θ(f+ fA/a,T)-θ0))/(fA/a)2
Der auftretende Quotient a aus Abtastrate fA und Anzahl a der
Abtastwerte entspricht dem Abstand zweier Frequenzen im diskreten Spektrum. Durch Anwendung des so erzeugten Filters F»o(f,T) entsteht ein Spektrum
Sao(f,T)=Fθo(f.T)M(f,T), welches durch inverse Fouriertransformation in das Zeitsignal
Sao(t) übergeht.
Das von einem Signalgenerator (40) auszugebene Signal s9o(t) entspricht dem Schallsignal innerhalb desjenigen Raumbereichs, der durch die
Zuordnungsfunktion Z(θ) und den Winkel θ0 definiert ist. Der Einfachheit halber wird in der gewählten Nomenklatur für verschiedene Signalgeneratoren nur von einer Zuordnungsfunktion Z(θ) ausgegangen, verschiedene Signalgeneratoren benutzen lediglich verschiedene Winkel θo. Praktisch spricht natürlich nichts dagegen, in jedem Signalgenerator auch eine eigene Form der Zuordnungsfunktion zu wählen. Die Anwendung von Zuordnungsfunktionen, welche über die Zugehörigkeit von Signalkomponenten zu verschiedenen Raumbereichen entscheiden, ist einer der zentralen Gedanken der Erfindung. Eine Zuordnungsfunktion muss eine gerade Funktion sein, geeignete Funktionen sind z.B. Z(θ)=((1 +cosθ)/2)π mit einem Parameter n>0. Der Raumbereich, in welchem Signale mit weniger als 3db gedämpft werden, entspricht einer Hyperbel mit Öffnungswinkel 2γ3db (Fig. 3) und Scheitel bei dem Winkel θo. Hierbei entspricht 2γ3db dem Halbwertswinkel der Zuordnungsfunktion Z(θ) (Fig. 2), mit der angegebenen Formel für die Zuordnungsfunktion gilt γ3 b=arc cos(21"1 n-1 ). Bei diesen zweidimensionalen geometrischen Überlegungen ist zu beachten, dass der tatsächliche Bereich des dreidimensionalen Raums, aus welchem mit dem beschriebenen Verfahren Schallsignale extrahiert werden, ein Rotationshyperboloid ist, der durch Rotation der beschriebene Hyperbel um die Mikrofonachse entsteht.
Selbstverständlich ist die vorliegende Erfindung nicht auf den Einsatz in Kraftfahrzeugen und Freisprecheinrichtungen beschränkt: Weitere Anwendungen sind Konferenz-Telefonanlagen, bei denen mehrere Richthyperbeln in verschiedene Raumrichtungen gelegt werden, um die Sprachsignale einzelner Personen zu extrahieren und Rückkopplungen bzw. Echo-Effekte zu vermeiden. Des weiteren lässt sich das Verfahren mit einer Kamera kombinieren, wobei die Richthyperbel stets in die gleiche Richtung blickt wie die Kamera, und so nur aus dem Bildbereich kommende Schallsignale aufgezeichnet werden. In Bildtelefonsystemen ist mit der Kamera zugleich ein Monitor verbunden, in den die Mikrofonanordnung ebenfalls eingebaut werden kann, um eine Richthyperbel senkrecht zur Monitor-Oberfläche zu generieren, denn es ist zu erwarten, dass sich der Sprecher vor dem Monitor befindet.
Eine ganz andere Klasse von Anwendungen ergibt sich, wenn man anstatt des auszugebenden Signals den ermittelten Einfallswinkel θ auswertet, indem man z.B. zu einem Zeitpunkt T über Frequenzen f mittelt. Ein solche θ(T)-Auswertung kann zu Überwachungszwecken benutzt werden, wenn innerhalb eines ansonsten ruhigen Raums die Position einer Schallquelle geortet werden soll. Das richtige "Ausschneiden" des gewünschten Bereichs entsprechend dem zu separierenden Nutz-Schallsignal aus einem Mikrofonspektrum muss nicht, wie in Figur 6 beispielhaft gezeigt, durch Multiplikation mit einer Filterfunktion erfolgen, deren Zuordnungsfunktion den in Figur 2 gezeigten beispielhaften Verlauf hat. Jede andere Art der Verknüpfung des Mikrofonspektrums mit einer Filterfunktion ist geeignet, solange diese Filterfunktion und diese Verknüpfung dazu führen, dass Werte im Mikrofonspektrum umso stärker "gedämpft" werden, je weiter ihr zugeordneter Einfallswinkel θ vom bevorzugten Einfallswinkel θo (beispielsweise der Richtung des Fahrers im Kraftfahrzeug) entfernt ist.
Bezugszeichenliste:
10 Rechenwerk zur Durchführung der erfindungsgemäßen Verfahrensschritte 20 Stereo-Abtast- und -Fourier-Transformator-Einheit 30 θ-Berechnungseinheit 40 Signalgenerator a Anzahl der Abtastwerte, die zu Spektren M1 bzw. M2 transformiert werden d Mikrofonabstand D Diffusionskonstante, wählbarer Parameter größer oder gleich Null Δ2 f Diffusionsoperator f Frequenz fA Abtastrate K1 erste Korrekturfunktion K2 zweite Korrekturfunktion m1 (t) Zeitsignal des ersten Mikrofons m2(t) Zeitsignal des zweiten Mikrofons M1(f,T) Spektrum zum Zeitpunkt T des ersten Mikrofonsignals M2(f,T) Spektrum zum Zeitpunkt T des zweiten Mikrofonsignals M(f,t) Spektrum zum Zeitpunkt T des korrigierten Mikrofonsignals sθ0(t) erzeugtes Zeitsignal, entsprechend einem Winkel θ0 der Richthyperbel Sso(f.T) Spektrum des Signals sθ0(t) γ3db Winkel, welcher die Halbwertsbreite einer Zuordnungsfunktion Z(θ) bestimmt φ Phasenwinkel des komplexen Quotienten M2/M1 θ(f,T) Einfallswinkel einer Signalkomponente, gemessen von der Mikrofonachse θ0 Winkel des Scheitels einer Richthyperbel, Parameter in Z(θ-θo) x, x1 Zwischengrößen bei der θ-Berechnung t Zeitbasis der Signalabtastung T Zeitbasis der Spektrumerzeugung
Z(θ) Zuordnungsfunktion

Claims

Ansprüche
1. Verfahren zur Separierung von Schallsignalen von einer Mehrzahl von Schallquellen (S1 , S2), umfassend die Schritte: - Anordnen von zwei Mikrofonen (MIK1, MIK2) in einem vorbestimmten Abstand (d) zueinander; - Erfassen der Schallsignale mit beiden Mikrofonen (MIK1 , MIK2) und Erzeugen zugeordneter Mikrofonsignale (m1 , m2); und - Separieren des Schallsignals einer der Schallquellen (S1 ) von den Schallsignalen der anderen Schallquellen (S2) basierend auf den Mikrofonsignalen (m1 , m2), wobei der Schritt des Separierens die Schritte umfaßt: - Fourier-Transformieren der Mikrofonsignale zur Ermittlung ihrer Frequenzspektren (M1, M2); - Bestimmen der Phasendifferenz (φ) zwischen den beiden Mikrofonsignalen (m1 , m2) für jede Frequenzkomponente ihrer Frequenzspektren (M1 , M2); - Bestimmen des Einfallswinkels (θ) jedes einer Frequenz der Frequenzspektren (M1, M2) zugeordneten Schallsignals basierend auf der Phasendifferenz (φ) und der Frequenz; - Erzeugen eines Signalspektrums (S) eines auszugebenden Signals durch Verknüpfen eines der beiden Frequenzspektren (M1 , M2) mit einer Filterfunktion (F8o), die derart gewählt ist, dass Schallsignale aus einer Umgebung (γ3dβ) um einen bevorzugten Einfallswinkel (θo) herum relativ zu Schallsignalen von außerhalb dieser Umgebung (γ3dβ) verstärkt werden; und - inverses Fourier-Transformieren des derart erzeugten Signalspektrums, dadurch gekennzeichnet, dass die Filterfunktion (Fso) θ-abhängig ist und unter Variation von θ ein Maximum bei dem bevorzugten Einfallswinkel (θo) aufweist, und die Verknüpfung der Filterfunktion (FSo) mit einem der beiden Frequenzspektren eine Multiplikation derselben umfasst.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Filterfunktion (F90) die Form aufweist: F90(f,T)=Z(θ-θ0)+ DΔ2 fZ(θ-θ0) wobei f die jeweilige Frequenz T der Zeitpunkt der Ermittlung der Frequenzspektren (M1 , M2) Z(θ-θo) eine Zuordnungsfunktion mit Maximum bei θ0 D ≥ 0 eine Diffusionskonstante, und Δ2f ein diskreter Diffusionsoperator ist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Zuordnungsfunktion (Z) die Form aufweist:
Figure imgf000019_0001
wobei n > 0 ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Bestimmung des Einfallswinkels θ über die Beziehung θ=arc cos(x(f,T)) erfolgt mit
Figure imgf000019_0002
wobei φ die Phasendifferenz zwischen den beiden Mikrofonsignalkomponenten (m1 , m2) c die Schallgeschwindigkeit f die Frequenz der Schallsignalkomponente und d der vorbestimmte Abstand der beiden Mikrofone (MIK1 , MIK2) ist.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass es ferner den Schritt umfasst: Begrenzen des Werts von x(f,T) auf das Intervall [-1 , 1].
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass es ferner den Schritt umfasst: Reduzieren von Signalkomponenten, für die der Wert von x(f,T) vor der Begrenzung außerhalb des Intervalls [-1 , 1] lag.
7. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6, umfassend: - zwei Mikrofone (MIK1, MIK2); - eine an die Mikrofone angeschlossene Abtast- und Fourier- Transformationseinheit (20) zum Diskretisieren, Digitalisieren und Fourier-Transformieren der Mikrofonsignale (m1, m2); - eine an die Abtast- und Fourier-Transformationseinheit (20) angeschlossene Berechnungseinheit (30) zur Berechnung des Einfallswinkels (θ) jeder Schallsignalkomponente; und - wenigstens einen an die Berechnungseinheit (30) angeschlossenen Signalgenerator (40) zur Ausgabe des separierten Schallsignals, wobei der wenigstens eine Signalgenerator (40) Mittel zum Multiplizieren einer der Fourier-Transformierten (M1 , M2) mit einer Filterfunktion (F^) umfasst, die θ-abhängig ist und unter Variation von θ ein Maximum bei einem bevorzugten Einfallswinkel (θ0) aufweist.
8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass der Abstand (d) zwischen den Mikrofonen der Relation genügt: d<c/4fA wobei c die Schallgeschwindigkeit und fA die Abtastfrequenz der Abtast- und
Fourier-Transformationseinheit (20) ist.
9. Vorrichtung nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Vorrichtung für jede zu separierende Schallquelle (S1 , S2) einen Signalgenerator (40) umfaßt.
PCT/EP2005/050386 2004-02-06 2005-01-31 Verfahren und vorrichtung zur separierung von schallsignalen WO2005076659A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/557,754 US7327852B2 (en) 2004-02-06 2005-01-31 Method and device for separating acoustic signals
EP05707893A EP1595427B1 (de) 2004-02-06 2005-01-31 Verfahren und vorrichtung zur separierung von schallsignalen
DE502005000226T DE502005000226D1 (de) 2004-02-06 2005-01-31 Verfahren und vorrichtung zur separierung von schallsignalen

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004005998A DE102004005998B3 (de) 2004-02-06 2004-02-06 Verfahren und Vorrichtung zur Separierung von Schallsignalen
DE102004005998.5 2004-02-06

Publications (1)

Publication Number Publication Date
WO2005076659A1 true WO2005076659A1 (de) 2005-08-18

Family

ID=34485667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/050386 WO2005076659A1 (de) 2004-02-06 2005-01-31 Verfahren und vorrichtung zur separierung von schallsignalen

Country Status (5)

Country Link
US (1) US7327852B2 (de)
EP (1) EP1595427B1 (de)
AT (1) ATE348492T1 (de)
DE (2) DE102004005998B3 (de)
WO (1) WO2005076659A1 (de)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1923866B1 (de) * 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Schallquellen-Trenneinrichtung, Spracherkennungseinrichtung, tragbares Telefon, Schallquellen-Trennverfahren und Programm
US20070047742A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
US20070050441A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation,A Nevada Corporati Method and apparatus for improving noise discrimination using attenuation factor
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
US7619563B2 (en) * 2005-08-26 2009-11-17 Step Communications Corporation Beam former using phase difference enhancement
US7415372B2 (en) * 2005-08-26 2008-08-19 Step Communications Corporation Method and apparatus for improving noise discrimination in multiple sensor pairs
US20070047743A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and apparatus for improving noise discrimination using enhanced phase difference value
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US20080001809A1 (en) * 2006-06-30 2008-01-03 Walter Gordon Woodington Detecting signal interference in a vehicle system
JP5494492B2 (ja) * 2008-11-27 2014-05-14 日本電気株式会社 信号補正装置
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
ES2654592T3 (es) 2009-03-30 2018-02-14 F. Hoffmann-La Roche Ag Procedimiento y sistema para la determinación de la diferencia entre valores de glucemia preprandiales y posprandiales
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
DE102009029367B4 (de) 2009-09-11 2012-01-12 Dietmar Ruwisch Verfahren und Vorrichtung zur Analyse und Abstimmung akustischer Eigenschaften einer Kfz-Freisprecheinrichtung
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US9310503B2 (en) * 2009-10-23 2016-04-12 Westerngeco L.L.C. Methods to process seismic data contaminated by coherent energy radiated from more than one source
DE102009052992B3 (de) * 2009-11-12 2011-03-17 Institut für Rundfunktechnik GmbH Verfahren zum Abmischen von Mikrofonsignalen einer Tonaufnahme mit mehreren Mikrofonen
DE102010001935A1 (de) 2010-02-15 2012-01-26 Dietmar Ruwisch Verfahren und Vorrichtung zum phasenabhängigen Verarbeiten von Schallsignalen
US8482859B2 (en) 2010-02-28 2013-07-09 Osterhout Group, Inc. See-through near-eye display glasses wherein image light is transmitted to and reflected from an optically flat film
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US8472120B2 (en) 2010-02-28 2013-06-25 Osterhout Group, Inc. See-through near-eye display glasses with a small scale image source
US9134534B2 (en) 2010-02-28 2015-09-15 Microsoft Technology Licensing, Llc See-through near-eye display glasses including a modular image source
US10180572B2 (en) 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US20110214082A1 (en) * 2010-02-28 2011-09-01 Osterhout Group, Inc. Projection triggering through an external marker in an augmented reality eyepiece
US9128281B2 (en) 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US9366862B2 (en) 2010-02-28 2016-06-14 Microsoft Technology Licensing, Llc System and method for delivering content to a group of see-through near eye display eyepieces
US8477425B2 (en) 2010-02-28 2013-07-02 Osterhout Group, Inc. See-through near-eye display glasses including a partially reflective, partially transmitting optical element
WO2011106798A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US8467133B2 (en) 2010-02-28 2013-06-18 Osterhout Group, Inc. See-through display with an optical assembly including a wedge-shaped illumination system
US9097891B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment
US9229227B2 (en) 2010-02-28 2016-01-05 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US9759917B2 (en) 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
US9341843B2 (en) 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US9097890B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc Grating in a light transmissive illumination system for see-through near-eye display glasses
US9223134B2 (en) 2010-02-28 2015-12-29 Microsoft Technology Licensing, Llc Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses
US8488246B2 (en) 2010-02-28 2013-07-16 Osterhout Group, Inc. See-through near-eye display glasses including a curved polarizing film in the image source, a partially reflective, partially transmitting optical element and an optically flat film
US9091851B2 (en) 2010-02-28 2015-07-28 Microsoft Technology Licensing, Llc Light control in head mounted displays
US20120249797A1 (en) 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US9182596B2 (en) 2010-02-28 2015-11-10 Microsoft Technology Licensing, Llc See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light
US9129295B2 (en) 2010-02-28 2015-09-08 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US8175297B1 (en) 2011-07-06 2012-05-08 Google Inc. Ad hoc sensor arrays
EP2590165B1 (de) 2011-11-07 2015-04-29 Dietmar Ruwisch Verfahren und Vorrichtung zur Erzeugung eines rauschreduzierten Audiosignals
US9330677B2 (en) 2013-01-07 2016-05-03 Dietmar Ruwisch Method and apparatus for generating a noise reduced audio signal using a microphone array
US9497528B2 (en) * 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
US9431013B2 (en) * 2013-11-07 2016-08-30 Continental Automotive Systems, Inc. Co-talker nulling for automatic speech recognition systems
EP2928211A1 (de) * 2014-04-04 2015-10-07 Oticon A/s Selbstkalibrierung eines Multimikrofongeräuschunterdrückungssystems für Hörgeräte mit einer zusätzlichen Vorrichtung
JP2015222847A (ja) * 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN107785028B (zh) * 2016-08-25 2021-06-18 上海英波声学工程技术股份有限公司 基于信号自相关的语音降噪方法及装置
EP3764660B1 (de) 2019-07-10 2023-08-30 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme für adaptive strahlenformung
EP3764360A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und -systeme zur strahlformung mit verbessertem signal/rauschen-verhältnis
EP3764359A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme für mehrfokusstrahlformung
EP3764358A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und -systeme zur strahlformung mit windblasschutz
EP3764664A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme zur strahlformung mit mikrofontoleranzkompensation
DE102019134541A1 (de) * 2019-12-16 2021-06-17 Sennheiser Electronic Gmbh & Co. Kg Verfahren zur Steuerung eines Mikrofonarrays und Vorrichtung zur Steuerung eines Mikrofonarrays
US11546689B2 (en) 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing
CN113449255B (zh) * 2021-06-15 2022-11-11 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5539859A (en) * 1992-02-18 1996-07-23 Alcatel N.V. Method of using a dominant angle of incidence to reduce acoustic noise in a speech signal
EP0831458A2 (de) * 1996-09-18 1998-03-25 Nippon Telegraph And Telephone Corporation Verfahren und Vorrichtung zur Trennung einer Schallquelle, Medium mit aufgezeichnetem Programm dafür, Verfahren und Vorrichtung einer Schallquellenzone und Medium mit aufgezeichnetem Programm dafür
WO2002061732A1 (en) * 2001-01-30 2002-08-08 Thomson Licensing S.A. Geometric source separation signal processing technique

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
US6654719B1 (en) * 2000-03-14 2003-11-25 Lucent Technologies Inc. Method and system for blind separation of independent source signals
AUPR141200A0 (en) * 2000-11-13 2000-12-07 Symons, Ian Robert Directional microphone

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5539859A (en) * 1992-02-18 1996-07-23 Alcatel N.V. Method of using a dominant angle of incidence to reduce acoustic noise in a speech signal
EP0831458A2 (de) * 1996-09-18 1998-03-25 Nippon Telegraph And Telephone Corporation Verfahren und Vorrichtung zur Trennung einer Schallquelle, Medium mit aufgezeichnetem Programm dafür, Verfahren und Vorrichtung einer Schallquellenzone und Medium mit aufgezeichnetem Programm dafür
WO2002061732A1 (en) * 2001-01-30 2002-08-08 Thomson Licensing S.A. Geometric source separation signal processing technique

Also Published As

Publication number Publication date
DE102004005998B3 (de) 2005-05-25
EP1595427B1 (de) 2006-12-13
DE502005000226D1 (de) 2007-01-25
ATE348492T1 (de) 2007-01-15
EP1595427A1 (de) 2005-11-16
US7327852B2 (en) 2008-02-05
US20070003074A1 (en) 2007-01-04

Similar Documents

Publication Publication Date Title
EP1595427B1 (de) Verfahren und vorrichtung zur separierung von schallsignalen
EP2362681B1 (de) Verfahren und Vorrichtung zum phasenabhängigen Verarbeiten von Schallsignalen
DE102006042059B4 (de) Tonsammelvorrichtung mit Bündelung, Tonsammelverfahren mit Bündelung und Speicherprodukt
DE102006027673A1 (de) Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
DE69735396T2 (de) Akustischer Teilband-Echokompensator
DE102010023615B4 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
EP3375204B1 (de) Audiosignalverarbeitung in einem fahrzeug
EP1771034A2 (de) Mikrofonkalibrierung bei einem RGSC-Beamformer
DE102010026884B4 (de) Verfahren zum Betreiben einer Hörvorrichtung mit zweistufiger Transformation
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
WO2015049334A1 (de) Verfahren und vorrichtung zum downmixen eines multikanalsignals und zum upmixen eines downmixsignals
DE112012006780T5 (de) Strahlformungsvorrichtung
DE102008004674A1 (de) Signalaufnahme mit variabler Richtcharakteristik
DE19632734A1 (de) Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
EP3926982A2 (de) Verfahren zur richtungsabhängigen rauschunterdrückung für ein hörsystem, welches eine hörvorrichtung umfasst
EP1471770B1 (de) Verfahren zur Erzeugung einer angenäherten Teilübertragungsfunktion
DE102015204253B4 (de) Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals sowie Hörgerät
EP0776144B1 (de) Signalmodifikationsschaltung
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
DE102019135690A1 (de) Verfahren und Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung
DE112013007077T5 (de) Echoauslöschungsvorrichtung
DE102018117558A1 (de) Adaptives nachfiltern
DE102018117556B4 (de) Einzelkanal-rauschreduzierung
DE102020210805B3 (de) Verfahren zur direktionalen Signalverarbeitung für ein akustisches System
WO2007036443A1 (de) Verfahren zur aktiven geräuschverminderung und eine vorrichtung zur durchführung des verfahrens

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2005707893

Country of ref document: EP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2005707893

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007003074

Country of ref document: US

Ref document number: 10557754

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWG Wipo information: grant in national office

Ref document number: 2005707893

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10557754

Country of ref document: US