WO2008037925A1 - Reduction de bruit et de distorsion dans une structure de type forward - Google Patents

Reduction de bruit et de distorsion dans une structure de type forward Download PDF

Info

Publication number
WO2008037925A1
WO2008037925A1 PCT/FR2007/052010 FR2007052010W WO2008037925A1 WO 2008037925 A1 WO2008037925 A1 WO 2008037925A1 FR 2007052010 W FR2007052010 W FR 2007052010W WO 2008037925 A1 WO2008037925 A1 WO 2008037925A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
filter
post
input signal
Prior art date
Application number
PCT/FR2007/052010
Other languages
English (en)
Inventor
André Gilloire
Mohamed Djendi
Pascal Scalart
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP07823855A priority Critical patent/EP2078301A1/fr
Publication of WO2008037925A1 publication Critical patent/WO2008037925A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Definitions

  • the present invention relates to a signal processing, in particular a speech signal in telephony.
  • the boom in telecommunications has enabled the general public to benefit from mobile communication tools. It has now become possible and common to telephone from anywhere (of course in the extent of network coverage areas) in environments such as a street, a train station or a vehicle. Nevertheless, such places do not enjoy the calm of a home and the comfort of communication that still offers fixed telephony.
  • the annoyance due to the disturbance described as "noise” is generally a source of discomfort and is further accentuated by the dematerialisation of sound recording (the so-called "hands-free” system) which still encourages the emergence of noise due to increasing the distance between the mouth of the speaker and the microphone.
  • ANC adaptive noise cancellation
  • An input signal x constitutes a useful component and to which is naturally added a noise component, and a noise reference b 2 correlated to the noise component added to the useful signal x, are propagated up to a treatment stage (right part of Figure 1).
  • the treatment can be described as follows.
  • adaptive Noise Canceller for "Adaptive Noise Canceller" is the filtering of the reference b 2 ( ”) adequately in order to obtain the best estimate of b j (n) (as defined in minimum mean squared error), which brings a reduction in output noise.
  • the output signal S can be written in the form:
  • V ⁇ (z) and V2 ⁇ z / respectively represent the Z transforms of vj ( «)
  • Equation (3) In the absence of information on the second-order statistics of observations, an alternative to the solution of equation (3) is to perform an adaptive estimation of H. We then choose a parametric model of W in the form, for example, of a finite impulse response (FIR) filter whose coefficients are estimated
  • the LMS algorithm in the sense of equation (5) only converges to an approximation of the Wiener solution, because: • an approximation of a Wiener filter (a priori with infinite memory and not necessarily causal) by a causal structure with finite memory, and
  • the adaptive algorithms in the sense of equation (5) introduce misalignments due to the use of a non-asymptotically zero adaptation step. It is of course possible to choose an adaptation step itself adaptive to mitigate the misalignments, but without eliminating them.
  • multi-sensor system (called “multidirectional") a priori allows better noise reduction performance than a traditional sound pickup from a single sensor.
  • the reference noise b 2 is often mixed with a component from the wanted signal. This is particularly the case when the sensors are spatially close.
  • the model of the mixture is now based on two filters h ⁇ iz) and h, 2 ⁇ ⁇ z) which represent the physical (for example acoustic) coupling paths between the source signals and the sensors, as illustrated in Figure 2, representing a mixing model of the input signals X 1 (n) and x 2 (n), coming for example from two respective microphones of a sound acquisition module.
  • the signals picked up by the microphones contain mixtures of speech and noise.
  • Second-order source separation techniques (without the use of higher-order statistics) make it possible under certain conditions to extract speech from noise with a minimum of damage.
  • the forward structure can be considered as an extension of the basic structure of adaptive echo cancellation ANC. It solves the problem of the presence of the useful signal in the reference channel by symmetrizing the noise cancellation model.
  • This source separation structure has the disadvantage of distorting the output signals, even if it has theoretically been shown that the correction of the distortions would be possible thanks to a processing of the output signals by post-filtering, in Van Gerven and al (equation (12) page 1604). It seems that no satisfactory solution in practice has been proposed to implement this post-filtering.
  • Treatments of the type shown in FIGS. 3 and 4 have initially been proposed for denoising in the presence of two speech signals, but their use for other types of signals is conceivable provided, in particular, that the mixing model of FIG. 2. These treatments can also be generalized to any number of input and output components in equal numbers.
  • FIG. 3 illustrates a symmetrical structure of the "backward” type, of denoising in the sense of the reference “Al-Kindi and Dunlop", mentioned above.
  • Figure 4 illustrates a symmetrical structure "forward” denoising within the meaning of the reference “Van Gerven and Van Compernolle”, supra.
  • the forward source separation structure in particular, has a convergence advantage provided towards the solution but which requires the use of a post-filter causing problems in extracting the output signals. This structure is detailed below.
  • - s ( ⁇ ) and b (n) are, respectively, two spatially punctual sources of useful signal (for example speech) and noise, n ⁇ and "2 represent additive background noise, uncorrelated signals s ( ⁇ ) and b (n),
  • FIG. 2 as in FIG. 5, which illustrates the signal mixing model, the filters h xx and / 1 22 are assumed to be "identity" filters, which does not affect the practical use of the model since User speaker of a multi-sensor terminal is expected to stay close to the microphones.
  • This hypothesis also reflects the fact that we generally do not have information a priori on the location of source of noise (supposedly point). Note that / ⁇ 12 and / ⁇ 21 are generally non-stationary.
  • the forward separation structure of FIG. 6 can be used.
  • the present invention improves the situation.
  • Its purpose is the determination of satisfactory post-filters so as to minimize the distortion of the output signals, in particular on an output speech signal.
  • a device for reducing noise in at least one signal comprising: a structure of the forward type with at least two adaptive filtering channels with noise reduction on two input signals, for delivering two filtered and noise-reduced signals, and at least one post-filter at the output of a channel chosen from among both channels, to reduce distortion on the filtered signal of said selected channel.
  • this post-filter comprises an adaptation means according to a comparison involving the input signal of said chosen channel.
  • This adaptation means can be constituted by an open loop path or an adaptation feedback.
  • the post-filter includes adaptive adaptive filtering feedback, based on a recursive comparison based on the difference between the output signal and the input signal of said selected channel.
  • the post-filter comprises an open loop frequency equalizing filter matching means, according to a comparison based on a ratio of power spectral densities, respectively between the filtered signal and the input signal. said chosen channel, brought back to the frequency domain.
  • the post-filter comprises adaptive adaptive filter adaptive feedback, according to a recursive comparison based on the difference between the output signal and the input signal, brought back into the frequency domain.
  • FIG. 7 illustrates a noise reduction device comprising a two-stage forward structure with post-filtering implementing a feedback of adataption in the sense of the invention, by temporal adaptive filtering according to the first embodiment mentioned above,
  • FIG. 8 illustrates a noise reduction device comprising a two-stage forward structure with post-filtering implementing a means of adataption in the sense of the invention, by open loop frequency equalizer filtering according to the second embodiment. supra,
  • FIG. 9 illustrates a noise reduction device comprising a two-stage forward structure with post-filtering implementing adataption feedback within the meaning of the invention, by adaptive frequency matching filtering according to the third embodiment mentioned above,
  • FIG. 10 schematically illustrates telecommunication equipment, such as a telephony terminal, comprising a sound acquisition module including two microphones connected to a noise reduction device in the sense of the invention
  • FIG. 11 illustrates schematically the steps of a method in the sense of the invention, for the implementation of a treatment according to one of the second or third embodiments mentioned above.
  • the noise reduction structure of the forward structure type, comprising: a first input for receiving a first original signal pi (n) , and at least one second input for receiving a second original signal p 2 (n).
  • the first and second signals have two respective substantially correlated noise versions.
  • the structure further comprises:
  • a first subtracter Ss 1 between the first signal and the second filtered signal for delivering a third signal ui (n), the third signal being of reduced noise and corresponding to the first signal to which the second filtered signal is subtracted,
  • the forward structure further comprises, in the example shown in FIGS. 7 to 9:
  • the aforementioned first post-filter at least, comprises an adaptation means according to a comparison involving the first signal pi (n) and: the fifth signal si (n) in the first signal (FIG. 7) and third (FIG. 9) embodiments, or the third signal U 1 (n) in the second embodiment (FIG. 8), as will be seen below.
  • Two possible approaches, within the meaning of the invention, are presented below for the implementation of the post-filter of the signal path p ⁇ (").
  • the first possible approach is based on a direct calculation of gain in the time domain, corresponding to a convergent theoretical post-filter.
  • a frequency domain calculation is preferred.
  • the filter w ft acts as a time equalizer, at each iteration n, of the result of the processing of the stage which precedes it, that is to say of the original forward source separation structure.
  • the filter vt> 2 i is updated only during the phases of non-vocal activity and the equalizer filter w ft is updated only during periods of voice activity.
  • Such an embodiment therefore ensures equalization in amplitude of the acoustic channel while preserving the same phase as the original signal.
  • a voice activity detection module DAV (FIG. 11) is advantageously used to estimate a representative quantity of the noise during the non-activity phases and a representative quantity of the useful signal during the activity phases.
  • a device of the state of the art such as a threshold detector.
  • the adaptive filter w p must be long, and its convergence is disturbed by the presence of noise superimposed on the speech in the signal p ⁇ (n). It is therefore considered that, in practice, this temporal computation approach gives insufficient performance, contrary to the approach based on the frequency calculation described hereinafter.
  • the second approach in the sense of the invention is based on a gain calculation in the frequency domain.
  • the second embodiment of the invention is directed to the direct gain calculation in the frequency domain, corresponding to a theoretical post-filter.
  • a frequency adaptive algorithm is advantageously used, for example of the FLMS type (for "Frequency-domain Least Mean Squares") for calculating the post-filter.
  • An algorithm of this type is described in particular in:
  • FIG. 8 shows a forward structure with calculation of the open loop frequency equalizer filter post-filter for the implementation of the invention according to the second aforementioned embodiment.
  • the frequency gain G ( ⁇ , k) is calculated which is used to equalize in amplitude (and not in phase) the output signal of the separation structure W 1 (n). This gain is calculated from the unbalanced output signal and the mixing signal. It aims to restore, for each spectral component of the output signal, the same amplitude as the corresponding amplitude of the component of the speech signal present in the mixing signal p ⁇ (n).
  • the power spectral densities of the signals W 1 (n) and p ⁇ (n) are estimated here by means of a recursive calculation formula of the first order from the calculation of their fast Fourier transforms (or "FFT").
  • the calculation of the frequency gain is realized by the following formula:
  • the two quantities DSP _signal and DSP _hw represent the power spectral densities estimated from the noisy original signal p ⁇ (n) and, respectively, from the noise-free filtered signal W 1 Oi) on a window of several samples (or " frame "k).
  • the power spectral density of the original signal is calculated during the periods of speech activity by subtracting the power spectral density of the noise, which is estimated during periods of non-speech activity, with the spectral power density of the signal. mixing mixture W 1 (n). The property of the intermittency of the speech signal is therefore exploited to estimate the different power densities of the structure.
  • the speech signal at the output of this structure is recovered after the modification of each frequency component of the signal W 1 U) by the frequency gain G ( ⁇ , k).
  • This signal is finally restored in the time domain following an inverse Fourier transform and a conventional reconstruction, for example of the "overlap-save” type described in particular in the reference Ferrara (1980) given previously.
  • the good estimate of the signal at the output of this structure is based on the good estimation of the speech signal (calculation of its power spectral density).
  • the mixing signal can advantageously be delayed by a delay D (module z ⁇ D of Figures 8 and 9). It is therefore preferable to ensure the correct setting of the delay parameter D for the proper functioning of this structure within the meaning of the invention.
  • this parameter D can be set to half the size of the impulse response of the post-filter.
  • the third embodiment is described below with reference to FIG. 9, presenting a forward structure with calculation of the post-filter, by adaptive frequency filtering.
  • This embodiment is based on the use of an adaptive algorithm for updating the coefficients of gain G ⁇ , k), calculated in the frequency domain.
  • the signals being sampled in successive frames, for each signal frame k, an equation of the following type is provided:
  • G ( ⁇ , k) G ( ⁇ , k-1) + ⁇ ( ⁇ , k) E ( ⁇ , k) U ⁇ ( ⁇ , k), where:
  • G ( ⁇ , k-1) is the calculated gain for a frame k-1, preceding the current frame k,
  • E ( ⁇ o, k) P ⁇ ( ⁇ o, k) - G ( ⁇ o, k) U ⁇ ( ⁇ o, k),
  • the calculation of the adaptation step ⁇ ( ⁇ , fc), at each frame, is typically performed according to a function which follows the rules and conventional principles of noise reduction. It can be a ratio estimate of respective power spectral densities of useful signal and noise. More particularly, this function is based on the calculation of the signal-to-noise ratio components of each frequency line.
  • the Wiener function is used for calculating the pitch ⁇ ( ⁇ , k) as follows:
  • RSB io ( ⁇ , k) 'k) ⁇ + RSB pn MkY (10)
  • a priori which is defined by the ratio between the estimate of the spectral density of power of the noise-cleaned speech signal and the estimated power spectral density of the noise. This signal-to-noise ratio is therefore given by a formula of the type:
  • DSP_noise ( ⁇ , k) ⁇ DSP_noise ( ⁇ , k) ⁇
  • a variable adaptation step as a function of the signal-to-noise ratio as defined in equation (10) is advantageous because it allows a robust convergence of the adaptive frequency filter and also enables it to correct the signal distortion. of speech.
  • the third embodiment proved to be the most robust to inaccuracies in the calculations of the spectral power densities of all the signals involved in the calculation of the filter.
  • this third embodiment makes it possible to recover a signal close to the initial signal, which has moreover been confirmed by subjective listening.
  • the invention aimed at denoising the speech signal using the forward source separation structure, allows the calculation of the theoretical post-filter regardless of the nature of the post-filter.
  • the embodiments presented above make it possible to correct the disadvantages of the forward structure which produces a distortion of the output speech signal if it is not followed by the post-filter.
  • the present invention also aims at a sound acquisition module, in particular for a telecommunication equipment (for example a fixed or mobile telephony apparatus) as represented in FIG. 10.
  • the sound acquisition module comprises at least:
  • a microphone MIC1 for acquiring a signal comprising a useful component and a noise component
  • a microphone MIC2 for acquiring a noise reference substantially correlated with the noise component of the input signal
  • a FW noise reduction device for supplying a useful signal s u, free from noise and distortion.
  • the signal comprising the useful component is applied as an input signal of the channel comprising adaptive post-filtering within the meaning of the invention, and the noise reference is applied as an input signal in the other channel. of the forward structure of the noise reduction device.
  • the two signals thus acquired (that including the aforementioned noise component and that corresponding to the noise reference) comprise respective substantially correlated versions of noise.
  • the present invention also aims at a noise reduction method in at least one signal, in which a forward structure is provided at least two adaptive noise reduction filter channels W 12 (z), W 21 (z) on two input signals
  • a post-filtering is applied with an adaptation means according to a comparison involving the input signal p ⁇ (n) of said chosen channel, to reduce a distortion on the filtered signal M 1 ⁇ n) of this chosen channel.
  • FIG. 11 shows the process steps for the second and for the third embodiments described above.
  • the DSP power spectral densities (step S101) for evaluating the signal-to-noise ratio (step S102) are calculated and hence the gain G ( ⁇ , k) (step S103).
  • a frequency gain G ( ⁇ , k) (step S103) is calculated by exploiting the aforementioned signal-to-noise ratio and, more particularly, the ratio of the spectral densities of DSP powers. respectively.
  • step SlOl for calculating the spectral densities of DSP powers, the original input signal p ⁇ (n) and the filtered signal W 1 (W) are brought back to the frequency domain.
  • a delay D is applied to the original input signal p ⁇ (n) (step S104), and then the delayed signal is returned to the frequency domain by applying an FFT (step S 105).
  • the filtered, noise-free signal W 1 (z) is also returned to the frequency domain by applying an FFT (step S106).
  • step S103 the gain is applied to the filtered signal and expressed in the frequency domain W 1 ()) (step S107 in the second as in the third embodiment).
  • step S 108 provision is furthermore made for a subtraction (step S 108) of the original signal P 1 (Co) expressed in the frequency domain, to schematically carry out the adaptation filtering.
  • step S 109 the signal S u thus filtered is brought back into the time domain by an inverse FFT (step S 109).
  • a processor of a noise reduction device can implement the steps of the method.
  • the present invention also provides a computer program, intended to be executed by such a processor, and including instructions for the implementation of the method.
  • Figure 11 can illustrate the flowchart of such a computer program.
  • the present invention is not limited to the embodiment described above by way of example; it extends to other variants.
  • the forward structures of FIGS. 7 to 9 it will be understood that it is possible to provide a forward structure comprising more than two channels and / or more than one adaptive post-filtering in the sense of the invention.
  • the post-filtering w P 2 (z) on the noise reference channel of FIGS. 7 to 9 is not necessary for the implementation of the invention and could be omitted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

L'invention concerne une structure de réduction de bruit, de type forward, à au moins deux voies de filtrage adaptatif à réduction de bruit (w12(z), w21(z)) sur deux signaux d'entrée (p1(n), p2(n)), pour délivrer deux signaux filtrés et réduits en bruit (u1(n), u2(n)). La structure comporte en outre au moins un post-filtre (PF1) en sortie d'une voie choisie parmi les deux voies, pour réduire une distorsion sur le signal filtré (u1(n)) de la voie choisie. Le post-filtre (PF1) au sens de l'invention comporte une rétroaction d'adaptation selon une comparaison faisant intervenir le signal d'entrée (p1(n)) de voie choisie précitée.

Description

Réduction de bruit et de distorsion dans une structure de type forward
La présente invention concerne un traitement de signal, notamment un signal de parole en téléphonie.
L'essor des télécommunications a permis au grand public de bénéficier d'outils de communication mobiles. Il est désormais devenu possible et courant de téléphoner de partout (bien entendu dans l'étendue des zones de couverture de réseaux) dans des environnements tels qu'une rue, une gare ou encore un véhicule. Néanmoins, de tels lieux ne bénéficient pas du calme d'un habitat et du confort de communication qu'y offre encore la téléphonie fixe. La gêne due à la perturbation qualifiée de "bruit" est généralement source d' inconfort et s'accentue encore par la dématérialisation de la prise de son (système dit "mains-libres") qui favorise encore l'émergence de bruit du fait de l'augmentation de la distance entre la bouche du locuteur et le microphone.
Dans ces conditions, il se ressent le besoin d'un traitement capable de réduire la gêne qu'occasionnent les bruits additionnels à un signal de parole et d'extraire en particulier l'information utile d'un signal d'observation bruité. Outre cette application de "débruitage", un tel traitement trouverait une mise en œuvre avantageuse en reconnaissance vocale, dont les performances sont fortement altérées lorsque l'utilisateur est plongé dans un environnement bruyant.
Des approches successives dans l'état de l'art pour remédier à un tel problème sont exposées ci-après. Ces approches sont basées sur le traitement de signaux issus d'au moins deux capteurs.
Le principe de l'annulation adaptative de bruit (ANC), utilisant typiquement un algorithme de gradient stochastique ou LMS (pour "Least Mean Squares"), est illustré schématiquement en figure 1. Un signal d'entrée x constituant une composante utile et auquel est ajoutée naturellement une composante de bruit, ainsi qu'une référence de bruit b2 corrélée à la composante de bruit ajoutée au signal utile x, se propagent jusqu'à un étage de traitement (partie droite de la figure 1). Le traitement peut être décrit comme suit.
On considère une observation bruitée y\ (n) du signal x(n) comportant la composante utile, avec yι {n)=x{n)+b\ {n) , où b\ (n) est une contribution de bruit décorrélée du signal utile x(n). On suppose que l'on dispose, au niveau d'un deuxième capteur, d'une référence de bruit b2 («) > corrélée à b\ (n) mais décorrélée de x(n) . La relation entre b\ {n) et ^ W est supposée linéaire, avec : b\ {n)=H* Z^ W ou Ie signe "*" représente le produit de convolution et H un filtre inconnu, à déterminer.
Le principe de l'annulation adaptative de bruit ANC (pour "Adaptive Noise Canceller") vise le filtrage de la référence b2 (") de manière adéquate afin d'obtenir la meilleure estimation de bj (n) (au sens de l'erreur quadratique moyenne minimale), ce qui apporte une réduction du bruit en sortie.
En tenant compte de la relation linéaire entre les bruits dans les deux observations, le signal de sortie S peut s'écrire alors sous la forme :
S(n) = x(n) + (H - W)* b2 (n) (1)
La solution d'un débruitage idéal donnée par s(n) = x(n) revient à trouver un filtre d'annulation idéal Wopt tel que Wopt = H . Une manière de déterminer le filtre Wopt sans connaissance ni du signal x(n) ni du filtre H consiste à considérer la solution résultant de la minimisation de l'énergie du signal estimé s(n) . En effet, compte tenu de la décorrélation entre bi(n) et x(n), on a d'après la relation (1) : E[S2 GI)] = E[X2 GI)]+ E[{(H -W)* b2 (n))2 ] (2) La valeur minimale de E[s (n)\ est alors atteinte lorsque le second terme de droite de l'équation (2) est minimal (idéalement pour Wopt = H ). La solution de ce problème correspond au filtre de Wiener défini par :
W t {z) = i 2 M (3) yb2b2 UJ où la fonction γVlV2 désigne la densité d' intercorrélation spectrale entre les signaux V1 et V2 définie par :
Figure imgf000005_0001
où V\(z) et V2 \z / représentent respectivement les transformées en Z de vj («) et
V2 \- n) -
En absence d'informations sur les statistiques de second ordre des observations, une alternative à la solution de l'équation (3) consiste à effectuer une estimation adaptative de H. On choisit alors une modélisation paramétrique de W sous forme, par exemple, d'un filtre à réponse impulsionnelle finie (RIF) dont on estime les coefficients
( (w(k))k >=Q ) suivant un algorithme adaptatif. Ainsi, l'utilisation d'une règle LMS conduit au schéma stochastique : w(n + l, k) = w(n, k) + μs{np2 (n - Jc), pour k ≥ 0 (5) où w(n,k) désigne la valeur du coefficient w(k) d'ordre k de W(z) à la n-ième itération.
L'algorithme LMS au sens de l'équation (5) ne converge que vers une approximation de la solution de Wiener, car : • on réalise en fait une approximation d'un filtre de Wiener (a priori à mémoire infinie et non-nécessairement causal) par une structure causale à mémoire finie, et • les algorithmes adaptatifs au sens de l'équation (5) introduisent des désajustements dus à l'utilisation d'un pas d'adaptation non asymptotiquement nul. Il est bien sûr possible de choisir un pas d'adaptation lui-même adaptatif pour atténuer les désajustements, mais sans pour autant les éliminer.
Ainsi, la prise de son par un système à plusieurs capteurs (dite "multidirectionnelle") permet a priori de meilleures performances de débruitage qu'une prise de son traditionnelle à partir d'un seul capteur.
Toutefois, en pratique, le bruit de référence b2 est souvent mélangé avec une composante provenant du signal utile. C'est notamment le cas lorsque les capteurs sont spatialement proches. Le modèle du mélange est basé maintenant sur deux filtres h^ iz) et h,2\ {z) qui représentent les chemins de couplage physique (par exemple acoustique) entre les signaux sources et les capteurs, comme illustré sur la figure 2, représentant un modèle de mélange des signaux d'entrée X1 (n) et x2(n), provenant par exemple de deux microphones respectifs d'un module d'acquisition sonore.
Ainsi, dans le cas de terminaux compacts, dans lesquels les capteurs sont proches les uns des autres, les signaux captés par les microphones contiennent des mélanges de parole et de bruit. Les techniques de séparation de sources au second ordre (sans utilisation de statistiques d'ordres supérieurs) permettent dans certaines conditions d'extraire la parole du bruit avec un minimum de dégradations.
Dans l'état de l'art, deux structures conceptuellement simples ont été proposées pour réaliser la réduction de bruit par séparation de sources. Elles sont classiquement dénommées respectivement : - "structure backward" , décrite notamment dans :
"Improved adaptive noise cancellation in the présence of signal leakage on the noise référence channel", MJ. Al-Kindi et J. Dunlop, Signal Processing, vol.17, no.3, p.241-250, Juillet 1989 ; et - " structure forward", décrite notamment dans :
"Signal séparation by symmetric adaptive decorrelation: stability, convergence, and uniqueness" , S. Van Gerven et D.Van Compernolle, IEEE Trans. Signal Processing, vol. 43 No.7, p.1602-1612, Juillet 1995.
La structure forward peut être considérée comme une extension de la structure de base de l'annulation adaptative d'écho ANC. Elle résout le problème de la présence du signal utile dans la voie de référence en symétrisant le modèle d'annulation du bruit. Cette structure de séparation de sources présente toutefois l'inconvénient de distordre les signaux de sortie, même s'il a été montré théoriquement que la correction des distorsions serait possible grâce à un traitement des signaux de sortie par post- filtrage, dans Van Gerven et al (équation (12) page 1604). Il semble qu'aucune solution satisfaisante en pratique n'ait été proposée pour mettre en œuvre ce post-filtrage.
Ainsi, ces deux structures de séparation de sources, backward et forward, ont été proposées dans l'état de l'art afin de séparer les composantes des mélanges issus du modèle illustré sur la figure 2. Ces deux structures sont représentées respectivement par les figures 3 et 4 et résolvent théoriquement le problème dû à la présence du signal utile dans la voie de référence, en symétrisant le modèle d'annulation du bruit.
Les traitements du type représenté sur les figures 3 et 4 ont été initialement proposés pour le débruitage en présence de deux signaux de parole, mais leur utilisation pour d'autres types de signaux est envisageable à condition notamment de satisfaire le modèle de mélange de la figure 2. Ces traitements sont aussi généralisables à un nombre quelconque de composantes en entrée et en sortie en nombre égal.
La figure 3 illustre une structure symétrique de type "backward", de débruitage au sens de la référence "Al-Kindi et Dunlop", précitée. La figure 4 illustre une structure symétrique "forward" de débruitage au sens de la référence "Van Gerven et Van Compernolle", précitée. De façon générale, on retiendra que les structures illustrées sur les figures 3 et 4 ramènent le débruitage des observations à un problème d'identification d'un système inverse. La structure de séparation de sources forward, en particulier, présente un avantage de convergence assurée vers la solution mais qui requiert l'utilisation d'un post-filtre origine de problèmes dans l'extraction des signaux de sortie. Cette structure est détaillée ci-après.
Selon le modèle de la figure 5, qui généralise le modèle de la figure 2, les signaux de sortie de mélange convolutif pj (n) et p2 («) , qui seront utilisés comme des entrées de la structure de séparation de source forward de la figure 4, sont donnés par :
(n) = hn* s(n) + h2f b{n) + nx (n) (6) et P2 (n) = h22 * b{n) + hl2 * s(n) + n2 (n) (7) où : hu et Ii22 (non montrées) représentent les réponses impulsionnelles de chaque canal séparément, hγi et /*2i représentent les effets du couplage mutuel entre les deux canaux,
- s(ή) et b(n) sont, respectivement, deux sources supposées spatialement ponctuelles de signal utile (par exemple une parole) et de bruit, nγ et «2 représentent les bruits de fond additifs, décorrélés des signaux s(ή) et b(n),
- le symbole "*" représentant, bien entendu, l'opération de convolution.
Dans la figure 2 comme dans la figure 5 qui illustre le modèle de mélange des signaux, les filtres hx x et /122 sont supposés être des filtres "identité", ce qui n'altère pas l'utilisation pratique du modèle puisqu'un locuteur utilisateur d'un terminal à plusieurs capteurs est censé rester à proximité des microphones. Cette hypothèse traduit aussi le fait que l'on n'a généralement pas d'information a priori sur la localisation de source de bruit (supposée ponctuelle). On note que /ι12 et /ι21 sont en général non stationnaires. Afin de séparer les composantes des mélanges issus du modèle décrit en référence à la figure 5, la structure forward de séparation de la figure 6 peut être utilisée. La figure 6, présentant la structure forward de séparation des mélanges, complète (avec post-filtres réducteurs de distorsion), comporte alors deux boucles d'adaptation des deux filtres w12(z) et w21 (z), ainsi que les deux post-filtres PFl et PF2 appliqués sur les sorties respectives Sι(n) et s2(n). En théorie, les deux post-filtres permettent l'extraction parfaite (sans distorsion) des signaux originaux à partir des signaux du mélange.
Il a été observé que la minimisation de la corrélation entre les deux sorties de cette structure de la figure 6 revient exactement à minimiser l'erreur quadratique moyenne de chaque sortie. Les deux sorties u\ in) et u2in) de la structure de séparation sont calculées comme suit : u\(n) = pi in)- p2 in) * W21 in) et U2 in) = p2 in)- pγ in) * w\2 in)
En remplaçant les expressions de p\(n ) et p2(n ) données par les équations (6) et (7) dans les expressions de
Figure imgf000009_0001
et u2 in) et avec hn et h22 égaux à l'identité, on trouve :
M1 (n) = bin) * [h2ι in)- w2\ in)\+ sin) * [δin)- hγ2 in) * w2\ in)\+ n\ in) - n2 in) * w2\ in) u2in) = sin) * [hι2in)- wι2in)\+ bin) * \δin)-h2ιin) * wι2in)\+ n2in) - nγin) * Wγ2in)
Les solutions théoriques optimales pour les deux expressions de u\ in) et u2 in) sont obtenues respectivement lorsque w2χ = h2i et W12 = hi2 . Dans ce cas, et en l'absence des composantes de bruit diffus «j in) et n2 in) sur deux capteurs, les signaux de sortie sont donnés par :
sin) = u\ in) * [δin)-
Figure imgf000009_0002
Les expressions des deux post-filtres théoriques qui interviennent dans le calcul des signaux de sortie de la structure de séparation de sources forward sont donc données par les équations suivantes : - pour le post-filtre PFl : [δ(n)-h12(n) *
Figure imgf000010_0001
(8)
- et pour le post-filtre PF2 : [δ(n)- h2l (n) * wl2 (n)\ (9)
Ainsi, lors de la convergence des deux filtres adaptatifs wl2(n) et w2l(n) vers leur solution théorique w2\ = h2χ et w\2 = h\2 , les deux post-filtres PFl et PF2 tendent
vers une même solution idéale : |δ(ra)- hi2 (n) *
Figure imgf000010_0002
Toutefois, en pratique, l'obtention directe de ces deux post-filtres sous les formes des équations (8) et (9) est difficile, car en général on ne connaît pas a priori le filtre hχ2 dans l'équation (8) et le filtre /i2i dans l'équation (9). En remplaçant /i2i Par W 2\ et h\2 par w\2 , on peut obtenir des estimations de ces deux post-filtres conformes aux expressions théoriques des équations (8) et (9). Ce schéma est néanmoins difficilement applicable en pratique car les estimations w2\ et surtout w\2 sont perturbées par la technique d'estimation de ces filtres par filtrage adaptatif. Pour pouvoir calculer directement ces deux post-filtres à partir de leurs expressions données par les équations (8) et (9), il faut que leur inverse ait une caractéristique à phase minimale, ce qui n'est, en général, pas le cas en pratique. Donc cette structure, telle qu'elle a été décrite en référence à la figure 6, donne des résultats insatisfaisants sans utilisation d'autres méthodes et moyens de calcul des post-filtres.
La présente invention vient améliorer la situation.
Elle a pour objet la détermination de post-filtres satisfaisants de façon à minimiser la distorsion des signaux en sortie, notamment sur un signal de parole en sortie.
Elle propose à cet effet un dispositif de réduction de bruit dans au moins un signal, comportant : - une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit sur deux signaux d'entrée, pour délivrer deux signaux filtrés et réduits en bruit, et au moins un post-filtre en sortie d'une voie choisie parmi les deux voies, pour réduire une distorsion sur le signal filtré de ladite voie choisie.
Au sens de l'invention, ce post-filtre comporte un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée de ladite voie choisie.
Ce moyen d'adaptation peut être constitué par un chemin en boucle ouverte ou par une rétroaction d'adaptation.
Dans un premier mode de réalisation, le post-filtre comporte une rétroaction d'adaptation par filtrage adaptatif temporel, selon une comparaison récurrente basée sur la différence entre le signal de sortie et le signal d'entrée de ladite voie choisie.
Dans un deuxième mode de réalisation, le post- filtre comporte un moyen d'adaptation par filtrage égaliseur fréquentiel en boucle ouverte, selon une comparaison basée sur un rapport de densités spectrales de puissance, respectivement entre le signal filtré et le signal d'entrée de ladite voie choisie, ramenés dans le domaine des fréquences.
Dans un troisième mode de réalisation, le post-filtre comporte une rétroaction d'adaptation par filtrage adaptatif fréquentiel, selon une comparaison récurrente basée sur la différence entre le signal de sortie et le signal d'entrée, ramenés dans le domaine des fréquences.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels, outre les figures 1 à 6 décrites ci-avant :
- la figure 7 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre une rétroaction d'adataption au sens de l'invention, par filtrage adaptatif temporel selon le premier mode de réalisation précité,
- la figure 8 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre un moyen d'adataption au sens de l'invention, par filtrage égaliseur fréquentiel en boucle ouverte selon le deuxième mode de réalisation précité,
- la figure 9 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre une rétroaction d'adataption au sens de l'invention, par filtrage adaptatif fréquentiel selon le troisième mode de réalisation précité,
- la figure 10 illustre schématiquement un équipement de télécommunication, tel qu'un terminal de téléphonie, comportant un module d'acquisition sonore incluant deux microphones reliés à un dispositif de réduction de bruit au sens de l'invention, et - la figure 11 illustre schématiquement les étapes d'un procédé au sens de l'invention, pour la mise en œuvre d'un traitement selon l'un des deuxième ou troisième modes de réalisation précités.
En référence aux figures 7 à 9, dans l'application de l'invention à des fins de débruitage, on considère essentiellement une seule sortie d'un signal de parole exempt de bruit et qui correspondrait à la voie du signal u\ {n) de la figure 6 présentée précédemment. Cette approche au sens de l'invention diffère typiquement des approches de l'art antérieur donné ci-avant, notamment :
"Signal séparation by symmetric adaptive decorrelation: stability, convergence, and uniqueness" , S.Van Gerven et D.Van Compernolle, IEEE
Trans. Signal Processing, vol. 43 No.7, p.1602-1612, Juillet 1995.
De manière générale, sur les figures 7 à 9 au sens de l'invention données à titre d'exemple, la structure réductrice de bruit, de type structure forward, comportant : - une première entrée pour recevoir un premier signal original pi(n), - et au moins une deuxième entrée pour recevoir un deuxième signal original p2(n). Le premier et le deuxième signal comportent deux versions respectives de bruit sensiblement corrélées. La structure comporte en outre :
- un premier filtre Wn(Z) (optionnel), de type filtre adaptatif réducteur de bruit, appliqué au premier signal,
- un deuxième filtre W21 (z), de type filtre adaptatif réducteur de bruit, appliqué au deuxième signal,
- un premier soustracteur Ss1 entre le premier signal et le deuxième signal filtré, pour délivrer un troisième signal ui(n), le troisième signal étant de bruit réduit et correspondant au premier signal auquel est soustrait le deuxième signal filtré,
- un deuxième soustracteur ss2 (optionnel) entre le deuxième signal et le premier signal filtré pour délivrer un quatrième signal u2(n), le quatrième signal étant de composante de signal utile réduite et correspondant au second signal auquel est soustrait le premier signal filtré. Le troisième signal alimente le deuxième filtre pour une rétroaction adaptative et le quatrième signal alimente le premier filtre pour une rétroaction adaptative. La structure forward comporte en outre, dans l'exemple représenté sur les figures 7 à 9 :
- un premier post-filtre, réducteur de distorsion, appliqué au troisième signal ui(n), pour délivrer un cinquième signal S1 (n), en une première sortie de la structure, et - un deuxième post-filtre wp2(z) (optionnel), réducteur de distorsion, appliqué au quatrième signal u2(n), pour délivrer (éventuellement) un sixième signal s2(n), en une deuxième sortie de la structure.
Selon l'invention, le premier post-filtre précité, au moins, comporte un moyen d'adaptation selon une comparaison faisant intervenir le premier signal pi(n) et : - le cinquième signal si(n) dans les premier (figure 7) et troisième (figure 9) modes de réalisation, ou le troisième signal U1 (n) dans le second mode de réalisation (figure 8), comme on le verra ci-après. Deux approches possibles, au sens de l'invention, sont présentées ci-après pour la mise en œuvre du post-filtre de la voie du signal pγ («) .
La première approche possible, mais présentant toutefois quelques inconvénients expliqués plus loin, est basée sur un calcul direct de gain dans le domaine temporel, correspondant à un post-filtre théorique convergent. Dans la deuxième approche, on prévoit plutôt un calcul dans le domaine fréquentiel.
On décrit ici la première approche, selon une structure forward avec calcul du post- filtre par filtrage adaptatif temporel. Une forme de la structure de séparation de source, avec post-filtrage, est donnée par la figure 7.
La particularité de cette structure, modifiée par rapport à la structure originale de la figure 6, est telle que le post-filtre donné par les équations (8) et (9) et présenté dans la structure de base, est estimé au moyen du filtre adaptatif wp qui est adapté par la rétroaction de la différence entre sa sortie et celle du mélange, ou "erreur de filtrage". Il s'agit donc d'estimer par identification adaptative le post-filtre dont l'expression théorique est donnée par l'équation (8) en minimisant l'énergie de la différence entre les deux signaux pι(ή) et s\(ή) (correspondant respectivement au premier signal original d'entrée et au cinquième signal, de sortie, de la structure forward). En pratique, on minimise préférentiellement l'erreur quadratique moyenne. On notera que le filtre wp peut être un filtre à réponse impulsionnelle finie (FIR) et peut être mis à jour à partir d'une formule du type : wpi in) = w pi \n-lj+ μe(n)uι (n) ,
où e(n) est l'erreur de filtrage donnée par : e(n) = /J1 Oi)- S1 Oi) , et μ un coefficient multiplicatif. On note que le filtre wft agit en tant qu'égaliseur temporel, à chaque itération n, du résultat du traitement de l'étage qui le précède, c'est-à-dire de la structure de séparation de source forward originale.
A la convergence sur plusieurs itérations, le filtre égaliseur temporel wft tend vers l'inverse de la quantité l- hl2 *w2l , avec vt>2i = ^2i - Cette dernière condition est assurée en pratique grâce à l'utilisation de la détection d'activité vocale sur le signal de parole. En effet, suivant un procédé connu de l'état de l'art mais avantageux pour la mise en œuvre de l'invention, le filtre vt>2i est mis à jour uniquement pendant les phases de non-activité vocale et le filtre égaliseur wft est mis à jour uniquement pendant les périodes d'activité vocale. Une telle réalisation assure par conséquent une égalisation en amplitude du canal acoustique en préservant la même phase que le signal original.
Plus généralement, pour l'approche temporelle, comme pour l'approche fréquentielle décrite plus loin, on utilise avantageusement un module de détection d'activité vocale DAV (figure 11) pour estimer une quantité représentative du bruit pendant les phases de non-activité et une quantité représentative du signal utile pendant les phases d'activité. Pour des signaux audio quelconques, autres que vocaux, on peut prévoir un dispositif de l'état de l'art tel qu'un détecteur de seuil.
Ce premier mode de réalisation basé sur une adaptation temporelle présente néanmoins quelques inconvénients. Le filtre adaptatif wp doit être long, et sa convergence est perturbée par la présence du bruit superposé à la parole dans le signal pι(n). On considère donc qu'en pratique, cette approche de calcul temporel donne des performances insuffisantes, contrairement à l'approche basée sur le calcul fréquentiel décrite ci-après. La seconde approche au sens de l'invention est basée sur un calcul de gain dans le domaine fréquentiel. Le deuxième mode de réalisation de l'invention vise le calcul direct de gain dans le domaine fréquentiel, correspondant à un post-filtre théorique. Dans le troisième mode de réalisation, toujours selon cette approche "fréquentielle", on utilise avantageusement un algorithme adaptatif fréquentiel, par exemple de type FLMS (pour "Frequency-domain Least Mean Squares") pour le calcul du post-filtre. Un algorithme de ce type est décrit notamment dans :
"Fast implementation of LMS adaptive filter" , E.R. Ferrara, IEEE Trans.
Acoustics Speech and Signal Processing, vol. ASSP-28, pages 474-475, août 1980.
Sur la figure 8, on a représenté une structure forward avec calcul du post-filtre par filtre égaliseur fréquentiel en boucle ouverte pour la mise en œuvre de l'invention selon le second mode de réalisation précité. On calcule ici le gain fréquentiel G(ω,k) qui est utilisé pour faire une égalisation en amplitude (et non pas en phase) du signal de sortie de la structure de séparation W1 (n) . Ce gain est calculé à partir du signal de sortie non égalisé et du signal de mélange. Il vise à restituer, pour chaque composante spectrale du signal de sortie, la même amplitude que l'amplitude correspondante de la composante du signal de parole présent dans le signal de mélange p\(n ) . Les densités spectrales de puissance des signaux W1 (n) et p\ (n) sont estimées ici au moyen d'une formule de calcul récursif du premier ordre à partir du calcul de leurs transformées de Fourier rapide (ou « FFT »). Le calcul du gain fréquentiel est réalisé par la formule suivante:
Figure imgf000016_0001
où les deux quantités DSP _signal et DSP _hw représentent les densités spectrales de puissance estimées à partir du signal original bruité p\ (n) et, respectivement, du signal filtré exempt de bruit W1 Oi) sur une fenêtre de plusieurs échantillons (ou "trame" k). Avantageusement, la densité spectrale de puissance du signal original est calculée pendant les périodes d'activité vocale en retranchant la densité spectrale de puissance du bruit qui, elle, est estimée pendant les périodes de non activité vocale, à la densité spectrale de puissance du signal de mélange W1 (n) . On exploite donc la propriété de l'intermittence du signal de parole pour estimer les différentes densités de puissance de la structure. Le signal de parole en sortie de cette structure est récupéré après la modification de chaque composante fréquentielle du signal W1 U) par le gain fréquentiel G(ω,k) . Ce signal est enfin restitué dans le domaine temporel suite à une transformée de Fourier inverse et une reconstruction classique, par exemple de type "overlap-save" décrite notamment dans la référence Ferrara (1980) donnée précédemment.
On comprendra que la bonne estimation du signal en sortie de cette structure est basée sur la bonne estimation du signal de parole (calcul de sa densité spectrale de puissance). Pour ce faire et pour bien synchroniser les signaux à l'entrée de l'égaliseur, le signal de mélange peut avantageusement être retardé par un retard D (module z~D des figures 8 et 9). Il est donc préférable de s'assurer du réglage correct du paramètre de retard D pour le bon fonctionnement de cette structure au sens de l'invention. Typiquement, ce paramètre D peut être réglé à la moitié de la taille de la réponse impulsionnelle du post-filtre.
Le troisième mode de réalisation est décrit ci-après en référence à la figure 9, présentant une structure forward avec calcul du post-filtre, par filtrage adaptatif fréquentiel. Ce mode de réalisation est basé sur l'utilisation d'un algorithme adaptatif pour l'actualisation des coefficients du gain G{ω,k) , calculé dans le domaine fréquentiel. Les signaux étant échantillonnés par trames successives, pour chaque trame de signal k, on prévoit une équation du type :
G(ω,k) = G(ω,k -l) + μ(ω,k)E(ω,k)Uι (ω,k) , où :
- le terme G(ω,k -Ï) est le gain calculé pour une trame k-l, précédant la trame courante k,
- E(ω,k) est l'erreur de filtrage fréquentiel calculée sur chaque trame k, donnée par
E(<o,k) = Pι (<o,k)- G(<o,k)Uι (<o,k) ,
- la notation E* symbolise ici le nombre complexe conjugué de la variable E,
- et les notations P[ (ω,k) et Uι (ω,k) représentent les composantes fréquentielles du signal de mélange et, respectivement, du signal de sortie de la structure de séparation de source forward sans post-filtre.
Le calcul du pas d'adaptation μ(ω,fc) , à chaque trame, est typiquement réalisé suivant une fonction qui suit les règles et les principes classiques de réduction de bruit. Il peut s'agir d'une estimation de rapport de densités spectrales de puissance respectives de signal utile et de bruit. Plus particulièrement, cette fonction est basée sur le calcul des composantes de rapport signal sur bruit de chaque raie de fréquence. Dans une réalisation particulière, la fonction de Wiener est utilisée pour le calcul du pas μ(ω,k) comme suit :
RSB io (ω,k) ^'k) = ι+RSBpnMkY (10) où la quantité RSBprio représente le rapport signal à bruit, a priori, qui est défini par le rapport entre l'estimation de la densité spectrale de puissance du signal de parole nettoyé du bruit et la densité spectrale de puissance estimée du bruit. Ce rapport signal à bruit est donné donc par une formule du type :
DSP_signal(ω,k) RSBprio (ω,k) =
DSP _bruit(ω,k)\ L'utilisation d'un pas d'adaptation variable en fonction du rapport signal à bruit tel que défini dans l'équation (10) est avantageuse car elle permet une convergence robuste du filtre adaptatif fréquentiel et lui permet aussi de corriger la distorsion du signal de parole.
Le signal en sortie de cette structure, en utilisant cette approche de filtrage adaptatif, est obtenu par la relation Si (<o,k) = G(<o,k)Uι (<o,k),
Là encore, le traitement "overlap-save" peut être appliqué pour la reconstruction du signal de sortie temporel noté S1 (n - D) sur la figure 9.
Selon les essais réalisés, le troisième mode de réalisation s'est avéré le plus robuste aux imprécisions dans les calculs des densités spectrales de puissance de tous les signaux qui interviennent dans le calcul du filtre. Ainsi, ce troisième mode de réalisation permet de récupérer un signal proche du signal initial, ce qui a été confirmé d'ailleurs par des écoutes subjectives.
Ainsi, l'invention, visant le débruitage du signal de parole exploitant la structure de séparation de source forward, permet le calcul du post-filtre théorique quelle que soit la nature du post-filtre. Les réalisations présentées précédemment permettent de corriger les inconvénients de la structure forward qui produit une distorsion du signal de parole en sortie si elle n'est pas suivie du post-filtre.
La présente invention vise aussi un module d'acquisition sonore, notamment pour un équipement de télécommunication (par exemple un appareil de téléphonie fixe ou mobile) tel que représenté sur la figure 10. Le module d'acquisition sonore comporte au moins :
- un microphone MICl pour acquérir un signal comportant une composante utile et une composante de bruit, - un microphone MIC2 pour acquérir une référence de bruit sensiblement corrélée à la composante de bruit du signal d'entrée, et
- un dispositif de réduction de bruit FW au sens de l'invention pour délivrer un signal utile su, exempt de bruit et sans distorsion.
Le signal comportant la composante utile est appliqué en tant que signal d'entrée de la voie comportant le post-filtrage adaptatif au sens de l'invention, et la référence de bruit est appliquée en tant que signal d'entrée dans l'autre voie de la structure forward du dispositif de réduction de bruit.
Préférentiellement, les deux signaux ainsi acquis (celui incluant la composante de bruit précitée et celui correspondant à la référence de bruit) comportent des versions respectives de bruit sensiblement corrélées.
La présente invention vise aussi un procédé de réduction de bruit dans au moins un signal, dans lequel on prévoit une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit W12 (z) , W21 (z) sur deux signaux d'entrée
P1 (n) , p2 (n) , pour délivrer deux signaux filtrés M1 (w) , u2 (n) , le signal M1 («) étant réduit en bruit. En sortie d'au moins une voie choisie parmi les deux voies de la structure forward, on applique un post-filtrage avec un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée pγ (n) de ladite voie choisie, pour réduire une distorsion sur le signal filtré M1 {n) de cette voie choisie.
On a représenté sur la figure 11 les étapes du procédé pour le deuxième et pour le troisième mode de réalisation décrits ci-avant. Sous le contrôle d'une détection d'activité vocale DAV (étape SlOO), on calcule les densités spectrales de puissance DSP (étape SlOl) permettant d'évaluer le rapport signal sur bruit (étape S 102) et, de là, le gain G(ω,k) (étape S103). Dans les deuxième et troisième modes de réalisation décrits ci-avant, on calcule un gain fréquentiel G(ω,k) (étape S103), en exploitant le rapport signal sur bruit précité et, plus particulièrement, le rapport des densités spectrales de puissances DSP respectives. Pour réaliser cette étape SlOl de calcul des densités spectrales de puissances DSP, le signal d'entrée original p\(n) et le signal filtré W1(W) sont ramenés dans le domaine des fréquences. A cet effet, on applique un retard D au signal d'entrée original p\(n) (étape S104), puis on ramène le signal retardé dans le domaine des fréquences par application d'une FFT (étape S 105). On ramène aussi le signal filtré, exempt de bruit, W1(^z) dans le domaine des fréquences par application d'une FFT (étape S106). Une fois le gain calculé G(ω,k) (étape S103), par la technique du second mode de réalisation (égalisation fréquentielle) ou par la technique du troisième mode de réalisation (adaptation fréquentielle), on applique le gain au signal filtré et exprimé dans le domaine des fréquences W1 (^) (étape S107 dans le second comme dans le troisième mode de réalisation). Toutefois, dans le troisième mode de réalisation (illustré par des traits pointillés), on prévoit en outre une soustraction (étape S 108) du signal d'origine P1 (Co) exprimé dans le domaine des fréquences, pour réaliser schématiquement l'adaptation du filtrage. Finalement, le signal Su ainsi filtré est ramené dans le domaine temporel par une FFT inverse (étape S 109).
Dès lors que les signaux d'entrée peuvent être numériques, un processeur d'un dispositif de réduction de bruit, judicieusement programmé, peut mettre en œuvre les étapes du procédé. A ce titre, la présente invention vise aussi un programme informatique, destiné à être exécuté par un tel processeur, et comportant des instructions pour la mise en œuvre du procédé. La figure 11 peut illustrer l'organigramme d'un tel programme informatique.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci- avant à titre d'exemple ; elle s'étend à d'autres variantes. Ainsi, même si deux voies seulement sont représentées dans les structures forward des figures 7 à 9, on comprendra qu'il est possible de prévoir une structure forward comportant plus de deux voies et/ou plus d'un post-filtrage adaptatif au sens de l'invention. Par ailleurs, le post- filtrage wP2(z) sur la voie de la référence de bruit des figures 7 à 9 n'est pas nécessaire pour la mise en œuvre de l'invention et pourrait être supprimé.

Claims

Revendications
1. Dispositif de réduction de bruit dans au moins un signal, comportant :
- une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit (w12 (z) , w21 (z) ) sur deux signaux d'entrée ( py (n) , p2 (n) ), pour délivrer deux signaux filtrés et réduits en bruit (M1 (n) , w2 (n) ), et au moins un post- filtre (PFl) en sortie d'une voie choisie parmi les deux voies, pour réduire une distorsion sur le signal filtré ( W1 (w) ) de ladite voie choisie, caractérisé en ce que le post-filtre (PFl) comporte un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée ( pγ {n) ) de ladite voie choisie.
2. Dispositif selon la revendication 1, caractérisé en ce que les deux signaux d'entrée ( P1 {n) , p2 (n) ) comportent des versions respectives de bruit sensiblement corrélées.
3. Dispositif selon la revendication 2, caractérisé en ce que le signal d'entrée ( pγ {n) ) de ladite voie choisie comporte une composante utile, tandis que le signal d'entrée ( p2 {n) ) de l'autre voie de la structure forward comporte une référence de bruit.
4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte une rétroaction d'adaptation par filtrage adaptatif temporel selon une comparaison récurrente basée sur la différence entre le signal de sortie ( sγ {n) ) et le signal d'entrée ( pγ {n) ) de ladite voie choisie.
5. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte un moyen d'adaptation par filtrage égaliseur fréquentiel en boucle ouverte selon une comparaison basée sur un rapport de densités spectrales de puissance, respectivement entre le signal filtré ( W1 («) ) et le signal d'entrée ( pγ (n) ) de ladite voie choisie, ramenés dans le domaine des fréquences.
6. Dispositif selon la revendication 5, dans lequel les signaux d'entrée sont échantillonnés par trames k successives, caractérisé en ce que le filtrage égaliseur fréquentiel met en œuvre le calcul d'un gain G(ω,k) donné, pour une trame courante k, par une formule du type :
Figure imgf000024_0001
où les quantités DSP _signal et DSP _hw représentent les densités spectrales de puissance estimées respectivement à partir du signal d'entrée ( pγ (n) ) et du signal filtré (M1 {n) ) de ladite voie choisie, pour la trame courante k.
7. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte une rétroaction d'adaptation par filtrage adaptatif fréquentiel selon une comparaison récurrente basée sur la différence entre le signal de sortie ( ^ (w) ) et le signal d'entrée ( P1 {n) ), ramenés dans le domaine des fréquences.
8. Dispositif selon la revendication 7, dans lequel les signaux d'entrée sont échantillonnés par trames successives, caractérisé en ce que le filtrage adaptatif fréquentiel met en œuvre le calcul récursif d'un gain G(ω,k) donné par une formule
du type G(ω,k) = G(ω,k -ï) + μ[ω,k)E(^ω,k)Uι [ω,k) , où : - le terme G(ω,k -l) est le gain calculé pour une trame k-l, précédant une trame courante k, - le terme μ(ω,k) est un pas d'adaptation calculé pour chaque trame courante k en fonction d'une estimation de rapport de densités spectrales de puissance respectives de signal utile et de bruit pour ladite voie choisie, - la notation E^ω,k) symbolise ici le complexe conjugué du terme E(ω,k) , ce terme E(ω,k) représentant une erreur de filtrage fréquentiel sur la trame courante k, donnée par une formule du type :
E(ω,fc) = P[ (ω, k)~ G((o,k)Uι ((o, k) , où les notations P[ ((o,k) et Uι ((o,k) représentent des composantes fréquentielles du signal d'entrée et, respectivement, du signal filtré de ladite voie choisie.
9. Dispositif selon l'une des revendications 5 à 8, les signaux d'entrée étant des signaux de parole, caractérisé en ce qu'il comporte un module de détection d'activité vocale (DAV) pour autoriser le calcul de la densité spectrale de puissance de bruit pendant des phases de non-activité vocale et autoriser le calcul de la densité spectrale de puissance de signal utile pendant les phases d'activité vocale.
10. Dispositif selon l'une des revendications 5 à 9, caractérisé en ce que le post-filtre comporte un module ( z~D ) appliquant un retard choisi au signal d'entrée de la voie choisie ( pγ (n) ) pour déterminer ladite comparaison faisant intervenir le signal d'entrée
11. Dispositif selon la revendication 10, caractérisé en ce que le post-filtre est un filtre à réponse finie de longueur donnée, et en ce que le retard (D) appliqué au signal d'entrée est choisi pour correspondre sensiblement à la moitié de la longueur du postfiltre.
12. Module d'acquisition sonore, comprenant au moins : - un microphone pour acquérir un signal comportant une composante utile et une composante de bruit,
- et un microphone pour acquérir une référence de bruit sensiblement corrélée à ladite composante de bruit, caractérisé en ce qu'il comporte un dispositif de réduction de bruit selon l'une des revendications précédentes, dans lequel :
- le signal comportant la composante utile est appliqué en tant que signal d'entrée de la voie choisie du dispositif de réduction de bruit, et - la référence de bruit est appliquée en tant que signal d'entrée dans l'autre voie du dispositif de réduction de bruit.
13. Equipement de télécommunication, caractérisé en ce qu'il comporte un module d'acquisition sonore selon la revendication 12.
14. Procédé de réduction de bruit dans au moins un signal, dans lequel on prévoit une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit ( w12 (z) , w21 (z) ) sur deux signaux d'entrée ( /J1 (^) , /?2 («) ), pour délivrer deux signaux filtrés (M1 (n) , M2 (n) ), dont l'un (u\(n)), est réduit en bruit, caractérisé en ce que, en sortie d'au moins une voie choisie parmi les deux voies de la structure forward, on applique un post- filtrage avec un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée ( P1 {n) ) de ladite voie choisie, pour réduire une distorsion sur le signal filtré (M1 {n) ) de ladite voie choisie.
15. Programme informatique, destiné à être exécuté par un processeur d'un dispositif de réduction de bruit, caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon la revendication 14.
PCT/FR2007/052010 2006-09-28 2007-09-26 Reduction de bruit et de distorsion dans une structure de type forward WO2008037925A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP07823855A EP2078301A1 (fr) 2006-09-28 2007-09-26 Reduction de bruit et de distorsion dans une structure de type forward

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0608525 2006-09-28
FR0608525 2006-09-28

Publications (1)

Publication Number Publication Date
WO2008037925A1 true WO2008037925A1 (fr) 2008-04-03

Family

ID=38093418

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/052010 WO2008037925A1 (fr) 2006-09-28 2007-09-26 Reduction de bruit et de distorsion dans une structure de type forward

Country Status (2)

Country Link
EP (1) EP2078301A1 (fr)
WO (1) WO2008037925A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010068455A1 (fr) * 2008-11-25 2010-06-17 Qualcomm Incorporated Procédés et appareil pour atténuer le bruit ambiant à l’aide de signaux audio multiples
US8184816B2 (en) 2008-03-18 2012-05-22 Qualcomm Incorporated Systems and methods for detecting wind noise using multiple audio sources

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095666A2 (fr) * 2000-06-05 2001-12-13 Nanyang Technological University Systeme de microphone antibruit directionnel adaptatif
WO2004008731A1 (fr) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Suppresseur d'echo a compensation de mesappariement de modeles
US20040086137A1 (en) * 2002-11-01 2004-05-06 Zhuliang Yu Adaptive control system for noise cancellation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095666A2 (fr) * 2000-06-05 2001-12-13 Nanyang Technological University Systeme de microphone antibruit directionnel adaptatif
WO2004008731A1 (fr) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Suppresseur d'echo a compensation de mesappariement de modeles
US20040086137A1 (en) * 2002-11-01 2004-05-06 Zhuliang Yu Adaptive control system for noise cancellation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LE BOUQUIN JEANNES R ET AL: "How to improve acoustic echo and noise cancelling using a single talk detector", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 20, no. 3-4, December 1996 (1996-12-01), pages 191 - 202, XP004729884, ISSN: 0167-6393 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8184816B2 (en) 2008-03-18 2012-05-22 Qualcomm Incorporated Systems and methods for detecting wind noise using multiple audio sources
US8812309B2 (en) 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
WO2010068455A1 (fr) * 2008-11-25 2010-06-17 Qualcomm Incorporated Procédés et appareil pour atténuer le bruit ambiant à l’aide de signaux audio multiples
JP2012510090A (ja) * 2008-11-25 2012-04-26 クゥアルコム・インコーポレイテッド 複数のオーディオ信号を使用して、周囲ノイズを抑制するための方法および装置

Also Published As

Publication number Publication date
EP2078301A1 (fr) 2009-07-15

Similar Documents

Publication Publication Date Title
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP1830349B1 (fr) Procédé de débruitage d&#39;un signal audio
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP0806760B1 (fr) Procédé et dispositif de filtrage par égalisation d&#39;un signal de parole, mettant en oeuvre un modèle statistique de ce signal
EP0710947B1 (fr) Procédé et dispositif de suppression de bruit dans un signal de parole, et système avec annulation d&#39;écho correspondant
FR2831717A1 (fr) Methode et systeme d&#39;elimination d&#39;interference pour antenne multicapteur
WO2008049982A1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#39;mains libres&#39;
EP2131357A1 (fr) Système de contrôle automatique du gain appliqué à un signal audio en fonction du bruit ambiant
EP0932964A1 (fr) Procede et dispositif d&#39;egalisation aveugle des effets d&#39;un canal de transmission sur un signal de parole numerique
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
EP2494772A1 (fr) Procede et dispositif d&#39;annulation d&#39;echo acoustique par tatouage audio
EP0884926B1 (fr) Procédé et dispositif de traitement optimisé d&#39;un signal perturbateur lors d&#39;une prise de son
FR2906070A1 (fr) Reduction de bruit multi-reference pour des applications vocales en environnement automobile
EP2774147A1 (fr) Atténuation du bruit d&#39;un signal audio
WO2008037925A1 (fr) Reduction de bruit et de distorsion dans une structure de type forward
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
FR3009121A1 (fr) Procede de suppression de la reverberation tardive d&#39;un signal sonore
EP2515300B1 (fr) Procédé et système de réduction du bruit
FR2906071A1 (fr) Reduction de bruit multibande avec une reference de bruit non acoustique
WO2022079365A1 (fr) Procédé et dispositif pour une annulation d&#39;écho à pas variable
FR2790342A1 (fr) Procede et systeme de traitement d&#39;antenne
EP0824798B1 (fr) Filtrage adaptatif a sous-bandes
WO1999027523A1 (fr) Procede de reconstruction, apres debruitage, de signaux sonores
WO2010029247A1 (fr) Annulation de bruit a faible distorsion
Kim et al. Improved noise reduction with packet loss recovery based on post-filtering over IP networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07823855

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2007823855

Country of ref document: EP