WO2007099222A1 - Procede de debruitage d'un signal audio - Google Patents

Procede de debruitage d'un signal audio Download PDF

Info

Publication number
WO2007099222A1
WO2007099222A1 PCT/FR2007/000347 FR2007000347W WO2007099222A1 WO 2007099222 A1 WO2007099222 A1 WO 2007099222A1 FR 2007000347 W FR2007000347 W FR 2007000347W WO 2007099222 A1 WO2007099222 A1 WO 2007099222A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
speech
algorithm
noise
noisy
Prior art date
Application number
PCT/FR2007/000347
Other languages
English (en)
Inventor
Guillaume Pinto
Original Assignee
Parrot
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot filed Critical Parrot
Publication of WO2007099222A1 publication Critical patent/WO2007099222A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to the denoising of audio signals picked up by a microphone in a noisy environment.
  • the invention applies advantageously, but in a non-limiting manner, to the speech signals picked up by hands-free telephones or the like.
  • These devices include a sensitive microphone not only capturing the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go, in some cases, to make incomprehensible the speaker's words. It is the same if we want to implement voice recognition techniques, where it is very difficult to perform a form recognition on words embedded in a high noise level. This difficulty related to ambient noise is particularly restrictive in the case of devices "hands-free" for motor vehicles.
  • the large distance between the microphone and the speaker entails a high relative level of noise which makes it difficult to extract the useful signal embedded in the noise.
  • the highly noisy environment typical of the automotive environment has non-stationary spectral characteristics, that is to say, which evolve unpredictably according to the driving conditions: passing over deformed or par- , car radio in operation, etc.
  • WO-A-98/45997 uses the push-button activation of a telephone (for example when the driver wants to answer an incoming call) to detect the beginning of a speech signal and consider that the signal picked up prior to this support was essentially a noise signal. This last signal, memorized, is analyzed to give a weighted mean energy spectrum of the noise, then subtract from the noisy speech signal.
  • US-A-5,742,694 discloses another technique, implementing a predictive adaptive filter type mechanism.
  • This filter delivers a "reference signal” corresponding to the predicable part of the noisy signal and an "error signal” corresponding to the prediction error, then attenuates these two signals in variable proportions, and recombines them to provide a denoised signal.
  • the major disadvantage of this denoising technique lies in the significant distortion introduced by prefiltering, giving a very degraded signal output in terms of acoustic quality. It is also poorly suited to situations where it would require energetic denoising with a speech signal embedded in a noise of complex and unpredictable nature, with non-stationary spectral characteristics.
  • Still other techniques, called beamforming or double-phoning implement two separate microphones. The first is designed and placed to primarily capture the speaker's voice, while the other is designed and placed to capture a larger noise component than the main microphone. The comparison of the signals captured makes it possible to extract the voice of the ambient noise efficiently, and by relatively simple software means.
  • This technique based on a spatial coherence analysis of two signals, however, has the disadvantage of requiring two remote microphones, which generally confines it to fixed or semi-fixed installations and does not allow to integrate it into a pre-existing device by simply adding a software module. It also assumes that the speaker's position relative to the two microphones is approximately constant, which is generally the case in a car phone used by its driver. In addition, in order to obtain approximately satisfactory denoising, the signals are subjected to an important prefiltering, which again has the disadvantage of introducing distortions which degrade the quality of the denoised signal restored.
  • the invention relates to a technique for denoising audio signals picked up by a single microphone recording a voice signal in a noisy environment.
  • Many of the most effective methods used in single-microphone systems are based on the statistical model established by D. Malah and Y. Ephraim in:
  • these two articles provide an optimal solution to the problem of noise reduction described above.
  • This solution proposes to cut the noisy signal into independent frequency components by using the discrete Fourier transform, to apply an optimal gain on each of these components and then to recombine the signal thus treated.
  • the two articles differ on the choice of the criterion of opti- mality.
  • the applied gain is called the STSA gain and allows to minimize the mean squared distance between the estimated signal (at the output of the algorithm) and the original speech signal (non-noisy).
  • the application of a gain called gain LSA makes it possible to minimize the mean square distance between the logarithm of the amplitude of the estimated signal and the logarithm of the amplitude of the original speech signal.
  • This second criterion is superior to the first because the distance chosen is much better suited to the behavior of the human ear and therefore qualitatively gives better results.
  • the essential idea is to reduce the energy of the very noisy frequency components by applying a low gain while leaving intact (by the application of a gain equal to 1) those that are little or no at all.
  • this same process does not does not assess when the speaker's speech is present in the signal picked up. It simply assumes either that speech is always present, or that it is present a fixed portion of time, which can seriously limit the quality of noise reduction. It is therefore necessary to use another algorithm whose function is to evaluate the spectral power of the noise as well as the times when the speech of the speaker is present on the raw signal picked up. It even turns out that this estimate is the determining factor in the quality of the noise reduction performed, the algorithm of Ephraim and Malah being only the optimal way to use the information thus obtained.
  • the method described in this article is not intended to identify precisely on which frequency components of which frames the speech is absent, but rather to give a confidence index between 0 and 1, a value 1 indicating that speech is definitely absent (according to the algorithm) while a value of 0 declares the opposite.
  • this index is likened to the probability of absence of speech a priori, ie the probability that speech is absent on a given frequency component of the frame considered. This is of course a non-rigorous assimilation in the sense that even if the presence of speech is probabilistic ex ante, the signal picked up by the microphone can at any moment only go through two distinct states. It can either (at the moment considered) include speech or not contain it.
  • the analysis is based on the finding that the speech components are relatively weaker on the reference noise path, and that the transient noise components have approximately the same energy on both paths.
  • a probability of speech occurring for each spectrum segment of each frame is determined by calculating an energy ratio between the non-stationary components of the respective signals of the two channels.
  • One of the aims of the invention is to overcome the drawbacks of the methods proposed up to now, by means of an improved denoising method applicable to a speech signal considered in isolation, in particular a signal picked up by a single microphone. which is based on the analysis of the temporal coherence of the captured signals.
  • the starting point of the invention lies in the observation that speech generally has a temporal coherence greater than noise and that, as a result, it is clearly more predictable.
  • the invention proposes to use this property to calculate a reference signal where the speech has been more attenuated than the noise, by applying in particular a predictive algorithm which may for example be of the Least Mean Squares (LMS) type. middle squares).
  • LMS Least Mean Squares
  • This reference signal derived from the speech signal to be denoised may be used in a manner comparable to that of the signal of the second microphone of the beaming techniques.
  • two-way forming for example techniques similar to those of Cohen and Berdugo [4, supra].
  • the calculation of a ratio between the respective energy levels of the original signal and the reference signal thus obtained will make it possible to discriminate between the speech components and the nonstationary noise noises, and will provide an estimate of the probability of presence of speech of independently of any statistical model.
  • the technique proposed by the invention implements an "intelligent subtraction" implying, after a linear prediction performed on the passed samples of the original signal (and not a prefiltered signal, thus degraded), a registration phase between the original signal and the predicted signal.
  • the technique of the invention turns out, in practice, sufficiently powerful to provide extremely effective denoising directly on the original signal, freeing distortions introduced by a prefiltering chain, become unnecessary.
  • the present invention proposes, for the denoising of a noisy audio signal comprising a speech component combined with a noise component comprising itself a transient noise component and a pseudo-stationary noise component, to operate a temporal coherence analysis of the noisy signal by the steps of: a) determining a reference signal by applying to the noisy signal a processing that is able to more attenuate the speech components than the noise components of this noisy signal , said processing comprising: (a1) applying an adaptive linear prediction algorithm operating on a linear combination of the previous noisy signal samples, and (a2) determining said reference signal by subtraction, with compensation of the phase shift, between the noisy signal and the signal delivered by the linear prediction algorithm; b) determining a probability of presence / absence of speech a priori from the respective energy levels in the spectral range of the noisy signal and the reference signal; and c) using this probability of speech absence a priori to estimate a noise spectrum and derive from the noisy signal a noise-free estimate of the speech signal.
  • the reference signal may in particular
  • X (k, l) and Y (k, l) are the short-term Fourier transforms of each spectrum segment k of each frame /, respectively of the original noisy signal and the signal delivered by the linear prediction algorithm.
  • the predictive algorithm is advantageously a recursive adaptive algorithm of LMS mean least squares type.
  • Step b) advantageously comprises the application of an algorithm for estimating the energy of the pseudo-stationary noise component in the reference signal and in the noisy signal, in particular a recursive averaging type algorithm by control MRCA minima as described in:
  • step c) advantageously comprises the application of a variable gain algorithm depending on the presence / absence of speech probability, in particular an OM-LSA optimized modified log-spectral amplitude gain type algorithm.
  • FIG. 1 is a schematic diagram illustrating the various operations performed by a denoising algorithm according to the method of the invention.
  • Figure 2 is a schematic diagram illustrating more particularly the predictive algorithm LMS adaptive. DETAILED DESCRIPTION OF THE PREFERRED MODE OF IMPLEMENTATION
  • the signal to be de-noised is a sampled digital signal x (n), where n is the sample number (n is the time variable).
  • the captured signal x (n) is a combination of a speech signal s (n) and an additional noise, uncorrelated, d (n):
  • This noise d (n) has two independent components, namely a transient component d t (n) and a pseudo-stationary component d ps (n):
  • the noisy signal x (n) is applied as input to a predictive LMS algorithm schematized by block 10, including the application of appropriate delays 12.
  • a predictive LMS algorithm schematized by block 10 including the application of appropriate delays 12.
  • the short-term Fourier transform of the captured signal x (n) (block 16) and the signal y (n) delivered by the predictive LMS algorithm (block 14) are then calculated. From these two transforms is calculated a reference signal (block 18), which is one of the input variables of a calculation algorithm of the probability of no speech (block 24). Meanwhile, the noisy signal transform x (n), from block 16, is also applied to the probability calculation algorithm. Blocks 20 and 22 estimate the pseudo-stationary noise of the reference signal and the noisy signal transform is estimated, and the result is 0 also applied to the probability calculation algorithm.
  • the predictive algorithm LMS (block 10) is shown diagrammatically in FIG. 2.
  • the linear prediction y (n) of the signal x (n) is a linear combination of the previous samples ⁇ (n- ⁇ -i + i) ⁇ 1 i i S Sf :
  • M ytp Y ⁇ t ⁇ t ⁇ i - A - i + 1)
  • Wi (n + 1) nsi (n) + 2 ⁇ ) a; (n - ⁇ - * + 1) ⁇ being a gain constant which makes it possible to adjust the speed and the stability of the adaptation.
  • the respective signals x (n) and y (n) (noisy speech signal and linear prediction) are split into frames of identical lengths, and their short-term Fourier transform (denoted respectively X and Y). ) is calculated for each frame.
  • the algorithm predicts a 50% overlap between consecutive frames, and the samples are multiplied by the coefficients of the Hanning window so that the addition of even and odd fields corresponds to signal of origin proper.
  • JT (Jb 1 I) ⁇ h4p) a ⁇ + JOe - * 3 **
  • h being the Hanning window.
  • a first possibility is to define the reference signal by taking the Fourier transform of the prediction error:
  • the next step consists in delivering an estimate q (k, l) of the probability of absence of speech in the noisy signal:
  • the algorithm of the invention evaluates a ratio of the transient energies on the two paths, given by:
  • M being an estimator of the pseudo-stationary energy, which can be obtained for example by a method MCRA (Minima Controlled Recursive Averaging) of the same type as that described by Cohen and Berdugo [5, supra] (however, several alternatives exist in the literature). In the presence of speech but in the absence of transient noise, this ratio is approximately:
  • the constants L x and L Ref are transient detection thresholds. ⁇ . mm (k) and ⁇ max (k) are the upper and lower limits for each spectrum segment. These various parameters are chosen so as to correspond to typical situations, close to reality.
  • the next step (corresponding to block 26 of FIG. 1) consists in operating the actual denoising (reinforcement of the parament component).
  • the estimator just described will be applied to the statistical model described by Ephraim and Malah [2, supra], which assumes that the noise and speech in each spectrum segment are Gaussian processes independent of respective variances ⁇ x (k, l) and ⁇ d (k, l).
  • This step can advantageously implement the OM-LSA gain algorithm (Optimally Modified Log-Spectral Amplitude Gain) described by Cohen and Berdugo [3, cited above].
  • the signal / noise ratio a priori is defined by:
  • the signal-to-noise ratio a posteriori is defined by
  • conditional probability of signal presence is:
  • G H i being the gain in the hypothesis where speech is present, which is defined by:
  • the G min gain in the absence of speech hypothesis is a lower limit for noise reduction, in order to limit the distortion of speech.
  • the classical formula for estimating the signal / noise ratio a priori is:
  • the noise energy estimate is given by:
  • the smoothing parameter d d changes between a lower limit a ⁇ and 1, depending on the probability of conditional presence:
  • being an overestimation factor that compensates for bias in the absence of a signal.
  • the signal obtained at the end of this processing is subjected to an inverse Fourier transform (block 28) to give the final estimate of the speech disconnected.
  • the algorithm of the present invention is particularly effective in noisy environments, parasitized by both mechanical noises, vibrations, etc. as well as by musical noises, characteristic situations encountered in the interior of a car. Spectroscopy grams show that the attenuation of noise is not only effective, but is done without significant distortion of speech after denoising.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

Ce procédé est un procédé d'analyse de cohérence temporelle du signal bruité comprenant les étapes consistant à : a) déterminer, à partir du signal bruité, un signal de référence en appliquant au signal bruité un traitement (10, 18) propre à atténuer de façon plus importante les composantes de parole que la composante de bruit, notamment au moyen d'un algorithme prédictif récursif adaptatif de type LMS; b) déterminer (24) une probabilité de présence/absence de parole à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence, et c) dériver (26) du signal bruité une estimée débruitée du signal de parole en fonction de la probabilité de présence/absence de parole ainsi déterminée.

Description

Procédé de débruitage d'un signal audio
CONTEXTE DE L'INVENTION
Domaine de l'invention La présente invention concerne le débruitage des signaux audio captés par un microphone dans un environnement bruité. L'invention s'applique avantageusement, mais de façon non limitative, aux signaux de parole captés par les appareils téléphoniques de type "mains- libres" ou analogues. Ces appareils comportent un microphone sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur. Il en est de même si l'on veut mettre en œuvre des techniques de recon- naissance vocale, où il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé. Cette difficulté liée au bruit ambiant est particulièrement contraignante dans le cas des dispositifs "mains-libres" pour véhicules automobiles. En particulier, la distance importante entre le microphone et le locuteur en- traîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non station- naires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pa- vées, autoradio en fonctionnement, etc.
Description de la technique apparentée
Diverses techniques ont été proposées pour réduire le niveau de bruit du signal capté par un microphone. Par exemple, le WO-A-98/45997 (Parrot SA) utilise l'appui sur le bouton- poussoir d'activation d'un téléphone (par exemple lorsque le conducteur veut répondre à un appel entrant) pour détecter le début d'un signal de parole et considérer que le signal capté antérieurement à cet appui était essentiellement un signal de bruit. Ce dernier signal, mémorisé, est analy- se pour donner un spectre énergétique moyen pondéré du bruit, puis soustrait du signal de parole bruité.
Le US-A-5 742 694 décrit une autre technique, mettant en œuvre un mécanisme de type filtre adaptatif prédictif. Ce filtre délivre un "signal de ré- férence" correspondant à la partie prédictible du signal bruité et un "signal d'erreur" correspondant à l'erreur de prédiction, puis atténue ces deux signaux dans des proportions variables, et les recombine pour fournir un signal débruité. L'inconvénient majeur de cette technique de débruitage réside dans la distorsion importante introduite par le préfiltrage, donnant en sortie un signal très dégradé sur le plan de la qualité acoustique. Elle est en outre mal adaptée aux situations où l'on aurait besoin d'un débruitage énergique avec un signal de parole noyé dans un bruit de nature complexe et imprévisible, avec des caractéristiques spectrales non stationnaires. D'autre techniques encore, dites beamforming ou double-phoning, mettent en œuvre deux microphones distincts. Le premier est conçu et placé pour capter principalement la voix du locuteur, tandis que l'autre est conçu et placé pour capter une composante de bruit plus importante que le microphone principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant de manière efficace, et par des moyens logiciels relativement simples.
Cette technique, fondée sur une analyse de cohérence spatiale de deux signaux, présente cependant l'inconvénient de nécessiter deux microphones distants, ce qui la cantonne généralement à des installations fixes ou semi-fixes et ne permet pas de l'intégrer à un dispositif préexistant par simple adjonction d'un module logiciel. Elle présuppose aussi que la position du locuteur par rapport aux deux microphones soit à peu près constante, ce qui est généralement le cas dans un téléphone de voiture utilisé par son conducteur. De plus, pour obtenir un débruitage à peu près satis- faisant, les signaux sont soumis à un préfiltrage important ce qui présente, ici encore, l'inconvénient d'introduire des distorsions venant dégrader la qualité du signal débruité restitué.
L'invention concerne une technique de débruitage des signaux audio captés par un microphone unique enregistrant un signal de voix dans un envi- ronnement bruité. Une part importante des méthodes les plus efficaces mises en œuvre dans les système à un seul microphone se fondent sur le modèle statistique établi par D. Malah et Y. Ephraim dans :
[1] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE
Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No 6, pp. 1109-1121, Dec. 1984, et [2] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transac- tions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33,
No 2, pp. 443-445, April 1985.
Faisant l'approximation que la parole et le bruit sont des processus gaus- siens non corrélés et présupposant que la puissance spectrale du bruit soit une donnée connue, ces deux articles donnent une solution optimale au problème de réduction de bruit décrit plus haut. Cette solution propose de découper le signal bruité en composantes fréquentielles indépendantes par l'utilisation de la transformée de Fourièr discrète, d'appliquer un gain optimal sur chacune de ces composantes puis de recombiner le signal ainsi traité. Les deux articles divergent sur le choix du critère d'opti- malité. Dans [1], le gain appliqué est nommé gain STSA et permet de minimiser la distance quadratique moyenne entre le signal estimé (à la sortie de l'algorithme) et le signal de parole originel (non bruité). Dans [2], l'application d'un gain nommé gain LSA permet quant à elle de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole original. Ce second critère se montre supérieur au premier car la distance choisie est en bien meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des composantes fréquentielles très bruités en leur appliquant un gain faible tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout. Bien que séduisant puisque soutenu par une démonstration mathématique rigoureuse, ce procédé ne peut toutefois pas être mis en œuvre tout seul. En effet, comme indiqué plus haut, la puissance spectrale du bruit est inconnue et imprévisible ex ante. De plus, ce même procédé ne pro- pose pas d'évaluer à quels moments la parole du locuteur est présente dans le signal capté. Il se contente simplement de supposer soit que la parole est toujours présente, soit qu'elle est présente une portion fixe du temps, ce qui peut limiter sérieusement la qualité de la réduction de bruit. II est donc nécessaire d'utiliser un autre algorithme ayant pour fonction d'évaluer la puissance spectrale du bruit ainsi que les instants où la parole du locuteur est présente sur le signal brut capté. Il s'avère même que cette estimation constitue le facteur déterminant de la qualité de la réduction de bruit opérée, l'algorithme d'Ephraim et Malah n'étant que la ma- nière optimale d'utiliser l'information ainsi obtenue.
C'est une solution originale à ce double problème d'évaluation du bruit et des instants de présence du signal de parole qu'apporte la présente invention. Ces deux questions sont en réalité intrinsèquement liées. En effet suppo- sons que le signal brut capté est découpé en trames de longueurs égales, dont on calcule pour chacune la transformée de Fourier à court terme. Pour une composante fréquentielle donnée, la connaissance des indices des trames où la parole est absente permet d'évaluer la puissance du bruit ainsi que son évolution au cours du temps sur ce segment du spec- tre. Il suffit en effet de mesurer l'énergie du signal brut lorsque la parole est abseηte et de faire une moyenne continuellement mise à jour de ces mesures. La question principale est donc de savoir quand exactement la parole du locuteur est absente du signal capté par le microphone. Si le bruit est stationnaire ou pseudo-stationnaire, ce problème peut être aisément résolu en déclarant que la parole est absente dans un segment de spectre d'une trame donnée lorsque l'énergie spectrale des données pour ce segment de spectre n'a pas évolué ou a peu évolué par rapport aux dernières trames. Inversement, on déclare que la parole est présente en cas de comportement non stationnaire. Toutefois, dans une environnement réel, a fortiori un environnement automobile dont on a indiqué plus haut que le bruit comportait de nombreuses caractéristiques spectrales non stationnaires, ce procédé est aisément pris en défaut, dans la mesure où aussi bien la parole que le bruit peuvent présenter des comportement transitoires. Or, si l'on décide de conserver toutes les composantes transitoires, il restera du bruit musical résiduel dans les données débruitées ; inversement, si l'on décide de supprimer les composantes transitoires en deçà d'un seuil énergétique donné, les composantes faibles de la parole seront alors effacées, alors que ces composantes peuvent être importantes, tant pour leur contenu informatif que pour l'intelligibilité générale (faible distorsion) du signal dé- bruité restitué après traitement.
À cet égard, diverses méthodes ont été proposées. Parmi les plus efficaces, on peut citer celle décrite par :
[3] I. Cohen et B. Berdugo, Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, Elsevier, Vol. 81 , pp. 2403-
2418, 2001,
Comme fréquemment dans le domaine, le procédé décrit dans cet article n'a pas pour objectif d'identifier précisément sur quelles composantes fré- quentielles de quelles trames la parole est absente, mais plutôt de donner un indice de confiance entre 0 et 1 , une valeur 1 indiquant que la parole est absente à coup sûr (selon l'algorithme) tandis qu'une valeur 0 déclare le contraire. De par sa nature, cet indice est assimilé à la probabilité d'absence de la parole a priori, c'est à dire la probabilité que la parole soit absente sur une composante fréquentielle donnée de la trame considé- rée. Il s'agit bien sûr d'une assimilation non rigoureuse dans le sens que même si la présence de la parole est probabiliste ex ante, le signal capté par le microphone ne peut à chaque instant que passer par deux états distincts. Il peut soit (à l'instant considéré) comporter de la parole soit ne pas en contenir. Toutefois cette assimilation donne de bons résultats en pratique ce qui justifie son utilisation. Afin d'estimer cette probabilité d'absence, Cohen et Berdugo utilisent des moyennes sur des rapports signal à bruit a priori eux mêmes utilisés et calculés dans l'algorithme d'Ephraim et Malah. Ces auteurs décrivent également la technique dite de gain OM- LSA (Optimally-Modified Log-Spectral Amplitude), visant à améliorer le gain LSA par l'intégration de cette probabilité d'absence de la parole.
Cette estimation de la probabilité a priori d'absence de la parole se révèle efficace, mais dépend directement du modèle statistique élaboré par Ephraim et Malah et non d'une connaissance a priori des données. Pour obtenir une estimée de la probabilité d'absence qui soit indépendante de ce modèle statistique, Cohen et Berdugo ont proposé dans : [4] I. Cohen et B. Berdugo, Two Channel Signal Détection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong Kong, pp. 233-236, April 2003, de calculer la probabilité d'absence à partir de signaux captés par deux microphones différemment placés, donnant des signaux respectifs sur deux voies différentes, dont la combinaison permet d'obtenir une voie dite de sortie et une voie dite de bruit de référence. L'analyse est basée sur la constatation que les composantes de parole sont relativement plus faibles sur la voie de bruit de référence, et que les composantes de bruit transitoire présentent à peu près la même énergie sur les deux voies. Une probabilité de présence de parole pour chaque segment de spectre de chaque trame est déterminée en calculant un ratio d'énergie entre les compo- santés non stationnaires des signaux respectifs des deux voies.
Mais, comme pour les techniques de beamforming ou double-phoning évoquées plus haut, ce procédé est assez contraignant dans la mesure où il nécessite deux microphones.
RÉSUMÉ DE L'INVENTION
L'un des buts de l'invention est de remédier aux inconvénients des méthodes proposées jusqu'à présent, grâce à un procédé perfectionné de débruitage applicable à un signal de parole considéré isolément, notam- ment un signal capté par un microphone unique, procédé qui soit basé sur l'analyse de la cohérence temporelle des signaux captés. Le point de départ de l'invention réside dans la constatation que la parole présente généralement une cohérence temporelle supérieure au bruit et que, de ce fait, elle est nettement plus prédictible. Essentiellement, l'in- vention propose d'utiliser cette propriété pour calculer un signal de référence où la parole aura été plus atténuée que le bruit, en appliquant notamment un algorithme prédictif qui pourra par exemple être de type LMS (Least Mean Squares, moindres carrés moyens). Ce signal de référence dérivé du signal de parole à débruiter pourra être utilisé de façon compa- rable à celle du signal du second microphone des techniques de beam- forming à deux voies, par exemple des techniques semblables à celles de Cohen et Berdugo [4, précité]. Le calcul d'un ratio entre les niveaux d'énergie respectifs du signal originel et du signal de référence ainsi obtenu permettra de discriminer entre les composantes de parole et les bruits parasites non stationnaires, et fournira une estimation de la probabilité de présence de parole de façon indépendante de tout modèle statistique. En d'autres termes, la technique proposée par l'invention met en œuvre une "soustraction intelligente" impliquant, après une prédiction linéaire opérée sur les échantillons passés du signal originel (et non d'un signal préfiltré, donc dégradé), un recalage de phase entre le signal originel et le signal prédit.
La technique de l'invention s'avère, en pratique, suffisamment performante pour assurer un débruitage extrêmement efficace directement sur le signal originel, en s'affranchissant de distorsions introduites par une chaîne de préfiltrage, devenue inutile.
Plus précisément, la présente invention propose, pour le débruitage d'un signal audio bruité comportant une composante de parole combinée à une composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo-stationnaire, d'opérer une analyse de cohérence temporelle du signal bruité par les étapes de : a) détermination d'un signal de référence par application au signal bruité d'un traitement propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant : (ai) l'application d'un algorithme de pré- diction linéaire adaptatif opérant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et (a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité et le signal délivré par l'algorithme de prédiction linéaire ; b) détermination d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver du signal bruité une estimée débrui- tée du signal de parole. Le signal de référence peut notamment être déterminé par application à l'étape a2) d'une relation du type :
Figure imgf000010_0001
où X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame /, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire. L'algorithme prédictif est avantageusement un algorithme adaptatif récur- sif de type moindres carrés moyens LMS.
L'étape b) comprend avantageusement l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité, notamment un algorithme de type à moyennage récursif par contrôle des minima MRCA comme dé- crit dans :
[5] I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp. 12-15, Jan. 2002, L'étape c) comprend avantageusement l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole, notamment un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
DESCRIPTION SOMMAIRE DES DESSINS
On va maintenant décrire un exemple de mise en œuvre de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnelle- ment semblables. La figure 1 est un diagramme schématique illustrant les différentes opérations effectuées par un algorithme de débruitage conformément au procédé de l'invention.
La figure 2 est un diagramme schématique illustrant plus particulièrement l'algorithme prédictif LMS adaptatif. DESCRIPTION DÉTAILLÉE DU MODE DE MISE EN ŒUVRE PREFERE
Le signal que l'on souhaite débruiter est un signal numérique échantillon- 5 né x(n), où n désigne le numéro de l'échantillon (n est donc la variable temporelle).
Le signal capté x(n) est une combinaison d'un signal de parole s(n) et d'un bruit surajouté, non corrélé, d(n) :
Q x{n) = ${n) + d(n)
Ce bruit d(n) a deux composantes indépendantes, à savoir une composante transitoire dt(n) et une composante pseudo-stationnaire dps(n) :
g <£(n) = dt(n} +- âps(n)
Comme illustré sur la figure 1 , le signal bruité x(n) est appliqué en entrée d'un algorithme LMS prédictif schématisé par le bloc 10, incluant l'application de retards appropriés 12. Le fonctionnement de cet algorithme LMS 0 sera décrit plus bas, en référence à la figure 2.
On calcule ensuite la transformé de Fourier à court terme du signal capté x(n) (bloc 16), ainsi que du signal y(n) délivré par l'algorithme LMS prédictif (bloc 14). À partir de ces deux transformées est calculé un signal de référence (bloc 18), qui constitue l'une des variables d'entrée d'un algo- 5 rithme de calcul de la probabilité d'absence de parole (bloc 24). Parallèlement, la transformée du signal bruité x(n), issue du bloc 16, est également appliquée à l'algorithme de calcul de probabilité. Les blocs 20 et 22 estiment le bruit pseudo-stationnaire du signal de référence et de la transformée du signal bruité est estimé, et le résultat est 0 également appliqué à l'algorithme de calcul de probabilité.
Le résultat du calcul de probabilité d'absence de parole, ainsi que la transformée du signal bruité, sont appliqués en entrée d'un algorithme de traitement de gain OM-LSA (bloc 26), dont le résultat est soumis à une transformation inverse de Fourier (bloc 28) pour donner une estimée de la pa- 5 rôle débruitée. On va maintenant décrire plus en détail les différentes phases de ce traitement.
L'algorithme prédictif LMS (bloc 10) est schématisé sur la figure 2. Dans la mesure où les signaux en présence sont globalement non sta- tionnaires mais localement pseudo-stationnaires, on peut avantageusement utiliser un système adaptatif, qui pourra tenir compte des variations d'énergie du signal dans le temps et converger vers les divers optima locaux. Essentiellement, si l'on applique des retards successifs Δ, la prédiction linéaire y(n) du signal x(n) est une combinaison linéaire des échantillons antérieurs {χ(n-Δ-ï+i)}1≤i≤Sf :
M ytp) = Y^ tβtφi - A - i + 1)
qui minimise l'erreur quadratique moyenne de l'erreur de prédiction :
La minimisation consiste à trouver :
M
Σ -4+1) 1=1
Pour résoudre ce problème, il est possible d'utiliser un algorithme LMS, qui est un algorithme en lui-même connu, décrit par exemple dans : [6] B. Widrow, Adaptative Filters, Aspect of Network and System The- ory, R. E. Kalman and N. De Claris (Eds). New York: HoIt, Rinehart and Winston, pp. 563-587, 1970, et
[7] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975. On peut définir un procédé récursif d'adaptation des pondérations.
Wi (n + 1) = nsi(n) + 2μφ)a;(n - Δ - * + 1) μ étant une constante de gain qui permet d'ajuster ia vitesse et la stabilité de l'adaptation.
On pourra trouver des indications générales sur ces aspects de l'algorithme LMS dans : [8] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-
HaII Signal Processing Séries, Alan V. Oppenheim Séries Editor, 1985.
On peut démontrer qu'une telle prédiction linéaire adaptative permet de discriminer efficacement entre bruit et parole car les échantillons conte- nant de la parole seront bien mieux prédits (plus petites erreurs quadratiques entre la prédiction et le signal brut) que ceux ne contenant que du bruit.
Plus précisément, les signaux respectifs x(n) et y(n) (signal de parole brui- tée et prédiction linéaire) sont découpés en trames de longueurs identi- ques, et leur transformée de Fourier à court terme (notées respectivement X et Y) est calculée pour chaque trame. Pour éviter les effets des erreurs de précision, l'algorithme prévoit un recouvrement de 50% entre trames consécutives, et les échantillons sont multipliés par les coefficients de la fenêtre de Hanning de manière que l'addition des trames paires et impai- res corresponde au signal d'origine proprement dit. Pour le segment de spectre k d'une trame / paire, on a :
p=l
Et pour le segment de spectre k d'une trame / impaire
JT(Jb1I) = ∑h4p)aφ +JOe--*3**
J=I
h étant la fenêtre de Hanning. Une première possibilité consiste à définir le signal de référence en prenant la transformée de Fourier de l'erreur de prédiction :
!<*:,*) = Λ*(fc, I) -Y(fc,0 Cependant, on constate en pratique un certain déphasage entre X et Y dû à une convergence imparfaite de l'algorithme LMS, empêchant une bonne discrimination entre parole et bruit. On préfère donc adopter pour le signal de référence une autre définition qui compense ce déphasage, à savoir :
On suppose que l'énergie spectrale du signal de référence peut être dé- crite sous la forme :
B[SeZ(E, I)] 2 = E[S(k, I)] 2as(k) + E]Pt(Is, I)] 2aDt (*)+ B[Dpx(kf I)] 2^ (k)
Qfs(fe) < αsUfe) < ajjf.(k)
représentent l'atténuation sur le signal de référence des trois signaux dans chaque segment de spectre.
L'étape suivante consiste à délivrer une estimation q(k,l) de la probabilité d'absence de parole dans le signal bruité :
Ho(k,l) indiquant l'absence de parole (et Hi(k,l) la présence de parole) dans le k*eme segment de spectre de la /eme trame. La discrimination entre bruit transitoire et parole peut être opérée par une technique comparable à celle de Cohen et Berdugo [5, précité]. Plus précisément, l'algorithme de l'invention évalue un ratio des énergies transitoires sur les deux voies, donné par :
_ SXφJ) -MX(hV) { * } - SRβfφ, 0 - MRef{kJ) S étant une estimation lissée de l'énergie instantanée :
SX(hi) = SX(MJ - D + J2 6(i)|^ (fe,/)!2
b étant une fenêtre dans le domaine temporel et M étant un estimateur de l'énergie pseudo-stationnaire, qui peut être obtenu par exemple par une méthode MCRA (Minima Controlled Recursive Averaging) du même type que celle décrite par Cohen et Berdugo [5, précité] (cependant plusieurs alternatives existent dans la littérature). En présence de parole mais en l'absence de bruit transitoire, ce ratio vaut approximativement :
Figure imgf000015_0001
Inversement, en l'absence de parole mais en présence de bruits transitoires :
Figure imgf000015_0002
Si l'on suppose qu'en général :
une procédure d'estimation de q(k,l) est donnée par l'algorithme en méta- langage suivant :
Pour chaque trame I et pour chaque segment de spectre k, (i) Calculer sx(h g, MX{h Q. SRefφ, 13 et MMefih D. Aller à 00
(Ii) Si sx(ksi) > LχMX(k,i) (détection de transitoires sur la voie de parole bruitée), alors aller à (Hi) sinon q(kl) ^l
(Hi) Si SRβf{k,i) > LjufMRβfikj) (détection de transitoires sur la voie de référence), alors aller à (iv) sinon
(iv) Calculer Ω(M)- aller à (v) (v) Calculer :
Figure imgf000016_0001
Les constantes Lx et LRef sont des seuils de détection des transitoires. Ω.mm(k) et Ωmax(k) sont les limites supérieure et inférieure pour chaque segment de spectre. Ces divers paramètres sont choisis de manière à correspondre à des situations typiques, proches de la réalité. L'étape suivante (correspondant au bloc 26 de la figure 1 ) consiste à opérer le débruitage proprement dit (renforcement de la composante de pa- rôle). L'estimateur que l'on vient de décrire sera appliqué au modèle statistique décrit par Ephraim et Malah [2, précité], qui suppose que le bruit et la parole dans chaque segment de spectre sont des processus gaus- siens indépendants de variances respectives λx(k,l) et λd(k,l). Cette étape peut avantageusement mettre en œuvre l'algorithme de gain OM-LSA (Optimally Modified Log-Spectral Amplitude Gain) décrit par Cohen et Berdugo [3, précité]. Le rapport signal/bruit a priori est défini par :
v*»*/ - TThIs
Le rapport signal/bruit a posteriori est défini par
Figure imgf000016_0002
La probabilité conditionnelle de présence du signal est :
P(IeJ) = Pr(H1Ib 9I*<M)Ï
Avec l'hypothèse gaussienne et les paramètres ci-dessus, il vient
I ^-«(«»0 >
avec :
Figure imgf000016_0003
L'estimée optimale de la parole déboutée S(k,l) est donnée par :
GHi étant le gain dans l'hypothèse où la parole est présente, qui est défini par :
G^ = τWïHUmΥât
Le gain Gmin dans l'hypothèse d'absence de parole est une limite inférieure pour la réduction du bruit, afin de limiter la distorsion de la parole. La formule classique d'estimation du rapport signal/bruit a priori est :
!(*,!) = aGfct φΛ - lh{k,l - I) + (I - S) max(-j(k, I) - I9Q)
L'estimation de l'énergie du bruit est donnée par :
MkJ.+ 1) = ïïΛ{k.J)h{ksl) + βζi - M^)WΨJ)f
Le paramètre de lissage âd évolue entre une limite inférieure a^ et 1 , en fonction de la probabilité de présence conditionnelle :
Figure imgf000017_0001
β étant un facteur de surestimation qui compense le biais en l'absence de signal.
Le signal obtenu à l'issue de ce traitement est soumis à une transformée de Fourier inverse (bloc 28) pour donner l'estimée finale de la parole dé- bruitée.
L'algorithme de la présente invention se révèle particulièrement efficace dans les environnements bruyants, parasités à la fois par des bruits mécaniques, des vibrations, etc. ainsi que par des bruits musicaux, situations caractéristiques rencontrées dans l'habitacle d'une voiture. Les spectro- grammes montrent que l'atténuation du bruit est non seulement efficace, mais se fait sans distorsion notable de la parole après débruitage.

Claims

REVENDICATIONS
1. Un procédé de traitement d'un signal audio, pour le débruitage d'un signal bruité comportant une composante de parole combinée à une com- posante de bruit, cette composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo- stationnaire, caractérisé en ce que ce procédé est un procédé d'analyse de cohérence temporelle du signal bruité échantillonné comprenant les étapes de : a) détermination d'un signal de référence par application au signal bruité d'un traitement (10, 18) propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant : ai) l'application d'un algorithme de prédiction linéaire adaptatif opé- rant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité et le signal délivré par l'algorithme de prédiction linéaire ; b) détermination (24) d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver (26) du signal bruité une estimée déboutée du signal de parole.
2. Le procédé de la revendication 1 , dans lequel ledit signal de référence est déterminé par application à l'étape a2) d'une relation du type :
Figure imgf000019_0001
où X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame /, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire.
3. Le procédé de la revendication 1 , dans lequel l'algorithme de prédiction linéaire (10) est un algorithme de type moindres carrés moyens LMS.
4. Le procédé de la revendication 1 , dans lequel l'algorithme de prédiction linéaire (10) est un algorithme adaptatif récursif.
5. Le procédé de la revendication 1 , dans lequel l'étape b) comprend l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité.
6. Le procédé de la revendication 5, dans lequel l'algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire est un algo- rithme de type à moyennage récursif par contrôle des minima MRCA.
7. Le procédé de la revendication 1 , dans lequel l'étape c) comprend l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole.
8. Le procédé de la revendication 7, dans lequel l'algorithme de gain variable est un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
PCT/FR2007/000347 2006-03-01 2007-02-27 Procede de debruitage d'un signal audio WO2007099222A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0601822 2006-03-01
FR0601822A FR2898209B1 (fr) 2006-03-01 2006-03-01 Procede de debruitage d'un signal audio

Publications (1)

Publication Number Publication Date
WO2007099222A1 true WO2007099222A1 (fr) 2007-09-07

Family

ID=36992693

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/000347 WO2007099222A1 (fr) 2006-03-01 2007-02-27 Procede de debruitage d'un signal audio

Country Status (6)

Country Link
US (1) US7953596B2 (fr)
EP (1) EP1830349B1 (fr)
AT (1) ATE535905T1 (fr)
ES (1) ES2378482T3 (fr)
FR (1) FR2898209B1 (fr)
WO (1) WO2007099222A1 (fr)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2131357A1 (fr) 2008-06-04 2009-12-09 Parrot Système de contrôle automatique du gain appliqué à un signal audio en fonction du bruit ambiant
WO2010111876A1 (fr) * 2009-03-31 2010-10-07 华为技术有限公司 Procédé et dispositif de débruitage de signaux et système de décodage de fréquence audio
WO2010130928A1 (fr) * 2009-05-14 2010-11-18 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite
EP2293594A1 (fr) 2009-07-23 2011-03-09 Parrot Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile
EP2309499A1 (fr) 2009-09-22 2011-04-13 Parrot Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile
EP2518724A1 (fr) 2011-04-26 2012-10-31 Parrot Combiné audio micro/casque comprenant des moyens de débruitage d'un signal de parole proche, notamment pour un système de téléphonie "mains libres"
EP2530673A1 (fr) 2011-06-01 2012-12-05 Parrot Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire
EP2538409A1 (fr) 2011-06-20 2012-12-26 Parrot Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie "mains libres"
EP3171612A1 (fr) 2015-11-19 2017-05-24 Parrot Drones Casque audio à contrôle actif de bruit, contrôle anti-occlusion et annulation de l'atténuation passive, en fonction de la présence ou de l'absence d'une activité vocale de l'utilisateur de casque

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
FR2908005B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2908004B1 (fr) * 2006-10-26 2008-12-12 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2151820B1 (fr) * 2008-07-21 2011-10-19 Siemens Medical Instruments Pte. Ltd. Procédé pour la compensation de biais pour le lissage cepstro-temporel de gains de filtre spectral
WO2010151183A1 (fr) * 2009-06-23 2010-12-29 Telefonaktiebolaget L M Ericsson (Publ) Procédé et agencement pour réseau de télécommunications mobiles
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
EP2395506B1 (fr) * 2010-06-09 2012-08-22 Siemens Medical Instruments Pte. Ltd. Procédé et système de traitement de signal acoustique pour la suppression des interférences et du bruit dans des configurations de microphone binaural
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9258653B2 (en) * 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP3152756B1 (fr) * 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Estimation du niveau de bruit
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US10605941B2 (en) 2014-12-18 2020-03-31 Conocophillips Company Methods for simultaneous source separation
US20170018273A1 (en) * 2015-07-16 2017-01-19 GM Global Technology Operations LLC Real-time adaptation of in-vehicle speech recognition systems
CA2999920A1 (fr) 2015-09-28 2017-04-06 Conocophillips Company Acquisition sismique en 3d
US10251002B2 (en) 2016-03-21 2019-04-02 Starkey Laboratories, Inc. Noise characterization and attenuation using linear predictive coding
US10564925B2 (en) * 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
US10809402B2 (en) 2017-05-16 2020-10-20 Conocophillips Company Non-uniform optimal survey design principles
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation
CN108899043A (zh) * 2018-06-15 2018-11-27 深圳市康健助力科技有限公司 数字助听器瞬时噪声抑制算法的研究及实现
US11481677B2 (en) 2018-09-30 2022-10-25 Shearwater Geoservices Software Inc. Machine learning based signal recovery
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
FR3113537B1 (fr) 2020-08-19 2022-09-02 Faurecia Clarion Electronics Europe Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN116644281B (zh) * 2023-07-27 2023-10-24 东营市艾硕机械设备有限公司 一种游艇船体偏移检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5924061A (en) * 1997-03-10 1999-07-13 Lucent Technologies Inc. Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
EP1580882B1 (fr) * 2004-03-19 2007-01-10 Harman Becker Automotive Systems GmbH Système et procédé d'amélioration audio
US7813499B2 (en) * 2005-03-31 2010-10-12 Microsoft Corporation System and process for regression-based residual acoustic echo suppression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
COHEN I ET AL: "Speech enhancement based on a microphone array and log-spectral amplitude estimation", ELECTRICAL AND ELECTRONICS ENGINEERS IN ISRAEL, 2002. THE 22ND CONVENTION OF DEC. 1, 2002, PISCATAWAY, NJ, USA,IEEE, 2002, pages 4 - 6, XP010631024, ISBN: 0-7803-7693-5 *
COHEN I ET AL: "Speech enhancement for non-stationary noise environments", SIGNAL PROCESSING, AMSTERDAM, NL, vol. 81, no. 11, November 2001 (2001-11-01), pages 2403 - 2418, XP004308517, ISSN: 0165-1684 *
COHEN I ET AL: "Two-channel signal detection and speech enhancement based on the transient beam-to-reference ratio", 2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). HONG KONG, APRIL 6 - 10, 2003, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY : IEEE, US, vol. VOL. 1 OF 6, 6 April 2003 (2003-04-06), pages V233 - V236, XP010639251, ISBN: 0-7803-7663-3 *
EPHRAIM Y., MALAH D.: "Speech Enhancement Using a- Minimum Mean- Square Error Short-Time Spectral Amplitude Estimator", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, vol. ASSP-32, no. 6, December 1984 (1984-12-01), pages 1109 - 1121, XP002435684 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2131357A1 (fr) 2008-06-04 2009-12-09 Parrot Système de contrôle automatique du gain appliqué à un signal audio en fonction du bruit ambiant
WO2010111876A1 (fr) * 2009-03-31 2010-10-07 华为技术有限公司 Procédé et dispositif de débruitage de signaux et système de décodage de fréquence audio
US8965758B2 (en) 2009-03-31 2015-02-24 Huawei Technologies Co., Ltd. Audio signal de-noising utilizing inter-frame correlation to restore missing spectral coefficients
CN102498709A (zh) * 2009-05-14 2012-06-13 鹦鹉股份有限公司 从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法
FR2945696A1 (fr) * 2009-05-14 2010-11-19 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
US8892433B2 (en) 2009-05-14 2014-11-18 Parrot Method of selecting one microphone from two or more microphones, for a speech processor system such as a “hands-free” telephone device operating in a noisy environment
WO2010130928A1 (fr) * 2009-05-14 2010-11-18 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite
EP2293594A1 (fr) 2009-07-23 2011-03-09 Parrot Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile
EP2309499A1 (fr) 2009-09-22 2011-04-13 Parrot Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile
EP2518724A1 (fr) 2011-04-26 2012-10-31 Parrot Combiné audio micro/casque comprenant des moyens de débruitage d'un signal de parole proche, notamment pour un système de téléphonie "mains libres"
EP2530673A1 (fr) 2011-06-01 2012-12-05 Parrot Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire
EP2538409A1 (fr) 2011-06-20 2012-12-26 Parrot Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie "mains libres"
EP3171612A1 (fr) 2015-11-19 2017-05-24 Parrot Drones Casque audio à contrôle actif de bruit, contrôle anti-occlusion et annulation de l'atténuation passive, en fonction de la présence ou de l'absence d'une activité vocale de l'utilisateur de casque

Also Published As

Publication number Publication date
EP1830349A1 (fr) 2007-09-05
ATE535905T1 (de) 2011-12-15
FR2898209A1 (fr) 2007-09-07
FR2898209B1 (fr) 2008-12-12
US20070276660A1 (en) 2007-11-29
US7953596B2 (en) 2011-05-31
ES2378482T3 (es) 2012-04-13
EP1830349B1 (fr) 2011-11-30

Similar Documents

Publication Publication Date Title
EP1830349B1 (fr) Procédé de débruitage d&#39;un signal audio
EP2057835B1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#34;mains libres&#34;
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP0806760B1 (fr) Procédé et dispositif de filtrage par égalisation d&#39;un signal de parole, mettant en oeuvre un modèle statistique de ce signal
EP2293594B1 (fr) Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP0710947B1 (fr) Procédé et dispositif de suppression de bruit dans un signal de parole, et système avec annulation d&#39;écho correspondant
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP2538409B1 (fr) Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie &#34;mains libres&#34;
EP1096471B1 (fr) Procédé et dispositif pour l&#39;extraction de paramètres robustes pour la reconnaissance de parole
EP0767569B1 (fr) Procédé et dispositif d&#39;identification adaptative et annuleur d&#39;écho adaptatif s&#39;y rapportant
EP0666655B1 (fr) Procédé et dispositif d&#39;analyse d&#39;un signal de retour et annuleur d&#39;écho adaptatif en comportant application
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
EP2131357A1 (fr) Système de contrôle automatique du gain appliqué à un signal audio en fonction du bruit ambiant
WO1999005831A1 (fr) Procede et dispositif d&#39;egalisation aveugle des effets d&#39;un canal de transmission sur un signal de parole numerique
EP1940139B1 (fr) Commande de filtres d&#39;annulation d&#39;écho
EP1039736B1 (fr) Procédé et disposiif d&#39;identification adaptive, et annuleur d&#39;écho adaptive mettant en oeuvre un tel procédé
EP0534837B1 (fr) Procédé de traitement de la parole en présence de bruits acoustiques utilisant la sous traction spectrale non-linéaire et les modèles de Markov cachés
FR2906070A1 (fr) Reduction de bruit multi-reference pour des applications vocales en environnement automobile
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
FR2767941A1 (fr) Suppresseur d&#39;echo par transformation de sens et procede associe
EP2078301A1 (fr) Reduction de bruit et de distorsion dans une structure de type forward
Kim et al. Improved noise reduction with packet loss recovery based on post-filtering over IP networks
FR3113537A1 (fr) Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
WO2010029247A1 (fr) Annulation de bruit a faible distorsion
FR2888449A1 (fr) Procede et dispositif de traitement d&#39;echos forts, notamment dans des terminaux telephoniques en &#34;mains libres&#34;

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07731051

Country of ref document: EP

Kind code of ref document: A1