WO2010130928A1 - Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite - Google Patents

Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite Download PDF

Info

Publication number
WO2010130928A1
WO2010130928A1 PCT/FR2010/050888 FR2010050888W WO2010130928A1 WO 2010130928 A1 WO2010130928 A1 WO 2010130928A1 FR 2010050888 W FR2010050888 W FR 2010050888W WO 2010130928 A1 WO2010130928 A1 WO 2010130928A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphones
microphone
speech
picked
signal
Prior art date
Application number
PCT/FR2010/050888
Other languages
English (en)
Inventor
Guillaume Vitte
Alexandre Briot
Guillaume Pinto
Original Assignee
Parrot
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot filed Critical Parrot
Priority to CN201080021380.7A priority Critical patent/CN102498709B/zh
Priority to EP10727770.9A priority patent/EP2430825B1/fr
Priority to JP2012510335A priority patent/JP5718903B2/ja
Priority to ES10727770T priority patent/ES2433100T3/es
Priority to US13/320,106 priority patent/US8892433B2/en
Publication of WO2010130928A1 publication Critical patent/WO2010130928A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Ce procédé comprend les étapes de : numérisation des signaux acoustiques captés simultanément par les deux micros (N, M); exécution d'une transformation de Fourier à court terme des signaux (x n (t), x m (t)) captés sur les deux voies, de manière à produire une succession de trames dans une série de bandes de fréquence; application d'un algorithme de calcul d'un indice de confiance de présence de parole sur chaque voie, notamment une probabilité de présence de parole; sélection de l'un des deux micros par application aux trames successives de chacune des voies d'une règle de décision fonction à la fois d'un critère de sélection de voie et de l'indice de confiance de présence de parole; et mise en œuvre du traitement de la parole à partir du signal acoustique capté par le seul microphone sélectionné.

Description

L'invention concerne le traitement de la parole en milieu bruité. Elle concerne notamment, mais de façon non limitative, le traitement des signaux de parole captés par des dispositifs de type "mains-libres" pour véhicules automobiles. Ces appareils comportent un microphone ("micro") sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur. Il en est de même si l'on veut mettre en œuvre des techniques de reconnaissance vo- cale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
Cette difficulté liée au bruit ambiant est particulièrement contraignante dans le cas des dispositifs "mains-libres" pour véhicules automobiles. En particulier, la distance importante entre le micro et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnai- res, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pa- vées, autoradio en fonctionnement, etc.
Certains de ces dispositifs prévoient l'utilisation de plusieurs micros, généralement deux micros, et utilisent la moyenne des signaux captés, ou d'autres opérations plus complexes, pour obtenir un signal avec un niveau de perturbations moindre. En particulier, une technique dite beamforming met en œuvre un réseau de microphones de manière à créer par des moyens logiciels relativement simples une directivité qui permet d'améliorer le rapport signal/bruit. Cette technique présuppose toutefois que la position du locuteur par rapport aux micros soit à peu près constante, ce qui est généralement le cas pour un téléphone de voiture utilisé par le conducteur (mais pas par le passager).
De façon générale, dans toutes les techniques dites de beamforming, pour obtenir une efficacité à peu près satisfaisante, un nombre important (au moins supérieur à quatre) de microphones est requis, ce qui n'est pas le cas dans la majorité des applications industrielles. Pour cette raison, on utilise le plus souvent des techniques mettant en œuvre un seul micro.
Dans ce cas il est préférable d'utiliser un micro unidirectionnel, offrant un meilleur rapport signal/bruit, mais dans une seule direction fixée, et donc pour une seule position du locuteur.
Un tel dispositif "mains-libres" pour véhicule automobile est par exemple décrit dans le WO 2008/049982 A1 (Parrot SA), qui décrit les divers traitements d'annulation et de suppression d'écho, de réduction de bruit, etc., appliqués à un signal capté par un micro unique recueillant le signal acoustique (bruité) du locuteur proche.
L'invention vise un tel système de traitement de la parole ne mettant en œuvre qu'un seul micro (donc différent des systèmes de type beamfor- ming ou autre), mais dans lequel cet (unique) micro est sélectionné automatiquement parmi deux micros distincts, ou parmi plusieurs micros d'un réseau de microphones.
Le but de l'invention est de proposer un procédé permettant de déterminer parmi ces deux micros ou parmi tous les micros du réseau, celui qui capte le signa! de parole le moins bruité, de manière à pouvoir opérer ensuite divers traitements (débruitage, annulation d'écho, etc.) sur le signal capté par le micro ainsi déterminé, désigné ci-après "micro de référence".
On connaît diverses techniques de sélection d'un microphone parmi plusieurs, par exemple dans un dispositif de téléconférence tel que celui décrit par le EP 1 564 980 A1 , comprenant plusieurs micros tournés vers les participants installés autour du dispositif. Ce document décrit des moyens de sélection dynamique aptes à discriminer entre parole et bruit pour n'activer à un instant donné que le micro situé face au locuteur actif. Dans le cas d'un dispositif de type "mains-libres" pour véhicule automobile évoqué plus haut, la situation la plus fréquente (quoique non limitative) est celle d'un système à deux micros. Plusieurs configurations sont alors en- visageables.
Une première configuration consiste à prévoir deux micros directionnels placés assez proches l'un de l'autre, par exemple au deux extrémités de la façade d'un autoradio en partie centrale de l'habitacle du véhicule, l'un des micros ayant le lobe principal de son diagramme de directivité orienté vers le conducteur et l'autre micro, vers le passager. Une autre configuration consiste à prévoir deux micros éloignés, par exemple placés en hauteur, aux angles extrêmes du plafonnier du véhicule, ou aux deux extrémités de la planche de bord. Dans l'un ou l'autre cas, le micro le plus efficace à sélectionner est le plus souvent celui qui est dirigé vers le locuteur actif (soit le conducteur, soit le passager). Mais il peut être parfois nécessaire de prendre en compte des situations particulières : ainsi, dans le cas d'un motard qui doublerait le véhicule par la gauche, il peut être préférable de sélectionner le micro droit, même si le locuteur est le conducteur. Le but de l'invention est de proposer un système robuste de sélection automatique de microphone pour un système à deux micros (l'invention pouvant bien évidemment s'appliquer à la commutation d'un micro parmi plus de deux micros, par l'application des mêmes algorithmes à chaque paire de micros possibles). L'idée sous-jacente est que, quelle que soit la configuration des micros (rapprochés ou éloignés), il est possible de différencier les prises de son effectuées par chacun des micros en faisant l'hypothèse que le signal capté par l'un des deux micros sera meilleur que l'autre, c'est-à-dire que l'un des micros sera plus à même de capter le signal désiré avec moins de perturbations ou de pertes que l'autre micro.
L'un des principes de base de l'invention consiste à dériver à cet effet un indice de confiance de présence d'une parole pour chacune des deux voies correspondant aux deux micros, et de conditionner la sélection de l'un ou de l'autre de ces micros à une règle de décision fonction, entre au- très, de cet indice de confiance de présence d'une parole.
Ce principe permet d'accroître de façon substantielle la robustesse de la sélection du micro de référence au cours du temps, en fonction de résultats calculés en permanence, en adaptant cette sélection à l'évolution des divers biais et aux variations de l'environnement acoustique. Les buts précités sont atteints par un procédé du type général divulgué le EP 1 564 980 A1 précité, c'est-à-dire un procédé de sélection d'un microphone parmi deux microphones ou plus, pour un système de traitement de la parole multi-microphone opérant dans un environnement bruité, chacun des microphones étant associé à une voie et étant apte à capter un signal acoustique bruité comprenant une composante utile de parole issue d'une source principale de signal acoustique mêlée à une composante de bruit diffus. Ce procédé comprend des étapes de :
- numérisation des signaux acoustiques captés simultanément par les deux microphones ; - exécution d'une transformation des signaux captés sur les deux voies, de manière à produire une succession de trames dans une série de bandes de fréquences ;
- application d'un algorithme de calcul d'un indice de présence de parole sur chaque voie ; - sélection de l'un des deux microphones par application aux trames successives de chacune des voies d'une règle de décision fonction à la fois d'un critère de sélection de voie et dudit indice de présence de parole ; et
- mise en oeuvre du traitement de la parole à partir du signal acoustique capté par le seul microphone sélectionné.
De façon caractéristique de l'invention :
- la transformation des signaux captés sur les deux voies est une transformation de Fourier à court terme ;
- l'indice de présence de parole est un indice de confiance calculé pour chaque bande de fréquences de chaque trame ; et
- le critère de sélection est calculé par bandes de fréquences sur les seules bandes de fréquences dont l'indice de confiance est supérieur à un premier seuil donné.
Selon diverses caractéristiques subsidiaires de mise en œuvre : - le procédé comprend en outre une étape d'élimination, dans les trames successives, des bandes de fréquences situées au-dessous d'un deuxième seuil donné ;
- l'indice de confiance de présence de parole est une probabilité de présence de parole ; - l'indice de confiance de présence de parole est calculé pour chaque bande de fréquences, et la sélection est opérée si l'indice est supérieur à un troisième seuil donné, dans un nombre de bandes de fréquences supérieur à un quatrième seuil donné ;
- le système de traitement de la parole multi-microphone est un système à microphones directifs rapprochés, et le critère de sélection de voie est un critère angulaire basé sur une comparaison des phases respectives des signaux simultanément captés sur les deux voies, le microphone à sélectionner étant celui pour lequel le signal est capté avant l'autre ; - le système de traitement de la parole multi-microphone est un système à microphones directifs ou non-directifs éloignés, et le critère de sélection de voie est un critère énergétique basé sur une comparaison des valeurs de rapport signal sur bruit respectives des signaux simultanément captés sur les deux voies, le microphone à sélectionner étant ce- lui pour lequel le rapport signal sur bruit est supérieur à l'autre ;
- la sélection de l'un des deux microphones est opérée conditionnelle- ment seulement si la règle de décision est vérifiée sur un nombre de trames successives supérieur à un cinquième seuil donné ;
- si une sélection de l'un des microphones est décidée, celle-ci est opéré de façon progressive sur un laps de temps de transition donné, par application d'un gain croissant à la voie du microphone à sélectionner et d'un gain décroissant à la voie du microphone à désélectionner.
0
On va maintenant décrire un exemple de mise en œuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références désignent des éléments fonctionnellement semblables. La Figure 1 illustre schématiquement une configuration à deux micros rapprochés.
La Figure 2 illustre schématiquement une configuration à deux micros éloignés.
0
On va maintenant décrire le principe de base de l'invention, et son application aux deux cas de figure évoqués plus haut (micros rapprochés et micros éloignés).
L'hypothèse de base est que l'un des signaux captés par les deux micros est a priori meilleur que l'autre, c'est-à-dire qu'il contient moins de pertur- bâtions ou de pertes que l'autre par rapport au signal de parole utile. Le but de l'invention est de déterminer parmi les deux signaux captés quel est le meilleur, afin d'appliquer ultérieurement un traitement de la parole (débruitage, annulation d'écho, etc.) à ce seul signal sélectionné, ci-après "signal de référence" ou "signal issu du micro de référence". Deux micros captent un signal émis par une source de signal principale s, et la différence de position entre les micros va induire un ensemble de déphasages et de variations d'amplitude par rapport au signal émis par s. Plus précisément, on aura en fonction de l'instant t :
xn(t) = an χ s(t - τn)+ v,i
où an est l'atténuation d'amplitude due à la perte d'énergie sur le trajet acoustique compris entre la position de la source sonore s et le micro indicé n, τn est le déphasage entre le signal émis et reçu par le micro n, le terme supplémentaire Vn représentant la valeur du champ de bruit diffus à l'endroit où se trouve le micro n.
Si l'on note en majuscules les transformées de Fourier à court terme des signaux ci-dessus, il vient :
Xn(kJ) = dn(k)χ S(k,l)+ Vn(k,l)
où k et / désignent respectivement la bande de fréquences et la trame considérée, avec :
«*„(*) = «.e"'2*'"
où fk est la fréquence centrale de la bande de fréquences indicée par k. On notera que les coefficients dn(k) dépendent uniquement des données géométriques du système et non de la nature du signal émis s. Ces coefficients sont d'ailleurs caractéristiques de la configuration géométrique considérée.
On va maintenant envisager deux cas de figure, à savoir : - configuration à micros rapprochés, où l'on considérera que la distance entre les deux micros est petite devant la distance entre la source et les micros (une définition mathématique plus précise de cette condition sera donnée plus bas) ; et
- configuration à micros éloignés, où l'on considérera que la distance entre la source et l'un des deux micros est relativement plus grande qu'entre la source et l'autre micro.
Configuration à microphones rapprochés
Cette configuration, illustrée schématiquement Figure 1 , se rencontre par exemple dans le cas où les deux micros sont disposés au niveau de la façade d'un autoradio, lui-même placé en position centrale sur le tableau de bord du véhicule. La distance entre les micros est typiquement de l'ordre de 5 cm, au maximum 10 cm. On utilisera très avantageusement dans cette configuration des micros di- rectifs, orientés de façon différente. Si l'on désigne N et M les deux micros, le micro M aura, idéalement, un diagramme de directivité dont le lobe principal couvre le demi-plan Pm , tandis que le micro JV aura un diagramme de directivité occupant l'autre demi-plan Pn . Dans le cas considéré ici de micros proches, on pourra faire l'approxima- tion que la source sonore émet une onde plane (il suffit que la source soit éloigné d'au moins quelques centimètres des micros) et l'on cherchera simplement à évaluer la direction de propagation de l'onde en question (dans l'espace ou en projection sur un plan particulier). Seule l'information de déphasage entre les micros sera alors utile, et l'on utilisera alors la for- mule :
1
- τm = κg(E{Xm{Kl)Xn{Kl)))
Figure imgf000009_0001
où E désigne l'espérance mathématique, qui pourra être évaluée par le calcul de la valeur moyenne du produit considéré sur plusieurs trames. L'hypothèse de "micros rapprochés" peut s'exprimer de manière plus pré- cise par une condition sur la distance lιum entre les deux micros, le déphasage Aφ entre xn(t) et xm(t) devant appartenir à l'intervalle [-π;π] pour éviter les confusions entre retards et avances, soit : WJn*
Figure imgf000010_0001
.sine1, < 2*f* -k,,, < π
Si toutefois la distance D est plus grande, il est possible d'utiliser le même algorithme, mais en retirant de l'ensemble analysé les plus hautes fréquences. La fréquence maximale s'exprimera alors :
Figure imgf000010_0002
II suffit de déterminer dans lequel des deux demi-plans Pn ou Pm se si- tue la source. Le problème se ramène donc à l'étude du signe de l'ex- pression aτg(E(Xm (k, I)Xn (Jc, I))) :
ùgn[θn%n (K /)] = sign[τnm] = sign[κg(E(Xm (K I)Xn (K /)))]
Théoriquement, pour une trame donnée, les angles θn m(k,l) devraient être les mêmes pour toutes les fréquences. En pratique, la composante de bruit introduit de légères variations. Le signe de :
τn ~ τm = -±-*rg(E(xm (k, I)Xn(U)))
va donc être calculé pour différentes fréquences, et une décision globale sera prise en fonction de la répartition des résultats par fréquences, en calculant une somme de décisions élémentaires non pondérées. En pratique, divers bruits de phase entrent en jeu et pour de faibles valeurs de θlι m(k,l) \a détermination du signe de θn m(k,l) peut être biaisée. Toutefois, la formule :
1^^ {τn - τm )+ φbruιt = Kg(E(X1n(Kl)Xn(Kl))) c
met en évidence le fait que le terme de bruit aura moins d'impact dans les hautes fréquences. Par conséquent, les calculs réalisés pour de faibles valeurs de k seront moins fiables, notamment si l'angle d'incidence du signal est petit. Il sera donc souhaitable d'utiliser une pondération avec un indice de confiance plus élevé dans les hautes fréquences. Comme il ne s'agit pas ici d'une moyenne, mais seulement d'un décompte des signes sur un ensemble de fréquences, on peut exclure de ce calcul les fréquences les plus basses (celles pour lesquelles k ≤ kmm ). En définitive, la règle de sélection sera la suivante (NbPlusThreshold étant un seuil prédéterminé) :
pour la trame / :
• M est meilleur micro si Card(E+) - Card(E.) > NbPlusThreshold
• N est meilleur micro si Card(E.) - Card(E+) > NbPlusThreshold
• Aucune décision sinon avec : (yc,/)))> o]
Figure imgf000011_0001
(k,l))) < θ)
En d'autres termes, au lieu de mesurer l'angle d'incidence du signal issu de la source à partir des déphasages relatifs des signaux captés par les micros, on détermine le signe de l'expression ci-dessus pour chaque bande d'un sous-ensemble de bandes de fréquences, et l'on décompte ces signes. Si le décompte montre une majorité significative (déterminée par le seuil NbPlusThreshold) en faveur de l'un des micros N ou M, alors celui-ci sera considéré comme le micro de référence.
Configuration à deux micros éloignés
Cette configuration est illustrée schématiquement Figure 2. La distance entre les micros est ici de l'ordre de 1 à 1 ,5 m, correspondant par exemple à une installation dans laquelle les deux micros sont placés de chaque côté du plafonnier de l'habitacle du véhicule. Dans cette configuration, l'information de déphasage n'est plus exploitable car la distance entre les deux microphones est trop élevée (corrélation insuffisante et confusion entre retard et avance). En revanche, les termes an et am d'atténuation du signal sont beaucoup plus pertinents. En effet, dans le signal capté globalement par l'un des micros, la contribution de la source, c'est-à-dire le signal utile, sera d'autant plus faible que ce micro sera éloigné de ladite source. II n'est ici plus nécessaire d'utiliser des micros directifs pour différencier les deux prises de son. En effet, cette différenciation sera intrinsèque à la position des micros par rapport à la source : par exemple, dans le cas d'une automobile, l'un des micros sera beaucoup plus proche du conducteur et l'autre, du passager. Le bruit sera donc toujours plus atténué dans le signal capté par l'un des micros que dans le signal capté par l'autre.
Le principe de base consiste, dans ces conditions, à utiliser comme critère de sélection la valeur du rapport signal/bruit. Le critère de sélection n'est donc plus un critère angulaire, comme dans les cas des micros rapprochés, mais un critère énergétique. La décision sera prise par rapport à un seuil ΔSNRThreshold sur le même principe que pour le critère angulaire dans la configuration en micros rapprochés. La règne de décision sera la suivante :
pour la trame / : • M est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold
N est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold
Aucune décision sinon avec :
Figure imgf000012_0001
Vm(k,l) et Vn(Ic, l) désignant les estimées de la composante de bruit respectivement captée par les micros M et N .
Renforcement de la robustesse de la sélection du micro de référence
Les techniques de sélection automatique du micro de référence sont sujettes à divers biais liés au bruit et aux approximations de calcul. Pour éviter un trop grand nombre de mauvaises détections, la présente invention propose de compléter ces techniques de sélection automatique par un mécanisme global procurant une très grande robustesse aux bruits diffus, et efficace quelle que soit la technique de traitement appliquée en- suite au signal de référence sélectionné (intercorrélation, sommation, ...). Essentiellement, l'invention propose de dériver un indice de confiance de présence de parole dans chacun des signaux captés par les micros, et de conditionner la sélection du micro de référence à un niveau minimal de cet indice de confiance de présence de parole. II est en effet inutile de vouloir sélectionner l'un des deux micros plutôt que l'autre si le signal utile de la source (la parole du locuteur) est nul. Il conviendra donc de n'appliquer les critères de sélection indiqués plus haut que sur les trames pour lesquelles le signal de la source est - vraisemblablement - présent. L'indice de confiance peut être notamment une probabilité de présence de parole, calculée de la manière décrite par le WO 2007/099222 A1 (Parrot SA) par exemple, qui décrit un procédé de débruitage impliquant le calcul d'une telle probabilité, procédé dérivé d'une technique exposée par I. Cohen et B. Berdugo, Speech Enhancement for Non-Stationary Noise Envi- ronments, Signal Processing, Elsevier, Vol. 81 , pp. 2403-2418, 2001.
Le calcul d'une probabilité de présence de parole (ou toute autre technique connue comparable), décrit dans le cadre d'un traitement de réduction de bruit pour lequel le signal de la source correspond à un signal de parole, peut être appliqué à la présente invention pour accroître la robus- tesse de l'algorithme de sélection du micro de référence (avant donc tout traitement de débruitage).
Comme fréquemment dans le domaine du débruitage d'un signal de parole mêlé à une composante de bruit, il ne s'agit pas d'identifier précisément sur quelles composantes fréquentielles de quelles trames la parole est présente ou absente, mais de fournir un indice de confiance compris entre 0 et 1 , une valeur 1 indiquant que la parole est (selon l'algorithme) absente à coup sûr, tandis qu'une valeur 0 indique le contraire. De par sa nature, cet indice est assimilable à la probabilité d'absence de la parole a priori, c'est à dire la probabilité que la parole soit absente sur une compo- santé fréquentielle donnée de la trame considérée. La probabilité de présence de parole P?resProba peut donc être utilisée comme un critère supplémentaire pour conditionner la sélection d'un micro ou de l'autre, en la comparant à un seuil prédéterminé PresProba- Threshold : on ne retiendra ainsi, pour appliquer la règle de sélection, que l'ensemble F(/) des "fréquences pertinentes" telles que l'on ait, pour chaque trame / du signal :
F(I) = [kt.q.PPτesPτoba (kJ) > Vτes?τobaTreshold]
Si cet ensemble formé des fréquences contenues dans le signal utile est trop petit (c'est-à-dire si Card(F (I)) < MinSize ), on ne prendra aucune décision pour la trame courante /, Ce critère permet, au même titre que l'introduction des seuils NbPlusThreshold ou ASNRThreshold , de limiter et de contrôler le nombre de décisions erronées. Dans le cas contraire (c'est-à-dire si Card(F(l)) > MinSize ), le calcul de sélection du meilleur micro sera effectué à partir des seules fréquences pertinentes, les fréquences pour lesquelles le contenu de la source est nul (pas de parole) n'étant pas retenues pour la prise de décision. Les deux règles explicitées plus haut de sélection du meilleur micro pour une trame se réécrivent donc comme suit.
Dans le premier cas de figure (micros rapprochés) :
pour la trame /
• M est meilleur micro si Card(£+) - Caτd(E.) > NbPlusThreshold et si Catd(F(l)) > MinSize
N est meilleur micro si Card(£.) - CardCδï) > NbPlusThreshold et si Card(F(l)) > MinSize
Aucune décision sinon avec :
X = {k <= F{l) t.q. k > kmm et aτg{ε{x,n (k,l)Xn (k,l)))> 0 E_ = {k ≡ F(I) t.q. k > kmm et arg(i< (X (k, I)Xn (k, I))) < 0 Dans le second cas de figure (micros éloignés) :
pour la trame /
M est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold et si C∞à(F(l)) > MinSize
N est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold et Si CaVd(F(I)) > MinSize
• Aucune décision sinon avec :
SNRm(l)= k^ , { λ et SNRn[I) = λ6™ , ∑K,(kj) ∑V,,(k,l) fceF(0 keF(l)
Changement de microphone de référence
L'un des intérêts du système selon l'invention est de pouvoir suivre les déplacements de la source, donc de changer de micro de référence au cours du temps lorsque la source est mobile, ou que deux sources émettent en alternance (par exemple le conducteur et le passager du véhicule). Pour disposer d'un système stable, il est toutefois important de ne pas changer de micro trop brutalement ni trop fréquemment. Pour ce faire, l'invention propose également de rendre plus robuste les phases de changement de micro de référence.
Pour éviter les commutations intempestives, i! est possible de conditionner la commutation d'un micro de référence vers l'autre (M au lieu de N, ou l'inverse) à un certain nombre de règles de stabilité telles que :
- le micro de référence ne sera modifié que si plusieurs itérations consé- cutives de l'algorithme de sélection du meilleur micro par trame conduisent à une décision de changement de micro de référence et/ou
- le changement de micro ne sera pas soudain, mais sera opéré progressivement, sur plusieurs trames consécutives en appliquant un gain variable, croissant sur l'un des micros et décroissant sur l'autre, de ma- nière à obtenir un effet de "fondu" progressif.

Claims

REVENDICATIONS
1. Un procédé de sélection d'un microphone parmi deux microphones ou plus, pour un système de traitement de la parole multi-microphone opérant dans un environnement bruité, chacun des microphones étant associé à une voie et étant apte à capter un signal acoustique bruité compre- nant une composante utile de parole issue d'une source principale (s(ή) de signal acoustique mêlée à une composante de bruit diffus, ce procédé comprenant les étapes suivantes :
- numérisation des signaux acoustiques captés simultanément par les deux microphones (N, M) ; - transformation des signaux (xn(ή, χm(f)) captés sur les deux voies, de manière à produire une succession de trames dans une série de bandes de fréquences ;
- application d'un algorithme de calcul d'un indice de présence de parole sur chaque voie ; - sélection de l'un des deux microphones par application aux trames successives de chacune des voies d'une règle de décision fonction à la fois d'un critère de sélection de voie et dudit indice de présence de parole ; et
- mise en œuvre du traitement de la parole à partir du signal acoustique capté par le seul microphone sélectionné, procédé caractérisé en ce que :
- ladite transformation des signaux (χn(t), xm(ή) captés sur les deux voies est une transformation de Fourier à court terme ;
- ledit indice de présence de parole est un indice de confiance calculé pour chaque bande de fréquences de chaque trame ; et
- ledit critère de sélection est calculé par bandes de fréquences sur les seules bandes de fréquences dont l'indice de confiance est supérieur à un premier seuil donné.
2. Le procédé de la revendication 1 , comprenant en outre une étape d'élimination, dans les trames successives, des bandes de fréquences situées au-dessous d'un deuxième seuil donné.
3. Le procédé de ia revendication 1 , dans lequel l'indice de confiance de présence de parole est une probabilité de présence de parole.
4. Le procédé de la revendication 1 , dans lequel l'indice de confiance de présence de parole est calculé pour chaque bande de fréquences, et ladite sélection est opérée si l'indice est supérieur à un troisième seuil donné, dans un nombre de bandes de fréquences supérieur à un quatrième seuil donné.
5. Le procédé de la revendication 1 , dans lequel :
- ledit système de traitement de la parole multi-microphone est un système à microphones directifs rapprochés, et
- ledit critère de sélection de voie est un critère angulaire basé sur une comparaison des phases respectives des signaux simultanément cap- tés sur les deux voies, le microphone à sélectionner étant celui pour lequel le signal est capté avant l'autre.
6. Le procédé de la revendication 1 , dans lequel :
- ledit système de traitement de la parole multi-microphone est un sys- tème à microphones directifs ou non-directifs éloignés, et
- ledit critère de sélection de voie est un critère énergétique basé sur une comparaison des valeurs de rapport signal sur bruit respectives des signaux simultanément captés sur les deux voies, le microphone à sélectionner étant celui pour lequel le rapport signal sur bruit est supérieur à l'autre.
7. Le procédé de la revendication 1 , dans lequel la sélection de l'un des deux microphones est opérée conditionnellement seulement si ladite règle de décision est vérifiée sur un nombre de trames successives supérieur à un cinquième seuil donné.
8. Le procédé de la revendication 1 , dans lequel, si une sélection de l'un des microphones est décidée, celle-ci est opéré de façon progressive sur un laps de temps de transition donné, par application d'un gain croissant à la voie du microphone à sélectionner et d'un gain décroissant à la voie du microphone à désélectionner.
PCT/FR2010/050888 2009-05-14 2010-05-07 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite WO2010130928A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201080021380.7A CN102498709B (zh) 2009-05-14 2010-05-07 从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法
EP10727770.9A EP2430825B1 (fr) 2009-05-14 2010-05-07 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite
JP2012510335A JP5718903B2 (ja) 2009-05-14 2010-05-07 雑音の多い環境で動作するハンドフリー電話デバイスなどの音声処理システムに関して2つ以上のマイクロフォンの1つを選択するための方法
ES10727770T ES2433100T3 (es) 2009-05-14 2010-05-07 Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico "manos libres" que opera en un entorno ruidoso
US13/320,106 US8892433B2 (en) 2009-05-14 2010-05-07 Method of selecting one microphone from two or more microphones, for a speech processor system such as a “hands-free” telephone device operating in a noisy environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0953176A FR2945696B1 (fr) 2009-05-14 2009-05-14 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
FR0953176 2009-05-14

Publications (1)

Publication Number Publication Date
WO2010130928A1 true WO2010130928A1 (fr) 2010-11-18

Family

ID=41560875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/050888 WO2010130928A1 (fr) 2009-05-14 2010-05-07 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite

Country Status (7)

Country Link
US (1) US8892433B2 (fr)
EP (1) EP2430825B1 (fr)
JP (1) JP5718903B2 (fr)
CN (1) CN102498709B (fr)
ES (1) ES2433100T3 (fr)
FR (1) FR2945696B1 (fr)
WO (1) WO2010130928A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9779731B1 (en) * 2012-08-20 2017-10-03 Amazon Technologies, Inc. Echo cancellation based on shared reference signals
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
EP2765787B1 (fr) 2013-02-07 2019-12-11 Sennheiser Communications A/S Procédé de réduction de bruit non corrélé dans un dispositif de traitement audio
JP6473972B2 (ja) * 2013-02-12 2019-02-27 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
EP3950433A1 (fr) * 2013-05-23 2022-02-09 NEC Corporation Procédé de traitement de la parole, procédé de traitement de la parole, programme de traitement de la parole et véhicule comprenant le système de traitement de la parole à bord
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9313621B2 (en) 2014-04-15 2016-04-12 Motorola Solutions, Inc. Method for automatically switching to a channel for transmission on a multi-watch portable radio
EP3163850B1 (fr) * 2014-07-28 2019-08-28 Huawei Technologies Co. Ltd. Procede et dispositif de traitement de signal acoustique d'un dispositif de communication
CN104270489A (zh) * 2014-09-10 2015-01-07 中兴通讯股份有限公司 一种从多个麦克风中确定主副麦克风的方法和系统
CN104503566B (zh) * 2014-11-26 2019-12-24 联想(北京)有限公司 信息处理方法及电子设备
US9485599B2 (en) * 2015-01-06 2016-11-01 Robert Bosch Gmbh Low-cost method for testing the signal-to-noise ratio of MEMS microphones
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
EP3434024B1 (fr) * 2016-04-21 2023-08-02 Hewlett-Packard Development Company, L.P. Modes d'écoute de microphone de dispositif électronique
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
CN106911996A (zh) * 2017-03-03 2017-06-30 广东欧珀移动通信有限公司 麦克风状态的检测方法、装置及终端设备
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN110491376B (zh) * 2018-05-11 2022-05-10 北京国双科技有限公司 一种语音处理方法及装置
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN113763957A (zh) * 2019-03-12 2021-12-07 百度在线网络技术(北京)有限公司 应用于车辆的交互方法和装置
FR3098076B1 (fr) 2019-06-26 2022-06-17 Parrot Faurecia Automotive Sas Système audio pour appui-tête avec microphone(s) intégré(s), appui-tête et véhicule associés
CN110166879B (zh) 2019-06-28 2020-11-13 歌尔科技有限公司 语音采集控制方法、装置及tws耳机
KR102268245B1 (ko) * 2019-06-28 2021-06-23 주식회사 카카오엔터프라이즈 음성 인식 서비스를 제공하는 단말, 방법 및 서버
WO2021060680A1 (fr) 2019-09-24 2021-04-01 Samsung Electronics Co., Ltd. Procédés et systèmes d'enregistrement de signal audio mélangé et de reproduction de contenu audio directionnel

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1564980A1 (fr) * 2004-02-13 2005-08-17 Sony Corporation Annuleur d'écho acoustique
WO2007099222A1 (fr) * 2006-03-01 2007-09-07 Parrot Procede de debruitage d'un signal audio
US20070218959A1 (en) * 2006-03-20 2007-09-20 Lg Electronics Inc. Communication device and telephone communication method thereof

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2330048B (en) * 1997-10-02 2002-02-27 Sony Uk Ltd Audio signal processors
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
JP3435686B2 (ja) * 1998-03-02 2003-08-11 日本電信電話株式会社 収音装置
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
US7181026B2 (en) * 2001-08-13 2007-02-20 Ming Zhang Post-processing scheme for adaptive directional microphone system with noise/interference suppression
WO2007106399A2 (fr) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Reseau de microphones directionnels reducteur de bruit
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
EP1581026B1 (fr) 2004-03-17 2015-11-11 Nuance Communications, Inc. Méthode pour la détection et la réduction de bruit d'une matrice de microphones
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8135148B2 (en) * 2006-04-26 2012-03-13 Microsemi Semiconductor Corp. Automatic gain control for mobile microphone
JP4984683B2 (ja) * 2006-06-29 2012-07-25 ヤマハ株式会社 放収音装置
US8077892B2 (en) * 2006-10-30 2011-12-13 Phonak Ag Hearing assistance system including data logging capability and method of operating the same
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1564980A1 (fr) * 2004-02-13 2005-08-17 Sony Corporation Annuleur d'écho acoustique
WO2007099222A1 (fr) * 2006-03-01 2007-09-07 Parrot Procede de debruitage d'un signal audio
US20070218959A1 (en) * 2006-03-20 2007-09-20 Lg Electronics Inc. Communication device and telephone communication method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN103165137B (zh) * 2011-12-19 2015-05-06 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法

Also Published As

Publication number Publication date
JP2012527003A (ja) 2012-11-01
EP2430825B1 (fr) 2013-07-31
FR2945696A1 (fr) 2010-11-19
CN102498709A (zh) 2012-06-13
FR2945696B1 (fr) 2012-02-24
US8892433B2 (en) 2014-11-18
EP2430825A1 (fr) 2012-03-21
CN102498709B (zh) 2014-01-22
ES2433100T3 (es) 2013-12-09
JP5718903B2 (ja) 2015-05-13
US20120284023A1 (en) 2012-11-08

Similar Documents

Publication Publication Date Title
EP2430825B1 (fr) Procede de selection d&#39;un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu&#39;un dispositif telephonique &#34;mains libres&#34; operant dans un environnement bruite
EP2293594B1 (fr) Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP2309499B1 (fr) Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP2680262B1 (fr) Procédé de débruitage d&#39;un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité
EP2538409B1 (fr) Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie &#34;mains libres&#34;
US8929564B2 (en) Noise adaptive beamforming for microphone arrays
US8112272B2 (en) Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US9443532B2 (en) Noise reduction using direction-of-arrival information
JP2021533423A (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
FR2898209A1 (fr) Procede de debruitage d&#39;un signal audio
WO2015047308A1 (fr) Procédés et appareil pour détection d&#39;activité de correspondant robuste
CN111599366B (zh) 一种车载多音区语音处理的方法和相关装置
US20200184994A1 (en) System and method for acoustic localization of multiple sources using spatial pre-filtering
US11081125B2 (en) Noise cancellation in voice communication systems
FR2974443A1 (fr) Procede et systeme de reduction du bruit
US20190164568A1 (en) System and method for temporal and power based zone detection in speaker dependent microphone environments
FR3087289A1 (fr) Dispositif de selection d&#39;une source audio, systeme de reconnaissance vocale et procede associes
FR3113537A1 (fr) Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
FR2878399A1 (fr) Dispositif et procede de debruitage a deux voies mettant en oeuvre une fonction de coherence associee a une utilisation de proprietes psychoacoustiques, et programme d&#39;ordinateur correspondant

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080021380.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10727770

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2012510335

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2010727770

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13320106

Country of ref document: US