L'invention concerne le traitement de la parole en milieu bruité. Elle concerne notamment, mais de façon non limitative, le traitement des signaux de parole captés par des dispositifs de type "mains-libres" pour véhicules automobiles. Ces appareils comportent un microphone ("micro") sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur. Il en est de même si l'on veut mettre en œuvre des techniques de reconnaissance vo- cale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
Cette difficulté liée au bruit ambiant est particulièrement contraignante dans le cas des dispositifs "mains-libres" pour véhicules automobiles. En particulier, la distance importante entre le micro et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnai- res, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pa- vées, autoradio en fonctionnement, etc.
Certains de ces dispositifs prévoient l'utilisation de plusieurs micros, généralement deux micros, et utilisent la moyenne des signaux captés, ou d'autres opérations plus complexes, pour obtenir un signal avec un niveau de perturbations moindre. En particulier, une technique dite beamforming met en œuvre un réseau de microphones de manière à créer par des moyens logiciels relativement simples une directivité qui permet d'améliorer le rapport signal/bruit. Cette technique présuppose toutefois que la position du locuteur par rapport aux micros soit à peu près constante, ce qui est généralement le cas pour un téléphone de voiture utilisé par le conducteur (mais pas par le passager).
De façon générale, dans toutes les techniques dites de beamforming, pour obtenir une efficacité à peu près satisfaisante, un nombre important (au moins supérieur à quatre) de microphones est requis, ce qui n'est pas le cas dans la majorité des applications industrielles.
Pour cette raison, on utilise le plus souvent des techniques mettant en œuvre un seul micro.
Dans ce cas il est préférable d'utiliser un micro unidirectionnel, offrant un meilleur rapport signal/bruit, mais dans une seule direction fixée, et donc pour une seule position du locuteur.
Un tel dispositif "mains-libres" pour véhicule automobile est par exemple décrit dans le WO 2008/049982 A1 (Parrot SA), qui décrit les divers traitements d'annulation et de suppression d'écho, de réduction de bruit, etc., appliqués à un signal capté par un micro unique recueillant le signal acoustique (bruité) du locuteur proche.
L'invention vise un tel système de traitement de la parole ne mettant en œuvre qu'un seul micro (donc différent des systèmes de type beamfor- ming ou autre), mais dans lequel cet (unique) micro est sélectionné automatiquement parmi deux micros distincts, ou parmi plusieurs micros d'un réseau de microphones.
Le but de l'invention est de proposer un procédé permettant de déterminer parmi ces deux micros ou parmi tous les micros du réseau, celui qui capte le signa! de parole le moins bruité, de manière à pouvoir opérer ensuite divers traitements (débruitage, annulation d'écho, etc.) sur le signal capté par le micro ainsi déterminé, désigné ci-après "micro de référence".
On connaît diverses techniques de sélection d'un microphone parmi plusieurs, par exemple dans un dispositif de téléconférence tel que celui décrit par le EP 1 564 980 A1 , comprenant plusieurs micros tournés vers les participants installés autour du dispositif. Ce document décrit des moyens de sélection dynamique aptes à discriminer entre parole et bruit pour n'activer à un instant donné que le micro situé face au locuteur actif. Dans le cas d'un dispositif de type "mains-libres" pour véhicule automobile évoqué plus haut, la situation la plus fréquente (quoique non limitative) est celle d'un système à deux micros. Plusieurs configurations sont alors en- visageables.
Une première configuration consiste à prévoir deux micros directionnels placés assez proches l'un de l'autre, par exemple au deux extrémités de la façade d'un autoradio en partie centrale de l'habitacle du véhicule, l'un des micros ayant le lobe principal de son diagramme de directivité orienté vers le conducteur et l'autre micro, vers le passager.
Une autre configuration consiste à prévoir deux micros éloignés, par exemple placés en hauteur, aux angles extrêmes du plafonnier du véhicule, ou aux deux extrémités de la planche de bord. Dans l'un ou l'autre cas, le micro le plus efficace à sélectionner est le plus souvent celui qui est dirigé vers le locuteur actif (soit le conducteur, soit le passager). Mais il peut être parfois nécessaire de prendre en compte des situations particulières : ainsi, dans le cas d'un motard qui doublerait le véhicule par la gauche, il peut être préférable de sélectionner le micro droit, même si le locuteur est le conducteur. Le but de l'invention est de proposer un système robuste de sélection automatique de microphone pour un système à deux micros (l'invention pouvant bien évidemment s'appliquer à la commutation d'un micro parmi plus de deux micros, par l'application des mêmes algorithmes à chaque paire de micros possibles). L'idée sous-jacente est que, quelle que soit la configuration des micros (rapprochés ou éloignés), il est possible de différencier les prises de son effectuées par chacun des micros en faisant l'hypothèse que le signal capté par l'un des deux micros sera meilleur que l'autre, c'est-à-dire que l'un des micros sera plus à même de capter le signal désiré avec moins de perturbations ou de pertes que l'autre micro.
L'un des principes de base de l'invention consiste à dériver à cet effet un indice de confiance de présence d'une parole pour chacune des deux voies correspondant aux deux micros, et de conditionner la sélection de l'un ou de l'autre de ces micros à une règle de décision fonction, entre au- très, de cet indice de confiance de présence d'une parole.
Ce principe permet d'accroître de façon substantielle la robustesse de la sélection du micro de référence au cours du temps, en fonction de résultats calculés en permanence, en adaptant cette sélection à l'évolution des divers biais et aux variations de l'environnement acoustique. Les buts précités sont atteints par un procédé du type général divulgué le EP 1 564 980 A1 précité, c'est-à-dire un procédé de sélection d'un microphone parmi deux microphones ou plus, pour un système de traitement de la parole multi-microphone opérant dans un environnement bruité, chacun des microphones étant associé à une voie et étant apte à capter un signal acoustique bruité comprenant une composante utile de parole
issue d'une source principale de signal acoustique mêlée à une composante de bruit diffus. Ce procédé comprend des étapes de :
- numérisation des signaux acoustiques captés simultanément par les deux microphones ; - exécution d'une transformation des signaux captés sur les deux voies, de manière à produire une succession de trames dans une série de bandes de fréquences ;
- application d'un algorithme de calcul d'un indice de présence de parole sur chaque voie ; - sélection de l'un des deux microphones par application aux trames successives de chacune des voies d'une règle de décision fonction à la fois d'un critère de sélection de voie et dudit indice de présence de parole ; et
- mise en oeuvre du traitement de la parole à partir du signal acoustique capté par le seul microphone sélectionné.
De façon caractéristique de l'invention :
- la transformation des signaux captés sur les deux voies est une transformation de Fourier à court terme ;
- l'indice de présence de parole est un indice de confiance calculé pour chaque bande de fréquences de chaque trame ; et
- le critère de sélection est calculé par bandes de fréquences sur les seules bandes de fréquences dont l'indice de confiance est supérieur à un premier seuil donné.
Selon diverses caractéristiques subsidiaires de mise en œuvre : - le procédé comprend en outre une étape d'élimination, dans les trames successives, des bandes de fréquences situées au-dessous d'un deuxième seuil donné ;
- l'indice de confiance de présence de parole est une probabilité de présence de parole ; - l'indice de confiance de présence de parole est calculé pour chaque bande de fréquences, et la sélection est opérée si l'indice est supérieur à un troisième seuil donné, dans un nombre de bandes de fréquences supérieur à un quatrième seuil donné ;
- le système de traitement de la parole multi-microphone est un système à microphones directifs rapprochés, et le critère de sélection de voie
est un critère angulaire basé sur une comparaison des phases respectives des signaux simultanément captés sur les deux voies, le microphone à sélectionner étant celui pour lequel le signal est capté avant l'autre ; - le système de traitement de la parole multi-microphone est un système à microphones directifs ou non-directifs éloignés, et le critère de sélection de voie est un critère énergétique basé sur une comparaison des valeurs de rapport signal sur bruit respectives des signaux simultanément captés sur les deux voies, le microphone à sélectionner étant ce- lui pour lequel le rapport signal sur bruit est supérieur à l'autre ;
- la sélection de l'un des deux microphones est opérée conditionnelle- ment seulement si la règle de décision est vérifiée sur un nombre de trames successives supérieur à un cinquième seuil donné ;
- si une sélection de l'un des microphones est décidée, celle-ci est opéré de façon progressive sur un laps de temps de transition donné, par application d'un gain croissant à la voie du microphone à sélectionner et d'un gain décroissant à la voie du microphone à désélectionner.
0
On va maintenant décrire un exemple de mise en œuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références désignent des éléments fonctionnellement semblables. La Figure 1 illustre schématiquement une configuration à deux micros rapprochés.
La Figure 2 illustre schématiquement une configuration à deux micros éloignés.
0
On va maintenant décrire le principe de base de l'invention, et son application aux deux cas de figure évoqués plus haut (micros rapprochés et micros éloignés).
L'hypothèse de base est que l'un des signaux captés par les deux micros est a priori meilleur que l'autre, c'est-à-dire qu'il contient moins de pertur- bâtions ou de pertes que l'autre par rapport au signal de parole utile.
Le but de l'invention est de déterminer parmi les deux signaux captés quel est le meilleur, afin d'appliquer ultérieurement un traitement de la parole (débruitage, annulation d'écho, etc.) à ce seul signal sélectionné, ci-après "signal de référence" ou "signal issu du micro de référence". Deux micros captent un signal émis par une source de signal principale s, et la différence de position entre les micros va induire un ensemble de déphasages et de variations d'amplitude par rapport au signal émis par s. Plus précisément, on aura en fonction de l'instant t :
xn(t) = an χ s(t - τn)+ v,i{ή
où an est l'atténuation d'amplitude due à la perte d'énergie sur le trajet acoustique compris entre la position de la source sonore s et le micro indicé n, τn est le déphasage entre le signal émis et reçu par le micro n, le terme supplémentaire Vn représentant la valeur du champ de bruit diffus à l'endroit où se trouve le micro n.
Si l'on note en majuscules les transformées de Fourier à court terme des signaux ci-dessus, il vient :
Xn(kJ) = dn(k)χ S(k,l)+ Vn(k,l)
où k et / désignent respectivement la bande de fréquences et la trame considérée, avec :
«*„(*) = «.e"'2*'"
où fk est la fréquence centrale de la bande de fréquences indicée par k. On notera que les coefficients dn(k) dépendent uniquement des données géométriques du système et non de la nature du signal émis s. Ces coefficients sont d'ailleurs caractéristiques de la configuration géométrique considérée.
On va maintenant envisager deux cas de figure, à savoir : - configuration à micros rapprochés, où l'on considérera que la distance entre les deux micros est petite devant la distance entre la source et les
micros (une définition mathématique plus précise de cette condition sera donnée plus bas) ; et
- configuration à micros éloignés, où l'on considérera que la distance entre la source et l'un des deux micros est relativement plus grande qu'entre la source et l'autre micro.
Configuration à microphones rapprochés
Cette configuration, illustrée schématiquement Figure 1 , se rencontre par exemple dans le cas où les deux micros sont disposés au niveau de la façade d'un autoradio, lui-même placé en position centrale sur le tableau de bord du véhicule. La distance entre les micros est typiquement de l'ordre de 5 cm, au maximum 10 cm. On utilisera très avantageusement dans cette configuration des micros di- rectifs, orientés de façon différente. Si l'on désigne N et M les deux micros, le micro M aura, idéalement, un diagramme de directivité dont le lobe principal couvre le demi-plan Pm , tandis que le micro JV aura un diagramme de directivité occupant l'autre demi-plan Pn . Dans le cas considéré ici de micros proches, on pourra faire l'approxima- tion que la source sonore émet une onde plane (il suffit que la source soit éloigné d'au moins quelques centimètres des micros) et l'on cherchera simplement à évaluer la direction de propagation de l'onde en question (dans l'espace ou en projection sur un plan particulier). Seule l'information de déphasage entre les micros sera alors utile, et l'on utilisera alors la for- mule :
1
- τ
m = κg(E{X
m{Kl)X
n{Kl)))
où E désigne l'espérance mathématique, qui pourra être évaluée par le calcul de la valeur moyenne du produit considéré sur plusieurs trames. L'hypothèse de "micros rapprochés" peut s'exprimer de manière plus pré- cise par une condition sur la distance l
ιum entre les deux micros, le déphasage Aφ entre x
n(t) et x
m(t) devant appartenir à l'intervalle [-π;π] pour éviter les confusions entre retards et avances, soit :
WJ
n*
.sine
1, < 2*f* -k,,, < π
Si toutefois la distance D est plus grande, il est possible d'utiliser le même algorithme, mais en retirant de l'ensemble analysé les plus hautes fréquences. La fréquence maximale s'exprimera alors :
II suffit de déterminer dans lequel des deux demi-plans Pn ou Pm se si- tue la source. Le problème se ramène donc à l'étude du signe de l'ex- pression aτg(E(Xm (k, I)Xn (Jc, I))) :
ùgn[θn%n (K /)] = sign[τn -τm] = sign[κg(E(Xm (K I)Xn (K /)))]
Théoriquement, pour une trame donnée, les angles θn m(k,l) devraient être les mêmes pour toutes les fréquences. En pratique, la composante de bruit introduit de légères variations. Le signe de :
τn ~ τm = -±-*rg(E(xm (k, I)Xn(U)))
va donc être calculé pour différentes fréquences, et une décision globale sera prise en fonction de la répartition des résultats par fréquences, en calculant une somme de décisions élémentaires non pondérées. En pratique, divers bruits de phase entrent en jeu et pour de faibles valeurs de θlι m(k,l) \a détermination du signe de θn m(k,l) peut être biaisée. Toutefois, la formule :
1^^ {τn - τm )+ φbruιt = Kg(E(X1n(Kl)Xn(Kl))) c
met en évidence le fait que le terme de bruit aura moins d'impact dans les hautes fréquences. Par conséquent, les calculs réalisés pour de faibles
valeurs de k seront moins fiables, notamment si l'angle d'incidence du signal est petit. Il sera donc souhaitable d'utiliser une pondération avec un indice de confiance plus élevé dans les hautes fréquences. Comme il ne s'agit pas ici d'une moyenne, mais seulement d'un décompte des signes sur un ensemble de fréquences, on peut exclure de ce calcul les fréquences les plus basses (celles pour lesquelles k ≤ kmm ). En définitive, la règle de sélection sera la suivante (NbPlusThreshold étant un seuil prédéterminé) :
pour la trame / :
• M est meilleur micro si Card(E+) - Card(E.) > NbPlusThreshold
• N est meilleur micro si Card(E.) - Card(E+) > NbPlusThreshold
• Aucune décision sinon avec : (yc,/)))> o]
(k,l))) < θ)
En d'autres termes, au lieu de mesurer l'angle d'incidence du signal issu de la source à partir des déphasages relatifs des signaux captés par les micros, on détermine le signe de l'expression ci-dessus pour chaque bande d'un sous-ensemble de bandes de fréquences, et l'on décompte ces signes. Si le décompte montre une majorité significative (déterminée par le seuil NbPlusThreshold) en faveur de l'un des micros N ou M, alors celui-ci sera considéré comme le micro de référence.
Configuration à deux micros éloignés
Cette configuration est illustrée schématiquement Figure 2. La distance entre les micros est ici de l'ordre de 1 à 1 ,5 m, correspondant par exemple à une installation dans laquelle les deux micros sont placés de chaque côté du plafonnier de l'habitacle du véhicule. Dans cette configuration, l'information de déphasage n'est plus exploitable car la distance entre les deux microphones est trop élevée (corrélation insuffisante et confusion entre retard et avance).
En revanche, les termes an et am d'atténuation du signal sont beaucoup plus pertinents. En effet, dans le signal capté globalement par l'un des micros, la contribution de la source, c'est-à-dire le signal utile, sera d'autant plus faible que ce micro sera éloigné de ladite source. II n'est ici plus nécessaire d'utiliser des micros directifs pour différencier les deux prises de son. En effet, cette différenciation sera intrinsèque à la position des micros par rapport à la source : par exemple, dans le cas d'une automobile, l'un des micros sera beaucoup plus proche du conducteur et l'autre, du passager. Le bruit sera donc toujours plus atténué dans le signal capté par l'un des micros que dans le signal capté par l'autre.
Le principe de base consiste, dans ces conditions, à utiliser comme critère de sélection la valeur du rapport signal/bruit. Le critère de sélection n'est donc plus un critère angulaire, comme dans les cas des micros rapprochés, mais un critère énergétique. La décision sera prise par rapport à un seuil ΔSNRThreshold sur le même principe que pour le critère angulaire dans la configuration en micros rapprochés. La règne de décision sera la suivante :
pour la trame / : • M est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold
• N est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold
Aucune décision sinon avec :
Vm(k,l) et Vn(Ic, l) désignant les estimées de la composante de bruit respectivement captée par les micros M et N .
Renforcement de la robustesse de la sélection du micro de référence
Les techniques de sélection automatique du micro de référence sont sujettes à divers biais liés au bruit et aux approximations de calcul.
Pour éviter un trop grand nombre de mauvaises détections, la présente invention propose de compléter ces techniques de sélection automatique par un mécanisme global procurant une très grande robustesse aux bruits diffus, et efficace quelle que soit la technique de traitement appliquée en- suite au signal de référence sélectionné (intercorrélation, sommation, ...). Essentiellement, l'invention propose de dériver un indice de confiance de présence de parole dans chacun des signaux captés par les micros, et de conditionner la sélection du micro de référence à un niveau minimal de cet indice de confiance de présence de parole. II est en effet inutile de vouloir sélectionner l'un des deux micros plutôt que l'autre si le signal utile de la source (la parole du locuteur) est nul. Il conviendra donc de n'appliquer les critères de sélection indiqués plus haut que sur les trames pour lesquelles le signal de la source est - vraisemblablement - présent. L'indice de confiance peut être notamment une probabilité de présence de parole, calculée de la manière décrite par le WO 2007/099222 A1 (Parrot SA) par exemple, qui décrit un procédé de débruitage impliquant le calcul d'une telle probabilité, procédé dérivé d'une technique exposée par I. Cohen et B. Berdugo, Speech Enhancement for Non-Stationary Noise Envi- ronments, Signal Processing, Elsevier, Vol. 81 , pp. 2403-2418, 2001.
Le calcul d'une probabilité de présence de parole (ou toute autre technique connue comparable), décrit dans le cadre d'un traitement de réduction de bruit pour lequel le signal de la source correspond à un signal de parole, peut être appliqué à la présente invention pour accroître la robus- tesse de l'algorithme de sélection du micro de référence (avant donc tout traitement de débruitage).
Comme fréquemment dans le domaine du débruitage d'un signal de parole mêlé à une composante de bruit, il ne s'agit pas d'identifier précisément sur quelles composantes fréquentielles de quelles trames la parole est présente ou absente, mais de fournir un indice de confiance compris entre 0 et 1 , une valeur 1 indiquant que la parole est (selon l'algorithme) absente à coup sûr, tandis qu'une valeur 0 indique le contraire. De par sa nature, cet indice est assimilable à la probabilité d'absence de la parole a priori, c'est à dire la probabilité que la parole soit absente sur une compo- santé fréquentielle donnée de la trame considérée.
La probabilité de présence de parole P?resProba peut donc être utilisée comme un critère supplémentaire pour conditionner la sélection d'un micro ou de l'autre, en la comparant à un seuil prédéterminé PresProba- Threshold : on ne retiendra ainsi, pour appliquer la règle de sélection, que l'ensemble F(/) des "fréquences pertinentes" telles que l'on ait, pour chaque trame / du signal :
F(I) = [kt.q.PPτesPτoba (kJ) > Vτes?τobaTreshold]
Si cet ensemble formé des fréquences contenues dans le signal utile est trop petit (c'est-à-dire si Card(F (I)) < MinSize ), on ne prendra aucune décision pour la trame courante /, Ce critère permet, au même titre que l'introduction des seuils NbPlusThreshold ou ASNRThreshold , de limiter et de contrôler le nombre de décisions erronées. Dans le cas contraire (c'est-à-dire si Card(F(l)) > MinSize ), le calcul de sélection du meilleur micro sera effectué à partir des seules fréquences pertinentes, les fréquences pour lesquelles le contenu de la source est nul (pas de parole) n'étant pas retenues pour la prise de décision. Les deux règles explicitées plus haut de sélection du meilleur micro pour une trame se réécrivent donc comme suit.
Dans le premier cas de figure (micros rapprochés) :
pour la trame /
• M est meilleur micro si Card(£+) - Caτd(E.) > NbPlusThreshold et si Catd(F(l)) > MinSize
• N est meilleur micro si Card(£.) - CardCδï) > NbPlusThreshold et si Card(F(l)) > MinSize
• Aucune décision sinon avec :
X = {k <= F{l) t.q. k > kmm et aτg{ε{x,n (k,l)Xn (k,l)))> 0 E_ = {k ≡ F(I) t.q. k > kmm et arg(i< (X (k, I)Xn (k, I))) < 0
Dans le second cas de figure (micros éloignés) :
pour la trame /
• M est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold et si C∞à(F(l)) > MinSize
• N est meilleur micro si SNRn(I) - SNRn(I) > ΔSNRThreshold et Si CaVd(F(I)) > MinSize
• Aucune décision sinon avec :
SNRm(l)= k^ , { λ et SNRn[I) = λ6™ , ∑K,(kj) ∑V,,(k,l) fceF(0 keF(l)
Changement de microphone de référence
L'un des intérêts du système selon l'invention est de pouvoir suivre les déplacements de la source, donc de changer de micro de référence au cours du temps lorsque la source est mobile, ou que deux sources émettent en alternance (par exemple le conducteur et le passager du véhicule). Pour disposer d'un système stable, il est toutefois important de ne pas changer de micro trop brutalement ni trop fréquemment. Pour ce faire, l'invention propose également de rendre plus robuste les phases de changement de micro de référence.
Pour éviter les commutations intempestives, i! est possible de conditionner la commutation d'un micro de référence vers l'autre (M au lieu de N, ou l'inverse) à un certain nombre de règles de stabilité telles que :
- le micro de référence ne sera modifié que si plusieurs itérations consé- cutives de l'algorithme de sélection du meilleur micro par trame conduisent à une décision de changement de micro de référence et/ou
- le changement de micro ne sera pas soudain, mais sera opéré progressivement, sur plusieurs trames consécutives en appliquant un gain variable, croissant sur l'un des micros et décroissant sur l'autre, de ma- nière à obtenir un effet de "fondu" progressif.