WO2008029270A2 - Traitement d'un signal vocal, en vue d'une comparaison a une reference - Google Patents

Traitement d'un signal vocal, en vue d'une comparaison a une reference Download PDF

Info

Publication number
WO2008029270A2
WO2008029270A2 PCT/IB2007/002670 IB2007002670W WO2008029270A2 WO 2008029270 A2 WO2008029270 A2 WO 2008029270A2 IB 2007002670 W IB2007002670 W IB 2007002670W WO 2008029270 A2 WO2008029270 A2 WO 2008029270A2
Authority
WO
WIPO (PCT)
Prior art keywords
vector
voice signal
similarity
centering
normalization
Prior art date
Application number
PCT/IB2007/002670
Other languages
English (en)
Other versions
WO2008029270A3 (fr
Inventor
Delphine Charlet
Mikaël COLLET
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP07825117A priority Critical patent/EP2102854A2/fr
Publication of WO2008029270A2 publication Critical patent/WO2008029270A2/fr
Publication of WO2008029270A3 publication Critical patent/WO2008029270A3/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Abstract

La présente invention concerne le traitement d'un signal vocal (X), en vue d'une comparaison à une référence (Y), notamment dans des applications d'identification vocale, de vérification de l'identité d'un locuteur, ou autres. Selon l'invention, le signal vocal est mis sous forme vectorielle (E-12) dans une base vectorielle de modèles d'ancrage, et on applique une normalisation (E-13) de la forme vectorielle obtenue, par centrage et analyse en composantes principales de la forme vectorielle ainsi centrée. Une telle normalisation (E-13) permet de mener ensuite une mesure de similarité (E-14) qui est sensible au centrage, telle qu'une mesure de similarité angulaire, entre les formes vectorielles normalisées du signal vocal et de la référence. Des essais ont révélé qu'une telle mesure est particulièrement robuste.

Description

TRAITEMENT D'UN SIGNAL VOCAL, EN VUE D'UNE COMPARAISON
A UNE REFERENCE
La présente invention concerne une analyse de signaux vocaux, notamment dans des applications d'indexation de documents audio, ou d'identification acoustique de locuteurs, ou de vérification de l'identité d'un locuteur, ou autres.
Une analyse de signaux vocaux, notamment dans ce type d'applications, est décrite dans le document WO-2005/015547.
Comme dans WO-2005/015547, la présente invention se situe dans le cadre de la technique de représentation d'un locuteur à identifier par des modèles d'ancrage. On rappelle brièvement ici que cette technique, décrite notamment dans le document :
"Speaker indexing in large audio databases using anchor models", D.E. Sturim, D. A. Reynolds, E. Singer, J.P. Campbell,
IEEE International Conférence On Acoustics, Speech, and Signal Processing (Proceedings), Mai 2001, revient à évaluer la proximité entre le locuteur à identifier et des locuteurs de référence, au moyen d'un calcul de distance. Dans les deux documents précités, cette distance est euclidienne. On constitue à cet effet un ensemble prédéterminé de représentations de locuteurs, appelés "locuteurs d'ancrage", ou encore "modèles d'ancrage".
Plus particulièrement, la présente invention vise une amélioration de la normalisation des vecteurs intervenant dans le calcul de distance dans le cadre d'une représentation d'un locuteur par des modèles d'ancrage. La normalisation permet de placer les vecteurs dans un espace de comparabilité commun. Toutefois, la normalisation, dans le contexte de l'invention, nécessite actuellement un perfectionnement pour améliorer la robustesse des mesures de similarité entre vecteurs.
Deux approches distinctes, dans l'état de l'art, ont tenté de répondre à ce besoin. La première approche vise une normalisation dite "Z-Norm". Dans le cadre d'un système de vérification de l'identité d'un locuteur, le seuil de décision optimal est différent selon le locuteur à reconnaître. Il a été proposé des techniques de normalisation du score de décision permettant de diminuer la variabilité du seuil optimal. Une technique connue est la normalisation Z-Norm (pour "Zéro normalisation") proposée dans le document :
"Score normalization for text-independent speaker vérification Systems",
R. Auckenthaler, M. Carey, H. Lloyd-Thomas,
Digital Signal Processing, 10 : 42 - 54 (2000). Elle consiste, pour chaque locuteur à reconnaître, à centrer et réduire le score de décision par rapport à une distribution de scores dite "imposteur". Les paramètres de cette distribution sont estimés à partir des scores de décision d'un ensemble d'énoncés de test imposteurs pour le modèle du locuteur à reconnaître.
Cette technique de normalisation peut également être appliquée dans le cadre de la représentation du locuteur par les modèles d'ancrage. En effet, dans le cadre de cette approche, le locuteur est représenté par un vecteur de scores de décision par rapport à un ensemble de E locuteurs d'ancrage. Ainsi, il est possible d'appliquer cette technique de normalisation à chaque composante de vecteur (parmi E composantes au total) en estimant les paramètres à partir d'un ensemble de M énoncés vocaux appartenant à des locuteurs qui sont différents des locuteurs d'ancrage.
Mathématiquement, ces propriétés s'expriment comme suit. En notant Ϋk (avec k = 1, ..., M) l'ensemble des vecteurs des locuteurs imposteurs, pour un locuteur X, la normalisation Z-Norm du vecteur X est définie par :
Figure imgf000005_0001
ou :
- yk représente la i-ème composante du vecteur du locuteur imposteur k, et
- σ0 et μ0 représentent les paramètres de normalisation de la i-ème composante du vecteur X .
Toutefois, cette technique normalise chacune des composantes des vecteurs indépendamment des autres composantes. Les corrélations entre les axes de l'espace des locuteurs d'ancrage ne sont alors pas prises en compte.
Une seconde approche de l'art antérieur consiste à normaliser les vecteurs par analyse en composantes principales (ou "ACP"), au sens du document :
"Speaker identification by anchor models with PCA/LDA post-processing" ,
Y. Mami, D. Charlet,
IEEE International Conférence on Acoustics, Speech and Signal Processing,
1: 181-183, 2003.
Il s'agit d'une autre technique de normalisation de vecteurs dans le cadre de la technique des modèles d'ancrage. La normalisation des vecteurs par analyse en composantes principales (ACP) consiste à projeter les vecteurs dans un espace orthogonal, c'est-à-dire un espace où tous les axes (correspondant aux locuteurs d'ancrage) ont la même inertie et sont donc décorrélés. Cette technique tient alors compte des corrélations entre les locuteurs d'ancrage. La matrice de transformation par ACP est donnée par :
1 ACP =κ2 u - A -
où Ay et U sont respectivement les matrices des valeurs propres et des vecteurs propres de la matrice de covariance de M vecteurs correspondant à des énoncés vocaux de locuteurs qui ne sont pas les locuteurs d'ancrage.
La formule de normalisation d'un vecteur X est alors la suivante : XACP = TΛCP X
Néanmoins, cette technique, quoique prometteuse car elle tient bien compte des corrélations entre les locuteurs d'ancrage, ne centre pas les vecteurs comme en normalisation Z-Norm. Dans ce cas, l'utilisation d'une mesure de similarité sensible au centrage des vecteurs (par exemple la mesure de similarité angulaire qui sera décrite plus loin) n'est pas adaptée et les performances de l'analyse en pâtissent.
La présente invention vient améliorer la situation.
A cet effet, elle propose tout d'abord un procédé de traitement d'un signal vocal à comparer à au moins une référence, dans lequel le signal vocal est mis sous forme vectorielle dans une base vectorielle déterminée à partir de modèles d'ancrage, pour effectuer ensuite une mesure de similarité entre la forme vectorielle du signal vocal et une forme vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle.
Au sens de l'invention, la mise sous forme vectorielle du signal vocal comporte une normalisation impliquant : - un centrage de la forme vectorielle autour d'au moins un vecteur moyen déterminé par analyse statistique, et
- une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par application d'une matrice représentative d'une variance déterminée aussi par analyse statistique. L'ensemble des échantillons qui a permis de mener l'analyse statistique pour le calcul du vecteur moyen peut être différent ou identique à celui qui a permis de calculer la matrice représentative d'une variance.
On entend ici par le terme "variance" tout type de fonction statistique représentative d'un écart par rapport à une ou plusieurs moyennes, telle qu'une covariance, un écart-type, etc.
D'ailleurs, dans un mode de réalisation, la matrice appliquée pour la projection dans l'espace de comparaison est issue d'une matrice de covariance, sensiblement du même type que celle intervenant dans une analyse en composantes principales décrite ci-avant. Plus précisément, le traitement qui suit le centrage des formes vectorielles consiste en une projection dans un nouvel espace de comparaison, les axes de cette projection étant obtenus par l'analyse en composantes principales d'un corpus de développement sur lequel est réalisée l'analyse statistique qui permet donc d'obtenir la matrice de covariance. On rappelle que les calculs intervenants dans une analyse en composantes principales sont typiquement le calcul des vecteurs propres associés à la matrice de covariance, comme décrit dans la référence donnée ci-avant :
"Speaker identification by anchor models with PCA/LDA post-processing" , Y. Mami, D. Charlet,
IEEE International Conférence on Acoustics, Speech and Signal Processing, 1: 181-183, 2003.
L'expression de cette matrice peut, bien entendu, être modifiée pour la mise en œuvre de l'invention, par exemple pour tenir compte d'une transformation choisie à appliquer telle qu'une rotation d'axe, ou autre.
La présente invention vise, outre le procédé défini ci-avant, un dispositif de comparaison d'un signal vocal à une référence, le dispositif comportant un module de normalisation pour la mise en œuvre de l'invention. L'invention vise aussi le module de normalisation en tant que tel, ainsi qu'un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé au sens de l'invention lorsqu'il est exécuté sur un dispositif, notamment le dispositif précité de comparaison d'un signal vocal à une référence.
Selon un avantage global que procure alors la présente invention, la combinaison des deux caractéristiques, de centrage des vecteurs et de projection en tenant compte des corrélations entre les axes de l'espace d'ancrage, permet d'appliquer ensuite une mesure de similarité sensible au centrage qui s'est avérée particulièrement robuste, selon les essais présentés dans la description détaillée ci-après. Il est rappelé qu'une mesure de similarité dite "sensible au centrage" a la particularité d'être affectée par la soustraction (ou l'addition) d'un même vecteur a, aux deux vecteurs X et Y dont on mesure la distance (habituellement notée d{X,Y)), ce qui s'exprime mathématiquement par : d (X, Y) ≠ d {X -a, Y -a) , quelque soit le vecteur a non nul.
D'ailleurs, d'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :
- la figure 1 illustre schématiquement les étapes d'un procédé au sens de l'invention,
- la figure 2 illustre schématiquement les éléments d'un dispositif au sens de l'invention.
La formule de normalisation au sens de l'invention, d'un vecteur X , est donnée par :
- une expression d'une matrice de covariance, comme en analyse en composantes principales,
- mais appliquée à la différence entre le vecteur X et le vecteur moyen sur plusieurs énoncés vocaux par des locuteurs qui sont différents des locuteurs d'ancrage, comme en normalisation Z-Norm.
Plus précisément, cette formule est préférentiellement la suivante :
Figure imgf000008_0001
Mo J où ∑o et μ0 sont respectivement la matrice de covariance et le vecteur moyen des M vec- teurs correspondant aux énoncés vocaux des locuteurs d'un ensemble de développement (différents des locuteurs d'ancrage). Le vecteur moyen μ0 est utilisé ici pour centrer les vecteurs, avantageusement comme en normalisation Z-Norm, tandis que la matrice de covariance ∑o est utilisée ici pour projeter les vecteurs dans l'espace où, avantageusement, les axes sont décorrélés, comme en analyse en composantes principales.
Cette technique, notée ci-après "VZ-Norm" (pour "Vectoriel Z-Norm"), peut être interprétée comme une extension au cas vectoriel de la normalisation Z-Norm de l'art antérieur. En effet, la normalisation Z-Norm de l'art antérieur apparaît comme un cas particulier de la normalisation VZ-Norm au sens de l'invention, cas particulier dans lequel la matrice de covariance ∑o est diagonale. On peut se référer utilement à la relation (1) donnée ci-avant en référence à l'art antérieur, où les éléments de la matrice de covariance ∑o , qui serait diagonale, sont :
_1_ J_ J_ σo, σo2 σoE
Dans le cadre d'un processus de classification des vecteurs, il est utile de choisir un type approprié de mesure de similarité entre vecteurs. Afin de tirer avantage du centrage des vecteurs, une mesure de similarité sensible au centrage, par exemple la mesure de similarité angulaire décrite ci-après, peut être choisie.
A titre d'exemple de réalisation dans ce qui suit, on considère une application de l'invention à un système de vérification de l'identité d'un locuteur. Il s'agit de déterminer si l'identité de la personne ayant prononcé un message donné est bien celle proclamée par cette même personne. Pour ce faire, on a stocké un enregistrement vocal X d'un locuteur et on demande à un individu qui prétend être ce locuteur de déclamer un énoncé correspondant, de test, noté Y ci-après. L'enregistrement vocal X et l'énoncé de test Y sont respectivement représentés par les vecteurs X et Ϋ dans l'espace des modèles d'ancrage. La vérification de l'identité du locuteur consiste à : - mesurer une similarité entre les vecteurs X et Ϋ ,
- puis décider si l'énoncé de test y a bien été prononcé par le locuteur à reconnaître.
La vérification de l'identité du locuteur se décompose en trois phases.
Une première phase consiste à calculer les vecteurs X et Ϋ représentant respectivement l'énoncé de référence du locuteur à reconnaître X et l'énoncé de test Y. On rappelle que dans le cadre de la technique des modèles d'ancrage, le vecteur représentant un énoncé est défini comme l'ensemble des scores de vraisemblance entre l'énoncé proprement dit et les modèles des locuteurs d'ancrage. Le perfectionnement apporté par l'invention ne concerne pas particulièrement cette première étape. Toutefois, à toutes fins utiles, l'homme du métier pourra obtenir des détails de réalisation de cette première étape notamment dans le document :
"A corrélation metricfor speaker tracking using anchor models", M. Collet, D. Charlet, F. Bimbot, ICASSP 2005 (proceedings), 1 : 713-716
(paragraphe "3.1. Concept of anchor models")
Une seconde phase consiste à normaliser les vecteurs X et Ϋ en utilisant la technique VZ-Norm au sens de l'invention, soit :
Xyi-Han* = V (X ~ Mo ) * Yn^ = ∑7 (Ϋ ~ M0 )
Une troisième phase consiste à calculer une mesure de similarité entre les vecteurs normalisés afin de décider si l'énoncé de test Y a bien été prononcé par le locuteur X à reconnaître. La mesure de similarité utilisée, sensible au centrage, est préférentiellement la mesure de similarité angulaire dans cet exemple de réalisation, donnée par :
XvZ-NNoσTrmmY.1 v VIZ-Norm
Figure imgf000010_0001
wyj XvZ-NσrmXvZ-Norm^VZ-NormYvz-Norm. On détaille ci-après des aspects de la deuxième phase précitée, de normalisation au sens de l'invention.
La matrice de covariance ∑o et le vecteur moyen μϋ sont estimés à partir d'un ensemble de M énoncés L' (avec i = 1 , ... , M), issus d'un corpus de développement et prononcés par des locuteurs différents des locuteurs d'ancrage. En effet, les locuteurs du corpus "d'apprentissage", permettant de construire par analyse statistique la matrice de covariance ∑o et le vecteur moyen μ0, sont choisis intentionnellement distincts des locuteurs d'ancrage qui, eux, constituent "les axes" de l'espace de comparaison. La construction de la matrice de covariance, notamment, est une manière "d'apprendre" comment d'autres locuteurs pourraient être distribués autour des axes de l'espace de comparaison, de sorte qu'il n'y a aucun intérêt à choisir des locuteurs du corpus d'apprentissage parmi les locuteurs d'ancrage.
Chaque énoncé étant représenté par un vecteur noté Ë , on a les relations :
Figure imgf000011_0001
où :
- Ëj est la j-ème composante du vecteur représentant le i-ème énoncé du corpus,
- chaque terme μ0j est une composante du vecteur moyen μo, - et chaque terme (∑Oji/.) représente finalement un coefficient (j-ème ligne, j'-ème colonne) de la matrice de covariance ∑o , matrice qui bien entendu est symétrique.
Bien entendu, chaque énoncé E du corpus d'apprentissage est mis sous forme vectorielle Ë dans la base des modèles d'apprentissage, sans être normalisé au sens de l'invention.
Le tableau ci-après présente les performances de cinq types de vérification de locuteurs.
Les performances de vérification de locuteur sont évaluées en termes de faux rejets (FR) et de fausses alarmes (FA), avec : FR = (Nombre de tentatives client rejetées)/(Nombre total de tentatives client) et t
FA = (Nombre de tentatives imposteur acceptées)/(Nombre total de tentatives imposteur)
Le niveau de fonctionnement d'un système de vérification du locuteur est défini par le taux d'égale erreur (ou EER pour "Errer Equal Rate"), qui est obtenu lorsque le taux de fausses alarmes est égal au taux de faux rejets. Plus ce taux EER est faible et meilleurs sont les résultats.
Figure imgf000012_0001
On rappelle ici que la mesure de similarité euclidienne est insensible au centrage, contrairement à la mesure de similarité angulaire.
Ce tableau permet de constater que la technique de normalisation VZ-Norm, associée à la mesure de similarité angulaire, améliore significativement les performances de vérification du locuteur par rapport aux techniques de l'état de l'art (normalisation Z-Norm ou ACP sans centrage). La comparaison des performances indique que la combinaison de trois éléments est très avantageuse pour obtenir cette amélioration significative. Ces trois éléments sont :
- le centrage des vecteurs,
- la projection des vecteurs dans un espace où les axes sont décorrélés,
- l'utilisation d'une mesure de similarité sensible au centrage.
En effet, il a été mesuré que la suppression du centrage des vecteurs diminue les - H -
performances de 144 %. La suppression de la projection des vecteurs dans un espace où les axes sont décorrélés diminue les performances de 73 %. L'utilisation d'une mesure de similarité insensible au centrage (par exemple euclidienne) diminue les performances de 166 %.
On indique ici qu'il n'a jamais été proposé dans l'art antérieur connu d'appliquer une projection sur des vecteurs centrés dans un espace de comparaison selon des axes issus d'une analyse en composantes principales, ni a fortiori d'effectuer une mesure de similarité sensible au centrage sur les vecteurs ainsi obtenus, la mesure habituellement effectuée sur des vecteurs non centrés puis transformés étant typiquement une distance euclidienne comme dans :
"Speaker indexing in large audio databases using anchor models",
D.E. Sturim, D.A. Reynolds, E. Singer, J.P. Campbell,
IEEE International Conférence On Acoustics, Speech, and Signal Processing (Proceedings), Mai 2001.
La mesure de similarité sensible au centrage, combinée à une projection dans un espace dont les axes résultent d'une ACP, au sens de l'invention, s'est avérée particulièrement robuste selon les essais du tableau ci-avant, en procurant un effet qui va bien au-delà des espérances qu'un homme du métier aurait pu formuler dans la simple adjonction de ces caractéristiques.
On se réfère maintenant aux figures pour décrire les étapes et éléments intervenant dans un mode de réalisation de l'invention, à titre d'exemple dans une application de vérification d'identité d'un locuteur.
En référence à la figure 1, un locuteur ayant prononcé un énoncé de test Y (étape V-10) prétend être un locuteur X déjà enregistré dans un système de vérification vocale (étape V- 11). Les variables d'entrée X et Y sont transformées en vecteurs respectifs X et Ϋ dans l'espace des locuteurs d'ancrage (étape E- 12), selon la première phase décrite précédemment. La deuxième phase (étape E- 13) consiste à transformer les vecteurs X et Ϋ par la normalisation centrée VZ-Norm au sens de l'invention. A cet effet, on applique les relations du type donné ci-avant :
XVZ-H*. = ^ (X-μ0) et Ϋ^Norm = ∑? {Ϋ -Mo)
Pour ce faire, on a préalablement calculé et enregistré (étape V- 18) les coordonnées du vecteur moyen μo et les coefficients de la matrice de covariance Σ 0, à l'aide d'une base d'apprentissage dont les locuteurs sont différents des locuteurs d'ancrage (relations (2) données précédemment).
L'étape E- 14 de la figure 1 consiste à mesurer la distance δ entre l'enregistrement du locuteur X et l'énoncé de test Y. Comme décrit ci-avant pour la mise en œuvre de la troisième phase précitée, on applique, grâce à la mise en œuvre de l'invention, une mesure sensible au centrage, telle que la mesure d'une similarité angulaire (par exemple en utilisant une fonction arc-cosinus comme indiqué précédemment). Suite à cette étape E- 14, on obtient une valeur de mesure δ qu'il convient de comparer à un seuil de décision THR au test T- 15. Dans l'application décrite ici propre à la vérification du locuteur X, si la mesure est inférieure au seuil fixé THR, alors le locuteur X est bien reconnu (flèche OK en sortie du test T- 15 et menant à l'étape de décision D- 16). Sinon (flèche KO en sortie du test
T- 15 et menant à l'étape de décision D- 17), l'identité du locuteur X n'est pas vérifiée et, par exemple, une requête d'accès à un site ou à un service d'un individu qui se prétend être le locuteur X est rejetée.
On a représenté sur la figure 2, à titre d'exemple, quelques éléments d'un dispositif de vérification d'identité d'un locuteur, pour la mise en œuvre du procédé illustré sur la figure 1.
Le dispositif VER de la figure 2 comporte une entrée IN-2 par laquelle le dispositif reçoit une consigne de vérifier l'identité d'un locuteur X déjà répertorié. Un module de pointage 10 recherche dans une base de données DB2 un enregistrement vocal du locuteur X (ou une expression mathématique décrite plus loin d'un tel enregistrement). Le dispositif VER comporte en outre une entrée IN-I pour recevoir un signal vocal correspondant à un énoncé de test Y prononcé par le locuteur dont l'identité est à vérifier. A cet effet, le locuteur prononce un énoncé de test Y (par exemple un énoncé de parole) dans un microphone MIC et le signal électrique résultant est traité par un module de mise en forme 11 avant d'être appliqué en entrée IN-I du dispositif VER.
Le dispositif VER comporte alors au moins une mémoire pour stocker durablement :
- la base de données DB2, précitée, comportant les énoncés X, équivalents à l'énoncé de test Y, et entrés par des locuteurs répertoriés par le dispositif de vérification,
- éventuellement, une base de données DB3, des modèles d'ancrage et qui permet à un module 12 de délivrer l'énoncé de test Y sous forme vectorielle Ϋ , et
- éventuellement, une base de données DBl comportant par exemple un ensemble de M énoncés issus d'un corpus d'apprentissage permettant à un module de calcul 18 de déterminer le vecteur moyen μo et la matrice de covariance ∑o , bien qu'en variante, il suffit de stocker d'emblée les coordonnées du vecteur moyen μo et les coefficients de la matrice de covariance ∑o dans un emplacement mémoire 18, la mise en œuvre tel que représentée sur la figure 2 permettant néanmoins d'enrichir progressivement la base de données DBl et/ou la base de données DB3.
Le module de calcul, proprement dit, du dispositif VER, portant la référence 14 sur la figure 2, normalise au sens de l'invention les vecteurs X et Ϋ (application de la normalisation VZ-Norm à partir du vecteur moyen μ0 et de la matrice de covariance ∑o ) et calcule la mesure δ de la similarité, par exemple angulaire, entre les deux vecteurs ainsi normalisés. Le module de calcul 14 met en œuvre ainsi les étapes E-12, E-13 et E-14 de la figure 1.
En variante, la base de données DB2 peut stocker les expressions des locuteurs X directement sous forme vectorielle normalisée Xyz_Norm pour gagner du temps de traitement. Ainsi, le module de calcul 14 n'a qu'à calculer l'expression Ϋy2_Norm permettant ensuite de déterminer une mesure de similarité sensible au centrage, telle qu'une mesure de similarité angulaire.
On comprendra alors que la présente invention vise un tel module de calcul 14, permettant de réaliser au moins l'étape E- 13 de la figure 1, pour le calcul de la normalisation "centrée" Ϋyz-Norm au sens ^e l'invention, à tout le moins sur l'énoncé de test Y. La présente invention vise aussi le dispositif VER comportant un tel module de calcul 14. Elle vise aussi le produit programme d'ordinateur comportant des instructions pour réaliser au moins l'étape de normalisation E- 13 de la figure 1 sur l'énoncé de test Y, lorsqu'un tel programme est exécuté par un processeur.
Le dispositif de vérification VER comporte enfin un module de décision 15 qui compare la mesure de similarité δ à un seuil de référence et valide ou non la vérification du locuteur X en fonction de cette comparaison. On peut prévoir ensuite que ce module de décision 15 soit relié à une interface de communication, en sortie OUT du dispositif de vérification VER, pour communiquer le résultat de la vérification (par exemple en vue d'un affichage LED ou sur un écran, ou en vue d'une diffusion d'un message audio sur un haut-parleur, ou autre).
Bien entendu, le module de calcul 14, ainsi d'ailleurs que le dispositif VER dans son ensemble, comportent des moyens de calcul informatique usuels tels qu'un processeur, une mémoire de travail, etc.
Il a été choisi de décrire ci-avant l'application de vérification d'un locuteur pour des raisons de clarté de l'exposé. En effet, dans une variante d'application par exemple d'identification d'un locuteur X répertorié dans un dispositif d'identification, le locuteur X ne proclame pas a priori son identité (suppression de l'entrée IN-2 du dispositif représenté sur la figure 2) et son énoncé de test Y est comparé à une batterie d'enregistrements stockés dans une base de données DB2, de sorte que l'on prévoit plutôt une pluralité de tests T- 15 (figure 1) dont les seuils de comparaison peuvent être différents du seuil THR requis pour une vérification d'identité. On comprendra que l'invention intervient néanmoins de la même manière dans les deux applications, avec en particulier un centrage des vecteurs et une projection dans un espace ou les axes sont décorrélés (normalisation VZ-Norm) et, selon un avantage qui découle de ces caractéristiques, l'application ensuite d'une mesure de similarité sensible au centrage.
L'invention se situe donc dans la manière de donner une mesure de similarité robuste et, par conséquent, beaucoup d'autres applications, distinctes d'une identification ou d'une vérification d'identité, peuvent être encore prévues. On peut citer à titre d'exemple une segmentation en locuteurs différents dans un même flux audio. Il s'agit alors de marquer dans le flux chaque changement de locuteur. Un autre exemple d'application est le regroupement en locuteurs et consiste à mettre bout à bout les énoncés propres à un même locuteur intervenant à différents instants d'un flux audio. Une autre application est le suivi de locuteurs et consiste à identifier les passages d'un flux audio où intervient un même locuteur. En pratique, dans cette dernière application, on recherche un locuteur précis dans un flux audio d'une taille considérable.
De manière plus générale, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Ainsi, on comprendra par exemple que les relations (2) ci-avant pour le calcul des composantes du vecteur moyen μ0 et des coefficients de la matrice de covariance ∑o , sont données simplement dans un exemple de réalisation où l'on considère un calcul statistique interclasse. En variante, par exemple pour un calcul statistique intra-classe, on dispose d'une pluralité de classes d'énoncés Ë et le centrage des vecteurs dans le calcul de la matrice de covariance s'effectue par soustraction d'une moyenne propre à chaque classe.
Ci-avant, on a décrit comme exemple de réalisation d'une mesure de similarité sensible au centrage, une mesure de similarité angulaire. Néanmoins, une telle mesure admet une pluralité de variantes. Par exemple, il peut être prévu en variante d'une mesure de similarité angulaire, en tant qu'autre mesure de similarité sensible au centrage, une mesure de corrélation avec calcul de coefficients de corrélation linéaire entre deux vecteurs X et Y , comme décrit notamment dans :
"A corrélation metricfor speaker tracking using anchor models",
M. Collet, D. Charlet, F. Bimbot, ICASSP 2005 (proceedings), 1 : 713-716
(paragraphe "New metric" dans "3.3. Metricfor SCV comparison")

Claims

Revendications
1. Procédé de traitement d'un signal vocal à comparer à au moins une référence, dans lequel le signal vocal (Y) est mis sous forme vectorielle dans une base vectorielle déterminée à partir de modèles d'ancrage, pour effectuer ensuite une mesure de similarité (δ) entre la forme vectorielle du signal vocal et une forme vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle, caractérisé en ce que la mise sous forme vectorielle du signal vocal comporte une normalisation (VZ-Norm) impliquant :
- un centrage de la forme vectorielle autour d'au moins un vecteur moyen (μ0) déterminé par analyse statistique, et
- une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par
application d'une matrice (Σ0 2 ) représentative d'une variance déterminée aussi par analyse statistique.
2. Procédé selon la revendication 1, caractérisé en ce que la mesure de similarité (δ) est une mesure de similarité sensible au centrage.
3. Procédé selon la revendication 2, caractérisé en ce que la mesure de similarité est une mesure de similarité angulaire (δ).
4. Procédé selon la revendication 2, caractérisé en ce que la mesure de similarité est une mesure de corrélation linéaire entre la forme vectorielle normalisée du signal vocal et la forme vectorielle normalisée, homologue, de la référence.
5. Procédé selon l'une des revendications précédentes, caractérisé en ce que ladite projection s'effectue selon des axes obtenus par une analyse en composantes principales d'un corpus de développement sur lequel est réalisée l'analyse statistique donnant ladite matrice représentative d'une variance.
6. Procédé selon l'une des revendications précédentes, caractérisé en ce que le centrage est mené par soustraction du vecteur moyen (μo) à la forme vectorielle (Ϋ).
7. Procédé selon les revendications 5 et 6, prises en combinaison, caractérisé en ce que ladite normalisation, appliquée à un vecteur noté X , est définie par une relation du type :
Figure imgf000020_0001
:
- la notation Xγz_Norm vise le vecteur X normalisé, - μo correspond audit vecteur moyen,
- ∑o est une matrice de covariance tirée de l'analyse statistique.
8. Procédé selon la revendication 7, caractérisé en ce que la matrice de covariance (∑o ) et le vecteur moyen (μ0 ) sont estimés à partir d'un ensemble statistique de M signaux vocaux, chaque signal vocal de cet ensemble statistique étant mis sous forme vectorielle, sans normalisation, dans la base des modèles d'ancrage, et en ce que les composantes du vecteur moyen ( μ0 ) et les coefficients de la matrice de covariance ( ∑o ) sont donnés par les relations :
/O,
Figure imgf000020_0002
-lO(Vtt,). <>ù : - chaque terme μϋj est une composante du vecteur moyen μo,
- chaque terme ( ∑0jJ.) est un coefficient de la matrice de covariance ∑o ,
- et Lj est la j-ème composante d'un i-ème signal vocal, parmi les M signaux de l'ensemble statistique.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce que les modèles d'ancrage sont tirés d'enregistrements d'un premier groupe de locuteurs et l'analyse statistique est menée sur des enregistrements d'un second groupe de locuteurs distincts des locuteurs du premier groupe.
10. Dispositif de comparaison d'un signal vocal à au moins une référence, comportant : - une mémoire (DB2) pour stocker au moins un enregistrement de référence (X),
- une entrée (IN-I) pour recevoir un signal vocal test (Ϋ),
- des moyens de calcul (12, 14) pour mettre au moins le signal vocal (Ϋ) sous forme vectorielle dans une base vectorielle déterminée à partir de modèles d'ancrage et effectuer ensuite une mesure de similarité (δ) entre la forme vectorielle du signal vocal et une forme vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle, et
- un module de décision (15) propre à donner un résultat de comparaison à partir de ladite mesure de similarité (δ), caractérisé en ce que les moyens de calcul comportent un module de normalisation (14) de la forme vectorielle du signal vocal, avec :
- centrage de la forme vectorielle autour d'au moins un vecteur moyen (μo) déterminé par analyse statistique, et
- projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par
_ 1 application d'une matrice (Σ0 2 ) représentative d'une variance déterminée aussi par analyse statistique, pour la mise en œuvre du procédé selon l'une des revendications 1 à 9.
11. Module d'un dispositif comparateur selon la revendication 10, caractérisé en ce qu'il comporte des moyens pour normaliser une forme vectorielle d'un signal vocal test en appliquant :
- un centrage de la forme vectorielle autour d'au moins un vecteur moyen (μ0) déterminé par analyse statistique, et
- une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus de modèles d'ancrage et décorrélés entre eux par application d'une matrice (Σ0 2 ) représentative d'une variance déterminée aussi par analyse statistique.
12. Module selon la revendication 11, caractérisé en ce qu'il comporte des moyens pour mesurer en outre une similarité sensible au centrage entre la forme vectorielle normalisée du signal vocal test et une forme vectorielle normalisée, homologue, d'une référence.
13. Programme d'ordinateur pour un dispositif comparateur entre un signal vocal et une référence, comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 9, lorsqu'il est exécuté sur le dispositif.
PCT/IB2007/002670 2006-09-07 2007-09-14 Traitement d'un signal vocal, en vue d'une comparaison a une reference WO2008029270A2 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP07825117A EP2102854A2 (fr) 2006-09-07 2007-09-14 Traitement d'un signal vocal, en vue d'une comparaison a une reference

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0607850 2006-09-07
FR0607850A FR2905790B1 (fr) 2006-09-07 2006-09-07 Traitement d'un signal vocal, en vue d'une comparaison a une reference.

Publications (2)

Publication Number Publication Date
WO2008029270A2 true WO2008029270A2 (fr) 2008-03-13
WO2008029270A3 WO2008029270A3 (fr) 2008-06-19

Family

ID=37890380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2007/002670 WO2008029270A2 (fr) 2006-09-07 2007-09-14 Traitement d'un signal vocal, en vue d'une comparaison a une reference

Country Status (3)

Country Link
EP (1) EP2102854A2 (fr)
FR (1) FR2905790B1 (fr)
WO (1) WO2008029270A2 (fr)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
COLLET M ET AL: "A Correlation Metric for Speaker Tracking Using Anchor Models" ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP '05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, 18 mars 2005 (2005-03-18), pages 713-716, XP010792137 ISBN: 0-7803-8874-7 cité dans la demande *
COLLET M ET AL: "A weighted measure of similarity for speaker tracking" 2006 IEEE ODYSSEY - THE SPEAKER AND LANGUAGE RECOGNITION WORKSHOP, 28 juin 2006 (2006-06-28), - 30 juin 2006 (2006-06-30) page 5 pp., XP002427674 SAN JUAN, PUERTO RICO ISBN: 1-4244-0471-1 *

Also Published As

Publication number Publication date
FR2905790A1 (fr) 2008-03-14
EP2102854A2 (fr) 2009-09-23
WO2008029270A3 (fr) 2008-06-19
FR2905790B1 (fr) 2008-11-21

Similar Documents

Publication Publication Date Title
US10593336B2 (en) Machine learning for authenticating voice
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
Ashar et al. Speaker identification using a hybrid cnn-mfcc approach
Korshunov et al. Impact of score fusion on voice biometrics and presentation attack detection in cross-database evaluations
US20060111904A1 (en) Method and apparatus for speaker spotting
EP1385149A1 (fr) Normalisation de score de vérification dans un dispositif de reconnaissance vocale de locuteur
EP3740949A1 (fr) Authentification d&#39;un utilisateur
FR2965377A1 (fr) Procede de classification de donnees biometriques
CN107507626A (zh) 一种基于语音频谱融合特征的手机来源识别方法
Adiban et al. Sut system description for anti-spoofing 2017 challenge
FR3029673A1 (fr) Procede et dispositif de suivi de caracteres figurant sur une pluralite d&#39;images d&#39;un flux video d&#39;un texte
WO2007060360A1 (fr) Procede d&#39;authentification de donnees sequentielles et equipements mettant en oeuvre un tel procede
WO2005015547A1 (fr) Procede et systeme d&#39;analyse de signaux vocaux pour la representation compacte de locuteurs
EP3252563A1 (fr) Détermination d&#39;un contexte de mobilité d&#39;un utilisateur porteur d&#39;un équipement muni de capteurs inertiels
EP2102854A2 (fr) Traitement d&#39;un signal vocal, en vue d&#39;une comparaison a une reference
FR2954549A1 (fr) Codage biometrique
Zeinali et al. Spoken pass-phrase verification in the i-vector space
WO2007051940A1 (fr) Procede et dispositif de calcul de mesure de similarite entre une representation d&#39;un segment audio de reference et une representation d&#39;un segment audio a tester et procede et dispositif de suivi d&#39;un locuteur de reference
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
EP3319085B1 (fr) Procédé et système d&#39;authentification par biométrie vocale d&#39;un utilisateur
EP3842969A1 (fr) Procede et systeme pour une identification et une authentification biometrique avec template audiovisuel
Khoury et al. On the improvements of uni-modal and bi-modal fusions of speaker and face recognition for mobile biometrics
Pop et al. A quality-aware forensic speaker recognition system
FR3135804A1 (fr) Procédé et dispositif d’identification biométrique
FR3137479A1 (fr) Procédé de reconnaissance biométrique

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2007825117

Country of ref document: EP