WO2005015547A1

WO2005015547A1 - Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs

Info

Publication number: WO2005015547A1
Application number: PCT/FR2003/002037
Authority: WO
Inventors: Yassine Mami; Delphine Charlet
Original assignee: France Telecom
Priority date: 2003-07-01
Filing date: 2003-07-01
Publication date: 2005-02-17
Also published as: EP1639579A1; US20060253284A1; JP2007514959A; US7539617B2; KR101011713B1; KR20060041208A; AU2003267504A1; CN1802695A; JP4652232B2

Abstract

Procédé d'analyse de signaux vocaux d'un locuteur (?.), dans lequel on utilise une densité de probabilité représentant les ressemblances entre une représentation vocale du locuteur (X) dans un modèle prédéterminé et un ensemble prédéterminé de représentations vocales d'un nombre E de locuteurs de référence dans ledit modèle prédéterminé, et on analyse la densité de probabilité pour en déduire des informations sur les signaux vocaux.

Description

Procédé et système d'analyse de signaux vocaux pour la représentation compacte de locuteurs.

La présente invention concerne un procédé et un dispositif d'analyse de signaux vocaux. L' analyse de signaux vocaux nécessite notamment de pouvoir représenter un locuteur. La représentation d'un locuteur par un mélange de gaussiennes ("Gaussian Mixture Model" ou GMM) est une représentation efficace de l'identité acoustique ou vocale d'un locuteur. Selon cette technique, il s'agit de représenter le locuteur, dans un espace acoustique de référence d'une dimension prédéterminée, par une somme pondérée d'un nombre prédéterminé de gaussiennes. Ce type de représentation est précis lorsque l'on dispose d'un grand nombre de données, et qu'il n'y a pas de contraintes physiques pour stocker les paramètres du modèle, ni pour exécuter des calculs sur ces nombreux paramètres. Or, en pratique, pour représenter un locuteur au sein de systèmes informatiques, il arrive que le temps de parole d'un locuteur soit court, et que la taille de la mémoire nécessaire à ces représentations, ainsi que les temps de calculs sur ces paramètres soient trop importants. Il est donc important de chercher à représenter un locuteur de manière à réduire drastiquement le nombre de paramètres nécessaires à sa représentation tout en gardant des performances correctes. On entend par performance le taux d'erreurs de séquences vocales non reconnues comme appartenant ou non à un locuteur par rapport au nombre total de séquences vocales. Des solutions en ce sens ont été proposées, notamment dans le document "SPEAKER INDEXING IN LARGE AUDIO DATABASES USING ANCHOR MODELS" par D.E. Sturim, D.A. Reynolds, E. Singer and J.P. Campbell. En effet, les auteurs proposent de représenter un locuteur, non plus de manière absolue dans un espace acoustique de référence, mais de manière relative par rapport à un ensemble prédéterminé de représentations de locuteurs de référence appelés également modèles d' ancrages, pour lesquels on dispose de modèles GMM-UBM (UBM pour "Universal Background Model"). On évalue la proximité entre un locuteur et les locuteurs de référence au moyen d'une distance euclidienne. Cela diminue énormément les charges de calcul, mais les performances sont encore limitées et insuffisantes. Au vu de ce qui précède, l'invention a pour but d'analyser des signaux vocaux en représentant les locuteurs par rapport à un ensemble prédéterminé de locuteurs de référence, avec un nombre de paramètre réduits diminuant les charges de calculs pour des application en temps réel, avec des performances acceptables, en comparaison d'une analyse utilisant une représentation par le modèle GMM-UBM. On peut alors par exemple effectuer des indexations de documents audio de grandes bases de données où le locuteur est la clé d'indexation. Ainsi, selon un aspect de l'invention, il est proposé un procédé d'analyse de signaux vocaux d'un locuteur (λ), utilisant une densité de probabilité représentant les ressemblances entre une représentation vocale du locuteur (λ) dans un modèle prédéterminé et un ensemble prédéterminé de représentations vocales d'un nombre E de locuteurs de référence dans ledit modèle prédéterminé, et on analyse la densité de probabilité pour en déduire des informations portant sur les signaux vocaux. Cela permet de diminuer drastiquement le nombre de paramètres utilisés, et permet à des dispositifs mettant en œuvre ce procédé de pouvoir travailler en temps réel, en diminuant le temps de calcul, en diminuant la taille de la mémoire nécessaire. Dans un mode de mise en œuvre préféré, on prend comme modèle prédéterminé un modèle absolu (GMM), de dimension D, utilisant un mélange de M gaussiennes pour lequel le locuteur (λ) est représenté par un ensemble de paramètres comprenant des coefficients de pondération ( α_i5 i=l à M) du mélange de gaussiennes dans ledit modèle absolu (GMM), des vecteurs de moyenne ( μ_{i 9} i=l à M) de dimension D et des matrices de covariance (∑_{i ?} i=l à M) de dimension DxD. Dans un mode de mise en œuvre avantageux, on représente la densité de probabilité des ressemblances entre la représentation desdits signaux vocaux du locuteur (λ) et l'ensemble prédéterminé de représentations vocales des locuteurs de référence par une distribution gaussienne (ψ(μ^λ,∑^λ)) de vecteur de moyenne ( μ^λ) de dimension E et de matrice de covariance ( ∑^λ) de dimension ExE estimés dans l'espace des ressemblances à l' ensemble prédéterminé des E locuteurs de référence. Dans un mode de mise en œuvre préféré, l'on définit la ressemblance ( ψ(μ^λ,Σ^λJ) du locuteur (λ) par rapport aux E locuteurs de référence, locuteur (λ) pour lequel on dispose de N_λ segments de signaux vocaux représentés par N_λ vecteurs de l'espace des ressemblances par rapport à l'ensemble prédéterminé des E locuteurs de référence, en fonction d'un vecteur de moyenne ( μ^λ) de dimension E et d'une matrice de covariance (∑^λ) des ressemblances du locuteur (λ) par rapport aux E locuteurs de référence. Dans un mode de mise en œuvre avantageux, on introduit en outre des informations à priori dans les densités de probabilité des ressemblances (ψ(μ^λ,∑^λj) par rapport aux E locuteurs de référence. Dans un mode de mise en œuvre préféré, la matrice de covariance du locuteur (λ) est indépendante dudit locuteur ( ∑^λ = ∑) . Selon un autre aspect de l'invention, il est proposé un système d'analyse de signaux vocaux d'un locuteur (λ), comprenant des bases de données dans lesquelles sont stockés des signaux vocaux d'un ensemble prédéterminé de E locuteurs de référence et leurs représentations vocales associées dans un modèle prédéterminé, ainsi que des bases de données d'archives audio, caractérisé en ce qu'il comprend des moyens d'analyse des signaux vocaux utilisant une représentation vectorielle des ressemblances entre la représentation vocale du locuteur et l'ensemble prédéterminé de représentations vocales de E locuteurs de référence. Dans un mode de réalisation avantageux, les bases de données mémorisent également l'analyse des signaux vocaux effectuée par lesdits moyens d'analyse. L'invention peut s'appliquer à l'indexation de documents audio, toutefois d'autres applications peuvent également être envisagées, telles que l'identification acoustique d'un locuteur ou la vérification de l'identité d'un locuteur. D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple non limitatif, et faite en référence à l'unique dessin annexé illustrant une mise en application d'une utilisation du procédé pour l'indexation de documents audio. La figure représente une application du système selon un aspect de l'invention pour l'indexation de bases de données audio.

Bien entendu, l'invention s'applique également à l'identification acoustique d'un locuteur ou la vérification de l'identité d'un locuteur, c'est-à-dire, de manière générale, à la reconnaissance d'informations relatives au locuteur dans le signal acoustique. Le système comprend un moyen pour recevoir des données vocales d'un locuteur, par exemple un micro 1, relié par une connexion 2 avec ou sans fil à des moyens d'enregistrement 3 d'une requête énoncée par un locuteur λ et comprenant un ensemble de signaux vocaux. Les moyens d' enregistrement 3 sont reliés par une connexion 4 à des moyens de stockage 5 et, par une connexion 6, à des moyens de traitement acoustique 7 de la requête. Ces moyens de traitement acoustiques transforment les signaux vocaux du locuteur λ en une représentation dans un espace acoustique de dimension D par un modèle GMM de représentation du locuteur λ. Cette représentation est définie par une somme pondérée de M

dans lesquelles : D est la dimension de l'espace acoustique du modèle GMM absolu; x est un vecteur acoustique de dimension D, ie vecteur des coefficients cepstraux d'une séquence de signal vocal du locuteur λ dans le modèle GMM absolu ; M désigne le nombre de gaussiennes du modèle GMM absolu, généralement puissance de 2 comprise entre 16 et 1024 ; bi(x) désigne, pour i=l à D, densités gaussiennes, paramétrées par un vecteur de moyenne μ de dimension D et une matrice de covariance ∑_j de dimension DxD; et cc_j désigne, pour i=l à D représentent les coefficients de pondération du mélange de gaussiennes dans le modèle GMM absolu. Les moyens de traitement acoustique 7 de la requête sont reliés par une connexion 8 à des moyens d'analyse 9. Ces moyens d'analyse 9 sont aptes à représenter un locuteur par un vecteur de densité de probabilité représentant les ressemblances entre la représentation vocale dudit locuteur dans le modèle GMM choisi et des représentations vocales de E locuteurs de référence dans le modèle GMM choisi. Les moyens d'analyse 9 sont en outre aptes à effectuer des tests de vérification et/ou d'identification d'un locuteur. Pour réaliser ces tests, les moyens d' analyse procèdent à l' élaboration du vecteur de densités de probabilités, c' est-à-dire des ressemblances entre le locuteur et les locuteurs de référence. Il s' agit de décrire une représentation pertinente d'un seul segment x du signal du locuteur λ au moyen des équations suivantes :

dans lesquelles : w^λ est un vecteur de l'espace des ressemblances à l' ensemble prédéterminé des E locuteurs de référence représentant le segment x dans cet espace de représentation ; plx^λ λ_j] est une densité de probabilité ou probabilité normalisée par un modèle universel, représentant la ressemblance de la représentation acoustique x^λ d' un segment de signal vocal d' un locuteur λ, sachant un locuteur de référence λ_j ;

T_x est le nombre de trames ou de vecteurs acoustiques du segment de parole x ; p(x^λ|λ_jj est une probabilité représentant la ressemblance de la représentation acoustique x^λ d' un segment de signal vocal d'un locuteur λ, sachant un locuteur de référence λ_j ; p(^χλ λu_BM) ^{est une} probabilité représentant la ressemblance de la représentation acoustique x^λ d'un segment de signal vocal d'un locuteur λ dans le modèle du monde UBM; M est le nombre de gaussiennes du modèle GMM relatif, généralement puissance de 2 comprise entre 16 et 1024 ; D est la dimension de l'espace acoustique du modèle GMM absolu; x^λ est un vecteur acoustique de dimension D, ie vecteur des coefficients cepstraux d'une séquence de signal vocal du locuteur λ dans le modèle GMM absolu; b_k(x) représente, pour k≈l à D, des densités gaussiennes, paramétrées par un vecteur de moyenne μ_k de dimension D et une matrice de covariance ∑_k de dimension DxD ; _k représente, pour k=l à D, les coefficients de pondération du mélange de gaussiennes dans le modèle GMM absolu ; A partir des représentations W_j des segments de parole X_j (j=l,..,N_λ) du locuteur λ, on représente le locuteur λ par la distribution gaussienne ψ de paramètres μ^λ et ∑_λ définis par les relations suivantes:

dans lesquelles μ^ représente des composantes du vecteur de moyenne μ^λ de dimension E des ressemblances ψ(μ^λ,Σ^λJ du locuteur λ par rapport aux E locuteurs de référence, et Σ». représente des composantes de la matrice de covariance ∑^λ de dimension ExE des ressembles ψ(μ^λ,∑^λj du locuteur λ par rapport aux E locuteurs de référence. Les moyens d'analyse 9 sont reliés par une connexion 10 à des moyens d'apprentissage 11 permettant de calculer les représentations vocales, sous forme de vecteurs de dimension D, des E locuteurs de référence dans le modèle GMM choisi. Les moyens d' apprentissage 11 sont reliés par une connexion 12 à une base de données 13 comprenant des signaux vocaux d'un ensemble prédéterminé de locuteurs et leurs représentations vocales associées dans le modèle GMM de référence. Cette base de données peut également stocker le résultat de l'analyse de signaux vocaux de locuteurs initiaux excepté lesdits E locuteurs de référence. La base de données 13 est reliée par la connexion 14 aux moyens d'analyse 9 et par une connexion 15 aux moyens de traitement acoustique 7. Le système comprend en outre une base de données 16 reliée par une connexion 17 aux moyens de traitement acoustique 7, et par une connexion 18 aux moyens d'analyse 9. La base de données 16 comprend des archives audio sous formes d'articles vocaux, ainsi que les représentations vocales associées dans le modèle GMM choisi. La base de données 16 est également apte à stocker les représentations associées des articles audio calculées par les moyens d'analyse 9. Les moyens d'apprentissage 11 sont en outre reliés par une connexion 19 aux moyens de traitement acoustique 7. On va maintenant décrire un exemple de fonctionnement de ce système pouvant fonctionner en temps réel car le nombre de paramètres utilisés est nettement réduit par rapport au modèle GMM, et car beaucoup d'étapes peuvent être effectuées hors- ligne. Le module d'apprentissage 11 va déterminer les représentations dans le modèle GMM de référence des E locuteurs de référence au moyen des signaux vocaux de ces E locuteurs de référence stockés dans la base de données 13, et des moyens de traitement acoustique 7. Cette détermination s'effectue selon les relations (1) à (3) mentionnées ci-dessus. Cet ensemble de E locuteurs de référence va représenter le nouvel espace de représentation acoustique. Ces représentations des E locuteurs de référence dans le modèle GMM sont stockées en mémoire, par exemple dans la base de données 13. Tout cela peut être effectué hors-ligne. Lorsque l' on reçoit des données vocales d'un locuteur λ, par exemple par le micro 1, celles-ci sont transmises par la connexion 2 aux moyens d'enregistrement 3 aptes à effectuer le stockage de ces données dans les moyens de stockage 5 à l'aide de la connexion 4. Les moyens d'enregistrement 3 transmettent cet enregistrement aux moyens de traitement acoustique 7 par la connexion 6. Les moyens de traitement acoustique 7 calculent une représentation vocale du locuteur dans le modèle GMM prédéterminé comme exposé précédemment en référence aux relations (1) à (3) ci-dessus. En outre, les moyens de traitement acoustique 7 ont calculé, par exemple hors-ligne, les représentations vocales d'un ensemble de S locuteurs de test et d'un ensemble de T locuteurs dans le modèle GMM prédéterminé. Ces ensembles sont distincts. Ces représentations sont stockées dans la base. de données 13. Les moyens d'analyse 9 calculent, par exemple hors-ligne, une représentation vocale des S locuteurs et des T locuteurs par rapport aux E locuteurs de référence. Cette représentation est une représentation vectorielle par rapport à ces E locuteurs de référence, comme décrit précédemment. Les moyens d' analyse 9 effectuent également, par exemple hors-ligne, une représentation vocale des S locuteurs et des T locuteurs par rapport aux E locuteurs de référence, et une représentation vocale des articles des locuteurs de la base audio. Cette représentation est une représentation vectorielle par rapport à ces E locuteurs de référence. Les moyens de traitement 7 transmettent la représentation vocale du locuteur λ dans le modèle GMM prédéterminé aux moyens d'analyse 9, qui calculent une représentation vocale du locuteur λ. Cette représentation est une représentation par densité de probabilité des ressemblances aux E locuteurs de référence. Elle est calculée en introduisant de l'information à priori au moyen des représentations vocales de T locuteurs. En effet, l'utilisation de cette information à priori permet de garder une estimation fiable, même lorsque le nombre de segments de paroles disponibles du locuteur λ est faible. On introduit de l'information à priori au moyen des équations suivantes :

dans lesquelles : μ^λ : vecteur de moyenne de dimension E des ressemblances ψ(μ^λ,Σ^λJ du locuteur λ par rapport aux E locuteurs de référence ;

N_λ : nombre de segments de signaux vocaux du locuteur λ représentés par N_λ vecteurs de l'espace des ressemblances à l'ensemble prédéterminé des E locuteurs de référence ; W : matrice de toutes les données initiales d'un ensemble de T locuteurs loc_i, pour i=l à T, dont les colonnes sont des vecteurs de dimension E représentant un segment de signal vocal représenté par un vecteur de l'espace des ressemblances à l'ensemble prédéterminé des E locuteurs de référence, chaque locuteur loc_i ayant N_; segments vocaux, caractérisé par son vecteur de moyennes μ₀ de dimension E, et par sa matrice de covariance Σ₀ de dimension ExE ; μ^λ : vecteur de moyenne de dimension E des ressemblances ψ(μ^λ,∑^λ) du locuteur λ par rapport aux E locuteurs de référence, avec introduction d'informations à priori; et ∑^λ : matrice de covariance de dimension ExE des ressemblances ψ(μ^λ,∑^λ) du locuteur λ par rapport aux E locuteurs de référence avec introduction d'informations à priori. On peut prendre de surcroît une unique matrice de covariance pour chaque locuteur, ce qui permet d'orthogonaliser ladite matrice hors-ligne, et les calculs de densités de probabilités seront alors effectués avec des matrices de covariance diagonales. Dans ce cas, cette unique matrice de covariance est définie selon les relations :

dans lesquelles

W est une matrice de toutes les données initiales d'un ensemble de T locuteurs loc_i, pour i=l à T, dont les colonnes sont des vecteurs de dimension E représentant un segment de signal vocal représenté par un vecteur de l'espace des ressemblances à l'ensemble prédéterminé des E locuteurs de référence, chaque locuteur loc_i ayant N_; segments vocaux, caractérisé par son vecteur de moyennes μ₀ de dimension E, et par sa matrice de covariance Σ₀ de dimension ExE. Ensuite les moyens d' analyse 9 vont comparer les représentations vocales de la requête et des articles de la base articles de la base par des tests en identification et/ou vérification du locuteurs. Le test en identification de locuteur consiste à évaluer une mesure de vraisemblance entre le vecteur du segment de test w_x et l'ensemble des représentations des articles de la base audio. Le locuteur identifié correspond à celui qui donne un score de vraisemblance maximal, soit λ = arg ma p(w_x μ^λ,∑^λ) (14) parmi l'ensemble des S locuteurs. Le test en vérification de locuteur consiste à calculer un score de vraisemblance entre le vecteur du segment de test w_x et l'ensemble des représentations des articles de la base audio normalisé par son score de vraisemblance avec la représentation de l'information à priori. Le segment est authentifié si le score excède un seuil donné prédéterminé, ledit score étant donné par la relation suivante:

Chaque fois que le locuteur λ est reconnu dans un article de la base, on indexe cet article au moyen d'une information permettant de savoir que le locuteur λ parle dans cet article audio. On peut également appliquer cette invention à d'autres utilisations, comme la reconnaissance ou l'identification d'un locuteur. Cette représentation compacte d'un locuteur permet de réduire de façon drastique le coût de calcul, car il y a beaucoup moins d' opération élémentaires au vu de la réduction drastique du nombre de paramètres nécessaires à la représentation d'un locuteur. Par exemple, pour une requête de 4 secondes de paroles d'un locuteur, c' est-à-dire 250 trames, pour un modèle GMM de dimension 27, à 16 gaussiennes le nombre d'opérations élémentaires est réduit d'un facteur 540, ce qui réduit énormément le temps calcul. En outre, la taille de mémoire utilisée pour stocker les représentations des locuteurs est nettement réduite. L'invention permet donc d'analyser des signaux vocaux d'un locuteur en réduisant de manière drastique le temps de calcul et la taille mémoire de stockage des représentations vocales des locuteurs.

Claims

REVENDICATIONS

1. Procédé d' analyse de signaux vocaux d'un locuteur (λ), caractérisé en ce que l'on utilise une densité de probabilité représentant les ressemblances entre une représentation vocale du locuteur (λ) dans un modèle prédéterminé et un ensemble prédéterminé de représentations vocales d'un nombre E de locuteurs de référence dans ledit modèle prédéterminé, et on analyse la densité de probabilité pour en déduire des informations sur les signaux vocaux.

2. Procédé selon la revendication 1, caractérisé en ce que l'on prend comme modèle prédéterminé un modèle absolu (GMM), de dimension D, utilisant un mélange de M gaussiennes pour lequel le locuteur (λ) est représenté par un ensemble de paramètres comprenant des coefficients de pondération ( α_i5 i=l à

M) du mélange de gaussiennes dans ledit modèle absolu (GMM), des vecteurs de moyenne ( μ_{i 5} i=l à M) de dimension D et des matrices de covariance ∑_{, i=l à M) de dimension DxD.

3. Procédé selon la revendication 2, caractérisé en ce que l' on représente la densité de probabilité des ressemblances entre la représentation desdits signaux vocaux du locuteur (λ) et l'ensemble prédéterminé de représentations vocales des locuteurs de référence par une distribution gaussienne (ψ(μ^λ,∑^λj) de vecteur de moyenne ( μ^λ) de dimension E et de matrice de covariance ( ∑^λ) de dimension ExE estimés dans l'espace des ressemblances à l'ensemble prédéterminé des E locuteurs de référence.

4. Procédé selon la revendication 3, caractérisé en ce que l'on définit la ressemblance ( ψ(μ^λ,∑^λj) du locuteur (λ) par rapport aux E locuteurs de référence, locuteur (λ) pour lequel on dispose de N_λ segments de signaux vocaux représentés par N_λ vecteurs de l' espace des ressemblances par rapport à l'ensemble prédéterminé des E locuteurs de référence, en fonction d'un vecteur de moyenne ( μ^λ) de dimension E et d'une matrice de covariance ( ∑^λ) des ressemblances du locuteur (λ) par rapport aux E locuteurs de référence.

5. Procédé selon la revendication 4, caractérisé en ce que l'on introduit en outre des informations à priori dans les densités de probabilité des ressemblances ( ψfμ^λ,∑^λj) par rapport aux E locuteurs de référence.

6. Procédé selon la revendication 5, caractérisé en ce que la matrice de covariance du locuteur (λ) est indépendante dudit locuteur ( ∑^λ = Σ) .

7. Système d'analyse de signaux vocaux d'un locuteur (λ), comprenant des bases de données dans lesquelles sont stockés des signaux vocaux d'un ensemble prédéterminé de locuteurs et leurs représentations vocales associées dans un modèle prédéterminé par mélange de gaussiennes, ainsi que des bases de données d'archives audio, caractérisé en ce qu'il comprend des moyens d'analyse des signaux vocaux utilisant une représentation vectorielle des ressemblances entre la représentation vocale du locuteur (λ) et l'ensemble prédéterminé de représentations vocales de E locuteurs de référence.

8. Système selon la revendication 7, caractérisé en ce que les bases de données mémorisent également l'analyse des signaux vocaux effectuée par lesdits moyens d'analyse.

9. Utilisation d'un procédé selon l'une quelconque des revendications 1 à 6, pour une indexation de documents audio.

10. Utilisation d'un procédé selon l'une quelconque des revendications 1 à 6, pour une identification d'un locuteur.

11. Utilisation d'un procédé selon l'une quelconque des revendications 1 à 6, pour une vérification d'un locuteur.