WO2006032744A1

WO2006032744A1 - Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale

Info

Publication number: WO2006032744A1
Application number: PCT/FR2005/002166
Authority: WO
Inventors: Olivier Rosec; Soufiane Rouibia; Thierry Moudenc
Original assignee: France Telecom
Priority date: 2004-09-16
Filing date: 2005-08-30
Publication date: 2006-03-30
Also published as: DE602005019070D1; EP1789953A1; EP1789953B1; US20070276666A1; ATE456125T1

Abstract

Ce procédé de sélection d'unités acoustiques contenant chacune un signal de parole naturelle et des paramètres symboliques, comporte : - une étape (4) de détermination d'au moins une séquence cible d'unités symboliques ; - une étape (5) de détermination d'une séquence de modèles acoustiques contextuels correspondant à ladite séquence cible ; - une étape (6) de détermination d'un gabarit acoustique à partir de ladite séquence de modèles acoustiques contextuels ; et - une étape (7) de sélection d'une séquence d'unités acoustiques en fonction dudit gabarit acoustique appliqué à ladite séquence cible d'unités symboliques. Application à la synthèse vocale.

Description

Procédé et dispositif de sélection d'unités acoustiques et procédé et dispositif de synthèse vocale.

La présente invention concerne un procédé de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités symboliques. Ces unités acoustiques contiennent des signaux de parole naturelle et compor¬ tent chacune une pluralité de paramètres symboliques représentant des caracté¬ ristiques acoustiques.

De tels procédés de sélection sont utilisés, par exemple, dans le cadre de la synthèse de parole. De manière générale, il est possible de décomposer une langue parlée sur une base finie d'unités symboliques de nature phonologique, telles que des phonèmes ou autres, permettant la vocalisation d'un énoncé textuel quelconque.

Chaque unité symbolique peut être associée à un sous-ensemble de segments de parole naturelle, ou unités acoustiques, telles que des phones, des diphones ou autres; représentant des variations de prononciation de l'unité sym¬ bolique.

En effet, une approche dite par corpus permet de définir, pour une même unité symbolique, un corpus d'unités acoustiques de taille et de paramè¬ tres variables enregistrées dans différents contextes linguistiques et selon diffé- rentes variantes prosodiques.

Il se pose alors un problème de sélection de ces unités en fonction du contexte de l'utilisation pour minimiser les discontinuités aux instants de concaté¬ nation et limiter le recours à des algorithmes de modification prosodique.

Afin de permettre un traitement automatique de ces unités acousti- ques, chacune comporte une pluralité de paramètres symboliques représentant des caractéristiques acoustiques permettant sa représentation sous forme ma¬ thématique.

Il existe des procédés de sélection d'unités acoustiques, notamment dans le cadre des procédés de synthèse vocale, qui utilisent un nombre fini de modèles acoustiques contextuels pour modéliser une séquence cible d'unités symboliques et procéder à une sélection.

Un exemple d'un tel procédé de synthèse est décrit notamment dans les documents intitulés « The IBM Trainable Speech Synthesis System » publié par Donovan R.E. and Eide E.M., Proc. ICSLP, Sydney, 1998, ou encore « Auto- Automatically Clustering Similar Units for Unit Sélection in Speech Synthesis » publié par Black A.W. and Taylor P. Proc. Eurospeech, pp. 601-604, 1997.

Ce type de procédé requiert généralement une phase préalable d'apprentissage ou de détermination des modèles acoustiques contextuels, com- prenant la détermination de modèles probabilistes, par exemple, du type dit mo¬ dèles de Markov cachés ou HMM, puis leur classification en fonction de leurs paramètres symboliques qui prennent éventuellement en compte leur contexte phonétique. On détermine ainsi des modèles acoustiques contextuels sous la forme de lois mathématiques. La classification est utilisée afin de réaliser une présélection d'unités acoustiques en fonction de leurs paramètres symboliques.

La sélection finale fait généralement intervenir des fonctions de coût fondées sur un coût attribué à chaque concaténation entre deux unités acousti¬ ques ainsi que sur un coût attribué à l'utilisation de chaque unité. Toutefois, la détermination et la hiérarchisation de ces coûts, sont fai¬ tes de manière approximative et nécessitent l'intervention d'un expert humain.

En conséquence, la sélection réalisée n'est pas optimale et on dispose de peu de contrôle sur la qualité du signal synthétisé rendant impossible une éva¬ luation de sa qualité a priori. Le but de la présente invention est de résoudre ce problème en défi¬ nissant un procédé performant de sélection d'unités acoustiques utilisant un en¬ semble fini de modèles acoustiques contextuels.

A cet effet, la présente invention a pour objet un procédé de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités sym- boliques de nature phonologique, lesdites unités acoustiques contenant chacune un signal de parole naturelle et des paramètres symboliques représentant leurs caractéristiques acoustiques, ledit procédé comportant :

- une étape de détermination d'au moins une séquence cible d'unités symboliques ; et - une étape de détermination d'une séquence de modèles acoustiques contextuels correspondant à ladite séquence cible, caractérisé en ce qu'il comporte en outre :

- une étape de détermination d'un gabarit acoustique à partir de ladite séquence de modèles acoustiques contextuels ; et - une étape de sélection d'une séquence d'unités acoustiques en fonc¬ tion dudit gabarit acoustique appliqué à ladite séquence cible d'unités symboli¬ ques.

Grâce à l'utilisation d'un gabarit acoustique, le procédé de l'invention permet de prendre en compte des informations de spectre, d'énergie et de durée au moment de la sélection, permettant ainsi une sélection fiable et de bonne qua¬ lité.

Suivant d'autres caractéristiques de l'invention :

- Le procédé comporte une étape préalable de détermination de modè- les acoustiques contextuels, mise en œuvre à partir d'un ensemble donné d'unités acoustiques ;

- ladite étape de détermination de modèles acoustiques contextuels comprend :

- une sous-étape de détermination, pour chaque unité acousti- que, d'un modèle probabiliste issu d'un répertoire fini de modèles compor¬ tant chacun un processus aléatoire observable correspondant à la réalisa¬ tion acoustique d'unités symboliques, et un processus aléatoire non ob¬ servable possédant des propriétés probabilistes connues dites « propriétés de Markov » ; - une sous-étape de classification desdits modèles probabilistes en fonction de leurs paramètres symboliques, les processus aléatoires observables et non observables des modèles de chaque classe formant lesdits modèles acoustiques contextuels ;

- ladite étape de détermination des modèles acoustiques contextuels comprend en outre une sous-étape de détermination de modèles probabilistes adaptés au contexte phonétique dont les paramètres sont utilisés au cours de ladite sous-étape de classification ;

- ladite sous-étape de classification comporte une classification par ar¬ bres de décision, les paramètres desdits modèles probabilistes étant modifiés par le parcours desdits arbres de décision pour former lesdits modèles acoustiques contextuels ;

- ladite étape de détermination d'au moins une séquence cible d'unités symboliques comprend : - une sous-étape d'acquisition d'une représentation symbolique d'un texte ; et

- une sous-étape de détermination d'au moins une séquence d'unités symboliques à partir de ladite représentation symbolique ; - ladite étape de détermination d'une séquence de modèles acousti¬ ques contextuels, comprend :

- une sous-étape de modélisation de ladite séquence cible par sa décomposition sur une base de modèles probabilistes afin de délivrer une séquence de modèles probabilistes correspondant à ladite séquence cible ; et

- une sous-étape de formation des modèles acoustiques contex¬ tuels par modification de paramètre desdits modèles probabilistes pour former ladite séquence de modèles acoustiques contextuels ;

- ladite étape de détermination d'un gabarit acoustique comprend : - une sous-étape de détermination de l'importance temporelle de chaque modèle acoustique contextuel ;

- une sous-étape de détermination, d'une séquence temporelle de modèles; et

- une sous-étape de détermination d'une séquence de trames acoustiques correspondantes formant ledit gabarit acoustique ;

- ladite sous-étape de détermination de l'importance temporelle de chaque modèle acoustique contextuel comprend la prédiction de sa durée ;

- ladite étape de sélection d'une séquence d'unités acoustiques com¬ prend : - une sous-étape de détermination d'une séquence référence d'unités symboliques à partir de ladite séquence cible, chaque unité sym¬ bolique de la séquence référence étant associée à un ensemble d'unités acoustiques ; et

- une sous-étape d'alignement entre les unités acoustiques as- sociées à ladite séquence référence et ledit gabarit acoustique ;

- ladite étape de sélection comprend en outre une sous-étape de seg¬ mentation dudit gabarit acoustique en fonction de ladite séquence référence ;

- ladite sous-étape de segmentation comprend une décomposition du¬ dit gabarit acoustique sur une base d'unités temporelles ; - ledit gabarit étant segmenté chaque segment correspond à une unité symbolique de la séquence référence et ladite sous-étape d'alignement comporte l'alignement de chaque segment du gabarit avec chacune des unités acoustiques associées à l'unité symbolique correspondante issue de la séquence référence ; - ladite sous-étape d'alignement comprend la détermination d'un ali¬ gnement optimal tel que déterminé par un algorithme dit "DTW" ;

- ladite étape de sélection comprend en outre une sous-étape de pré¬ sélection permettant de déterminer, pour chaque unité symbolique de la sé¬ quence référence, des unités acoustiques candidates ladite sous-étape d'alignement formant une sous-étape de sélection finale parmi ces unités candi¬ dates ;

- lesdits modèles acoustiques contextuels sont des modèles probabi- listes à processus observables à valeurs continues et à processus non observa¬ bles à valeurs discrètes formant les états de ce processus ; et - lesdits modèles acoustiques contextuels sont des modèles probabi- listes à processus non observables à valeurs continues.

L'invention concerne également un procédé de synthèse d'un signal de parole, caractérisé en ce qu'il comporte un procédé de sélection tel que décrit précédemment, ladite séquence cible correspondant à un texte à synthétiser et le procédé comportant en outre une étape de synthèse d'une séquence vocale à partir de ladite séquence d'unités acoustiques sélectionnées.

Selon d'autres caractéristiques, ladite étape de synthèse comporte :

- une sous-étape de récupération, pour chaque unité acoustique sélec¬ tionnée, d'un signal de parole naturelle ; - une sous-étape de lissage des signaux de parole ; et

- une sous-étape de concaténation des différents signaux de parole naturelle.

Corrélativement, l'invention concerne aussi un dispositif de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités sym- boliques de nature phonologique, ce dispositif comportant des moyens adaptés à la mise en œuvre d'un procédé de sélection tel que défini supra ; ainsi qu'un dis¬ positif de synthèse d'un signal de parole, remarquable en ce qu'il inclut des moyens adaptés à la mise en œuvre d'un tel procédé de sélection. La présente invention concerne aussi un programme d'ordinateur sur un support d'informations, ce programme comportant des instructions adaptées à la mise en œuvre d'un procédé de sélection d'unités acoustiques selon l'inven¬ tion, lorsque le programme est chargé et exécuté dans un système informatique. Les avantages de ces dispositifs et programme d'ordinateur sont iden¬ tiques à ceux mentionnés plus haut en relation avec le procédé de sélection d'unités acoustiques de l'invention.

L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés, sur lesquels :

- la Fig.1 représente un organigramme général d'un procédé de syn¬ thèse vocale mettant en oeuvre un procédé de sélection selon l'invention ;

- la Fig.2 représente un organigramme détaillé du procédé de la Fig.1 ; et - la Fig.3 représente le détail de signaux spécifiques au cours du pro¬ cédé décrit en référence à la Fig.2.

La figure 1 représente un organigramme général de procédé de l'invention mis en œuvre dans le cadre d'un procédé de synthèse vocale.

Selon une implémentation préférée, les étapes du procédé de sélec- tion d'unités acoustiques selon l'invention sont déterminées par les instructions d'un programme d'ordinateur utilisé par exemple dans un dispositif de synthèse vocale.

Le procédé selon l'invention est alors mis en œuvre lorsque le pro¬ gramme précité est chargé dans des moyens informatiques incorporés dans le dispositif en question, et dont le fonctionnement est alors commandé par l'exécu¬ tion du programme.

On entend ici par "programme d'ordinateur" un ou plusieurs program¬ mes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en œuvre de l'invention lorsqu'il est exécuté par un système informatique approprié. En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'in¬ formations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention. Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exé¬ cuter ou pour être utilisé dans l'exécution du procédé en question.

D'autre part, le support d'informations peut être aussi un support im¬ matériel transmissible, tel qu'un signal électrique ou optique pouvant être ache¬ miné via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

D'un point de vue conception, un programme d'ordinateur selon l'in¬ vention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.

De retour à la figure 1 , le procédé de sélection selon l'invention com¬ porte tout d'abord une étape 2 préalable de détermination de modèles acousti¬ ques contextuels, mise en œuvre à partir d'un ensemble donné d'unités acousti- ques contenues dans une base de données 3.

Cette étape 2 de détermination est également appelée apprentissage et permet de définir des lois mathématiques représentant les unités acoustiques qui contiennent chacune un signal de parole naturelle et des paramètres symbo¬ liques représentant leurs caractéristiques acoustiques. Le procédé comprend suite à l'étape 2 de détermination de modèles acoustiques contextuels, une étape 4 de détermination d'au moins une séquence cible d'unités symboliques de nature phonologique. Dans le mode de réalisation décrit cette séquence cible est unique et correspond à un texte à synthétiser.

Le procédé comporte ensuite une étape 5 de détermination d'une sé- quence de modèles acoustiques contextuels, tels qu'issus de l'étape 2 préalable, et correspondant à la séquence cible.

Le procédé comporte en outre une étape 6 de détermination d'un ga¬ barit acoustique à partir de ladite séquence de modèles acoustiques contextuels. Ce gabarit correspond aux paramètres de spectre et d'énergie les plus probables étant donné la séquence de modèles acoustiques contextuels déterminée précé¬ demment.

L'étape 6 de détermination d'un gabarit acoustique est suivie d'une étape 7 de sélection d'unités acoustiques en fonction de ce gabarit acoustique appliqué à la séquence cible d'unités symboliques.

Les unités acoustiques sélectionnées sont issues d'un ensemble don¬ né d'unités acoustiques pour la synthèse vocale, formé d'une base de données 8 identique ou différente de la base de données 3.

Enfin, le procédé comporte une étape 9 de synthèse d'un signal vocal à partir des unités acoustiques sélectionnées et de la base de données 8, de manière à reconstituer un signal vocal à partir de chaque signal de parole natu¬ relle contenu dans les unités acoustiques sélectionnées.

Ainsi, le procédé permet, notamment grâce à la détermination et à l'utilisation du gabarit acoustique, d'avoir un contrôle optimum des paramètres acoustiques du signal généré par référence au gabarit.

On va maintenant décrire en détail le procédé de l'invention en réfé¬ rence aux figures 2 et 3.

L'étape 2 de détermination des modèles acoustiques est classique. Elle est mise en œuvre à partir de la base de données 3 contenant un nombre fini d'unités symboliques de nature phonologique ainsi que les signaux vocaux et transcriptions phonétiques associés. Cet ensemble d'unités symboliques est dé¬ coupé en ensembles, chacun comprenant toutes les unités acoustiques corres¬ pondant aux différentes réalisations d'une même unité symbolique.

L'étape 2 débute par une sous-étape 22 de détermination, pour cha- que unité symbolique, d'un modèle probabiliste qui, dans le mode de réalisation décrit, est un modèle de Markov caché à états discrets, couramment désigné HMM (Hidden Markov Model).

Ces modèles comportent trois états et sont définis, pour chaque état, par une loi gaussienne de moyenne μ et de covariance ∑ qui modélise la distribu- tion des observations et par des probabilités de maintien dans l'état et de transi¬ tion vers les autres états du modèle. Les paramètres constituant un modèle HMM sont donc les paramètres de moyenne et de covariance des lois gaussiennes des différents états et la matrice de transition regroupant les différentes probabilités de transition entre les états. De manière classique, ces modèles probabilistes sont issus d'un al¬ phabet fini de modèles comportant par exemple 36 modèles différents qui décri¬ vent la probabilité de réalisation acoustique d'unités symboliques de nature pho¬ nologique. Par ailleurs, les modèles discrets comportent chacun un processus aléatoire observable correspondant à la réalisation acoustique d'unités symboli¬ ques et un processus aléatoire non observable désigné Q et possédant des pro¬ priétés probabilistes connues dites « propriétés de Markov » selon lesquelles la réalisation de l'état futur d'un processus aléatoire ne dépend que de l'état présent de ce processus.

Au cours de la sous-étape 22, chaque signal de parole naturelle contenu dans une unité acoustique est analysé de manière asynchrone avec, par exemple, un pas fixe de 5 millisecondes et une fenêtre de 10 millisecondes. Pour chaque fenêtre centrée sur un instant d'analyse t, douze coefficients cepstraux ou coefficients MFCC (MeI Frequency Cepstral Coefficient) et l'énergie ainsi que leurs dérivées premières et secondes, sont obtenus.

On appelle Ct un vecteur de spectre et d'énergie comprenant les coef¬ ficients cepstraux ainsi que les valeurs d'énergie, et o_t un vecteur comprenant Ct et ses dérivées premières et secondes. Le vecteur o_t est appelé vecteur acousti- que de l'instant t et comprend les informations de spectre et d'énergie du signal de parole naturelle analysé.

Grâce à cette analyse, chaque unité symbolique ou phonème est as¬ sociée à un modèle HMM, dit modèle gauche droite à trois états qui modélise la distribution des observations. L'apprentissage de chacun de ces modèles HMM est réalisé de ma¬ nière classique à l'aide, par exemple, d'un algorithme dit de Baum-Welch.

En particulier, les propriétés mathématiques connues des modèles de Markov permettent de déterminer la probabilité conditionnelle d'observation de la réalisation acoustique désignée Ot, étant donné l'état q_t du processus non obser- vable Q, dite probabilité de modèle, notée P_m, et correspondant à : ^p.= ^p M

Avantageusement, l'étape 2 comporte également une sous-étape 24 de détermination de modèles probabilistes adaptés au contexte phonétique. Plus précisément, cette sous-étape 24 correspond à l'apprentissage des modèles HMM de type dit triphone.

En effet, le phonème représente en phonologie le découpage des mots en sous unités linguistiques. Un phone désigne quant à lui une réalisation acoustique d'un pho¬ nème. Les réalisations acoustiques des phonèmes sont différentes suivant le contexte d'élocution. Par exemple, en fonction du contexte phonétique, des phé¬ nomènes de coarticulation sont observés de manière plus ou moins importante. De même, en fonction du contexte prosodique, des différences de réalisation acoustique peuvent apparaître.

Une méthode classique d'adaptation au contexte phonétique tient compte des contextes gauche et droit, ce qui abouti à la modélisation dite par triphone. Lors de l'apprentissage de modèles HMM, pour chaque triphone pré¬ sent dans la base, les paramètres des lois gaussiennes relatives à chaque état sont réestimés à partir des représentants de ce triphone.

Les probabilités de transition entre chaque état des modèles restent cependant inchangées.

Lorsque le nombre de représentants d'un triphone dans le corpus acoustique est insuffisant, les paramètres du modèle de ce triphone risquent d'être mal estimés. Il est cependant possible de regrouper les phonèmes des contextes gauche et droit en classes pour obtenir des modèles plus génériques dépendants du contexte.

A titre d'exemple, on distingue différentes catégories de contextes, tel¬ les que plosive, fricative, voisée ou non voisée. L'étape 2 comporte ensuite une sous-étape 26 de classification des modèles probabilistes en fonction de leurs paramètres symboliques afin de re¬ grouper au sein d'une même classe, les modèles présentant des similitudes acoustiques.

Une telle classification peut être obtenue par exemple par la construc- tion d'arbres de décision.

Un arbre de décision est construit pour chaque état de chaque modèle HMM. La construction est réalisée par divisions répétées des segments de parole naturelle des unités acoustiques de l'ensemble concerné, ces divisions étant opé¬ rées sur les paramètres symboliques. A chaque nœud de l'arbre, un critère portant sur les paramètres sym¬ bolique est appliqué pour séparer les différentes unités acoustiques correspon¬ dant aux réalisations acoustiques d'un même phonème. Par la suite, un calcul de variation de vraisemblance entre le nœud père et le nœud fil est réalisé, ce calcul étant réalisé à partir des paramètres des modèles de triphones déterminés pré¬ cédemment, afin de prendre en compte le contexte phonétique. Le critère de sé¬ paration conduisant à l'augmentation maximale de la vraisemblance est retenu et la séparation est effectivement acceptée si cette augmentation de vraisemblance dépasse un seuil fixé et si le nombre de représentants présents dans chacun des nœuds fils est suffisant.

Cette opération est répétée sur chaque branche jusqu'à ce qu'un cri¬ tère d'arrêt stoppe la classification donnant lieu à la génération d'une feuille de l'arbre ou une classe.

Chacune des feuilles de l'arbre d'un état du modèle est associée à une unique loi gaussienne de moyenne μ et de covariance Σ, qui caractérise les re¬ présentants de cette feuille et qui forme des paramètres de cet état, pour un mo¬ dèle acoustique contextuel.

Un modèle acoustique contextuel peut donc être défini pour chaque modèle HMM, par le parcours, pour chaque état du modèle HMM de l'arbre de décision associé afin d'attribuer une classe à cet état et de modifier les paramè¬ tres de moyenne et de covariance de sa loi gaussienne pour une adaptation au contexte. Les différentes unités symboliques correspondant aux différentes réali¬ sations d'un même phonème sont donc représentées par un même modèle HMM et par des modèles acoustiques contextuels différents. Ainsi, pour chaque phonème caractérisé par un ensemble de paramè¬ tre symboliques, un modèle acoustique contextuel est défini comme étant un mo¬ dèle HMM dont le processus non observable a pour matrice de transition celle du modèle du phonème issu de l'étape 22 et dans lequel, pour chaque état, la moyenne et la matrice de covariance du processus observable sont les moyenne et matrice de covariance de la classe obtenue par le parcours de l'arbre de déci¬ sion correspondant à cet état de ce phonème.

Une fois que les modèles acoustiques contextuels ont été déterminés, l'étape 4 de détermination d'une séquence cible d'unités symboliques est réali¬ sée. Cette étape 4 comporte tout d'abord une sous-étape 42 d'acquisition d'une représentation symbolique d'un texte donné à synthétiser, telle qu'une re¬ présentation graphémique ou orthographique.

Par exemple, cette représentation graphémique est un texte rédigé à l'aide de l'alphabet latin désigné par la référence TXT sur la figure 3.

Le procédé comporte ensuite une sous-étape 44 de détermination d'une séquence d'unités symboliques de nature phonologique à partir de la re¬ présentation graphémique.

Cette séquence d'unités symboliques repérée par la référence UP sur la figure 3 est, par exemple, composée de phonèmes extraits d'un alphabet pho¬ nétique.

Cette sous-étape 44 est réalisée automatiquement aux moyens de techniques classiques de l'état de l'art telles que la phonétisation ou autre.

Notamment, cette sous-étape 44 met en œuvre un système de phoné- tisation automatique utilisant des bases de données et permettant de décompo¬ ser n'importe quel texte sur un alphabet symbolique fini.

Ensuite, le procédé comporte l'étape 5 de détermination d'une sé¬ quence de modèles acoustiques contextuels correspondant à la séquence cible. Cette étape comporte tout d'abord une sous-étape 52 de modélisation de la sé- quence cible par sa décomposition sur une base de modèles probabilistes et plus précisément sur la base de modèles probabilistes de Markov cachés désignés HMM, déterminés au cours de l'étape 2.

La séquence de modèles probabilistes ainsi obtenue est référencée Hi^M et comporte les modèles Hi à HM sélectionnés parmi les 36 modèles de l'alphabet fini et correspond à la séquence cible UP.

Le procédé comporte ensuite une sous-étape 54 de formation de mo¬ dèles acoustiques contextuels par modification de paramètres des modèles de la séquence des modèles Hi^M pour former une séquence Λi^M de modèles acousti¬ ques contextuels. Cette formation est réalisée en parcourant, pour chaque état de chaque modèle de la séquence Hi^M, les arbres de décision. Chaque état de chaque modèle est modifié et prend les valeurs de moyenne et de covariance de la feuille dont les paramètres symboliques correspondent à ceux de la cible. La séquence Λi^M de modèles acoustiques contextuels est donc une séquence de modèles de Markov cachés, dont les paramètres de moyenne et de covariance ont été adaptés au contexte phonétique.

Le procédé comporte ensuite l'étape 6 de détermination d'un gabarit acoustique. Cette étape 6 comprend une sous-étape 62 de détermination de l'importance temporelle de chaque modèle acoustique contextuel, par l'attribution, pour chaque modèle acoustique contextuel, d'un nombre d'unités temporelles correspondant, une sous-étape 64 de détermination d'une séquence temporelle de modèles et une sous-étape 66 de détermination d'une séquence de trames acoustiques correspondante formant le gabarit acoustique.

Plus particulièrement, la sous-étape 62 de détermination de l'importance temporelle de chaque modèle acoustique contextuel, comprend la prédiction de la durée de chaque état des modèles acoustiques contextuels. Cette sous-étape 62 reçoit en entrée la séquence Λi^M de modèles acoustiques, comprenant des informations de moyenne, de covariance, et de densité de gaus- sienne pour chaque état et des matrices de transition, ainsi qu'une valeur de du¬ rée pour chaque état de modèle.

Ainsi, pour chaque modèle acoustique contextuel, il est possible de prendre la durée moyenne de chacun des états du modèle. En variante, une durée moyenne est définie pour chaque classe et la classification d'un état dans une classe entraîne l'attribution à cet état de cette durée moyenne.

Avantageusement, un modèle de prédiction de durée tel qu'il en existe dans l'état de l'art notamment pour attribuer à chaque phonème une valeur dési- rée, est utilisé pour assigner une durée aux différents états de la séquence Λ-ι^M de modèles acoustiques contextuels.

A partir de chaque consigne de durée phonémique d, il convient de dé¬ terminer des durées pour chaque état d'un phonème. Pour cela, il est nécessaire de calculer pour chaque modèle acoustique contextuel λ, la durée relative de chaque état i, cette durée est notée af , et est donnée par la relation suivante :

avec ^{1 ~} \ -a^{λ )} où al est la probabilité a pArôπ de rester dans l'état i, d* est la durée moyenne de l'état i du modèle λ, et Jj est le nombre d'états du modèle λ. La durée de l'état i du modèle λ considéré est alors

Connaissant cette valeur df , il est alors possible de déterminer le nombre de trames de l'état i pour le modèle acoustique contextuel λ considéré, ce qui correspond à son importance temporelle. Le nombre total de trames à syn¬ thétiser est obtenu directement par la connaissance de l'importance temporelle de chaque modèle.

Ayant déterminé une séquence de modèles acoustiques et l'importance temporelle relative de chaque modèle, il est possible de générer une séquence temporelle de modèles au cours de la sous-étape 64. Soient N le nom¬ bre total de trames à synthétiser, on détermine A = [X₁, X₂,... ,X_N] la séquence des modèles acoustiques contextuels et Q

, la séquence d'états correspondante.

La séquence Λ est une séquence temporelle de modèles, formée des modèles acoustiques contextuels de la séquence Λi^M, chacun dupliqué plusieurs fois en fonction de son importance temporelle comme cela est représenté sur la figure 3.

La détermination du gabarit requiert est réalisée lors de la sous-étape

66 par la détermination de la séquence d'observations o = ]p(,ol,....,o_N ^τ Y maximi¬ sant p[O|O,,Λj. T correspond dans ces équations à l'opérateur de transposition.

Comme indiqué précédemment, le vecteur d'observation o^ de la trame t est constitué d'une partie statique c, = [c_t(l),c_t(2),... C₁(P)J , P étant le nombre de coefficients MFCC₁ et d'une partie dynamique Ac₁, A² c_t constituée de la déri¬ vée première et de la dérivée seconde des coefficients MFCC, d'où

Ac₁ = ∑w^m(i)c_t. £<²> et Δ²c, = ∑w™(i)c_M .

Ainsi, la séquence d'observations Ot est complètement définie par sa partie statique C_t formée du vecteur de spectre et d'énergie, la partie dynamique étant directement déduite de celle-ci. La séquence d'observation s'écrit aussi sous forme matricielle de la façon suivante :

0 = W.C ,

et

.-, w^W(0)/_w w⁽ⁿ⁾ (L^)Ip_xP ,

0_PxP ,...,0_PxP]^τ, n = 0,1,2.

Maximiser p[θ|g,ΛJ par rapport à O revient à résoudre

et M = IMIMI,-, MiY où μ_qι est le vecteur des moyennes et U_qι est la matrice de covariance de l'état qt,

K étant une constante indépendante du vecteur d'observation O. L'équation (11) devient :

RC = r avec R = W^τU^~ιW et r = W⁷U-¹M⁷

Comme R est une matrice de (NPx NP) éléments, la résolution di- recte de l'équation RC = r nécessite (N³P³) opérations. Alternativement, pour réduire la complexité de l'algorithme, une procédure itérative de lissage connue peut être employée au cours de la sous-étape 66. La résolution de ces équations permet donc d'obtenir le gabarit acous¬ tique note C, formé de trames ou vecteurs comprenant des informations de spec¬ tre et d'énergie.

Le gabarit acoustique correspond donc à la séquence de vecteurs de spectre et d'énergie la plus probable étant donné la séquence de modèles acous¬ tiques contextuels.

Le procédé se rend ensuite à l'étape 7 de sélection d'une séquence d'unités acoustiques.

L'étape 7 débute par une sous-étape 72 de détermination d'une sé- quence référence d'unités symboliques, notée U. Cette séquence référence U est formée à partir de la séquence cible UP et est constituée d'unités symboliques utilisées pour la synthèse, lesquelles peuvent être différentes de celles formant la séquence cible UP. Par exemple, la séquence référence U est formée de pho¬ nèmes, de diphonèmes ou autres. Dans le cas où les unités symboliques utilisées pour la synthèse sont les mêmes que celles utilisées pour définir la séquence cible UP, cette séquence est identique à la séquence référence U, de sorte que la sous-étape 72 n'est pas réalisée.

Chaque unité symbolique de la séquence référence U est associée à un ensemble fini d'unités acoustiques correspondant à différentes réalisations acoustiques.

Ensuite, dans le mode de réalisation décrit, le procédé comprend une sous-étape 74 de segmentation du gabarit acoustique en fonction de la séquence référence U. En effet, pour pouvoir utiliser le gabarit acoustique, il est préférable d'opérer une segmentation de ce gabarit en fonction du type d'unités acoustiques à sélectionner.

Il est à noter d'ailleurs que le procédé de l'invention est applicable à tout type d'unités acoustiques, la sous-étape 74 de segmentation permettant d'adapter le gabarit acoustique aux différents types d'unités.

Cette segmentation est une décomposition du gabarit acoustique sur une base d'unités temporelles correspondant aux types d'unités acoustiques utili¬ sées. Ainsi, cette segmentation correspond au regroupement des trames du ga¬ barit acoustique C par segments d'une durée proche de celle des unités de la séquence de référence U, qui correspondent aux unités acoustiques utilisées pour la synthèse. Ces segments sont notés s, sur la figure 3.

Avantageusement, l'étape de sélection 7 comporte une sous-étape de présélection 76 permettant de définir, pour chaque unité symbolique Uj de la sé- quence référence U un sous-ensemble Ej d'unités acoustiques candidates, comme représenté sur la figure 3.

Cette présélection est réalisée de manière classique, par exemple en fonction des paramètres symboliques des unités acoustiques.

Le procédé comprend en outre une sous-étape 78 d'alignement du gabarit acoustique avec chaque séquence d'unités acoustiques possible à partir des unités candidates présélectionnées pour effectuer la sélection finale.

Plus précisément, les paramètres de chaque unité acoustique candi¬ dates sont comparés aux segments du gabarit correspondant par le biais d'un algorithme d'alignement, tel que par exemple un algorithme dit DTW (Dynamic Time Warping).

Cet algorithme DTW effectue un alignement de chaque unité acousti¬ que avec le segment de gabarit correspondant pour calculer une distance globale entre ces derniers, égale à la somme des distances locales sur le chemin d'alignement, divisée par le nombre de trames du segment le plus court. La dis- tance globale ainsi définie permet de déterminer une distance relative de durée entre les signaux comparés.

Dans le mode de réalisation décrit, la distance locale utilisée est la dis¬ tance euclidienne entre les vecteurs de spectre et d'énergie comprenant les coef¬ ficients MFCC et les informations d'énergie. Ainsi, le procédé de l'invention permet d'obtenir une séquence d'unités acoustiques sélectionnées de manière optimale, grâce à l'utilisation du gabarit acoustique.

Enfin, dans le cadre d'un procédé de synthèse, l'étape 7 de sélection est suivie d'une étape 9 de synthèse, qui comporte une sous-étape 92 de récupé- ration, pour chaque unité acoustique sélectionnée, d'un signal de parole naturelle dans la base de données 8, une sous-étape 94 de lissage des signaux et une sous-étape 96 de concaténation de différents signaux de parole naturelle afin de délivrer Ie signal synthétisé final. En variante, lorsque des consignes prosodiques de fréquence fonda¬ mentale de durée et d'énergie sont fournies, un algorithme de modification pro¬ sodique tel que par exemple un algorithme connu sous le nom de TD-PSOLA est utilisé au cours du module de synthèse lors d'une sous-étape de modification prosodique.

Enfin, dans l'exemple décrit, les modèles de Markov cachés sont des modèles dont les processus non observables sont à valeurs discrètes.

Cependant, le procédé peut également être réalisé avec des modèles dont les processus non observables sont à valeurs continues. II est également possible d'utiliser pour chaque représentation gra- phémique, plusieurs séquences d'unités symboliques, la prise en compte de plu¬ sieurs séquences symboliques étant connue de l'état de la technique.

En général, cette technique repose sur l'utilisation de modèles de lan¬ gage destinés à pondérer les différentes hypothèses par leur probabilité d'apparition dans l'univers symbolique.

Par ailleurs, les paramètres spectraux MFCC utilisés dans l'exemple décrit peuvent être remplacés par d'autres types de paramètres, tels que des pa¬ ramètres dits LSF (Linear Spectral Frequencies), des paramètres LPC (Linear Prédiction Coefficients) ou encore des paramètres reliés aux formants. Le procédé peut également utiliser d'autres informations caractéristi¬ ques des signaux vocaux, telles que des informations de fréquence fondamentale ou de qualité vocale, notamment lors des étapes de détermination des modèles acoustiques contextuels, de détermination du gabarit et de sélection.

Claims

REVENDICATIONS

1. Procédé de sélection d'unités acoustiques correspondant à des ré¬ alisations acoustiques d'unités symboliques de nature phonologique, lesdites uni¬ tés acoustiques contenant chacune un signal de parole naturelle et des paramè- très symboliques représentant leurs caractéristiques acoustiques, ledit procédé comportant :

- une étape (4) de détermination d'au moins une séquence cible (UP) d'unités symboliques ; et

- une étape (5) de détermination d'une séquence (Λ-t^M) de modèles acoustiques contextuels correspondant à ladite séquence cible (UP), caractérisé en ce qu'il comporte en outre :

- une étape (6) de détermination d'un gabarit acoustique (C) à partir de ladite séquence (Λ-i^M) de modèles acoustiques contextuels ; et

- une étape (7) de sélection d'une séquence d'unités acoustiques en fonction dudit gabarit acoustique appliqué à ladite séquence cible (UP) d'unités symboliques.

2. Procédé selon la revendication 1 , caractérisé en ce que le procédé comporte une étape (2) préalable de détermination de modèles acoustiques contextuels, mise en oeuvre à partir d'un ensemble donné d'unités acoustiques.

3. Procédé selon la revendication 2, caractérisé en ce que ladite étape

(2) de détermination de modèles acoustiques contextuels comprend :

- une sous-étape (22) de détermination, pour chaque unité acoustique, d'un modèle probabiliste issu d'un répertoire fini de modèles comportant chacun un processus aléatoire observable correspondant à la réalisation acoustique d'unités symboliques, et un processus aléatoire non observable possédant des propriétés probabilistes connues dites « propriétés de Markov » ;

- une sous-étape (26) de classification desdits modèles probabilistes en fonction de leurs paramètres symboliques, les processus aléatoires observables et non observables des modèles de chaque classe formant lesdits modèles acoustiques contextuels.

4. Procédé selon la revendication 3, caractérisé en ce que ladite étape (2) de détermination des modèles acoustiques contextuels comprend en outre une sous-étape (24) de détermination de modèles probabilistes adaptés au contexte phonétique dont les paramètres sont utilisés au cours de ladite sous- étape (26) de classification.

5. Procédé selon l'une quelconque des revendications 3 à 4, caractéri¬ sé en ce que ladite sous-étape (26) de classification comporte une classification par arbres de décision, les paramètres desdits modèles probabilistes étant modi¬ fiés par le parcours desdits arbres de décision pour former lesdits modèles acoustiques contextuels.

6. Procédé selon l'une quelconque des revendications 1 à 5, caractéri¬ sé en ce que ladite étape (4) de détermination d'au moins une séquence cible (UP) d'unités symboliques comprend :

- une sous-étape (42) d'acquisition d'une représentation symbolique d'un texte ; et

- une sous-étape (44) de détermination d'au moins une séquence (UP) d'unités symboliques à partir de ladite représentation symbolique.

7. Procédé selon l'une quelconque des revendications 1 à 6, caractéri¬ sé en ce que ladite étape (5) de détermination d'une séquence (Λi^M) de modèles acoustiques contextuels, comprend :

- une sous-étape (52) de modélisation de ladite séquence cible (UP) par sa décomposition sur une base de modèles probabilistes afin de délivrer une séquence (Hi^M) de modèles probabilistes correspondant à ladite séquence cible (UP); et

- une sous-étape (54) de formation des modèles acoustiques contex¬ tuels par modification de paramètre desdits modèles probabilistes pour former ladite séquence (Λi^M) de modèles acoustiques contextuels.

8. Procédé selon l'une quelconque des revendications 1 à 7, caractéri¬ sé en ce que ladite étape (6) de détermination d'un gabarit acoustique (C) com¬ prend :

- une sous-étape (62) de détermination de l'importance temporelle de chaque modèle acoustique contextuel ; - une sous-étape (64) de détermination, d'une séquence (Λ) tempo¬ relle de modèles; et

- une sous-étape (66) de détermination d'une séquence de trames acoustiques correspondantes formant ledit gabarit acoustique (C).

9. Procédé selon la revendication 8, caractérisé en ce que ladite sous- étape (62) de détermination de l'importance temporelle de chaque modèle acous¬ tique contextuel comprend la prédiction de sa durée.

10. Procédé selon l'une quelconque des revendications 1 à 9, caracté- risé en ce que ladite étape (7) de sélection d'une séquence d'unités acoustiques comprend :

- une sous-étape (72) de détermination d'une séquence référence (U) d'unités symboliques à partir de ladite séquence cible (UP), chaque unité symbo¬ lique de la séquence référence (U) étant associée à un ensemble d'unités acous- tiques ; et

- une sous-étape (78) d'alignement entre les unités acoustiques asso¬ ciées à ladite séquence référence (U) et ledit gabarit acoustique (C).

11. Procédé selon l'une quelconque des revendications 1 à 10, carac¬ térisé en ce que ladite étape (7) de sélection comprend en outre une sous-étape (74) de segmentation dudit gabarit acoustique (C) en fonction de ladite séquence référence (U).

12. Procédé selon la revendication 11 , caractérisé en ce que ladite sous-étape (74) de segmentation comprend une décomposition dudit gabarit acoustique (C) sur une base d'unités temporelles.

13. Procédé selon les revendications 10 et 11 prises ensembles, ca¬ ractérisé en ce que ledit gabarit étant segmenté chaque segment correspond à une unité symbolique de la séquence référence (U) et ladite sous-étape (78) d'alignement comporte l'alignement de chaque segment du gabarit (C) avec cha¬ cune des unités acoustiques associées à l'unité symbolique correspondante is- sue de la séquence référence (U).

14. Procédé selon l'une quelconque des revendications 10 à 13, ca¬ ractérisé en ce que ladite sous-étape (78) d'alignement comprend la détermina¬ tion d'un alignement optimal tel que déterminé par un algorithme dit "DTW".

15. Procédé selon l'une quelconque des revendications 10 à 14, ca- ractérisé en ce que ladite étape (7) de sélection comprend en outre une sous- étape (76) de présélection permettant de déterminer, pour chaque unité symboli¬ que de la séquence référence (U), des unités acoustiques candidates ladite sous-étape (78) d'alignement formant une sous-étape de sélection finale parmi ces unités candidates.

16. Procédé selon l'une quelconque des revendications 1 à 15, carac¬ térisé en ce que lesdits modèles acoustiques contextuels sont des modèles pro- babilistes à processus observables à valeurs continues et à processus non ob¬ servables à valeurs discrètes formant les états de ce processus.

17. Procédé selon l'une quelconque des revendications 1 à 15, carac¬ térisé en ce que lesdits modèles acoustiques contextuels sont des modèles pro- babilistes à processus non observables à valeurs continues.

18. Procédé de synthèse d'un signal de parole, caractérisé en ce qu'il comporte un procédé de sélection selon l'une quelconque des revendications 1 à 17, ladite séquence cible correspondant à un texte à synthétiser et le procédé comportant en outre une étape (9) de synthèse d'une séquence vocale à partir de ladite séquence d'unités acoustiques sélectionnées.

19. Procédé selon la revendication 18, caractérisé en ce que ladite étape de synthèse comporte : - une sous-étape (92) de récupération, pour chaque unité acoustique sélectionnée, d'un signal de parole naturelle ;

- une sous-étape (94) de lissage des signaux de parole ; et

- une sous-étape (96) de concaténation des différents signaux de pa¬ role naturelle.

20. Dispositif de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités symboliques de nature phonologique, caractéri¬ sé en ce qu'il comporte des moyens adaptés à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17.

21. Dispositif de synthèse d'un signal de parole, caractérisé en ce qu'il inclut des moyens adaptés à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17.

22. Programme d'ordinateur sur un support d'informations, caractérisé en ce qu'il comporte des instructions adaptées à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17, lorsque le pro- gramme est chargé et exécuté dans un système informatique.