WO2006032744A1 - Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale - Google Patents

Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale Download PDF

Info

Publication number
WO2006032744A1
WO2006032744A1 PCT/FR2005/002166 FR2005002166W WO2006032744A1 WO 2006032744 A1 WO2006032744 A1 WO 2006032744A1 FR 2005002166 W FR2005002166 W FR 2005002166W WO 2006032744 A1 WO2006032744 A1 WO 2006032744A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
sequence
models
units
substep
Prior art date
Application number
PCT/FR2005/002166
Other languages
English (en)
Inventor
Olivier Rosec
Soufiane Rouibia
Thierry Moudenc
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP05798354A priority Critical patent/EP1789953B1/fr
Priority to DE602005019070T priority patent/DE602005019070D1/de
Priority to US11/662,652 priority patent/US20070276666A1/en
Priority to AT05798354T priority patent/ATE456125T1/de
Publication of WO2006032744A1 publication Critical patent/WO2006032744A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • Such selection methods are used, for example, in the context of speech synthesis.
  • Each symbolic unit may be associated with a subset of natural speech segments, or acoustic units, such as phones, diphones or the like; representing variations of pronunciation of the sym ⁇ bolic unit.
  • a so-called corpus approach makes it possible to define, for the same symbolic unit, a corpus of acoustic units of variable size and parameters recorded in different linguistic contexts and according to different prosodic variants.
  • each comprises a plurality of symbolic parameters representing acoustic characteristics allowing its representation in mathematical form.
  • This type of method generally requires a preliminary phase of learning or determination of contextual acoustic models, including the determination of probabilistic models, for example, of the type called hidden Markov models or HMM, then their classification according to their symbolic parameters that eventually take into account their phonetic context. Contextual acoustic models are thus determined in the form of mathematical laws. The classification is used to perform a preselection of acoustic units according to their symbolic parameters.
  • the final selection generally involves cost functions based on a cost attributed to each concatenation between two acoustic units as well as a cost attributed to the use of each unit. However, the determination and prioritization of these costs are approximate and require the intervention of a human expert.
  • the object of the present invention is to solve this problem by challenging a high-performance acoustic unit selection method using a finite appearance of contextual acoustic models.
  • the subject of the present invention is a method for selecting acoustic units corresponding to acoustic embodiments of symbolic units of a phonological nature, said acoustic units each containing a natural speech signal and symbolic parameters representing their characteristics. acoustic devices, said method comprising:
  • the method of the invention makes it possible to take into account spectrum, energy and duration information at the moment of selection, thus allowing a reliable and good quality selection. .
  • the method comprises a preliminary step of determining contextual acoustic models, implemented from a given set of acoustic units;
  • said step of determining contextual acoustic models comprises:
  • said step of determining the contextual acoustic models further comprises a substep of determining probabilistic models adapted to the phonetic context whose parameters are used during said sub-step of classification;
  • said sub-step of classification comprises a classification by decision ar ⁇ bres, the parameters of said probabilistic models being modified by the course of said decision trees to form said contextual acoustic models;
  • said step of determining at least one target sequence of symbolic units comprises: a sub-step of acquiring a symbolic representation of a text
  • said step of determining a sequence of contextual acoustic models comprises:
  • said step of determining an acoustic mask comprises: a sub-step of determining the temporal importance of each contextual acoustic model
  • said sub-step of determining the temporal importance of each contextual acoustic model comprises the prediction of its duration
  • said step of selecting a sequence of acoustic units com ⁇ takes: a substep of determining a reference sequence of symbolic units from said target sequence, each sym ⁇ bolic unit of the reference sequence being associated with a set of acoustic units;
  • said segmentation sub-step comprises a decomposition of the said acoustic mask on a time unit basis; said template being segmented, each segment corresponds to a symbolic unit of the reference sequence and said alignment sub-step comprises the alignment of each segment of the template with each of the acoustic units associated with the corresponding symbolic unit resulting from the reference sequence. ; said alignment substep comprises the determination of an optimal ali ⁇ tion as determined by an algorithm called "DTW";
  • said selection step further comprises a substep of pre-selection making it possible to determine, for each symbolic unit of the reference sequencing, candidate acoustic units, said substep of alignment forming a sub-step of final selection among these candi ⁇ dates units;
  • these contextual acoustic models are probabilistic models with observable processes with continuous values and non-observable processes with discrete values forming the states of this process; and - said contextual acoustic models are probabilistic models with unobservable processes with continuous values.
  • the invention also relates to a method for synthesizing a speech signal, characterized in that it comprises a selection method as described above, said target sequence corresponding to a text to be synthesized and the method further comprising a step of synthesizing a voice sequence from said selected acoustic unit sequence.
  • said synthesis step comprises:
  • the invention also relates to a device for selecting acoustic units corresponding to acoustic embodiments of phonological symbolic units, this device comprising means adapted to the implementation of a selection method as defined. supra; and a dis ⁇ positive synthesis of a speech signal, remarkable in that it includes means adapted to the implementation of such a selection process.
  • the present invention also relates to a computer program on an information carrier, this program comprising instructions adapted to the implementation of a method of selecting acoustic units according to the inven ⁇ tion, when the program is loaded and executed in a computer system.
  • the advantages of these devices and computer program are identical to those mentioned above in connection with the method of selecting acoustic units of the invention.
  • FIG. 1 represents a general flowchart of a speech synthesis method implementing a selection method according to the invention
  • FIG. 1 represents a general process flow diagram of the invention implemented as part of a speech synthesis method.
  • the steps of the method of selecting acoustic units according to the invention are determined by the instructions of a computer program used for example in a voice synthesis device.
  • the method according to the invention is then implemented when the aforesaid program is loaded into computer means incorporated in the device in question, and whose operation is then controlled by the execu ⁇ tion of the program.
  • computer program is meant here one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system. Accordingly, the invention also relates to such a computer program, in particular in the form of software stored on an in ⁇ formation support.
  • an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
  • the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
  • the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the information carrier can also be a transmissible im ⁇ material support, such as an electrical or optical signal that can be ache ⁇ mine via an electric or optical cable, by radio or by other means.
  • a program according to the invention can in particular be downloaded to an Internet type network.
  • a computer program according to the in ⁇ vention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.
  • the selection method comprises first of all a preliminary step 2 for determining contextual acoustic models, implemented from a given set of acoustic units. contained in a database 3.
  • This determination step 2 is also called learning and makes it possible to define mathematical laws representing the acoustic units which each contain a natural speech signal and symbo ⁇ lique parameters representing their acoustic characteristics.
  • the method comprises following step 2 of determining contextual acoustic models, a step 4 of determining at least one target sequence of symbolic units of a phonological nature. In the embodiment described, this target sequence is unique and corresponds to a text to be synthesized.
  • the method then comprises a step 5 of determining a sequence of contextual acoustic models, as obtained from the preceding step 2, and corresponding to the target sequence.
  • the method further comprises a step 6 of determining an acoustic ga ⁇ barit from said sequence of contextual acoustic models. This template matches the most likely spectrum and energy settings given the sequence of contextual acoustic models determined previously.
  • Step 6 of determining an acoustic mask is followed by a step 7 of selection of acoustic units according to this acoustic mask applied to the target sequence of symbolic units.
  • the acoustic units selected are derived from a set of acoustic units for speech synthesis, formed of a database 8 identical to or different from the database 3.
  • the method comprises a step 9 for synthesizing a voice signal from the selected acoustic units and the database 8, so as to reconstruct a voice signal from each natural speech signal contained in the units. selected acoustics.
  • the method makes it possible, in particular by virtue of the determination and use of the acoustic mask, to have optimum control of the acoustic parameters of the signal generated by reference to the template.
  • Step 2 of determining the acoustic models is conventional. It is implemented from the database 3 containing a finite number of symbolic units of phonological nature as well as the associated speech and phonetic transcriptions. This set of symbolic units is divided into sets, each comprising all the acoustic units corres ⁇ ponding the different embodiments of the same symbolic unit.
  • Step 2 begins with a substep 22 for determining, for each symbolic unit, a probabilistic model which, in the embodiment described, is a hidden discrete state Markov model, commonly referred to as HMM (Hidden). Markov Model).
  • HMM Hidden discrete state Markov model
  • These models have three states and are defined, for each state, by a Gaussian law of mean ⁇ and covariance ⁇ which models the distribution of observations and by probabilities of state retention and transition to others. states of the model.
  • the parameters constituting an HMM model are therefore the parameters of mean and covariance of the Gaussian laws of the different states and the transition matrix grouping the different transition probabilities between the states.
  • these probabilistic models are derived from a finite algorithm of models comprising, for example, 36 different models which describe the probability of acoustic realization of symbolic units of a photonic nature.
  • the discrete models each comprise an observable random process corresponding to the acoustic realization of symbolic units and an unobservable random process designated Q and having known probabilistic properties known as "Markov properties" according to which the realization of the future state of a random process depends only on the present state of this process.
  • each natural speech signal contained in an acoustic unit is analyzed asynchronously with, for example, a fixed step of 5 milliseconds and a window of 10 milliseconds.
  • a fixed step of 5 milliseconds For each window centered on an analysis instant t, twelve cepstral coefficients or MFCC coefficients (MeI Frequency Cepstral Coefficient) and the energy as well as their first and second derivatives are obtained.
  • Ct is a spectrum and energy vector comprising the cepstral coefficients as well as the energy values
  • o t is a vector comprising Ct and its first and second derivatives.
  • the vector o t is called the acoustic vector of the instant t and comprises the spectrum and energy information of the natural speech signal analyzed.
  • step 2 also comprises a substep 24 of determining probabilistic models adapted to the phonetic context. More precisely, this substep 24 corresponds to the learning of HMM models of the so-called triphone type.
  • the phoneme represents in phonology the division of words into linguistic subunits.
  • a phone refers to an acoustic realization of a pho ⁇ ndiag.
  • Acoustic realizations of phonemes are different according to the speech context. For example, depending on the phonetic context, phenomena of coarticulation are observed to a greater or lesser extent. Similarly, depending on the prosodic context, differences in acoustic realization can appear.
  • a classical method of adaptation to the phonetic context takes into account the left and right contexts, which resulted in so-called triphone modeling.
  • triphone modeling When learning HMM models, for each triphone present in the base, the parameters of the Gaussian laws relating to each state are re-estimated from the representatives of this triphone.
  • Step 2 then comprises a substep 26 of classification of the probabilistic models according to their symbolic parameters in order to re ⁇ group within the same class, the models having acoustic similarities.
  • Such a classification can be obtained for example by the construction of decision trees.
  • a decision tree is constructed for each state of each HMM model. The construction is performed by repeated divisions of the natural speech segments of the acoustic units of the set concerned, these divisions being ozza ⁇ re on the symbolic parameters.
  • a criterion relating to the sym ⁇ bolic parameters is applied to separate the different acoustic units correspon ⁇ ing to the acoustic achievements of the same phoneme.
  • a calculation of the likelihood variation between the father node and the wire node is performed, this calculation being made from the parameters of previously determined triphone models, in order to take into account the phonetic context.
  • the criterion of separation leading to the maximum increase of the likelihood is retained and the separation is effectively accepted if this increase in likelihood exceeds a fixed threshold and if the number of representatives present in each of the child nodes is sufficient.
  • This operation is repeated on each branch until a stop cry stops the classification giving rise to the generation of a leaf of the tree or a class.
  • a contextual acoustic model can therefore be defined for each HMM model, by the route, for each state of the HMM model of the associated decision tree in order to assign a class to this state and to modify the parameters of average and covariance of its Gaussian law for adaptation to the context.
  • the different symbolic units corresponding to the different realizations of the same phoneme are thus represented by the same HMM model and by different contextual acoustic models.
  • a contextual acoustic model is defined as being an HMM model whose non-observable process has a transition matrix for that of the phoneme model resulting from step 22 and in which, for each state, the average and the covariance matrix of the observable process are the average and covariance matrix of the class obtained by the course of the deci ⁇ sion tree corresponding to this state of this phoneme.
  • step 4 of determining a target sequence of symbolic units is carried out.
  • This step 4 comprises, first of all, a substep 42 of acquiring a symbolic representation of a given text to be synthesized, such as a graphical or orthographic re ⁇ presentation.
  • this graphical representation is a text written using the Latin alphabet designated by the reference TXT in FIG.
  • the method then comprises a substep 44 for determining a sequence of symbolic units of a phonological nature from the graphemic re ⁇ presentation.
  • This sequence of symbolic units identified by the reference UP in FIG. 3 is, for example, composed of phonemes extracted from a phonetic alphabet.
  • This substep 44 is performed automatically by means of conventional techniques of the state of the art such as phonetization or other.
  • this substep 44 implements a system of automatic phonification using databases and making it possible to decompose any text on a finite symbolic alphabet.
  • the method comprises step 5 of determining a sequence of contextual acoustic models corresponding to the target sequence.
  • This step firstly comprises a substep 52 of modeling the target sequence by its decomposition on the basis of probabilistic models and more precisely on the basis of probabilistic hidden Markov models designated HMM, determined during the analysis. 2nd step.
  • the sequence of probabilistic models thus obtained is referenced Hi M and comprises the models Hi to HM selected from the 36 models of the finite alphabet and corresponds to the target sequence UP.
  • the method then comprises a sub-step 54 for forming contextual acoustic models by modifying the parameters of the models of the sequence of the Hi M models to form a sequence ⁇ i M of contextual acoustic models.
  • This training is performed by browsing, for each state of each model of the Hi M sequence, the decision trees. Each state of each model is modified and takes the average and covariance values of the sheet whose symbolic parameters correspond to those of the target.
  • the sequence ⁇ i M of contextual acoustic models is therefore a sequence of hidden Markov models whose average and covariance parameters have been adapted to the phonetic context.
  • the method then comprises step 6 of determining an acoustic mask.
  • This step 6 comprises a substep 62 for determining the temporal importance of each contextual acoustic model, by allocating, for each contextual acoustic model, a corresponding number of temporal units, a substep 64 of determination a temporal sequence of models and a substep 66 of determining a corresponding sequence of acoustic frames forming the acoustic mask.
  • the sub-step 62 for determining the temporal importance of each contextual acoustic model includes predicting the duration of each state of the contextual acoustic models.
  • This sub-step 62 receives as input the sequence ⁇ i M of acoustic models, comprising information of mean, covariance, and Gaussian density for each state and transition matrices, as well as a value of du ⁇ re for each model state.
  • each contextual acoustic model it is possible to take the average duration of each state of the model.
  • an average duration is defined for each class and the classification of a state in a class results in the allocation of this average duration to this state.
  • a duration prediction model such as exists in the state of the art, in particular for assigning each phoneme a desired value, is used to assign a duration to the different states of the sequence ⁇ - ⁇ M contextual acoustic models.
  • N the total number of frames to be synthesized.
  • A [X 1 , X 2 , ..., X N ] the sequence of contextual acoustic models and Q , the corresponding sequence of states.
  • the sequence ⁇ is a temporal sequence of models, formed of the contextual acoustic models of the sequence ⁇ i M , each duplicated several times according to its temporal importance as represented in FIG.
  • the determination of the required template is carried out during the sub-step
  • observation sequence is completely defined by its static part C t formed of the spectrum and energy vector, the dynamic part being directly deduced therefrom.
  • the observation sequence is also written in matrix form as follows:
  • the acoustic mask thus corresponds to the most probable sequence of vectors of spectrum and energy given the sequence of contextual acoustic models.
  • the method then goes to step 7 of selecting a sequence of acoustic units.
  • Step 7 begins with a sub-step 72 for determining a reference sequence of symbolic units, denoted by U.
  • This reference sequence U is formed from the target sequence UP and consists of symbolic units used to synthesis, which may be different from those forming the target sequence UP.
  • the reference sequence U is formed of pho ⁇ nemes, diphondiags or others.
  • this sequence is identical to the reference sequence U, so that the substep 72 is not performed.
  • Each symbolic unit of the reference sequence U is associated with a finite set of acoustic units corresponding to different acoustic embodiments.
  • the method comprises a substep 74 of segmentation of the acoustic mask as a function of the reference sequence U. Indeed, in order to be able to use the acoustic mask, it is preferable to operate a segmentation of this template according to the type of acoustic units to be selected.
  • the method of the invention is applicable to any type of acoustic units, the substep 74 segmentation for adapting the acoustic template to different types of units.
  • This segmentation is a decomposition of the acoustic mask on a basis of time units corresponding to the types of acoustic units used.
  • this segmentation corresponds to the grouping of the frames of the acoustic ga ⁇ barit C by segments of a duration close to that of the units of the reference sequence U, which correspond to the acoustic units used for the synthesis. These segments are noted s in FIG.
  • the selection step 7 comprises a preselection sub-step 76 making it possible to define, for each symbolic unit Uj of the reference sequence U, a subset Ej of candidate acoustic units, as represented in FIG.
  • This preselection is carried out conventionally, for example according to the symbolic parameters of the acoustic units.
  • the method further comprises a sub-step 78 of aligning the acoustic mask with each possible sequence of acoustic units from the preselected candidate units to make the final selection.
  • each acoustic unit candi ⁇ dates are compared to segments of the corresponding template by means of an alignment algorithm, such as for example a so-called DTW (Dynamic Time Warping) algorithm.
  • DTW Dynamic Time Warping
  • This DTW algorithm performs an alignment of each acoustic unit with the corresponding template segment to calculate an overall distance between them, equal to the sum of the local distances on the alignment path, divided by the number of frames of the segment. shorter.
  • the overall distance thus defined makes it possible to determine a relative distance of duration between the compared signals.
  • the local distance used is the Euclidean distance between the spectrum and energy vectors comprising the MFCC coefficients and the energy information.
  • the selection step 7 is followed by a synthesis step 9, which comprises a substep 92 of recovery, for each selected acoustic unit, of a signal in the database 8, a substep 94 of signal smoothing and a sub-step 96 of concatenation of different natural speech signals to output the final synthesized signal.
  • a pro ⁇ sodic modification algorithm such as for example an algorithm known under the name of TD-PSOLA is used during the synthesis module. during a sub-step of prosodic modification.
  • the hidden Markov models are models whose unobservable processes are discrete values.
  • the method can also be realized with models whose unobservable processes are continuous values. It is also possible to use, for each graphical representation, several sequences of symbolic units, the taking into account of several symbolic sequences being known from the state of the art.
  • this technique is based on the use of lan ⁇ gage models intended to weight the various hypotheses by their probability of appearing in the symbolic universe.
  • the MFCC spectral parameters used in the example described can be replaced by other types of parameters, such as so-called Linear Spectral Frequencies (LSF) parameters, Linear Prediction Coefficients (LPC) parameters or parameters. related to the formants.
  • LSF Linear Spectral Frequencies
  • LPC Linear Prediction Coefficients
  • the method may also use other characteristic information of the voice signals, such as fundamental frequency information or voice quality information, especially during the steps of determining the contextual acoustic models, template determination and selection.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Machine Translation (AREA)
  • Exchange Systems With Centralized Control (AREA)

Abstract

Ce procédé de sélection d'unités acoustiques contenant chacune un signal de parole naturelle et des paramètres symboliques, comporte : - une étape (4) de détermination d'au moins une séquence cible d'unités symboliques ; - une étape (5) de détermination d'une séquence de modèles acoustiques contextuels correspondant à ladite séquence cible ; - une étape (6) de détermination d'un gabarit acoustique à partir de ladite séquence de modèles acoustiques contextuels ; et - une étape (7) de sélection d'une séquence d'unités acoustiques en fonction dudit gabarit acoustique appliqué à ladite séquence cible d'unités symboliques. Application à la synthèse vocale.

Description

Procédé et dispositif de sélection d'unités acoustiques et procédé et dispositif de synthèse vocale.
La présente invention concerne un procédé de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités symboliques. Ces unités acoustiques contiennent des signaux de parole naturelle et compor¬ tent chacune une pluralité de paramètres symboliques représentant des caracté¬ ristiques acoustiques.
De tels procédés de sélection sont utilisés, par exemple, dans le cadre de la synthèse de parole. De manière générale, il est possible de décomposer une langue parlée sur une base finie d'unités symboliques de nature phonologique, telles que des phonèmes ou autres, permettant la vocalisation d'un énoncé textuel quelconque.
Chaque unité symbolique peut être associée à un sous-ensemble de segments de parole naturelle, ou unités acoustiques, telles que des phones, des diphones ou autres; représentant des variations de prononciation de l'unité sym¬ bolique.
En effet, une approche dite par corpus permet de définir, pour une même unité symbolique, un corpus d'unités acoustiques de taille et de paramè¬ tres variables enregistrées dans différents contextes linguistiques et selon diffé- rentes variantes prosodiques.
Il se pose alors un problème de sélection de ces unités en fonction du contexte de l'utilisation pour minimiser les discontinuités aux instants de concaté¬ nation et limiter le recours à des algorithmes de modification prosodique.
Afin de permettre un traitement automatique de ces unités acousti- ques, chacune comporte une pluralité de paramètres symboliques représentant des caractéristiques acoustiques permettant sa représentation sous forme ma¬ thématique.
Il existe des procédés de sélection d'unités acoustiques, notamment dans le cadre des procédés de synthèse vocale, qui utilisent un nombre fini de modèles acoustiques contextuels pour modéliser une séquence cible d'unités symboliques et procéder à une sélection.
Un exemple d'un tel procédé de synthèse est décrit notamment dans les documents intitulés « The IBM Trainable Speech Synthesis System » publié par Donovan R.E. and Eide E.M., Proc. ICSLP, Sydney, 1998, ou encore « Auto- Automatically Clustering Similar Units for Unit Sélection in Speech Synthesis » publié par Black A.W. and Taylor P. Proc. Eurospeech, pp. 601-604, 1997.
Ce type de procédé requiert généralement une phase préalable d'apprentissage ou de détermination des modèles acoustiques contextuels, com- prenant la détermination de modèles probabilistes, par exemple, du type dit mo¬ dèles de Markov cachés ou HMM, puis leur classification en fonction de leurs paramètres symboliques qui prennent éventuellement en compte leur contexte phonétique. On détermine ainsi des modèles acoustiques contextuels sous la forme de lois mathématiques. La classification est utilisée afin de réaliser une présélection d'unités acoustiques en fonction de leurs paramètres symboliques.
La sélection finale fait généralement intervenir des fonctions de coût fondées sur un coût attribué à chaque concaténation entre deux unités acousti¬ ques ainsi que sur un coût attribué à l'utilisation de chaque unité. Toutefois, la détermination et la hiérarchisation de ces coûts, sont fai¬ tes de manière approximative et nécessitent l'intervention d'un expert humain.
En conséquence, la sélection réalisée n'est pas optimale et on dispose de peu de contrôle sur la qualité du signal synthétisé rendant impossible une éva¬ luation de sa qualité a priori. Le but de la présente invention est de résoudre ce problème en défi¬ nissant un procédé performant de sélection d'unités acoustiques utilisant un en¬ semble fini de modèles acoustiques contextuels.
A cet effet, la présente invention a pour objet un procédé de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités sym- boliques de nature phonologique, lesdites unités acoustiques contenant chacune un signal de parole naturelle et des paramètres symboliques représentant leurs caractéristiques acoustiques, ledit procédé comportant :
- une étape de détermination d'au moins une séquence cible d'unités symboliques ; et - une étape de détermination d'une séquence de modèles acoustiques contextuels correspondant à ladite séquence cible, caractérisé en ce qu'il comporte en outre :
- une étape de détermination d'un gabarit acoustique à partir de ladite séquence de modèles acoustiques contextuels ; et - une étape de sélection d'une séquence d'unités acoustiques en fonc¬ tion dudit gabarit acoustique appliqué à ladite séquence cible d'unités symboli¬ ques.
Grâce à l'utilisation d'un gabarit acoustique, le procédé de l'invention permet de prendre en compte des informations de spectre, d'énergie et de durée au moment de la sélection, permettant ainsi une sélection fiable et de bonne qua¬ lité.
Suivant d'autres caractéristiques de l'invention :
- Le procédé comporte une étape préalable de détermination de modè- les acoustiques contextuels, mise en œuvre à partir d'un ensemble donné d'unités acoustiques ;
- ladite étape de détermination de modèles acoustiques contextuels comprend :
- une sous-étape de détermination, pour chaque unité acousti- que, d'un modèle probabiliste issu d'un répertoire fini de modèles compor¬ tant chacun un processus aléatoire observable correspondant à la réalisa¬ tion acoustique d'unités symboliques, et un processus aléatoire non ob¬ servable possédant des propriétés probabilistes connues dites « propriétés de Markov » ; - une sous-étape de classification desdits modèles probabilistes en fonction de leurs paramètres symboliques, les processus aléatoires observables et non observables des modèles de chaque classe formant lesdits modèles acoustiques contextuels ;
- ladite étape de détermination des modèles acoustiques contextuels comprend en outre une sous-étape de détermination de modèles probabilistes adaptés au contexte phonétique dont les paramètres sont utilisés au cours de ladite sous-étape de classification ;
- ladite sous-étape de classification comporte une classification par ar¬ bres de décision, les paramètres desdits modèles probabilistes étant modifiés par le parcours desdits arbres de décision pour former lesdits modèles acoustiques contextuels ;
- ladite étape de détermination d'au moins une séquence cible d'unités symboliques comprend : - une sous-étape d'acquisition d'une représentation symbolique d'un texte ; et
- une sous-étape de détermination d'au moins une séquence d'unités symboliques à partir de ladite représentation symbolique ; - ladite étape de détermination d'une séquence de modèles acousti¬ ques contextuels, comprend :
- une sous-étape de modélisation de ladite séquence cible par sa décomposition sur une base de modèles probabilistes afin de délivrer une séquence de modèles probabilistes correspondant à ladite séquence cible ; et
- une sous-étape de formation des modèles acoustiques contex¬ tuels par modification de paramètre desdits modèles probabilistes pour former ladite séquence de modèles acoustiques contextuels ;
- ladite étape de détermination d'un gabarit acoustique comprend : - une sous-étape de détermination de l'importance temporelle de chaque modèle acoustique contextuel ;
- une sous-étape de détermination, d'une séquence temporelle de modèles; et
- une sous-étape de détermination d'une séquence de trames acoustiques correspondantes formant ledit gabarit acoustique ;
- ladite sous-étape de détermination de l'importance temporelle de chaque modèle acoustique contextuel comprend la prédiction de sa durée ;
- ladite étape de sélection d'une séquence d'unités acoustiques com¬ prend : - une sous-étape de détermination d'une séquence référence d'unités symboliques à partir de ladite séquence cible, chaque unité sym¬ bolique de la séquence référence étant associée à un ensemble d'unités acoustiques ; et
- une sous-étape d'alignement entre les unités acoustiques as- sociées à ladite séquence référence et ledit gabarit acoustique ;
- ladite étape de sélection comprend en outre une sous-étape de seg¬ mentation dudit gabarit acoustique en fonction de ladite séquence référence ;
- ladite sous-étape de segmentation comprend une décomposition du¬ dit gabarit acoustique sur une base d'unités temporelles ; - ledit gabarit étant segmenté chaque segment correspond à une unité symbolique de la séquence référence et ladite sous-étape d'alignement comporte l'alignement de chaque segment du gabarit avec chacune des unités acoustiques associées à l'unité symbolique correspondante issue de la séquence référence ; - ladite sous-étape d'alignement comprend la détermination d'un ali¬ gnement optimal tel que déterminé par un algorithme dit "DTW" ;
- ladite étape de sélection comprend en outre une sous-étape de pré¬ sélection permettant de déterminer, pour chaque unité symbolique de la sé¬ quence référence, des unités acoustiques candidates ladite sous-étape d'alignement formant une sous-étape de sélection finale parmi ces unités candi¬ dates ;
- lesdits modèles acoustiques contextuels sont des modèles probabi- listes à processus observables à valeurs continues et à processus non observa¬ bles à valeurs discrètes formant les états de ce processus ; et - lesdits modèles acoustiques contextuels sont des modèles probabi- listes à processus non observables à valeurs continues.
L'invention concerne également un procédé de synthèse d'un signal de parole, caractérisé en ce qu'il comporte un procédé de sélection tel que décrit précédemment, ladite séquence cible correspondant à un texte à synthétiser et le procédé comportant en outre une étape de synthèse d'une séquence vocale à partir de ladite séquence d'unités acoustiques sélectionnées.
Selon d'autres caractéristiques, ladite étape de synthèse comporte :
- une sous-étape de récupération, pour chaque unité acoustique sélec¬ tionnée, d'un signal de parole naturelle ; - une sous-étape de lissage des signaux de parole ; et
- une sous-étape de concaténation des différents signaux de parole naturelle.
Corrélativement, l'invention concerne aussi un dispositif de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités sym- boliques de nature phonologique, ce dispositif comportant des moyens adaptés à la mise en œuvre d'un procédé de sélection tel que défini supra ; ainsi qu'un dis¬ positif de synthèse d'un signal de parole, remarquable en ce qu'il inclut des moyens adaptés à la mise en œuvre d'un tel procédé de sélection. La présente invention concerne aussi un programme d'ordinateur sur un support d'informations, ce programme comportant des instructions adaptées à la mise en œuvre d'un procédé de sélection d'unités acoustiques selon l'inven¬ tion, lorsque le programme est chargé et exécuté dans un système informatique. Les avantages de ces dispositifs et programme d'ordinateur sont iden¬ tiques à ceux mentionnés plus haut en relation avec le procédé de sélection d'unités acoustiques de l'invention.
L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés, sur lesquels :
- la Fig.1 représente un organigramme général d'un procédé de syn¬ thèse vocale mettant en oeuvre un procédé de sélection selon l'invention ;
- la Fig.2 représente un organigramme détaillé du procédé de la Fig.1 ; et - la Fig.3 représente le détail de signaux spécifiques au cours du pro¬ cédé décrit en référence à la Fig.2.
La figure 1 représente un organigramme général de procédé de l'invention mis en œuvre dans le cadre d'un procédé de synthèse vocale.
Selon une implémentation préférée, les étapes du procédé de sélec- tion d'unités acoustiques selon l'invention sont déterminées par les instructions d'un programme d'ordinateur utilisé par exemple dans un dispositif de synthèse vocale.
Le procédé selon l'invention est alors mis en œuvre lorsque le pro¬ gramme précité est chargé dans des moyens informatiques incorporés dans le dispositif en question, et dont le fonctionnement est alors commandé par l'exécu¬ tion du programme.
On entend ici par "programme d'ordinateur" un ou plusieurs program¬ mes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en œuvre de l'invention lorsqu'il est exécuté par un système informatique approprié. En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'in¬ formations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention. Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exé¬ cuter ou pour être utilisé dans l'exécution du procédé en question.
D'autre part, le support d'informations peut être aussi un support im¬ matériel transmissible, tel qu'un signal électrique ou optique pouvant être ache¬ miné via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
D'un point de vue conception, un programme d'ordinateur selon l'in¬ vention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.
De retour à la figure 1 , le procédé de sélection selon l'invention com¬ porte tout d'abord une étape 2 préalable de détermination de modèles acousti¬ ques contextuels, mise en œuvre à partir d'un ensemble donné d'unités acousti- ques contenues dans une base de données 3.
Cette étape 2 de détermination est également appelée apprentissage et permet de définir des lois mathématiques représentant les unités acoustiques qui contiennent chacune un signal de parole naturelle et des paramètres symbo¬ liques représentant leurs caractéristiques acoustiques. Le procédé comprend suite à l'étape 2 de détermination de modèles acoustiques contextuels, une étape 4 de détermination d'au moins une séquence cible d'unités symboliques de nature phonologique. Dans le mode de réalisation décrit cette séquence cible est unique et correspond à un texte à synthétiser.
Le procédé comporte ensuite une étape 5 de détermination d'une sé- quence de modèles acoustiques contextuels, tels qu'issus de l'étape 2 préalable, et correspondant à la séquence cible.
Le procédé comporte en outre une étape 6 de détermination d'un ga¬ barit acoustique à partir de ladite séquence de modèles acoustiques contextuels. Ce gabarit correspond aux paramètres de spectre et d'énergie les plus probables étant donné la séquence de modèles acoustiques contextuels déterminée précé¬ demment.
L'étape 6 de détermination d'un gabarit acoustique est suivie d'une étape 7 de sélection d'unités acoustiques en fonction de ce gabarit acoustique appliqué à la séquence cible d'unités symboliques.
Les unités acoustiques sélectionnées sont issues d'un ensemble don¬ né d'unités acoustiques pour la synthèse vocale, formé d'une base de données 8 identique ou différente de la base de données 3.
Enfin, le procédé comporte une étape 9 de synthèse d'un signal vocal à partir des unités acoustiques sélectionnées et de la base de données 8, de manière à reconstituer un signal vocal à partir de chaque signal de parole natu¬ relle contenu dans les unités acoustiques sélectionnées.
Ainsi, le procédé permet, notamment grâce à la détermination et à l'utilisation du gabarit acoustique, d'avoir un contrôle optimum des paramètres acoustiques du signal généré par référence au gabarit.
On va maintenant décrire en détail le procédé de l'invention en réfé¬ rence aux figures 2 et 3.
L'étape 2 de détermination des modèles acoustiques est classique. Elle est mise en œuvre à partir de la base de données 3 contenant un nombre fini d'unités symboliques de nature phonologique ainsi que les signaux vocaux et transcriptions phonétiques associés. Cet ensemble d'unités symboliques est dé¬ coupé en ensembles, chacun comprenant toutes les unités acoustiques corres¬ pondant aux différentes réalisations d'une même unité symbolique.
L'étape 2 débute par une sous-étape 22 de détermination, pour cha- que unité symbolique, d'un modèle probabiliste qui, dans le mode de réalisation décrit, est un modèle de Markov caché à états discrets, couramment désigné HMM (Hidden Markov Model).
Ces modèles comportent trois états et sont définis, pour chaque état, par une loi gaussienne de moyenne μ et de covariance ∑ qui modélise la distribu- tion des observations et par des probabilités de maintien dans l'état et de transi¬ tion vers les autres états du modèle. Les paramètres constituant un modèle HMM sont donc les paramètres de moyenne et de covariance des lois gaussiennes des différents états et la matrice de transition regroupant les différentes probabilités de transition entre les états. De manière classique, ces modèles probabilistes sont issus d'un al¬ phabet fini de modèles comportant par exemple 36 modèles différents qui décri¬ vent la probabilité de réalisation acoustique d'unités symboliques de nature pho¬ nologique. Par ailleurs, les modèles discrets comportent chacun un processus aléatoire observable correspondant à la réalisation acoustique d'unités symboli¬ ques et un processus aléatoire non observable désigné Q et possédant des pro¬ priétés probabilistes connues dites « propriétés de Markov » selon lesquelles la réalisation de l'état futur d'un processus aléatoire ne dépend que de l'état présent de ce processus.
Au cours de la sous-étape 22, chaque signal de parole naturelle contenu dans une unité acoustique est analysé de manière asynchrone avec, par exemple, un pas fixe de 5 millisecondes et une fenêtre de 10 millisecondes. Pour chaque fenêtre centrée sur un instant d'analyse t, douze coefficients cepstraux ou coefficients MFCC (MeI Frequency Cepstral Coefficient) et l'énergie ainsi que leurs dérivées premières et secondes, sont obtenus.
On appelle Ct un vecteur de spectre et d'énergie comprenant les coef¬ ficients cepstraux ainsi que les valeurs d'énergie, et ot un vecteur comprenant Ct et ses dérivées premières et secondes. Le vecteur ot est appelé vecteur acousti- que de l'instant t et comprend les informations de spectre et d'énergie du signal de parole naturelle analysé.
Grâce à cette analyse, chaque unité symbolique ou phonème est as¬ sociée à un modèle HMM, dit modèle gauche droite à trois états qui modélise la distribution des observations. L'apprentissage de chacun de ces modèles HMM est réalisé de ma¬ nière classique à l'aide, par exemple, d'un algorithme dit de Baum-Welch.
En particulier, les propriétés mathématiques connues des modèles de Markov permettent de déterminer la probabilité conditionnelle d'observation de la réalisation acoustique désignée Ot, étant donné l'état qt du processus non obser- vable Q, dite probabilité de modèle, notée Pm, et correspondant à : p.= p M
Avantageusement, l'étape 2 comporte également une sous-étape 24 de détermination de modèles probabilistes adaptés au contexte phonétique. Plus précisément, cette sous-étape 24 correspond à l'apprentissage des modèles HMM de type dit triphone.
En effet, le phonème représente en phonologie le découpage des mots en sous unités linguistiques. Un phone désigne quant à lui une réalisation acoustique d'un pho¬ nème. Les réalisations acoustiques des phonèmes sont différentes suivant le contexte d'élocution. Par exemple, en fonction du contexte phonétique, des phé¬ nomènes de coarticulation sont observés de manière plus ou moins importante. De même, en fonction du contexte prosodique, des différences de réalisation acoustique peuvent apparaître.
Une méthode classique d'adaptation au contexte phonétique tient compte des contextes gauche et droit, ce qui abouti à la modélisation dite par triphone. Lors de l'apprentissage de modèles HMM, pour chaque triphone pré¬ sent dans la base, les paramètres des lois gaussiennes relatives à chaque état sont réestimés à partir des représentants de ce triphone.
Les probabilités de transition entre chaque état des modèles restent cependant inchangées.
Lorsque le nombre de représentants d'un triphone dans le corpus acoustique est insuffisant, les paramètres du modèle de ce triphone risquent d'être mal estimés. Il est cependant possible de regrouper les phonèmes des contextes gauche et droit en classes pour obtenir des modèles plus génériques dépendants du contexte.
A titre d'exemple, on distingue différentes catégories de contextes, tel¬ les que plosive, fricative, voisée ou non voisée. L'étape 2 comporte ensuite une sous-étape 26 de classification des modèles probabilistes en fonction de leurs paramètres symboliques afin de re¬ grouper au sein d'une même classe, les modèles présentant des similitudes acoustiques.
Une telle classification peut être obtenue par exemple par la construc- tion d'arbres de décision.
Un arbre de décision est construit pour chaque état de chaque modèle HMM. La construction est réalisée par divisions répétées des segments de parole naturelle des unités acoustiques de l'ensemble concerné, ces divisions étant opé¬ rées sur les paramètres symboliques. A chaque nœud de l'arbre, un critère portant sur les paramètres sym¬ bolique est appliqué pour séparer les différentes unités acoustiques correspon¬ dant aux réalisations acoustiques d'un même phonème. Par la suite, un calcul de variation de vraisemblance entre le nœud père et le nœud fil est réalisé, ce calcul étant réalisé à partir des paramètres des modèles de triphones déterminés pré¬ cédemment, afin de prendre en compte le contexte phonétique. Le critère de sé¬ paration conduisant à l'augmentation maximale de la vraisemblance est retenu et la séparation est effectivement acceptée si cette augmentation de vraisemblance dépasse un seuil fixé et si le nombre de représentants présents dans chacun des nœuds fils est suffisant.
Cette opération est répétée sur chaque branche jusqu'à ce qu'un cri¬ tère d'arrêt stoppe la classification donnant lieu à la génération d'une feuille de l'arbre ou une classe.
Chacune des feuilles de l'arbre d'un état du modèle est associée à une unique loi gaussienne de moyenne μ et de covariance Σ, qui caractérise les re¬ présentants de cette feuille et qui forme des paramètres de cet état, pour un mo¬ dèle acoustique contextuel.
Un modèle acoustique contextuel peut donc être défini pour chaque modèle HMM, par le parcours, pour chaque état du modèle HMM de l'arbre de décision associé afin d'attribuer une classe à cet état et de modifier les paramè¬ tres de moyenne et de covariance de sa loi gaussienne pour une adaptation au contexte. Les différentes unités symboliques correspondant aux différentes réali¬ sations d'un même phonème sont donc représentées par un même modèle HMM et par des modèles acoustiques contextuels différents. Ainsi, pour chaque phonème caractérisé par un ensemble de paramè¬ tre symboliques, un modèle acoustique contextuel est défini comme étant un mo¬ dèle HMM dont le processus non observable a pour matrice de transition celle du modèle du phonème issu de l'étape 22 et dans lequel, pour chaque état, la moyenne et la matrice de covariance du processus observable sont les moyenne et matrice de covariance de la classe obtenue par le parcours de l'arbre de déci¬ sion correspondant à cet état de ce phonème.
Une fois que les modèles acoustiques contextuels ont été déterminés, l'étape 4 de détermination d'une séquence cible d'unités symboliques est réali¬ sée. Cette étape 4 comporte tout d'abord une sous-étape 42 d'acquisition d'une représentation symbolique d'un texte donné à synthétiser, telle qu'une re¬ présentation graphémique ou orthographique.
Par exemple, cette représentation graphémique est un texte rédigé à l'aide de l'alphabet latin désigné par la référence TXT sur la figure 3.
Le procédé comporte ensuite une sous-étape 44 de détermination d'une séquence d'unités symboliques de nature phonologique à partir de la re¬ présentation graphémique.
Cette séquence d'unités symboliques repérée par la référence UP sur la figure 3 est, par exemple, composée de phonèmes extraits d'un alphabet pho¬ nétique.
Cette sous-étape 44 est réalisée automatiquement aux moyens de techniques classiques de l'état de l'art telles que la phonétisation ou autre.
Notamment, cette sous-étape 44 met en œuvre un système de phoné- tisation automatique utilisant des bases de données et permettant de décompo¬ ser n'importe quel texte sur un alphabet symbolique fini.
Ensuite, le procédé comporte l'étape 5 de détermination d'une sé¬ quence de modèles acoustiques contextuels correspondant à la séquence cible. Cette étape comporte tout d'abord une sous-étape 52 de modélisation de la sé- quence cible par sa décomposition sur une base de modèles probabilistes et plus précisément sur la base de modèles probabilistes de Markov cachés désignés HMM, déterminés au cours de l'étape 2.
La séquence de modèles probabilistes ainsi obtenue est référencée HiM et comporte les modèles Hi à HM sélectionnés parmi les 36 modèles de l'alphabet fini et correspond à la séquence cible UP.
Le procédé comporte ensuite une sous-étape 54 de formation de mo¬ dèles acoustiques contextuels par modification de paramètres des modèles de la séquence des modèles HiM pour former une séquence ΛiM de modèles acousti¬ ques contextuels. Cette formation est réalisée en parcourant, pour chaque état de chaque modèle de la séquence HiM, les arbres de décision. Chaque état de chaque modèle est modifié et prend les valeurs de moyenne et de covariance de la feuille dont les paramètres symboliques correspondent à ceux de la cible. La séquence ΛiM de modèles acoustiques contextuels est donc une séquence de modèles de Markov cachés, dont les paramètres de moyenne et de covariance ont été adaptés au contexte phonétique.
Le procédé comporte ensuite l'étape 6 de détermination d'un gabarit acoustique. Cette étape 6 comprend une sous-étape 62 de détermination de l'importance temporelle de chaque modèle acoustique contextuel, par l'attribution, pour chaque modèle acoustique contextuel, d'un nombre d'unités temporelles correspondant, une sous-étape 64 de détermination d'une séquence temporelle de modèles et une sous-étape 66 de détermination d'une séquence de trames acoustiques correspondante formant le gabarit acoustique.
Plus particulièrement, la sous-étape 62 de détermination de l'importance temporelle de chaque modèle acoustique contextuel, comprend la prédiction de la durée de chaque état des modèles acoustiques contextuels. Cette sous-étape 62 reçoit en entrée la séquence ΛiM de modèles acoustiques, comprenant des informations de moyenne, de covariance, et de densité de gaus- sienne pour chaque état et des matrices de transition, ainsi qu'une valeur de du¬ rée pour chaque état de modèle.
Ainsi, pour chaque modèle acoustique contextuel, il est possible de prendre la durée moyenne de chacun des états du modèle. En variante, une durée moyenne est définie pour chaque classe et la classification d'un état dans une classe entraîne l'attribution à cet état de cette durée moyenne.
Avantageusement, un modèle de prédiction de durée tel qu'il en existe dans l'état de l'art notamment pour attribuer à chaque phonème une valeur dési- rée, est utilisé pour assigner une durée aux différents états de la séquence Λ-ιM de modèles acoustiques contextuels.
A partir de chaque consigne de durée phonémique d, il convient de dé¬ terminer des durées pour chaque état d'un phonème. Pour cela, il est nécessaire de calculer pour chaque modèle acoustique contextuel λ, la durée relative de chaque état i, cette durée est notée af , et est donnée par la relation suivante :
Figure imgf000014_0001
avec 1 ~ \ -aλ ) où al est la probabilité a pArôπ de rester dans l'état i, d* est la durée moyenne de l'état i du modèle λ, et Jj est le nombre d'états du modèle λ. La durée de l'état i du modèle λ considéré est alors
Figure imgf000015_0001
Connaissant cette valeur df , il est alors possible de déterminer le nombre de trames de l'état i pour le modèle acoustique contextuel λ considéré, ce qui correspond à son importance temporelle. Le nombre total de trames à syn¬ thétiser est obtenu directement par la connaissance de l'importance temporelle de chaque modèle.
Ayant déterminé une séquence de modèles acoustiques et l'importance temporelle relative de chaque modèle, il est possible de générer une séquence temporelle de modèles au cours de la sous-étape 64. Soient N le nom¬ bre total de trames à synthétiser, on détermine A = [X1, X2,... ,XN] la séquence des modèles acoustiques contextuels et Q
Figure imgf000015_0002
, la séquence d'états correspondante.
La séquence Λ est une séquence temporelle de modèles, formée des modèles acoustiques contextuels de la séquence ΛiM, chacun dupliqué plusieurs fois en fonction de son importance temporelle comme cela est représenté sur la figure 3.
La détermination du gabarit requiert est réalisée lors de la sous-étape
66 par la détermination de la séquence d'observations o = ]p(,ol,....,oN τ Y maximi¬ sant p[O|O,,Λj. T correspond dans ces équations à l'opérateur de transposition.
Comme indiqué précédemment, le vecteur d'observation o^ de la trame t est constitué d'une partie statique c, = [ct(l),ct(2),... C1(P)J , P étant le nombre de coefficients MFCC1 et d'une partie dynamique Ac1, A2 ct constituée de la déri¬ vée première et de la dérivée seconde des coefficients MFCC, d'où
Figure imgf000015_0003
Ac1 = ∑wm(i)ct. £<2> et Δ2c, = ∑w™(i)cM .
Ainsi, la séquence d'observations Ot est complètement définie par sa partie statique Ct formée du vecteur de spectre et d'énergie, la partie dynamique étant directement déduite de celle-ci. La séquence d'observation s'écrit aussi sous forme matricielle de la façon suivante :
0 = W.C ,
Figure imgf000016_0001
et
Figure imgf000016_0002
.-, wW(0)/w w(n) (L^)IpxP ,
0PxP ,...,0PxP]τ, n = 0,1,2.
Maximiser p[θ|g,ΛJ par rapport à O revient à résoudre
Figure imgf000016_0003
et M = IMIMI,-, MiY où μ est le vecteur des moyennes et U est la matrice de covariance de l'état qt,
K étant une constante indépendante du vecteur d'observation O. L'équation (11) devient :
RC = r avec R = WτUW et r = W7U-1M7
Comme R est une matrice de (NPx NP) éléments, la résolution di- recte de l'équation RC = r nécessite (N3P3) opérations. Alternativement, pour réduire la complexité de l'algorithme, une procédure itérative de lissage connue peut être employée au cours de la sous-étape 66. La résolution de ces équations permet donc d'obtenir le gabarit acous¬ tique note C, formé de trames ou vecteurs comprenant des informations de spec¬ tre et d'énergie.
Le gabarit acoustique correspond donc à la séquence de vecteurs de spectre et d'énergie la plus probable étant donné la séquence de modèles acous¬ tiques contextuels.
Le procédé se rend ensuite à l'étape 7 de sélection d'une séquence d'unités acoustiques.
L'étape 7 débute par une sous-étape 72 de détermination d'une sé- quence référence d'unités symboliques, notée U. Cette séquence référence U est formée à partir de la séquence cible UP et est constituée d'unités symboliques utilisées pour la synthèse, lesquelles peuvent être différentes de celles formant la séquence cible UP. Par exemple, la séquence référence U est formée de pho¬ nèmes, de diphonèmes ou autres. Dans le cas où les unités symboliques utilisées pour la synthèse sont les mêmes que celles utilisées pour définir la séquence cible UP, cette séquence est identique à la séquence référence U, de sorte que la sous-étape 72 n'est pas réalisée.
Chaque unité symbolique de la séquence référence U est associée à un ensemble fini d'unités acoustiques correspondant à différentes réalisations acoustiques.
Ensuite, dans le mode de réalisation décrit, le procédé comprend une sous-étape 74 de segmentation du gabarit acoustique en fonction de la séquence référence U. En effet, pour pouvoir utiliser le gabarit acoustique, il est préférable d'opérer une segmentation de ce gabarit en fonction du type d'unités acoustiques à sélectionner.
Il est à noter d'ailleurs que le procédé de l'invention est applicable à tout type d'unités acoustiques, la sous-étape 74 de segmentation permettant d'adapter le gabarit acoustique aux différents types d'unités.
Cette segmentation est une décomposition du gabarit acoustique sur une base d'unités temporelles correspondant aux types d'unités acoustiques utili¬ sées. Ainsi, cette segmentation correspond au regroupement des trames du ga¬ barit acoustique C par segments d'une durée proche de celle des unités de la séquence de référence U, qui correspondent aux unités acoustiques utilisées pour la synthèse. Ces segments sont notés s, sur la figure 3.
Avantageusement, l'étape de sélection 7 comporte une sous-étape de présélection 76 permettant de définir, pour chaque unité symbolique Uj de la sé- quence référence U un sous-ensemble Ej d'unités acoustiques candidates, comme représenté sur la figure 3.
Cette présélection est réalisée de manière classique, par exemple en fonction des paramètres symboliques des unités acoustiques.
Le procédé comprend en outre une sous-étape 78 d'alignement du gabarit acoustique avec chaque séquence d'unités acoustiques possible à partir des unités candidates présélectionnées pour effectuer la sélection finale.
Plus précisément, les paramètres de chaque unité acoustique candi¬ dates sont comparés aux segments du gabarit correspondant par le biais d'un algorithme d'alignement, tel que par exemple un algorithme dit DTW (Dynamic Time Warping).
Cet algorithme DTW effectue un alignement de chaque unité acousti¬ que avec le segment de gabarit correspondant pour calculer une distance globale entre ces derniers, égale à la somme des distances locales sur le chemin d'alignement, divisée par le nombre de trames du segment le plus court. La dis- tance globale ainsi définie permet de déterminer une distance relative de durée entre les signaux comparés.
Dans le mode de réalisation décrit, la distance locale utilisée est la dis¬ tance euclidienne entre les vecteurs de spectre et d'énergie comprenant les coef¬ ficients MFCC et les informations d'énergie. Ainsi, le procédé de l'invention permet d'obtenir une séquence d'unités acoustiques sélectionnées de manière optimale, grâce à l'utilisation du gabarit acoustique.
Enfin, dans le cadre d'un procédé de synthèse, l'étape 7 de sélection est suivie d'une étape 9 de synthèse, qui comporte une sous-étape 92 de récupé- ration, pour chaque unité acoustique sélectionnée, d'un signal de parole naturelle dans la base de données 8, une sous-étape 94 de lissage des signaux et une sous-étape 96 de concaténation de différents signaux de parole naturelle afin de délivrer Ie signal synthétisé final. En variante, lorsque des consignes prosodiques de fréquence fonda¬ mentale de durée et d'énergie sont fournies, un algorithme de modification pro¬ sodique tel que par exemple un algorithme connu sous le nom de TD-PSOLA est utilisé au cours du module de synthèse lors d'une sous-étape de modification prosodique.
Enfin, dans l'exemple décrit, les modèles de Markov cachés sont des modèles dont les processus non observables sont à valeurs discrètes.
Cependant, le procédé peut également être réalisé avec des modèles dont les processus non observables sont à valeurs continues. II est également possible d'utiliser pour chaque représentation gra- phémique, plusieurs séquences d'unités symboliques, la prise en compte de plu¬ sieurs séquences symboliques étant connue de l'état de la technique.
En général, cette technique repose sur l'utilisation de modèles de lan¬ gage destinés à pondérer les différentes hypothèses par leur probabilité d'apparition dans l'univers symbolique.
Par ailleurs, les paramètres spectraux MFCC utilisés dans l'exemple décrit peuvent être remplacés par d'autres types de paramètres, tels que des pa¬ ramètres dits LSF (Linear Spectral Frequencies), des paramètres LPC (Linear Prédiction Coefficients) ou encore des paramètres reliés aux formants. Le procédé peut également utiliser d'autres informations caractéristi¬ ques des signaux vocaux, telles que des informations de fréquence fondamentale ou de qualité vocale, notamment lors des étapes de détermination des modèles acoustiques contextuels, de détermination du gabarit et de sélection.

Claims

REVENDICATIONS
1. Procédé de sélection d'unités acoustiques correspondant à des ré¬ alisations acoustiques d'unités symboliques de nature phonologique, lesdites uni¬ tés acoustiques contenant chacune un signal de parole naturelle et des paramè- très symboliques représentant leurs caractéristiques acoustiques, ledit procédé comportant :
- une étape (4) de détermination d'au moins une séquence cible (UP) d'unités symboliques ; et
- une étape (5) de détermination d'une séquence (Λ-tM) de modèles acoustiques contextuels correspondant à ladite séquence cible (UP), caractérisé en ce qu'il comporte en outre :
- une étape (6) de détermination d'un gabarit acoustique (C) à partir de ladite séquence (Λ-iM) de modèles acoustiques contextuels ; et
- une étape (7) de sélection d'une séquence d'unités acoustiques en fonction dudit gabarit acoustique appliqué à ladite séquence cible (UP) d'unités symboliques.
2. Procédé selon la revendication 1 , caractérisé en ce que le procédé comporte une étape (2) préalable de détermination de modèles acoustiques contextuels, mise en oeuvre à partir d'un ensemble donné d'unités acoustiques.
3. Procédé selon la revendication 2, caractérisé en ce que ladite étape
(2) de détermination de modèles acoustiques contextuels comprend :
- une sous-étape (22) de détermination, pour chaque unité acoustique, d'un modèle probabiliste issu d'un répertoire fini de modèles comportant chacun un processus aléatoire observable correspondant à la réalisation acoustique d'unités symboliques, et un processus aléatoire non observable possédant des propriétés probabilistes connues dites « propriétés de Markov » ;
- une sous-étape (26) de classification desdits modèles probabilistes en fonction de leurs paramètres symboliques, les processus aléatoires observables et non observables des modèles de chaque classe formant lesdits modèles acoustiques contextuels.
4. Procédé selon la revendication 3, caractérisé en ce que ladite étape (2) de détermination des modèles acoustiques contextuels comprend en outre une sous-étape (24) de détermination de modèles probabilistes adaptés au contexte phonétique dont les paramètres sont utilisés au cours de ladite sous- étape (26) de classification.
5. Procédé selon l'une quelconque des revendications 3 à 4, caractéri¬ sé en ce que ladite sous-étape (26) de classification comporte une classification par arbres de décision, les paramètres desdits modèles probabilistes étant modi¬ fiés par le parcours desdits arbres de décision pour former lesdits modèles acoustiques contextuels.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractéri¬ sé en ce que ladite étape (4) de détermination d'au moins une séquence cible (UP) d'unités symboliques comprend :
- une sous-étape (42) d'acquisition d'une représentation symbolique d'un texte ; et
- une sous-étape (44) de détermination d'au moins une séquence (UP) d'unités symboliques à partir de ladite représentation symbolique.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractéri¬ sé en ce que ladite étape (5) de détermination d'une séquence (ΛiM) de modèles acoustiques contextuels, comprend :
- une sous-étape (52) de modélisation de ladite séquence cible (UP) par sa décomposition sur une base de modèles probabilistes afin de délivrer une séquence (HiM) de modèles probabilistes correspondant à ladite séquence cible (UP); et
- une sous-étape (54) de formation des modèles acoustiques contex¬ tuels par modification de paramètre desdits modèles probabilistes pour former ladite séquence (ΛiM) de modèles acoustiques contextuels.
8. Procédé selon l'une quelconque des revendications 1 à 7, caractéri¬ sé en ce que ladite étape (6) de détermination d'un gabarit acoustique (C) com¬ prend :
- une sous-étape (62) de détermination de l'importance temporelle de chaque modèle acoustique contextuel ; - une sous-étape (64) de détermination, d'une séquence (Λ) tempo¬ relle de modèles; et
- une sous-étape (66) de détermination d'une séquence de trames acoustiques correspondantes formant ledit gabarit acoustique (C).
9. Procédé selon la revendication 8, caractérisé en ce que ladite sous- étape (62) de détermination de l'importance temporelle de chaque modèle acous¬ tique contextuel comprend la prédiction de sa durée.
10. Procédé selon l'une quelconque des revendications 1 à 9, caracté- risé en ce que ladite étape (7) de sélection d'une séquence d'unités acoustiques comprend :
- une sous-étape (72) de détermination d'une séquence référence (U) d'unités symboliques à partir de ladite séquence cible (UP), chaque unité symbo¬ lique de la séquence référence (U) étant associée à un ensemble d'unités acous- tiques ; et
- une sous-étape (78) d'alignement entre les unités acoustiques asso¬ ciées à ladite séquence référence (U) et ledit gabarit acoustique (C).
11. Procédé selon l'une quelconque des revendications 1 à 10, carac¬ térisé en ce que ladite étape (7) de sélection comprend en outre une sous-étape (74) de segmentation dudit gabarit acoustique (C) en fonction de ladite séquence référence (U).
12. Procédé selon la revendication 11 , caractérisé en ce que ladite sous-étape (74) de segmentation comprend une décomposition dudit gabarit acoustique (C) sur une base d'unités temporelles.
13. Procédé selon les revendications 10 et 11 prises ensembles, ca¬ ractérisé en ce que ledit gabarit étant segmenté chaque segment correspond à une unité symbolique de la séquence référence (U) et ladite sous-étape (78) d'alignement comporte l'alignement de chaque segment du gabarit (C) avec cha¬ cune des unités acoustiques associées à l'unité symbolique correspondante is- sue de la séquence référence (U).
14. Procédé selon l'une quelconque des revendications 10 à 13, ca¬ ractérisé en ce que ladite sous-étape (78) d'alignement comprend la détermina¬ tion d'un alignement optimal tel que déterminé par un algorithme dit "DTW".
15. Procédé selon l'une quelconque des revendications 10 à 14, ca- ractérisé en ce que ladite étape (7) de sélection comprend en outre une sous- étape (76) de présélection permettant de déterminer, pour chaque unité symboli¬ que de la séquence référence (U), des unités acoustiques candidates ladite sous-étape (78) d'alignement formant une sous-étape de sélection finale parmi ces unités candidates.
16. Procédé selon l'une quelconque des revendications 1 à 15, carac¬ térisé en ce que lesdits modèles acoustiques contextuels sont des modèles pro- babilistes à processus observables à valeurs continues et à processus non ob¬ servables à valeurs discrètes formant les états de ce processus.
17. Procédé selon l'une quelconque des revendications 1 à 15, carac¬ térisé en ce que lesdits modèles acoustiques contextuels sont des modèles pro- babilistes à processus non observables à valeurs continues.
18. Procédé de synthèse d'un signal de parole, caractérisé en ce qu'il comporte un procédé de sélection selon l'une quelconque des revendications 1 à 17, ladite séquence cible correspondant à un texte à synthétiser et le procédé comportant en outre une étape (9) de synthèse d'une séquence vocale à partir de ladite séquence d'unités acoustiques sélectionnées.
19. Procédé selon la revendication 18, caractérisé en ce que ladite étape de synthèse comporte : - une sous-étape (92) de récupération, pour chaque unité acoustique sélectionnée, d'un signal de parole naturelle ;
- une sous-étape (94) de lissage des signaux de parole ; et
- une sous-étape (96) de concaténation des différents signaux de pa¬ role naturelle.
20. Dispositif de sélection d'unités acoustiques correspondant à des réalisations acoustiques d'unités symboliques de nature phonologique, caractéri¬ sé en ce qu'il comporte des moyens adaptés à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17.
21. Dispositif de synthèse d'un signal de parole, caractérisé en ce qu'il inclut des moyens adaptés à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17.
22. Programme d'ordinateur sur un support d'informations, caractérisé en ce qu'il comporte des instructions adaptées à la mise en œuvre d'un procédé de sélection selon l'une quelconque des revendications 1 à 17, lorsque le pro- gramme est chargé et exécuté dans un système informatique.
PCT/FR2005/002166 2004-09-16 2005-08-30 Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale WO2006032744A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP05798354A EP1789953B1 (fr) 2004-09-16 2005-08-30 Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale
DE602005019070T DE602005019070D1 (de) 2004-09-16 2005-08-30 Her einheiten und sprachsynthesevorrichtung
US11/662,652 US20070276666A1 (en) 2004-09-16 2005-08-30 Method and Device for Selecting Acoustic Units and a Voice Synthesis Method and Device
AT05798354T ATE456125T1 (de) 2004-09-16 2005-08-30 Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0409822 2004-09-16
FR0409822 2004-09-16

Publications (1)

Publication Number Publication Date
WO2006032744A1 true WO2006032744A1 (fr) 2006-03-30

Family

ID=34949650

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/002166 WO2006032744A1 (fr) 2004-09-16 2005-08-30 Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale

Country Status (5)

Country Link
US (1) US20070276666A1 (fr)
EP (1) EP1789953B1 (fr)
AT (1) ATE456125T1 (fr)
DE (1) DE602005019070D1 (fr)
WO (1) WO2006032744A1 (fr)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム
ATE449400T1 (de) * 2008-09-03 2009-12-15 Svox Ag Sprachsynthese mit dynamischen einschränkungen
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8340965B2 (en) * 2009-09-02 2012-12-25 Microsoft Corporation Rich context modeling for text-to-speech engines
US8805687B2 (en) * 2009-09-21 2014-08-12 At&T Intellectual Property I, L.P. System and method for generalized preselection for unit selection synthesis
US8594993B2 (en) 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
JP6342428B2 (ja) * 2013-12-20 2018-06-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10902841B2 (en) 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2313530A (en) * 1996-05-15 1997-11-26 Atr Interpreting Telecommunica Speech Synthesizer
US5970453A (en) * 1995-01-07 1999-10-19 International Business Machines Corporation Method and system for synthesizing speech
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970453A (en) * 1995-01-07 1999-10-19 International Business Machines Corporation Method and system for synthesizing speech
GB2313530A (en) * 1996-05-15 1997-11-26 Atr Interpreting Telecommunica Speech Synthesizer
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHE BLOUIN, PAUL C. BAGSHAW & OLIVIER ROSEC: "A method of unit pre-selection for speech synthesis based on acoustic clustering and decision trees", PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP'03), vol. I, 6 April 2003 (2003-04-06), HONG KONG, CHINA, pages 692 - 695, XP002327084, ISBN: 0-7803-7663-3 *
SOUFIANE ROUIBIA , OLIVIER ROSEC AND THIERRY MOUDENC: "Unit Selection for Speech Synthesis Based on Acoustic Criteria", 8TH INTERNATIONAL CONFERENCE, TSD 2005, 12 September 2005 (2005-09-12) - 15 September 2005 (2005-09-15), Karlovy Vary, Czech Republic, pages 281 - 287, XP002361804 *

Also Published As

Publication number Publication date
DE602005019070D1 (de) 2010-03-11
EP1789953A1 (fr) 2007-05-30
EP1789953B1 (fr) 2010-01-20
US20070276666A1 (en) 2007-11-29
ATE456125T1 (de) 2010-02-15

Similar Documents

Publication Publication Date Title
EP1789953B1 (fr) Procede et dispositif de selection d&#39;unites acoustiques et procede et dispositif de synthese vocale
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
EP3373293B1 (fr) Procédé et appareil de reconnaissance vocale
US7136816B1 (en) System and method for predicting prosodic parameters
Ghai et al. Literature review on automatic speech recognition
US20210035560A1 (en) System and method for performing automatic speech recognition system parameter adjustment via machine learning
EP1453037A2 (fr) Méthode pour mettre au point un réseau neuronal classifié partitionné optimalement et méthode et dispositif pour l&#39;étiquetage automatique utilisant un réseau neuronal classifié partitionné optimalement
WO2018118442A1 (fr) Dispositif de reconnaissance vocale de réseau neuronal acoustique-mot
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Upadhyay et al. Foreign English accent classification using deep belief networks
EP1526508B1 (fr) Procédé de sélection d&#39;unités de synthèse
EP1152399A1 (fr) Traitement en sous bandes de signal de parole par réseaux de neurones
Talesara et al. A novel Gaussian filter-based automatic labeling of speech data for TTS system in Gujarati language
EP1846918B1 (fr) Procede d&#39;estimation d&#39;une fonction de conversion de voix
Furui Generalization problem in ASR acoustic model training and adaptation
US11670292B2 (en) Electronic device, method and computer program
Ma et al. Language identification with deep bottleneck features
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
Kim et al. Improving end-to-end contextual speech recognition via a word-matching algorithm with backward search
Garnaik et al. An approach for reducing pitch induced mismatches to detect keywords in children’s speech
EP0595950B1 (fr) Procede et dispositif de reconnaissance de la parole en temps reel
Geetha et al. Phoneme Segmentation of Tamil Speech Signals Using Spectral Transition Measure
Frikha et al. Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques
Ratkevicius et al. Advanced recognition of Lithuanian digit names using hybrid approach
Humayun et al. A review of social background profiling of speakers from speech accents

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005798354

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11662652

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005798354

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11662652

Country of ref document: US