WO2005106853A1 - Procede et systeme de conversion rapides d'un signal vocal - Google Patents

Procede et systeme de conversion rapides d'un signal vocal Download PDF

Info

Publication number
WO2005106853A1
WO2005106853A1 PCT/FR2005/000607 FR2005000607W WO2005106853A1 WO 2005106853 A1 WO2005106853 A1 WO 2005106853A1 FR 2005000607 W FR2005000607 W FR 2005000607W WO 2005106853 A1 WO2005106853 A1 WO 2005106853A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic characteristics
model
speaker
converted
transformation
Prior art date
Application number
PCT/FR2005/000607
Other languages
English (en)
Inventor
Olivier Rosec
Taoufik En-Najjary
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP05735426A priority Critical patent/EP1730728A1/fr
Priority to US10/591,599 priority patent/US7792672B2/en
Publication of WO2005106853A1 publication Critical patent/WO2005106853A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to a method for converting a voice signal pronounced by a source speaker into a converted voice signal whose acoustic characteristics resemble those of a target speaker and to a system implementing such a method.
  • voice conversion applications such as voice services, human-machine oral dialogue applications or even text-to-speech synthesis
  • hearing is essential and, in order to obtain acceptable quality, master the parameters related to the prosody of voice signals.
  • the main acoustic or prosodic parameters modified during voice conversion processes are the parameters relating to the spectral envelope and / or for voiced sounds involving the vibration of the vocal cords, the parameters relating to a periodic structure, or the fundamental period, the inverse of which is called the fundamental frequency or "pitch".
  • Conventional voice conversion methods generally comprise the determination of at least one function for transforming the acoustic characteristics of the source speaker into acoustic characteristics close to those of the target speaker, and the transformation of a voice signal to be converted by the application. of this or these functions. This transformation is a long and costly operation in computation time.
  • transformation functions are conventionally considered as linear combinations of a large finite number of transformation elements applied to elements representative of the speech signal to be converted.
  • the object of the invention is to solve these problems by defining a method and a system for converting a fast and good quality voice signal.
  • the subject of the present invention is a method of converting a voice signal pronounced by a source speaker into a converted voice signal whose acoustic characteristics resemble those of a target speaker, comprising: - determining at least one function for transforming the acoustic characteristics of the source speaker into acoustic characteristics close to those of the target speaker, from voice samples of the source and target speakers; and - the transformation of acoustic characteristics of the voice signal to be converted from the source speaker, by the application of said at least one transformation function, characterized in that said transformation comprises a step of applying only a determined part of at least minus a transformation function on said signal to be converted.
  • the method of the invention thus makes it possible to reduce the computation time necessary for implementation, thanks to the application only of a determined part of at least one transformation function.
  • - at least the determination of a transformation function comprises a step of determining a model representing in a weighted manner common acoustic characteristics of the voice samples of the target speaker and the source speaker on a finite set of model components, and said transformation comprises: a step of analysis of the voice signal to be converted, grouped into frames to obtain, for each frame of samples, information relating to the acoustic characteristics; a step of determining a correspondence index between the frames to be converted and each component of said model; and a step of selecting a determined part of said components of said model as a function of said correspondence indices, said step of applying only a determined part of at least one transformation function comprising the application to said frames to be converted of the only part of said at least one transformation function corresponding to said selected components of the model; - It further includes a step of normalizing each of said correspondence
  • the invention also relates to a system for converting a voice signal pronounced by a source speaker into a converted voice signal whose acoustic characteristics resemble those of a target speaker, comprising: means for determining at least one function for transforming the acoustic characteristics of the source speaker into acoustic characteristics close to those of the target speaker, from vocal samples of the source and target speakers; and means for transforming the acoustic characteristics of the voice signal to be converted from the source speaker by the application of said at least one transformation function, characterized in that said transformation means are suitable for the application of only a determined part at least one transformation function on said signal to be converted.
  • said determination means are suitable for determining at least one transformation function using a model representing in weighted common acoustic characteristics of the voice samples of the source and target speakers on a finite set of components, and in that it comprises: - means for analyzing said signal to be converted, grouped into frames, to obtain, for each frame of samples, information relating to the acoustic characteristics; means for determining a correspondence index between the frames to be converted and each component of said model; and means for selecting a determined part of said components of said model as a function of said correspondence indices, said application means being adapted to apply only a determined part of said at least one transformation function corresponding to said components of the selected model.
  • Voice conversion involves modifying the voice signal of a reference speaker called the source speaker, so that the signal produced seems to have been spoken by another speaker, called the target speaker.
  • Such a method firstly comprises the determination of functions for transforming acoustic or prosodic characteristics, voice signals of the source speaker into acoustic characteristics close to those of the voice signals of the target speaker, from voice samples pronounced by the source speaker. and the target speaker.
  • the determination 1 of transformation functions is carried out on databases of vocal samples corresponding to the acoustic realization of the same phonetic sequences, pronounced respectively by the source and target speakers.
  • This determination is designated in FIG. 1A by the general reference numeral 1 and is also commonly called “learning”.
  • the method then comprises a transformation of the acoustic characteristics of a voice signal to be converted pronounced by the source speaker using the function or functions previously determined.
  • This transformation is designated by the general reference numeral 2 in FIG. 1B.
  • different acoustic characteristics are transformed such as spectral envelope and / or fundamental frequency characteristics.
  • the process begins with steps 4X and 4Y of analyzing voice samples spoken by the source and target speakers respectively.
  • the analysis steps 4X and 4Y are based on the use of a sound signal model in the form of a sum of a harmonic signal with a noise signal according to a model commonly called "HN" (in English: Harmonie plus Noise Model).
  • the HNM model includes the modeling of each voice signal frame into a harmonic part representing the periodic component of the signal, consisting of a sum of L harmonic sinusoids of amplitude Ai and of phase ⁇ , and a noisy part representing the friction noise and the variation of the glottal excitation.
  • Steps 4X and 4Y include sub-steps 8X and 8Y for estimating, for each frame, the fundamental frequency, for example by means of an autocorrelation method.
  • Sub-steps 8X and 8Y are each followed by a sub-step 10X and 10Y of synchronized analysis of each frame on its fundamental frequency, which makes it possible to estimate the parameters of the harmonic part as well as the parameters of the signal noise and in particular the maximum voicing frequency.
  • this frequency can be arbitrarily fixed or be estimated by other known means.
  • this synchronized analysis corresponds to the determination of the parameters of the harmonics by minimization of a criterion of weighted least squares between the complete signal and its harmonic decomposition corresponding in the embodiment described, to the noise signal valued.
  • the criterion noted E is equal to: In this equation, w (n) is the analysis window and Tj is the fundamental period of the current frame.
  • the analysis window is centered around the mark of the fundamental period and has a duration twice this period.
  • these analyzes are made asynchronously with a fixed analysis step and a window of fixed size.
  • the analysis steps 4X and 4Y finally include sub-steps 12X and 12Y for estimating the parameters of the spectral envelope of the signals in use. sant for example a method of discrete regularized cepstrum and a transformation in scale of Bark to reproduce as faithfully as possible the properties of the human ear.
  • the analysis steps 4X and 4Y respectively deliver for the vocal samples pronounced by the source and target speakers, for each frame of rank n of samples of the speech signals, a scalar denoted F n representing the fundamental frequency and a vector denoted c n comprising spectral envelope information in the form of a sequence of cepstral coefficients.
  • the method of calculating cepstral coefficients corresponds to a procedure known from the state of the art and, for this reason, will not be described in more detail.
  • the method of the invention therefore makes it possible to define for each frame n of the source speaker, a vector denoted x n of cepstral coefficients c x (n) and the fundamental frequency.
  • Steps 4X and 4Y are followed by a step 18 of alignment between the source vector x n and the target vector y n , so as to form a pairing between these vectors obtained by a conventional algorithm of dynamic temporal alignment known as “DTW ”(In English: Dynamic Time Warping).
  • the alignment step 18 is followed by a step 20 of determining a model representing in a weighted manner the common acoustic characteristics of the source speaker and the target speaker on a finite set of model components.
  • GMM a probabilistic model of the acoustic characteristics of the target speaker and the source speaker, according to a model denoted “GMM” of mixtures of components formed of Gausian densities.
  • the parameters of the components are estimated from the source and target vectors containing, for each speaker, the discrete cepstrum.
  • GMM probability density of a random variable denoted in general p (z), according to a model of mixture of densities of Gaussian probabilities GMM is written mathematically as follows:
  • step 20 of determining the model includes a sub-step 22 of modeling the joint density p (z) of the source vectors denoted x and target denoted y, so that:
  • Step 20 then includes a sub-step 24 for estimating GMM parameters ( ⁇ , ⁇ , ⁇ ) of the density p (z).
  • This estimation can be carried out, for example, using a conventional algorithm of the so-called "EM" type (Expectation - Maximization), corresponding to an iterative method leading to obtaining a maximum likelihood estimator between the speech sample data and the Gaussian mixing model.
  • the initial parameters of the GMM model are determined using a standard vector quantization technique.
  • the model determination step 20 thus delivers the parameters of a mixture of Gaussian densities representative of the common acoustic characteristics of the voice samples of the source speaker and the target speaker.
  • the model thus defined therefore forms a weighted representation of acoustic characteristics of the spectral envelope common to the voice samples of the target speaker and the source speaker over the finite set of components of the model.
  • the method then comprises a step 30 of determining, from the model and the voice samples, a function of transformation of the spectral envelope of the signal from the source speaker to the target speaker. This transformation function is determined from an estimator of the achievement of the acoustic characteristics of the target speaker given the acoustic characteristics of the source speaker, formed in the embodiment described, by the conditional expectation.
  • step 30 includes a sub-step 32 for determining the conditional expectation of the acoustic characteristics of the target speaker knowing the acoustic characteristic information of the source speaker.
  • the conditional expectation is noted F (x) and is determined from the following formulas:
  • Step 30 also includes a sub-step 34 for determining a function for transforming the fundamental frequency by scaling the fundamental frequency of the source speaker to the fundamental frequency of the target speaker.
  • This step 34 is carried out in a conventional manner with any point in the process at the end of sub-steps 8X and 8Y for estimating the fundamental frequency.
  • the conversion method then comprises the transformation 2 of a voice signal to be converted pronounced by the source speaker, which signal to be converted may be different from the voice signals used previously.
  • This transformation 2 begins with an analysis step 36 carried out, in the embodiment described, using a decomposition according to the HNM model similar to those carried out in steps 4X and 4Y described previously.
  • This step 36 makes it possible to deliver information of spectral envelope in the form of cepstral coefficients, information of fundamental frequency as well as information of phase and maximum frequency of voice.
  • This analysis step 36 is followed by a step 38 of determining a correspondence index between the vector to be converted and each component of the model.
  • each of these indices corresponds to the posterior probability of the realization of the vector to be converted by each of the different components of the model, ie at the term hj (x).
  • the method then comprises a step 40 of selecting a restricted number of components of the model as a function of the correspondence indices determined in the preceding step, which restricted set is denoted S (x).
  • This selection step 40 is implemented by an iterative procedure making it possible to retain a minimum set of components, these components being selected as long as the cumulative sum of their correspondence indices is less than a predetermined threshold.
  • this selection step comprises the selection of a fixed number of components whose correspondence indices are the highest.
  • the selection step 40 is followed by a step 42 of normalizing the correspondence indices of the selected components of the model. This normalization is achieved by the ratio of each selected index to the sum of all the selected indices.
  • the method then comprises a step 43 of storing the selected model components as well as the associated normalized correspondence indices. Such a memorization step 43 is particularly useful in the case where the analysis is carried out in delayed time with respect to the rest of the transformation 2, which makes it possible to effectively prepare a subsequent conversion.
  • the method then comprises a step 44 of partial application of the transformation function of the spectral envelope by the application of the only transformation elements corresponding to the selected model components. These only selected transformation elements are applied to the frames of the signal to be converted, in order to reduce the time necessary for the implementation of this transformation.
  • step 44 of partial application of the transformation function is limited to N (P 2 + 1) multiplications, which are added to the Q (P 2 + 1) modifications making it possible to determine the correspondence indices, against twice Q (P 2 +1). Consequently, the reduction in complexity obtained is at least of the order of Q / (Q + N).
  • step 44 of applying the transformation function is limited to N (P 2 +1) operations against 2Q (P 2 +1), in the state of the art, so that, for this step 44, the reduction in the calculation time is of the order of 2Q / N.
  • the quality of the transformation is however preserved by the application of the components having a high correspondence index with the signal to be converted.
  • the method then comprises a step 46 of transforming the fundamental frequency characteristics of the speech signal to be converted, using the scaling transformation function determined in step 34 and carried out according to conventional techniques.
  • the conversion method then includes a step 48 of synthesis of the output signal carried out, in the example described, by an HNM type synthesis which directly delivers the converted voice signal from the transformed spectral envelope information. in step 44 and fundamental frequency information delivered by step 46.
  • This step 48 also uses phase and maximum voicing frequency information delivered by step 36.
  • the conversion method of the invention thus allows to perform a high quality conversion with low complexity and therefore a significant saving in computation time.
  • FIG. 2 shows a block diagram of a voice conversion system implementing the method described with reference to FIGS. 1A and 1B. This system uses as input a database 50 of voice samples spoken by the source speaker and a database 52 containing at least the same voice samples spoken by the target speaker.
  • a module 54 for determining functions for transforming acoustic characteristics and of the source speaker into acoustic characteristics of the target speaker.
  • This module 54 is suitable for the implementation of step 1 as described with reference to FIG. 1 and therefore allows the determination of at least one function for transforming acoustic characteristics and in particular the function for transforming characteristics.
  • spectral envelope and the fundamental frequency transformation function are suitable for determining the transformation function of the spectral envelope from a model representing in a weighted manner common acoustic characteristics of the samples. Voice ions of the target speaker and the source speaker, on a finite set of model components.
  • the voice conversion system receives as input a voice signal 60 corresponding to a speech signal spoken by the source speaker and intended to be converted.
  • the signal 60 is introduced into an analysis module 62 implementing, for example an HNM type decomposition making it possible to extract information from the spectral envelope of the signal 60 in the form of cepstral coefficients and information of fundamental frequency.
  • the module 62 also delivers information on phase and maximum voicing frequency obtained by the application of the HNM model.
  • the module 62 therefore implements step 36 of the method as described above.
  • the module 62 is implemented beforehand and the information is stored for later use.
  • the system then comprises a module 64 for determining the correspondence indices between the voice signal to be converted 60 and each component of the model.
  • the module 64 receives the parameters of the model determined by the module 54.
  • the module 64 therefore implements step 38 of the method as described above.
  • the system then comprises a model 65 for selecting components of the model implementing the method step 40 described above and allowing the selection of components having a correspondence index reflecting a strong connection with the voice signal to be converted.
  • this module 65 also performs the normalization of the correspondence indices of the selected components with respect to their average by implementing step 42.
  • the method then comprises a module 66 for partial application of the envelope transformation function spectral determined by the module 54, by the application of the only transformation elements selected by the module 65 according to the correspondence indices.
  • this module 66 is suitable for the implementation of step 44 of partial application of the transformation function, so as to deliver in output, acoustic information from the source speaker transformed by the only selected elements of the transformation function, ie by the components of the model having a high correspondence index, with the frames of the signal to be converted 60.
  • This module therefore allows rapid transformation of the voice signal to convert thanks to the partial application of the transformation function. The quality of the transformation is preserved by the selection of the components of the model having a high index of correspondence with the signal to be converted.
  • the module 66 is also suitable for carrying out a transformation of the fundamental frequency characteristics, carried out in a conventional manner by the application of the scaling transformation function carried out according to step 46.
  • the system then comprises a module 68 of synthesis receiving as input, the spectral envelope and fundamental frequency information transformed and delivered by the module 66 as well as phase and maximum voicing frequency information delivered by the analysis module 62.
  • the module 68 thus implements step 46 of the method described with reference to FIG. 1 and delivers a signal 70, corresponding to the voice signal 60 of the source speaker but whose spectral envelope and fundamental frequency characteristics have been modified. to be similar to that of the target speaker.
  • the system described can be implemented in various ways and in particular using suitable computer programs and connected to hardware means of sound acquisition. This system can also be implemented on specific databases in order to form databases of converted signals ready to be used.
  • this system can be implemented in a first operating phase in order to deliver, for a signal database, information relating to the components of the selected model as well as to their respective correspondence indices, this information then being stored. .
  • the modules 66 and 68 of the system are implemented later on demand, to generate a synthetic voice signal using the voice signals to be converted and the information relating to the selected components and their correspondence indices in order to obtain a reduction. maximum calculation time.
  • the method of the invention and the corresponding system can also be implemented in real time.
  • the method of the invention and the corresponding system are suitable for the determination of several transformation functions.
  • a first and second function are determined for the transformation respectively of the spectral envelope parameters and of the fundamental frequency parameters of the frames with voiced character and a third function is determined for the transformation of the frames with unvoiced character.
  • a step of separating, in the voice signal to be converted, voiced and unvoiced frames and one or more steps of transformation of each of these sets of frames is therefore provided.
  • only one or more of the functions of. transformation is partially applied in order to decrease the processing time.
  • the voice conversion is carried out by transforming the spectral envelope characteristics and the fundamental frequency characteristics separately, only the spectral envelope transformation function being partially applied.
  • the system is suitable for the implementation of all the steps of the method described with reference to FIGS. 1A and 1B.
  • the HNM and GMM models can be replaced by other techniques and models known to those skilled in the art.
  • the analysis is carried out using techniques called LPC (Linear Predictive Coding), sinusoidal models or MBE (Multi Band Excited), the spectral parameters are parameters called LSF (Une Spectrum Frequencies), or even parameters linked to formants or to a glottic signal.
  • the GMM model is replaced by a fuzzy vector quantization (Fuzzy VQ.).
  • the estimator implemented during step 30 can be an a posteriori maximum criterion, called "MAP" and corresponding to the realization of the expectation calculation only for the model best representing the pair of vectors target source.
  • the determination of a transformation function is carried out using a so-called least squares technique instead of the estimation of the joint density described.
  • the determination of a transformation function comprises modeling the probability density of the source vectors using a GMM model and then determining the parameters of the model using an EM algorithm. The modeling thus takes into account the speech segments of the source speaker whose correspondents spoken by the target speaker are not available. The determination then includes the minimization of a least squares criterion between target and source parameters to obtain the transformation function. It should be noted that the estimator of this function is always expressed in the same way but that the parameters are estimated differently and that additional data are taken into account.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Ce procédé de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible, comprend : la détermination (1) d'au moins une fonction de transformation de caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, à partir d'échantillons vocaux des locuteurs source et cible ; et la transformation de caractéristiques acoustiques du signal vocal à convertir du locuteur source, par l'application de ladite au moins une fonction de transformation. Il est caractérisé en ce que ladite transformation (2) comprend une étape (44) d'application uniquement d'une partie déterminée d'au moins une fonction de transformation sur ledit signal à convertir.

Description

Procédé et système de conversion rapides d'un signal vocal. La présente invention concerne un procédé de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible ainsi qu'un système mettant en œuvre un tel procédé. Dans le cadre d'applications de conversion de voix, telles que les services vocaux, les applications de dialogue oral homme-machine ou encore la synthèse vocale de textes, le rendu auditif est primordial et, pour obtenir une qualité acceptable, il convient de bien maîtriser les paramètres liés à la prosodie des signaux vocaux. De manière classique, les principaux paramètres acoustiques ou prosodiques modifiés lors de procédés de conversion de voix sont les paramètres relatifs à l'enveloppe spectrale et/ou pour les sons voisés faisant intervenir la vibration des cordes vocales, les paramètres relatifs à une structure périodique, soit la période fondamentale dont l'inverse est appelé fréquence fondamentale ou « pitch ». Les procédés de conversion de voix classiques comprennent en général la détermination d'au moins une fonction de transformation de caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, et la transformation d'un signal vocal à convertir par l'application de cette ou ces fonctions. Cette transformation est une opération longue et coûteuse en temps • de calcul. En effet, de telles fonctions de transformation sont classiquement considérées comme des combinaisons linéaires d'un nombre fini important d'éléments de transformation appliqués à des éléments représentatifs du signal vocal à convertir. Le but de l'invention est de résoudre ces problèmes en définissant un procédé et un système de conversion d'un signal vocal rapide et de bonne qualité. A cet effet, la présente invention a pour objet un procédé de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible, comprenant : - la détermination d'au moins une fonction de transformation de caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, à partir d'échantillons vocaux des locuteurs source et cible ; et - la transformation de caractéristiques acoustiques du signal vocal à convertir du locuteur source, par l'application de ladite au moins une fonction de transformation, caractérisé en ce que ladite transformation comprend une étape d'application uniquement d'une partie déterminée d'au moins une fonction de transformation sur ledit signal à convertir. Le procédé de l'invention permet ainsi de diminuer le temps de calcul nécessaire à la mise en œuvre, grâce à l'application uniquement d'une partie déterminée d'au moins une fonction de transformation. Suivant d'autres caractéristiques de l'invention : - au moins la détermination d'une fonction de transformation comprend une étape de détermination d'un modèle représentant de manière pondérée des caractéristiques acoustiques communes des échantillons vocaux du locuteur cible et du locuteur source sur un ensemble fini de composantes de modèle, et ladite transformation comprend : - une étape d'analyse du signal vocal à convertir, regroupé en trames pour obtenir, pour chaque trame d'échantillons des informations relatives aux caractéristiques acoustiques ; - une étape de détermination d'un indice de correspondance entre les trames à convertir et chaque composante dudit modèle ; et - une étape de sélection d'une partie déterminée desdites composantes dudit modèle en fonction desdits indices de correspondance, ladite étape d'application uniquement d'une partie déterminée d'au moins une fonction de transformation comprenant l'application auxdites trames à convertir de la seule partie de ladite au moins une fonction de transformation cor- respondant auxdites composantes du modèle sélectionnées ; - il comporte en outre une étape de normalisation de chacun desdits indices de correspondance des composantes sélectionnées par rapport à la somme de tous les indices de correspondance des composantes sélectionnées ; - il comporte en outre une étape de mémorisation desdits indices de correspondance et de ladite partie déterminée desdites composantes de modèle, réalisée avant ladite étape de transformation, laquelle est retardée dans le temps ; - ladite détermination de ladite au moins une fonction de transformation comprend : - une étape d'analyse des échantillons vocaux des locuteurs source et cible, regroupés en trame pour obtenir des caractéristiques acoustiques pour chaque trame d'échantillons d'un locuteur ; - une étape d'alignement temporel des caractéristiques acoustiques du locuteur source avec les caractéristiques acoustiques du locuteur cible, cette étape étant réalisée avant ladite étape de détermination d'un modèle ; - ladite étape de détermination d'un modèle correspond à la détermination d'un modèle de mélange de densités de probabilités gaussiennes ; - ladite étape de détermination d'un modèle comprend : - une sous-étape de détermination d'un modèle correspondant à un mélange de densités de probabilités gaussiennes, et - une sous-étape d'estimation des paramètres du mélange de densités de probabilités gaussiennes à partir de l'estimation du maximum de vraisem- blance entre les caractéristiques acoustiques des échantillons des locuteurs source et cible et le modèle ; - ladite détermination d'au moins une fonction de transformation est réalisée à partir d'un estimateur de la réalisation des caractéristiques acoustiques du locuteur cible sachant les caractéristiques acoustiques du locuteur source ; - ledit estimateur est formé de l'espérance conditionnelle de la réalisation des caractéristiques acoustiques du locuteur cible sachant la réalisation des caractéristiques acoustiques du locuteur source ; - il comporte en outre une étape de synthèse permettant de former un signal vocal converti à partir desdites informations acoustiques transformées. L'invention à également pour objet un système de conversion d'un signal vocal prononcé par un locuteur source en un signal vocal converti dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible, comprenant : - des moyens de détermination d'au moins une fonction de transformation des caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, à partir d'échantillons vocaux des locuteurs source et cible ; et - des moyens de transformation des caractéristiques acoustiques du signal vocal à convertir du locuteur source par l'application de ladite au moins une fonction de transformation, caractérisé en ce que lesdits moyens de transformation sont adaptés pour l'application uniquement d'une partie déterminée d'au moins une fonction de transformation sur ledit signal à convertir. Selon d'autres caractéristiques du système : - lesdits moyens de détermination sont adaptés pour la détermination d'au moins une fonction de transformation à l'aide d'un modèle représentant de manière pondérée des caractéristiques acoustiques communes des échantillons vocaux des locuteurs source et cible sur un ensemble fini de composantes, et en ce qu'il comporte : - des moyens d'analyse dudit signal à convertir, regroupé en trames, pour obtenir, pour chaque trame d'échantillons, des informations relatives aux caractéristiques acoustiques ; - des moyens de détermination d'un indice de correspondance entre les trames à convertir et chaque composante dudit modèle ; et - des moyens de sélection d'une partie déterminée desdites composantes dudit modèle en fonction desdits indices de correspondance, lesdits moyens d'application étant adaptés pour appliquer uniquement une partie déterminée de ladite au moins une fonction de transformation correspondant auxdites composantes du modèle sélectionnées. L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés, sur lesquels : - les Figs. 1A et 1B représentent un organigramme général du procédé de l'invention ; et - la Fig. 2 représente un schéma synoptique d'un système mettant en oeuvre le procédé de l'invention. La conversion de voix consiste à modifier le signal vocal d'un locuteur de référence appelé locuteur source, de telle sorte que le signal produit semble avoir été prononcé par un autre locuteur, nommé locuteur cible. Un tel procédé comporte tout d'abord la détermination de fonctions de transformation de caractéristiques acoustiques ou prosodiques, des signaux vocaux du locuteur source en caractéristiques acoustiques proches de celles des signaux vocaux du locuteur cible, à partir d'échantillons vocaux prononcés par le locuteur source et le locuteur cible. Plus particulièrement, la détermination 1 de fonctions de transforma- tion est réalisée sur des bases de données d'échantillons vocaux correspondant à la réalisation acoustique de mêmes séquences phonétiques, prononcées respectivement par les locuteurs source et cible. Cette détermination est désignée sur la figure 1A par la référence numérique générale 1 et est également couramment appelée « apprentissage ». Le procédé comporte ensuite une transformation des caractéristiques acoustiques d'un signal vocal à convertir prononcé par le locuteur source à l'aide de la ou des fonctions déterminées précédemment. Cette transformation est désignée par la référence numérique générale 2 sur la figure 1B. En fonction des modes de réalisation, différentes caractéristiques acoustiques sont transformées telles que des caractéristiques d'enveloppe spectrale et/ou de fréquence fondamentale. Le procédé débute par des étapes 4X et 4Y d'analyse d'échantillons vocaux prononcés respectivement par les locuteurs source et cible. Ces étapes permettent de regrouper les échantillons par trame, afin d'obtenir pour chaque trame d'échantillons, des informations relatives à l'enveloppe spectrale et/ou des informations relatives à la fréquence fondamentale. Dans le mode de réalisation décrit, les étapes 4X et 4Y d'analyse sont fondées sur l'utilisation d'un modèle de signal sonore sous la forme d'une somme d'un signal harmonique avec un signal de bruit selon un modèle communément appelé "HN " (en anglais : Harmonie plus Noise Model). Le modèle HNM comprend la modélisation de chaque trame de signal vocal en une partie harmonique représentant la composante périodique du signal, constituée d'une somme de L sinusoïdes harmoniques d'amplitude Ai et de phase φι, et d'une partie bruitée représentant le bruit de friction et la variation de l'excitation glottale. On peut ainsi écrire : s(n)=h(n)+b(n) avec h(n)= >jA_(n)cos(φ_(n)) 1=1 Le terme h(n) représente donc l'approximation harmonique du signal s(n). En outre, le mode de réalisation décrit est fondé sur une représentation de l'enveloppe spectrale par le cepstre discret. Les étapes 4X et 4Y comportent des sous-étapes 8X et 8Y d'estimation, pour chaque trame, de la fréquence fondamentale, par exemple au moyen d'une méthode d'auto corrélation. Les sous-étapes 8X et 8Y sont chacune suivies d'une sous-étape 10X et 10Y d'analyse synchronisée de chaque trame sur sa fréquence fondamentale, qui permet d'estimer les paramètres de la partie harmonique ainsi que les paramètres du bruit du signal et notamment la fréquence maximale de voisement. En variante, cette fréquence peut être fixée arbitrairement ou être estimée par d'autres moyens connus. Dans le mode de réalisation décrit, cette analyse synchronisée corres- pond à la détermination des paramètres des harmoniques par minimisation d'un critère de moindres carrés pondérés entre le signal complet et sa décomposition harmonique correspondant dans le mode de réalisation décrit, au signal de bruit estimé. Le critère noté E est égal à :
Figure imgf000008_0001
Dans cette équation, w (n) est la fenêtre d'analyse et Tj est la période fondamentale de la trame courante. Ainsi, la fenêtre d'analyse est centrée autour de la marque de la période fondamentale et a pour durée deux fois cette période. En variante, ces analyses sont faites de manière asynchrone avec un pas fixe d'analyse et une fenêtre de taille fixe. Les étapes 4X et 4Y d'analyse comportent enfin des sous-étapes 12X et 12Y d'estimation des paramètres de l'enveloppe spectrale des signaux en utili- sant par exemple une méthode de cepstre discret régularisé et une transformation en échelle de Bark pour reproduire le plus fidèlement possible les propriétés de l'oreille humaine. Ainsi, les étapes 4X et 4Y d'analyse délivrent respectivement pour les échantillons vocaux prononcés par les locuteurs source et cible, pour chaque trame de rang n d'échantillons des signaux de parole, un scalaire noté Fn représentant la fréquence fondamentale et un vecteur noté cn comprenant des informations d'enveloppe spectrale sous la forme d'une séquence de coefficients cepstraux. Le mode de calcul des coefficients cepstraux correspond à un mode opératoire connu de l'état de la technique et, pour cette raison, ne sera pas décrit plus en détail. Le procédé de l'invention permet donc de définir pour chaque trame n du locuteur source, un vecteur noté xn de coefficients cepstraux cx(n) et la fré- quence fondamentale. De manière similaire, le procédé permet de définir pour chaque trame n de locuteur cible, un vecteur yn de coefficients cepstraux cy(n), ainsi que la fréquence fondamentale. Les étapes 4X et 4Y sont suivies d'une étape 18 d'alignement entre le vecteur source xn et le vecteur cible yn, de manière à former un appariement entre ces vecteurs obtenu par un algorithme classique d'alignement temporel dynamique dit « DTW » (en anglais : Dynamic Time Warping). L'étape 18 d'alignement est suivie d'une étape 20 de détermination d'un modèle représentant de manière pondérée les caractéristiques acoustiques communes du locuteur source et du locuteur cible sur un ensemble fini de composantes de modèle. Dans le mode de réalisation décrit, il s'agit d'un modèle probabiliste des caractéristiques acoustiques du locuteur cible et du locuteur source, selon un modèle noté « GMM » de mélanges de composantes formées de densités gaus- siennes. Les paramètres des composantes sont estimés à partir des vecteurs source et cible contenant, pour chaque locuteur, le cepstre discret. De manière classique, la densité de probabilité d'une variable aléatoire notée de manière générale p(z), suivant un modèle de mélange de densités de probabilités gaussiennes GMM s'écrit mathématiquement de la manière suivante :
P(z)=∑α^(z,^..∑,.) =1
Figure imgf000010_0001
Dans cette formule, Q désigne le nombre de composantes du modèle,
N(z ; μi, ∑i) est la densité de probabilité de la loi normale de moyenne μι et de matrice de covariance ∑j et les coefficients \ sont les coefficients du mélange. Ainsi, le coefficient otj correspond à la probabilité a priori que la variable aléatoire z soit générée par la ieme composante gaussienne du mélange. De manière plus particulière, l'étape 20 de détermination du modèle comporte une sous-étape 22 de modélisation de la densité jointe p(z) des vecteurs source noté x et cible noté y, de sorte que :
Zn T T xn Vn, L'étape 20 comporte ensuite une sous-étape 24 d'estimation de para- mètres GMM (α, μ, Σ) de la densité p(z). Cette estimation peut être réalisée, par exemple, à l'aide d'un algorithme classique de type dit "EM" (Expectation - Maximisation), correspondant à une méthode itérative conduisant à l'obtention d'un estimateur de maximum de vraisemblance entre les données des échantillons de parole et le modèle de mélange de gaussiennes. La détermination des paramètres initiaux du modèle GMM est obtenue à l'aide d'une technique classique de quantification vectorielle. L'étape 20 de détermination de modèle délivre ainsi les paramètres d'un mélange de densités gaussiennes représentatifs des caractéristiques acoustiques communes des échantillons vocaux du locuteur source et du locuteur ci- ble. Le modèle ainsi défini forme donc une représentation pondérée de caractéristiques acoustiques d'enveloppe spectrale communes des échantillons vocaux du locuteur cible et du locuteur source sur l'ensemble fini de composantes du modèle. Le procédé comporte ensuite une étape 30 de détermination, à partir du modèle et des échantillons vocaux, d'une fonction de transformation de l'enveloppe spectrale du signal du locuteur source vers le locuteur cible. Cette fonction de transformation est déterminée à partir d'un estimateur de la réalisation des caractéristiques acoustiques du locuteur cible étant donné les caractéristiques acoustiques du locuteur source, formé dans le mode de réalisation décrit, par l'espérance conditionnelle. Pour cela, l'étape 30 comporte une sous-étape 32 de détermination de l'espérance conditionnelle des caractéristiques acoustiques du locuteur cible sachant les informations caractéristiques acoustiques du locuteur source. L'espérance conditionnelle est notée F(x) et est déterminée à partir des formules suivantes :
F(x)=E[y | x]= ∑ hi (x)[μ y + Σ yXXX) "1 (x-μ *) ] ~f l l l l
Figure imgf000011_0001
XX XV Σ Σ ' μ x avec Σ = et μ = yx yy P y
Dans ces équations, hj(x) correspond à la probabilité a posteriori que le vecteur source x soit généré par la ieme composante du modèle de mélange de densités gaussiennes du modèle, et le terme entre crochets correspond à un élément de transformation déterminé à partir du modèle. On rappelle que y désigne le vecteur cible. La détermination de l'espérance conditionnelle permet ainsi d'obtenir la fonction de transformation des caractéristiques d'enveloppe spectrale entre le locuteur source et le locuteur cible sous la forme d'une combinaison linéaire pondérée d'éléments de transformation. L'étape 30 comporte également une sous-étape 34 de détermination d'une fonction de transformation de la fréquence fondamentale par une mise à l'échelle de la fréquence fondamentale du locuteur source, sur la fréquence fondamentale du locuteur cible. Cette étape 34 est réalisée de manière classique à un instant quelconque du procédé à l'issue des sous-étapes 8X et 8Y d'estimation de la fréquence fondamentale. En référence à la figure 1 B, le procédé de conversion comporte ensuite la transformation 2 d'un signal vocal à convertir prononcé par le locuteur source, lequel signal à convertir peut être différent des signaux vocaux utilisés précédemment. Cette transformation 2 débute par une étape d'analyse 36 réalisée, dans le mode de réalisation décrit, à l'aide d'une décomposition selon le modèle HNM similaire à celles réalisées dans les étapes 4X et 4Y décrites précédem- ment. Cette étape 36 permet de délivrer des informations d'enveloppe spectrale sous la forme de coefficients cepstraux, des informations de fréquence fondamentale ainsi que des informations de phase et de fréquence maximale de voi- sement. Cette étape 36 d'analyse est suivie d'une étape 38 de détermination d'un indice de correspondance entre le vecteur à convertir et chaque composante du modèle. Dans le mode de réalisation décrit, chacun de ces indices correspond à la probabilité a posteriori de la réalisation du vecteur à convertir par chacune des différentes composantes du modèle, soit au terme hj(x). Le procédé comporte ensuite une étape 40 de sélection d'un nombre restreint de composantes du modèle en fonction des indices de correspondance déterminés à l'étape précédente, lequel ensemble restreint est noté S(x). Cette étape 40 de sélection est mise en œuvre par une procédure itérative permettant de retenir un ensemble minimal de composantes, ces compo- santés étant sélectionnées tant que la somme cumulée de leurs indices de correspondance est inférieure à un seuil prédéterminé. En variante, cette étape de sélection comprend la sélection d'un nombre fixe de composantes dont les indices de correspondance sont les plus élevés. Dans le mode de réalisation décrit, l'étape 40 de sélection est suivie d'une étape 42 de normalisation des indices de correspondance des composantes sélectionnées du modèle. Cette normalisation est réalisée par le rapport de chaque indice sélectionné sur la somme de tous les indices sélectionnés. Avantageusement, le procédé comporte ensuite une étape 43 de stockage des composantes de modèle sélectionnées ainsi que des indices de correspondance normalisés associés. Une telle étape 43 de mémorisation est particulièrement utile dans le cas où l'analyse est réalisée en temps différé par rapport au reste de la transformation 2, qui permet de préparer efficacement une conversion ultérieure. Le procédé comporte ensuite une étape 44 d'application partielle de la fonction de transformation de l'enveloppe spectrale par l'application des seuls éléments de transformation correspondant aux composantes de modèle sélec- tionnées. Ces seuls éléments de transformation sélectionnés sont appliqués aux trames du signal à convertir, afin de réduire le temps nécessaire à la mise en œuvre de cette transformation. Cette étape 44 d'application correspond à la résolution de l'équation suivante pour les seules composantes sélectionnées de modèle formant l'ensemble restant S(x), de sorte que y yx xx Λ x F(x) = ∑ w,.(x)[^ + ∑-,';(Λ:) -1(x-μ ) ] ieS(x) (x) avec Wj (x)=- ∑h(x) i≡S(x)
Ainsi, pour une trame donnée, avec p la dimension des vecteurs de données, Q le nombre total de composantes et N le nombre de composantes sélectionnées, l'étape 44 d'application partielle de la fonction de transformation se limite à N (P2 + 1) multiplications, qui se rajoutent aux Q (P2 + 1) modifications permettant de déterminer les indices de correspondance, contre deux fois Q(P2+1). En conséquence, la réduction de complexité obtenue est au moins de l'ordre de Q/(Q+N). De plus, dans le cas où le résultat des étapes 36 à 42 a été mémorisé, grâce à la réalisation de l'étape 43, l'étape 44 d'application de la fonction de transformation se limite à N(P2+1) opérations contre 2Q(P2+1), dans l'état de la technique, de sorte que, pour cette étape 44, la réduction du temps de calcul est de l'ordre de 2Q/N. La qualité de la transformation est cependant préservée par l'application des composantes présentant un indice de correspondance élevé avec le signal à convertir. Le procédé comporte ensuite une étape 46 de transformation des ca- ractéristiques de fréquence fondamentale du signal vocal à convertir, à l'aide de la fonction de transformation par mise à l'échelle déterminée à l'étape 34 et réalisée selon des techniques classiques. De manière également classique, le procédé de conversion comporte ensuite une étape 48 de synthèse du signal de sortie réalisée, dans l'exemple décrit, par une synthèse de type HNM qui délivre directement le signal vocal converti à partir des informations d'enveloppe spectrale transformées à l'étape 44 et des informations de fréquence fondamentale délivrées par l'étape 46. Cette étape 48 utilise également des informations de phase et de fréquence maximale de voisement délivrées par l'étape 36. Le procédé de conversion de l'invention permet ainsi de réaliser une conversion de haute qualité avec une faible complexité et donc un gain de temps de calcul important. Sur la figure 2, on a représenté un schéma synoptique d'un système de conversion de voix mettant en œuvre le procédé décrit en référence aux figu- res 1A et 1B. Ce système utilise en entrée une base de données 50 d'échantillons vocaux prononcés par le locuteur source et une base de données 52 contenant au moins les mêmes échantillons vocaux prononcés par le locuteur cible. Ces deux bases de données sont utilisées par un module 54 de dé- termination de fonctions de transformation de caractéristiques acoustiques et du locuteur source en caractéristiques acoustiques du locuteur cible. Ce module 54 est adapté pour la mise en œuvre de l'étape 1 telle que décrite en référence à la figure 1 et permet donc la détermination d'au moins une fonction de transformation de caractéristiques acoustiques et notamment la fonc- tion de transformation des caractéristiques d'enveloppe spectrale et la fonction de transformation de la fréquence fondamentale. Notamment, le module 54 est adapté pour la détermination de la fonction de transformation de l'enveloppe spectrale à partir d'un modèle représentant de manière pondérée des caractéristiques acoustiques communes des échantil- Ions vocaux du locuteur cible et du locuteur source, sur un ensemble fini de composantes de modèles. Le système de conversion de voix reçoit en entrée un signal vocal 60 correspondant à un signal de parole prononcé par le locuteur source et destiné à être converti. Le signal 60 est introduit dans un module 62 d'analyse mettant en œuvre, par exemple une décomposition de type HNM permettant d'extraire des informations d'enveloppe spectrale du signal 60 sous la forme de coefficients cepstraux et des informations de fréquence fondamentale. Le module 62 délivre éga- lement des informations de phase et de fréquence maximales de voisement obtenues par l'application du modèle HNM. Le module 62 met donc en œuvre l'étape 36 du procédé tel décrit précédemment. Eventuellement, le module 62 est mis en œuvre au préalable et les in- formations sont stockées pour être utilisées ultérieurement. Le système comporte ensuite un module 64 de détermination des indices de correspondance entre le signal vocal à convertir 60 et chaque composante du modèle. A cet effet, le module 64 reçoit les paramètres du modèle déterminé par le module 54. Le module 64 met donc en œuvre l'étape 38 du procédé tel que décrit précédemment. Le système comprend ensuite un modèle 65 de sélection de composantes du modèle mettant en œuvre l'étape 40 de procédé décrit précédemment et permettant la sélection de composantes présentant un indice de correspon- dance traduisant une forte connexité avec le signal vocal à convertir. Avantageusement, ce module 65 réalise également la normalisation des indices de correspondance des composantes sélectionnées par rapport à leur moyenne en mettant en œuvre l'étape 42. Le procédé comporte ensuite un module 66 d'application partielle de la fonction de transformation de l'enveloppe spectrale déterminée par le module 54, par l'application des seuls éléments de transformation sélectionnés par le module 65 en fonction des indices de correspondance. Ainsi, ce module 66 est adapté pour la mise en œuvre de l'étape 44 d'application partielle de la fonction de transformation, de manière à délivrer en sortie, des informations acoustiques du locuteur source transformées par les seuls éléments sélectionnés de la fonction de transformation, soit par les composantes du modèle présentant un indice de correspondance élevé, avec les trames du signal à convertir 60. Ce module permet donc une transformation rapide du signal vocal à convertir grâce à l'application partielle de la fonction de transformation. La qualité de la transformation est préservée par la sélection des composantes du modèle présentant un indice élevé de correspondance avec le signal à convertir. Le module 66 est également adapté pour réaliser une transformation des caractéristiques de fréquence fondamentale, réalisée de manière classique par l'application de la fonction de transformation par mise à l'échelle réalisée selon l'étape 46. Le système comporte ensuite un module 68 de synthèse recevant en entrée, les informations d'enveloppe spectrale et de fréquence fondamentale transformées et délivrées par le module 66 ainsi que des informations de phase et de fréquence maximale de voisement délivrées par le module 62 d'analyse. Le module 68 met ainsi en œuvre l'étape 46 du procédé décrit en référence à la figure 1 et délivre un signal 70, correspondant au signal vocal 60 du locuteur source mais dont les caractéristiques d'enveloppe spectrale et de fréquence fondamentale, ont été modifiées afin d'être similaires à celles du locuteur cible. Le système décrit peut être mis en œuvre de diverses manières et notamment à l'aide de programmes informatiques adaptés et reliés à des moyens matériels d'acquisition sonore. Ce système peut également être mis en œuvre sur des bases de données déterminées afin de former des bases de données de signaux convertis prêts à être utilisés. Notamment, ce système peut être mis en œuvre dans une première phase de fonctionnement afin de délivrer, pour une base de données de signaux, des informations relatives aux composantes du modèle sélectionnées ainsi qu'à leurs indices de correspondance respectifs, ces informations étant alors mémorisées. Les modules 66 et 68 du système, sont mis en œuvre ultérieurement à la demande, pour générer un signal vocal de synthèse en utilisant les signaux vocaux à convertir et les informations relatives aux composantes sélectionnées et à leurs indices de correspondance afin d'obtenir une réduction maximale du temps de calcul. En fonction de la complexité des signaux et de la qualité souhaitée, le procédé de l'invention et le système correspondant peuvent également être mis en œuvre en temps réel. En variante, le procédé de l'invention et le système correspondant sont adaptés pour la détermination de plusieurs fonctions de transformation. Par exemple, une première et seconde fonctions sont déterminées pour la transformation respectivement des paramètres d'enveloppe spectrale et des paramètres de fréquence fondamentale des trames à caractère voisé et une troisième fonction est déterminée pour la transformation des trames à caractère non voisé. Dans un tel mode de réalisation, il est donc prévu une étape de séparation, dans le signal vocal à convertir, des trames voisées et non voisées et une ou plusieurs étapes de transformation de chacun de ces ensembles de trames. Dans le cadre de l'invention, une seule ou plusieurs des fonctions de. transformation est appliquée partiellement de manière à diminuer le temps de traitement. Par ailleurs, dans l'exemple décrit, la conversion de voix est réalisée par transformation des caractéristiques d'enveloppe spectrale et des caractéristiques de fréquence fondamentale de manière séparée, seule la fonction de transformation de l'enveloppe spectrale étant appliquée partiellement. En variante, plusieurs fonctions de transformation de différentes caractéristiques acoustiques et/ou de transformation simultanées de plusieurs caractéristiques acoustiques sont déterminées et au moins l'une de ces fonctions de transformation est appliquée partiellement. De manière générale, le système est adapté pour la mise en œuvre de toutes les étapes du procédé décrit en référence aux figures 1 A et 1 B. Bien entendu, d'autres modes de réalisation que ceux décrits, peuvent être envisagés. Notamment, les modèles HNM et GMM peuvent être remplacés par d'autres techniques et modèles connus de l'homme de l'art. Par exemple, l'analyse est réalisée à l'aide de techniques dites LPC (Linear Prédictive Co- ding), de modèles sinusoïdaux ou MBE (Multi Band Excited), les paramètres spectraux sont des paramètres dits LSF (Une Spectrum Frequencies), ou encore des paramètres liés aux formants ou à un signal glottique. En variante, le modèle GMM est remplacé par une quantification vectorielle floue (Fuzzy VQ.). En variante, l'estimateur mis en œuvre lors de l'étape 30 peut être un critère de maximum a posteriori, dit "MAP" et correspondant à la réalisation du calcul de l'espérance uniquement pour le modèle représentant le mieux le couple de vecteurs source-cible. Dans une autre variante, la détermination d'une fonction de transformation est réalisée à l'aide d'une technique dite des moindres carrés au lieu de l'estimation de la densité jointe décrite. Dans cette variante, la détermination d'une fonction de transformation comprend la modélisation de la densité de probabilité des vecteurs source à l'aide d'un modèle GMM puis la détermination des paramètres du modèle à l'aide d'un algorithme EM. La modélisation prend ainsi en compte des segments de parole du locuteur source dont les correspondants prononcés par le locuteur cible ne sont pas disponibles. La détermination comprend ensuite la minimisation d'un critère des moindres carrés entre paramètres cible et source pour obtenir la fonction de transformation. Il est à noter que l'estimateur de cette fonction s'exprime toujours de la même manière mais que les paramètres sont estimés différemment et que des données supplémentaires sont prises en compte.

Claims

REVENDICATIONS 1. Procédé de conversion d'un signal vocal (60) prononcé par un locuteur source en un signal vocal converti (70) dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible, comprenant : - la détermination (1) d'au moins une fonction de transformation de caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, à partir d'échantillons vocaux des locuteurs source et cible ; et - la transformation (2) de caractéristiques acoustiques du signal vocal à convertir du locuteur source, par l'application de ladite au moins une fonction de transformation, caractérisé en ce que ladite transformation (2) comprend une étape (44) d'application uniquement d'une partie déterminée d'au moins une fonction de transformation sur ledit signal à convertir.
2. Procédé selon la revendication 1 , caractérisé en ce qu'au moins la détermination (1) d'une fonction de transformation comprend une étape (20) de détermination d'un modèle représentant de manière pondérée des caractéristiques acoustiques communes des échantillons vocaux du locuteur cible et du locuteur source sur un ensemble fini de composantes de modèle, et en ce que la- dite transformation (2) comprend : - une étape (36) d'analyse du signal vocal à convertir, regroupé en trames pour obtenir, pour chaque trame d'échantillons des informations relatives aux caractéristiques acoustiques ; - une étape (38) de détermination d'un indice de correspondance entre les trames à convertir et chaque composante dudit modèle ; et - une étape (40) de sélection d'une partie déterminée desdites composantes dudit modèle en fonction desdits indices de correspondance, ladite étape (44) d'application uniquement d'une partie déterminée d'au moins une fonction de transformation comprenant l'application auxdites tra- mes à convertir de la seule partie de ladite au moins une fonction de transformation correspondant auxdites composantes du modèle sélectionnées.
3. Procédé selon la revendication 2, caractérisé en ce qu'il comporte en outre une étape (42) de normalisation de chacun desdits indices de corres- pondance des composantes sélectionnées par rapport à la somme de tous les indices de correspondance des composantes sélectionnées.
4. Procédé selon l'une quelconque des revendications 2 et 3, caractérisé en ce qu'il comporte en outre une étape (43) de mémorisation desdits indices de correspondance et de ladite partie déterminée desdites composantes de modèle, réalisée avant ladite étape (44) de transformation, laquelle est retardée dans le temps.
5. Procédé selon l'une quelconque des revendications 2 à 4, caractérisé en ce que ladite détermination (1) de ladite au moins une fonction de trans- formation comprend : - une étape (4X, 4Y) d'analyse des échantillons vocaux des locuteurs source et cible, regroupés en trame pour obtenir des caractéristiques acoustiques pour chaque trame d'échantillons d'un locuteur ; - une étape (18) d'alignement temporel des caractéristiques acousti- ques du locuteur source avec les caractéristiques acoustiques du locuteur cible, cette étape (18) étant réalisée avant ladite étape (20) de détermination d'un modèle.
6. Procédé selon l'une quelconque des revendications 2 à 4, caractérisé en ce que ladite étape (20) de détermination d'un modèle correspond à la détermination d'un modèle de mélange de densités de probabilités gaussiennes.
7. Procédé selon la revendication 6, caractérisé en ce que ladite étape de détermination (20) d'un modèle comprend : - une sous-étape (22) de détermination d'un modèle correspondant à un mélange de densités de probabilités gaussiennes, et - une sous-étape (24) d'estimation des paramètres du mélange de densités de probabilités gaussiennes à partir de l'estimation du maximum de vraisemblance entre les caractéristiques acoustiques des échantillons des locuteurs source et cible et le modèle.
8. Procédé selon l'une quelconque des revendications 1 à 7, caractéri- se en ce que ladite détermination (1) d'au moins une fonction de transformation est réalisée à partir d'un estimateur de la réalisation des caractéristiques acoustiques du locuteur cible sachant les caractéristiques acoustiques du locuteur source.
9. Procédé selon la revendication 8, caractérisé en ce que ledit estimateur est formé de l'espérance conditionnelle de la réalisation des caractéristiques acoustiques du locuteur cible sachant la réalisation des caractéristiques acoustiques du locuteur source.
10. Procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce qu'il comporte en outre une étape (48) de synthèse permettant de former un signal vocal converti à partir desdites informations acoustiques transformées.
11. Système de conversion d'un signal vocal (60) prononcé par un lo- cuteur source en un signal vocal converti (70) dont les caractéristiques acoustiques ressemblent à celles d'un locuteur cible, comprenant : - des moyens (56) de détermination d'au moins une fonction de transformation des caractéristiques acoustiques du locuteur source en caractéristiques acoustiques proches de celles du locuteur cible, à partir d'échantillons vocaux des locuteurs source et cible ; et - des moyens (66) de transformation des caractéristiques acoustiques du signal vocal à convertir (60) du locuteur source par l'application de ladite au moins une fonction de transformation, caractérisé en ce que lesdits moyens (66) de transformation sont adaptés pour l'application uniquement d'une partie déterminée d'au moins une fonction de transformation sur ledit signal à convertir (60).
12. Système selon la revendication 11 , caractérisé en ce que lesdits moyens (54) de détermination sont adaptés pour la détermination d'au moins une fonction de transformation à l'aide d'un modèle représentant de manière pondé- rée des caractéristiques acoustiques communes des échantillons vocaux des locuteurs source et cible sur un ensemble fini de composantes, et en ce qu'il comporte : - des moyens (62) d'analyse dudit signal à convertir (60), regroupé en trames, pour obtenir, pour chaque trame d'échantillons, des informations relatives aux caractéristiques acoustiques ; - des moyens (64) de détermination d'un indice de correspondance entre les trames à convertir et chaque composante dudit modèle ; et - des moyens (65) de sélection d'une partie déterminée desdites composantes dudit modèle en fonction desdits indices de correspondance, lesdits moyens (66) d'application étant adaptés pour appliquer uniquement une partie déterminée de ladite au moins une fonction de transformation correspondant auxdites composantes du modèle sélectionnées.
PCT/FR2005/000607 2004-03-31 2005-03-14 Procede et systeme de conversion rapides d'un signal vocal WO2005106853A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05735426A EP1730728A1 (fr) 2004-03-31 2005-03-14 Procede et systeme de conversion rapides d'un signal vocal
US10/591,599 US7792672B2 (en) 2004-03-31 2005-03-14 Method and system for the quick conversion of a voice signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0403405A FR2868587A1 (fr) 2004-03-31 2004-03-31 Procede et systeme de conversion rapides d'un signal vocal
FR0403405 2004-03-31

Publications (1)

Publication Number Publication Date
WO2005106853A1 true WO2005106853A1 (fr) 2005-11-10

Family

ID=34944345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/000607 WO2005106853A1 (fr) 2004-03-31 2005-03-14 Procede et systeme de conversion rapides d'un signal vocal

Country Status (4)

Country Link
US (1) US7792672B2 (fr)
EP (1) EP1730728A1 (fr)
FR (1) FR2868587A1 (fr)
WO (1) WO2005106853A1 (fr)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1859437A2 (fr) * 2005-03-14 2007-11-28 Voxonic, Inc Systeme et procede de selection et de classement automatique de donneur pour la conversion vocale
EP2017832A4 (fr) * 2005-12-02 2009-10-21 Asahi Chemical Ind Systeme de conversion de la qualite vocale
US20070213987A1 (en) * 2006-03-08 2007-09-13 Voxonic, Inc. Codebook-less speech conversion method and system
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
EP1970894A1 (fr) * 2007-03-12 2008-09-17 France Télécom Procédé et dispositif de modification d'un signal audio
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
CN102257566A (zh) * 2008-12-19 2011-11-23 皇家飞利浦电子股份有限公司 用于适配通信的方法和系统
TWI391876B (zh) * 2009-02-16 2013-04-01 Inst Information Industry 利用多重模組混合圖形切割之前景偵測方法、系統以及電腦程式產品
DE102009013020A1 (de) * 2009-03-16 2010-09-23 Hayo Becks Vorrichtung und Verfahren zur Anpassung von Klangbildern
US8321209B2 (en) * 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9520138B2 (en) * 2013-03-15 2016-12-13 Broadcom Corporation Adaptive modulation filtering for spectral feature enhancement
JP6271748B2 (ja) 2014-09-17 2018-01-31 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
US11380345B2 (en) * 2020-10-15 2022-07-05 Agora Lab, Inc. Real-time voice timbre style transform
CN112750446B (zh) * 2020-12-30 2024-05-24 标贝(青岛)科技有限公司 语音转换方法、装置和系统及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002067245A1 (fr) 2001-02-16 2002-08-29 Imagination Technologies Limited Verification de haut-parleurs

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (fr) * 1992-03-02 1993-09-16 The Walt Disney Company Systeme de transformation vocale
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
DE69826446T2 (de) * 1997-01-27 2005-01-20 Microsoft Corp., Redmond Stimmumwandlung
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US7412377B2 (en) * 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002067245A1 (fr) 2001-02-16 2002-08-29 Imagination Technologies Limited Verification de haut-parleurs

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BANDOIN G ET AL: "On the transformation of the speech spectrum for voice conversion", SPOKEN LANGUAGE, 1996. ICSLP 96. PROCEEDINGS., FOURTH INTERNATIONAL CONFERENCE ON PHILADELPHIA, PA, USA 3-6 OCT. 1996, NEW YORK, NY, USA,IEEE, US, 3 October 1996 (1996-10-03), pages 1405 - 1408, XP010237945, ISBN: 0-7803-3555-4 *
HELENCA DUXANS AND ANTONIO BONAFONTE ET AL: "Estimation of GMM in voice conversion including unaligned data", PROCEEDINGS OF THE EUROSPEECH 2003 CONFERENCE, September 2003 (2003-09-01), pages 861 - 864, XP007007125 *
LAROCHE J ET AL: "HNM: a simple, efficient harmonic+noise model for speech", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 1993. FINAL PROGRAM AND PAPER SUMMARIES., 1993 IEEE WORKSHOP ON NEW PALTZ, NY, USA 17-20 OCT. 1993, NEW YORK, NY, USA,IEEE, 17 October 1993 (1993-10-17), pages 169 - 172, XP010130052, ISBN: 0-7803-2078-6 *
STYLIANOU Y ET AL: "STATISTICAL METHODS FOR VOICE QUALITY TRANSFORMATION", 4TH EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY. EUROSPEECH '95. MADRID, SPAIN, SEPT. 18 - 21, 1995, EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY. (EUROSPEECH), MADRID : GRAFICAS BRENS, ES, vol. VOL. 1 CONF. 4, 18 September 1995 (1995-09-18), pages 447 - 450, XP000854745 *
YINING CHEN1 ET AL: "Voice Conversion with Smoothed GMM and MAP Adaptation", PROCEEDINGS OF THE EUROSPEECH 2003 CONFERENCE, September 2003 (2003-09-01), pages 2413 - 2416, XP007006960 *

Also Published As

Publication number Publication date
EP1730728A1 (fr) 2006-12-13
FR2868587A1 (fr) 2005-10-07
US7792672B2 (en) 2010-09-07
US20070192100A1 (en) 2007-08-16

Similar Documents

Publication Publication Date Title
WO2005106853A1 (fr) Procede et systeme de conversion rapides d'un signal vocal
WO2005106852A1 (fr) Procede et systeme ameliores de conversion d'un signal vocal
Ye et al. Quality-enhanced voice morphing using maximum likelihood transformations
Helander et al. Voice conversion using dynamic kernel partial least squares regression
EP1606792B1 (fr) Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
Mowlaee et al. Phase importance in speech processing applications
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
US7505950B2 (en) Soft alignment based on a probability of time alignment
JPH075892A (ja) 音声認識方法
EP1526508B1 (fr) Procédé de sélection d'unités de synthèse
EP3040989A1 (fr) Procédé de séparation amélioré et produit programme d'ordinateur
EP1275109B2 (fr) Méthode et dispositif d'enrichissement spectral
EP1846918B1 (fr) Procede d'estimation d'une fonction de conversion de voix
EP1895433A1 (fr) Procédé d'estimation de phase pour la modélisation sinusoidale d'un signal numérique
En-Najjary et al. Fast GMM-based voice conversion for text-to-speech synthesis systems
EP1194923B1 (fr) Procedes et dispositifs d'analyse et de synthese audio
WO2008081141A2 (fr) Codage d'unites acoustiques par interpolation
Li et al. Variable bit-rate sinusoidal transform coding using variable order spectral estimation
Grekas On Speaker Interpolation and Speech Conversion for parallel corpora.
Collen Bandwidth extension tools for audio digital signals
Mohammadi et al. Nearest neighbor approach in speaker adaptation for HMM-based speech synthesis
Petrinovic Harmonic weighting for all-pole modeling of the voiced speech.
WO2002093553A1 (fr) Estimation de periodes fondamentales de sources concurrentes multiples notamment de son
EP1192618A1 (fr) Codage audio avec liftrage adaptif
WO2001003119A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005735426

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10591599

Country of ref document: US

Ref document number: 2007192100

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2005735426

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10591599

Country of ref document: US