WO2008081141A2 - Codage d'unites acoustiques par interpolation - Google Patents
Codage d'unites acoustiques par interpolation Download PDFInfo
- Publication number
- WO2008081141A2 WO2008081141A2 PCT/FR2007/052515 FR2007052515W WO2008081141A2 WO 2008081141 A2 WO2008081141 A2 WO 2008081141A2 FR 2007052515 W FR2007052515 W FR 2007052515W WO 2008081141 A2 WO2008081141 A2 WO 2008081141A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- interpolation
- spectral envelope
- frames
- reference frames
- acoustic
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000003595 spectral effect Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000001308 synthesis method Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 5
- 238000003491 array Methods 0.000 abstract 3
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 6
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Definitions
- the present invention relates to the encoding of acoustic units and, in particular, the so-called interpolation coding applied to speech signals.
- speech coding most operations are performed in real time, which imposes significant constraints. However, in some applications, such as speech synthesis, these coding operations are performed offline and use more in-depth coding techniques.
- US patent document 2003/212555 which describes a method for interpolating encoding of acoustic units cut into frames. This method consists of isolating acoustic parameters at the boundaries of the acoustic unit and then interpolating the evolution of these acoustic parameters between the boundaries of the acoustic unit. It is then possible to code an acoustic unit using parameters representative of the frames at the boundaries of the acoustic unit, and interpolation parameters.
- the acoustic parameters used are the frequencies of the first three formants for the first and last frames of the acoustic unit in question.
- One of the objectives of the invention is to enable coding of an effective and automatic speech signal.
- the subject of the invention is a method for encoding frame-segmented acoustic units, comprising a selection of reference frames and at least one modeling of the spectral envelope of each frame as well as a detailed modeling of said reference frames, this method further comprising:
- said determination of an interpolation function for a frame includes determining interpolation coefficients of the spectral envelope model corresponding to the current frame, from the spectral envelope patterns of the frames. reference. These interpolation coefficients make it possible to code the frames other than the reference frames with a limited number of parameters.
- said determination of interpolation coefficients comprises: inverse filtering of the speech signal corresponding to the current frame, successively with parameters corresponding to the spectral envelope model of the current frame, and corresponding to the spectrum envelope models of the frames reference, to obtain prediction errors for each model; calculating an acoustic distance between the model of the spectral envelope of each frame and the spectral envelope models of the reference frames, from the energies of said prediction errors; and obtaining interpolation coefficients from said acoustic distances.
- Such an embodiment allows a simple and efficient expression of the interpolation function between the models.
- the determination of an interpolation function comprises a processing step to make this monotonic interpolation function over said period of time of said acoustic unit. This makes it possible to constrain the evolution of the interpolation function over a period of time.
- said encoding comprises a memorization of all the parameters of the detailed modelings of the reference frames and, for the other frames, a memorization only of certain parameters of the detailed modelings as well as a storage of the interpolation functions between the current frame and one of the reference models.
- the memorization of certain parameters of the detailed modelizations of the current frames includes the memorization of parameters of fundamental frequency and energy parameters.
- said modeling of the spectral envelope of each of the frames comprises the use of a linear prediction method.
- the invention also relates to a program for an acoustic unit encoder and a device for encoding acoustic units.
- the subject of the invention is a method of compressing an acoustic dictionary comprising the coding of at least one acoustic unit of said acoustic dictionary by means of a method as described above.
- the subject of the invention is also a voice synthesis method implemented from acoustic units coded using a method as described above, comprising an interpolation of spectral envelope parameters using the interpolation function of the current frame; and a sound generation from the interpolated spectral envelopes and parameters of the detailed modelizations of the reference frames.
- the subject of the invention is also a voice synthesis method implemented from acoustic units coded using a method as described above, comprising:
- the invention also relates to a voice conversion method comprising:
- FIGS. 1A, 1B and 1C represent different stages of treatment of an acoustic unit
- FIG. 2 represents a flowchart of the method of the invention according to a first embodiment
- FIG. 3 is a graph illustrating certain parameters of the method of the invention described with reference to FIG. 2;
- FIGS. 4 and 5 represent flow charts of particular uses of the method of the invention.
- a phoneme is a language element derived from a phonetic alphabet and a phone is the acoustic realization of a phoneme.
- a diphoneme is a combination of two phonetic language elements and a diphone corresponds to the acoustic realization of a diphoneme.
- the method of the invention will be illustrated more precisely on the basis of an acoustic segment as represented in FIG. reference to Figure 1A.
- This acoustic segment is obtained on a transition between two vowels and corresponds to a diphone consisting of M frames, as shown in Figure 1 B.
- the frames may be of fixed size or of variable size.
- the method of the invention starts with a step 2 of selection of reference frames in the acoustic unit.
- the reference frames are the frames which are located in the center of the phones and which generally characterize the stable areas of a phone.
- non-stationary phenomena such as voiced / unvoiced transitions and conversely, or in the presence of consonant, that is to say of plosives
- the non-stationary frames For a transition from a voiced area to a voiceless area, it is possible to consider the last voiced frame and the first voiceless frame as reference frames.
- reference frames In the case of sounds containing plosive parts, it is possible to consider as reference frames, the frame containing the plosive as well as the previous frames and the next frame.
- the reference frames are the first and the last frame of the acoustic unit, ie the frames 1 and M as represented in FIG. 1B.
- the method then comprises a step of modeling each frame m of the diphone.
- This modeling comprises two aspects (10, 20): the creation of a model A m of the spectral envelope of each frame, and a detailed modeling of certain frames for the purpose of synthesis, called synthetic modeling.
- the modeling of the spectral envelope can be carried out according to conventional methods. In the example described, it is carried out using a linear prediction 12, or LPC (in English: Linear Prediction Coding), of order p, with, for example, p which takes a value of 10 for a sampling frequency of 8 kHz.
- LPC Linear Prediction Coding
- k l
- E [e (n) s (n-i)] 0 for any integer i, where E [.] Denotes the expected value.
- An estimator of r (i) is given by:
- the modeling step also comprises a detailed modeling or synthesis modeling of at least reference frames.
- Detailed modeling is a model such that it is possible to use the model obtained to perform speech synthesis.
- the method comprises a synthesis modeling of each frame which corresponds to an analysis of the frames of the speech signal s (n) using an exogenous self-regression model, or ARX model, of the following form:
- the terms ak denote the coefficients of an AR type filter modeling the vocal tract
- the term u (n) is an approximation of the glottic source given by a classical model
- the term bo is a term of amplitude associated with this glottal waveform
- the term e (n) corresponds to the modeling error.
- a glottic source approximation, referred to as the LF model is described in the document "A four parameter mode of glottal flow" STL-QPSR, vol 4, pp1-13 of 1985 by G. Fant, J. Liljencrants and Q. Lin.
- the synthesis modeling comprises an estimate 24 of the fundamental period of each frame, denoted Fo , m .
- the fundamental period is obtained in a conventional manner, for example using the so-called YIN method described in the document "YIN, a fundamental frequency estimator for speech and music" J. Acoust. Soc. Am, vol 111, no.4, pp 1917-1939, April 2002 by A. de Cheveigné and H. Kawahara.
- the AR filter and the coefficient bo can be estimated by conventional least squares methods.
- the synthesis modeling step 20 then comprises an estimation 26 of the parameters of each model using, for example, the method described in the document "Estimation of LF glottal source parameters based on ARX modet", lnterspeech'05, pp. 333-336, Lisbon, Portugal, 2005 by D. Vincent, O. Rosec, and T. Chonavel. Another method is also described in the document “Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, pp. 381-384,ière, France, 2006 by D. Vincent, O. Rosec, and T. Chonavel.
- the synthesis modeling 20 then comprises a separation 28 of the residual signal e (n) according to deterministic and stochastic components.
- this step is implemented by inverse filtering the speech frames and subtracting the LF component u (n) from the glottal source in order to obtain the residual portion.
- This residual portion is then cut, for example using a model of the harmonic type plus noise, said model HNM.
- An example of such a model is described in the document "Harmony plus Noise Model for speech, combined with statistical methods, for speech and modification", doctoral thesis, National School of Telecommunications, France, 1996 by Y. Stylianou.
- each frame of the acoustic unit has been modeled in order to obtain a model of its spectral envelope and a synthesis model.
- the following parameters are obtained for each frame:
- the source LF formed of 3 shape parameters and a term of amplitude b, m ; the LSF parameters of the AR filter modeling the vocal tract;
- the method then comprises a step 30 of determining an interpolation function between the model A m and the models Ai and A M.
- Step 30 begins with inverse filtering 32 of the speech signal successively produced with the filtering parameters corresponding to the current model A m as well as to the reference models A 1 and A M.
- Step 30 then comprises a step 33 for determining the acoustic distance between the spectral envelope model A m of the current frame and the spectral envelope models Ai and A M of the reference frames.
- an acoustic distance is determined between the spectral envelope model corresponding to this frame and the models of the spectral envelopes of the frames 1 and M.
- These acoustic distances are expressed, in the example, under the form of logarithms between the prediction error energies. These energies are denoted E 1, m , E m, m and E M, m and respectively correspond to the energy of the prediction error of the models Ai, A m and A M with respect to the frame m.
- two interpolation coefficients ⁇ i, m and ⁇ M , m are determined. These coefficients measure the relative suitability of the spectral envelope models of the reference frames A 1 and A M for the modeling of the current frame. In the example, these coefficients are defined as follows:
- the method then comprises a step 36 of treating these coefficients P 1 , m and P M, m in order to make their monotonic evolution on the acoustic unit.
- “monotone” is meant an evolution of the type ascending or descending in the broad sense, that is to say increasing and / or constant or decreasing and / or constant.
- these coefficients are processed to be respectively increasing and decreasing in function of the index of the frame.
- Such a processing step comprises for example the use of a dynamic programming algorithm in order to respect this coefficient of growth of the coefficients over the duration of the acoustic unit.
- the evolution of these coefficients, for the acoustic unit described previously, is represented with reference to FIG.
- the signal in the vicinity of the beginning of the diphone, the signal is relatively stationary and the reference model Ai is fairly well adapted. Consequently, the coefficient ⁇ i, m is close to 1, which means that the acoustic signal will be well restored by taking the acoustic parameters of the first reference model. Conversely, at the end of the diphone, it is the second reference model A M which is better adapted and the coefficient ⁇ M , m becomes close to 1. Between the two zones, there is a transient zone on which the models of the first and last frames are relatively equidistant. In this zone, an interpolation mechanism between the parameters resulting from the reference models will be used to reconstitute the signal.
- the method comprises a step 40 of encoding the acoustic unit from the parameters of the reference frames and the interpolation functions. This step corresponds to the determination and / or storage of the information necessary for the reconstruction of the signal.
- the embodiment described provides for the storage of all the parameters of the detailed modelizations of the reference frames A 1 and A M.
- This encoding step also comprises storing, for each of the other models A m , the fundamental frequency, the energy of the frame and one of the interpolation factors corresponding to the acoustic distance with one or the other. other reference frames. It therefore appears that the method of the invention allows efficient coding of the acoustic units by the use of reference frames and interpolation parameters between these reference frames. In particular, this coding is improved by determining the interpolation parameters between the spectral envelope models of the reference frames and the spectral envelope model of the current frame, starting from the acoustic distance.
- all the frames are the subject of a detailed modeling and the selection step is implemented only after the detailed modeling.
- the modeling of the spectral envelope and the synthesis modeling are carried out in a single step. In this case, it is necessary to model each of the frames in order to obtain a spectral envelope model for each of the frames, and then the acoustic interpolation functions between the spectral envelope models.
- the selection of reference frames is carried out before the detailed modeling. Thus, even if all the spectral envelopes must be modeled, only the reference frames are modeled in detail for the synthesis. This saves computing time and memory resources. In addition, this simplifies the encoding which then comprises a simple storage of all the parameters obtained, without requiring the selection of certain parameters for certain frames.
- the reference frames may be more numerous and be selected differently.
- the models can be determined in several ways.
- the spectral envelope models are cepstral models.
- the acoustic distance is the distance between cepstral parameters.
- any type of deductible representation of the parameters of the AR model can be used and in particular a representation using parameters called LSF (in English Linear Spectral Frequency) or LAR (in English). English Log Area Ratio).
- LSF in English Linear Spectral Frequency
- LAR in English
- English Log Area Ratio the acoustic distance can be expressed in the form of Euclidean distances between these parameters or any other known acoustic distance, such as the so-called Mahalanobis distances.
- the distances used may not be distances in the mathematical sense of the term, because they do not always satisfy the axiom of symmetry. However, these distances can be assimilated to acoustic distances in the present case.
- the coding method of the invention can be implemented in a computer program.
- the method of the invention may also be implemented by a dedicated electronic component comprising one or more microprocessors having in memory such a program or having means suitable for carrying out the method.
- the coding method of the invention can be implemented in various environments of use.
- this coding method is used for the compression of acoustic dictionaries and in particular the compression of acoustic dictionaries used in concatenation synthesis systems.
- Dictionaries comprising acoustic models of acoustic units may be compressed so that, for each acoustic unit, only the parameters of the reference frames as well as certain parameters of the other frames and the interpolation parameters are stored.
- acoustic units encoded according to the method of the invention are used for speech synthesis.
- the flowchart of such a synthesis method using an ARX modeling is shown with reference to FIG. 4. The synthesis starts with a step 50 of scaling the glottic source signal of the reference frames as a function, in particular, of the information fundamental frequency and energy of the intermediate frames.
- This step 50 consists in making a modification of the fundamental frequency of the glottic signals of the reference frames by coefficients corresponding to the ratio of the fundamental frequencies between the current frame and each of the reference frames.
- This modification is carried out using known techniques such as techniques called TD-PSOLA (English Time Domain Pitch Synchronous Overlap and Add) or HNM.
- TD-PSOLA English Time Domain Pitch Synchronous Overlap and Add
- HNM HNM
- the energies of the resulting glottal signals are also corrected by factors respectively corresponding to the ratio of the energies of the current frame with each of the reference frames, that is to say by the coefficients P 1n IP 1 and P m / P M.
- Step 50 is followed by a step 52 of interpolation of the glottal signal using the previously scaled signals and interpolation coefficients, that is to say, acoustic distances between the models.
- the synthesis method then comprises a parameter interpolation step 54 of the filter modeling the vocal tract using the interpolation coefficients.
- the synthesis method comprises a step 56 of sound generation by adding and covering the frames. During this step, the transition from one frame to the next is provided by a linear interpolation mechanism applied to both the glottal source signal and the parameters modeling the vocal tract.
- the synthesis is performed considering the spectral envelope as a whole using techniques such as a phase Vocoder or a HNM model.
- the synthesis is formed of a step of interpolation of the spectral envelope parameters using the interpolation coefficients of the current frame and a sound generation step from the interpolated spectral envelopes as well as Parameters of the detailed modelizations of the reference frames.
- the coding method of the invention is used for voice conversion. The flowchart of such a conversion process is shown with reference to FIG.
- the conversion process begins with a step 60 of learning a conversion function between a source speaker and a target speaker. This learning is applied only on the stable parts of the phones, that is to say on the reference frames.
- This conversion function is applied, in a step 62, on the reference frames of a source signal to be converted so as to have a sequence of converted frames for the stable zones.
- the method then comprises a step 64 of encoding, by the method of the invention, the source signal to be converted so as to obtain the interpolation coefficients between the reference frames.
- the method comprises a step 66 of synthesizing a voice signal converted from the interpolation coefficient sequence of the source signal and converted stable frames.
- the synthesis method used is that described above.
- This conversion technique makes it possible to obtain a quality result and, moreover, to preserve the articulation characteristics of the source speaker.
- each of these uses can be implemented by a corresponding program or device.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Ce procédé de codage d'unités acoustiques segmentées en trames comprend une sélection (2) de trames de référence et au moins une modélisation (10) de l'enveloppe spectrale de chaque trame ainsi qu'une modélisation (20) détaillée desdites trames de référence. Il comprend en outre : une détermination (30) d'une fonction d'interpolation du modèle de l'enveloppe spectrale de chaque trame à partir des modèles d'enveloppe spectrale des trames de référence; et un encodage (40) de l'unité acoustique à partir desdites modélisations détaillées des trames de référence et desdites fonctions d'interpolation.
Description
CODAGE D'UNITES ACOUSTIQUES PAR INTERPOLATION
La présente invention concerne le codage d'unités acoustiques et, en particulier, le codage dit par interpolation, appliqué aux signaux de parole. En codage de la parole, la plupart des opérations sont effectuées en temps réel, ce qui impose des contraintes importantes. Toutefois, dans certaines applications, telles que la synthèse de la parole, ces opérations de codage sont réalisées hors ligne et utilisent des techniques de codage plus approfondies. C'est le cas notamment du document de brevet US 2003/212555 qui décrit un procédé de codage par interpolation d'unités acoustiques découpées en trames. Ce procédé consiste à isoler des paramètres acoustiques au niveau des trames aux frontières de l'unité acoustique, puis à interpoler l'évolution de ces paramètres acoustiques entre les frontières de l'unité acoustique. Il est alors possible de coder une unité acoustique à l'aide de paramètres représentatifs des trames au niveau des frontières de l'unité acoustique, et de paramètres d'interpolation.
Dans ce document, les paramètres acoustiques utilisés sont les fréquences des trois premiers formants pour les premières et dernières trames de l'unité acoustique considérée.
Une telle définition nécessite la mise en correspondance de pics spectraux, correspondant aux formants, sur des zones stables du signal de parole. L'estimation de ces formants nécessite une tâche de vérification manuelle, ce qui rend le procédé coûteux en temps et en ressources. De plus, ce document ne décrit pas la reconstruction du signal et ne traite que la détermination du spectre de la trame par addition de spectres déformés. Cela induit forcément des modifications locales des pics harmoniques, lesquelles rendent difficile la reconstruction du signal.
Un des objectifs de l'invention est de permettre un codage d'un signal de parole efficace et automatique.
A cet effet, l'invention a pour objet un procédé de codage d'unités acoustiques segmentées en trames, comprenant une sélection de trames de référence et au moins une modélisation de l'enveloppe spectrale de chaque
trame ainsi qu'une modélisation détaillée desdites trames de référence, ce procédé comprenant en outre :
- une détermination d'une fonction d'interpolation du modèle de l'enveloppe spectrale de chaque trame à partir des modèles d'enveloppe spectrale des trames de référence ; et
- un encodage de l'unité acoustique à partir desdites modélisations détaillées des trames de référence et desdites fonctions d'interpolation. Dans ce procédé, l'utilisation d'une fonction d'interpolation entre les modèles d'enveloppe spectrale permet un codage amélioré ainsi qu'une automatisation du procédé.
Dans un autre mode de réalisation, ladite détermination d'une fonction d'interpolation pour une trame, comprend une détermination de coefficients d'interpolation du modèle d'enveloppe spectrale correspondant à la trame courante, à partir des modèles d'enveloppe spectrale des trames de référence. Ces coefficients d'interpolation permettent de coder les trames autres que les trames de référence avec un nombre restreint de paramètres.
Avantageusement, ladite détermination de coefficients d'interpolation comprend : un filtrage inverse du signal de parole correspondant à la trame courante, successivement avec des paramètres correspondant au modèle d'enveloppe spectrale de la trame courante, et correspondant aux modèles d'enveloppe spectrale des trames de référence, pour obtenir des erreurs de prédiction pour chaque modèle ; un calcul d'une distance acoustique entre le modèle de l'enveloppe spectrale de chaque trame et les modèles d'enveloppe spectrale des trames de référence, à partir des énergies desdites erreurs de prédiction ; et l'obtention de coefficients d'interpolation à partir desdites distances acoustiques. Un tel mode de réalisation permet une expression simple et performante de la fonction d'interpolation entre les modèles.
Dans une variante, la détermination d'une fonction d'interpolation comprend une étape de traitement pour rendre cette fonction d'interpolation monotone sur ladite période de temps de ladite unité acoustique.
Cela permet de contraindre l'évolution de la fonction d'interpolation sur une période de temps.
Dans une autre variante, ledit encodage comprend une mémorisation de l'ensemble des paramètres des modélisations détaillées des trames de référence et, pour les autres trames, une mémorisation uniquement de certains paramètres des modélisations détaillées ainsi qu'une mémorisation des fonctions d'interpolation entre la trame courante et l'un des modèles de référence.
Avantageusement, la mémorisation de certains paramètres des modélisations détaillées des trames courantes comprend la mémorisation de paramètres de fréquence fondamentale et de paramètres d'énergie.
En variante, ladite modélisation de l'enveloppe spectrale de chacune des trames comprend l'utilisation d'une méthode de prédiction linéaire.
Dans encore un autre mode de réalisation, ladite modélisation de l'enveloppe spectrale de chacune des trames et lesdites modélisations détaillées sont confondues.
L'invention a également pour objet un programme pour un codeur d'unités acoustiques ainsi qu'un dispositif de codage d'unités acoustiques.
En outre, l'invention a pour objet un procédé de compression d'un dictionnaire acoustique comprenant le codage d'au moins une unité acoustique dudit dictionnaire acoustique à l'aide d'un procédé tel que décrit précédemment.
L'invention a également pour objet un procédé de synthèse vocale mis en œuvre à partir d'unités acoustiques codées à l'aide d'un procédé tel que décrit précédemment, comprenant une interpolation de paramètres d'enveloppe spectrale à l'aide de la fonction d'interpolation de la trame courante ; et une génération sonore à partir des enveloppes spectrales interpolées et des paramètres des modélisations détaillées des trames de référence. L'invention a également pour objet un procédé de synthèse vocale mise en œuvre à partir d'unités acoustiques codées à l'aide d'un procédé tel que décrit précédemment, comprenant :
- une mise à l'échelle du signal de source glottique pour lesdites trames de référence en fonction de la trame courante ;
- une interpolation du signal glottique à l'aide du signal précédemment mis à l'échelle et de la fonction d'interpolation correspondante ;
- une interpolation de paramètres d'un filtre modélisant un conduit vocal à l'aide de la fonction d'interpolation correspondante ; et - une génération sonore par addition et recouvrement de trames.
Enfin, l'invention porte aussi sur un procédé de conversion de voix comprenant :
- l'apprentissage d'une fonction de conversion entre un locuteur source et un locuteur cible sur des trames de référence d'unités acoustiques ; - l'application de ladite fonction de conversion sur des trames de référence d'un signal source à convertir ;
- le codage de l'ensemble du signal source à convertir à l'aide d'un procédé tel que décrit précédemment ; et
- la synthèse d'un signal converti à l'aide desdites trames de référence converties et des fonctions d'interpolation du signal source à convertir.
L'invention sera mieux comprise à la lumière de la description faite à titre d'exemple et en référence aux figures sur lesquelles :
- les figures 1A, 1 B et 1C représentent différents stades de traitement d'une unité acoustique ; - la figure 2 représente un organigramme du procédé de l'invention selon un premier mode de réalisation ;
- la figure 3 est un graphique illustrant certains paramètres du procédé de l'invention décrit en référence à la figure 2 ; et
- les figures 4 et 5 représentent des organigrammes d'utilisations particulières du procédé de l'invention.
De manière générale, on rappelle qu'un phonème est un élément de langage issu d'un alphabet phonétique et qu'un phone est la réalisation acoustique d'un phonème. De manière similaire, un diphonème est une combinaison de deux éléments de langage phonétiques et un diphone correspond à la réalisation acoustique d'un diphonème.
Dans l'exemple, on considère que l'on dispose d'un corpus de parole segmenté en diphones. La méthode de l'invention va être illustrée plus précisément sur la base d'un segment acoustique tel que représenté en
référence à la figure 1A. Ce segment acoustique est obtenu sur une transition entre deux voyelles et correspond à un diphone constitué de M trames, comme représenté sur la figure 1 B. Les trames peuvent être de taille fixe ou de taille variable. Comme représenté à la figure 2, le procédé de l'invention débute par une étape 2 de sélection de trames de référence dans l'unité acoustique. Par exemple, les trames de référence sont les trames qui sont situées au centre des phones et qui caractérisent généralement les zones stables d'un phone.
Avantageusement, en présence de phénomènes non-stationnaires tels que des transitions voisées/non voisées et inversement, ou encore en présence de sont consonants, c'est-à-dire de plosives, il est souhaitable de considérer les trames non-stationnaires comme des trames de référence. Ainsi, pour une transition d'une zone voisée vers une zone non-voisée, il est possible de considérer la dernière trame voisée et la première trame non-voisée comme des trames de référence. Dans le cas de sons contenant des parties plosives, il est possible de considérer comme trames de référence, la trame contenant la plosive ainsi que la trames précédente et la trame suivante.
Dans l'exemple, les trames de référence sont la première et la dernière trame de l'unité acoustique, soit les trames 1 et M telles que représentées sur la figure 1 B.
Le procédé comprend ensuite une étape de modélisation de chaque trame m du diphone. Cette modélisation comporte deux aspects (10, 20) : la création 10 d'un modèle Am de l'enveloppe spectrale de chaque trame, et une modélisation détaillée 20 de certaines trames en vue de la synthèse, dite modélisation de synthèse.
La modélisation 10 de l'enveloppe spectrale peut être réalisée selon des méthodes classiques. Dans l'exemple décrit, elle est réalisée à l'aide d'une prédiction linéaire 12, ou LPC (En anglais : Linear Prédiction Coding), d'ordre p, avec, par exemple, p qui prend une valeur de 10 pour une fréquence d'échantillonnage de 8 kHz. Un exemple d'une telle modélisation d'un signal de parole s(n) est obtenu à l'aide d'une auto-régression, ou modèle AR, de la forme suivante :
y s{n) = Yjaks{n - k) + e{n) . k=l
Dans cette équation, les termes ak désignent les coefficients d'un filtre de type AR modélisant le conduit vocal et le terme e(n) est le signal résiduel relatif à la partie excitation. Notons que si l'ordre du modèle est suffisamment grand alors e(n) n'est pas corrélé à s(n). Cela s'écrit formellement :
E[e(n)s(n-i)]=0 pour tout entier i, où E[.] désigne l'espérance mathématique.
En pratique, des ordres typiques de 10 et de 16 sont choisis pour des signaux de parole échantillonnés respectivement à 8 et 16 kHz. En multipliant l'équation précédente à gauche et à droite par s(n-i) et en passant à l'espérance mathématique, on aboutit aux équations de Yule-Walker définies par :
P
où r est la fonction d'autocorrélation définie par : r(i) = E[s(n)s(n-i)]. Un estimateur de r(i) est donné par :
I N N--pp r(ή = — Y s(n)s(n -i) .
N - p tt
En pratique, seules les p+1 premières valeurs de la fonction d'autocorrélation sont nécessaires pour l'estimation des coefficients de filtrage ak. La réécriture de cette dernière équation sous forme matricielle conduit à la résolution du système linéaire suivant :
Ainsi l'estimation des coefficients revient à l'inversion d'une matrice de Toeplitz, ce qui peut être réalisé à l'aide de procédures classiques.
Comme indiqué précédemment, l'étape de modélisation comporte également une modélisation détaillée 20 ou modélisation de synthèse au moins des trames de référence. Une modélisation détaillée est une modélisation telle qu'il est possible d'utiliser le modèle obtenu pour réaliser la synthèse vocale.
Dans l'exemple présent, le procédé comporte une modélisation de synthèse de chaque trame qui correspond à une analyse des trames du signal de parole s(n) à l'aide d'un modèle d'auto-régression exogène, ou modèle ARX, de la forme suivante :
P s(n) = *∑aks{n - k) + bou(n) + e{n) .
£=1
Dans cette équation, les termes ak désignent les coefficients d'un filtre de type AR modélisant le conduit vocal, le terme u(n) est une approximation de la source glottique donnée par un modèle classique, le terme bo est un terme d'amplitude associé à cette forme d'onde glottique et le terme e(n) correspond à l'erreur de modélisation. Une approximation de source glottique, dit modèle LF, est décrite dans le document « A four parameter mode/ of glottal flow » STL-QPSR, vol 4, pp1- 13 de 1985 par G. Fant, J. Liljencrants et Q. Lin.
Avantageusement, la modélisation de synthèse comprend une estimation 24 de la période fondamentale de chaque trame, notée Fo, m. La période fondamentale est obtenue de manière classique, par exemple à l'aide de la méthode dite YIN décrite dans le document « YIN, a fundamental frequency estimator for speech and music » J. Acoust. Soc. Am, vol 111 , no.4, pp 1917-1939, Avril 2002 par A. de Cheveigné et H. Kawahara.
Il est à noter que lorsque la source LF est fixée, le filtre AR et le coefficient bo peuvent être estimés par des méthodes de moindres carrés classiques.
L'étape 20 de modélisation de synthèse comprend ensuite une estimation 26 des paramètres de chaque modèle à l'aide, par exemple, de la méthode décrite dans le document "Estimation of LF glottal source parameters based on ARX modet', lnterspeech'05, pp. 333-336, Lisbonne, Portugal, 2005
par D. Vincent, O. Rosec, et T. Chonavel. Une autre méthode est également décrite dans le document "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, pp. 381-384, Toulouse, France, 2006 par D. Vincent, O. Rosec, et T. Chonavel.
Avantageusement, la modélisation de synthèse 20 comporte ensuite une séparation 28 du signal résiduel e(n) selon des composantes déterministes et stochastiques. Dans cet exemple, cette étape est mise en œuvre par un filtrage inverse des trames de parole et par soustraction de la composante LF u(n) de la source glottique afin d'obtenir la partie résiduelle. Cette partie résiduelle est ensuite découpée, par exemple à l'aide d'un modèle de type harmonique plus bruit, dit modèle HNM. Un exemple d'un tel modèle est décrit dans le document "Harmonie plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", thèse de doctorat, Ecole Nationale Supérieure des Télécommunications, France, 1996 par Y. Stylianou.
Dans le mode de réalisation décrit, à l'issue des étapes 10 et 20, chaque trame de l'unité acoustique a été modélisée afin d'obtenir un modèle de son enveloppe spectrale et un modèle de synthèse. Les paramètres suivants sont obtenus pour chacune des trames :
- la fréquence fondamentale F0,m ;
- l'énergie de la trame notée Pm ;
- la source LF formée de 3 paramètres de forme et d'un terme d'amplitude bo,m ; - les paramètres LSF du filtre AR modélisant le conduit vocal ;
- la fréquence de coupure Fc,m séparant les parties déterministe et stochastique du résidu e(n);
- les amplitudes et phases de la partie déterministe du résidu ; et
- les paramètres caractérisant l'enveloppe spectrale de la partie stochastique du résidu.
Le procédé comprend ensuite une étape 30 de détermination d'une fonction d'interpolation entre le modèle Am et les modèles Ai et AM.
L'étape 30 débute par un filtrage inverse 32 du signal de parole réalisé successivement avec les paramètres de filtrage correspondant au modèle courant Am ainsi qu'aux modèles de référence Ai et AM.
L'étape 30 comprend ensuite une étape 33 de détermination de la distance acoustique entre le modèle d'enveloppe spectrale Am de la trame courante et les modèles d'enveloppes spectrales Ai et AM des trames de référence. Ainsi, successivement, pour chaque trame m, on détermine une distance acoustique entre le modèle d'enveloppe spectrale correspondant à cette trame et les modèles des enveloppes spectrales des trames 1 et M. Ces distances acoustiques s'expriment, dans l'exemple, sous la forme de logarithmes entre les énergies d'erreurs de prédiction. Ces énergies sont notées E1 , m, Em,m et EM,m et correspondent respectivement à l'énergie de l'erreur de prédiction des modèles Ai, Am et AM par rapport à la trame m.
Au cours d'une étape de calcul 34, deux coefficients d'interpolation βi,m et βM,m sont déterminés. Ces coefficients mesurent l'adéquation relative des modèles d'enveloppe spectrale des trames de référence A1, et AM pour la modélisation de la trame courante. Dans l'exemple, ces coefficients sont définis de la façon suivante :
Avantageusement, le procédé comprend ensuite une étape 36 de traitement de ces coefficients P1, m et PM, m afin de rendre leur évolution monotone sur l'unité acoustique. Par "monotone", on entend une évolution du type croissant ou décroissant au sens large, c'est-à-dire croissant et/ou constant ou encore décroissant et/ou constant. Dans l'exemple, ces coefficients sont traités pour être respectivement croissant et décroissant en
fonction de l'indice de la trame. Une telle étape de traitement comprend par exemple l'utilisation d'un algorithme de programmation dynamique afin de respecter cette contrainte de croissance des coefficients sur la durée de l'unité acoustique. L'évolution de ces coefficients, pour l'unité acoustique décrite précédemment, est représentée en référence à la figure 3.
Bien entendu, si les évolutions des coefficients sont déjà monotones, cette étape de traitement n'est pas réalisée.
Dans l'exemple décrit ici, au voisinage du début du diphone, le signal est relativement stationnaire et le modèle de référence Ai, est assez bien adapté. En conséquence, le coefficient βi,m est proche de 1 , ce qui signifie que le signal acoustique sera bien restitué en prenant les paramètres acoustiques du premier modèle de référence. À l'inverse, à la fin du diphone, c'est le second modèle de référence AM qui est mieux adapté et le coefficient βM,m devient proche de 1. Entre les deux zones, se trouve une zone transitoire sur laquelle les modèles des première et dernière trames sont relativement équidistants. Dans cette zone, un mécanisme d'interpolation entre les paramètres issus des modèles de référence sera mis en œuvre pour reconstituer le signal.
Enfin, le procédé comporte une étape 40 d'encodage de l'unité acoustique à partir des paramètres des trames de référence et des fonctions d'interpolation. Cette étape correspond à la détermination et/ou au stockage des informations nécessaires à la reconstruction du signal.
Plus précisément, le mode de réalisation décrit prévoit la mémorisation de l'ensemble des paramètres des modélisations détaillées des trames de référence A1 et AM. Cette étape d'encodage comprend également la mémorisation, pour chacun des autres modèles Am, de la fréquence fondamentale, de l'énergie de la trame et d'un des facteurs d'interpolation correspondant à la distance acoustique avec l'une ou l'autre des trames de référence. II apparaît donc que le procédé de l'invention permet un codage efficace des unités acoustiques par l'utilisation de trames de référence et de
paramètres d'interpolation entre ces trames de référence. En particulier, ce codage est amélioré par la détermination des paramètres d'interpolation entre les modèles des enveloppes spectrales des trames de référence et le modèle de l'enveloppe spectrale de la trame courante, à partir de la distance acoustique.
L'utilisation d'une interpolation entre les modèles des enveloppes spectrales permet une automatisation du procédé de codage car ces modèles sont directement et automatiquement comparables entre eux.
Bien entendu, diverses variantes peuvent être mises en œuvre pour le procédé de codage.
Selon un mode de réalisation particulier, toutes les trames font l'objet d'une modélisation détaillée et l'étape de sélection est mise en œuvre uniquement après la modélisation détaillée. Cela permet de sélectionner les trames de référence à partir des paramètres des modèles détaillés. Avantageusement, la modélisation de l'enveloppe spectrale et la modélisation de synthèse sont réalisées au cours d'une unique étape. Dans ce cas, il convient de faire la modélisation de chacune des trames afin de pouvoir obtenir un modèle d'enveloppe spectrale pour chacune des trames, puis les fonctions d'interpolation acoustiques entre les modèles d'enveloppe spectrale. Dans un autre mode de réalisation de l'invention, la sélection de trames de référence est réalisée avant la modélisation détaillée. Ainsi, même s'il faut modéliser toutes les enveloppes spectrales, seules les trames de référence sont modélisées en détail pour la synthèse. Cela permet d'économiser du temps de calcul et des ressources mémoires. En outre, cela simplifie l'encodage qui comporte alors une simple mémorisation de tous les paramètres obtenus, sans requérir la sélection de certains paramètres pour certaines trames.
Selon encore un autre mode de réalisation, les trames de référence peuvent être plus nombreuses et être sélectionnées différemment. En outre, les modèles peuvent être déterminés de plusieurs manières.
Dans un cas particulier, les modèles d'enveloppes spectrales sont des modèles cepstraux. Dans ce cas, la distance acoustique est la distance entre
paramètres cepstraux.
Pour une modélisation de l'enveloppe spectrale basée sur un modèle AR, tout type de représentation déductible des paramètres du modèle AR peut être utilisée et notamment une représentation à l'aide de paramètres dits LSF (en anglais Linear Spectral Frequency) ou LAR (en anglais Log Area Ratio). Dans ce cas, la distance acoustique peut être exprimée sous la forme de distances euclidiennes entre ces paramètres ou de tout autre distance acoustique connue, telles que les distances dites de Mahalanobis.
Il est à noter que selon les cas, les distances utilisées peuvent ne pas être des distances au sens mathématique du terme, car elles ne satisfont pas toujours l'axiome de symétrie. Toutefois, ces distances peuvent être assimilées à des distances acoustiques dans le cas présent.
Le procédé de codage de l'invention peut être mis en œuvre dans un programme d'ordinateur. Bien entendu, le procédé de l'invention peut également être mis en œuvre par un composant électronique dédié comprenant un ou plusieurs microprocesseurs ayant en mémoire un tel programme ou ayant des moyens aptes à la réalisation du procédé.
Par ailleurs, le procédé de codage de l'invention peut être mis en œuvre dans divers environnements d'utilisation. Dans un premier mode d'utilisation, ce procédé de codage est utilisé pour la compression de dictionnaires acoustiques et notamment, la compression de dictionnaires acoustiques utilisés dans des systèmes de synthèse par concaténation. Les dictionnaires comprenant des modèles acoustiques d'unités acoustiques peuvent être compressés de manière à ce que, pour chaque unité acoustique, soient uniquement stockés les paramètres des trames de référence ainsi que certains paramètres des autres trames et les paramètres d'interpolation.
Avantageusement, lors de la compression du dictionnaire acoustique, seules les transitions entre phonèmes de type voisé-voisé sont codées selon le procédé de l'invention. Les autres transitions sont restituées par d'autres méthodes telles qu'une analyse re-synthèse basée sur une décomposition de type source - filtre.
Dans une autre utilisation, des unités acoustiques codées selon le procédé de l'invention sont utilisées pour la synthèse vocale. L'organigramme d'un tel procédé de synthèse utilisant une modélisation ARX est représenté en référence à la figure 4. La synthèse débute par une étape 50 de mise à l'échelle du signal de source glottique des trames de référence en fonction notamment des informations de fréquence fondamentale et d'énergie des trames intermédiaires. Cette étape 50 consiste à réaliser une modification de la fréquence fondamentale des signaux glottiques des trames de référence par des coefficients correspondant au rapport des fréquences fondamentales entre la trame courante et chacune des trames de référence. Cette modification est réalisée à l'aide de techniques connues telles que les techniques dites TD- PSOLA (en anglais Time Domain Pitch Synchronous Overlap and Add) ou HNM. Ainsi, les fréquences fondamentales sont modifiées par les coefficients FojFOA et FOJH/FOtU .
Au cours de cette étape 50, les énergies des signaux glottiques résultants sont également corrigées par des facteurs correspondants respectivement au rapport des énergies de la trame courante avec chacune des trames de référence, c'est-à-dire par les coefficients P1nIP1 et Pm/PM . L'étape 50 est suivie d'une étape 52 d'interpolation du signal glottique à l'aide des signaux précédemment mis à l'échelle et des coefficients d'interpolation, c'est-à-dire des distances acoustiques entre les modèles.
Le procédé de synthèse comporte ensuite une étape 54 d'interpolation de paramètres du filtre modélisant le conduit vocal à l'aide des coefficients d'interpolation.
Ces étapes 52 et 54 d'interpolation consistent en des combinaisons linéaires des paramètres des modèles de référence, pondérées par les coefficients d'interpolation selon la formule suivante :
- Enfin, le procédé de synthèse comporte une étape 56 de génération sonore par addition et recouvrement des trames. Au cours de cette étape, le
passage d'une trame à la suivante est assuré par un mécanisme d'interpolation linéaire appliqué à la fois au signal de source glottique et aux paramètres modélisant le conduit vocal.
Bien entendu d'autres types de synthèse peuvent être envisagés et notamment des synthèses utilisant des modèles source-filtre, comme une synthèse LPC ou ARX.
En variante, la synthèse est réalisée en considérant l'enveloppe spectrale dans son ensemble à l'aide de techniques telles qu'un Vocodeur de phase ou un modèle HNM. Dans ce cas, la synthèse est formée d'une étape d'interpolation des paramètres d'enveloppe spectrale à l'aide des coefficients d'interpolation de la trame courante et d'une étape de génération sonore à partir des enveloppes spectrales interpolées ainsi que des paramètres des modélisations détaillées des trames de référence. Dans une autre application, le procédé de codage de l'invention est utilisé pour une conversion de voix. L'organigramme d'un tel procédé de conversion est représenté en référence à la figure 5.
Le procédé de conversion débute par une étape 60 d'apprentissage d'une fonction de conversion entre un locuteur source et un locuteur cible. Cet apprentissage est appliqué uniquement sur les parties stables des phones, c'est-à-dire sur les trames de référence.
Dans ce mode d'utilisation, l'apprentissage étant réalisé uniquement sur les trames de référence des signaux des locuteurs source et cible, l'appariement est réalisable de manière automatique sans avoir recours à une phase d'alignement des signaux. Qui plus est, un tel apprentissage conduit à une conversion améliorée des phones stables.
Cette fonction de conversion est appliquée, lors d'une étape 62, sur les trames de référence d'un signal source à convertir de manière à disposer d'une séquence de trames converties pour les zones stables. Le procédé comprend ensuite une étape 64 de codage, par le procédé de l'invention, du signal source à convertir de manière à obtenir les coefficients d'interpolation entre les trames de référence.
Enfin, le procédé comprend une étape 66 de synthèse d'un signal vocal converti à partir de la séquence de coefficient d'interpolation du signal source et des trames stables converties. Avantageusement, le procédé de synthèse utilisé est celui décrit précédemment.
Cette technique de conversion permet d'obtenir un résultat de qualité et, en outre, de préserver les caractéristiques d'articulation du locuteur source. Bien entendu, chacune de ces utilisations peut être mise en œuvre par un programme ou un dispositif correspondant.
Claims
1. Procédé de codage d'unités acoustiques segmentées en trames (1 , m, M), comprenant une sélection (2) de trames de référence (1 , M) et au moins une modélisation (10) de l'enveloppe spectrale de chaque trame ainsi qu'une modélisation (20) détaillée desdites trames de référence, le procédé comprenant en outre :
- une détermination d'une fonction d'interpolation du modèle de l'enveloppe spectrale de chaque trame (Am) à partir des modèles (A1, AM) d'enveloppe spectrale des trames de référence, la détermination d'une fonction d'interpolation pour une trame, comprenant une détermination (30) de coefficients d'interpolation (βi,m, βM,m) du modèle d'enveloppe spectrale correspondant à la trame courante, à partir des modèles d'enveloppe spectrale des trames de référence, ladite détermination de coefficients d'interpolation comprenant : un filtrage (32) inverse du signal de parole correspondant à la trame courante, successivement avec des paramètres correspondant au modèle d'enveloppe spectrale de la trame courante, et correspondant aux modèles d'enveloppe spectrale des trames de référence, pour obtenir des erreurs de prédiction pour chaque modèle ; un calcul (33) d'une distance acoustique entre le modèle de l'enveloppe spectrale de chaque trame (Am) et les modèles (Ai, AM) d'enveloppe spectrale des trames de référence, à partir des énergies desdites erreurs de prédiction ; et - l'obtention (34) de coefficients d'interpolation à partir desdites distances acoustiques ; et
- un encodage (40) de l'unité acoustique à partir desdites modélisations détaillées des trames de référence, et desdites fonctions d'interpolation.
2. Procédé selon la revendication 1 , dans lequel la détermination d'une fonction d'interpolation comprend une étape de traitement pour rendre cette fonction d'interpolation monotone sur ladite période de temps de ladite unité acoustique.
3. Procédé selon la revendication 1 ou 2, dans lequel ledit encodage comprend une mémorisation de l'ensemble des paramètres des modélisations détaillées des trames de référence et, pour les autres trames, une mémorisation uniquement de certains paramètres des modélisations détaillées ainsi qu'une mémorisation des fonctions d'interpolation entre la trame courante et l'un des modèles de référence.
4. Procédé selon la revendication 3, dans lequel la mémorisation de certains paramètres des modélisations détaillées des trames courantes comprend la mémorisation de paramètres de fréquence fondamentale et de paramètres d'énergie.
5. Procédé selon l'une quelconque des revendications 1 à 4, dans lequel ladite modélisation de l'enveloppe spectrale de chacune des trames comprend l'utilisation d'une méthode de prédiction linéaire.
6. Procédé selon l'une quelconque des revendications 1 à 5, dans lequel ladite modélisation de l'enveloppe spectrale de chacune des trames et lesdites modélisations détaillées, sont confondues.
7. Programme pour un codeur d'unités acoustiques comprenant des instructions qui, lorsqu'elles sont exécutées sur un calculateur dudit codeur, entraînent la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 6.
8. Dispositif de codage d'unités acoustiques, comprenant : - des moyens d'accès à des unités acoustiques segmentées en trames (1 , m, M) ; des moyens de sélection de trames de référence (1 , M) ; des moyens de modélisation de l'enveloppe spectrale de chaque trame ; des moyens de modélisation détaillée des trames de référence : des moyens de détermination d'une fonction d'interpolation entre le modèle (Am) de l'enveloppe spectrale de chaque trame et les modèles des enveloppes spectrales des trames de référence (Ai, AM) ; et des moyens d'encodage de l'unité acoustique à partir desdites modélisations détaillées des trames de référence et desdites fonctions d'interpolation.
9. Procédé de compression d'un dictionnaire acoustique comprenant le codage d'au moins une unité acoustique dudit dictionnaire acoustique, à l'aide d'un procédé selon l'une quelconque des revendications 1 à 6.
10. Procédé de synthèse vocale mis en œuvre à partir d'unités acoustiques codées à l'aide d'un procédé selon l'une quelconque des revendications 1 à 6, comprenant une interpolation de paramètres d'enveloppe spectrale à l'aide de la fonction d'interpolation de la trame courante ; et une génération sonore à partir des enveloppes spectrales interpolées et des paramètres des modélisations détaillées des trames de référence.
11. Procédé de synthèse vocale mis en œuvre à partir d'unités acoustiques codées à l'aide d'un procédé selon l'une quelconque des revendications 1 à 6, comprenant :
- une mise à l'échelle (50) du signal de source glottique pour lesdites trames de référence en fonction de la trame courante ;
- une interpolation (52) du signal glottique à l'aide du signal précédemment mis à l'échelle et de la fonction d'interpolation correspondante ;
- une interpolation (54) de paramètres d'un filtre modélisant un conduit vocal, à l'aide de la fonction d'interpolation correspondante; et
- une génération sonore (56) par addition et recouvrement de trames.
12. Procédé de conversion de voix comprenant - l'apprentissage (60) d'une fonction de conversion entre un locuteur source et un locuteur cible sur des trames de référence d'unités acoustiques ;
- l'application (62) de ladite fonction de conversion sur des trames de référence d'un signal source à convertir ;
- le codage (64) de l'ensemble du signal source à convertir à l'aide d'un procédé selon l'une quelconque des revendications 1 à 6 ; et
- la synthèse (66) d'un signal converti à l'aide desdites trames de référence converties et des fonctions d'interpolation du signal source à convertir.
13. Procédé de conversion de voix comprenant :
- l'apprentissage (60) d'une fonction de conversion entre un locuteur source et un locuteur cible sur des trames de référence d'unités acoustiques ;
- l'application (62) de ladite fonction de conversion sur des trames de référence d'un signal source à convertir ;
- le codage (64) de l'ensemble du signal source à convertir, ledit codage comprenant une détermination d'une fonction d'interpolation du modèle de l'enveloppe spectrale de chaque trame (Am) du signal à partir des modèles (Ai, AM) d'enveloppe spectrale des trames de référence, la détermination d'une fonction d'interpolation pour une trame, comprenant une détermination de coefficients d'interpolation (βi,m, βιvι,m) du modèle d'enveloppe spectrale correspondant à la trame courante, à partir des modèles d'enveloppe spectrale des trames de référence ; et
- la synthèse (66) d'un signal converti à l'aide desdites trames de référence converties et des fonctions d'interpolation du signal source à convertir.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0611533 | 2006-12-29 | ||
FR0611533A FR2910996A1 (fr) | 2006-12-29 | 2006-12-29 | Codage d'unites acoustiques par interpolation |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2008081141A2 true WO2008081141A2 (fr) | 2008-07-10 |
WO2008081141A3 WO2008081141A3 (fr) | 2008-10-16 |
Family
ID=38229010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/FR2007/052515 WO2008081141A2 (fr) | 2006-12-29 | 2007-12-14 | Codage d'unites acoustiques par interpolation |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR2910996A1 (fr) |
WO (1) | WO2008081141A2 (fr) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2796191A1 (fr) * | 1999-07-05 | 2001-01-12 | Matra Nortel Communications | Procedes et dispositifs de codage et de decodage audio |
US20030212555A1 (en) * | 2002-05-09 | 2003-11-13 | Oregon Health & Science | System and method for compressing concatenative acoustic inventories for speech synthesis |
-
2006
- 2006-12-29 FR FR0611533A patent/FR2910996A1/fr active Pending
-
2007
- 2007-12-14 WO PCT/FR2007/052515 patent/WO2008081141A2/fr active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2796191A1 (fr) * | 1999-07-05 | 2001-01-12 | Matra Nortel Communications | Procedes et dispositifs de codage et de decodage audio |
US20030212555A1 (en) * | 2002-05-09 | 2003-11-13 | Oregon Health & Science | System and method for compressing concatenative acoustic inventories for speech synthesis |
Non-Patent Citations (3)
Title |
---|
DAMIEN VINCENT: "Analyse et contrôle du signal glottique en synthèse de la parole." 15 janvier 2007 (2007-01-15), ENST BRETAGNE ET UNIVERSTITÉ DE RENNES 1 , RENNES, FRANCE , XP002442389 * chapitre 5.6 Modification par interpolation * * |
EN-NAJJARY T ET AL: "A VOICE CONVERSION METHOD BASED ON JOINT PITCH AND SPECTRAL ENVELOPE TRANSFORMATION" PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, XX, XX, 4 octobre 2004 (2004-10-04), pages 1225-1228, XP001206442 * |
VINCENT D ET AL: "Glottal Closure Instant Estimation using an Appropriateness Measure of the Source and Continuity Constraints" ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2006. ICASSP 2006 PROCEEDINGS. 2006 IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006, PISCATAWAY, NJ, USA,IEEE, 14 mai 2006 (2006-05-14), pages I-381, XP010930196 ISBN: 1-4244-0469-X * |
Also Published As
Publication number | Publication date |
---|---|
WO2008081141A3 (fr) | 2008-10-16 |
FR2910996A1 (fr) | 2008-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Den Oord et al. | Wavenet: A generative model for raw audio | |
EP2881947B1 (fr) | Système d'inférence d'enveloppe spectrale et de temps de propagation de groupe et système de synthèse de signaux vocaux pour analyse / synthèse vocale | |
EP1944755B1 (fr) | Modification d'un signal de parole | |
EP1730728A1 (fr) | Procede et systeme de conversion rapides d'un signal vocal | |
EP1730729A1 (fr) | Procede et systeme ameliores de conversion d'un signal vocal | |
FR2522179A1 (fr) | Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle | |
FR2553555A1 (fr) | Procede de codage de la parole et dispositif pour sa mise en oeuvre | |
Rao et al. | Speech processing in mobile environments | |
EP1606792B1 (fr) | Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse | |
Al-Radhi et al. | Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis. | |
EP1526508B1 (fr) | Procédé de sélection d'unités de synthèse | |
Türk | New methods for voice conversion | |
RU2427044C1 (ru) | Текстозависимый способ конверсии голоса | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
EP0195441B1 (fr) | Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation | |
KR20180078252A (ko) | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 | |
EP1846918B1 (fr) | Procede d'estimation d'une fonction de conversion de voix | |
Talesara et al. | A novel Gaussian filter-based automatic labeling of speech data for TTS system in Gujarati language | |
EP3138095A1 (fr) | Correction de perte de trame perfectionnée avec information de voisement | |
US20170263239A1 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Ramasubramanian et al. | Ultra low bit-rate speech coding | |
WO2008081141A2 (fr) | Codage d'unites acoustiques par interpolation | |
Al-Radhi et al. | A continuous vocoder using sinusoidal model for statistical parametric speech synthesis | |
Tabet et al. | Speech analysis and synthesis with a refined adaptive sinusoidal representation | |
Do et al. | Objective evaluation of HMM-based speech synthesis system using Kullback-Leibler divergence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 07871936 Country of ref document: EP Kind code of ref document: A2 |