WO2014005695A1 - Procede et systeme de synthese vocale - Google Patents
Procede et systeme de synthese vocale Download PDFInfo
- Publication number
- WO2014005695A1 WO2014005695A1 PCT/EP2013/001928 EP2013001928W WO2014005695A1 WO 2014005695 A1 WO2014005695 A1 WO 2014005695A1 EP 2013001928 W EP2013001928 W EP 2013001928W WO 2014005695 A1 WO2014005695 A1 WO 2014005695A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- acoustic
- text
- calculated
- database
- expressions
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 title claims description 16
- 238000003786 synthesis reaction Methods 0.000 title claims description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000003491 array Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
Definitions
- the present invention relates to methods and systems for speech synthesis. These methods and systems of speech synthesis may be, in particular but not exclusively, used in a navigation aid system embedded in a vehicle.
- a method for generating a set of sound signals representative of a text to be converted into sound signals intelligible to a user comprising the following steps:
- each acoustic frame recorded in a sequenced array comprising a series of acoustic unit references of the database modulated by at least one amplitude form factor and a temporal form
- e1 browsing a text to be converted identifying at least a first portion of the text corresponding to at least one pre-calculated expression and breaking down into phonemes at least a second portion of the text that does not include a pre-calculated expression
- Steps b), c) and d) can be performed in landed mode during preparatory work; so that all of the acoustic frames of the pre-calculated expressions are stored and processed in landed or off-line mode on a conventional computer;
- the memory space occupied by the sequenced boards can be at least five times smaller than the memory space occupied by the acoustic frames of the pre-calculated expressions; so that the memory space required in the on-board equipment is much smaller than the memory space needed to store the acoustic frames of the pre-calculated expressions; ⁇
- the memory space occupied by the sequenced tables may be less than 10
- the acoustic units can be diphones; so that the quality of the concatenations is improved; Said method can be implemented in an on-board navigation aid unit.
- the invention also relates to a device for generating a set of sound signals representative of a text to be converted into sound signals intelligible to a user, the device comprising:
- An electronic control unit comprising a voice synthesis engine
- a database comprising a set of acoustic units corresponding to all the phonemes or diphonems used for a given language
- At least one sequenced array which comprises, for a pre-calculated expression, a series of acoustic unit references of the database modulated by at least one amplitude form factor (a (i) A) and by a time form factor (a (i) T),
- said electronic unit being adapted for:
- FIG. 1 schematically represents a device and a method implemented according to the invention
- FIG. 2 diagrammatically represents a text to be converted
- FIGS. 3A, 3B and 3C represent recorded acoustic signals and their processing.
- a database 1 comprising a set of acoustic units corresponding to all the phonemes used for a given language, each acoustic unit 40 corresponding to the synthetic acoustic realization of a phoneme or a diphoneme,
- a text 3 to be converted into sound signals intelligible to a user said text 3 possibly containing one or more expressions belonging to the aforementioned list of pre-calculated expressions 10, these pre-calculated expressions will be treated as exceptions.
- the text 3 input of the speech synthesis system may comprise mainly words, but it may also contain numbers, acronyms (which will be treated as exceptions) and any written representation.
- the list of pre-calculated expressions may include single words or sentences.
- the most commonly used words, phrases or sentence pieces will be chosen in the texts to be converted into the speech synthesis system under consideration.
- each expression belonging to the list of pre-calculated expressions is pronounced by a reference speaker and the signals representing the acoustic frame corresponding to the pronouncement of said pre-calculated expression are recorded.
- the set of acoustic frames 7, corresponding to the natural voice, is contained in an acoustic database 70.
- a dismounted analysis unit 2 is provided for processing each acoustic frame 7 of the acoustic database 70. The processing will be explained in detail later.
- the landed analysis unit 2 For each acoustic frame 7, the landed analysis unit 2 generates a sequenced array 5 comprising a series of acoustic unit references 40 of the database 1, modulated at least by an amplitude form factor a (i ) A and by a time form factor a (i) T.
- each row of the table Sequenced 5 comprises firstly a reference or an identifier U (i) of an acoustic unit 40 and secondly one or more form factors (a (i) A, a (i) T ...) to apply to this acoustic unit 40.
- These form factors (a (i) A, a (i) T ...) include in particular an amplitude form factor a (i) A and by a time form factor a (i) T.
- An electronic control unit 90 for example embedded in a vehicle, comprises an analysis block 4 adapted to analyze the content of a text 3.
- the analysis performed by the analysis block 4 of the electronic control unit 90 makes it possible to locate the expressions belonging to the list of pre-calculated expressions 10, which constitutes one or more parts called first portions of text 1 , which will be treated exceptionally for the speech synthesis step.
- the text 3 comprises three precalculated expressions 11a, 11b, 11c and comprises four other text portions 12a, 12b, 12c, 12d.
- the analysis block 4 of the electronic control unit 90 is configured to identify in the initial text 3, by removing the first portions of text 11, the other portions of text 12a, 12b, 12c, 12d which have no pre-calculated expression. These other portions of text 12a, 12b, 12c, 12d form one or more second portions of the text 12 devoid of pre-calculated expression. The second portions of the text 12 are therefore complementary to the first portions of text 1 1.
- the analysis block 4 is further adapted to select the appropriate sequence table 5 from the set 50 of the sequenced tables corresponding to the above-mentioned acoustic frames 7.
- a conversion block 6 is configured to convert to phonemes the second portions of the text 12. In addition, the conversion block 6 selects in the database 1 the best acoustic unit 40 for each phoneme considered.
- a synthesis block 8 acquires as input the output of the conversion block 6 concerning the second text portions 12 and the output of the analysis block 4 concerning the first portions of text 11.
- the synthesis block 8 processes these inputs to prepare a sequence of acoustic units 19 corresponding to the first and second portions of text 1 1, 12, in an orderly manner according to the text 3 to be converted.
- the synthesis block 8 can then generate as output a set of sound signals 9 representative of the text 3 to be converted.
- the dismounted analysis unit 2 carries out a processing on each acoustic frame 7 of the acoustic database 70.
- This processing is illustrated in FIGS. 3A, 3B, 3C and comprises the operations described hereinafter.
- a cross correlation calculation is performed by taking on one side the beginning of the signal representative of the acoustic frame 7 and on the other side each acoustic unit 40 of the database 1.
- An acoustic unit 41 having the greatest similarities with the beginning of the acoustic frame 7 is thus chosen.
- the similarity includes the possible application of shape factors, in particular an amplitude form factor a1A and a time form factor a1T.
- the sequenced array 5 is initialized with the identification U (1) of the acoustic unit 41 accompanied by its time amplitude form factor ⁇ 1 ⁇ , a1T. Then the acoustic signal 7 is removed from the beginning of the signal 31 corresponding to the first acoustic unit 41 chosen which amounts to shift the pointer start frame.
- the first part 31 of the frame leads to selecting the acoustic unit 41
- the second part 32 of the frame leads to selecting the acoustic unit 42
- the third part 33 of the weft leads to select the acoustic unit 43
- the fourth part 34 of the frame leads to select the acoustic unit 44
- the fifth part 35 of the frame leads to select the acoustic unit 45
- the sixth part 36 of the frame leads to select the acoustic unit 46.
- Each of the acoustic units is affected by amplitude and temporal shape factors a (i) A, a (i) T which are specific to it. It is noted that the use of the amplitude form factor a (i) A may lead to increasing or decreasing the signal intensity and the use of the time-form factor a (i) T may lead to dilation or shrinkage. temporally the signal, in order to reduce the difference between the frame portion of the original signal and the selected selected acoustic unit signal of said shape factors a (i) A, a (i) T.
- pre-calculated expression is mapped to a succession of acoustic units assigned said form factors, stored as the sequenced array 5.
- an exemplary method according to the invention comprises the following steps:
- the memory space occupied by the set 50 of the sequenced arrays 5 is at least five times smaller than the memory space occupied by the set 70 of the acoustic frames 7 of the pre-calculated expressions.
- the memory space occupied by the blockboards 5 is less than 10 Megabytes while the memory size occupied by the acoustic frames of the pre-calculated expressions can be greater than 100 Megabytes.
- the set 50 of the sequenced tables 5 is stored in the on-board equipment, for example in a flash memory of a reasonable and inexpensive size, whereas the set 70 of the acoustic frames 7 of the precalculated expressions does not have need to be stored in the on-board equipment.
- the set 70 of the acoustic frames 7 of the pre-calculated expressions is stored and processed in landed mode on a conventional computer.
- acoustic units 40 may represent phonemes or diphones, a diphone being an association of two half-phonemes.
- the speech synthesis system can process any texts of a given language because the database 1 contains all the phonemes of said given language. For the most frequently used expressions, which are part of the list of pre-calculated expressions 10, one obtains a quality of sound signals very satisfactory, close to the natural voice.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Procédé pour générer des signaux sonores (9) représentatifs d'un texte (3) à convertir, comprenant les étapes : • fournir, dans une base de données (1) d'unités acoustiques, • identifier une liste d'expressions pré-calculées (10), et enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant à son prononcé, • décomposer, grâce à des calculs de corrélation, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques modulées par des facteurs de forme d'amplitude (α(i)A) et temporel (α(i)T), • identifier dans le texte les expressions pré-calculées et décomposer le reste (12) en phonèmes, • insérer à la place de chaque expression pré-calculée le tableau séquencé correspondant, • préparer un enchaînement d'unités acoustiques (19) selon le texte à convertir. Système pour générer des signaux sonores représentatifs d'un texte à convertir.
Description
Procédé et système de synthèse vocale
La présente invention est relative aux procédés et systèmes de synthèse vocale. Ces procédés et systèmes de synthèse vocale peuvent être, en particulier mais non exclusivement, utilisés dans un système d'aide à la navigation embarqué dans un véhicule.
II est connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection d'unités acoustiques à partir d'une base de données d'unités acoustiques synthétiques. Les signaux sonores produits par ces systèmes présentent une sonorité plutôt métallique et sont assez éloignés de la voix naturelle d'un locuteur, ce qui n'est pas désirable.
II est aussi connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection de séquences acoustiques enregistrées à partir d'une base de données de trames acoustiques enregistrées. Mais ces systèmes présentent deux inconvénients : le vocabulaire est limité aux mots ayants fait l'objet d'un enregistrement et la taille mémoire utilisée par ces enregistrements est très importante.
Selon l'art antérieur, il est aussi connu de combiner les deux approches d'une certaine façon, comme par exemple du document US 201 1 / 218 809. Toutefois, il est apparu souhaitable d'améliorer la combinaison des deux approches, pour réduire la taille mémoire nécessaire à la représentation des enregistrements tout en maintenant la qualité et le naturel des signaux sonores émis.
A cet effet, il est proposé un procédé pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :
a) fournir, dans une base de données, un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
b) identifier une liste d'expressions pré-calculées, chaque expression précalculée comprenant un ou plusieurs mots textuels entiers,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique correspondant au prononcé de ladite expression pré-calculée,
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude et par un facteur de forme temporel,
e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner, pour chaque phonème de la deuxième portion du texte, une unité acoustique de la base de données, f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir, g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.
Grâce à ces dispositions, on peut convertir un texte, qui peut être quelconque, en signaux sonores en utilisant au mieux des enregistrements de bonne qualité des expressions pré-calculées les plus utilisées, et ceci en utilisant un espace mémoire de petite taille comme ressource nécessaire au moment de la conversion du texte. Les signaux sonores restitués sont ainsi d'une qualité proche de la voix naturelle, notamment en ce qui concerne les premières portions de texte correspondant aux expressions précalculées.
Dans divers modes de réalisation du procédé selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes :
• les étapes b), c) et d) peuvent être réalisées en mode débarqué au cours de travaux préparatoires ; de sorte que l'ensemble des trames acoustiques des expressions pré-calculées est stocké et traité en mode débarqué ou Off-line' sur un ordinateur classique ;
· l'espace mémoire occupé par les tableaux séquencés peut être au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées ; de sorte que l'espace mémoire nécessaire dans l'équipement embarqué est beaucoup plus petit que l'espace mémoire nécessaire pour stocker les trames acoustiques des expressions pré-calculées ; · l'espace mémoire occupé par les tableaux séquencés peut être inférieur à 10
Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets ; moyennant quoi on peut limiter l'utilisation des mémoires flash dans l'équipement embarqué et cela permet d'utiliser des mémoires flash de taille limitée ;
· les unités acoustiques peuvent être des diphones ; de sorte que la qualité des enchaînements est améliorée ;
• ledit procédé peut être mis en œuvre dans une unité d'aide à la navigation embarquée dans un véhicule.
L'invention vise également un dispositif pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :
• une unité de commande électronique comprenant un moteur de synthèse vocale,
• une base de données, comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
· une liste d'expressions pré-calculées, chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,
• au moins un tableau séquencé, qui comprend, pour une expression pré-calculée, une suite de références d'unité acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
ladite unité électronique étant adaptée pour :
e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner pour chaque phonème de la deuxième portion du texte une unité acoustique de la base de données,
f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir,
g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.
Dans divers modes de réalisation du système selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions déjà décrites concernant le procédé ci-dessus.
D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la description suivante d'un de ses modes de réalisation, donné à titre d'exemple non limitatif. L'invention sera également mieux comprise en regard des dessins joints sur lesquels :
- la figure 1 représente schématiquement un dispositif et un procédé mis en
oeuvre selon l'invention,
- la figure 2 représente schématiquement un texte à convertir, et
- les figures 3A, 3B et 3C représentent des signaux acoustiques enregistrés et leur traitement.
Sur les différentes figures, les mêmes références désignent des éléments identiques ou similaires.
Se référant à la figure 1 , le procédé utilise :
• une base de données 1 , comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes utilisés pour une langue donnée, chaque unité acoustique 40 correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème,
• une liste d'expressions pré-calculées 10 qui contient par exemple les expressions les plus souvent utilisées dans le système de synthèse vocale considéré,
· un texte 3 à convertir en signaux sonores intelligibles pour un utilisateur, ledit texte 3 pouvant contenir une ou plusieurs expressions appartenant à la susdite liste d'expressions pré-calculées 10, ces expressions pré-calculées seront traitées comme des exceptions.
Le texte 3 en entrée du système de synthèse vocale peut comprendre principalement des mots, mais il peut contenir aussi des chiffres, des acronymes (qui seront traitées comme des exceptions) et toute représentation écrite.
La liste d'expressions pré-calculées 10 peut comprendre des mots seuls ou des phrases. De préférence, on choisira les mots, phrases ou morceaux de phrase les plus couramment utilisés dans les textes à convertir dans le système de synthèse vocale considéré.
Selon le procédé présenté, chaque expression appartenant à la liste d'expressions pré-calculées 10 est prononcée par un locuteur de référence et on enregistre les signaux représentant la trame acoustique 7 correspondant au prononcé de ladite expression pré-calculée. L'ensemble des trames acoustiques 7, correspondant à la voix naturelle, est contenu dans une base de données acoustique 70.
Une unité d'analyse débarquée 2 est prévue pour traiter chaque trame acoustique 7 de la base de données acoustique 70. Le traitement sera explicité en détails plus loin.
Pour chaque trame acoustique 7, l'unité d'analyse débarquée 2 génère un tableau séquencé 5 comprenant une suite de références d'unités acoustiques 40 de la base de données 1 , modulées au moins par un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T. Plus précisément, chaque ligne du tableau
séquencé 5 comprend d'une part une référence ou un identifiant U(i) d'une unité acoustique 40 et d'autre part un ou plusieurs facteurs de formes (a(i)A, a(i)T... ) à appliquer à cette unité acoustique 40. Ces facteurs de forme (a(i)A, a(i)T... ) comprennent en particulier un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T.
Une unité de commande électronique 90, par exemple embarquée dans un véhicule, comprend un bloc d'analyse 4 adapté pour analyser le contenu d'un texte 3.
L'analyse effectuée par le bloc d'analyse 4 de l'unité de commande électronique 90 permet de repérer les expressions appartenant à la liste d'expressions pré-calculées 10, ce qui constitue une ou plusieurs parties appelées premières portions de texte 1 1 , qui seront traités par exception pour l'étape de synthèse vocale.
Comme illustré à la figure 2, le texte 3 comprend trois expressions précalculées 1 1 a, 1 1 b, 1 1 c et comprend quatre autres portions de texte 12a, 12b, 12c, 12d.
En l'occurrence, le bloc d'analyse 4 de l'unité de commande électronique 90 est configuré pour identifier dans le texte initial 3, en ôtant les premières portions de texte 11 , les autres portions de texte 12a, 12b, 12c, 12d qui sont dépourvues d'expression pré-calculée. Ces autres portions de texte 12a, 12b, 12c, 12d forment une ou plusieurs deuxièmes portions du texte 12 dépourvues d'expression pré-calculée. Les deuxièmes portions du texte 12 sont donc complémentaires des premières portions de texte 1 1.
Le bloc d'analyse 4 est de plus adapté pour sélectionner le tableau séquencé 5 adéquat parmi l'ensemble 50 des tableaux séquencés 5 correspondants aux trames acoustiques 7 susdites.
Un bloc de conversion 6 est configuré pour convertir en phonèmes les deuxièmes portions du texte 12. De plus le bloc de conversion 6 sélectionne dans la base de données 1 la meilleure unité acoustique 40 pour chaque phonème considéré.
Un bloc de synthèse 8 acquiert en entrée la sortie du bloc de conversion 6 concernant les deuxièmes portions de texte 12 et la sortie du bloc d'analyse 4 concernant premières portions de texte 1 1.
Le bloc de synthèse 8 traite ces entrées pour préparer un enchaînement d'unités acoustiques 19 correspondant aux première et deuxième portions de texte 1 1 , 12, de manière ordonnée selon le texte 3 à convertir.
Le bloc de synthèse 8 peut ensuite ainsi générer en sortie un ensemble de signaux sonores 9 représentatifs du texte 3 à convertir.
Comme indiqué plus haut, l'unité d'analyse débarquée 2 effectue un traitement sur chaque trame acoustique 7 de la base de données acoustique 70. Ce traitement est illustré aux figures 3A, 3B, 3C et comprend les opérations décrites ci-après.
Un calcul de corrélation croisée est effectué en prenant d'un coté le début du signal 30 représentatif de la trame acoustique 7 et de l'autre coté chaque unité acoustique 40 de la base de données 1. Une unité acoustique 41 ayant les plus grandes similitudes avec le début de la trame acoustique 7 est ainsi choisie. La similitude inclut l'application éventuelle de facteurs de forme, en particulier un facteur de forme d'amplitude a1A et un facteur de forme temporel a1T. Grâce à ce premier résultat, on initialise le tableau séquencé 5 avec l'identification U(1 ) de l'unité acoustique 41 accompagnée de ses facteur de forme d'amplitude temporel α1Α, a1T. Ensuite on retire de la trame acoustique 7 le début du signal 31 correspondant à la première unité acoustique 41 choisie ce qui revient à décaler d'autant le pointeur de début de trame.
Ensuite on réitère le calcul de corrélation croisé pour choisir une deuxième unité acoustique U(2), affectée elle aussi de ses facteurs de forme d'amplitude temporel α2Α, a2T.
On procède ensuite par itération jusqu'à arriver à la fin du signal 30 représentatif de la trame acoustique 7 enregistrée.
Comme illustré aux figures 3A, 3B, 3C, la première partie 31 de la trame conduit à sélectionner l'unité acoustique 41 , la deuxième partie 32 de la trame conduit à sélectionner l'unité acoustique 42, la troisième partie 33 de la trame conduit à sélectionner l'unité acoustique 43, la quatrième partie 34 de la trame conduit à sélectionner l'unité acoustique 44, la cinquième partie 35 de la trame conduit à sélectionner l'unité acoustique 45, et la sixième partie 36 de la trame conduit à sélectionner l'unité acoustique 46.
Chacune des unités acoustiques est affectée de facteurs de forme d'amplitude et temporel a(i)A, a(i)T qui lui sont propres. On note que l'utilisation du facteur de forme d'amplitude a(i)A peut conduire à augmenter ou à diminuer l'intensité du signal et l'utilisation du facteur de forme temporel a(i)T peut conduire à dilater ou rétrécir temporellement le signal, afin de réduire l'écart entre la partie de trame du signal d'origine 30 et le signal de l'unité acoustique sélectionnée affectée desdits facteurs de forme a(i)A, a(i)T.
Ainsi l'expression pré-calculée est mise en correspondance avec une succession d'unités acoustiques affectées desdits facteurs de forme, stockée sous forme du tableau séquencé 5.
Grâce à quoi, les signaux sonores qui seront générés plus tard pour l'expression pré-calculée, à partir de la succession des unités acoustiques affectées de leurs facteurs de formes a(i)A, a(i)T, donneront une voix générée présentant un écart faible avec la voix naturelle enregistrée 7 d'origine.
Ainsi, un exemple de procédé selon l'invention comprend les étapes suivantes :
a) fournir une base de données 1 ,
b) identifier la liste d'expressions pré-calculées 10,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique 7 correspondant à son prononcé,
d) décomposer, grâce aux calculs de corrélation croisés, chaque trame acoustique 7 enregistrée en un tableau séquencé 5,
e1 ) parcourir un texte à convertir, identifier les premières portions du texte 1 1 correspondant aux expressions pré-calculées et décomposer en phonèmes les deuxièmes portions du texte 12,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé 5, et sélectionner, pour chaque phonème de la deuxième portion du texte 12, une unité acoustique de la base de données 1 ,
f) préparer un enchaînement ordonné d'unités acoustiques 19 correspondant au texte à convertir,
g) générer les signaux sonores 9 correspondants audit enchaînement d'unités acoustiques 19.
Avantageusement, l'espace mémoire occupé par l'ensemble 50 des tableaux séquencés 5 est au moins cinq fois inférieur à l'espace mémoire occupé par l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées. Dans un cas particulier, l'espace mémoire occupé par les tableaux séquencés 5 est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées peut être supérieure à 100 Mégaoctets.
Il est entendu que l'ensemble 50 des tableaux séquencés 5 est stocké dans l'équipement embarqué, par exemple dans une mémoire flash de taille raisonnable et peu coûteuse, alors que l'ensemble 70 des trames acoustiques 7 des expressions précalculées n'a pas besoin d'être stocké dans l'équipement embarqué. A contrario l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées est stocké et traité en mode débarqué sur un ordinateur classique.
Il est à noter que les unités acoustiques 40 peuvent représenter des phonèmes ou des diphones, un diphone étant une association de deux demi-phonèmes.
Avantageusement, le système de synthèse vocale peut traiter des textes 3 quelconques d'une langue donnée car la base de données 1 contient tous les phonèmes de ladite langue donnée. Pour les expressions les plus souvent utilisées, qui font partie de
la liste d'expressions pré-calculées 10, on obtient une qualité de signaux sonores très satisfaisante, proche de la voix naturelle.
Claims
1. Procédé pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :
a) fournir, dans une base de données (1 ), un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données (1 ) comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
b) identifier une liste d'expressions pré-calculées (10), chaque expression pré- calculée comprenant un ou plusieurs mots textuels entiers,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant au prononcé de ladite expression pré-calculée,
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (11 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner, pour chaque phonème de la deuxième portion du texte (12), une unité acoustique de la base de données (1 ),
f) préparer un enchaînement d'unités acoustiques (19) correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,
g) générer les signaux sonores (9) correspondants audit enchaînement d'unités acoustiques.
2. Procédé selon la revendication 1 , dans lequel les étapes b), c) et d) sont réalisées en mode débarqué au cours de travaux préparatoires.
3. Procédé selon l'une des revendications 1 à 2, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées.
4. Procédé selon l'une des revendications 1 à 3, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets.
5. Procédé selon l'une des revendications 1 à 4, dans lequel les unités acoustiques sont des diphones.
6. Procédé selon l'une des revendications 1 à 5, dans lequel ledit procédé est mis en oeuvre dans une unité d'aide à la navigation embarquée dans un véhicule.
7. Dispositif pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :
· une unité de commande électronique (90) comprenant un moteur de synthèse vocale,
• une base de données (1 ), comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
· une liste d'expressions pré-calculées (10), chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,
• au moins un tableau séquencé (5), qui comprend, pour une expression précalculée, une suite de références d'unité acoustiques de la base de données (1 ) modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
ladite unité électronique étant adaptée pour :
e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (1 1 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner pour chaque phonème de la deuxième portion du texte (12) une unité acoustique de la base de données (1 ),
f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,
g) générer les signaux sonores (9) correspondants audit enchaînement d'unités acoustiques.
8. Dispositif selon la revendication 7, comportant en outre une unité d'analyse débarquée (2) adaptée pour :
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée correspondant à une expression pré-calculée de la liste d'expressions pré-calculées (10), en un tableau séquencé (5) comprenant une suite d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T).
9. Dispositif selon la revendication 8, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées, de préférence dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions précalculées est supérieure à 100 Mégaoctets.
10. Dispositif d'affichage selon l'une des revendications 7 à 9, dans lequel l'unité de commande électronique (90) est une unité d'aide à la navigation embarquée dans un véhicule.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/411,952 US20150149181A1 (en) | 2012-07-06 | 2013-07-02 | Method and system for voice synthesis |
CN201380035789.8A CN104395956A (zh) | 2012-07-06 | 2013-07-02 | 声音合成的方法和系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1256507A FR2993088B1 (fr) | 2012-07-06 | 2012-07-06 | Procede et systeme de synthese vocale |
FR1256507 | 2012-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014005695A1 true WO2014005695A1 (fr) | 2014-01-09 |
Family
ID=47191868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/EP2013/001928 WO2014005695A1 (fr) | 2012-07-06 | 2013-07-02 | Procede et systeme de synthese vocale |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150149181A1 (fr) |
CN (1) | CN104395956A (fr) |
FR (1) | FR2993088B1 (fr) |
WO (1) | WO2014005695A1 (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3581265A1 (fr) | 2018-06-12 | 2019-12-18 | thyssenkrupp Fertilizer Technology GmbH | Buse de pulvérisation destinée à la fabrication d'un engrais d'urée soufrée |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354334B (zh) * | 2020-03-17 | 2023-09-15 | 阿波罗智联(北京)科技有限公司 | 语音输出方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000030069A2 (fr) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Synthese de la parole par concatenation de signaux vocaux |
US20020103648A1 (en) * | 2000-10-19 | 2002-08-01 | Case Eliot M. | System and method for converting text-to-voice |
WO2006104988A1 (fr) * | 2005-03-28 | 2006-10-05 | Lessac Technologies, Inc. | Synthetiseur de parole hybride, procede et utilisation |
US20070033049A1 (en) * | 2005-06-27 | 2007-02-08 | International Business Machines Corporation | Method and system for generating synthesized speech based on human recording |
US20070192105A1 (en) * | 2006-02-16 | 2007-08-16 | Matthias Neeracher | Multi-unit approach to text-to-speech synthesis |
US20110218809A1 (en) | 2010-03-02 | 2011-09-08 | Denso Corporation | Voice synthesis device, navigation device having the same, and method for synthesizing voice message |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5758323A (en) * | 1996-01-09 | 1998-05-26 | U S West Marketing Resources Group, Inc. | System and Method for producing voice files for an automated concatenated voice system |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
CA2296330C (fr) * | 1997-07-31 | 2009-07-21 | British Telecommunications Public Limited Company | Production de messages vocaux |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
US6810379B1 (en) * | 2000-04-24 | 2004-10-26 | Sensory, Inc. | Client/server architecture for text-to-speech synthesis |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
AU2001290882A1 (en) * | 2000-09-15 | 2002-03-26 | Lernout And Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
JP4639527B2 (ja) * | 2001-05-24 | 2011-02-23 | 日本電気株式会社 | 音声合成装置および音声合成方法 |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
GB2391143A (en) * | 2002-04-17 | 2004-01-28 | Rhetorical Systems Ltd | Method and apparatus for scultping synthesized speech |
DE602005026778D1 (de) * | 2004-01-16 | 2011-04-21 | Scansoft Inc | Corpus-gestützte sprachsynthese auf der basis von segmentrekombination |
JP2006018133A (ja) * | 2004-07-05 | 2006-01-19 | Hitachi Ltd | 分散型音声合成システム、端末装置及びコンピュータ・プログラム |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
US20080120093A1 (en) * | 2006-11-16 | 2008-05-22 | Seiko Epson Corporation | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device |
US7983919B2 (en) * | 2007-08-09 | 2011-07-19 | At&T Intellectual Property Ii, L.P. | System and method for performing speech synthesis with a cache of phoneme sequences |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
US8423366B1 (en) * | 2012-07-18 | 2013-04-16 | Google Inc. | Automatically training speech synthesizers |
-
2012
- 2012-07-06 FR FR1256507A patent/FR2993088B1/fr active Active
-
2013
- 2013-07-02 US US14/411,952 patent/US20150149181A1/en not_active Abandoned
- 2013-07-02 CN CN201380035789.8A patent/CN104395956A/zh active Pending
- 2013-07-02 WO PCT/EP2013/001928 patent/WO2014005695A1/fr active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000030069A2 (fr) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Synthese de la parole par concatenation de signaux vocaux |
US20020103648A1 (en) * | 2000-10-19 | 2002-08-01 | Case Eliot M. | System and method for converting text-to-voice |
WO2006104988A1 (fr) * | 2005-03-28 | 2006-10-05 | Lessac Technologies, Inc. | Synthetiseur de parole hybride, procede et utilisation |
US20070033049A1 (en) * | 2005-06-27 | 2007-02-08 | International Business Machines Corporation | Method and system for generating synthesized speech based on human recording |
US20070192105A1 (en) * | 2006-02-16 | 2007-08-16 | Matthias Neeracher | Multi-unit approach to text-to-speech synthesis |
US20110218809A1 (en) | 2010-03-02 | 2011-09-08 | Denso Corporation | Voice synthesis device, navigation device having the same, and method for synthesizing voice message |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3581265A1 (fr) | 2018-06-12 | 2019-12-18 | thyssenkrupp Fertilizer Technology GmbH | Buse de pulvérisation destinée à la fabrication d'un engrais d'urée soufrée |
WO2019238570A1 (fr) | 2018-06-12 | 2019-12-19 | Thyssenkrupp Fertilizer Technology Gmbh | Buse de pulvérisation pour la production d'un engrais à base d'urée-soufre |
Also Published As
Publication number | Publication date |
---|---|
CN104395956A (zh) | 2015-03-04 |
FR2993088B1 (fr) | 2014-07-18 |
FR2993088A1 (fr) | 2014-01-10 |
US20150149181A1 (en) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
US9495954B2 (en) | System and method of synthetic voice generation and modification | |
CN103035247B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US8644488B2 (en) | System and method for automatically generating adaptive interaction logs from customer interaction text | |
US9015046B2 (en) | Methods and apparatus for real-time interaction analysis in call centers | |
BE1011945A3 (fr) | Methode, dispositif et article de fabrication pour la generation basee sur un reseau neural de prononciations postlexicales a partir de prononciations post-lexicales. | |
US20080288256A1 (en) | Reducing recording time when constructing a concatenative tts voice using a reduced script and pre-recorded speech assets | |
US6988069B2 (en) | Reduced unit database generation based on cost information | |
EP1789953B1 (fr) | Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale | |
US9412359B2 (en) | System and method for cloud-based text-to-speech web services | |
CA2662564A1 (fr) | Reconnaissance de la parole dans des flux audio modifiables | |
EP1769489B1 (fr) | Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs | |
US20210104246A1 (en) | System and method for reconstructing metadata from audio outputs | |
WO2014005695A1 (fr) | Procede et systeme de synthese vocale | |
Vinodh et al. | Using polysyllabic units for text to speech synthesis in indian languages | |
US20140142925A1 (en) | Self-organizing unit recognition for speech and other data series | |
US9045098B2 (en) | Vocabulary dictionary recompile for in-vehicle audio system | |
WO2012173516A1 (fr) | Procédé et dispositif informatique pour traitement de texte automatisé | |
GB2451938A (en) | Methods and apparatus for searching of spoken audio data | |
EP1543502A1 (fr) | Procede de reconnaissance vocale avec correction automatique | |
FR2738382A1 (fr) | Systeme de dialogue vocal destine a la fourniture automatisee d'informations | |
EP1285435B1 (fr) | Analyse syntaxique et semantique de commandes vocales | |
EP1772851B1 (fr) | Système de karaoké pour l'affichage du texte correspondant à la partie vocale d'un flux audiovisuel sur un écran d'un système audiovisuel | |
KR102045761B1 (ko) | 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치 | |
Kawaguchi et al. | Construction and analysis of a multi-layered in-car spoken dialogue corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13732838 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14411952 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13732838 Country of ref document: EP Kind code of ref document: A1 |