WO2014005695A1 - Procede et systeme de synthese vocale - Google Patents

Procede et systeme de synthese vocale Download PDF

Info

Publication number
WO2014005695A1
WO2014005695A1 PCT/EP2013/001928 EP2013001928W WO2014005695A1 WO 2014005695 A1 WO2014005695 A1 WO 2014005695A1 EP 2013001928 W EP2013001928 W EP 2013001928W WO 2014005695 A1 WO2014005695 A1 WO 2014005695A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
text
calculated
database
expressions
Prior art date
Application number
PCT/EP2013/001928
Other languages
English (en)
Inventor
Vincent Delahaye
Original Assignee
Continental Automotive France
Continental Automotive Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive France, Continental Automotive Gmbh filed Critical Continental Automotive France
Priority to US14/411,952 priority Critical patent/US20150149181A1/en
Priority to CN201380035789.8A priority patent/CN104395956A/zh
Publication of WO2014005695A1 publication Critical patent/WO2014005695A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language

Definitions

  • the present invention relates to methods and systems for speech synthesis. These methods and systems of speech synthesis may be, in particular but not exclusively, used in a navigation aid system embedded in a vehicle.
  • a method for generating a set of sound signals representative of a text to be converted into sound signals intelligible to a user comprising the following steps:
  • each acoustic frame recorded in a sequenced array comprising a series of acoustic unit references of the database modulated by at least one amplitude form factor and a temporal form
  • e1 browsing a text to be converted identifying at least a first portion of the text corresponding to at least one pre-calculated expression and breaking down into phonemes at least a second portion of the text that does not include a pre-calculated expression
  • Steps b), c) and d) can be performed in landed mode during preparatory work; so that all of the acoustic frames of the pre-calculated expressions are stored and processed in landed or off-line mode on a conventional computer;
  • the memory space occupied by the sequenced boards can be at least five times smaller than the memory space occupied by the acoustic frames of the pre-calculated expressions; so that the memory space required in the on-board equipment is much smaller than the memory space needed to store the acoustic frames of the pre-calculated expressions; ⁇
  • the memory space occupied by the sequenced tables may be less than 10
  • the acoustic units can be diphones; so that the quality of the concatenations is improved; Said method can be implemented in an on-board navigation aid unit.
  • the invention also relates to a device for generating a set of sound signals representative of a text to be converted into sound signals intelligible to a user, the device comprising:
  • An electronic control unit comprising a voice synthesis engine
  • a database comprising a set of acoustic units corresponding to all the phonemes or diphonems used for a given language
  • At least one sequenced array which comprises, for a pre-calculated expression, a series of acoustic unit references of the database modulated by at least one amplitude form factor (a (i) A) and by a time form factor (a (i) T),
  • said electronic unit being adapted for:
  • FIG. 1 schematically represents a device and a method implemented according to the invention
  • FIG. 2 diagrammatically represents a text to be converted
  • FIGS. 3A, 3B and 3C represent recorded acoustic signals and their processing.
  • a database 1 comprising a set of acoustic units corresponding to all the phonemes used for a given language, each acoustic unit 40 corresponding to the synthetic acoustic realization of a phoneme or a diphoneme,
  • a text 3 to be converted into sound signals intelligible to a user said text 3 possibly containing one or more expressions belonging to the aforementioned list of pre-calculated expressions 10, these pre-calculated expressions will be treated as exceptions.
  • the text 3 input of the speech synthesis system may comprise mainly words, but it may also contain numbers, acronyms (which will be treated as exceptions) and any written representation.
  • the list of pre-calculated expressions may include single words or sentences.
  • the most commonly used words, phrases or sentence pieces will be chosen in the texts to be converted into the speech synthesis system under consideration.
  • each expression belonging to the list of pre-calculated expressions is pronounced by a reference speaker and the signals representing the acoustic frame corresponding to the pronouncement of said pre-calculated expression are recorded.
  • the set of acoustic frames 7, corresponding to the natural voice, is contained in an acoustic database 70.
  • a dismounted analysis unit 2 is provided for processing each acoustic frame 7 of the acoustic database 70. The processing will be explained in detail later.
  • the landed analysis unit 2 For each acoustic frame 7, the landed analysis unit 2 generates a sequenced array 5 comprising a series of acoustic unit references 40 of the database 1, modulated at least by an amplitude form factor a (i ) A and by a time form factor a (i) T.
  • each row of the table Sequenced 5 comprises firstly a reference or an identifier U (i) of an acoustic unit 40 and secondly one or more form factors (a (i) A, a (i) T ...) to apply to this acoustic unit 40.
  • These form factors (a (i) A, a (i) T ...) include in particular an amplitude form factor a (i) A and by a time form factor a (i) T.
  • An electronic control unit 90 for example embedded in a vehicle, comprises an analysis block 4 adapted to analyze the content of a text 3.
  • the analysis performed by the analysis block 4 of the electronic control unit 90 makes it possible to locate the expressions belonging to the list of pre-calculated expressions 10, which constitutes one or more parts called first portions of text 1 , which will be treated exceptionally for the speech synthesis step.
  • the text 3 comprises three precalculated expressions 11a, 11b, 11c and comprises four other text portions 12a, 12b, 12c, 12d.
  • the analysis block 4 of the electronic control unit 90 is configured to identify in the initial text 3, by removing the first portions of text 11, the other portions of text 12a, 12b, 12c, 12d which have no pre-calculated expression. These other portions of text 12a, 12b, 12c, 12d form one or more second portions of the text 12 devoid of pre-calculated expression. The second portions of the text 12 are therefore complementary to the first portions of text 1 1.
  • the analysis block 4 is further adapted to select the appropriate sequence table 5 from the set 50 of the sequenced tables corresponding to the above-mentioned acoustic frames 7.
  • a conversion block 6 is configured to convert to phonemes the second portions of the text 12. In addition, the conversion block 6 selects in the database 1 the best acoustic unit 40 for each phoneme considered.
  • a synthesis block 8 acquires as input the output of the conversion block 6 concerning the second text portions 12 and the output of the analysis block 4 concerning the first portions of text 11.
  • the synthesis block 8 processes these inputs to prepare a sequence of acoustic units 19 corresponding to the first and second portions of text 1 1, 12, in an orderly manner according to the text 3 to be converted.
  • the synthesis block 8 can then generate as output a set of sound signals 9 representative of the text 3 to be converted.
  • the dismounted analysis unit 2 carries out a processing on each acoustic frame 7 of the acoustic database 70.
  • This processing is illustrated in FIGS. 3A, 3B, 3C and comprises the operations described hereinafter.
  • a cross correlation calculation is performed by taking on one side the beginning of the signal representative of the acoustic frame 7 and on the other side each acoustic unit 40 of the database 1.
  • An acoustic unit 41 having the greatest similarities with the beginning of the acoustic frame 7 is thus chosen.
  • the similarity includes the possible application of shape factors, in particular an amplitude form factor a1A and a time form factor a1T.
  • the sequenced array 5 is initialized with the identification U (1) of the acoustic unit 41 accompanied by its time amplitude form factor ⁇ 1 ⁇ , a1T. Then the acoustic signal 7 is removed from the beginning of the signal 31 corresponding to the first acoustic unit 41 chosen which amounts to shift the pointer start frame.
  • the first part 31 of the frame leads to selecting the acoustic unit 41
  • the second part 32 of the frame leads to selecting the acoustic unit 42
  • the third part 33 of the weft leads to select the acoustic unit 43
  • the fourth part 34 of the frame leads to select the acoustic unit 44
  • the fifth part 35 of the frame leads to select the acoustic unit 45
  • the sixth part 36 of the frame leads to select the acoustic unit 46.
  • Each of the acoustic units is affected by amplitude and temporal shape factors a (i) A, a (i) T which are specific to it. It is noted that the use of the amplitude form factor a (i) A may lead to increasing or decreasing the signal intensity and the use of the time-form factor a (i) T may lead to dilation or shrinkage. temporally the signal, in order to reduce the difference between the frame portion of the original signal and the selected selected acoustic unit signal of said shape factors a (i) A, a (i) T.
  • pre-calculated expression is mapped to a succession of acoustic units assigned said form factors, stored as the sequenced array 5.
  • an exemplary method according to the invention comprises the following steps:
  • the memory space occupied by the set 50 of the sequenced arrays 5 is at least five times smaller than the memory space occupied by the set 70 of the acoustic frames 7 of the pre-calculated expressions.
  • the memory space occupied by the blockboards 5 is less than 10 Megabytes while the memory size occupied by the acoustic frames of the pre-calculated expressions can be greater than 100 Megabytes.
  • the set 50 of the sequenced tables 5 is stored in the on-board equipment, for example in a flash memory of a reasonable and inexpensive size, whereas the set 70 of the acoustic frames 7 of the precalculated expressions does not have need to be stored in the on-board equipment.
  • the set 70 of the acoustic frames 7 of the pre-calculated expressions is stored and processed in landed mode on a conventional computer.
  • acoustic units 40 may represent phonemes or diphones, a diphone being an association of two half-phonemes.
  • the speech synthesis system can process any texts of a given language because the database 1 contains all the phonemes of said given language. For the most frequently used expressions, which are part of the list of pre-calculated expressions 10, one obtains a quality of sound signals very satisfactory, close to the natural voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procédé pour générer des signaux sonores (9) représentatifs d'un texte (3) à convertir, comprenant les étapes : • fournir, dans une base de données (1) d'unités acoustiques, • identifier une liste d'expressions pré-calculées (10), et enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant à son prononcé, • décomposer, grâce à des calculs de corrélation, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques modulées par des facteurs de forme d'amplitude (α(i)A) et temporel (α(i)T), • identifier dans le texte les expressions pré-calculées et décomposer le reste (12) en phonèmes, • insérer à la place de chaque expression pré-calculée le tableau séquencé correspondant, • préparer un enchaînement d'unités acoustiques (19) selon le texte à convertir. Système pour générer des signaux sonores représentatifs d'un texte à convertir.

Description

Procédé et système de synthèse vocale
La présente invention est relative aux procédés et systèmes de synthèse vocale. Ces procédés et systèmes de synthèse vocale peuvent être, en particulier mais non exclusivement, utilisés dans un système d'aide à la navigation embarqué dans un véhicule.
II est connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection d'unités acoustiques à partir d'une base de données d'unités acoustiques synthétiques. Les signaux sonores produits par ces systèmes présentent une sonorité plutôt métallique et sont assez éloignés de la voix naturelle d'un locuteur, ce qui n'est pas désirable.
II est aussi connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection de séquences acoustiques enregistrées à partir d'une base de données de trames acoustiques enregistrées. Mais ces systèmes présentent deux inconvénients : le vocabulaire est limité aux mots ayants fait l'objet d'un enregistrement et la taille mémoire utilisée par ces enregistrements est très importante.
Selon l'art antérieur, il est aussi connu de combiner les deux approches d'une certaine façon, comme par exemple du document US 201 1 / 218 809. Toutefois, il est apparu souhaitable d'améliorer la combinaison des deux approches, pour réduire la taille mémoire nécessaire à la représentation des enregistrements tout en maintenant la qualité et le naturel des signaux sonores émis.
A cet effet, il est proposé un procédé pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :
a) fournir, dans une base de données, un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
b) identifier une liste d'expressions pré-calculées, chaque expression précalculée comprenant un ou plusieurs mots textuels entiers,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique correspondant au prononcé de ladite expression pré-calculée,
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude et par un facteur de forme temporel, e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner, pour chaque phonème de la deuxième portion du texte, une unité acoustique de la base de données, f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir, g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.
Grâce à ces dispositions, on peut convertir un texte, qui peut être quelconque, en signaux sonores en utilisant au mieux des enregistrements de bonne qualité des expressions pré-calculées les plus utilisées, et ceci en utilisant un espace mémoire de petite taille comme ressource nécessaire au moment de la conversion du texte. Les signaux sonores restitués sont ainsi d'une qualité proche de la voix naturelle, notamment en ce qui concerne les premières portions de texte correspondant aux expressions précalculées.
Dans divers modes de réalisation du procédé selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes :
• les étapes b), c) et d) peuvent être réalisées en mode débarqué au cours de travaux préparatoires ; de sorte que l'ensemble des trames acoustiques des expressions pré-calculées est stocké et traité en mode débarqué ou Off-line' sur un ordinateur classique ;
· l'espace mémoire occupé par les tableaux séquencés peut être au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées ; de sorte que l'espace mémoire nécessaire dans l'équipement embarqué est beaucoup plus petit que l'espace mémoire nécessaire pour stocker les trames acoustiques des expressions pré-calculées ; · l'espace mémoire occupé par les tableaux séquencés peut être inférieur à 10
Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets ; moyennant quoi on peut limiter l'utilisation des mémoires flash dans l'équipement embarqué et cela permet d'utiliser des mémoires flash de taille limitée ;
· les unités acoustiques peuvent être des diphones ; de sorte que la qualité des enchaînements est améliorée ; • ledit procédé peut être mis en œuvre dans une unité d'aide à la navigation embarquée dans un véhicule.
L'invention vise également un dispositif pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :
• une unité de commande électronique comprenant un moteur de synthèse vocale,
• une base de données, comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
· une liste d'expressions pré-calculées, chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,
• au moins un tableau séquencé, qui comprend, pour une expression pré-calculée, une suite de références d'unité acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
ladite unité électronique étant adaptée pour :
e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner pour chaque phonème de la deuxième portion du texte une unité acoustique de la base de données,
f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir,
g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.
Dans divers modes de réalisation du système selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions déjà décrites concernant le procédé ci-dessus.
D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la description suivante d'un de ses modes de réalisation, donné à titre d'exemple non limitatif. L'invention sera également mieux comprise en regard des dessins joints sur lesquels :
- la figure 1 représente schématiquement un dispositif et un procédé mis en oeuvre selon l'invention,
- la figure 2 représente schématiquement un texte à convertir, et
- les figures 3A, 3B et 3C représentent des signaux acoustiques enregistrés et leur traitement.
Sur les différentes figures, les mêmes références désignent des éléments identiques ou similaires.
Se référant à la figure 1 , le procédé utilise :
• une base de données 1 , comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes utilisés pour une langue donnée, chaque unité acoustique 40 correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème,
• une liste d'expressions pré-calculées 10 qui contient par exemple les expressions les plus souvent utilisées dans le système de synthèse vocale considéré,
· un texte 3 à convertir en signaux sonores intelligibles pour un utilisateur, ledit texte 3 pouvant contenir une ou plusieurs expressions appartenant à la susdite liste d'expressions pré-calculées 10, ces expressions pré-calculées seront traitées comme des exceptions.
Le texte 3 en entrée du système de synthèse vocale peut comprendre principalement des mots, mais il peut contenir aussi des chiffres, des acronymes (qui seront traitées comme des exceptions) et toute représentation écrite.
La liste d'expressions pré-calculées 10 peut comprendre des mots seuls ou des phrases. De préférence, on choisira les mots, phrases ou morceaux de phrase les plus couramment utilisés dans les textes à convertir dans le système de synthèse vocale considéré.
Selon le procédé présenté, chaque expression appartenant à la liste d'expressions pré-calculées 10 est prononcée par un locuteur de référence et on enregistre les signaux représentant la trame acoustique 7 correspondant au prononcé de ladite expression pré-calculée. L'ensemble des trames acoustiques 7, correspondant à la voix naturelle, est contenu dans une base de données acoustique 70.
Une unité d'analyse débarquée 2 est prévue pour traiter chaque trame acoustique 7 de la base de données acoustique 70. Le traitement sera explicité en détails plus loin.
Pour chaque trame acoustique 7, l'unité d'analyse débarquée 2 génère un tableau séquencé 5 comprenant une suite de références d'unités acoustiques 40 de la base de données 1 , modulées au moins par un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T. Plus précisément, chaque ligne du tableau séquencé 5 comprend d'une part une référence ou un identifiant U(i) d'une unité acoustique 40 et d'autre part un ou plusieurs facteurs de formes (a(i)A, a(i)T... ) à appliquer à cette unité acoustique 40. Ces facteurs de forme (a(i)A, a(i)T... ) comprennent en particulier un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T.
Une unité de commande électronique 90, par exemple embarquée dans un véhicule, comprend un bloc d'analyse 4 adapté pour analyser le contenu d'un texte 3.
L'analyse effectuée par le bloc d'analyse 4 de l'unité de commande électronique 90 permet de repérer les expressions appartenant à la liste d'expressions pré-calculées 10, ce qui constitue une ou plusieurs parties appelées premières portions de texte 1 1 , qui seront traités par exception pour l'étape de synthèse vocale.
Comme illustré à la figure 2, le texte 3 comprend trois expressions précalculées 1 1 a, 1 1 b, 1 1 c et comprend quatre autres portions de texte 12a, 12b, 12c, 12d.
En l'occurrence, le bloc d'analyse 4 de l'unité de commande électronique 90 est configuré pour identifier dans le texte initial 3, en ôtant les premières portions de texte 11 , les autres portions de texte 12a, 12b, 12c, 12d qui sont dépourvues d'expression pré-calculée. Ces autres portions de texte 12a, 12b, 12c, 12d forment une ou plusieurs deuxièmes portions du texte 12 dépourvues d'expression pré-calculée. Les deuxièmes portions du texte 12 sont donc complémentaires des premières portions de texte 1 1.
Le bloc d'analyse 4 est de plus adapté pour sélectionner le tableau séquencé 5 adéquat parmi l'ensemble 50 des tableaux séquencés 5 correspondants aux trames acoustiques 7 susdites.
Un bloc de conversion 6 est configuré pour convertir en phonèmes les deuxièmes portions du texte 12. De plus le bloc de conversion 6 sélectionne dans la base de données 1 la meilleure unité acoustique 40 pour chaque phonème considéré.
Un bloc de synthèse 8 acquiert en entrée la sortie du bloc de conversion 6 concernant les deuxièmes portions de texte 12 et la sortie du bloc d'analyse 4 concernant premières portions de texte 1 1.
Le bloc de synthèse 8 traite ces entrées pour préparer un enchaînement d'unités acoustiques 19 correspondant aux première et deuxième portions de texte 1 1 , 12, de manière ordonnée selon le texte 3 à convertir.
Le bloc de synthèse 8 peut ensuite ainsi générer en sortie un ensemble de signaux sonores 9 représentatifs du texte 3 à convertir.
Comme indiqué plus haut, l'unité d'analyse débarquée 2 effectue un traitement sur chaque trame acoustique 7 de la base de données acoustique 70. Ce traitement est illustré aux figures 3A, 3B, 3C et comprend les opérations décrites ci-après. Un calcul de corrélation croisée est effectué en prenant d'un coté le début du signal 30 représentatif de la trame acoustique 7 et de l'autre coté chaque unité acoustique 40 de la base de données 1. Une unité acoustique 41 ayant les plus grandes similitudes avec le début de la trame acoustique 7 est ainsi choisie. La similitude inclut l'application éventuelle de facteurs de forme, en particulier un facteur de forme d'amplitude a1A et un facteur de forme temporel a1T. Grâce à ce premier résultat, on initialise le tableau séquencé 5 avec l'identification U(1 ) de l'unité acoustique 41 accompagnée de ses facteur de forme d'amplitude temporel α1Α, a1T. Ensuite on retire de la trame acoustique 7 le début du signal 31 correspondant à la première unité acoustique 41 choisie ce qui revient à décaler d'autant le pointeur de début de trame.
Ensuite on réitère le calcul de corrélation croisé pour choisir une deuxième unité acoustique U(2), affectée elle aussi de ses facteurs de forme d'amplitude temporel α2Α, a2T.
On procède ensuite par itération jusqu'à arriver à la fin du signal 30 représentatif de la trame acoustique 7 enregistrée.
Comme illustré aux figures 3A, 3B, 3C, la première partie 31 de la trame conduit à sélectionner l'unité acoustique 41 , la deuxième partie 32 de la trame conduit à sélectionner l'unité acoustique 42, la troisième partie 33 de la trame conduit à sélectionner l'unité acoustique 43, la quatrième partie 34 de la trame conduit à sélectionner l'unité acoustique 44, la cinquième partie 35 de la trame conduit à sélectionner l'unité acoustique 45, et la sixième partie 36 de la trame conduit à sélectionner l'unité acoustique 46.
Chacune des unités acoustiques est affectée de facteurs de forme d'amplitude et temporel a(i)A, a(i)T qui lui sont propres. On note que l'utilisation du facteur de forme d'amplitude a(i)A peut conduire à augmenter ou à diminuer l'intensité du signal et l'utilisation du facteur de forme temporel a(i)T peut conduire à dilater ou rétrécir temporellement le signal, afin de réduire l'écart entre la partie de trame du signal d'origine 30 et le signal de l'unité acoustique sélectionnée affectée desdits facteurs de forme a(i)A, a(i)T.
Ainsi l'expression pré-calculée est mise en correspondance avec une succession d'unités acoustiques affectées desdits facteurs de forme, stockée sous forme du tableau séquencé 5.
Grâce à quoi, les signaux sonores qui seront générés plus tard pour l'expression pré-calculée, à partir de la succession des unités acoustiques affectées de leurs facteurs de formes a(i)A, a(i)T, donneront une voix générée présentant un écart faible avec la voix naturelle enregistrée 7 d'origine. Ainsi, un exemple de procédé selon l'invention comprend les étapes suivantes :
a) fournir une base de données 1 ,
b) identifier la liste d'expressions pré-calculées 10,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique 7 correspondant à son prononcé,
d) décomposer, grâce aux calculs de corrélation croisés, chaque trame acoustique 7 enregistrée en un tableau séquencé 5,
e1 ) parcourir un texte à convertir, identifier les premières portions du texte 1 1 correspondant aux expressions pré-calculées et décomposer en phonèmes les deuxièmes portions du texte 12,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé 5, et sélectionner, pour chaque phonème de la deuxième portion du texte 12, une unité acoustique de la base de données 1 ,
f) préparer un enchaînement ordonné d'unités acoustiques 19 correspondant au texte à convertir,
g) générer les signaux sonores 9 correspondants audit enchaînement d'unités acoustiques 19.
Avantageusement, l'espace mémoire occupé par l'ensemble 50 des tableaux séquencés 5 est au moins cinq fois inférieur à l'espace mémoire occupé par l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées. Dans un cas particulier, l'espace mémoire occupé par les tableaux séquencés 5 est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées peut être supérieure à 100 Mégaoctets.
Il est entendu que l'ensemble 50 des tableaux séquencés 5 est stocké dans l'équipement embarqué, par exemple dans une mémoire flash de taille raisonnable et peu coûteuse, alors que l'ensemble 70 des trames acoustiques 7 des expressions précalculées n'a pas besoin d'être stocké dans l'équipement embarqué. A contrario l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées est stocké et traité en mode débarqué sur un ordinateur classique.
Il est à noter que les unités acoustiques 40 peuvent représenter des phonèmes ou des diphones, un diphone étant une association de deux demi-phonèmes.
Avantageusement, le système de synthèse vocale peut traiter des textes 3 quelconques d'une langue donnée car la base de données 1 contient tous les phonèmes de ladite langue donnée. Pour les expressions les plus souvent utilisées, qui font partie de la liste d'expressions pré-calculées 10, on obtient une qualité de signaux sonores très satisfaisante, proche de la voix naturelle.

Claims

REVENDICATIONS
1. Procédé pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :
a) fournir, dans une base de données (1 ), un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données (1 ) comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
b) identifier une liste d'expressions pré-calculées (10), chaque expression pré- calculée comprenant un ou plusieurs mots textuels entiers,
c) enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant au prononcé de ladite expression pré-calculée,
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (11 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner, pour chaque phonème de la deuxième portion du texte (12), une unité acoustique de la base de données (1 ),
f) préparer un enchaînement d'unités acoustiques (19) correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,
g) générer les signaux sonores (9) correspondants audit enchaînement d'unités acoustiques.
2. Procédé selon la revendication 1 , dans lequel les étapes b), c) et d) sont réalisées en mode débarqué au cours de travaux préparatoires.
3. Procédé selon l'une des revendications 1 à 2, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées.
4. Procédé selon l'une des revendications 1 à 3, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets.
5. Procédé selon l'une des revendications 1 à 4, dans lequel les unités acoustiques sont des diphones.
6. Procédé selon l'une des revendications 1 à 5, dans lequel ledit procédé est mis en oeuvre dans une unité d'aide à la navigation embarquée dans un véhicule.
7. Dispositif pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :
· une unité de commande électronique (90) comprenant un moteur de synthèse vocale,
• une base de données (1 ), comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,
· une liste d'expressions pré-calculées (10), chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,
• au moins un tableau séquencé (5), qui comprend, pour une expression précalculée, une suite de références d'unité acoustiques de la base de données (1 ) modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),
ladite unité électronique étant adaptée pour :
e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (1 1 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,
e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner pour chaque phonème de la deuxième portion du texte (12) une unité acoustique de la base de données (1 ), f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,
g) générer les signaux sonores (9) correspondants audit enchaînement d'unités acoustiques.
8. Dispositif selon la revendication 7, comportant en outre une unité d'analyse débarquée (2) adaptée pour :
d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée correspondant à une expression pré-calculée de la liste d'expressions pré-calculées (10), en un tableau séquencé (5) comprenant une suite d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T).
9. Dispositif selon la revendication 8, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées, de préférence dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions précalculées est supérieure à 100 Mégaoctets.
10. Dispositif d'affichage selon l'une des revendications 7 à 9, dans lequel l'unité de commande électronique (90) est une unité d'aide à la navigation embarquée dans un véhicule.
PCT/EP2013/001928 2012-07-06 2013-07-02 Procede et systeme de synthese vocale WO2014005695A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/411,952 US20150149181A1 (en) 2012-07-06 2013-07-02 Method and system for voice synthesis
CN201380035789.8A CN104395956A (zh) 2012-07-06 2013-07-02 声音合成的方法和系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1256507A FR2993088B1 (fr) 2012-07-06 2012-07-06 Procede et systeme de synthese vocale
FR1256507 2012-07-06

Publications (1)

Publication Number Publication Date
WO2014005695A1 true WO2014005695A1 (fr) 2014-01-09

Family

ID=47191868

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2013/001928 WO2014005695A1 (fr) 2012-07-06 2013-07-02 Procede et systeme de synthese vocale

Country Status (4)

Country Link
US (1) US20150149181A1 (fr)
CN (1) CN104395956A (fr)
FR (1) FR2993088B1 (fr)
WO (1) WO2014005695A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3581265A1 (fr) 2018-06-12 2019-12-18 thyssenkrupp Fertilizer Technology GmbH Buse de pulvérisation destinée à la fabrication d'un engrais d'urée soufrée

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354334B (zh) * 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000030069A2 (fr) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Synthese de la parole par concatenation de signaux vocaux
US20020103648A1 (en) * 2000-10-19 2002-08-01 Case Eliot M. System and method for converting text-to-voice
WO2006104988A1 (fr) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Synthetiseur de parole hybride, procede et utilisation
US20070033049A1 (en) * 2005-06-27 2007-02-08 International Business Machines Corporation Method and system for generating synthesized speech based on human recording
US20070192105A1 (en) * 2006-02-16 2007-08-16 Matthias Neeracher Multi-unit approach to text-to-speech synthesis
US20110218809A1 (en) 2010-03-02 2011-09-08 Denso Corporation Voice synthesis device, navigation device having the same, and method for synthesizing voice message

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758323A (en) * 1996-01-09 1998-05-26 U S West Marketing Resources Group, Inc. System and Method for producing voice files for an automated concatenated voice system
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
CA2296330C (fr) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Production de messages vocaux
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
JP4639527B2 (ja) * 2001-05-24 2011-02-23 日本電気株式会社 音声合成装置および音声合成方法
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
GB2391143A (en) * 2002-04-17 2004-01-28 Rhetorical Systems Ltd Method and apparatus for scultping synthesized speech
DE602005026778D1 (de) * 2004-01-16 2011-04-21 Scansoft Inc Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US7983919B2 (en) * 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000030069A2 (fr) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Synthese de la parole par concatenation de signaux vocaux
US20020103648A1 (en) * 2000-10-19 2002-08-01 Case Eliot M. System and method for converting text-to-voice
WO2006104988A1 (fr) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Synthetiseur de parole hybride, procede et utilisation
US20070033049A1 (en) * 2005-06-27 2007-02-08 International Business Machines Corporation Method and system for generating synthesized speech based on human recording
US20070192105A1 (en) * 2006-02-16 2007-08-16 Matthias Neeracher Multi-unit approach to text-to-speech synthesis
US20110218809A1 (en) 2010-03-02 2011-09-08 Denso Corporation Voice synthesis device, navigation device having the same, and method for synthesizing voice message

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3581265A1 (fr) 2018-06-12 2019-12-18 thyssenkrupp Fertilizer Technology GmbH Buse de pulvérisation destinée à la fabrication d'un engrais d'urée soufrée
WO2019238570A1 (fr) 2018-06-12 2019-12-19 Thyssenkrupp Fertilizer Technology Gmbh Buse de pulvérisation pour la production d'un engrais à base d'urée-soufre

Also Published As

Publication number Publication date
CN104395956A (zh) 2015-03-04
FR2993088B1 (fr) 2014-07-18
FR2993088A1 (fr) 2014-01-10
US20150149181A1 (en) 2015-05-28

Similar Documents

Publication Publication Date Title
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US9495954B2 (en) System and method of synthetic voice generation and modification
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
US8644488B2 (en) System and method for automatically generating adaptive interaction logs from customer interaction text
US9015046B2 (en) Methods and apparatus for real-time interaction analysis in call centers
BE1011945A3 (fr) Methode, dispositif et article de fabrication pour la generation basee sur un reseau neural de prononciations postlexicales a partir de prononciations post-lexicales.
US20080288256A1 (en) Reducing recording time when constructing a concatenative tts voice using a reduced script and pre-recorded speech assets
US6988069B2 (en) Reduced unit database generation based on cost information
EP1789953B1 (fr) Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale
US9412359B2 (en) System and method for cloud-based text-to-speech web services
CA2662564A1 (fr) Reconnaissance de la parole dans des flux audio modifiables
EP1769489B1 (fr) Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
US20210104246A1 (en) System and method for reconstructing metadata from audio outputs
WO2014005695A1 (fr) Procede et systeme de synthese vocale
Vinodh et al. Using polysyllabic units for text to speech synthesis in indian languages
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
US9045098B2 (en) Vocabulary dictionary recompile for in-vehicle audio system
WO2012173516A1 (fr) Procédé et dispositif informatique pour traitement de texte automatisé
GB2451938A (en) Methods and apparatus for searching of spoken audio data
EP1543502A1 (fr) Procede de reconnaissance vocale avec correction automatique
FR2738382A1 (fr) Systeme de dialogue vocal destine a la fourniture automatisee d'informations
EP1285435B1 (fr) Analyse syntaxique et semantique de commandes vocales
EP1772851B1 (fr) Système de karaoké pour l'affichage du texte correspondant à la partie vocale d'un flux audiovisuel sur un écran d'un système audiovisuel
KR102045761B1 (ko) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
Kawaguchi et al. Construction and analysis of a multi-layered in-car spoken dialogue corpus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13732838

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14411952

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13732838

Country of ref document: EP

Kind code of ref document: A1