WO2014005695A1

WO2014005695A1 - Procede et systeme de synthese vocale

Info

Publication number: WO2014005695A1
Application number: PCT/EP2013/001928
Authority: WO
Inventors: Vincent Delahaye
Original assignee: Continental Automotive France; Continental Automotive Gmbh
Priority date: 2012-07-06
Filing date: 2013-07-02
Publication date: 2014-01-09
Also published as: CN104395956A; FR2993088B1; FR2993088A1; US20150149181A1

Abstract

Procédé pour générer des signaux sonores (9) représentatifs d'un texte (3) à convertir, comprenant les étapes : • fournir, dans une base de données (1) d'unités acoustiques, • identifier une liste d'expressions pré-calculées (10), et enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant à son prononcé, • décomposer, grâce à des calculs de corrélation, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques modulées par des facteurs de forme d'amplitude (α(i)A) et temporel (α(i)T), • identifier dans le texte les expressions pré-calculées et décomposer le reste (12) en phonèmes, • insérer à la place de chaque expression pré-calculée le tableau séquencé correspondant, • préparer un enchaînement d'unités acoustiques (19) selon le texte à convertir. Système pour générer des signaux sonores représentatifs d'un texte à convertir.

Description

Procédé et système de synthèse vocale

La présente invention est relative aux procédés et systèmes de synthèse vocale. Ces procédés et systèmes de synthèse vocale peuvent être, en particulier mais non exclusivement, utilisés dans un système d'aide à la navigation embarqué dans un véhicule.

II est connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection d'unités acoustiques à partir d'une base de données d'unités acoustiques synthétiques. Les signaux sonores produits par ces systèmes présentent une sonorité plutôt métallique et sont assez éloignés de la voix naturelle d'un locuteur, ce qui n'est pas désirable.

II est aussi connu dans l'art d'utiliser des systèmes de synthèse vocale basés sur la sélection de séquences acoustiques enregistrées à partir d'une base de données de trames acoustiques enregistrées. Mais ces systèmes présentent deux inconvénients : le vocabulaire est limité aux mots ayants fait l'objet d'un enregistrement et la taille mémoire utilisée par ces enregistrements est très importante.

Selon l'art antérieur, il est aussi connu de combiner les deux approches d'une certaine façon, comme par exemple du document US 201 1 / 218 809. Toutefois, il est apparu souhaitable d'améliorer la combinaison des deux approches, pour réduire la taille mémoire nécessaire à la représentation des enregistrements tout en maintenant la qualité et le naturel des signaux sonores émis.

A cet effet, il est proposé un procédé pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :

a) fournir, dans une base de données, un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,

b) identifier une liste d'expressions pré-calculées, chaque expression précalculée comprenant un ou plusieurs mots textuels entiers,

c) enregistrer, pour chaque expression pré-calculée, une trame acoustique correspondant au prononcé de ladite expression pré-calculée,

d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude et par un facteur de forme temporel, e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,

e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner, pour chaque phonème de la deuxième portion du texte, une unité acoustique de la base de données, f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir, g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.

Grâce à ces dispositions, on peut convertir un texte, qui peut être quelconque, en signaux sonores en utilisant au mieux des enregistrements de bonne qualité des expressions pré-calculées les plus utilisées, et ceci en utilisant un espace mémoire de petite taille comme ressource nécessaire au moment de la conversion du texte. Les signaux sonores restitués sont ainsi d'une qualité proche de la voix naturelle, notamment en ce qui concerne les premières portions de texte correspondant aux expressions précalculées.

Dans divers modes de réalisation du procédé selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes :

• les étapes b), c) et d) peuvent être réalisées en mode débarqué au cours de travaux préparatoires ; de sorte que l'ensemble des trames acoustiques des expressions pré-calculées est stocké et traité en mode débarqué ou Off-line' sur un ordinateur classique ;

· l'espace mémoire occupé par les tableaux séquencés peut être au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées ; de sorte que l'espace mémoire nécessaire dans l'équipement embarqué est beaucoup plus petit que l'espace mémoire nécessaire pour stocker les trames acoustiques des expressions pré-calculées ; · l'espace mémoire occupé par les tableaux séquencés peut être inférieur à 10

Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets ; moyennant quoi on peut limiter l'utilisation des mémoires flash dans l'équipement embarqué et cela permet d'utiliser des mémoires flash de taille limitée ;

· les unités acoustiques peuvent être des diphones ; de sorte que la qualité des enchaînements est améliorée ; • ledit procédé peut être mis en œuvre dans une unité d'aide à la navigation embarquée dans un véhicule.

L'invention vise également un dispositif pour générer un ensemble de signaux sonores représentatifs d'un texte à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :

• une unité de commande électronique comprenant un moteur de synthèse vocale,

• une base de données, comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,

· une liste d'expressions pré-calculées, chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,

• au moins un tableau séquencé, qui comprend, pour une expression pré-calculée, une suite de références d'unité acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),

ladite unité électronique étant adaptée pour :

e1 ) parcourir un texte à convertir, identifier au moins une première portion du texte correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte qui ne comprend pas d'expression pré-calculée,

e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé, et sélectionner pour chaque phonème de la deuxième portion du texte une unité acoustique de la base de données,

f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte, de manière ordonnée selon le texte à convertir,

g) générer les signaux sonores correspondants audit enchaînement d'unités acoustiques.

Dans divers modes de réalisation du système selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions déjà décrites concernant le procédé ci-dessus.

D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la description suivante d'un de ses modes de réalisation, donné à titre d'exemple non limitatif. L'invention sera également mieux comprise en regard des dessins joints sur lesquels :

- la figure 1 représente schématiquement un dispositif et un procédé mis en oeuvre selon l'invention,

- la figure 2 représente schématiquement un texte à convertir, et

- les figures 3A, 3B et 3C représentent des signaux acoustiques enregistrés et leur traitement.

Sur les différentes figures, les mêmes références désignent des éléments identiques ou similaires.

Se référant à la figure 1 , le procédé utilise :

• une base de données 1 , comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes utilisés pour une langue donnée, chaque unité acoustique 40 correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème,

• une liste d'expressions pré-calculées 10 qui contient par exemple les expressions les plus souvent utilisées dans le système de synthèse vocale considéré,

· un texte 3 à convertir en signaux sonores intelligibles pour un utilisateur, ledit texte 3 pouvant contenir une ou plusieurs expressions appartenant à la susdite liste d'expressions pré-calculées 10, ces expressions pré-calculées seront traitées comme des exceptions.

Le texte 3 en entrée du système de synthèse vocale peut comprendre principalement des mots, mais il peut contenir aussi des chiffres, des acronymes (qui seront traitées comme des exceptions) et toute représentation écrite.

La liste d'expressions pré-calculées 10 peut comprendre des mots seuls ou des phrases. De préférence, on choisira les mots, phrases ou morceaux de phrase les plus couramment utilisés dans les textes à convertir dans le système de synthèse vocale considéré.

Selon le procédé présenté, chaque expression appartenant à la liste d'expressions pré-calculées 10 est prononcée par un locuteur de référence et on enregistre les signaux représentant la trame acoustique 7 correspondant au prononcé de ladite expression pré-calculée. L'ensemble des trames acoustiques 7, correspondant à la voix naturelle, est contenu dans une base de données acoustique 70.

Une unité d'analyse débarquée 2 est prévue pour traiter chaque trame acoustique 7 de la base de données acoustique 70. Le traitement sera explicité en détails plus loin.

Pour chaque trame acoustique 7, l'unité d'analyse débarquée 2 génère un tableau séquencé 5 comprenant une suite de références d'unités acoustiques 40 de la base de données 1 , modulées au moins par un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T. Plus précisément, chaque ligne du tableau séquencé 5 comprend d'une part une référence ou un identifiant U(i) d'une unité acoustique 40 et d'autre part un ou plusieurs facteurs de formes (a(i)A, a(i)T... ) à appliquer à cette unité acoustique 40. Ces facteurs de forme (a(i)A, a(i)T... ) comprennent en particulier un facteur de forme d'amplitude a(i)A et par un facteur de forme temporel a(i)T.

Une unité de commande électronique 90, par exemple embarquée dans un véhicule, comprend un bloc d'analyse 4 adapté pour analyser le contenu d'un texte 3.

L'analyse effectuée par le bloc d'analyse 4 de l'unité de commande électronique 90 permet de repérer les expressions appartenant à la liste d'expressions pré-calculées 10, ce qui constitue une ou plusieurs parties appelées premières portions de texte 1 1 , qui seront traités par exception pour l'étape de synthèse vocale.

Comme illustré à la figure 2, le texte 3 comprend trois expressions précalculées 1 1 a, 1 1 b, 1 1 c et comprend quatre autres portions de texte 12a, 12b, 12c, 12d.

En l'occurrence, le bloc d'analyse 4 de l'unité de commande électronique 90 est configuré pour identifier dans le texte initial 3, en ôtant les premières portions de texte 11 , les autres portions de texte 12a, 12b, 12c, 12d qui sont dépourvues d'expression pré-calculée. Ces autres portions de texte 12a, 12b, 12c, 12d forment une ou plusieurs deuxièmes portions du texte 12 dépourvues d'expression pré-calculée. Les deuxièmes portions du texte 12 sont donc complémentaires des premières portions de texte 1 1.

Le bloc d'analyse 4 est de plus adapté pour sélectionner le tableau séquencé 5 adéquat parmi l'ensemble 50 des tableaux séquencés 5 correspondants aux trames acoustiques 7 susdites.

Un bloc de conversion 6 est configuré pour convertir en phonèmes les deuxièmes portions du texte 12. De plus le bloc de conversion 6 sélectionne dans la base de données 1 la meilleure unité acoustique 40 pour chaque phonème considéré.

Un bloc de synthèse 8 acquiert en entrée la sortie du bloc de conversion 6 concernant les deuxièmes portions de texte 12 et la sortie du bloc d'analyse 4 concernant premières portions de texte 1 1.

Le bloc de synthèse 8 traite ces entrées pour préparer un enchaînement d'unités acoustiques 19 correspondant aux première et deuxième portions de texte 1 1 , 12, de manière ordonnée selon le texte 3 à convertir.

Le bloc de synthèse 8 peut ensuite ainsi générer en sortie un ensemble de signaux sonores 9 représentatifs du texte 3 à convertir.

Comme indiqué plus haut, l'unité d'analyse débarquée 2 effectue un traitement sur chaque trame acoustique 7 de la base de données acoustique 70. Ce traitement est illustré aux figures 3A, 3B, 3C et comprend les opérations décrites ci-après. Un calcul de corrélation croisée est effectué en prenant d'un coté le début du signal 30 représentatif de la trame acoustique 7 et de l'autre coté chaque unité acoustique 40 de la base de données 1. Une unité acoustique 41 ayant les plus grandes similitudes avec le début de la trame acoustique 7 est ainsi choisie. La similitude inclut l'application éventuelle de facteurs de forme, en particulier un facteur de forme d'amplitude a1A et un facteur de forme temporel a1T. Grâce à ce premier résultat, on initialise le tableau séquencé 5 avec l'identification U(1 ) de l'unité acoustique 41 accompagnée de ses facteur de forme d'amplitude temporel α1Α, a1T. Ensuite on retire de la trame acoustique 7 le début du signal 31 correspondant à la première unité acoustique 41 choisie ce qui revient à décaler d'autant le pointeur de début de trame.

Ensuite on réitère le calcul de corrélation croisé pour choisir une deuxième unité acoustique U(2), affectée elle aussi de ses facteurs de forme d'amplitude temporel α2Α, a2T.

On procède ensuite par itération jusqu'à arriver à la fin du signal 30 représentatif de la trame acoustique 7 enregistrée.

Comme illustré aux figures 3A, 3B, 3C, la première partie 31 de la trame conduit à sélectionner l'unité acoustique 41 , la deuxième partie 32 de la trame conduit à sélectionner l'unité acoustique 42, la troisième partie 33 de la trame conduit à sélectionner l'unité acoustique 43, la quatrième partie 34 de la trame conduit à sélectionner l'unité acoustique 44, la cinquième partie 35 de la trame conduit à sélectionner l'unité acoustique 45, et la sixième partie 36 de la trame conduit à sélectionner l'unité acoustique 46.

Chacune des unités acoustiques est affectée de facteurs de forme d'amplitude et temporel a(i)A, a(i)T qui lui sont propres. On note que l'utilisation du facteur de forme d'amplitude a(i)A peut conduire à augmenter ou à diminuer l'intensité du signal et l'utilisation du facteur de forme temporel a(i)T peut conduire à dilater ou rétrécir temporellement le signal, afin de réduire l'écart entre la partie de trame du signal d'origine 30 et le signal de l'unité acoustique sélectionnée affectée desdits facteurs de forme a(i)A, a(i)T.

Ainsi l'expression pré-calculée est mise en correspondance avec une succession d'unités acoustiques affectées desdits facteurs de forme, stockée sous forme du tableau séquencé 5.

Grâce à quoi, les signaux sonores qui seront générés plus tard pour l'expression pré-calculée, à partir de la succession des unités acoustiques affectées de leurs facteurs de formes a(i)A, a(i)T, donneront une voix générée présentant un écart faible avec la voix naturelle enregistrée 7 d'origine. Ainsi, un exemple de procédé selon l'invention comprend les étapes suivantes :

a) fournir une base de données 1 ,

b) identifier la liste d'expressions pré-calculées 10,

c) enregistrer, pour chaque expression pré-calculée, une trame acoustique 7 correspondant à son prononcé,

d) décomposer, grâce aux calculs de corrélation croisés, chaque trame acoustique 7 enregistrée en un tableau séquencé 5,

e1 ) parcourir un texte à convertir, identifier les premières portions du texte 1 1 correspondant aux expressions pré-calculées et décomposer en phonèmes les deuxièmes portions du texte 12,

e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé 5, et sélectionner, pour chaque phonème de la deuxième portion du texte 12, une unité acoustique de la base de données 1 ,

f) préparer un enchaînement ordonné d'unités acoustiques 19 correspondant au texte à convertir,

g) générer les signaux sonores 9 correspondants audit enchaînement d'unités acoustiques 19.

Avantageusement, l'espace mémoire occupé par l'ensemble 50 des tableaux séquencés 5 est au moins cinq fois inférieur à l'espace mémoire occupé par l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées. Dans un cas particulier, l'espace mémoire occupé par les tableaux séquencés 5 est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées peut être supérieure à 100 Mégaoctets.

Il est entendu que l'ensemble 50 des tableaux séquencés 5 est stocké dans l'équipement embarqué, par exemple dans une mémoire flash de taille raisonnable et peu coûteuse, alors que l'ensemble 70 des trames acoustiques 7 des expressions précalculées n'a pas besoin d'être stocké dans l'équipement embarqué. A contrario l'ensemble 70 des trames acoustiques 7 des expressions pré-calculées est stocké et traité en mode débarqué sur un ordinateur classique.

Il est à noter que les unités acoustiques 40 peuvent représenter des phonèmes ou des diphones, un diphone étant une association de deux demi-phonèmes.

Avantageusement, le système de synthèse vocale peut traiter des textes 3 quelconques d'une langue donnée car la base de données 1 contient tous les phonèmes de ladite langue donnée. Pour les expressions les plus souvent utilisées, qui font partie de la liste d'expressions pré-calculées 10, on obtient une qualité de signaux sonores très satisfaisante, proche de la voix naturelle.

Claims

REVENDICATIONS

1. Procédé pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, comprenant les étapes suivantes :

a) fournir, dans une base de données (1 ), un ensemble d'unités acoustiques, chaque unité acoustique correspondant à la réalisation acoustique synthétique d'un phonème ou d'un diphonème, ladite base de données (1 ) comprenant des unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,

b) identifier une liste d'expressions pré-calculées (10), chaque expression pré- calculée comprenant un ou plusieurs mots textuels entiers,

c) enregistrer, pour chaque expression pré-calculée, une trame acoustique (7) correspondant au prononcé de ladite expression pré-calculée,

d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée en un tableau séquencé (5) comprenant une suite de références d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),

e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (11 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,

e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner, pour chaque phonème de la deuxième portion du texte (12), une unité acoustique de la base de données (1 ),

f) préparer un enchaînement d'unités acoustiques (19) correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,

g) générer les signaux sonores (9) correspondants audit enchaînement d'unités acoustiques.

2. Procédé selon la revendication 1 , dans lequel les étapes b), c) et d) sont réalisées en mode débarqué au cours de travaux préparatoires.

3. Procédé selon l'une des revendications 1 à 2, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées.

4. Procédé selon l'une des revendications 1 à 3, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions pré-calculées est supérieure à 100 Mégaoctets.

5. Procédé selon l'une des revendications 1 à 4, dans lequel les unités acoustiques sont des diphones.

6. Procédé selon l'une des revendications 1 à 5, dans lequel ledit procédé est mis en oeuvre dans une unité d'aide à la navigation embarquée dans un véhicule.

7. Dispositif pour générer un ensemble de signaux sonores (9) représentatifs d'un texte (3) à convertir en signaux sonores intelligibles pour un utilisateur, le dispositif comprenant :

· une unité de commande électronique (90) comprenant un moteur de synthèse vocale,

• une base de données (1 ), comprenant un ensemble d'unités acoustiques correspondant à l'ensemble des phonèmes ou diphonèmes utilisés pour une langue donnée,

· une liste d'expressions pré-calculées (10), chaque expression pré-calculée comprenant un ou plusieurs mots textuels entiers,

• au moins un tableau séquencé (5), qui comprend, pour une expression précalculée, une suite de références d'unité acoustiques de la base de données (1 ) modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T),

ladite unité électronique étant adaptée pour :

e1 ) parcourir le texte (3) à convertir, identifier au moins une première portion du texte (1 1 ) correspondant à au moins une expression pré-calculée et décomposer en phonèmes au moins une deuxième portion du texte (12) qui ne comprend pas d'expression pré-calculée,

e2) insérer à la place de chaque expression pré-calculée l'enregistrement équivalent du tableau séquencé (5), et sélectionner pour chaque phonème de la deuxième portion du texte (12) une unité acoustique de la base de données (1 ), f) préparer un enchaînement d'unités acoustiques correspondant aux première et deuxième portions de texte (1 1 , 12), de manière ordonnée selon le texte (3) à convertir,

8. Dispositif selon la revendication 7, comportant en outre une unité d'analyse débarquée (2) adaptée pour :

d) décomposer, grâce à des calculs de corrélation croisés, chaque trame acoustique enregistrée correspondant à une expression pré-calculée de la liste d'expressions pré-calculées (10), en un tableau séquencé (5) comprenant une suite d'unités acoustiques de la base de données modulées au moins par un facteur de forme d'amplitude (a(i)A) et par un facteur de forme temporel (a(i)T).

9. Dispositif selon la revendication 8, dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est au moins cinq fois inférieur à l'espace mémoire occupé par les trames acoustiques des expressions pré-calculées, de préférence dans lequel l'espace mémoire occupé par les tableaux séquencés (5) est inférieur à 10 Mégaoctets alors que la taille mémoire occupée par les trames acoustiques des expressions précalculées est supérieure à 100 Mégaoctets.

10. Dispositif d'affichage selon l'une des revendications 7 à 9, dans lequel l'unité de commande électronique (90) est une unité d'aide à la navigation embarquée dans un véhicule.