WO1990003027A1 - Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde - Google Patents

Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde Download PDF

Info

Publication number
WO1990003027A1
WO1990003027A1 PCT/FR1989/000438 FR8900438W WO9003027A1 WO 1990003027 A1 WO1990003027 A1 WO 1990003027A1 FR 8900438 W FR8900438 W FR 8900438W WO 9003027 A1 WO9003027 A1 WO 9003027A1
Authority
WO
WIPO (PCT)
Prior art keywords
synthesis
period
window
fundamental
speech
Prior art date
Application number
PCT/FR1989/000438
Other languages
English (en)
Inventor
Christian Hamon
Original Assignee
ETAT FRANÇAIS, représenté par LE MINISTRE DES POSTES, TELECOMMUNICATIONS ET DE L'ESPACE, CENTRE NATIONAL D'ETUDES DES TELECOMMUNICATIONS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ETAT FRANÇAIS, représenté par LE MINISTRE DES POSTES, TELECOMMUNICATIONS ET DE L'ESPACE, CENTRE NATIONAL D'ETUDES DES TELECOMMUNICATIONS filed Critical ETAT FRANÇAIS, représenté par LE MINISTRE DES POSTES, TELECOMMUNICATIONS ET DE L'ESPACE, CENTRE NATIONAL D'ETUDES DES TELECOMMUNICATIONS
Priority to US07/487,942 priority Critical patent/US5327498A/en
Publication of WO1990003027A1 publication Critical patent/WO1990003027A1/fr
Priority to DK199001073A priority patent/DK175374B1/da

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Abstract

La synthèse de parole est effectuée à partir d'éléments tels que des diphones. On effectue, au moins sur les sons voisés des éléments sonores, une analyse par fenêtrage sensiblement centrée sur le début de chaque réponse impulsionnelle du conduit vocal à l'excitation des cordes vocales à l'aide d'une fenêtre de filtrage présentant une amplitude décroissant jusqu'à zéro aux bords de la fenêtre de largeur au moins égale à deux fois la période fondamentale d'origine ou deux fois la période fondamentale de synthèse, on replace les signaux résultant du fenêtrage correspondant à chaque élément sonore, avec un décalage temporel de ceux-ci égal à la période fondamentale de synthèse, inférieure ou supérieure à la période fondamentale d'origine, suivant l'information prosodique concernant la fréquence de synthèse, on effectue la synthèse par sommation des signaux ainsi décalés.

Description

Procédé et dispositif de synthèse de la parole par addition-recouyrement de formes d'onde.
L'invention concerne les procédés et dispositifs de synthèse de la parole ; elle concerne, plus particu¬ lièrement, la synthèse à partir d'un dictionnaire d'éléments sonores par découpage du texte à synthétiser en microtrames identifiées chacune par un numéro d'ordre d'élément sonore correspondant et par des paramètres prosodiques (information de hauteur de son au début et à la fin de l'élément sonore et durée de l'élément sono¬ re), puis par adaptation et concaténation des éléments sonores par une procédure d'addition-recouvrement.
Les éléments sonores stockés dans le diction- naire seront fréquemment des diphones, c'est-à-dire des transitions entre phonèmes, ce qui permet, pour la langue française, de se contenter d'un dictionnaire d'environ 1300 éléments sonores ; on peut cependant utiliser des éléments sonores différents, par exemple des syllabes ou même des mots. Les paramètres prosodi¬ ques sont déterminés en fonction de critères portant sur le contexte : la hauteur de son qui correspond à l'intonation, dépend de l'emplacement de l'élément sonore dans un mot et dans la phrase et la durée donnée à l'élément sonore est fonction du rythme de la phrase.
Il faut rappeler au passage que les méthodes de synthèse de la parole se subdivisent en deux groupes.
Celles qui utilisent un modèle mathématique du conduit vocal (synthèse par prédiction linéaire, synthèse à formants et synthèse à transformée de Fourier rapide) font intervenir une déconvolution de la source et de la fonction de transfert du conduit vocal et exigent en général une cinquantaine d'opérations arithmétiques par échantillon numérique de la parole avant conversion numérique-analogique et restitution. Cette déconvolution source-conduit vocal permet d'une part la modification de la valeur de la fréquence fondamentale des sons voisés, c'est-à-dire des sons qui ont une structure harmonique et sont provoqués par vibration des cordes vocales, et d'autre part la com¬ pression des données représentant le signal de parole.
Celles qui appartiennent au second groupe de procédés utilisent la synthèse dans le domaine temporel par concaténation de formes d'onde. Cette solution a l'avantage de la flexibilité d'emploi et de la possi¬ bilité de réduire considérablement le nombre d'opéra¬ tions arithmétiques par échantillons. En contrepartie, elle ne permet pas de réduire le débit nécessaire à la transmission autant que les méthodes basées sur un modèle mathématique. Mais cet inconvénient disparait lorsqu'on recherche essentiellement une bonne qualité de restitution sans être gêné par la nécessité de trans¬ mettre des données sur un canal étroit.
La synthèse de parole suivant la présente invention appartient au second groupe. Elle trouve une application particulièrement importante dans le domaine de la transformation d'une chaîne orthographique (cons¬ tituée par exemple par le texte fourni par une impri¬ mante) en un signal de parole, par exemple restitué directement ou émis sur une ligne téléphonique normale.
On connaît déjà (Diphone synthesis using an overlap-add technique for speech waveforms concaténation, CHARPENTIER et al, ICASSP 1986,
IEEE-IECEJ-ASJ International Conférence on Acoustics Speech and Signal Processing, pages 2 015-2 018)un procédé de synthèse de parole à partir d'éléments sonores utilisant une technique d'addition-recouvrement de signaux à court-terme. Mais il s'agit de signaux à court-terme de synthèse, avec normalisation du recouvrement des fenêtres de synthèse, obtenus par un processus très complexe : - analyse du signal original par fenêtrage synchrone du voisement ;
- transformée de Fourier du signal à court-terme ;
- détection d'enveloppe ; - homothétie de l'axe fréquentiel sur le spectre de la source ;
- pondération du spectre modifié de la source par 1'enveloppe du signal d'origine ;
- transformée de Fourier inverse. La présente invention vise notamment à fournir un procédé relativement simple et permettant une reproduction acceptable de la parole. Elle part de l'hypothèse qu'on peut considérer les sons voisés comme la somme des réponses impulsionnelles d'un filtre, stationnaire durant plusieurs millisecondes, (correspondant au conduit vocal) excité par une suite de Dirac, c'est-à-dire par un "peigne d'impulsions", de façon synchrone de la fréquence fondamentale de la source, c'est-à-dire des cordes vocales, ce qui se tr-aduit dans le domaine spectral par un spectre harmonique, les harmoniques étant espacés de la fréquence fondamentale et pondérés par une enveloppe présentant des maxima appelés formants, dépendant de la fonction de transfert du conduit vocal. On a déjà proposé (Micro-phonemic method of speech synthesis, Lucaszewic et al, ICASSP 1987, IEEE, pages 1426-1429) d'effectuer une synthèse de parole où la diminution de la fréquence fondamentale des sons voisés, lorsqu'elle est nécessaire pour respecter des données prosodiques, est effectuée par insertion de zéros, les microphonèmes stockés devant alors obliga¬ toirement correspondre à la hauteur maximale possible du son à restituer, ou bien (brevet US 4 692 941) de diminuer de la même manière par insertion de zéros la fréquence fondamentale, et d'augmenter celle-ci en diminuant la taille de chaque période. Ces deux méthodes introduisent sur le signal de parole des distorsions non négligeables lors de la modification de la fréquence fondamentale.
La présente invention vise à fournir un procédé et un dispositif de synthèse à concaténation de formes d'onde ne présentant pas la limitation ci-dessus et permettant de fournir une parole de bonne qualité, tout en ne nécessitant qu'un faible volume de calculs arithmétiques. Dans ce but, l'invention propose notamment un procédé caractérisé en ce que :
- on effectue, au moins sur les sons voisés des éléments sonores, un fenêtrage centré sur le début de chaque réponse impulsionnelle du conduit vocal à l'excitation des cordes vocales (ce début pouvant être mémorisé dans un dictionnaire) à l'aide d'une fenêtre présentant un maximum pour ledit début et une amplitude décroissant jusqu'à zéro au bord de la fenêtre, et
- on replace les signaux fenêtres correspondant à chaque élément sonore avec un décalage temporel égal à la période fondamentale de synthèse à obtenir, inférieur ou supérieur à la période fondamentale d'origine suivant 1'information prosodique de hauteur de la fréquence fon¬ damentale et on effectue une sommation de ces signaux. Ces opérations constituent la procédure de re¬ couvrement puis addition des formes d'onde élémentaires obtenues par fenêtrage du signal de parole.
En général, on utilisera des éléments sonores constitués par des diphones. La largeur de la fenêtre peut varier entre des valeurs inférieures et supérieures à deux fois la pé¬ riode d'origine. Dans l'exemple de mise en oeuvre qui sera décrit plus loin, la largeur de la fenêtre est choisie avantageusement égale à environ deux fois la période d'origine en cas d'augmentation de la période fondamentale ou environ deux fois la période finale de synthèse en cas d'augmentation de la fréquence fondamen¬ tale, afin de compenser partiellement les modifications d'énergie dues au changement de la fréquence fondamen¬ tale, non compensées par une normalisation possible de l'énergie, tenant compte de la contribution de chaque fenêtre à l'amplitude des échantillons du signal numérique de synthèse : dans le cas d'une diminution de la période fondamentale, la largeur de la fenêtre sera donc inférieure à deux fois la période fondamentale d'origine. Il est peu souhaitable de descendre au dessous de cette valeur.
Du fait qu'il est possible de modifier la valeur de la fréquence fondamentale dans les deux sens, les diphones sont mémorisés avec la fréquence fondamentale naturelle du locuteur.
Avec une fenêtre de durée égale à deux périodes fondamentales consécutives dans le cas voisé, on obtient des formes d'onde élémentaires dont le spectre représen¬ te sensiblement 1'enveloppe du spectre du signal de parole ou spectre à court terme large bande -du fait que ce spectre est obtenu par convolution du spectre harmo¬ nique du signal de parole et de la réponse fréquentielle de la fenêtre, qui dans ce cas possède une largeur de bande supérieure à la distance entre harmoniques- ; la redistribution temporelle de ces formes d'onde élémen¬ taires donnera un signal possédant sensiblement la même enveloppe que le signal d'origine mais une distance entre harmoniques modifiée.
Avec une fenêtre de durée supérieure à deux pé- riodes fondamentales, on obtient des formes d'onde élémentaires dont le spectre est encore harmonique, ou spectre à court terme bande étroite -du fait que cette fois-ci la réponse fréquentielle de la fenêtre est moins large que la distance entre harmoniques- ; la redistri- bution temporelle de ces formes d'onde élémentaires donnera un signal possédant, comme le signal de synthèse précédent, sensiblement la même enveloppe que le signal d'origine à ceci près qu'on aura introduit des termes de réverbération (signaux dont le spectre possède une amplitude moindre, une phase différente, mais la même forme que le spectre d'amplitude du signal d'origine), dont l'effet ne sera audible qu'au delà de largeurs de fenêtre d'environ trois périodes, cet effet de réverbé¬ ration ne dégradant pas la qualité du signal de synthèse lorsque son amplitude est faible. On peut notamment utiliser une fenêtre de Han- ning, bien que d'autres formes de fenêtre soient éga¬ lement acceptables.
Le traitement défini ci-dessus peut également être appliqué aux sons dits sourds ou non voisés, pou- vant être représentés par un signal dont la forme s'apparente à celle d'un bruit blanc, mais sans synchronisation des signaux fenêtres : ceci a pour but d'homogénéiser le traitement sur les sons sourds et les sons voisés, ce qui permet d'une part le lissage entre éléments sonores (diphones) et entre phonèmes sourds et voisés, et d'autre part une modification du rythme. Il se pose un problème à la jonction entre diphones. Une solution pour écarter cette difficulté consiste à omettre l'extraction de formes d'onde élémentaires à partir des deux périodes fondamentales adjacentes de transition entre diphones (dans le cas des sons sourds, les marques de voisement sont remplacées par des marques posées arbitrairement) : on pourra soit définir une troisième fonction d'onde élémentaire en calculant la moyenne des deux fonctions d'onde élémentaires extraites de part et d'autre du diphone, soit utiliser la procé¬ dure d'addition-recouvrement directement sur ces deux fonctions d'onde élémentaires.
L'invention sera mieux comprise à la lecture de la description qui suit d'un mode particulier de mise en oeuvre de l'invention, donné à titre d'exemple non limitatif. La description se réfère aux dessins qui l'accompagnent, dans lesquels :
- la Figure 1 est un graphe destiné à illustrer la synthèse de la parole par concaténation de diphones et modification des paramètres prosodiques dans le domaine temporel, conformément à 1'invention ;
- la Figure 2 est un schéma synoptique montrant une constitution possible du dispositif de synthèse, implanté sur un calculateur hôte ; - la Figure 3 montre, à titre d'exemple, comment on modifie les paramètres prosodiques d'un signal natu¬ rel, dans le cas d'un phonème particulier ;
- les Figures 4A, 4B et 4C sont des graphiques destinés à montrer des modifications spectrales appor- tées à des signaux de synthèse voisés, la Figure 4A montrant le spectre d'origine, la Figure 4B le spectre avec diminution de la fréquence fondamentale et la Figure 4C le spectre avec augmentation de cette fréquence ; - la Figure 5 est un graphique montrant un prin¬ cipe d'atténuation des discontinuités entre diphones ;
- la Figure 6 est un schéma montrant le fenêtrage sur plus de deux périodes.
La synthèse d'un phonème est effectuée à partir de deux diphones stockés dans un dictionnaire, chaque phonème étant composé de deux demi-diphones. Le son "é" dans "période" par exemple sera obtenu à partir du second demi-diphone de "pai" et du premier demi-diphone de "air". Un module de traduction orthographique phoné¬ tique et de calcul de la prosodie (qui ne fait pas partie de l'invention) fournit à un instant donné, des indications identifiant : le phonème à restituer, d'ordre P - le phonème précédent, d'ordre P-l le phonème suivant, d'ordre P+l et donnant la durée à affecter au phonème P ainsi que les périodes au début et à la fin (Figure 1).
Une première opération d'analyse, qui n'est pas modifiée par l'invention, consiste à déterminer, par décodage du nom des phonèmes et des indications proso¬ diques, les deux diphones retenus pour le phonème à utiliser et le voisement.
Tous les diphones disponibles (au nombre de 1300 par exemple) sont mémorisés dans un dictionnaire 10 muni d'une table constituant le descripteur 12 et contenant l'adresse du début de chaque diphone (en nombre de blocs de 256 octets) la longueur du diphone et le milieu du diphone (ces deux derniers paramètres étant exprimés en nombre d'échantillons à partir du début) et des marques de voisement repérant le début de la réponse du conduit vocal à l'excitation des cordes vocales dans le cas d'un son voisé (au nombre de 35 par exemple). Des diction¬ naires de diphones répondant à ces critères sont dispo¬ nibles par exemple auprès du Centre National d'Etudes des Télécommunications.
Les diphones sont alors utilisés dans un processus d'analyse et de synthèse schématisé sur la Figure 1. On décrira ce processus en supposant qu'il est mis en oeuvre dans un dispositif de synthèse ayant la constitution montrée en figure 2, destiné à être relié à un calculateur hôte, tel que le processeur central d'un ordinateur personnel. On supposera également que la fréquence d'échantillonnage donnant la représentation des diphones est de 16 kHz. Le dispositif de synthèse (Figure 2) comporte alors une mémoire vive principale 16 qui contient un micro-programme de calcul, le dictionnaire de diphones 10 (c'est-à-dire des formes d'onde représentées par des échantillons) rangés dans l'ordre des adresses du descripteur, la table 12 constituant le descripteur de dictionnaire, et une fenêtre de Hanning, échantillonnée par exemple sur 500 points. La mémoire vive 16 constitue également mémoire de micro-trame et mémoire de travail. Elle est reliée par un bus de données 18 et un bus d'adresses 20 à un accès 22 au calculateur hôte. Chaque micro-trame émise pour restituer un phonème (Figure 2) est constituée, pour chacun des deux phonèmes P et P+l qui interviennent
- du numéro d'ordre du phonème,
- de la valeur de la période au début du phonème, de la valeur de période à la fin du phonème, et
- de la durée totale du phonème pouvant être remplacée par la durée du diphone pour le second phonème.
Le dispositif comprend encore, reliés aux bus 18 et 20, une unité de calcul locale 24 et un circuit d'aiguillage 26. Ce dernier permet de relier une mémoire vive 28 servant de tampon de sortie soit vers le calcu¬ lateur, soit vers un contrôleur 30 de convertisseur numérique/analogique 32 de sortie. Ce dernier attaque un filtre passe-bas 34, généralement limité à 8 kHz, qui alimente un amplificateur de parole 36.
Le fonctionnement du dispositif est le suivant. Le calculateur hôte (non représenté) charge les micro-trames dans le tableau réservé en mémoire 16, par l'intermédiaire de l'accès 22 et des bus 18 et 20, puis il commande le début de synthèse à l'unité de calcul 24. Cette unité de calcul recherche le numéro du phonème courant P, du phonème suivant P+l et du phonème précé¬ dent P-l dans le tableau de micro-trames, à l'aide d'un index mémorisé dans la mémoire de travail, initialisee à 1. Dans le cas du premier phonème, l'unité de calcul vient chercher uniquement les numéros du phonème courant et du phonème suivant. Dans le cas du dernier phonème, elle vient chercher le numéro du phonème précédent et celui du phonème courant.
Dans le cas général, un phonème est constitué de deux demi-diphones ; l'adresse de chaque diphone est recherchée par adressage matriciel dans le descripteur du dictionnaire par la formule suivante :
numéro du descripteur de diphone «
numéro du 1er phonème+ (numéro du 2ème phonème-l)*nombre de diphones
Sons voisés
L'unité de calcul charge, en mémoire de travail 16, l'adresse du diphone, sa longueur, son milieu ainsi que les trente-cinq marques de voisement. Elle charge ensuite, dans un tableau descripteur du phonème, les marques de voisement correspondant à la deuxième partie du diphone. Puis elle recherche, dans le dictionnaire de formes d'onde, la deuxième partie du diphone, qu'elle place dans un tableau représentant le signal du phonème d'analyse. Les marques conservées dans le tableau descripteur du phonème sont décrémentées de la valeur du milieu du diphone.
Cette opération est répétée pour la deuxième partie du phonème constituée par la première partie du deuxième diphone. Les marques de voisement de la première partie du deuxième diphone sont ajoutées aux marques de voisement du phonème et incrémentées de la valeur du milieu du phonème.
Dans le cas des sons voisés, l'unité de calcul, à partir des paramètres prosodiques (durée, période début et période fin du phonème) détermine alors le nombre de périodes nécessaire à la durée du phonème, suivant la formule :
nombre de périodes=2*durée du phonème / (période début+période fin) L'unité de calcul range en mémoire le nombre de marques du phonème naturel, égal au nombre de marques de voisement, puis détermine le nombre de périodes à éliminer ou à ajouter en effectuant la différence entre le nombre de périodes de synthèse et le nombre de périodes d'analyse, différence qui est fixée par la modification de tonalité à introduire à partir de celle qui correspond au dictionnaire. Pour chaque période de synthèse retenue, l'unité de calcul détermine ensuite la période d'analyse retenue parmi les périodes du phonème à partir des considéra¬ tions suivantes :
- la modification de la durée peut être considérée comme la mise en correspondance, par déformation de l'axe des temps du signal de synthèse, des n marques de voisement du signal d'analyse et des p marques du signal de synthèse, n et p étant des entiers prédé- terminés ;
à chacune des p marques du signal de synthèse doit être associée la marque la plus proche du signal d'analyse.
La duplication ou, au contraire, l'élimination de périodes également réparties sur tout le phonème modifie la durée de celui-ci.
Il faut noter qu'on n'aura pas à extraire une forme d'onde élémentaire à partir des deux périodes adjacentes de transition entre diphones : l'opération d'addition-recouvrement des fonctions élémentaires extraites des deux dernières périodes du premier diphone et des deux premières périodes du deuxième diphone permet le lissage entre ces diphones comme le montre la figure 5. Pour chaque période de synthèse, l'unité de calcul détermine le nombre de points à ajouter ou à supprimer à la période d'analyse en effectuant la différence entre cette dernière et la période de synthèse.
Comme on l'a indiqué plus haut, il est avanta¬ geux de choisir la largeur de la fenêtre d'analyse de la façon suivante, illustrée en Figure 3 :
- si la période de synthèse est inférieure à la période d'analyse (lignes A et B de la Figure 3), la taille de la fenêtre 38 est le double de la période de synthèse ;
- dans le cas contraire, la taille de la fenêtre 40 est obtenue en multipliant par deux la plus faible des valeurs de la période d'analyse courante et de la période d'analyse précédente (lignes C et D).
L'unité de calcul détermine un pas d'avancement dans la lecture des valeurs de la fenêtre, tabulée par exemple sur 500 points, le pas étant alors égal à 500 divisé par la taille de la fenêtre précédemment calculée. Elle lit dans la mémoire tampon de signal du phonème d'analyse 28 les échantillons de la période précédente et de la période courante, les pondère par la valeur de la fenêtre de Hanning 38 ou 40 indexée par le numéro de l'échantillon courant multiplié par le pas d'avancement dans la fenêtre tabulée et ajoute, au fur et à mesure, les valeurs calculées à la mémoire tampon du signal de sortie indexé par la somme du compteur de l'échantillon courant de sortie et de l'index de recherche des échantillons du phonème d'analyse. Le compteur de sortie courant est ensuite incrémenté de la valeur de la période de synthèse. Sons sourds (non voisés)
Pour les phonèmes sourds, le traitement est analogue au précédent, excepté que la valeur des pseudo-périodes (distance entre deux marques de voisement) n'est jamais modifiée : l'élimination de pseudo-périodes au centre du phonème diminue simplement la durée de celui-ci.
On n'augmente pas la durée de phonèmes sourds, excepté par addition de zéros au milieu des phonèmes "silence".
Le fenêtrage s'effectue par période pour norma¬ liser la somme des valeurs des fenêtres appliquées au signal :
du début de la période précédente à la fin de la période précédente, le pas d'avancement dans la lecture de la fenêtre tabulée est (dans le cas d'une tabulation sur 500 points) égal à 500 divisé par deux fois la durée de la période précédente ;
du début de la période courante à la fin de la période courante, le pas d'avancement dans la fenêtre tabulée est égal à 500 divisé par deux fois la durée de la période courante plus un décalage constant de 250 points.
A la fin du calcul du signal d'un phonème de synthèse, l'unité de calcul range la dernière période du phonème d'analyse et de synthèse dans la mémoire tampon 28 qui permet la transition entre phonèmes. Le compteur de 1'échantillon courant de sortie est décrémenté de la valeur de la dernière période de synthèse.
Le signal ainsi généré est envoyé, par blocs de 2048 échantillons, dans un de deux espaces mémoire réservés à la communication entre 1'unité de calcul et le contrôleur 30 du convertisseur numérique/analogique 32. Dès que le premier bloc est chargé dans la première zone tampon, le contrôleur 30 est activé par l'unité de calcul et vide cette première zone tampon. Pendant ce temps, l'unité de calcul remplit une deuxième zone tampon de 2048 échantillons. L'unité de calcul vient ensuite alternativement tester ces deux zones tampons grâce à un drapeau pour y charger le signal numérique de synthèse à la fin de chaque séquence de synthèse d'un phonème. Le contrôleur 30, en fin de lecture de chaque zone tampon, positionne le drapeau correspondant. En fin de synthèse, le contrôleur vide la dernière zone tampon et positionne un drapeau de fin de synthèse que le cal¬ culateur hôte peut lire via 1'accès de communication 22. L'exemple de spectre de signal de parole voisé d'analyse et de synthèse illustré en Figures 4A-4C montre que les transformations temporelles du signal numérique de parole n'affectent pas l'enveloppe du signal de synthèse, tout en modifiant la distance entre harmoniques, c'est-à-dire la fréquence fondamentale du signal de parole.
La complexité du calcul reste faible : le nombre d'opérations par échantillon est en moyenne de deux multiplications et deux additions pour la pondération et la sommation des fonctions élémentaires fournies par l'analyse.
L'invention est susceptible de nombreuses variantes de réalisation et, en particulier, comme on l'a indiqué plus haut, une fenêtre de largeur supérieure à deux périodes, comme le montre la Figure 6, éventuel¬ lement de taille fixe, peut donner des résultats acceptables.
On peut aussi utiliser le procédé de modifica¬ tion de la fréquence fondamentale sur des signaux numériques de parole en dehors de son application à la synthèse par diphones.

Claims

REVENDICATIONS
1. Procédé de synthèse de parole à partir d'éléments sonores (mots, syllabes, diphones ...) caractérisé en ce que :
- on effectue, au moins sur les sons voisés des éléments sonores, une analyse par fenêtrage sensiblement centré sur le début de chaque réponse impulsionnelle du conduit vocal à l'excitation des cordes vocales à l'aide d'une fenêtre de filtrage présentant une amplitude dé¬ croissant jusqu'à zéro aux bords de la fenêtre dont la largeur est au moins égale à deux fois la période fonda¬ mentale d'origine ou deux fois la période fondamentale de synthèse, - on replace les signaux résultant du fenêtrage correspondant à chaque élément sonore, avec un décalage temporel de ceux-ci égal à la période fondamentale de synthèse, inférieure ou supérieure à la période fonda¬ mentale d'origine, suivant l'information prosodique concernant la fréquence fondamentale de synthèse,
- on effectue la synthèse par sommation des signaux ainsi décalés.
2. Procédé de synthèse de parole selon la reven¬ dication 1, caractérisé en ce qu'on réalise un diction- naire d'éléments sonores, par exemple de diphones, on découpe le texte à synthétiser en micro-trames identi¬ fiées chacune par le numéro de 1'élément sonore corres¬ pondant (diphone) et au moins une information prosodi¬ que, constituée au moins par la valeur de la fréquence fondamentale en début et en fin d'élément et par la durée de 1'élément.
3. Procédé de synthèse de parole selon 1'une des revendications 1 et 2, caractérisé en ce que la largeur de la fenêtre est égale à deux fois la période d'origine en cas de diminution de la fréquence fondamentale ou deux fois la période finale de synthèse en cas d'augmen¬ tation de la fréquence fondamentale.
4. Procédé de synthèse de parole selon l'une des revendications 1 à 3, caractérisé en ce que la fenêtre est une fenêtre de Hanning.
5. Dispositif de synthèse de parole par mise en oeuvre du procédé selon la revendication 1, caractérisé en ce qu'il comprend, reliés à des bus (18,20) : une mémoire vive principale (16) qui contient un micro-programme de calcul, un dictionnaire de diphones (10) constitués de formes d'onde représentées par des échantillons rangés dans l'ordre des adresses d'un descripteur (12) de dictionnaire, et une fenêtre de Hanning échantillonnée, ladite mémoire vive (16) constituant également mémoire de micro-trame et mémoire de travail ; une unité de calcul locale (24) et un circuit d'aiguillage (26) permettant de relier une mémoire vive (28) servant de tampon de sortie soit vers l'unité de calcul, soit vers un contrôleur (30) de convertisseur numérique/analogique (32) de sortie attaquant un filtre passe-bas (34) qui alimente un amplificateur de parole (36).
PCT/FR1989/000438 1988-09-02 1989-09-01 Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde WO1990003027A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US07/487,942 US5327498A (en) 1988-09-02 1989-09-01 Processing device for speech synthesis by addition overlapping of wave forms
DK199001073A DK175374B1 (da) 1988-09-02 1990-05-01 Fremgangsmåde ved og udstyr til talesyntese ved sammenlægning-overlapning af bölgesignaler

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR8811517A FR2636163B1 (fr) 1988-09-02 1988-09-02 Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
FR88/11517 1988-09-02

Publications (1)

Publication Number Publication Date
WO1990003027A1 true WO1990003027A1 (fr) 1990-03-22

Family

ID=9369671

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1989/000438 WO1990003027A1 (fr) 1988-09-02 1989-09-01 Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde

Country Status (9)

Country Link
US (2) US5327498A (fr)
EP (1) EP0363233B1 (fr)
JP (1) JP3294604B2 (fr)
CA (1) CA1324670C (fr)
DE (1) DE68919637T2 (fr)
DK (1) DK175374B1 (fr)
ES (1) ES2065406T3 (fr)
FR (1) FR2636163B1 (fr)
WO (1) WO1990003027A1 (fr)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0527527A2 (fr) * 1991-08-09 1993-02-17 Koninklijke Philips Electronics N.V. Procédé et appareil de manipulation de la hauteur et de la durée d'un signal audio physique
EP0527529A2 (fr) * 1991-08-09 1993-02-17 Koninklijke Philips Electronics N.V. Procédé et appareil pour manipuler la durée d'un signal audio physique et support de données contenant une représentation d'un tel signal audio physique
US5611002A (en) * 1991-08-09 1997-03-11 U.S. Philips Corporation Method and apparatus for manipulating an input signal to form an output signal having a different length
EP0813184A1 (fr) * 1996-06-10 1997-12-17 Faculté Polytechnique de Mons Procédé de synthèse de son
US5774855A (en) * 1994-09-29 1998-06-30 Cselt-Centro Studi E Laboratori Tellecomunicazioni S.P.A. Method of speech synthesis by means of concentration and partial overlapping of waveforms
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch

Families Citing this family (212)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
FR2689667B1 (fr) * 1992-04-01 1995-10-20 Sagem Recepteur de bord d'aide a la navigation d'un vehicule automobile.
US5613038A (en) * 1992-12-18 1997-03-18 International Business Machines Corporation Communications system for multiple individually addressed messages
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US6122616A (en) * 1993-01-21 2000-09-19 Apple Computer, Inc. Method and apparatus for diphone aliasing
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JPH0736776A (ja) * 1993-07-23 1995-02-07 Reader Denshi Kk 線形フィルタ処理した複合信号の発生装置及び発生方法
US6502074B1 (en) * 1993-08-04 2002-12-31 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5633983A (en) * 1994-09-13 1997-05-27 Lucent Technologies Inc. Systems and methods for performing phonemic synthesis
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
CN1145926C (zh) * 1995-04-12 2004-04-14 英国电讯有限公司 用于语音合成的方法和设备
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
US5751901A (en) 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US5832441A (en) * 1996-09-16 1998-11-03 International Business Machines Corporation Creating speech models
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
US5915237A (en) * 1996-12-13 1999-06-22 Intel Corporation Representing speech using MIDI
WO1998035339A2 (fr) * 1997-01-27 1998-08-13 Entropic Research Laboratory, Inc. Systeme et procede permettant de mofifier la prosodie
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US6020880A (en) * 1997-02-05 2000-02-01 Matsushita Electric Industrial Co., Ltd. Method and apparatus for providing electronic program guide information from a single electronic program guide server
US6130720A (en) * 1997-02-10 2000-10-10 Matsushita Electric Industrial Co., Ltd. Method and apparatus for providing a variety of information from an information server
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
EP0976125B1 (fr) * 1997-12-19 2004-03-24 Koninklijke Philips Electronics N.V. Elimination de la periodicite d'un signal audio allonge
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
DE19861167A1 (de) 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE19837661C2 (de) * 1998-08-19 2000-10-05 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
US6178402B1 (en) 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US6298322B1 (en) 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
WO2001026091A1 (fr) * 1999-10-04 2001-04-12 Pechter William H Procede de production d'interpretation vocale viable de texte
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US7280969B2 (en) * 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
US7683903B2 (en) 2001-12-11 2010-03-23 Enounce, Inc. Management of presentation time in a digital media presentation system with variable rate presentation capability
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
JP3901475B2 (ja) * 2001-07-02 2007-04-04 株式会社ケンウッド 信号結合装置、信号結合方法及びプログラム
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US8145491B2 (en) * 2002-07-30 2012-03-27 Nuance Communications, Inc. Techniques for enhancing the performance of concatenative speech synthesis
US7805295B2 (en) 2002-09-17 2010-09-28 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal
CN1682281B (zh) 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
JP4490818B2 (ja) 2002-09-17 2010-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 定常音響信号のための合成方法
CN100388357C (zh) 2002-09-17 2008-05-14 皇家飞利浦电子股份有限公司 使用语音波形并接的合成语音信号的方法和系统
EP1628288A1 (fr) * 2004-08-19 2006-02-22 Vrije Universiteit Brussel Procédé et système pour la synthèse de son
DE102004044649B3 (de) * 2004-09-15 2006-05-04 Siemens Ag Verfahren zur integrierten Sprachsynthese
JP5032314B2 (ja) * 2005-06-23 2012-09-26 パナソニック株式会社 オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
JP4246790B2 (ja) * 2006-06-05 2009-04-02 パナソニック株式会社 音声合成装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4805121B2 (ja) * 2006-12-18 2011-11-02 三菱電機株式会社 音声合成装置、音声合成方法及び音声合成プログラム
EP2135231A4 (fr) * 2007-03-01 2014-10-15 Adapx Inc Système et procédé d'apprentissage dynamique
EP1970894A1 (fr) 2007-03-12 2008-09-17 France Télécom Procédé et dispositif de modification d'un signal audio
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (fr) 2008-12-11 2010-06-17 Novauris Technologies Limited Reconnaissance de la parole associée à un dispositif mobile
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9401138B2 (en) * 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
WO2013014876A1 (fr) * 2011-07-28 2013-01-31 日本電気株式会社 Dispositif de traitement de fragment, procédé de traitement de fragment et programme de traitement de fragment
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (fr) 2012-06-08 2013-12-12 Apple Inc. Systèmes et procédés servant à reconnaître des identificateurs textuels dans une pluralité de mots
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
EP2973002B1 (fr) 2013-03-15 2019-06-26 Apple Inc. Entraînement d'un utilisateur par un assistant numérique intelligent
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (fr) 2013-03-15 2014-09-18 Apple Inc. Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif
WO2014197336A1 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix
WO2014197334A2 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (fr) 2013-06-08 2014-12-11 Apple Inc. Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (fr) 2013-06-13 2014-12-18 Apple Inc. Système et procédé d'appels d'urgence initiés par commande vocale
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10015030B2 (en) * 2014-12-23 2018-07-03 Qualcomm Incorporated Waveform for transmitting wireless communications
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017129270A1 (fr) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé pour améliorer une transition d'une partie de signal audio cachée à une partie de signal audio suivante d'un signal audio
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
WO2019068915A1 (fr) * 2017-10-06 2019-04-11 Sony Europe Limited Enveloppe de fichier audio basée sur une puissance rms dans des séquences de sous-fenêtres
US10594530B2 (en) * 2018-05-29 2020-03-17 Qualcomm Incorporated Techniques for successive peak reduction crest factor reduction

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4398059A (en) * 1981-03-05 1983-08-09 Texas Instruments Incorporated Speech producing system
US4692941A (en) 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ICASSP 82, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Paris, FR, 3-5 May 1982, Volume 3, IEEE, (New York, US), J.-L. COURBON et al., "Sparte: A Text-to-Speech Machine Using Synthesis by Diphones", pages 1597-1600. *
ICASSP 86, IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Tokyo, JP, 7-11 April 1986, Volume 3 of 4, IEEE, (New York, US), F.J. CHARPENTIER et al., "Diphone Synthesis Using an Overlap-Add Technique For Speech Waveforms Concatenation", pages 2015-2018. *
ICASSP 86, IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Tokyo, JP, 7-11 April 1986, Volume 3 of 4, IEEE, (New York, US), J. MAKHOUL et al., "Time-Scale Modification in Medium to Low Rate Speech Coding", pages 1705-1708. *
ICASSP 87, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Dallas, Texas, 6-9 April 1987, Volume 3 of 4, IEEE, (New York, US), K. LUKASZEWICZ et al., "Microphonemic Method of Speech Synthesis", pages 1426-1429. *
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Volume ASSP-27, No. 2, April 1979, IEEE, (New York, US), D. MALAH et al., "Time-Domain Algorithms for Harmonic Bandwidth Reduction and Time Scaling of Speech Signals", pages 121-133. *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0527527A2 (fr) * 1991-08-09 1993-02-17 Koninklijke Philips Electronics N.V. Procédé et appareil de manipulation de la hauteur et de la durée d'un signal audio physique
EP0527529A2 (fr) * 1991-08-09 1993-02-17 Koninklijke Philips Electronics N.V. Procédé et appareil pour manipuler la durée d'un signal audio physique et support de données contenant une représentation d'un tel signal audio physique
EP0527529A3 (en) * 1991-08-09 1993-05-05 Koninkl Philips Electronics Nv Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal
EP0527527A3 (en) * 1991-08-09 1993-05-05 Koninkl Philips Electronics Nv Method and apparatus for manipulating pitch and duration of a physical audio signal
US5479564A (en) * 1991-08-09 1995-12-26 U.S. Philips Corporation Method and apparatus for manipulating pitch and/or duration of a signal
US5611002A (en) * 1991-08-09 1997-03-11 U.S. Philips Corporation Method and apparatus for manipulating an input signal to form an output signal having a different length
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
US5774855A (en) * 1994-09-29 1998-06-30 Cselt-Centro Studi E Laboratori Tellecomunicazioni S.P.A. Method of speech synthesis by means of concentration and partial overlapping of waveforms
EP0813184A1 (fr) * 1996-06-10 1997-12-17 Faculté Polytechnique de Mons Procédé de synthèse de son
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
US5987413A (en) * 1996-06-10 1999-11-16 Dutoit; Thierry Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum

Also Published As

Publication number Publication date
FR2636163A1 (fr) 1990-03-09
DK175374B1 (da) 2004-09-20
DK107390D0 (da) 1990-05-01
DK107390A (da) 1990-05-30
US5524172A (en) 1996-06-04
JP3294604B2 (ja) 2002-06-24
FR2636163B1 (fr) 1991-07-05
ES2065406T3 (es) 1995-02-16
EP0363233A1 (fr) 1990-04-11
DE68919637T2 (de) 1995-07-20
DE68919637D1 (de) 1995-01-12
CA1324670C (fr) 1993-11-23
EP0363233B1 (fr) 1994-11-30
US5327498A (en) 1994-07-05
JPH03501896A (ja) 1991-04-25

Similar Documents

Publication Publication Date Title
EP0363233B1 (fr) Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde
McLoughlin Applied speech and audio processing: with Matlab examples
Alsteris et al. Short-time phase spectrum in speech processing: A review and some experimental results
FR2553555A1 (fr) Procede de codage de la parole et dispositif pour sa mise en oeuvre
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
JPH0677200B2 (ja) デジタル化テキストの音声合成用デジタルプロセッサ
RU2296377C2 (ru) Способ анализа и синтеза речи
CN111833843A (zh) 语音合成方法及系统
FR2632725A1 (fr) Procede et dispositif d'analyse, synthese, codage de la parole
Xie et al. Noisy-to-noisy voice conversion framework with denoising model
EP1543497B1 (fr) Procede de synthese d'un signal de son stationnaire
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3622990B2 (ja) 音声合成装置及び方法
Bous A neural voice transformation framework for modification of pitch and intensity
EP0595950B1 (fr) Procede et dispositif de reconnaissance de la parole en temps reel
Glinski Diphone speech synthesis based on a pitch-adaptive short-time Fourier transform
JPH0258640B2 (fr)
Kawa et al. Development of a text-to-speech system for Japanese based on waveform splicing
KR100363876B1 (ko) 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
Simha Improving Automatic Speech Recognition on Endangered Languages
Amadeus et al. Phonetically rich corpus construction for a low-resourced language
Kumari et al. 20Conversion of English Text-to-Speech (TTS) Using Indian Speech Signal
Naveena et al. Extraction of Prosodic Features to Automatically Recognize Tamil Dialects
JP2001312300A (ja) 音声合成装置
Rahman Pitch shifting of voices in real-time

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): DK JP US