WO2000031722A1 - Method for controlling duration in speech synthesis - Google Patents

Method for controlling duration in speech synthesis Download PDF

Info

Publication number
WO2000031722A1
WO2000031722A1 PCT/EP1999/008825 EP9908825W WO0031722A1 WO 2000031722 A1 WO2000031722 A1 WO 2000031722A1 EP 9908825 W EP9908825 W EP 9908825W WO 0031722 A1 WO0031722 A1 WO 0031722A1
Authority
WO
WIPO (PCT)
Prior art keywords
level
duration
syllable
phrase
rule
Prior art date
Application number
PCT/EP1999/008825
Other languages
German (de)
French (fr)
Inventor
Oliver Jokisch
Diane Hirschfeld
Matthias Eichner
Rüdiger Hoffmann
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Publication of WO2000031722A1 publication Critical patent/WO2000031722A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the invention relates to a method for continuous control in speech synthesis according to the preamble of claim 1.
  • rule-based methods have been used to calculate the duration of the sounds.
  • a specific duration is calculated for each sound of the synthetic utterance, which results from the neutral sound duration through modification by various influencing factors.
  • the invention is therefore based on the object of providing a method for continuous control in speech synthesis which eliminates the deficiencies described in the prosodic processing stages, which significantly improves the naturalness of synthetic speech and which has the disadvantages of conventional rule-based models for continuous control by generating a natural speaking rhythm eliminated by correctly determined duration of sounds.
  • the present procedure clearly distinguishes itself from previous approaches in which the continuous control was implemented at the sound level with the help of a rule set and a speaker-independent permanent statistics.
  • the naturalness of a speech signal is significantly improved by particularly taking into account the temporal, speaker-specific structures that have a great influence on the naturalness of the speech signal. Therefore, the present method for speech rhythm control or continuous control in speech synthesis uses continuous statistics that are obtained from the data of the original speaker.
  • the method uses a multi-level model for continuous control in speech synthesis. It forms the language processing that takes place in humans at different levels. These are a phrase, syllable and phonetic level that alternatively use statistical / rule-based or learning methods that are based on the individual data of the original speaker.
  • the target durations are therefore calculated independently at different levels, namely the phrase level, the syllable level and the phonetic level.
  • rule-based or learning procedures are used at each level and data exchange is possible between the procedures, which enables the combination of rule-based with learning procedures.
  • the procedures at the individual levels use speaker-specific databases or are trained on the target speaker, in contrast to the general rules previously used for all speakers.
  • the duration for each prosodic phrase in a text is calculated depending on the number of syllables in the phrase and the phrase type. Either a rule-based calculation rule that works on the basis of speaker-specific statistics or a neural network that is trained on the speaker is used.
  • the syllable duration is calculated for each syllable within a prosodic phrase.
  • a learning process or a rule-based approach is used.
  • the methods evaluate various phonetic characteristics, such as For example, emphasize / not emphasize or type of syllable core, and use this to generate the syllable duration.
  • the syllable durations are then adapted to the phrase duration calculated in the phrase level.
  • the syllable duration is divided into the individual sounds.
  • the method used here can again be a rule-based or a learning method.
  • the multi-level hybrid structure which is structured hierarchically into phonetic, syllable and phrase levels, combines a rule-based procedure and an artificial neural network.
  • the interfaces between the alternative approaches are defined so that data can be exchanged and the end result results from a combination of the partial results from different processing stages. In this way, the advantages of the rule-based and the neural method can be optimally exploited with an increase in overall quality.
  • Fig. 1 shows a basic multi-level model for continuous control in speech synthesis.
  • the multi-stage hybrid structure shown in FIG. 1 is hierarchically divided into phonetic, syllable and phrase levels and combines rule-based methods and an artificial neural network.
  • the interfaces between the alternative approaches are defined so that data can be exchanged and the end result results from a combination of the partial results from different processing stages. In this way, the advantages of the rule-based and the neural method can be optimally used with an increase in overall quality.
  • the goal of a hybrid data-driven or rule-based rhythm control is the combination of proven knowledge components with the ability to vary the speaking rhythm and even to train speaker-specific features.
  • the strategy takes four aspects into account:
  • segment duration control Division of the segment duration control into three representation levels, namely phrase 1, syllable 2 and sound 3, each with its own data node for training and for generating the target duration;
  • each level 1 to 3 runs a neural or a rule-based algorithm 4 or 5 using the same database 7 to 9 corresponding to the respective level 1 to 3;
  • the extracted prosodic, syllable and sound database 7, 8, 8 'and 9 including the statistical parameters come from a (variable) speaker who must always agree with the speaker of the diphone inventory in database 10.
  • the diphone inventory that is to say the corresponding database 10 for acoustic synthesis and the aforementioned prosodic syllable and phonetic database 7, 8, 8 'and 9 are based on a variable speaker.
  • the controllable switchover 6 in each level 1 to 3 between neural and rule-based methods or algorithms serve both to combine and to use one of the two possibilities mentioned.
  • Level 1 receives the input data from the text analysis 11 both for the artificial neural networks 4 and for the rule-based method 5.
  • the acoustic synthesis 12 takes place with the output data of the level 3, it having to be emphasized again that the diphone inventory in the Database 10 for acoustic synthesis are based on a speaker who is identical to that of databases 7 to 9.
  • the neural algorithm used corresponds to the well-known ELMAN type.
  • basic values of prosodic contours here relative segment durations, are trained and predicted in the can phase.
  • the input coding depends on the respective processing level, namely the phrase duration level 1, the syllable duration level 2 or the sound level 3.
  • the rule-based or formula-based continuous control uses a set of rules or formulas for each level 1 to 3. These rules are extracted from databases 7 to 10 by statistical analysis. These rules model linguistic influencing factors at the processing levels.
  • Level 1 determines the phrase duration for a given prosodic phrase depending on the number of syllables and the type of prosodic phrase (see Formula 1).
  • the second level calculates the syllable duration of each syllable as a linear combination of a number of sounds.
  • Different phonetic properties for example the accent or the core type, influence the duration of the syllable in different ways, for example the core type causes a lengthening by a factor and an accented syllable is expanded by adding a constant as shown in the following formula .
  • the syllables are then adjusted by linear stretching or contraction to fit within the duration frame calculated in phrase level 1. Finally, the duration of each sound has to be adjusted to the frame of the sound duration.
  • a stretch factor is calculated iteratively for a certain syllable duration and the standard deviations from the duration of the sound.
  • the duration of a phrase is primarily determined by the number of syllables, the parameters for its calculation being determined using statistics from the data of the original speaker.
  • the type of a phrase also affects its length. Depending on the phrase type, the mean phrase duration is corrected using coefficients.
  • results of the statistical analysis of syllable duration depending on the number of sounds, the accentuation, the information content, the type of the syllable nucleus, the position of the syllable and the position of the syllable in the phrase are used as the basis for the calculation of the syllable durations. These influencing factors on the syllable duration are expressed by linear dependencies.
  • the determined syllable durations are then added up for each phrase, adapted to the phrase duration determined in level 1 by linear expansion or compression of all syllable durations.
  • the calculation of the actual duration of the sound is based on the calculated syllable duration.
  • the different elasticity of the individual sounds is taken into account. It is assumed that all sounds of a syllable are subjected to a constant stretching K.
  • phrase level 1 the duration ir * is calculated for each prosodic phrase in a text, depending on the number of syllables in the phrase and the phrase type. Either a rule-based calculation rule that works on the basis of speaker-specific statistics or a neural network that is trained on the speaker is used.
  • the syllable duration is calculated for each syllable within a prosodic phrase.
  • phrase level 1 either a learning method 4 or a rule-based approach 5 is used for this.
  • the methods evaluate various phonetic characteristics, such as emphasized / unstressed or type of syllable nucleus, and use these to generate the syllable durations. These durations are then adapted to the phrase duration calculated in phrase level 1.
  • phrase duration calculated in phrase level 1 is then adjusted.
  • the syllable duration is divided into the individual sounds.
  • the method used here can again be a rule-based or a learning method. List of reference numbers

Abstract

Speech synthesis systems and methods serve to convert a written text into an acoustic utterance. The invention relates to a method which permits a speaker-specific speech rhythm. According to this method a multistage hybrid structure is hierarchically divided into three levels, a phoneme level (1), a syllable level (2) and a phrase level (3). A rule-based or neuronal method (5 or 4) can be applied at each of the above levels (1 to 3).

Description

B E S C H R E I B U N G DESCRIPTION
VERFAHREN ZUR DAUERSTEUERUNG IN DER SPRACHSYNTHESEMETHOD FOR CONTINUOUS CONTROL IN LANGUAGE SYNTHESIS
Die Erfindung betrifft ein Verfahren zur Dauersteuerung in der Sprachsynthese nach dem Oberbegriff des Patentanspruchs 1.The invention relates to a method for continuous control in speech synthesis according to the preamble of claim 1.
Verfahren zur Sprachsynthese bzw. Sprachsynthesesysteme sind grundsätzlich bekannt. Sie setzen einen geschriebenen Text in eine akustische Äußerung um. Diese sogenannten Text-zu-Sprache-Systeme (Text to Speech) erreichen eine hohe Verständlichkeit, beherrschen mehrere Sprachen und können nahezu beliebige Texte synthetisieren. Trotzdem stellt die Sprachsynthese weiterhin eine Herausforderung für die Technik dar. Die Nutzerakzeptanz dieser Systeme ist aufgrund der geringen Natürlichkeit und der größeren Konzentration, die der Hörer im Vergleich zur natürlichen Sprache beim Zuhören aufwenden muß, eher gering. Dies steht einer breiten Anwendung dieser Systeme bisher im Weg. Außerdem werden mit der derzeit erreichten hohen segmentalen Sprachqualität von solchen Systemen und Verfahren verstärkt Mängel in den prosodischen Verarbeitungsstufen wahrnehmbar. Als besonders störend wird der fehlende Sprechrhythmus empfunden, der in einem solchen System weitgehend durch die Lautdauersteuerung modelliert wird.Methods for speech synthesis or speech synthesis systems are known in principle. They convert a written text into an acoustic expression. These so-called text-to-speech systems (Text to Speech) achieve a high level of comprehensibility, speak several languages and can synthesize almost any text. Nevertheless, speech synthesis continues to be a challenge for technology. The user acceptance of these systems is rather low due to the low naturalness and the greater concentration that the listener has to spend in listening compared to natural language. So far, this has stood in the way of widespread use of these systems. In addition, with the high segmental speech quality currently achieved by such systems and processes, deficiencies in the prosodic processing levels are increasingly noticeable. The lack of rhythm, which is largely modeled in such a system by the loudness control, is perceived as particularly disturbing.
Bisher wurden zur Berechnung der Lautdauern regelbasierte Verfahren eingesetzt. In einem solchen Verfahren wird für jeden Laut der synthetischen Äußerung eine spezifische Dauer berechnet, die sich aus der neutralen Lautdauer durch Modifikation durch verschiedene Einflußfaktoren ergibt.So far, rule-based methods have been used to calculate the duration of the sounds. In such a method, a specific duration is calculated for each sound of the synthetic utterance, which results from the neutral sound duration through modification by various influencing factors.
Aus J. Acoustic Society America, vol. 59, Mai 1976, Seiten 1208 bis 1221 ist von Denis H. Klatt ein Modell für die amerikanische Sprache vorgestellt worden. Außerdem ist von Denis H. Klatt in der J. Acoustic Society America 82(3), September 1987, Seiten 737 bis 797 unter dem Titel "Review of Text-to-Speech Conversation for English" ein weiterentwickeltes Verfahren bekanntgemacht worden. Diese Verfahren gehen von einer allgemeinen, sprecherunabhängigen, sprachenspezifischen Lautdauerstatistik aus und sind in der Lage korrekte segmentelle Lautdauern zu generieren. Mit der Verbesserung der segmentalen Sprachqualität werden zunehmend Mängel in den prosodischen Verarbeitungsstufen akustisch wahrnehmbar. Als Störung werden unter anderem besonders "falsche" Lautdauern und fehlender Sprachrhythmus empfunden.From J. Acoustic Society America, vol. 59, May 1976, pages 1208 to 1221 by Denis H. Klatt is a model for the American language has been introduced. In addition, a further developed method has been published by Denis H. Klatt in J. Acoustic Society America 82 (3), September 1987, pages 737 to 797 under the title "Review of Text-to-Speech Conversation for English". These methods are based on general, speaker-independent, language-specific duration statistics and are able to generate correct segmental duration. With the improvement of the segmental speech quality, deficiencies in the prosodic processing levels become increasingly audible. Among other things, particularly "wrong" sound durations and a lack of speech rhythm are perceived as a disturbance.
In der Veröffentlichung "Variabilität und Stabilität segmentaler Merkmale unter dem Aspekt der kcnkatenativen Sprachsynthese - Vokale -" von Diane Hirschfeld, TU Dresden im Tagungsband Elektr. Sprachsignalverarbeitung, Seiten 94 bis 101 und in der Veröffentlichung "Neuronale Prosodigenerierung - Einfluß der Trainingsdaten von 0. Jokisch und M. Peschek, TU Dresden in Fortschritte der Akustik - DAGA Konferenz 98 in Zürich, Seiten 352 und 353, sind die Probleme der bisherigen Sprachsynthesesysteme beschrieben sowie bestimmte Lösungsansätze dafür. So wird darauf hingewiesen, daß trainingsbasierte Prosodiemodelle, zum Beispiel unter Verwendung neuronaler Netze, einen Lösungansatz darstellen, zumal dadurch eine flexible Anpassung an Applikations- bzw. Nutzeranforderungen möglich ist. Es wird der tatsächliche Arbeitsstand eines Prosodiemoduls auf neutraler Basis vorgestellt, der den geeigneten Trainingskorpus diskutiert und praktische Effekte bei Variationen des Sprechers, des Sprechstils und des Datenumfangs demonstriert.In the publication "Variability and Stability of Segmental Characteristics under the Aspect of Concatenative Speech Synthesis - Vowels -" by Diane Hirschfeld, TU Dresden in the conference volume Electrical Speech Signal Processing, pages 94 to 101 and in the publication "Neural Prosodigeneration - Influence of Training Data from 0. Jokisch and M. Peschek, TU Dresden in Advances in Acoustics - DAGA Conference 98 in Zurich, pages 352 and 353, describe the problems of previous speech synthesis systems and specific approaches to solving them, thus pointing out that training-based prosody models, for example using neural networks , represent a solution, especially since this enables flexible adaptation to application or user requirements. The actual work status of a prosody module is presented on a neutral basis, which discusses the suitable training corpus and practical effects in the case of variations of the speaker, the Sp demonstrated the legal style and the scope of the data.
Wie bereits dargestellt, werden mit der Verbesserung der segmentalen Sprachqualität in der Sprachsynthese zunehmend Mängel in den prosodischen Verarbeitungsstufen akustisch wahrnehmbar. Als störend werden unter anderem falsche Laufdauern und fehlender Sprechrhythmus empfunden.As already shown, with the improvement of segmental speech quality in speech synthesis, increasing Defects in the prosodic processing stages can be perceived acoustically. Among other things, wrong running times and lack of rhythm are perceived as disturbing.
In dem bereits angegebenen Modell von Denis H. Klatt wird lediglich die Lautebene berücksichtigt und damit ist dieses Modell nicht in der Lage, eine natürliche rhythmische Struktur zu realisieren. Diese wiederum ist wichtig für die Verständlichkeit und Annehmlichkeit synthetischer Sprache.In the model by Denis H. Klatt already mentioned, only the sound level is taken into account and this model is therefore not able to realize a natural rhythmic structure. This in turn is important for the comprehensibility and convenience of synthetic language.
Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren zur Dauersteuerung in der Sprachsynthese zu schaffen, das die geschilderten Mängel in den prosodischen Verarbeitungsstufen beseitigt, das die Natürlichkeit der synthetischen Sprache wesentlich verbessert und das die Nachteile herkömmlicher regelbasierter Modelle zur DauerSteuerung durch Generierung eines natürlichen Sprechrhythmus durch korrekt bestimmte Lautdauern beseitigt.The invention is therefore based on the object of providing a method for continuous control in speech synthesis which eliminates the deficiencies described in the prosodic processing stages, which significantly improves the naturalness of synthetic speech and which has the disadvantages of conventional rule-based models for continuous control by generating a natural speaking rhythm eliminated by correctly determined duration of sounds.
Die erfindungsgemäße Lösung besteht im Kennzeichen des Patentanspruchs 1.The solution according to the invention consists in the characterizing part of patent claim 1.
Weitere Lösungen bzw. Ausgestaltungen der Erfindung sind in den Kennzeichen der Patentansprüche 2 bis 13 charakterisiert.Further solutions or refinements of the invention are characterized in the characterizing parts of patent claims 2 to 13.
Das vorliegende Verfahren grenzt sich deutlich von bisherigen Ansätzen ab, in denen die Dauersteuerung mit Hilfe eines Regelsatzes und einer sprecherunabhängigen Dauerstatistik auf Lautebene realisiert wurde. Beim vorliegenden Verfahren wird die Natürlichkeit eines Sprachsignals wesentlich dadurch verbessert, daß gerade die zeitlichen, sprecherindividuellen Strukturen, die auf die Natürlichkeit des Sprachsignals einen großen Einfluß haben, besonders berücksichtigt werden. Deshalb verwendet das vorliegende Verfahren zur Sprechrhythmussteuerung bzw. Dauersteuerung in der Sprachsynthese Dauerstatistiken, die aus den Daten des Originalsprechers gewonnen werden. Bei dem Verfahren wird ein Mehrebenenmodell zur Dauersteuerung in der Sprachsynthese verwendet. Es bildet die Sprachverarbeitung, die beim Menschen auf verschiedenen Ebenen stattfindet. Dies sind eine Phrasen-, Silben- und Lautebene, die alternativ statistik-/regelbasierte oder lernende Verfahren einsetzen, die auf den individuellen Daten des Originalsprechers aufbauen.The present procedure clearly distinguishes itself from previous approaches in which the continuous control was implemented at the sound level with the help of a rule set and a speaker-independent permanent statistics. In the present method, the naturalness of a speech signal is significantly improved by particularly taking into account the temporal, speaker-specific structures that have a great influence on the naturalness of the speech signal. Therefore, the present method for speech rhythm control or continuous control in speech synthesis uses continuous statistics that are obtained from the data of the original speaker. The method uses a multi-level model for continuous control in speech synthesis. It forms the language processing that takes place in humans at different levels. These are a phrase, syllable and phonetic level that alternatively use statistical / rule-based or learning methods that are based on the individual data of the original speaker.
Es erfolgt also eine unabhängige Berechnung der Zieldauern auf verschiedenen Ebenen, nämlich der Phrasenebene, der Silbenebene und der Lautebene. Auf jeder Ebene werden alternativ regelbasierte oder lernende Verfahren eingesetzt und zwischen den Verfahren ist ein Datenaustausch möglich, der die Kombination regelbasierter mit lernenden Verfahren ermöglicht. Die Verfahren auf den einzelnen Ebenen verwenden sprecherspezifische Datenbasen oder sind auf den Zielsprecher trainiert, im Gegensatz zu den bisher verwendeten allgemeinen Regeln für alle Sprecher.The target durations are therefore calculated independently at different levels, namely the phrase level, the syllable level and the phonetic level. Alternatively, rule-based or learning procedures are used at each level and data exchange is possible between the procedures, which enables the combination of rule-based with learning procedures. The procedures at the individual levels use speaker-specific databases or are trained on the target speaker, in contrast to the general rules previously used for all speakers.
Auf der Phrasenebene wird für jede prosodische Phrase eines Textes die Dauer in Abhängigkeit von der Anzahl der Silben in der Phrase und dem Phrasentyp berechnet. Dabei wird entweder eine regelbasierte Berechnungsvorschrift, die auf der Grundlage einer sprecherspezifischen Statistik arbeitet oder ein neuronales Netz , das auf den Sprecher trainiert ist, verwendet.At the phrase level, the duration for each prosodic phrase in a text is calculated depending on the number of syllables in the phrase and the phrase type. Either a rule-based calculation rule that works on the basis of speaker-specific statistics or a neural network that is trained on the speaker is used.
Auf der Silbenebene wird für jede Silbe innerhalb einer prosodischen Phrase die Silbendauer berechnet. Genau wie auf der Phrasenebene wird dazu entweder ein lernendes Verfahren oder ein regelbasierter Ansatz eingesetzt. Die Verfahren werten verschiedene phonetische Merkmale, wie zum Bespiel betont/nichtbetont oder Typ des Silbenkerns, aus und generieren anhand dieser die Silbendauern. Die Silbendauern werden anschließend an die in der Phrasenebene errechnete Phrasendauer angepaßt. Auf der Lautebene wird die Silbendauer auf die Einzellaute aufgeteilt. Das dabei zum Einsatz kommende Verfahren kann wieder ein regelbasierendes oder ein lernendes Verfahren sein.At the syllable level, the syllable duration is calculated for each syllable within a prosodic phrase. Just like at the phrase level, either a learning process or a rule-based approach is used. The methods evaluate various phonetic characteristics, such as For example, emphasize / not emphasize or type of syllable core, and use this to generate the syllable duration. The syllable durations are then adapted to the phrase duration calculated in the phrase level. At the sound level, the syllable duration is divided into the individual sounds. The method used here can again be a rule-based or a learning method.
Damit wird ein neues Verfahren geschaffen, das die Modellierung eines sprecherspezifischen Sprechrhythmus ermöglicht. Der mehrstufige hybride Aufbau, der hierarchisch in Laut-, Silben- und Phrasenebene gegliedert ist, kombiniert ein regelbasiertes Verfahren und ein künstliches neuronales Netz. Die Schnittstellen zwischen den alternativen Ansätzen sind so definiert, daß ein Datenaustausch möglich ist und sich das Endergebnis aus einer Kombination der Teilergebnisse verschiedener Verarbeitungsstufen ergibt. Auf diese Weise lassen sich die Vorteile des regelbasierten und des neuronalen Verfahrens bei einem Zuwachs an Gesamtqualität optimal ausnutzen.This creates a new procedure that enables the modeling of a speaker-specific speaking rhythm. The multi-level hybrid structure, which is structured hierarchically into phonetic, syllable and phrase levels, combines a rule-based procedure and an artificial neural network. The interfaces between the alternative approaches are defined so that data can be exchanged and the end result results from a combination of the partial results from different processing stages. In this way, the advantages of the rule-based and the neural method can be optimally exploited with an increase in overall quality.
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung, insbesondere des erfindungsgemäßen Verfahrens, ergeben sich aus der nachfolgenden Beschreibung in Verbindung mit dem in der Zeichnung dargestellten Ausführungsbeispiel.Further advantages, features and possible uses of the present invention, in particular the method according to the invention, result from the following description in connection with the exemplary embodiment shown in the drawing.
Die Erfindung wird im folgenden anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher beschrieben. In der Beschreibung, in den Patentansprüchen, der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und zugeordneten Bezugszeichen verwendet. In der Zeichnung bedeutet:The invention is described below with reference to an embodiment shown in the drawing. In the description, in the patent claims, in the abstract and in the drawing, the terms and associated reference symbols used in the list of reference symbols given below are used. In the drawing means:
Fig. 1 ein prinzipielles Mehrebenenmodell zur Dauersteuerung in der Sprachsynthese.Fig. 1 shows a basic multi-level model for continuous control in speech synthesis.
Der in Fig. 1 dargestellte mehrstufige hybride Aufbau ist hierarchisch in Laut-, Silben- und Phrasenebene gegliedert und kombiniert regelbasierte Verfahren und ein künstliches neuronales Netz. Die Schnittstellen zwischen den alternativen Ansätzen sind so definiert, daß ein Datenaustausch möglich ist und sich das Endergebnis aus einer Kombination der Teilergebnisse verschiedener Verarbeitungsstufen ergibt. Auf diese Art und Weise lassen sich die Vorteile des regelbasierten und des neuronalen Verfahrens bei einem Zuwachs an Gesamtqualität optimal nutzen.The multi-stage hybrid structure shown in FIG. 1 is hierarchically divided into phonetic, syllable and phrase levels and combines rule-based methods and an artificial neural network. The interfaces between the alternative approaches are defined so that data can be exchanged and the end result results from a combination of the partial results from different processing stages. In this way, the advantages of the rule-based and the neural method can be optimally used with an increase in overall quality.
Das Ziel einer hybriden datengetriebenen bzw. regelbasierten Rhythmussteuerung ist die Kombination von bewährten Wissenskomponenten mit der Fähigkeit, den Sprechrhythmus zu variieren und sogar sprecherindividuelle Merkmale nachzutrainieren. Die Strategie berücksichtigt vier Gesichtspunkte:The goal of a hybrid data-driven or rule-based rhythm control is the combination of proven knowledge components with the ability to vary the speaking rhythm and even to train speaker-specific features. The strategy takes four aspects into account:
Einteilung der Segmentdauersteuerung in drei Repräsentationsebenen, nämlich Phrase 1, Silbe 2 und Laut 3 mit jeweils eigenen Datenknoten zum Training sowie zur Generierung der Zieldauern;Division of the segment duration control into three representation levels, namely phrase 1, syllable 2 and sound 3, each with its own data node for training and for generating the target duration;
pro Ebene 1 bis 3 läuft alternativ ein neuraler bzw. ein regelbasierter Algorithmus 4 bzw. 5 unter Verwendung jeweils der gleichen Datenbasis 7 bis 9 entsprechend der jeweiligen Ebene 1 bis 3;alternatively, each level 1 to 3 runs a neural or a rule-based algorithm 4 or 5 using the same database 7 to 9 corresponding to the respective level 1 to 3;
die extrahierte prosodische, Silben- sowie Lautdatenbasis 7, 8, 8' bzw. 9 einschließlich der statistischen Parameter stammt von einem (variierbaren) Sprecher, der immer mit dem Sprecher des Diphon-Inventars in der Datenbasis 10 übereinstimmen muß.the extracted prosodic, syllable and sound database 7, 8, 8 'and 9 including the statistical parameters come from a (variable) speaker who must always agree with the speaker of the diphone inventory in database 10.
das Diphon-Inventar, das heißt die entsprechende Datenbasis 10 für die akustische Synthese und die genannte prosodische Silben- sowie Lautdatenbasis 7, 8, 8' bzw. 9 basieren auf einem variierbaren Sprecher. Die steuerbare Umschaltung 6 in jeder Ebene 1 bis 3 zwischen neuronalen und regelbasierten Verfahren bzw. Algorithmen dienen sowohl zur Kombination als auch zur Verwendung einer der beiden genannten Möglichkeiten.the diphone inventory, that is to say the corresponding database 10 for acoustic synthesis and the aforementioned prosodic syllable and phonetic database 7, 8, 8 'and 9 are based on a variable speaker. The controllable switchover 6 in each level 1 to 3 between neural and rule-based methods or algorithms serve both to combine and to use one of the two possibilities mentioned.
Die Ebene 1 bekommt sowohl für die künstlichen neuronalen Netze 4 als auch für die regelbasierten Verfahren 5 die Eingangsdaten aus der Textanalyse 11. Die akustische Synthese 12 erfolgt mit den Ausgangsdaten der Ebene 3, wobei nocheinmal betont werden muß, daß das Diphon-Inventar in der Datenbasis 10 für die akustische Synthese auf einem Sprecher beruhen, der identisch mit dem der Datenbasen 7 bis 9 ist.Level 1 receives the input data from the text analysis 11 both for the artificial neural networks 4 and for the rule-based method 5. The acoustic synthesis 12 takes place with the output data of the level 3, it having to be emphasized again that the diphone inventory in the Database 10 for acoustic synthesis are based on a speaker who is identical to that of databases 7 to 9.
Die folgende Beschreibung des verwendeten regelbasierten und neuralen Algorithmus soll lediglich dem besseren Verständnis der Wirkungsweise dienen. Die verwendeten Parameter müssen an die jeweilige Sprache bzw. an den jeweiligen Sprecher angepaßt werden und sind damit nicht generalisierbar.The following description of the rule-based and neural algorithm used is only intended to provide a better understanding of how it works. The parameters used have to be adapted to the respective language or the respective speaker and are therefore not generalizable.
Zum Beispiel entspricht der eingesetzte neurale Algorithmus dem bekannten ELMAN-Typ. Dabei werden aus binär codierten (linguistisch-phonetischen) Eingangsattributen direkt Stützwerte prosodischer Konturen, hier relative Segementdauern, trainiert und in der Kannphase vorhergesagt. Die Eingangscodierung hängt dabei von der jeweiligen Verarbeitungsebene, nämlich der Phrasendauerebene 1, der Silbendauerebene 2 bzw. der Lautebene 3 ab. Die regel- bzw. formelbasierte Dauersteuerung verwendet dabei für jede Ebene 1 bis 3 einen Satz von Regeln bzw. Formeln. Diese Regeln sind durch eine statistische Analyse aus den Datenbasen 7 bis 10 extrahiert. Diese Regeln modellieren linguistische Einflußfaktoren auf den Verarbeitungsebenen. Die Ebene 1 bestimmt die Phrasendauer für eine gegebene prosodische Phrase abängig von der Anzahl der Silben und dem Typ der prosodischen Phrase (siehe Formel 1).For example, the neural algorithm used corresponds to the well-known ELMAN type. From binary coded (linguistic-phonetic) input attributes, basic values of prosodic contours, here relative segment durations, are trained and predicted in the can phase. The input coding depends on the respective processing level, namely the phrase duration level 1, the syllable duration level 2 or the sound level 3. The rule-based or formula-based continuous control uses a set of rules or formulas for each level 1 to 3. These rules are extracted from databases 7 to 10 by statistical analysis. These rules model linguistic influencing factors at the processing levels. Level 1 determines the phrase duration for a given prosodic phrase depending on the number of syllables and the type of prosodic phrase (see Formula 1).
durphr Phrasendauer n Anzahl der silbendurphr phrase duration n number of syllables
(1) durphr(n) = fcjn 4- Cj kt Faktor(1) dur phr (n) = fcjn 4- Cj kt factor
Konstante i PhrasentypConstant i phrase type
Die zweite Ebene berechnet die Silbendauer von jeder Silbe als lineare Kombination einer Anzahl von Lauten. Verschiedene phonetische Eigenschaften, zum Beispiel der Akzent oder der Kerntyp, beeinflussen die Dauer der Silbe auf verschiedene Art und Weise, zum Beispiel der Kerntyp verursacht eine Verlängerung um einen Faktor und eine akzentbehaftete Silbe wird durch das Addieren einer Konstante gedehnt wie in der folgenden Formel dargestellt.The second level calculates the syllable duration of each syllable as a linear combination of a number of sounds. Different phonetic properties, for example the accent or the core type, influence the duration of the syllable in different ways, for example the core type causes a lengthening by a factor and an accented syllable is expanded by adding a constant as shown in the following formula .
dUVSyl X ^initial initiale silbedUV S yl X ^ initial initial syllable
(2) dursyι = t dursyι + cacc akzentuierte silbe(2) dur sy ι = t dur sy ι + c acc accented syllable
Die Silben werden danach durch ein lineares Dehnen oder Zusammenziehen adjustiert, um in den in der Phrasenebene 1 berechneten Dauerrahmen zu passen. Schließlich ist die Dauer von jedem Laut dem Rahmen der Lautdauer anzupassen. Dabei wird ein Dehnungsfaktor iterativ für eine bestimmte Silbendauer berechnet und die Standardabweichungen von der Lautdauer. Bei Verwendung eines regelbasierten Algorithmus wird die Dauer einer Phrase in erster Linie durch die Silbenzahl bestimmt, wobei die Parameter für deren Berechnung mit Hilfe einer Statistik aus den Daten des Originalsprechers ermittelt werden. Weiterhin hat der Typ einer Phrase Einfluß auf deren Länge. In Abhängigkeit vom Phrasentyp wird die mittlere Phrasendauer über Koeffizienten korrigiert.The syllables are then adjusted by linear stretching or contraction to fit within the duration frame calculated in phrase level 1. Finally, the duration of each sound has to be adjusted to the frame of the sound duration. A stretch factor is calculated iteratively for a certain syllable duration and the standard deviations from the duration of the sound. When using a rule-based algorithm, the duration of a phrase is primarily determined by the number of syllables, the parameters for its calculation being determined using statistics from the data of the original speaker. The type of a phrase also affects its length. Depending on the phrase type, the mean phrase duration is corrected using coefficients.
Als Grundlage für die Berechnung der Silbendauern werden die Ergebnisse der statistischen Untersuchung über Silbendauer in Abhängigkeit von der Lautanzahl, der Akzentuierung, dem Informationsgehalt, dem Typ des Silbenkerns, der Position der Silbe sowie die Position der Silbe in der Phrase verwendet. Diese Einflußfaktoren auf die Silbendauer sind durch lineare Abhängigkeiten ausgedrückt. Die ermittelten Silbendauern sind anschließend für jede Phrase aufsummiert, mit der in der Ebene 1 ermittelten Phrasendauer durch lineare Dehnung bzw. Stauchung aller Silbendauern angepaßt.The results of the statistical analysis of syllable duration depending on the number of sounds, the accentuation, the information content, the type of the syllable nucleus, the position of the syllable and the position of the syllable in the phrase are used as the basis for the calculation of the syllable durations. These influencing factors on the syllable duration are expressed by linear dependencies. The determined syllable durations are then added up for each phrase, adapted to the phrase duration determined in level 1 by linear expansion or compression of all syllable durations.
Die Berechnung der eigentlichen Lautdauern basiert auf den berechneten Silbendauern. Dabei wird die unterschiedliche Elastizität der einzelnen Laute berücksichtigt. Es wird angenommen, daß alle Laute einer Silbe einer konstanten Dehnung K unterworfen sind.The calculation of the actual duration of the sound is based on the calculated syllable duration. The different elasticity of the individual sounds is taken into account. It is assumed that all sounds of a syllable are subjected to a constant stretching K.
Das vorliegende Verfahren zeichnet sich im wesentlichen durch folgende Merkmale aus:The present method is essentially characterized by the following features:
1. unabhängige Berechnung der Zieldauern auf verschiedenen Ebenen 1 bis 3 , 2. auf jeder Ebene 1 bis 3 werden alternativ regelbasierte oder lernende Verfahren 5 bzw. 4 eingesetzt,1. independent calculation of the target duration at different levels 1 to 3, 2. alternatively, rule-based or learning methods 5 or 4 are used at each level 1 to 3,
3. zwischen den Verfahren ist ein Datenaustausch möglich, der die Kombination regelbasierter mit lernenden Verfahren 5 bzw. 4 ermöglicht und3. Data exchange is possible between the methods, which enables the combination of rule-based with learning methods 5 and 4 and
4. die Verfahren auf den einzelnen Ebenen verwenden sprecherspezifische Datenbasen 7 bis 9 bzw. sind auf den Zielsprecher trainiert (im Gegensatz zu bisher verwendeten allgemein gültigen Regeln für alle Sprecher) .4. The procedures at the individual levels use speaker-specific databases 7 to 9 or are trained on the target speaker (in contrast to the generally applicable rules for all speakers used previously).
In der Phrasenebene 1 wird für jede prosodische Phrase eines Textes die Dauer ir* Abhängigkeit von der Anzahl der Silben in der Phrase und dem Phrasentyp berechnet. Dabei wird entweder eine regelbasierte Berechnungsvorschrift, die auf der Grundlage einer sprecherspezifischen Statistik arbeitet, oder ein neurales Netz, das auf den Sprecher trainiert ist, verwendet.In phrase level 1, the duration ir * is calculated for each prosodic phrase in a text, depending on the number of syllables in the phrase and the phrase type. Either a rule-based calculation rule that works on the basis of speaker-specific statistics or a neural network that is trained on the speaker is used.
Auf der Silbenebene 2 wird für jede Silbe innerhalb einer prosodischen Phrase die Silbendauer berechnet. Genau wie auf der Phrasenebene 1 wird dazu entweder ein lernendes Verfahren 4 oder ein regelbasierter Ansatz 5 eingesetzt. Die Verfahren werten verschiedene phonetische Merkmale, wie zum Beispiel betont/nichtbetont oder Typ des Silbenkerns, aus und generieren anhand dieser die Silbendauern. Diese Dauern werden anschließlich an die in der Phrasenebene 1 errechnete Phrasendauer angepaßt. Auf der Lautebene 3 werden anschließend an die in der Phrasenebene 1 errechnete Phrasendauer angepaßt. Auf der Lautebene 3 wird die Silbendauer auf die Einzellaute aufgeteilt. Das dabei zum Einsatz kommende Verfahren kann hier auch wieder ein regelbasiertes oder ein lernendes Verfahren sein. Liste der BezugszeichenAt syllable level 2, the syllable duration is calculated for each syllable within a prosodic phrase. Just as on phrase level 1, either a learning method 4 or a rule-based approach 5 is used for this. The methods evaluate various phonetic characteristics, such as emphasized / unstressed or type of syllable nucleus, and use these to generate the syllable durations. These durations are then adapted to the phrase duration calculated in phrase level 1. On sound level 3, the phrase duration calculated in phrase level 1 is then adjusted. At sound level 3, the syllable duration is divided into the individual sounds. The method used here can again be a rule-based or a learning method. List of reference numbers
1 Ebene bzw. Phrasenebene1 level or phrase level
2 Ebene bzw. Silbenebene2 level or syllable level
3 Ebene bzw. Lautebene3 level or sound level
4 lernende bzw. neuronale Verfahren4 learning or neural methods
5 regelbasierte Verfahren oder Algorithmen5 rule-based procedures or algorithms
6 Umschaltung6 switching
7 Phrasendatenbasis 8,8' Silbendatenbasis7 Phrase database 8.8 'syllable database
9 Lautdatenbasis9 phonetic database
10 Diphon-Datenbank10 diphone database
11 Textanalysis11 Text analysis
12 akustische Sprachsynthese 12 acoustic speech synthesis

Claims

P AT E N T AN S P RÜ C H E P AT ENT AN SPOKEN
1. Verfahren zur Dauersteuerung in der Sprachsynthese zur Verbesserung der Sprachqualität von Text-zu-Sprache- Systemen mit Hilfe von regelbasierten und lernenden Verfahren, dadurch gekennzeichnet,1. Process for continuous control in speech synthesis to improve the speech quality of text-to-speech systems with the aid of rule-based and learning processes, characterized in that
daß die Dauersteuerung, insbesondere die Segmentdauersteuerung in eine Phrasendauerebene ( 1) , eine Silbendauerebene (2) und eine Lautdauerebene (3) mit jeweils eigenen Datenknoten zum Training sowie zur Generierung der Zieldauern unterteilt wird undthat the duration control, in particular the segment duration control, is divided into a phrase duration level (1), a syllable duration level (2) and a sound duration level (3), each with its own data node for training and for generating the target duration, and
daß in jeder der Ebenen (1 bis 3) alternativ ein neuronales und/oder ein regelbasiertes Verfahren (4 bzw. 5) auswählbar ist und abläuft.that alternatively a neuronal and / or a rule-based method (4 or 5) can be selected and runs in each of the levels (1 to 3).
2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet,2. The method according to claim 1, characterized in
daß die regelbasierten, die lernenden Verfahren bzw. Algorithmen (4, 5) wahlweise kombinierbar sind.that the rule-based, the learning methods or algorithms (4, 5) can be optionally combined.
3. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet,3. The method according to claim 1 or 2, characterized in
daß die Phrasendauerebene (1) für die lernenden Verfahren (4) und die regelbasierten Verfahren (5) eine steuerbare Umschaltung (6) und eine eigene Phrasendatenbasis (7) aufweist und daß der Ausgang der Umschaltung (6) auf die Silbenebene (2) gegeben wird, die eine eigene Silbendatenbasis (8) und eine weitere Silbendatenbasis (8') aufweist,that the phrase duration level (1) for the learning method (4) and the rule-based method (5) has a controllable switchover (6) and its own phrase database (7) and that the output of the switchover (6) to the syllable level (2) is given which has its own syllable database (8) and a further syllable database (8 '),
daß von einer automatischen Umschaltung (6) die Ausgangssignale der Silbendauerebene (2) auf die Eingänge der Lautdauerebene (3) mit eigener Lautdatenbasis (9) gegeben werden undthat from an automatic switchover (6) the output signals of the syllable duration level (2) to the Inputs of the sound duration level (3) with their own sound database (9) are given and
daß die Ausgangssignale von der steuerbaren Umschaltung (6) dieser Ebene zur akustischen Sprachsynthese (12) mit einer Diphon-Datenbasis (10) gegeben werden.that the output signals from the controllable switchover (6) of this level for acoustic speech synthesis (12) are given with a diphone database (10).
4. Verfahren nach einem der Patentansprüche 1 bis 3 , dadurch gekennzeichnet,4. The method according to any one of claims 1 to 3, characterized in
daß die Phrasendauerebene (1) ihre Eingangsgrößen von einer Textanalysis (11) erhält.that the phrase duration level (1) receives its input variables from a text analysis (11).
5. Verfahren nach einem der Patentansprüche 1 bis 4, dadurch gekennzeichnet,5. The method according to any one of claims 1 to 4, characterized in
daß in jeder Ebene (1 bis 3) alternativ ein neuronaler bzw. ein regelbasierter Algorithmus unter Verwendung jeweils der gleichen Datenbasis zur Dauersteuerung in der Sprachsynthese abläuft.that alternatively a neuronal or a rule-based algorithm runs in each level (1 to 3) using the same database for continuous control in speech synthesis.
6. Verfahren nach einem der Patentansprüche 1 bis 5, dadurch gekennzeichnet,6. The method according to any one of claims 1 to 5, characterized in
daß die extrahierte prosodische Silben- und Lautdatenbasis (7 bis 9) einschließlich der statistischen Parameter von genau einem jeweiligen Sprecher erzeugt wird.that the extracted prosodic syllable and sound database (7 to 9) including the statistical parameters is generated by exactly one respective speaker.
7. Verfahren nach einem der Patentansprüche 1 bis 6, dadurch gekennzeichnet,7. The method according to any one of claims 1 to 6, characterized in
daß die Diphon-Datenbasis (10) für die akustische Sprachsynthese und die Datenbasen (7 bis 9) der Ebenen (1 bis 3) auf einem identischen Sprecher basieren. that the diphone database (10) for acoustic speech synthesis and the databases (7 to 9) of the levels (1 to 3) are based on an identical speaker.
8. Verfahren nach einem der Patentansprüche 1 bis 7 , dadurch gekennzeichnet,8. The method according to any one of claims 1 to 7, characterized in
daß die Berechnung der Zieldauern auf den verschiedenen Ebenen (1 bis 3) unabhängig voneinander abläuft.that the calculation of the target durations at the different levels (1 to 3) takes place independently of one another.
9. Verfahren nach einem der Patentansprüche 1 bis 8 , dadurch gekennzeichnet,9. The method according to any one of claims 1 to 8, characterized in
daß die Kombination regelbasierter und lernender Verfahren durch den Datenaustausch zwischen den verwendbaren Verfahren realisierbar ist.that the combination of rule-based and learning procedures can be realized through the data exchange between the usable procedures.
10. Verfahren nach einem der Patentansprüche 1 bis 9, dadurch gekennzeichnet,10. The method according to any one of claims 1 to 9, characterized in
daß auf der Phrasendauerebene (1) für jede prosodische Phrase eines Textes die Dauer in Abhängigkeit von der Anzahl der Silben in der Phrase und dem Phrasentyp berechnet wird.that on the phrase duration level (1) the duration is calculated for each prosodic phrase of a text depending on the number of syllables in the phrase and the phrase type.
11. Verfahren nach Patentanspruch 10, dadurch gekennzeichnet,11. The method according to claim 10, characterized in
daß entweder ein regelbasierter Algorithmus, der auf der Grundlage einer sprecherspezifischen Statistik arbeitet oder ein neurales Netz, das auf den Sprecher trainiert ist, wählbar für die weitere Berechnung ist.that either a rule-based algorithm that works on the basis of speaker-specific statistics or a neural network that is trained on the speaker can be selected for further calculation.
12. Verfahren nach einem der Patentansprüche 1 bis 11, dadurch gekennzeichnet,12. The method according to any one of claims 1 to 11, characterized in
daß auf der Silbenebene (2) für jede Silbe innerhalb einer prosodischen Phrase die Silbendauer berechnet wird und daß dazu entweder ein lernendes Verfahren oder ein regelbasierendes Verfahren eingesetzt wird.that the syllable duration is calculated on the syllable level (2) for each syllable within a prosodic phrase and that either a learning process or a rule-based process is used.
13. Verfahren nach einem der Patentansprüche 1 bis 12, dadurch gekennzeichnet,13. The method according to any one of claims 1 to 12, characterized in that
daß die lernenden oder regelbasierten Verfahren auf den einzelnen Ebenen sprecherspezifische Datenbasen (7 bis 9) verwenden bzw. auf den Zielsprecher trainiert sind. that the learning or rule-based procedures on the individual levels use speaker-specific databases (7 to 9) or are trained on the target speaker.
PCT/EP1999/008825 1998-11-25 1999-11-17 Method for controlling duration in speech synthesis WO2000031722A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98122316.7 1998-11-25
EP98122316 1998-11-25

Publications (1)

Publication Number Publication Date
WO2000031722A1 true WO2000031722A1 (en) 2000-06-02

Family

ID=8233028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP1999/008825 WO2000031722A1 (en) 1998-11-25 1999-11-17 Method for controlling duration in speech synthesis

Country Status (1)

Country Link
WO (1) WO2000031722A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264993A (en) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 Phoneme synthesizing method, device, equipment and computer readable storage medium
CN113129863A (en) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 Voice time length prediction method, device, equipment and readable storage medium

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CAMPBELL W N ET AL: "DURATION PITCH AND DIPHONES IN THE CSTR TTS SYSTEM", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (ICSLP),JP,TOKYO, ASJ, 1990, pages 825 - 828, XP000506898 *
HIRSCHFELD D ET AL: "Hybrid process uses neural control for data based speech rhythm control", SPRACHKOMMUNIKATION' (SPEECH COMMUNICATION), DRESDEN, GERMANY, 31 AUG.-2 SEPT. 1998, no. 152, ITG-Fachbericht, 1998, VDE-Verlag, Germany, pages 111 - 114, XP002132260, ISSN: 0932-6022 *
SANTEN VAN J P H: "ASSIGNMENT OF SEGMENTAL DURATION IN TEXT-TO-SPEECH SYNTHESIS", COMPUTER SPEECH AND LANGUAGE,GB,ACADEMIC PRESS, LONDON, vol. 8, no. 2, 1 April 1994 (1994-04-01), pages 95 - 128, XP000501471, ISSN: 0885-2308 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264993A (en) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 Phoneme synthesizing method, device, equipment and computer readable storage medium
CN110264993B (en) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 Speech synthesis method, device, equipment and computer readable storage medium
CN113129863A (en) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 Voice time length prediction method, device, equipment and readable storage medium

Similar Documents

Publication Publication Date Title
DE602005002706T2 (en) Method and system for the implementation of text-to-speech
DE60112512T2 (en) Coding of expression in speech synthesis
DE69908047T2 (en) Method and system for the automatic determination of phonetic transcriptions in connection with spelled words
DE69909716T2 (en) Formant speech synthesizer using concatenation of half-syllables with independent cross-fading in the filter coefficient and source range
DE69821673T2 (en) Method and apparatus for editing synthetic voice messages, and storage means with the method
DE19610019C2 (en) Digital speech synthesis process
EP3010014B1 (en) Method for interpretation of automatic speech recognition
DE112004000187T5 (en) Method and apparatus of prosodic simulation synthesis
EP1058235B1 (en) Reproduction method for voice controlled systems with text based speech synthesis
DE60108104T2 (en) Method for speaker identification
DE2736082A1 (en) ELECTRONIC DEVICE FOR PHONETIC SYNTHESIS OF HUMAN LANGUAGE (SPEECH SYNTHESIZER)
EP0633559B1 (en) Method and device for speech recognition
EP1264301A1 (en) Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system
EP1105867A1 (en) Method and device for the concatenation of audiosegments, taking into account coarticulation
WO2001086634A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
EP0058130B1 (en) Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same
WO2000031722A1 (en) Method for controlling duration in speech synthesis
EP1344211B1 (en) Device and method for differentiated speech output
DE19912405A1 (en) Determination of a regression class tree structure for speech recognizers
WO2000016310A1 (en) Device and method for digital voice processing
EP1170723B1 (en) Method for the computation of phone duration statistics and method for the determination of the duration of single phones for speech synthesis
DE3232835C2 (en)
EP3144929A1 (en) Synthetic generation of a naturally-sounding speech signal
EP0505709A2 (en) Method for vocabulary extension for speaker-independent speech recognition
DE2616656A1 (en) VOICE GENERATOR

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1999958057

Country of ref document: EP

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WA Withdrawal of international application
WWW Wipo information: withdrawn in national office

Ref document number: 1999958057

Country of ref document: EP