WO2000011647A1

WO2000011647A1 - Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten

Info

Publication number: WO2000011647A1
Application number: PCT/EP1999/006081
Authority: WO
Inventors: Christoph Buskies
Original assignee: Christoph Buskies
Priority date: 1998-08-19
Filing date: 1999-08-19
Publication date: 2000-03-02
Also published as: EP1105867A1; CA2340073A1; EP1105867B1; DE19861167A1; US7047194B1; DE59906115D1; AU5623199A; ATE243876T1

Abstract

Die Erfindung ermöglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmentbereiche zu synthetisieren, wobei die Momente, zu denen die jeweilige Konkatenation zweier aufeinander folgender Audiosegmentbereiche erfolgt, in Abhängigkeit von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise können synthetisierte akustische Daten erzeugt werden, die sich nach einer Umwandlung in akustische Signale nicht von entsprechenden natürlich erzeugten akustischen Signalen unterscheiden. Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berücksichtigung koartikulatorischer Effekte durch Konkatenation einzelner Sprachaudiosegmente zu erzeugen. Die so zur Verfügung gestellten Sprachdaten können in Sprachsignale umgewandelt werden, die von einer natürlich gesprochenen Sprache nicht zu unterscheiden sind.

Description

Verfahren und Vorrichtungen zur koartikulationsqerechten Konkatenation von Audioseqmenten

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Konkatenation von Audio- segmenten zur Erzeugung synthetisierter akustischer Daten, insbesondere synthetisierter Sprache. Des weiteren betrifft die Erfindung synthetisierte Sprachsignale, die durch die erfindungsgemäße koartikulationsgerechte Konkatenation von Sprachsegmenten erzeugt wurden, sowie einen Datenträger, der ein Computerprogramm zur erfindungsgemäßen Erzeugung von synthetisierten akustischen Daten, insbesondere syn- thetisierter Sprache, enthält.

Zusätzlich betrifft die Erfindung einen Datenspeicher, der Audiosegmente enthält, die zur erfindungsgemäßen koartikulationsgerechten Konkatenation geeignet sind, und einen Tonträger, der erfindungsgemäß synthetisierte akustische Daten enthält.

Es ist zu betonen, daß sowohl der im folgenden dargestellte Stand der Technik als auch die vorliegenden Erfindung den gesamten Bereich der Synthese von akustischen Daten durch Konkatenation einzelner, auf beliebige Art und Weise erhaltene Audiosegmente betrifft. Aber um die Diskussion des Standes der Technik sowie die Beschreibung der vorliegenden Erfindung zu vereinfachen, beziehen sich die folgenden Ausführungen speziell auf synthetisierte Sprachdaten durch Konkatenation einzelner Sprachsegmente.

In den letzten Jahren hat sich im Bereich der Sprachsynthese der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz durchgesetzt und ist in verschiedenen Verfahren und Systemen zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für dessen Umsetzung notwendig, das gesamte zur Spracherzeugung notwendige Wissen explizit zu formulieren, d.h. die zu synthetisierende Sprache formal zu modellieren. Da die bekannten Sprachmodellierungen Vereinfachung der zu synthetisierenden Sprache aufweisen, ist die Sprachqualität der so erzeugten Sprache nicht ausreichend.

Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthese durchgeführt, bei der aus einer einzelne Sprachsegmente aufweisenden Datenbasis entsprechende Segmente ausgewählt und miteinander verknüpft (konkateniert) werden. Die Sprachqualität hängt hierbei in erster Linie von der Zahl und Art der verfügbaren Sprachsegmente ab, denn es kann nur Sprache synthetisiert werden, die durch Sprachsegmente in der Datenbasis wiedergeben ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimie- ren und dennoch eine synthetisierte Sprache hoher Qualität zu erzeugen, sind verschieden Verfahren bekannt, die eine Verknüpfung (Konkatenation) der Sprachsegmente nach komplexen Regeln durchführen.

Unter Verwendung solcher Verfahren bzw. entsprechender Vorrichtungen kann ein Inventar, d.h. eine die Sprachaudiosegmente umfassende Datenbasis, verwendet werden, das vollständig und handhabbar ist. Ein Inventar ist vollständig, wenn damit jede Lautfolge der zu synthetisierenden Sprache erzeugt werden kann, und ist handhabbar, wenn die Zahl und Art der Daten des Inventars mit den technisch verfügbaren Mitteln in einer gewünschten Weise verarbeitet werden kann. Darüber hinaus muß ein solches Verfahren gewährleisten, daß die Konkatenation der einzelnen Inventarelemente eine synthetisierte Sprache erzeugt, die sich von einer natürlich gesprochenen Sprache möglichst wenig unterscheidet. Hierfür muß eine synthetisierte Sprache flüssig sein und die gleichen artikulatorischen Effekte einer natürlichen Sprache aufweisen. Hier kommen den sogenannten koartikulatorischen Effekten, d.h. der gegenseitigen Beeinflussung von

Sprachlauten, eine besondere Bedeutung zu. Daher sollten die Inventarelemente so beschaffen sein, das sie die Koartikulation einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des weiteren sollte ein Verfahren zu Konkatenation der Inventarelemente, die Elemente unter Berücksichtigung der Koartikulation einzelner aufeinanderfol- gender Sprachlaute sowie der übergeordneten Koartikulation mehrerer aufeinanderfolgender Sprachlaute, auch über Wort- und Satzgrenzen hinweg, verketten.

Vor der Darstellung des Standes der Technik werden im folgenden einige zum besseren Verständnis notwendige Begriffe aus dem Bereich der Sprachsynthese erläutert:

- Ein Laut ist eine Klasse von beliebigen Schallereignissen (Geräusche, Klänge, Töne usw). Die Schallereignisse werden gemäß eines Klassifikationsschemas in Lautklassen eingeteilt. Ein Schallereigniss gehört zu einem Laut, wenn hinsichtlich der zur Klassifikation verwendeten Parameter (z.B. Spektrum, Tonhöhe, Lautstärke, Brust- oder Kopf- stimme, Koartikulation, Resonanzräume, Emotion usw.) die Werte des Schallereignis innerhalb der für den Laut definierten Wertebereiche liegen.

Das Klassifikationsschema für Laute hängt von der Art der Anwendung ab. Für Sprachlaute (= Phone) wird in der Regel die IPA-Klassifikation verwendet. Die hier verwendete Definition des Begriffes Laut ist jedoch nicht darauf beschränkt, sondern es lassen sich beliebige andere Parameter verwendet. Wird z.B. zusätzlich zu der IPA-Klassifikation noch die Tonhöhe oder der emotionale Ausdruck als Parameter in die Klassifikation mit einbezogen, so werden zwei 'a'-Laute mit unterschiedlicher Tonhöhe oder mit unter- schiedlichem emotionalen Ausdruck zu unterschiedlichen Lauten im Sinne der Definition. Laute können aber auch die Töne eines Musikinstrumentes, etwa einer Geige, auf den unterschiedlichen Tonhöhen in den unterschiedlichen Spielweisen (Auf- und Abstrich, Detache, Spiccato, Marcato, Pizzicato, col Legno etc.) sein. Laute können ebenso Hun- degebell oder das Quietschen einer Autotüre sein.

Laute können durch Audiosegmente, die entsprechende akustische Daten enthalten, wiedergegeben werden.

In der auf die Definitionen folgenden Beschreibung der Erfindung kann immer der Begriff

Phon durch den Begriff Laut im Sinne der vorigen Definition und der Begriff Phonem durch den Begriff Lautzeichen ersetzt werden. (Dies gilt auch umgekehrt, da Phone gemäß der IPA-Klassifikation eingeteilte Laute sind.)

- Ein statischer Laut hat Bereiche die ähnlich zu vorhergehenden oder nachfolgenden

Bereichen des statischen Lauts sind. Die Ähnlichkeit muß nicht unbedingt eine exakte Entsprechung wie bei den Perioden eines Sinustones sein, sondern ist analog der Ähnlichkeit, die zwischen den Bereichen der unten definierten statischen Phone herrscht.

- Ein dynamischer Laut hat keine Bereiche, die vorhergenden oder nachfolgenden Bereichen des dynamischen Lautes ähneln, etwa das Schallereignis einer Explosion oder ein dynamisches Phon.

- Ein Phon ist ein von den Sprachorganen erzeugter Laut (ein Sprachlaut). Die Phone werden in statische und dynamische Phone unterteilt.

- Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.

- Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottalstops und geschlagene

Laute.

- Ein Phonem ist die formale Beschreibung eines Phons, wobei i. allg. die formale Beschreibung durch Lautschriftzeichen erfolgt.

- Die Koartikulation bezeichnet das Phänomen, daß ein Laut, also auch ein Phon, durch vorgelagerte und nachgelagerte Laute bzw. Phone beeinflußt wird, wobei die Koartikula- tion sowohl zwischen unmittelbar benachbarten Lauten/Phonen auftritt, aber sich auch als übergeordnete Koartikulation über eine Folge mehrerer Laute/Phone erstrecken kann (Beispielsweise bei einer Lippenrundung).

Daher kann ein Laut bzw. Phon in drei Bereiche unterteilt werden (siehe auch Figur 1b):

- Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Lautes/Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Lautes/Phons.

- Der Soloartikulationsbereich, ist der Bereich des Lautes/Phons, der nicht durch einen vor- oder nachgelagerten Laut bzw. ein vor- oder nachgelagertes Phon beeinflußt ist.

- Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Lautes/Phons bis zum Ende des Lautes/Phons.

- Der Koartikulationsbereich umfaßt einen End-Koartikulationsbereich und den benachbarten Anfangs-Koartikulationsbereich des benachbarten Lautes/Phons.

- Ein Polyphon ist eine Folge von Phonen.

- Die Elemente eines Inventars sind in kodierter Form gespeicherte Audiosegmente, die Laute, Teile von Lauten, Lautfolgen oder Teile von Lautfolgen, bzw. Phone, Teile von Phonen, Polyphone oder Teile von Polyphonen wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Audiosegmentes/Inventarelementes sei hier auf die Figur 2a, die ein herkömmliches Audiosegment zeigt, und die Figuren 2b-2l verwiesen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Ergänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z.B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen. Audiosegmente für das vorliegende Verfahren können auch aus einem vorgelagerten Syntheseschritt (der nicht Teil des Verfahrens ist) stammen. Audiosegmente enthalten wenigstens einen Teil eines Anfangs-Koartikulationsbereiches, eines Soloartikulationsbereiches und/oder eines End- Koartikulationsbereiches. Anstelle von Audiosegmenten können auch Bereiche von Au- diosegmenten verwendet werden.

- Unter Konkatenation versteht man das Aneinanderfügen zweier Audiosegmente. - Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiosegmente aneinandergefügt werden.

Die Konkatenation kann auf verschiedene Arten erfolgen, z.B. mit einem Crossfade oder einem Hardfade (siehe auch Figuren 3a-3e):

- Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Audiosegmentbereiches sowie ein zeitlich vorderer Bereich eines zweiten Audiosegmentbereiches mit geeigneten Übergangsfunktionen bearbeitet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitlich kürzere der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.

- Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Audiosegmentes und ein zeitlich vorderer Bereich eines zweiten Audiosegmentes mit geeigneten Übergangsfunktionen bearbeitet, wobei diese beiden Audiosegmente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Audiosegmentes und der vordere Bereich des zweiten Audiosegmentes nicht überlappen.

Der Koartikulationsbereich macht sich vor allem dadurch bemerkbar, daß eine Konkatenation darin mit Unstetigkeiten (z.B. Spektralsprüngen) verbunden ist.

Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade einen Grenzfall eines Crossfades darstellt, bei dem eine Überlappung eines zeitlich hinteren Bereiches eines ersten Audiosegmentes und eines zeitlich vorderen Bereiches eines zweiten Audiosegmentes eine Länge Null hat. Dies erlaubt es in bestimmten, z.B. äußerst zeitkritischen Anwendungen einen Crossfade durch einen Hardfade zu ersetzen, wobei eine solche Vorgehensweise genau abzuwägen ist, da diese zu deutlichen Qualitätseinbußen bei der Konkatenation von Audiosegmenten führt, die eigentlich durch einen Crossfade zu kon- katenieren sind.

- Unter Prosodie versteht man die Veränderungen der Sprachfrequenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine na- türliche Wort- bzw. Satzmelodie zu erzeugen. Aus WO 95/30193 ist ein Verfahren und eine Vorrichtung zur Umwandlung von Text in hörbare Sprachsignale unter Verwendung eines neuronalen Netzwerkes bekannt. Hierfür wird der in Sprache umzuwandelnde Text mit einer Konvertiereinheit in eine Folge von Phonemen umgewandelt, wobei zusätzlich Informationen über die syntaktischen Gren- zen des Textes und die Betonung der einzelnen syntaktischen Komponenten des Textes erzeugt werden. Diese werden zusammen mit den Phonemen an eine Einrichtung weitergeleitet, die regelbasiert die Dauer der Aussprache der einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem einzelnen Phonem in Verbindung mit den entsprechenden syntaktischen und zeitlichen Information eine geeignet Eingabe für das neuro- nale Netzwerk, wobei diese Eingabe für das neuronale Netz auch die entsprechenden prosodischen Informationen für die gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den verfügbaren Audiosegmenten nun die aus, die die eingegebenen Phoneme am besten wiedergeben, und verkettet diese Audiosegmente entsprechend. Bei dieser Verkettung werden die einzelnen Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an vor- und nachgelagerte Audiosegmente unter Berücksichtigung der prosodischen Informationen der zu synthetisierenden Sprache angepaßt und zeitlich aufeinanderfolgend miteinander verbunden. Eine Veränderung einzelner Bereiche der Audiosegmente ist hier nicht beschrieben.

Zur Erzeugung der für dieses Verfahren erforderlichen Audiosegmente ist das neuronale

Netzwerk zuerst zu trainieren, indem natürlich gesprochene Sprache in Phone oder Phonfolgen unterteilt wird und diesen Phonen oder Phonfolgen entsprechende Phonem oder Phonemfolgen in Form von Audiosegmenten zugeordnet werden. Da dieses Verfahren nur eine Veränderung von einzelnen Audiosegmenten, aber keine Veränderung einzelner Bereiche eines Audiosegmentes vorsieht, muß das neuronale Netzwerk mit möglichst vielen verschiedenen Phonen oder Phonfolgen trainiert werden, um beliebige Texte in synthetisierte natürlich klingende Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall sehr aufwendig gestalten. Auf der anderen Seite kann ein unzureichender Trainingsprozeß des neuronalen Netzes die Qualität der zu synthetisierenden Spra- ehe negativ beeinflussen. Des weiteren ist es bei dem hier beschriebene Verfahren nicht möglich, den Konkatenationsmoment der einzelnen Audiosegmente in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente zu bestimmen, um so eine koartikulati- onsgerechte Konkatenation durchzuführen.

In US-5,524, 172 ist eine Vorrichtung zur Erzeugung synthetisierter Sprache beschrieben, die das sogenannte Diphonverfahren nutzt. Hier wird ein Text, der in synthetisierte Sprache umgewandelt werden soll, in Phonemfolgen unterteilt, wobei jeder Phonemfolge ent- sprechende prosodische Informationen zugeordnet werden. Aus einer Datenbank, die Audiosegmente in Form von Diphonen enthält, werden für jedes Phonem der Folge zwei das Phonem wiedergebende Diphone ausgewählt und unter Berücksichtigung der entsprechenden prosodischen Informationen konkateniert. Bei der Konkatenation werden die beiden Diphone jeweils mit Hilfe eines geeigneten Filters gewichtet und die Dauer und Tonhöhe beider Diphone so verändert, daß bei der Verkettung der Diphone eine synthetisierte Phonfolge erzeugt wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der gewünschten Phonemfolge entspricht. Bei der Konkatenation werden die einzelnen Diphone so addiert, daß sich ein zeitlich hinterer Bereich eines ersten Diphones und ein zeitlich vorderer Bereich eines zweiten Diphones überlappen, wobei der Konkatena- tionsmoment generell im Bereich stationären Bereiche der einzelnen Diphone liegt (siehe Figur 2a). Da eine Variation des Konkatenationsmomentes unter Berücksichtigung der Koartikulation aufeinanderfolgender Audiosegmente (Diphone) hier nicht vorgesehen ist, kann die Qualität (Natürlichkeit und Verständlichkeit) einer so synthetisierten Sprache negativ beeinflußt werden.

Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in EP-0,813,184 A1 zu finden. Auch hier wird ein in synthetisierte Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfolgen unterteilt und aus einer Datenbank entsprechende Audioseg- mente ausgewählt und konkateniert. Um eine Verbesserung der synthetisierten Sprache zu erzielen, sind bei diesem Verfahren zwei Ansätze, die sich vom bisher diskutierten Stand der Technik unterscheiden, umgesetzt worden. Unter Verwendung eines Glät- tungsfilters, der die tieferfrequenten harmonischen Frequenzanteile eines vorgelagerten und eines nachgelagerten Audiosegments berücksichtigt, soll der Übergang von dem vorgelagerten Audiosegment zu dem nachgelagerten Audiosegment optimiert werden, indem ein zeitlich hinterer Bereich des vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des nachgelagerten Audiosegments im Frequenzbereich aufeinander abgestimmt werden. Des weiteren stellt die Datenbank Audiosegmente zur Verfügung, die sich leicht unterscheiden, aber zur Synthetisierung desselben Phonems geeignet sind. Auf diese Weise soll die natürliche Variation der Sprache nachgebildet werden, um eine höhere Qualität der synthetisierten Sprache zu erreichen. Sowohl die Verwendung des Glättungsfilter als auch die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur Realisierung eines Phonems erfordert bei einer Umsetzung dieses Verfahrenes eine hohe Rechenleistung der verwendeten Systemkomponenten. Außerdem steigt der Umfang der Datenbank aufgrund der erhöhten Zahl der vorgesehenen Audiosegmente. Des weiteren ist auch bei diesem Verfahren eine koartikulationsabhängige Wahl des Konkatenationsmoments einzelner Audiosegmente nicht vorgesehen, wodurch die Qualität der synthetisierten Sprache reduziert werden kann.

DE 693 18 209 T2 beschäftigt sich mit Formantsynthese. Gemäß diesem Dokument werden zwei mehrstimmige Laute unter Verwendung eines Interpolationsmechanismus miteinander verbunden, der auf ein letztes Phonem eines vorgelagerten Lauts und auf ein erstes Phonem eines nachgelagerten Lauts angewendet wird, wobei die zwei Phoneme der beiden Laute gleich sind und bei den verbundenen Lauten zu einem Phonem überlagert werden. Bei der Überlagerung werden die die zwei Phoneme beschreibenden Kurven jeweils mit einer Gewichtungsfunktion gewichtet. Die Gewichtungsfunktion wird bei jedem Phonem in einem Bereich angewendet, der unmittelbar nach dem Beginn des Phonems beginnt und unmittelbar vor dem Ende des Phonems endet. Somit entsprechen bei der hier beschriebenen Konkatenation von Lauten die verwendeten Bereiche der Phoneme, die den Übergang zwischen den Lauten bilden, im wesentlichen den je- weiligen gesamten Phonemen. Das heißt, daß die zur Konkatenation verwendeten Teile der Phoneme stets alle drei Bereiche, nämlich den jeweiligen Anfangs-Koartikulationsbereich, Soloartikulationsbereich und End-Koartikulationsbereich umfassen. Mithin lehrt D1 eine Verfahrensweise wie die Übergänge zwischen zwei Lauten zu glätten sind.

Des weiteren wird gemäß diesem Dokument der Moment der Konkatenation zweier

Laute so festgelegt, daß sich das letzte Phonem in dem vorgelagerten Laut und das erste Phonem in dem nachgelagerten Laut vollständig überlappen.

Grundsätzlich ist festzustellen, daß DE 689 15 353 T2 eine Verbesserung der Tonquali- tat erreichen will indem eine Vorgehensweise angegeben wird, wie der Übergang zwischen zwei benachbarten Abtastwerten zu gestalten ist. Dies ist insbesondere bei niedrigen Abtastraten relevant.

Bei der in diesem Dokument beschriebenen Sprachsynthese werden Wellenformen ver- wendet, die zu konkatenierende Laute wiedergeben. Bei Wellenformen für vorgelagerte

Laute wird jeweils ein entsprechender Endabtastwert und ein zugeordneter Nulldurchgangspunkt bestimmt, während bei Wellenformen für nachgelagerte Laute jeweils ein erster oberer Abtastwert und ein zugeordneter Nulldurchgangspunkt bestimmt wird. In Abhängigkeit dieser bestimmten Abtastwerte und der zugeordneten Nulldurchgangs- punkte werden Laute auf maximal vier verschiedene Arten miteinander verbunden. Die

Anzahl der Verbindungsarten wird auf zwei reduziert, wenn die Wellenformen unter Verwendung des Nyquist-Theorems erzeugt werden. In DE 689 15 353 T2 ist beschrieben, daß sich der verwendete Bereich der Wellenformen zwischen dem letzten Abtastwert der vorgelagerten Wellenform und dem ersten Abtastwert der nachgelagerten Wellenform erstreckt. Eine Variation der Dauer der verwendeten Bereiche in Abhängigkeit der zu konkatenierenden Wellenformen, wie dies bei der Erfindung der Fall ist, ist in D1 nicht beschrieben.

Zusammenfassend ist zu sagen, daß es der Stand der Technik zwar erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so synthetisierten Phonemfolgen haben keine authentische Sprachqualität. Eine synthetisierte Phonemfolge hat eine authentische Sprachqualität, wenn sie von der gleichen Phonemfolge, die von einem realen Sprecher gesprochen wurde, durch einen Hörer nicht unterschieden werden kann.

Es sind auch Verfahren bekannt, die ein Inventar benutzen, das vollständige Worte und/oder Sätze in authentischer Sprachqualität als Inventarelemente enthält. Diese Ele- mente werden zur Sprachsynthese in einer gewünschten Reihenfolge hintereinander gesetzt, wobei die Möglichkeiten unterschiedliche Sprachsequenzen in hohem Maße von dem Umfang eines solchen Inventars limitiert werden. Die Synthese beliebiger Phonemfolgen ist mit diesen Verfahren nicht möglich.

Daher ist es eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine entsprechende Vorrichtung zur Verfügung zu stellen, die die Probleme des Standes der Technik beseitigen und die Erzeugung synthetisierter akustischer Daten, insbesondere synthetisierter Sprachdaten, ermöglichen, die sich für einen Hörer nicht von entsprechenden natürlichen akustischen Daten, insbesondere natürlich gesprochener Sprache, unter- scheiden. Die mit der Erfindung synthetisierten akustischen Daten, insbesondere synthetisierte Sprachdaten sollen eine authentische akustische Qualität, insbesondere eine authentische Sprachqualität aufweisen.

Zu Lösung dieser Aufgabe sieht die Erfindung ein Verfahren gemäß Anspruch 1 , eine Vorrichtung gemäß Anspruch 14, synthetisierte Sprachsignale gemäß Anspruch 28, einen Datenträger gemäß Anspruch 39, einen Datenspeicher gemäß Anspruch 51 , sowie einen Tonträger gemäß Anspruch 60 vor. Somit ermöglicht es die Erfindung, synthetisierte akustische Daten zu erzeugen, die eine Folge von Lauten wiedergeben, indem bei der Konkatenation von Audiosegmentbereichen der Moment der Konkatenation zweier Audiosegmentbereiche in Abhängigkeit von Eigenschaften der zu verknüpfenden Audiosegmentbereiche, insbesondere der die beiden Audiosegmentbereiche betreffenden Koartikulationseffekte bestimmt. Der Konkatenationsmoment wird gemäß der vorliegen- -lü¬

den Erfindung vorzugsweise in der Umgebung der Grenzen des Solo- Artikulationsbereiches gewählt. Auf diese Weise wird eine Sprachqualität erreicht, die mit dem Stand der Technik nicht erzielbar ist. Dabei ist die erforderliche Rechenleistung nicht höher als beim Stand der Technik.

Um bei der Synthese akustischer Daten die Variationen nachzubilden, die bei entsprechenden natürlichen akustischen Daten zu finden sind, sieht die Erfindung eine unterschiedliche Auswahl der Audiosegmentbereiche sowie unterschiedliche Arten der koarti- kulationsgerechten Konkatenation vor. So wird ein höheres Maß an Natürlichkeit der synthetisierten akustischen Daten erzielt, wenn ein zeitlich nachgelagerter Audiosegmentbereich, dessen Anfang einen statischen Laut wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbereich mittels eines Crossfades verbunden wird, bzw. wenn ein zeitlich nachgelagerter Audiosegmentbereich, dessen Anfang einen dynamischen Laut wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbereich mittels eines Hardfa- des verbunden wird. Des weiteren ist es vorteilhaft den Anfang der zu erzeugenden synthetisierten akustischen Daten unter Verwendung eines den Anfang einer Lautfolge wiedergebenden Audiosegmentbereiches bzw. das Ende der zu erzeugenden synthetisierten akustischen Daten unter Verwendung eines das Ende einer Lautfolge wiedergebenden Audiosegmentbereiches zu erzeugen.

Um die Erzeugung der synthetisierten akustischen Daten einfacher und schneller durchzuführen, ermöglicht es die Erfindung die Zahl der zur Datensynthetisierung notwendigen Audiosegmentbereiche zu reduzieren, indem Audiosegmentbereiche verwendet werden, die immer mit der Wiedergabe eines dynamischen Lauts beginnen, wodurch alle Konkatenationen dieser Audiosegmentbereiche mittels eines Hardfades durchgeführt werden können. Hierfür werden zeitlich nachgelagerte Audiosegmentbereiche mit zeitlich vorgelagerten Audiosegmentbereichen verbunden, deren Anfänge jeweils einen dynamischen Laut wiedergeben. Auf diese Weise können auch mit geringer Rechenleistung (z.B. bei Anrufbeantwortern oder Autoleitsystemen) erfindungsgemäß synthe- tisierte akustische Daten hoher Qualität erzeugt werden.

Außerdem sieht die Erfindung vor, akustische Phänomene nachzubilden, die sich aufgrund einer gegenseitigen Beeinflussung einzelner Segmente entsprechender natürlicher akustischer Daten ergeben. Insbesondere ist hier vorgesehen, einzelne Audioseg- mente bzw. einzelne Bereiche der Audiosegmente mit Hilfe geeigneter Funktionen zu bearbeiten. Somit kann u.a. die Frequenz, die Dauer, die Amplitude oder das Spektrum der Audiosegmente verändert werden. Werden mit der Erfindung synthetisierte Sprach- daten erzeugt, so werden zur Lösung dieser Aufgabe vorzugsweise prosodische Informationen und/oder übergeordnete Koartikulationseffekte berücksichtigt.

Der Signalverlauf von synthetisierten akustischen Daten kann zusätzlich verbessert wer- den, wenn der Konkatenationsmoment an Stellen der einzelnen zu verknüpfenden Audiosegmentbereiche gelegt wird, an denen die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften übereinstimmen. Diese Eigenschaften können u.a. sein: Nullstelle, Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Tonhöhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

Darüber hinaus ermöglicht es Erfindung, die Auswahl der Audiosegmentbereiche zur Erzeugung der synthetisierten akustischen Daten zu verbessern sowie deren Konka- tenation effizienter zu gestalten, indem heuristisches Wissen verwendet wird, das die

Auswahl, Bearbeitung, Variation und Konkatenation der Audiosegmentbereiche betrifft.

Um synthetisierte akustische Daten zu erzeugen, die Sprachdaten sind, die sich von entsprechenden natürlichen Sprachdaten nicht unterscheiden, werden vorzugsweise Audio- segmentbereiche genutzt werden, die Laute/Phone oder Teile von Lautfolgen/Phonfolgen wiedergeben.

Außerdem erlaubt die Erfindung die Nutzung der erzeugten synthetisierten akustischen Daten, indem diese Daten in akustische Signale und/oder Sprachsignale umwandelbar und/ oder auf einem Datenträger speicherbar sind.

Des weiteren kann die Erfindung verwendet werden, um synthetisierte Sprachsignale zu Verfügung zu stellen, die sich von bekannten synthetisierten Sprachsignalen dadurch unterscheiden, daß sie sich in ihrer Natürlichkeit und Verständlichkeit nicht von realer Sprache unterscheiden. Hierfür werden Audiosegmentbereiche koartikulationsgerecht konkateniert, die jeweils Teile der Lautfolge/Phonfolge der zu synthetisierenden Sprache wiedergeben, indem die zu verwendenden Bereiche der Audiosegmente sowie der Moment der Konkatenation dieser Bereiche erfindungsgemäß wie in Anspruch 28 definiert bestimmt werden.

Eine zusätzliche Verbesserung der synthetisierten Sprache kann erreicht werden, wenn ein zeitlich nachgelagerter Audiosegmentbereich, dessen Anfang einen statischen Laut bzw. ein statisches Phon wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbereich mittels eines Crossfades verbunden wird, bzw. wenn ein zeitlich nachgelagerter Audiosegmentbereich, dessen Anfang einen dynamischen Laut bzw. ein dynamisches Phon wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbereich mittels eines Hardfades verbunden wird. Hierbei umfassen statische Phone Vokale, Diphtonge, Liquide, Frikative, Vibranten und Nasale bzw. dynamische Phone Plosive, Affrikate, Glottal- stops und geschlagene Laute.

Da sich die Anfangs- und Endbetonungen von Lauten bei natürlicher Sprache von ver- gleichbaren, aber eingebetteten Lauten unterscheiden, ist es zu bevorzugen, entsprechende Audiosegmentbereiche zu verwenden, deren Anfänge jeweils den Anfang bzw. deren Enden jeweils das Ende von zu synthetisierender Sprache wiedergeben.

Besonders bei Erzeugung synthetisierter Sprache ist eine schnelle und effiziente Vorge- hensweise wünschenswert. Hierfür ist es zu bevorzugen, erfindungsgemäße koartikulati- onsgerechte Konkatenationen immer mittels Hardfades durchzuführen, wobei nur Audiosegmentbereiche verwendet werden, deren Anfänge jeweils immer einen dynamischen Laut bzw. ein dynamisches Phon wiedergeben. Derartige Audiosegmentbereiche können mit der Erfindung durch koartikulationsgerechte Konkatenation entsprechender Audio- segmentbereiche zuvor erzeugt werden.

Des_ weiteren stellt die Erfindung Sprachsignale bereit, die einen natürlichen Sprachfluß, Sprachmelodie und Sprachrhythmus haben, indem Audiosegmentbereiche jeweils vor und/oder nach der Konkatenation in ihrer Gesamtheit oder in einzelnen Bereichen mit Hilfe geeigneter Funktionen bearbeitet werden. Besonders vorteilhaft ist es diese Variation zusätzlich in Bereichen durchzuführen, in denen die entsprechenden Momente der Konkatenationen liegen, um u.a. die Frequenz, Dauer, Amplitude oder das Spektrum zu verändern.

Ein zusätzlich verbesserter Signalverlauf kann erreicht werden, wenn die Konkatenati- onsmomente an Stellen der zu verknüpfenden Audiosegmentbereiche liegen, an denen diese in einer oder mehrerer geeigneter Eigenschaften übereinstimmen.

Um eine einfache Nutzung und/oder Weiterverarbeitung der erfindungsgemäßen Sprachsignale durch bekannte Verfahren oder Vorrichtungen, z.B. einem CD- Abspielgerät, zu erlauben, ist es besonders zu bevorzugen, daß die Sprachsignale in akustische Signale umwandelbar oder auf einem Datenträger speicherbar sind. Um die Erfindung auch bei bekannten Vorrichtungen, z.B. einem Personal Computer oder einem computergesteuerten Musikinstrument, anzuwenden, ist ein Datenträger vorgesehen, der ein Computerprogramm enthält, der die Durchführung des erfindungsge- mäßen Verfahrens bzw. die Steuerung der erfindungsgemäßen Vorrichtung sowie deren verschiedenen Ausführungsformen ermöglicht. Des weiteren erlaubt der erfindungsgemäße Datenträger auch die Erzeugung von Sprachsignalen, die koartikulationsgerechte Konkatenationen aufweisen.

Um ein Audiosegmente umfassendes Inventar zur Verfügung zu stellen, mit dem synthetisierte akustische Daten, insbesondere synthetisierte Sprachdaten, erzeugt werden können, die sich von entsprechenden natürlichen akustischen Daten nicht unterscheiden, sieht die Erfindung einen Datenspeicher vor, der Audiosegmente enthält, die geeignet sind, um erfindungsgemäß zu synthetisierten akustischen Daten konkateniert zu werden. Vorzugsweise enthält ein solcher Datenträger Audiosegmente, zur Durchführung des erfindungsgemäßen Verfahrens, zur Anwendung bei der erfindungsgemäßen Vorrichtung oder dem erfindungsgemäßen Datenträger geeignet sind. Alternativ kann der Datenträger auch erfindungsgemäße Sprachsignale umfassen.

Darüber hinaus ermöglicht es die Erfindung, erfindungsgemäße synthetisierte akustische

Daten, insbesondere synthetisierte Sprachdaten, zur Verfügung zu stellen, die mit herkömmlichen bekannten Vorrichtungen, beispielsweise einem Tonbandgerät, einem CD- Spieler oder einer PC-Audiokarte, genutzt werden können. Hierfür ist ein Tonträger vorgesehen, der Daten aufweist, die zumindest teilweise mit dem erfindungsgemäßen Ver- fahren oder der erfindungsgemäßen Vorrichtung bzw. unter Verwendung des erfindungsgemäßen Datenträgers oder des erfindungsgemäßen Datenspeichers erzeugt wurden, Der Tonträger kann auch Daten enthalten, die erfindungsgemäß koartikulationsge- recht konkatenierte Sprachsigπale sind.

Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der Erfindung werden anhand der nachfolgenden Beschreibung erläutert. Dabei zeigt:

Figur 1a: Schematische Darstellung einer erfindungsgemäßen Vorrichtung zur Erzeugung synthetisierter akustischer Daten;

Figur 1b: Struktur eines Lautes / Phons. Figur 2a: Struktur eines herkömmlichen Audiosegmentes nach dem Stand der Technik, aus Teilen von zwei Lauten bestehend, also ein Diphon für Sprache. Wesentlich ist, daß die Solo-Artikulations-Bereiche jeweils nur teilweise im herkömmlichen Diphon- Audiosegment enthalten sind.

Figur 2b: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile eines Lautes/Phons mit nachgelagerten Koartikulationsbereichen (für Sprache quasi ein 'verschobenes' Diphon) wiedergibt.

Figur 2c: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile eines Lautes/Phons mit vorgelagerten Koartikulationsbereichen wiedergibt.

Figur 2d: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile eines Lautes/Phons mit nachgelagerten Koartikulationsbereichen wiedergibt und zusätzliche Be- reiche enthält.

Figur 2e: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile eines Lautes/Phons mit vorgelagerten Koartikulationsbereichen wiedergibt und zusätzliche Bereiche enthält.

Figur 2f: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile mehrerer Laute/Phone (für Sprache: ein Polyphon) mit jeweils nachgelagerten Koartikulationsbereichen wiedergibt. Die Laute / Phone 2 bis (n-1) sind jeweils vollständig im Audiosegment enthalten.

Figur 2g: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile mehrerer Laute/Phone (für Sprache: ein Polyphon) mit jeweils vorgelagerten Koartikulationsbereichen wiedergibt. Die Laute / Phone 2 bis (n-1) sind jeweils vollständig im Audiosegment enthalten.

Figur 2h: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile mehrerer Laute/Phone (für Sprache: ein Polyphon) mit jeweils nachgelagerten Koartikulationsbereichen wiedergibt und zusätzliche Bereiche enthält. Die Laute / Phone 2 bis (n-1) sind jeweils vollständig im Audiosegment enthalten.

Figur 2i: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile mehrerer Laute/Phone (für Sprache: ein Polyphon) mit jeweils vorgelagerten Koartikulationsbereichen wiedergibt und zusätzliche Bereiche enthält. Die Laute / Phone 2 bis (n-1) sind jeweils vollständig im Audiosegment enthalten.

Figur 2j: Struktur eines erfindungsgemäßen Audiosegmentes, das einen Teil eines Lau- tes / Phons vom Anfang einer Lautfolge / Phonfolge wiedergibt.

Figur 2k: Struktur eines erfindungsgemäßen Audiosegmentes, das Teile von Lauten / Phonens vom Anfang einer Lautfolge / Phonfolge wiedergibt.

Figur 21: Struktur eines erfindungsgemäßen Audiosegmentes, das einen Laut / ein Phon vom Ende einer Lautfolge / Phonfolge wiedergibt.

Figur 3a: Konkatenation gemäß dem Stand der Technik am Beispiel zweier herkömmlicher Audiosegmente. Die Segmente beginnen und enden mit Teilen der Solo- Aktikulationsbereiche (in der Regel jeweils die Hälfte).

Figur 3al: Konkatenation gemäß dem Stand der Technik. Der Solo-Artikulationsbereich des mittleren Phons stammt aus zwei unterschiedlichen Audiosegmenten.

Figur 3b: Konkatenation nach dem erfindungsgemäßen Verfahren am Beispiel zweier

Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten Koartikulationsbereichen enthalten. Beide Laute / Phone stammen aus der Mitte einer Lauteinheitenfolge

Figur 3bl: Konkatenation dieser Audiosegmente mittels eines Crossfades. Der Soloartikulationsbereich stammt aus einem Audiosegment. Der Übergang zwischen den Audiosegmenten erfolgt zwischen zwei Bereichen und ist somit unempfindlicher gegen Unterschiede (im Spektrum, Frequenz, Amplitude etc.). Die Audiosegmente können vor der Konkatenation auch noch mit zusätzlichen Übergangsfunktionen bearbeitet werden.

Figur 3bll: Konkatenation dieser Audiosegmente mittels eines Hardfades.

Figur 3c: Konkatenation gemäß dem erfindungsgemäßen Verfahren am Beispiel zweier erfindungsgemäßer Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten Koartikulationsbereichen enthalten, wobei das erste Audiosegment vom Anfang einer

Lautfolge stammt. Figur 3cl: Konkatenation dieser Audiosegmente mittels eines Crossfades.

Figur 3cll: Konkatenation dieser Audiosegmente mittels eines Hardfades.

Figur 3d: Konkatenation gemäß dem erfindungsgemäßen Verfahren am Beispiel zweier erfindungsgemäßer Audiosegmente, die je einen Laut / ein Phon mit vorgelagerten Koartikulationsbereichen enthalten. Beide Audiosegmente stammen aus der Mitte einer Lautfolge.

Figur 3dl: Konkatenation dieser Audiosegmente mittels eines Crossfades.

Der Soloartikulationsbereich stammt aus einem Audiosegment.

Figur 3dll: Konkatenation dieser Audiosegmente mittels eines Hardfades.

Figur 3e: Konkatenation nach dem erfindungsgemäßen Verfahren am Beispiel zweier erfindungsgemäßer Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten Koartikulationsbereichen enthalten, wobei das letzte Audiosegment vom Ende einer Lautfolge stammt.

Figur 3el: Konkatenation dieser Audiosegmente mittels eines Crossfades.

Figur 3ell: Konkatenation dieser Audiosegmente mittels eines Hardfades.

Figur 4: Schematische Darstellung der Schritte eines erfindungsgemäßen Verfahrens zur Erzeugung synthetisierter akustischer Daten.

Die im folgenden benutzten Bezugszeichen beziehen sich auf die Figur 1a und die im folgenden für die verschiedenen Verfahrensschritte benutzten Nummern beziehen sich auf die Figur 4.

Um mit Hilfe der Erfindung beispielsweise einen Text in synthetisierte Sprache umzuwandeln, ist es notwendig in einem vorgelagerten Schritt diesen Text in eine Folge von Lautzeichen bzw. Phonemen unter Verwendung bekannter Verfahren oder Vorrichtungen zu unterteilen. Vorzugsweise sind auch dem Text entsprechende prosodische Infor- mationen zu erzeugen. Die Lautfolge bzw. Phonfolge sowie die prosodischen und zusätzlichen Informationen dienen als Eingabegrößen für das erfindungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung. Die zu synthetisierenden Laute/Phone werden einer Eingabeeinheit 101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten zugeführt und in einer ersten Speichereinheit 103 abgelegt (siehe Figur 1a). Mit Hilfe einer Auswahleinrichtung 105 werden aus einem Audiosegmente (Elemente) enthaltenden Inventar, das in einer Datenbank 107 gespeichert ist, oder von einer vorgeschalteten Syntheseeinrichtung 108 (die nicht Bestandteil der Erfindung ist) die Audiosegmentbereiche ausgewählt, die Laute bzw. Phone oder Teile von Lauten bzw. Phonen wiedergeben, die den einzelnen eingegebenen Lautzeichen bzw. Phonemen oder Teilen davon entsprechen und in einer Reihenfolge, die der Reihenfolge der eingegebenen Lautzeichen bzw. Phoneme entspricht, in einer zweiten Speichereinheit 109 gespeichert. Falls das Inventar Teile von Lautfolgen oder von Polyphonen wiedergebende Audiosegmente enthält, so wählt die Auswahleinrichtung 105 vorzugsweise die Audiosegmente aus, die die meisten Teile von Lautfolgen bzw. von Polyphonen wiedergeben, die einer Folge von Lautzeichen bzw. Phonemen aus der eingegebenen Lautzeichenfolge bzw. Phonemfolge entsprechen, so daß eine minimale Anzahl von Audiosegmenten zur Synthese der eingegebenen Phonemfolge benötigt wird.

Stellt die Datenbank 107 oder die vorgeschaltete Syntheseeinrichtung 108 ein Inventar mit Audiosegmenten unterschiedlicher Arten zur Verfügung, so wählt die Auswahleinrichtung 105 vorzugsweise die längsten Audiosegmentbereiche aus, dieTeile der Lautfolge/Phonfolge wiedergeben , um die eingegebene Lautfolge bzw. Phonfolge und/oder eine Folge von Lauten/ Phonen aus einer minimalen Anzahl von Audiosegmentbereichen zu synthetisieren. Hierbei ist es vorteilhaft, verkettete Laute/Phone wiedergebende Audiosegmentbereiche zu verwenden, die einen zeitlich vorgelagerten statischen

Laut/Phon und einen zeitlich nachgelagerten dynamischen Laut/Phon wiedergeben. So entstehen Audiosegmente, die aufgrund der Einbettung der dynamischen Laute/Phone immer mit einem statischen Laut/Phon beginnen. Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei Konkatenationen solcher Audiosegmente, da hierfür nur Crossfa- des benötigt werden.

Um eine koartikulationsgerechte Konkatenation der zu verkettenden Audiosegmentbereiche zu erzielen, werden mit Hilfe einer Konkatenationseinrichtung 111 die Konkatena- tionsmomente zweier aufeinanderfolgender Audiosegmentbereiche wie folgt festgelegt:

- Soll ein Audiosegmentbereich zu Synthetisierung des Anfanges der eingegebenen Lautfolge/Phonfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audio- segmentbereich zu wählen, das den Anfang einer Lautfolge/Phonfolge wiedergibt und mit einem zeitlich nachgelagerten Audiosegmentbereich zu verketten (siehe Figur 3c und Schritt 3 in Figur 4).

- Bei der Konkatenation eines zweiten Audiosegmentbereiches an einen zeitlich vorgelagerten ersten Audiosegmentbereich ist zu unterscheiden, ob der zweite Audiosegmentbereich mit der Wiedergabe eines statischen Lautes/Phons oder eines dynamischen Lautes/Phons beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).

- Beginnt der zweite Audiosegmentbereich mit einem statischen Laut Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentbereiches und im zeitlich vorderen Bereich des zweiten Audiosegmentbereiches gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar anein- andergrenzen (siehe Figuren 3bl, 3cl, 3dl und 3el, Konkatenation mittels Crossfade).

- Beginnt der zweite Audiosegmentbereich mit einem dynamischen Laut/Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konka- tenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentbereiches und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentbreiches gelegt wird (siehe Figuren 3bll, 3cll, 3dll und 3ell, Konkatenation mittels Hardfade).

Auf diese Weise können aus diesen ursprünglich verfügbaren Audiosegmentbereichen neue Audiosegmente erzeugt werden, die mit der Wiedergabe eines statischen Lautes/Phons beginnen. Dies erreicht man, indem Audiosegmentbereiche, die mit der Wiedergabe eines dynamischen Lautes/Phons beginnen, zeitlich nachgelagert mit Audiosegmentbereichen, die mit der Wiedergabe eines statischen Lautes/Phons beginnen, verkettet werden. Dies vergrößert zwar die Zahl der Audiosegmente bzw. den Umfang des Inventars, kann aber bei der Erzeugung synthetisierter Sprachdaten einen rechentechnischen Vorteil darstellen, da weniger einzelne Konkatenationen zur Erzeugung einer Lautfolge/Phonemfolge erforderliche sind und Konkatenationen nur noch in Form eines Crossfades durchgeführt werden müssen. Vorzugsweise werden die so erzeugten neuen verketteten Audiosegmente der Datenbank 107 oder einer anderen Speichereinheit 113 zugeführt. Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audiosegmentbereiche zu neuen längeren Audiosegmenten ergibt sich, wenn sich beispielsweise eine Folge von Lau- ten/Phonen in der eingegebenen Lautfolge/Phonfolge häufig wiederholt. Dann kann auf eines der neuen entsprechend verketteten Audiosegmente zurückgegriffen werden und es ist nicht notwendig, bei jedem Auftreten dieser Folge von Lauten/Phonen eine erneute Konkatenation der ursprünglich vorhandenen Audiosegmentbereiche durchzuführen. Vorzugsweise sind bei der Speicherung solcher verketteten Audiosegmente auch übergreifende Koartikulationseffekte zu erfassen bzw. spezifische Koartikulationseffekte in Form zusätzlicher Daten dem gespeicherten verketteten Audiosegment zuzuordnen.

Soll ein Audiosegmentbereich zu Synthetisierung des Endes der eingegebenen Lautfolge/Phonfolge verwendet werden, so ist aus dem Inventar ein Audiosegmentbereich zu wählen, das ein Ende einer Lautfolge/Phonfolge wiedergibt und mit einem zeitlich vorgelagerten Audiosegmentbereich zu verketten (siehe Figur 3e und Schritt 8 in Figur 4).

Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert gespeichert, wobei die kodierte Form der Audiosegmente neben der Wellenform des jeweiligen Audiosegmentes angeben kann, welche Teile von Lautfolgen/Phonfolgen das jeweilige Audiosegment wiedergibt, welche Art der Konkatenation (z.B. Hardfade, linearer oder expo- nentieller Crossfade) mit welchem zeitlich nachfolgenden Audiosegmentbereich durchzuführen ist und zu welchem Moment die Konkatenation mit welchem zeitlich nachfolgenden Audiosegmentbereich stattfindet. Vorzugsweise enthält die kodierte Form der Audiosegmente auch Informationen bezüglich der Prosodie, übergeordneten Koartikula- tionen und Übergangsfunktionen, die verwendet werden, um eine zusätzliche Verbesse- rung der Sprachqualität zu erzielen.

Bei der Wahl der Audiosegmentbereiche zur Synthetisierung der eingegebenen Lautfolge/Phonfolge werden als zeitlich nachgelagerte Audiosegmentbereiche solche gewählt, die den Eigenschaften der jeweils zeitlich vorgelagerten Audiosegmentbereiche, u.a. Konkatenationsart und Konkatenationsmoment, entsprechen. Nachdem die jeweils Teile der Lautfolge/Phonfolge wiedergebenden Audiosegmentbereiche aus der Datenbank 107 oder der vorgeschalteten Syntheseeinrichtung 108 gewählt wurden, erfolgt die Verkettung zweier aufeinanderfolgender Audiosegmentbereiche mit Hilfe der Konkatenati- onseinrichtung 111 folgendermaßen. Es wird die Wellenform, die Konkatenationsart, der Konkatenationsmoment sowie evtl. zusätzliche Informationen des ersten Audiosegmentbereiches und des zweiten Audiosegmentbereiches aus der Datenbank oder der Syntheseeinrichtung (Figur 3b und Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben erwähnten Wahl der Audiosegmentbereiche solche Audiosegmentbereiche gewählt, die hinsichtlich ihrer Konkatenationsart und ihres Konkatenationsmoments zu einander passen. In diesem Fall ist das Laden der Informationen bezüglich der Konkatenationsart und des Konkatenationsmomentes des zweiten Audiosegmentbereiches nicht mehr notwendig.

Zur Konkatenation der beiden Audiosegmentbereiche werden die Wellenform des ersten Audiosegmentbereiches in einem zeitlich hinteren Bereich und die Wellenform des zweiten Audiosegmentbereiches in einem zeitlich vorderen Bereich jeweils mit geeigne- ten Übergangsfunktionen bearbeitet, z.B. mit einer geeigneten Gewichtungsfunktion multipliziert (siehe Figur 3b, Schritt 12 und 13). Die Längen des zeitlich hinteren Bereiches des ersten Audiosegmentbereiches und des zeitlich vorderen Bereiches des zweiten Audiosegmentbereiches ergeben sich aus der Konkatenationsart und zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen auch in der kodierten Form der Au- diosegmente in der Datenbank gespeichert werden können.

Sind die beiden Audiosegmentbereiche mit einem Crossfade zu verketten, werden diese entsprechend dem jeweiligen Konkatenationsmoment überlappend addiert (siehe Figuren 3bl, 3cl, 3dl und 3el, Schritt 15). Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade zu verwenden, es kann aber auch jede andere Art eines Crossfades oder jede Art von Übergangsfunktionen eingesetzt werden. Ist eine Konkatenation in Form eines Hardfades durchzuführen, werden die beiden Audiosegmentbereiche nicht überlappend hintereinander verbunden (siehe Figur 3bll, 3cll, 3dll und 3ell, Schritt 15). Wie in Figur 3bll zu sehen ist, werden hierbei die beiden Audiosegmentbereiche zeitlich unmit- telbar hintereinander angeordnet. Um die so erzeugten synthetisierten Sprachdaten weiterverarbeiten zu können, werden diese vorzugsweise in einer dritten Speichereinheit 1 15 abgelegt.

Für die weitere Verkettung mit nachfolgenden Audiosegmentbereichen werden die bisher verketteten Audiosegmentbereiche als erster Audiosegmentbereich betrachtet (Schritt

16) und der oben beschriebenen Verkettungsprozeß solange wiederholt, bis die gesamte Lautfolge/Phonfolge synthetisiert wurde.

Zur Verbesserung der Qualität der synthetisierten Sprachdaten sind vorzugsweise auch die prosodischen und zusätzlichen Informationen, die zusätzlich zu der Lautfolge/Phonfolge eingegeben werden, bei der Verkettung der Audiosegmentbereiche zu berücksichtigen. Mit Hilfe bekannter Verfahren kann die Frequenz, Dauer, Amplitude und/oder spektralen Eigenschaften der Audiosegmentbereiche vor und/oder nach deren Konkatenation so verändert werden, daß die synthetisierten Sprachdaten eine natürliche Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder 18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an Stellen der Audiosegmentbereiche zu wählen, an denen diese in einer oder mehrerer geeigneter Eigenschaften übereinstimmen.

Um die Übergänge zwischen zwei aufeinander folgenden Audiosegmentbereichen zu optimieren, ist zusätzlich die Bearbeitung der beiden Audiosegmentbereiche mit Hilfe geeigneter Funktionen im Bereich des Konkatenationsmomentes vorgesehen, um u.a. die Frequenzen, Dauern, Amplituden und spektralen Eigenschaften anzupassen. Des weiteren erlaubt es die Erfindung, auch übergeordnete akustische Phänomene einer realen Sprache, wie z.B. übergeordnete Koartikulationseffekte oder Sprachstil (u.a. Flüstern, Betonung, Gesangsstimme, Falsett, emotionaler Ausdruck) bei der Synthetisierung der Lautfolge/Phonfolgen zu berücksichtigen. Hierfür werden Informationen, die solche übergeordnete Phänomene betreffen, zusätzlich in kodierter Form mit den entsprechenden Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmentbereiche nur solche zu wählen, die den übergeordneten Koartikulationseigenschaften der zeitlich vor- und/oder nachgelagerten Audiosegmentbereichen entsprechen.

Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise eine Form, die es unter Verwendung einer Ausgabeeinheit 117 erlaubt, die Sprachdaten in akustische Sprachsignale umzuwandeln und die Sprachdaten und/oder Sprachsignale auf einem akustischen, optischen, magnetischen oder elektrischen Datenträger zu speichern (Schritt 19).

Im allgemeinen werden Inventarelemente durch die Aufnahme von real gesprochener Sprache erzeugt. In Abhängigkeit des Trainingsgrades des inventaraufbauenden Sprechers, d.h. seiner Fähigkeit die aufzunehmende Sprache zu kontrollieren (z.B. die Tonhöhe der Sprache zu kontrollieren oder exakt auf einer Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche Inventarelemente zu erzeugen, die verschobene Grenzen zwischen den Solo-Artikulationsbereichen und Koartikulationsbereichen haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die Konkatenationspunkte an verschiedenen Stellen zu plazieren. In der Folge kann die Qualität einer zu synthetisierenden Sprache deutlich verbessert werden.

Mit dieser Erfindung ist es erstmals möglich synthetisierte Sprachsignale durch eine ko- artikulationsgerechte Konkatenation einzelner Audiosegmentbereiche zu erzeugen, da der Moment der Konkatenation in Abhängigkeit der jeweils zu verkettenden Audiosegmentbereiche gewählt wird. Auf diese Weise kann eine synthetisierte Sprache erzeugt werden, die vom einer natürlichen Sprache nicht mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren oder Vorrichtungen werden die hier verwendeten Audio- segmente nicht durch ein Einsprechen ganzer Worte erzeugt, um eine authentische

Sprachqualität zu gewährleisten. Daher ist es mit dieser Erfindung möglich, synthetisierte Sprache beliebigen Inhalts in der Qualität einer real gesprochenen Sprache zu erzeugen.

Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrieben wurde, ist die Er- findung nicht auf den Bereich der synthetisierten Sprache beschränkt, sondern kann zu

Synthetisierung beliebiger akustischer Daten, bzw. beliebiger Schallereignisse verwendet werden. Daher ist diese Erfindung auch für eine Erzeugung und/oder Bereitstellung von synthetisierten Sprachdaten und/oder Sprachsignale für beliebige Sprachen oder Dialekte sowie auch zur Synthese von Musik einsetzbar.

Claims

Ansprüche

1. Verfahren zur koartikulationsgerechten Konkatenation von Audiosegmenten, um synthetisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Laute wiederge- ben, mit folgenden Schritten:

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils einen Teil eines Lautes oder einen Teil der Lautfolge wiedergeben, aufweist, gekennzeichnet durch die Schritte:

- Festlegen eines zu verwendenden Bereiches eines zeitlich vorgelagerten Audioseg- ments,

- Festlegen eines zu verwendenden Bereiches eines zeitlich nachgelagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgelagerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und

- Konkatenieren des festgelegten Bereiches des zeitlich vorgelagerten Audiosegments mit dem festgelegten Bereich des zeitlich nachgelagerten Audiosegments, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments in dessen festgelegten Bereich gelegt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß - der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst zu verwendenden Soloartikulationsbereichs des zeitlich nachgelagerten Audiosegments liegt, wenn dessen zu verwendender Bereich am Anfang einen statischen Laut wiedergibt, und

- ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet und überlappend addiert werden (Crossfade), wobei die Übergangsfunktionen und die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konka- tenierenden Audiosegmente bestimmt werden.

3. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, daß - der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgelagerten Audiosegments liegt, wenn dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und

- ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet und nicht überlappend verbunden werden (Hardfade), wobei die Übergangsfunktionen in Abhängigkeit der zu synthetisierenden akustischen Daten bestimmt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß für einen Laut oder einen Teil der Folge konkatenierter Laute am Anfang der konka- tenierten Lautfolge ein Bereich eines Audiosegmentes ausgewählt wird, so daß der Anfang des Bereiches die Eigenschaften des Anfangs der konkatenierten Lautfolge wiedergibt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß für einen Laut oder einen Teil der Folge konkatenierter Laute am Ende der konkatenierten Lautfolge ein Bereich eines Audiosegmentes ausgewählt wird, so daß das Ende des Bereiches die Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die zu synthetisierenden Sprachdaten in Gruppen zusammengefaßt werden, die jeweils durch ein einzelnes Audiosegment beschrieben werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß für den zeitlich nachgelagerten Audiosegmentbereich ein Audiosegmentbereich gewählt wird, der die größte Anzahl aufeinanderfolgender Teile der Laute der Lautfolge wiedergibt, um bei der Erzeugung der synthetisierten akustischen Daten die kleinste Anzahl von Audiosegmentbereichen zu verwenden.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigenschaften der konkatenierten Lautfolge durchgeführt wird, wobei diese Eigenschaften u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein können.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in einem Bereich durchgeführt wird, in dem der Moment der Konkatenation liegt. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß der Moment der Konkatenation an Stellen in den zu verwendenden Bereichen des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments gelegt wird, an denen die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Ei- genschaften übereinstimmen, wobei diese Eigenschaften u.a. sein können: Nullstelle,

Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Tonhöhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß

- die Auswahl der verwendeten Bereiche einzelner Audiosegmente, deren Bearbeitung, deren Variation sowie deren Konkatenation zusätzlich unter Verwendung heuristischen Wissens durchgeführt wird, das durch ein zusätzlich durchgeführtes heuristisches Verfahren gewonnen wird.

12. Verfahren einem der Ansprüche 1 bis 11 , dadurch gekennzeichnet, daß

- die zu synthetisierenden akustischen Daten Sprachdaten und die Laute Phone sind,

- die statischen Laute Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfassen, und - die dynamischen Laute Plosive, Affrikate, Glottalstops und geschlagenen Laute umfassen.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß

- eine Umwandlung der synthetisierten akustischen Daten in akustische Signale und/oder Sprachsignale durchgeführt wird.

14. Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten, um synthetisierte akustische Daten zu erzeugen, die eine Folge von Lauten wiedergeben, mit: - einer Datenbank, in der Audiosegmente gespeichert sind, die jeweils Teile eines Lautes oder Teile einer Folge von (konkatenierten) Lauten wiedergeben - und/oder einer beliebigen vorgeschalteten Syntheseeinrichtung (nicht Bestandteil dieser Erfindung), die Audiosegmente liefert, - einer Einrichtung zur Auswahl von wenigstens zwei Audiosegmenten aus der Datenbank und/oder der vorgeschalteten Syntheseeinrichtung, und - einer Einrichtung zur Konkatenation der Audiosegmente, dadurch gekennzeichnet, daß die Konkatenationseinrichtung geeignet ist,

- einen zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments zu definieren,

- einen zu verwendenden Bereiches eines zeitlich nachgelagerten Audiosegments in einem Bereich zu definieren, der mit dem zeitlich nachgelagerten Audiosegment beginnt und zeitlich nach einem auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegmentes endet,

- die Dauer und Lage der verwendeten Bereiche in Abhängigkeit der vor- und nachgelagerten Audiosegmente zu bestimmen, und - den verwendeten Bereich des zeitlich vorgelagerten Audiosegments mit dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments durch Definition des Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments in einem Bereich zu konkatenieren, der zeitlich unmittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulationsbereich folgenden

Koartikulationsbereich des zeitlich nachgelagerten Audiosegments endet.

15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Konkatenationeinrichtung umfaßt: - Einrichtungen zur Konkatenation des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments mit dem verwendeten Bereich des zeitlich nachgelagerten Audiosegment, dessen verwendeter Bereich am Anfang einen statischen Laut wiedergibt, in der Umgebung der Grenzen des zuerst auftretetenden Soloartikulationsbereichs des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments, - Einrichtungen zur Bearbeitung eines zeitlich hinteren Bereiches des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments und eines zeitlich vorderen Bereiches des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen, und

- Einrichtungen zur überlappenden Addition der beiden Bereiche in einem von den zu konkatenierenden Audiosegmenten abhängenden Überlappungsbereich (Crossfade), wobei die Übergangsfunktionen und die Länge eines Überlappungsbereiches der beiden Bereiche in Abhängigkeit der zu synthetisierenden akustischen Daten bestimmt werden.

16. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Konkatenationeinrichtung umfaßt:

- Einrichtungen zur Konkatenation des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments mit dem verwendeten Bereich des zeitlich nachgelagerten Audiosegment, dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, zeitlich unmittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments,

- Einrichtungen zur Bearbeitung eines zeitlich hinteren Bereiches des verwendeten Be- reiches des zeitlich vorgelagerten Audiosegments und eines zeitlich vorderen Bereiches des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen, wobei die Übergangsfunktionen in Abhängigkeit der zu synthetisierenden akustischen Daten bestimmt werden, und

- Einrichtungen zur nicht überlappenden Verbindung der Audiosegmente.

17. Vorrichtung nach einem der Ansprüche 14 bis 16, dadurch gekennzeichnet, daß die Datenbank Audiosegmente enthält oder die vorgeschaltete Syntheseeinrichtung Audiosegmente liefert, die Bereiche enthalten, die zu Beginn einen Laut oder einen Teil der konkatenierten Lautfolge am Anfang der konkatenierten Lautfolge wiedergibt.

18. Vorrichtung nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, daß die Datenbank Audiosegmente enthält oder die vorgeschaltete Syntheseeinrichtung Audiosegmente liefert, die Bereiche enthalten, deren Ende einen Laut oder einen Teil der konkatenierten Lautfolge am Ende der konkatenierten Lautfolge wiedergibt.

19. Vorrichtung nach einem der Ansprüche 14 bis 18, dadurch gekennzeichnet, daß die Datenbank eine Gruppe von Audiosegmenten enthält oder die vorgeschaltete Syntheseeinrichtung Audiosegmente liefert, die Bereiche enthalten, deren Anfänge jeweils nur einen statischen Laut wiedergeben.

20. Vorrichtung nach einem der Ansprüche 14 bis 19, dadurch gekennzeichnet, daß die Konkatenationseinrichtung umfaßt:

- Einrichtungen zur Erzeugung weiterer Audiosegmente durch Konkatenation von Bereichen von Audiosegmenten, wobei die Anfänge der Bereiche jeweils einen statischen Laut wiedergeben, jeweils mit einem Bereich eines zeitlich nachgelagerten Audiosegment, dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und - eine Einrichtung, die die weiteren Audiosegmente der Datenbank oder der Auswahleinrichtung zuführt.

21. Vorrichtung nach einem der Ansprüche 14 bis 20, dadurch gekennzeichnet, daß die Auswahleinrichtung geeignet ist, bei der Auswahl der Audiosegmentbereiche aus der

Datenbank oder der vorgeschalteten Syntheseeinrichtung, die Audiosegmentbereiche auszuwählen, die jeweils die meisten aufeinanderfolgenden Teile der konkatenierten Laute der konkatenierten Lautfolge wiedergeben.

22. Vorrichtung nach einem der Ansprüche 14 bis 21 , dadurch gekennzeichnet, daß die Konkatenationseinrichtung Einrichtungen zur Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigenschaften der konkatenierten Lautfolge aufweist. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

23. Vorrichtung nach einem der Ansprüche 14 bis 22, dadurch gekennzeichnet, daß

- die Konkatenationseinrichtung Einrichtungen zur Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in einem den Moment der Konkatenation umfassenden Bereich aufweist, wobei diese Funktion u.a. eine Verände- rung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein kann.

24. Vorrichtung nach einem der Ansprüche 14 bis 23, dadurch gekennzeichnet, daß

- die Konkatenationseinrichtung Einrichtungen zur Auswahl des Momentes der Konkatenation bei einer Stelle in den verwendeten Bereichen des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments, an denen die beiden verwendeten

Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften übereinstimmen, wobei diese Eigenschaften u.a. sein können: Nullstelle, Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Tonhöhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

25. Vorrichtung nach einem der Ansprüche 14 bis 24, dadurch gekennzeichnet, daß

- die Auswahleinrichtung Einrichtungen zur Implementation heuristischen Wissens umfaßt, das die Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren Bearbeitung, deren Variation sowie deren Konkatenation betrifft.

26. Vorrichtung nach einem der Ansprüche 14 bis 25, dadurch gekennzeichnet, daß - die Datenbank Audiosegmente enthält oder die vorgeschaltete Syntheseeinrichtung Audiosegmente liefert, die Bereiche enthalten, die jeweils wenigstens einen Teil eines Lautes bzw. Phons, einen Laut bzw. ein Phon, Teile von Lautfolgen bzw. Polyphonen oder Lautfolgen bzw. Polyphone wiedergeben, wobei ein statischer Laut einen statischen Phon entspricht und Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfaßt und ein dynamischer Laut einem dynamischen Phon entspricht und Plosive, Affrikate, Glottaistops und geschlagene Laute umfaßt, und

- die Konkatenationseinrichtung geeignet ist, um durch Konkatenation von Audioseg- menten synthetisierte Sprachdaten zu erzeugen.

27. Vorrichtung nach einem der Ansprüche 14 bis 26, dadurch gekennzeichnet, daß

- Einrichtungen zur Umwandlung der synthetisierten akustischen Daten in akustische Signale und/oder Sprachsignale vorhanden sind.

28. Synthetisierte Sprachsignale, die aus einer Folge von Lauten bzw. Phonen bestehen, wobei die Sprachsignale erzeugt werden, indem:

- wenigstens zwei die Laute bzw. Phone wiedergebende Audiosegmente ausgewählt werden, und - die Audiosegmente durch eine koartikulationsgerechte Konkatenation verkettet werden, wobei

- ein zu verwendender Bereich eines zeitlich vorgelagerten Audiosegments festgelegt wird,

- ein zu verwendender Bereich eines zeitlich nachgeiagerten Audiosegments festgelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgelagerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhängigkeit der Audio- segmente bestimmt wird, und

- die verwendeten Bereiche der Audiosegmente koartikulationsgerecht konkateniert werden, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments in dessen festgelegten Bereich gelegt wird.

29. Synthetisierte Sprachsignale nach Anspruch 28, dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden, indem - die Audiosegmente zu einem Moment konkateniert werden, der in der Umgebung der Grenzen des zuerst auftretenden Soloartikulationsbereichs des verwendeten Bereiches des zeitlich nachgelagerten Audiosegmentes liegt, wenn der Anfang dieses Bereiches einen statischen Laut bzw. ein statisches Phon wiedergibt , wobei ein statisches Phon ein Vokal, ein Diphtong, ein Liquid, ein Frikativ, ein Vibrant oder ein Nasal ist, und

- ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet und beide Bereiche überlappend addiert werden (Crossfade), wobei die Übergangsfunktio- nen und die Länge eines Überlappungsbereichs beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt werden.

30. Synthetisierte Sprachsignale nach Anspruch 28, dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden, indem - die Audiosegmente zu einem Moment konkateniert werden, der zeitlich unmittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegmentes liegt, wenn der Anfang dieses Bereiches einen dynamischen Laut bzw. ein dynamisches Phon wiedergibt, wobei ein dynamisches Phon ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener Laut ist, und - ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet werden und nicht überlappend verbunden werden (Hardfade) wobei die Übergangsfunktionen in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt werden.

31. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 30, dadurch gekennzeichnet, daß

- der erste Laut bzw. das erste Phon oder ein Teil der ersten Lautfolge bzw. des ersten Polyphons in der Folge durch ein Audiosegment erzeugt wird, dessen verwendeter Be- reich am Anfang die Eigenschaften des Anfangs der Folge wiedergibt.

32. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 31 , dadurch gekennzeichnet, daß

- der letzte Laut bzw. das letzte Phon oder ein Teil der letzten Lautfolge bzw. des letzten Polyphon in der Folge durch ein Audiosegment erzeugt wird, dessen verwendeter Bereich am Ende die Eigenschaften des Endes der Folge wiedergibt.

33. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 32, dadurch gekennzeichnet, daß

- die Sprachsignale erzeugt werden indem nachgelagerte mit der Wiedergabe eines dynamischen Lautes bzw. Phons beginnenden Bereiche von Audiosegmenten mit vorgela- gerten mit der Wiedergabe eines statischen Lautes bzw. Phons beginnende Bereichen von Audiosegmenten konkateniert werden.

34. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 33, dadurch gekennzeichnet, daß - die Audiosegmentbereiche ausgewählt werden, die die meisten Teile von Lauten bzw.

Phonen der Folge wiedergeben, um bei der Erzeugung der Sprachsignale die minimale Anzahl von Audiosegmentbereichen zu verwenden.

35. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 34, dadurch gekenn- zeichnet, daß

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audiosegmenten erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigenschaften der Lautfolge bzw. Phonfolge bearbeitet werden. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

36. Synthetisierte Sprachsignale einem der Ansprüche 28 bis 35, dadurch gekennzeichnet, daß

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audiosegmenten erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigen- schaften der Lautfolge bzw. Phonfolge in einem Bereich bearbeitet werden, in dem der Moment der Konkatenation liegt, wobei diese Eigenschaften u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein können.

37. Synthetisierte Sprachsignale einem der Ansprüche 28 bis 36, dadurch gekennzeich- net, daß der Moment der Konkatenation bei einer Stelle in den verwendeten Bereichen des vorgelagerten und/oder des nachgelagerten Audiosegmentes liegt, an denen die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften übereinstimmen, wobei diese Eigenschaften u.a. sein können: Nullstelle, Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Tonhöhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

38. Synthetisierte Sprachsignale nach einem der Ansprüche 28 bis 37, dadurch gekennzeichnet, daß die Sprachsignale geeignet sind, in akustische Signale umgewandelt zu werden.

39. Datenträger, der ein Computerprogramm zur koartikulationsgerechten Konkatenation von Audiosegmenten enthält, um synthetisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Laute wiedergeben, mit folgenden Schritten:

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils einen Teil eines Lautes oder einen Teil der Folge konkatenierter Laute wiedergeben, gekennzeichnet durch die Schritte:

- Festlegen eines zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments,

- Festlegen eines zu verwendenden Bereiches eines zeitlich nachgelagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgela- gerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und - Konkatenieren des festgelegten Bereiches des zeitlich vorgelagerten Audiosegments mit dem festgelegten Bereich des zeitlich nachgelagerten Audiosegments, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments in dessen festgelegten Bereich gelegt wird.

40. Datenträger nach Anspruch 39, dadurch gekennzeichnet, daß das Computerprogramm den Moment der Konkatenation des verwendeten Bereiches des zweiten Audiosegmentes mit dem verwendeten Bereich des ersten Audiosegment so wählt, daß

- der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst verwendeten Soloartikulationsbereichs des zeitlich nachgelagerten

Audiosegments liegt, wenn dessen verwendeter Bereich am Anfang einen statischen Laut wiedergibt, und

- ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet und überlappend addiert werden (Crossfade), wobei Übergangsfunktionen und die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.

41. Datenträger nach Anspruch 39 dadurch gekennzeichnet, daß das Computerpro- gramm den Moment der Konkatenation des verwendeten Bereiches des zweiten Audiosegmentes mit dem verwendeten Bereich des ersten Audiosegmentes so wählt, daß - der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments liegt, wenn dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und - ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Übergangsfunktionen bearbeitet und nicht überlappend verbunden werden (Hardfade), wobei die Übergangsfunktionen in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt werden.

42. Datenträger nach einem der Ansprüche 39 bis 41, dadurch gekennzeichnet, daß das Computerprogramm für einen Laut oder einen Teil der Folge konkatenierter Laute am Anfang der konkatenierten Lautfolge einen Bereich eines Audiosegments auswählt, dessen Anfang die Eigenschaften des Anfangs der konkatenierten Lautfolge wiedergibt.

43. Datenträger nach einem der Ansprüche 39 bis 42, dadurch gekennzeichnet, daß das Computerprogramm für einen Laut oder einen Teil der Folge konkatenierter Laute am Ende der konkatenierten Lautfolge einen Bereich eines Audiosegments auswählt, dessen Ende die Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt.

44. Datenträger nach einem der Ansprüche 39 bis 43, dadurch gekennzeichnet, daß das Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigenschaften der Lautfolge durchführt. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

45. Datenträger nach einem der Ansprüche 39 bis 44, dadurch gekennzeichnet, daß das Computerprogramm für den zeitlich nachgelagerten Audiosegmentbereich einen Audiosegmentbereich wählt, der die größte Anzahl aufeinanderfolgender Teile der konka- tenierter Laute der Lautfolge wiedergibt, um bei der Erzeugung der synthetisierten akustischen Daten die kleinste Anzahl von Audiosegmentbereichen zu verwenden.

46. Datenträger nach einem der Ansprüche 39 bis 45, dadurch gekennzeichnet, daß das Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in einem Bereich durchführt, in dem der Moment der Konkatenation liegt. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

47. Datenträger nach einem der Ansprüche 39 bis 46, dadurch gekennzeichnet, daß Computerprogramm den Moment der Konkatenation bei einer Stelle in den verwendeten Bereichen des ersten und/oder des zweiten Audiosegmentes festlegt, an denen die bei- den verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften übereinstimmen, wobei diese Eigenschaften u.a. sein können: Nullstelle, Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Tonhöhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

48. Datenträger nach einem der Ansprüche 39 bis 47, dadurch gekennzeichnet, daß das Computerprogramm eine Implementation von heuristischem Wissen durchführt, das die Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren Bearbeitung, deren Variation sowie deren Konkatenation betrifft.

49. Datenträger nach einem der Ansprüche 39 bis 48, dadurch gekennzeichnet, daß das Computerprogramm zur Erzeugung synthetisierter Sprachdaten geeignet ist, wobei die Laute Phone sind, die statischen Laute Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale und die dynamischen Laute Plosive, Affrikate, Glottaistops und geschlagene Laute umfassen.

50. Datenträger nach einem der Ansprüche 39 bis 49, dadurch gekennzeichnet, daß das Computerprogramm die synthetisierten akustischen Daten in akustische umwandelbare Daten und/oder Sprachsignale umwandelt.

51. Akustischer, optischer, magnetischer oder elektrischer Datenspeicher, der Audiosegmente enthält, um durch eine Konkatenation von verwendeten Bereichen der Audiosegmente unter Verwendung des Verfahrens nach Anspruch 1 oder der Vorrichtung nach Anspruch 14 oder des Datenträgers nach Anspruch 39 synthetisierte akustische Daten zu erzeugen.

52. Datenspeicher nach Anspruch 51 , dadurch gekennzeichnet, daß eine Gruppe der Audiosegmente Laute bzw. Phone oder Teile von Lauten bzw. Phonen wiedergeben.

53. Datenspeicher nach Anspruch 51 oder 52, dadurch gekennzeichnet, daß eine Grup- pe der Audiosegmente Lautfolgen oder Teile von Lautfolgen bzw. Polyphone oder Teile von Polyphonen wiedergeben.

54. Datenspeicher nach einem der Ansprüche 50 bis 53, dadurch gekennzeichnet, daß eine Gruppe von Audiosegmenten zur Verfügung gestellt wird, deren verwendete Berei- ehe mit einem statischen Laut bzw. Phon beginnen, wobei die statischen Phone Vokale,

Diphtonge, Liquide, Frikative, Vibranten und Nasale umfassen.

55. Datenspeicher nach einem der Ansprüche 50 bis 54, dadurch gekennzeichnet, daß Audiosegmente zur Verfügung gestellt werden, die geeignet sind in akustische Signale umgewandelt zu werden.

56. Datenspeicher nach einem der Ansprüche 50 bis 55, der zusätzlich Informationen enthält, um eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in Abhängigkeit von Eigenschaften der zu synthetisierenden akustischen Daten durchzuführen. Dies kann u.a. eine Veränderung der Frequenz, der

Dauer, der Amplitude oder des Spektrums sein.

57. Datenspeicher nach einem der Ansprüche 50 bis 56, der zusätzlich Informationen enthält, die eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente und mit Hilfe geeigneter Funktionen in einem Bereich betreffen, in dem der Moment der Konkatenation liegt. Dies kann u.a. eine Veränderung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein.

58. Datenspeicher nach einem der Ansprüche 50 bis 57, der zusätzlich verkettete Audio- segmente zur Verfügung stellt, deren Moment der Konkatenation bei einer Stelle der verwendeten Bereiche des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegmentes liegt, an denen die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften übereinstimmen. Diese Eigenschaften können u.a. sein: Nullstelle, Amplitudenwert, Steigung, Ableitung beliebigen Grades, Spektrum, Ton- höhe, Amplitudenwert in einem Frequenzbereich, Lautstärke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema betrachtete Eigenschaften.

59. Datenspeicher nach einem der Ansprüche 50 bis 58, der zusätzlich Informationen in Form von heuristischem Wissen enthält, die die Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren Bearbeitung, deren Variation sowie deren Konkatenation betreffen.

60. Tonträger, der Daten enthält, die zumindest teilweise synthetisierte akustische Daten sind, die

- mit einem Verfahren nach einem der Ansprüche 1 bis 13, oder

- mit einer Vorrichtung nach einem der Ansprüche 14 bis 27, oder - unter Verwendung eines Datenträgers nach einem der Ansprüche 39 bis 49, oder

- unter Verwendung eines Datenspeichers nach einem der Ansprüche 50 bis 59 erzeugt wurden, oder

- die Sprachsignale nach einem der Ansprüche 28 bis 38 sind.

61. Tonträger nach Anspruch 60, dadurch gekennzeichnet, daß die synthetisierten akustischen Daten synthetisierte Sprachdaten sind.