Beschreibung
Verfahren und Anordnung zur Bestimmung spektraler Sprachcharakteristika in einer gesprochenen Äußerung
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Bestimmung spektraler Sprachcharakteristika m einer gesprochenen Äußerung.
Bei einer konkatenativen Sprachsynthese werden einzelne Laute aus Sprachdatenbanken zusammengesetzt. Um dabei einen für das menschliche Ohr natürlich klingenden Sprachverlauf zu erhalten, sind Diskontinuitäten an den Punkten, wo die Laute zusammengesetzt werden (Konkatenationspunkte) zu vermeiden. Die Laute sind dabei insbesondere Phoneme einer Sprache oder eine Zusammensetzung mehrerer Phoneme.
Eine Wavelet-Transformation ist aus [1] bekannt. Bei der Wavelet-Transformation ist durch ein Wavelet-Filter gewährleistet, daß jeweils ein Hochpaßanteil und ein
Tiefpaßanteil einer nachfolgenden Transformationsstufe ein Signal einer aktuellen Transformationsstufe vollständig wiederherstellen. Dabei erfolgt von einer Transformationsstufe zur nächsten eine Reduktion der Auflosung des Hochpaßanteils bzw. Tiefpaßanteils (engl. Fachbegriff: "Subsamplmg" ) . Insbesondere ist durch das Subsamplmg die Anzahl der Transformationsstufen endlich.
Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Anordnung zur Bestimmung spektraler
Sprachcharakteristika anzugeben, mit deren Hilfe insbesondere eine natürlich wirkende synthetische Sprachausgabe bestimmbar
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelost.
Im Rahmen der Erfindung wird ein Verfahren angegeben zur Bestimmung spektraler Sprachcharakteristika m einer gesprochenen Äußerung. Dazu wird die gesprochenen Äußerung digitalisiert und einer Wavelet-Transformation unterzogen. Anhand unterschiedlicher Transformationsstufen der Wavelet- Transformation werden die sprecherspezifischen Charakteristika ermittelt.
Dabei ist es insbesondere ein Vorteil, daß bei der Wavelet- Transformation mittels eines Hochpaßfllters und eines Tiefpaßfilters die Äußerung aufgeteilt wird und unterschiedliche Hochpaßanteile bzw. Tiefpaßanteile verschiedener Transformationsstufen sprecherspezifische Charakteristika enthalten.
Die einzelnen Hochpaßanteile bzw. Tiefpaßanteile verschiedener Transformationsstufen stehen für vorgegebene sprecherspezifische Charakteristika, wobei sowohl Hochpaßanteil als auch Tiefpaßanteil einer jeweiligen Transformationsstufe, also das jeweilige Charakteristikum, getrennt von anderen Charakteristika modifiziert werden kann. Setzt man bei der mversen Wavelet-Transformation aus den jeweiligen Hochpaß- und Tiefpaßanteilen der einzelnen Transformationsstufen wieder das ursprungliche Signal zusammen, so ist gewährleistet, daß genau das gewünschte
Charakteristikum verändert worden ist. Es ist somit möglich bestimmte vorgegebene Eigenarten der Äußerung zu verandern, ohne daß dadurch der Rest der Äußerung beeinflußt wird.
Eine Ausgestaltung besteht darin, daß vor der Wavelet- Transformation die ußerung gefenstert, also eine vorgegebene Menge von Abtastwerten ausgeschnitten, und m den Frequenzbereich transformiert wird. Hierzu wird insbesondere eine Fast-Fourier-Transformation (FFT) angewandt.
Eine weitere Ausgestaltung besteht darin, daß ein Hochpaßanteil einer Transformationsstufe m einen Realteil
und einen Imagmarteil aufgeteilt wird. Der Hochpaßanteil der Wavelet-Transformation entspricht dem Differenzsignal zwischen dem aktuellen Tiefpaßanteil und dem Tiefpaßanteil der vorhergehenden Transformationsstufe.
Insbesondere besteht eine Weiterbildung darin, die Zahl der durchzuführenden Transformationsstufen der Wavelet- Transformation dadurch zu bestimmen, daß m der letzten Transformationsstufe, die aus hinteremandergeschalteten Tiefpassen besteht, ein Gleichanteil der Äußerung enthalten ist. Dann ist das Signal als Ganzes darstellbar durch seine Wavelet-Koefflzienten. Dies entspricht der vollständigen Transformation der Information des Signalausschnitts m den Wavelet-Raum.
Wird insbesondere nur der jeweilige Tiefpaßanteil weiter transformiert (mittels eines Hochpaß- und eines Tiefpaßfilters), so verbleibt als Hochpaßanteil einer Transformationsstufe das Differenzsignal, wie oben erläutert. Kumuliert man Differenzsignale (Hochpaßanteile) über die Transformationsstufen, erhalt man m der letzten Transformationsstufe als kumulierten Hochpaßanteil die Information der gesprochenen Äußerung ohne Gleichanteil.
Im Rahmen einer zusätzlichen Weiterbildung sind die sprecherspezifischen Charakteristika identifizierbar als:
a) Grundfrequenz :
Die Schwingung des Hochpaßanteils der ersten oder der zweiten Transformationsstufe der Wavelet-
Transformation laßt die Grundfrequenz der ußerung erkennen. Die Grundfrequenz zeigt an, ob der Sprecher ein Mann oder einen Frau ist.
b) Form der spektralen Hullkurve:
Die spektrale Hullkurve enthalt Information über eine Transferfunktion des Vokaltrakts bei der Artikulation.
In einem stimmhaften Bereich wird die spektrale Hullkurve von den Formanten dominiert. Der Hochpaßanteil einer höheren Transformationsstufe der Wavelet-Transformation enthalt diese spektrale Hullkurve.
c) Spectral Tilt (Rauchigkeit) :
Die Rauchigkeit m einer Stimme wird als negative Steigung im Verlauf des vorletzten Tiefpaßanteils sichtbar.
Die sprecherspezifischen Charakteristika a) bis c) sind bei der Sprachsynthese von großer Bedeutung. Wie eingangs erwähnt, bedient man sich bei der konkatenativen Sprachsynthese großer Mengen realgesprochener Äußerungen, aus denen Beispiellaute ausgeschnitten und spater zu einem neuen Wort zusammengesetzt werden (synthetisierte Sprache) . Dabei sind Diskontinuitäten zwischen zusammengesetzten Lauten von Nachteil, da diese vom menschlichen Ohr als unnatürlich wahrgenommen werden. Um den Diskontinuitäten entgegenzuwirken ist es von Vorteil, direkt die perzeptiv relevanten Großen zu erfassen und ggf. zu vergleiche und/oder einander anzupassen.
Dies kann geschehen durch direkte Manipulation, indem ein Sprachlaut m mindestens einer seiner sprecherspezifischen Charakteristika angepaßt wird, so daß er m dem akustischen Kontext der konkatenativ verknüpften Laute nicht als störend wahrgenommen wird. Auch ist es möglich, die Auswahl eines passenden Lautes daran auszurichten, daß sprecherspezifische Charakteristika von zu verknüpfenden Lauten möglichst gut zueinander passen, z.B. daß den Lauten gleiche oder ähnliche Rauchigkeit zu eigen ist.
Ein Vorteil der Erfindung besteht darin, daß die spektrale Hullkurve den Artikulationstrakt des Sprechers widerspiegelt und nicht, wie z.B. ein Polstellenmodell, auf Formanten gestutzt ist. Weiterhin gehen bei der Wavelet-Transformation
als nichtparametrischer Darstellung keine Daten verloren, die Äußerung kann stets vollständig rekonstruiert werden. Die aus den einzelnen Transformationsstufen der Wavelet- Transformation hervorgehenden Daten sind linear voneinander unabhängig, können somit getrennt voneinander beeinflußt und spater wieder zu der beeinflußten Äußerung - verlustlos - zusammengesetzt werden.
Weiterhin wird eine Anordnung zur Bestimmung spektraler
Sprachcharakteristika angegeben, die eine Prozessoreinheit aufweist, die derart eingerichtet ist, daß eine Äußerung digitalisierbar ist. Daraufhin wird die Äußerung einer Wavelet-Transformation unterzogen und anhand unterschiedlicher Transformationsstufen werden sprecherspezifische Charakteristika ermittelt.
Diese Anordnung ist insbesondere geeignet zur Durchfuhrung des erfmdungsgemaßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.
Weiterbildungen der Erfindung ergeben sich auch aus den abhangigen Ansprüchen.
Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.
Es zeigen
Fig.l eine Wavelet-Funktion;
Fig.2 eine Wavelet-Funktion, unterteilt nach Realteil und Imagmarteil;
Fig.3 eine kaskadierte Filterstruktur, die die
Transformationsschritte der Wavelet-Transformation darstellt;
Fig.4 Tiefpaßanteile und Hochpaßanteile unterschiedlicher Transformationsstufen;
Fig.5 Schritte der konkatenativen Sprachsynthese.
Fig.l zeigt eine Wavelet-Funktion, die bestimmt ist durch
wobei f die Frequenz, σ eine Standardabweichung und c eine vorgegebene Normierungskonstante bezeichnen.
Insbesondere ist die Standardabweichung σ bestimmt durch die vorgebbare Stelle des Seitenbandminimums 101 in Fig.l.
Fig.2 zeigt eine Wavelet-Funktion mit einem Realteil gemäß Gleichung (1) und einer Hilbert-Transformierten H des Realteils als Imaginärteil. Die komplexe Wavelet-Funktion ergibt sich somit zu
Ψ(f) = ψ(f) + j • H{ψ(f)} (2).
Die Konstante c aus Gleichung (1) wird verwendet, um die komplexe Wavelet-Funktion zu normieren:
-oo
wobei Ψ die konjugiert komplexe Wavelet-Funktion bezeichnet.
Fig.3 zeigt die kaskadierte Anwendung der Wavelet- Transformation. Ein Signal 301 wird sowohl durch einen Hochpaß HP1 302 als auch durch einen Tiefpaß TP1 305 gefiltert. Dabei findet insbesondere ein Subsamplmg statt, d.h. die Anzahl der abzuspeichernden Werte wird pro Filter reduziert. Eine mverse Wavelet-Transformation gewahrleistet, daß aus dem Tiefpaßanteil TP1 305 und dem Hochpaßanteil HP1 304 wieder das ursprüngliche Signal 301 rekonstruierbar ist.
Im Hochpaß HP1 302 wird getrennt nach Realteil Rel 303 und Imagmarteil Iml 304 gefiltert.
Das Signal 310 nach dem Tiefpaßfilter TP1 305 wird erneut sowohl durch einen Hochpaß HP2 306 als auch durch einen
Tiefpaß TP2 309 gefiltert. Der Hochpaß HP2 306 umfaßt wieder einen Realteil Re2 307 und einen Imagmarteil Im2 308. Das Signal nach der zweiten Transformationsstufe 311 wird wieder gefiltert, usf.
Geht man von einem (FFT-transformierten) Kurzzeitspektrum mit 256 Werten aus, so werden acht Transformationsschritte durchgef hrt (Subsampl grate : 1/2), bis das Signal aus dem letzten Tiefpaßfilter TP8 dem Gleichanteil entspricht.
In Fig.4 sind verschiedene Transformationsstufen der Wavelet- Transformation, unterteilt nach Tiefpaßanteilen (Figuren 4A, 4C und 4E) und Hochpaßanteilen (Figuren 4B, 4D und 4F) dargestellt .
Aus dem Hochpaßanteil gemäß Fιg.4B ist die Grundfrequenz der gesprochenen Äußerung ersichtlich. Neben den Schwankungen m der Amplitude ist deutlich eine überwiegende Periodizitat im wavelet-gefllterten Spektrum zu erkennen, die Grundfrequenz des Sprechers. Anhand der Grundfrequenz ist es möglich, vorgegebene Äußerungen bei der Sprachsynthese einander
anzupassen oder passende Äußerungen aus einer Datenbank mit vorgegebene Äußerungen zu bestimmen.
Im Tiefpaßanteil von Fιg.4C sind als ausgeprägte Mmima und Maxima die Formanten des Sprachsignalausschnitts (die Lange des Sprachsignalausschnitts entspricht m etwa der doppelten Grundfrequenz) dargestellt. Die Formanten repräsentieren Resonanzfrequenzen im Vokaltrakt des Sprechers. Die deutliche Darstellbarkeit der Formanten ermöglicht eine Anpassung und/oder Auswahl passender Lautbausteine bei der konkatenativen Sprachsynthese.
Im Tiefpaßanteil der vorletzten Transformationsstufe (bei 256 Frequenzwerten im Originalsignal: TP7), kann die Rauchigkeit einer Stimme ermittelt werden. Der Abstieg des Kurvenverlaufs zwischen Maximum Mx und Minimum Mi kennzeichnet den Grad der Rauchigkeit .
Die erwähnten drei sprecherspezifischen Charakteristika sind somit identifiziert und können für die Sprachsynthese gezielt beeinflußt werden. Dabei ist es insbesondere von Bedeutung, daß bei der versen Wavelet-Transformation die Manipulation eines einzelnen sprecherspezifischen Charakteristikums nur dieses beeinflußt, die anderen perziptiv relevanten Großen bleiben unberührt. Somit kann die Grundfrequenz gezielt verstellt werden, ohne daß dadurch die Rauchigkeit der Stimme beeinflußt wird.
Eine andere Emsatzmoglichkeit besteht m der Auswahl eines geeigneten Lautabschnitts zur konkatenativen Verknüpfung mit einem anderen Lautabschnitt, wobei beide Lautabschnitte ursprünglich von verschiedenen Sprechern m unterschiedlichen Kontexten aufgenommen wurden. Mit Ermittlung spektraler Sprachcharakteristika kann ein geeigneter zu verknüpfender Lautabschnitt gefunden werden, da mit den Charakteristika Kriterien bekannt sind, die einen Vergleich von Lautabschnitten untereinander und somit eine Auswahl des
passenden Lautabschnitts automatisch nach bestimmten Vorgaben ermöglichen.
Fig.5 zeigt Schritte einer konkatenativen Sprachsynthese. Eine Datenbank wird mit einer vorgegebenen Menge naturlichgesprochener Sprache verschiedener Sprecher erstellt, wobei Lautabschnitte m der naturlichgesprochenen Sprache identifiziert und abgespeichert werden. Es ergeben sich zahlreiche Repräsentanten für die verschiedenen Lautabschnitte einer Sprache, auf die die Datenbank zugreifen kann. Die Lautabschnitte sind insbesondere Phoneme einer Sprache oder eine Aneinanderreihung solcher Phoneme. Je kleiner der Lautabschnitt, desto großer sind die Möglichkeiten bei der Zusammensetzung neuer Worter. So umfaßt die deutsche Sprache eine vorgegebene Menge von ca. 40
Phonemen, die zur Synthese nahezu aller Worter der Sprache ausreichen. Dabei sind unterschiedliche akustische Kontexte zu berücksichtigen, e nachdem, m welchem Wort das jeweilige Phonem auftritt. Nun ist es wichtig, die einzelnen Phoneme m den akustischen Kontext derart einzubetten, daß
Diskontinuitäten, die vom menschlichen Gehör als unnaturlich und "synthetisch" empfunden werden, vermieden werden. Wie erwähnt stammen die Lautabschnitte von unterschiedlichen Sprechern und weisen somit verschiedene sprecherspezifische Charakteristika auf. Um eine möglichst natürlich wirkende Äußerung zu synthetisieren, ist es wichtig, die Diskontinuitäten zu minimieren. Dies kann erfolgen durch Anpassung der identifizierbaren und modifizierbaren sprecherspezifischen Charakteristika oder durch Auswahl passender Lautabschnitte aus der Datenbank, wobei ebenfalls die sprecherspezifischen Charakteristika bei der Auswahl ein entscheidendes Hilfsmittel darstellen.
In Fig.5 sind beispielhaft zwei Laute A 507 und B 508 dargestellt, die jeweils einzelne Lautabschnitte 505 bzw. 506 aufweisen. Die Laute A 507 und B 508 stammen jeweils aus einer gesprochenen Äußerung, wobei der Laut A 507 deutlich
vom Laut B 508 verschieden ist. Eine Trennlinie 509 zeigt an, wo der Laut A 507 mit dem Laut B 508 verknüpft werden soll. Im vorliegenden Fall sollen die ersten drei Lautabschnitte des Lautes A 507 mit den letzten drei Lautabschnitten des Lautes B 508 konkatenativ verknüpft werden.
Es wird entlang der Trennlinie 509 em zeitliches Dehnen oder Stauchen (vergleiche Pfeil 503) der aufeinanderfolgenden Lautabschnitte durchgeführt, um den diskontinuierlichen Eindruck am Übergang 509 zu vermindern.
Eine Variante besteht m einem abrupten Übergang der entlang der Trennlinie 509 geteilten Laute. Dabei kommt es jedoch zu den erwähnten Diskontinuitäten, die das menschliche Gehör als störend wahrnimmt. Fugt man hingegen einen Laut C zusammen, daß die Lautabschnitte innerhalb eines Ubergangsbereichs 501 oder 502 berücksichtigt werden, wobei em spektrales Abstandsmaß zwischen zwei einander zuordenbaren Lautabschnitten m dem jeweiligen Ubergangsbereich 501 oder 502 angepaßt wird (allmählicher Übergang zwischen den
Lautabschnitten) . Als das Abstandsmaß herangezogen wird insbesondere im Wavelet-Raum der euklidische Abstand zwischen den diesem Bereich relevanten Koeffizienten.
Literaturverzeichnis :
[1] I. Daubechies: "Ten Lectures on Wavelets", Siam Verlag 1992, ISBN 0-89871-274-2, Kapitel 5.1, Seiten 129-137.