WO2003034403A1

WO2003034403A1 - Verfahren zur bildunterstützten sprachausgabe

Info

Publication number: WO2003034403A1
Application number: PCT/EP2002/011016
Authority: WO
Inventors: Klaus Lukas
Original assignee: Siemens Aktiengesellschaft
Priority date: 2001-10-15
Filing date: 2002-10-01
Publication date: 2003-04-24

Abstract

Verfahren zur bildunterstützten Sprachausgabe von in eine Sprachsignalfolge gewandeltem Text, bei dem ein kontinuierliches Bewegtbild eines Gesichtes synchron zur Sprache ausgegeben wird, wobei vorab aufgenommene kurze Bildfolgen des Gesichtes einer natürlichen Person bei der Aussprache vorbestimmter Sprachelemente bzw. -muster Textabschnitten des auszugebenden Textes synchron zugeordnet werden und aus den Bildfolgen das kontinuierliche Bewegtbild zusammengesetzt wird.

Description

Beschreibung

Verfahren zur bildunterstützten Sprachausgabe

Die Erfindung betrifft ein Verfahren zur bildunterstützten Sprachausgabe nach dem Oberbegriff des Anspruchs 1.

Der Einsatz multimodaler Benutzungsoberflächen gewinnt zunehmend an Bedeutung. Synchronisierte Benutzerinteraktionen mit sprachlichen und visuellen Komponenten erhöhen den Benutzerkomfort und erlauben erweiterte Gestaltungsmöglichkeiten der Benutzerschnittstelle. Ein wichtiger Aspekt ist hierbei die kombinierte verbale und visuelle Ausgabe von dynamisch erzeugten Texten, die aus verschiedenen Kommunikationskanälen wie z.B. Internet-Inhalten, E-Mails oder Datenbank-Suchergebnissen, resultieren und dem Benutzer dargestellt werden sollen.

Für die visuelle Komponente ist der Einsatz von Avataren üblich, d. h. künstlich generierten Charakteren, die nur bedingt ein natürliches Aussehen vorweisen. In der Regel werden künstliche KopfStrukturen über Gittermodelle erzeugt und mit menschlichen Texturen versehen oder Gesichtspunkte menschlicher Köpfe auf künstlich generierte Körper übertragen. Diese Darstellung ergibt jedoch nur begrenzt eine natürliche Darstellung und erzeugt einen roboterhaften Eindruck.

Eine sprachsynchrone Darstellung natürlicher Menschen zur visuellen Ausgabe von beliebigen Texten ist derzeit nicht bekannt .

Auf der Seite der Sprachausgabe bestehen im wesentlichen zwei Grundmethoden zur Text-To-Speech-Transformation, die formant- basierten Methoden sowie die konkatenierte Sprachsynthese. Die formant-basierte Methode erzeugt mittels Formant-Algo- rith en künstliche Sprache, die vorteilhafterweise nur geringe Resourcenanforderungen stellt, aber von der Sprachqualität beim derzeitigen Stand der Technik nur für kurze Textwiedergaben als geeignet erscheint.

Die konkatenierte Sprachsynthese basiert auf der Zerlegung von vorhandenem natürlichem Sprachmaterial in kleine Abschnitte, wie z. B. Phoneme, und der Zusammensetzung dieser Phoneme im gegebenen TextZusammenhang. Diese Form der Spracherzeugung erreicht einen hohen Grad an Natürlichkeit, benötigt allerdings mehr Ressourcen. Somit ist auf sprachlicher Seite die Natürlichkeit der Ausgabe durchaus bereits gegeben, auf der visuellen Seite bietet der aktuelle Stand der Technik jedoch keine adäquate Qualität.

Der Erfindung liegt daher die Aufgabe zugrunde, ein verbessertes Verfahren der gattungsgemäßen Art zur visuell unterstützten Darstellung von arbiträren Texten anzugeben, um eine gesamtheitlich lebensechte Ausgabe in Sprach- und Visualisierungsform zu erhalten.

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.

Die Erfindung schließt den wesentlichen Gedanken einer grundlegenden Abkehr von der bisherigen Herangehensweise an eine bildunterstützte Sprachausgabe - nämlich der Generierung von Avataren - ein.

Die fliessende visuelle Ausgabe von Bilddaten zu vorgegebenen Textdaten wird stattdessen durch die Konkatenierung von kurzen Abschnitten an Bilddaten erreicht. Durch die Konkatenati- onsmethode können beliebige Texte in lebensnaher Qualität vi- sualisiert werden. Die verwendeten kurzen Bildsequenzen entsprechen den Visemen (Mundbewegungen) und deren Übergängen. Mittels einer Transkription des Eingangstextes in eine Vise- me-Darstellung können die zugeordneten kurzen Bildabschnitte zusammengefügt und mit Übergängen zwischen den einzelnen Visemen zu einem fliessenden Ablauf gebracht werden. Die Übergänge können gemäß alternativen Fortbildungen des Erfindungsgedankens entweder durch eigene kurze Bildsequenzen oder durch Morphingalgorithmen erzeugt werden, um einen harmonischen Verlauf zu gewährleisten.

Parallel zur Viseme-Transkription erfolgt die Phoneme- Transkription für die Sprachausgabe. Mittels Synchronisati- onsmechanismen (z.B. Tagging des Bildmaterials) erfolgt eine Synchronisation der Mundbewegungen mit der entsprechenden synthetischen Sprachausgabe. Die zu den Bildsequenzen zugehörigen Original-Sprachdaten können aufgrund des fehlenden Pro- sodie-Verhaltens vermutlich nicht verwendet werden.

Zur Aufnahme der Sequenzen werden zweckmäßigerweise statische Szenarien (z. B. fixe Hintergründe) benötigt, bei denen nur die Sprechbewegungen der Mundpartie eines Sprechers einen dynamischen Anteil darstellen. Geringfügige Kopfbewegungen o. ä. können durch Normalisierung ausgeglichen werden.

Für den Einsatz des beschriebenen Verfahrens gibt es vielfältige Anwendungsfälle. Beispiele sind das Vorlesen von E-Mails oder SMS mit verschiedenen, zielgruppenangepassten Sprechern (Charakteren) , die visuell unterstützte Sprachausgabe nach Abfrage datenbasierter Informationsdienste oder die Ausgabe von Termin- und Adressdaten aus lokalen Organizerdatenbasen eines PDAs. Besondere Vorteile läßt der Einsatz des Verfahrens für visuell unterstützte Sprachausgaben in Ausbildungs- Kontexten erwarten, und hier speziell bei Angeboten, die sich an Kinder oder Jugendliche einerseits oder ältere Menschen oder Hörbehinderte andererseits wenden. Insbesondere die Akzeptanz von Sprachsyntheseanwendungen durch die letztgenannte Zielgruppe dürfte bei Anwendung des Verfahrens stark ansteigen, denn Personen dieser Zielgruppe haben eine tief verwurzelte Abneigung gegen die bisher verwendeten Avatare.

Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den abhängigen Ansprüchen sowie der nachfolgenden Beschreibung eines Ausführungsbeispiels.

Eine schematische Darstellung des Verfahrens anhand eines Ausführungsbeispieles wird in der einzigen Figur gezeigt.

Aus einem beim Sprechen eines vorgegebenen Textes mit einer Vielzahl von Phonemkonstellationen aufgenommenen Sprecher- Bewegtbild werden kurze Bildsequenzen einzelner Viseme gebildet; in der Abbildung beispielhaft für die Viseme [a] und [h] . Hierbei werden gegebenenfalls Normalisierungen hinsichtlich der Bildqualität durchgeführt. Entsprechende Verfahren sind dem Fachmann von Techniken der Trick-Nachbearbeitung bei Trickfilmen und Spielfilmen an sich bekannt.

Ein Input-Text wird in die Viseme-Darstellung transkribiert. Den einzelnen Visemen werden die entsprechenden Bildsequenzen zugeordnet und miteinander konkateniert . Die Glättung der Bildsequenz-Übergänge erfolgt entweder mit nach einem vorbestimmten (ebenfalls an sich bekannten) Morphing-Bildern oder mit Glättungs-Sequenzen, die ebenfalls aus den vorab aufgenommenen Sprecherdarstellungen ermittelt wurden. Zum zeitgleichen Abspielen des Bildmaterials mit künstlich erzeugten Sprachdaten wird eine Synchronisation durchgeführt.

Die Ausführung der Erfindung ist selbstverständlich nicht auf dieses Beispiel und die oben genannten Anwendungsfeider sowie hervorgehobenen Aspekte beschränkt, sondern für beliebige Texte in beliebigen Sprachen und eine Vielzahl weiterer Anwendungen ebenso möglich.

Claims

Patentansprüche

1. Verfahren zur bildunterstützten Sprachausgabe von in eine Sprachsignalfolge gewandeltem Text, bei dem ein kontinuierliches Bewegtbild eines Gesichtes synchron zur Sprache ausgegeben wird, d a d u r c h g e k e n n z e i c h n e t, daß vorab aufgenommene kurze Bildfolgen des Gesichtes einer natürlichen Person bei der Aussprache vorbestimmter Sprachelemente bzw. -muster Textabschnitten des auszugebenden Textes synchron zugeordnet werden und aus den Bildfolgen das kontinuierliche Bewegtbild zusammengesetzt wird.

2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß durch einen Morphingalgorithmus subjektiv als fließend wahrgenommene Übergänge zwischen den einzelnen kurzen Bildfolgen gebildet werden.

3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß durch Einfügung von vorab aufgenommenen Glättungs- Einzelbildern oder kurzen Glättungs-Bildfolgen subjektiv als fließend wahrgenommene Übergänge zwischen den einzelnen Bildfolgen gebildet werden.

4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß die kurzen Bildfolgen oder das zusammengesetzte Bewegtbild durch einen Tagging-Algorithmus mit den Sprachsignalen synchronisiert werden.

5. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß vor einem statischen Hintergrund oder mit Bluescreen-Technik und mit im wesentlichen statischer Sprecherhaltung erzeugte kurze Bildfolgen und wahlweise Glättungs-Einzelbilder bzw. Glättungs-Bildfolgen verwendet werden.

6. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß Kopfbewegungen des Sprechers auf den vorab aufgenommenen kurzen Bildfolgen durch einen Normalisierungsalgorithmus ausgeglichen werden.

7. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß als kurze Bildfolgen nachträglich aus einem kontinuierlichen primären Bewegtbild, das einem zusammenhängenden Sprachfluß zugeordnet ist, isolierte Segmente verwendet werden.