WO2003034403A1 - Verfahren zur bildunterstützten sprachausgabe - Google Patents

Verfahren zur bildunterstützten sprachausgabe Download PDF

Info

Publication number
WO2003034403A1
WO2003034403A1 PCT/EP2002/011016 EP0211016W WO03034403A1 WO 2003034403 A1 WO2003034403 A1 WO 2003034403A1 EP 0211016 W EP0211016 W EP 0211016W WO 03034403 A1 WO03034403 A1 WO 03034403A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
image
image sequences
short
text
Prior art date
Application number
PCT/EP2002/011016
Other languages
English (en)
French (fr)
Inventor
Klaus Lukas
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2003034403A1 publication Critical patent/WO2003034403A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing

Definitions

  • the invention relates to a method for image-assisted speech output according to the preamble of claim 1.
  • avatars are common for the visual component; H. artificially generated characters with limited natural appearance.
  • artificial head structures are created using grid models and provided with human textures, or aspects of human heads are transferred to artificially generated bodies.
  • this representation only gives a natural representation to a limited extent and creates a robot-like impression.
  • the formant-based method uses formant algorithms to generate artificial language, which advantageously makes only low resource requirements, but on the language quality at the current state of the art only appears to be suitable for short text reproductions.
  • Concatenated speech synthesis is based on the decomposition of existing natural speech material into small sections, e.g. B. phonemes, and the composition of these phonemes in the given text context.
  • This form of language production achieves a high degree of naturalness, but requires more resources.
  • the naturalness of the output is already given on the linguistic side, but on the visual side, the current state of the art does not offer adequate quality.
  • the invention is therefore based on the object of specifying an improved method of the generic type for the visually supported representation of arbitrary texts in order to obtain a holistic, lifelike output in speech and visualization form.
  • the invention includes the essential idea of a fundamental departure from the previous approach to an image-assisted speech output - namely the generation of avatars.
  • the flowing visual output of image data to specified text data is achieved by concatenating short sections of image data.
  • the short image sequences used correspond to the visemas (mouth movements) and their transitions.
  • the assigned short image sections can be combined and brought to a smooth flow with transitions between the individual visas.
  • the transitions can be generated either by own short image sequences or by morphing algorithms in order to ensure a harmonious course.
  • the phoneme transcription for speech output takes place parallel to the Viseme transcription.
  • synchronization mechanisms e.g. tagging of the image material
  • the mouth movements are synchronized with the corresponding synthetic speech.
  • the original voice data associated with the image sequences can probably not be used due to the lack of prosody behavior.
  • Static scenarios e.g. fixed backgrounds
  • Slight head movements or the like can be compensated for by normalization.
  • Examples include reading out e-mails or text messages with different, target group-adapted speakers (characters), visually supported voice output after querying data-based information services or outputting appointment and address data from local organizer databases of a PDA.
  • characters target group-adapted speakers
  • the use of the method for visually assisted speech output in educational contexts is expected to offer particular advantages, and here in particular for offers which are aimed at children or adolescents on the one hand or the elderly or the hearing impaired on the other.
  • the acceptance of speech synthesis applications by the latter target group is likely to increase significantly when the method is used, because people in this target group have a deep-seated aversion to the avatars used to date.
  • Short image sequences of individual visemas are formed from a moving voice image recorded when speaking a given text with a large number of phoneme constellations; in the figure exemplary for the visemes [a] and [h]. If necessary, normalizations are carried out with regard to the image quality. Corresponding methods are known per se to the person skilled in the art of techniques for trick postprocessing in animated films and feature films.
  • An input text is transcribed into the Viseme representation.
  • the corresponding image sequences are assigned to the individual visemas and concatenated with one another.
  • the smoothing of the image sequence transitions is carried out either using a predetermined (also known per se) morphing images or using smoothing sequences, which were also determined from the previously recorded speaker representations.
  • a synchronization is carried out in order to simultaneously play back the image material with artificially generated speech data.

Abstract

Verfahren zur bildunterstützten Sprachausgabe von in eine Sprachsignalfolge gewandeltem Text, bei dem ein kontinuierliches Bewegtbild eines Gesichtes synchron zur Sprache ausgegeben wird, wobei vorab aufgenommene kurze Bildfolgen des Gesichtes einer natürlichen Person bei der Aussprache vorbestimmter Sprachelemente bzw. -muster Textabschnitten des auszugebenden Textes synchron zugeordnet werden und aus den Bildfolgen das kontinuierliche Bewegtbild zusammengesetzt wird.

Description

Beschreibung
Verfahren zur bildunterstützten Sprachausgabe
Die Erfindung betrifft ein Verfahren zur bildunterstützten Sprachausgabe nach dem Oberbegriff des Anspruchs 1.
Der Einsatz multimodaler Benutzungsoberflächen gewinnt zunehmend an Bedeutung. Synchronisierte Benutzerinteraktionen mit sprachlichen und visuellen Komponenten erhöhen den Benutzerkomfort und erlauben erweiterte Gestaltungsmöglichkeiten der Benutzerschnittstelle. Ein wichtiger Aspekt ist hierbei die kombinierte verbale und visuelle Ausgabe von dynamisch erzeugten Texten, die aus verschiedenen Kommunikationskanälen wie z.B. Internet-Inhalten, E-Mails oder Datenbank-Suchergebnissen, resultieren und dem Benutzer dargestellt werden sollen.
Für die visuelle Komponente ist der Einsatz von Avataren üblich, d. h. künstlich generierten Charakteren, die nur bedingt ein natürliches Aussehen vorweisen. In der Regel werden künstliche KopfStrukturen über Gittermodelle erzeugt und mit menschlichen Texturen versehen oder Gesichtspunkte menschlicher Köpfe auf künstlich generierte Körper übertragen. Diese Darstellung ergibt jedoch nur begrenzt eine natürliche Darstellung und erzeugt einen roboterhaften Eindruck.
Eine sprachsynchrone Darstellung natürlicher Menschen zur visuellen Ausgabe von beliebigen Texten ist derzeit nicht bekannt .
Auf der Seite der Sprachausgabe bestehen im wesentlichen zwei Grundmethoden zur Text-To-Speech-Transformation, die formant- basierten Methoden sowie die konkatenierte Sprachsynthese. Die formant-basierte Methode erzeugt mittels Formant-Algo- rith en künstliche Sprache, die vorteilhafterweise nur geringe Resourcenanforderungen stellt, aber von der Sprachqualität beim derzeitigen Stand der Technik nur für kurze Textwiedergaben als geeignet erscheint.
Die konkatenierte Sprachsynthese basiert auf der Zerlegung von vorhandenem natürlichem Sprachmaterial in kleine Abschnitte, wie z. B. Phoneme, und der Zusammensetzung dieser Phoneme im gegebenen TextZusammenhang. Diese Form der Spracherzeugung erreicht einen hohen Grad an Natürlichkeit, benötigt allerdings mehr Ressourcen. Somit ist auf sprachlicher Seite die Natürlichkeit der Ausgabe durchaus bereits gegeben, auf der visuellen Seite bietet der aktuelle Stand der Technik jedoch keine adäquate Qualität.
Der Erfindung liegt daher die Aufgabe zugrunde, ein verbessertes Verfahren der gattungsgemäßen Art zur visuell unterstützten Darstellung von arbiträren Texten anzugeben, um eine gesamtheitlich lebensechte Ausgabe in Sprach- und Visualisierungsform zu erhalten.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
Die Erfindung schließt den wesentlichen Gedanken einer grundlegenden Abkehr von der bisherigen Herangehensweise an eine bildunterstützte Sprachausgabe - nämlich der Generierung von Avataren - ein.
Die fliessende visuelle Ausgabe von Bilddaten zu vorgegebenen Textdaten wird stattdessen durch die Konkatenierung von kurzen Abschnitten an Bilddaten erreicht. Durch die Konkatenati- onsmethode können beliebige Texte in lebensnaher Qualität vi- sualisiert werden. Die verwendeten kurzen Bildsequenzen entsprechen den Visemen (Mundbewegungen) und deren Übergängen. Mittels einer Transkription des Eingangstextes in eine Vise- me-Darstellung können die zugeordneten kurzen Bildabschnitte zusammengefügt und mit Übergängen zwischen den einzelnen Visemen zu einem fliessenden Ablauf gebracht werden. Die Übergänge können gemäß alternativen Fortbildungen des Erfindungsgedankens entweder durch eigene kurze Bildsequenzen oder durch Morphingalgorithmen erzeugt werden, um einen harmonischen Verlauf zu gewährleisten.
Parallel zur Viseme-Transkription erfolgt die Phoneme- Transkription für die Sprachausgabe. Mittels Synchronisati- onsmechanismen (z.B. Tagging des Bildmaterials) erfolgt eine Synchronisation der Mundbewegungen mit der entsprechenden synthetischen Sprachausgabe. Die zu den Bildsequenzen zugehörigen Original-Sprachdaten können aufgrund des fehlenden Pro- sodie-Verhaltens vermutlich nicht verwendet werden.
Zur Aufnahme der Sequenzen werden zweckmäßigerweise statische Szenarien (z. B. fixe Hintergründe) benötigt, bei denen nur die Sprechbewegungen der Mundpartie eines Sprechers einen dynamischen Anteil darstellen. Geringfügige Kopfbewegungen o. ä. können durch Normalisierung ausgeglichen werden.
Für den Einsatz des beschriebenen Verfahrens gibt es vielfältige Anwendungsfälle. Beispiele sind das Vorlesen von E-Mails oder SMS mit verschiedenen, zielgruppenangepassten Sprechern (Charakteren) , die visuell unterstützte Sprachausgabe nach Abfrage datenbasierter Informationsdienste oder die Ausgabe von Termin- und Adressdaten aus lokalen Organizerdatenbasen eines PDAs. Besondere Vorteile läßt der Einsatz des Verfahrens für visuell unterstützte Sprachausgaben in Ausbildungs- Kontexten erwarten, und hier speziell bei Angeboten, die sich an Kinder oder Jugendliche einerseits oder ältere Menschen oder Hörbehinderte andererseits wenden. Insbesondere die Akzeptanz von Sprachsyntheseanwendungen durch die letztgenannte Zielgruppe dürfte bei Anwendung des Verfahrens stark ansteigen, denn Personen dieser Zielgruppe haben eine tief verwurzelte Abneigung gegen die bisher verwendeten Avatare.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den abhängigen Ansprüchen sowie der nachfolgenden Beschreibung eines Ausführungsbeispiels.
Eine schematische Darstellung des Verfahrens anhand eines Ausführungsbeispieles wird in der einzigen Figur gezeigt.
Aus einem beim Sprechen eines vorgegebenen Textes mit einer Vielzahl von Phonemkonstellationen aufgenommenen Sprecher- Bewegtbild werden kurze Bildsequenzen einzelner Viseme gebildet; in der Abbildung beispielhaft für die Viseme [a] und [h] . Hierbei werden gegebenenfalls Normalisierungen hinsichtlich der Bildqualität durchgeführt. Entsprechende Verfahren sind dem Fachmann von Techniken der Trick-Nachbearbeitung bei Trickfilmen und Spielfilmen an sich bekannt.
Ein Input-Text wird in die Viseme-Darstellung transkribiert. Den einzelnen Visemen werden die entsprechenden Bildsequenzen zugeordnet und miteinander konkateniert . Die Glättung der Bildsequenz-Übergänge erfolgt entweder mit nach einem vorbestimmten (ebenfalls an sich bekannten) Morphing-Bildern oder mit Glättungs-Sequenzen, die ebenfalls aus den vorab aufgenommenen Sprecherdarstellungen ermittelt wurden. Zum zeitgleichen Abspielen des Bildmaterials mit künstlich erzeugten Sprachdaten wird eine Synchronisation durchgeführt.
Die Ausführung der Erfindung ist selbstverständlich nicht auf dieses Beispiel und die oben genannten Anwendungsfeider sowie hervorgehobenen Aspekte beschränkt, sondern für beliebige Texte in beliebigen Sprachen und eine Vielzahl weiterer Anwendungen ebenso möglich.

Claims

Patentansprüche
1. Verfahren zur bildunterstützten Sprachausgabe von in eine Sprachsignalfolge gewandeltem Text, bei dem ein kontinuierliches Bewegtbild eines Gesichtes synchron zur Sprache ausgegeben wird, d a d u r c h g e k e n n z e i c h n e t, daß vorab aufgenommene kurze Bildfolgen des Gesichtes einer natürlichen Person bei der Aussprache vorbestimmter Sprachelemente bzw. -muster Textabschnitten des auszugebenden Textes synchron zugeordnet werden und aus den Bildfolgen das kontinuierliche Bewegtbild zusammengesetzt wird.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß durch einen Morphingalgorithmus subjektiv als fließend wahrgenommene Übergänge zwischen den einzelnen kurzen Bildfolgen gebildet werden.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß durch Einfügung von vorab aufgenommenen Glättungs- Einzelbildern oder kurzen Glättungs-Bildfolgen subjektiv als fließend wahrgenommene Übergänge zwischen den einzelnen Bildfolgen gebildet werden.
4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß die kurzen Bildfolgen oder das zusammengesetzte Bewegtbild durch einen Tagging-Algorithmus mit den Sprachsignalen synchronisiert werden.
5. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß vor einem statischen Hintergrund oder mit Bluescreen-Technik und mit im wesentlichen statischer Sprecherhaltung erzeugte kurze Bildfolgen und wahlweise Glättungs-Einzelbilder bzw. Glättungs-Bildfolgen verwendet werden.
6. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß Kopfbewegungen des Sprechers auf den vorab aufgenommenen kurzen Bildfolgen durch einen Normalisierungsalgorithmus ausgeglichen werden.
7. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß als kurze Bildfolgen nachträglich aus einem kontinuierlichen primären Bewegtbild, das einem zusammenhängenden Sprachfluß zugeordnet ist, isolierte Segmente verwendet werden.
PCT/EP2002/011016 2001-10-15 2002-10-01 Verfahren zur bildunterstützten sprachausgabe WO2003034403A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01124642 2001-10-15
EP01124642.8 2001-10-15

Publications (1)

Publication Number Publication Date
WO2003034403A1 true WO2003034403A1 (de) 2003-04-24

Family

ID=8178976

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2002/011016 WO2003034403A1 (de) 2001-10-15 2002-10-01 Verfahren zur bildunterstützten sprachausgabe

Country Status (1)

Country Link
WO (1) WO2003034403A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
WO2001045088A1 (en) * 1999-12-16 2001-06-21 Interactive Solutions, Inc. Electronic translator for assisting communications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
WO2001045088A1 (en) * 1999-12-16 2001-06-21 Interactive Solutions, Inc. Electronic translator for assisting communications

Similar Documents

Publication Publication Date Title
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE60105995T2 (de) Animation von personen
CN101064104B (zh) 基于语音转换的情感语音生成方法
Hill et al. Animating speech: an automated approach using speech synthesised by rules
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
Kshirsagar et al. Visyllable based speech animation
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
Waters et al. An automatic lip-synchronization algorithm for synthetic faces
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
DE69816049T2 (de) Vorrichtung und verfahren zur prosodie-erzeugung bei der visuellen synthese
Scott et al. Synthesis of speaker facial movement to match selected speech sequences
Wolfe et al. State of the art and future challenges of the portrayal of facial nonmanual signals by signing avatar
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
Kirkland et al. Perception of smiling voice in spontaneous speech synthesis
WO2003034403A1 (de) Verfahren zur bildunterstützten sprachausgabe
DE69817550T2 (de) Verfahren zur sprachsynthese
Kindt Social functions of communication about works of art
Lemos Restrictions, incitements, and aesthetic value. The role of historical sciences in art production and the aesthetic appreciation of art
Beskow et al. The Teleface project-disability, feasibility and intelligibility
EP3144929A1 (de) Synthetische erzeugung eines natürlich klingenden sprachsignals
DE102022108033A1 (de) Verfahren zur visuellen Darstellung von Sprache und eine Anordnung zur Ausführung des Verfahrens

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FR GB GR IE IT LU MC NL PT SE SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase