SE520065C2 - Anordning och metod för prosodigenerering vid visuell talsyntes - Google Patents

Anordning och metod för prosodigenerering vid visuell talsyntes

Info

Publication number
SE520065C2
SE520065C2 SE9701101A SE9701101A SE520065C2 SE 520065 C2 SE520065 C2 SE 520065C2 SE 9701101 A SE9701101 A SE 9701101A SE 9701101 A SE9701101 A SE 9701101A SE 520065 C2 SE520065 C2 SE 520065C2
Authority
SE
Sweden
Prior art keywords
face
movement
speech
recorded
words
Prior art date
Application number
SE9701101A
Other languages
English (en)
Other versions
SE9701101D0 (sv
SE9701101L (sv
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9701101A priority Critical patent/SE520065C2/sv
Publication of SE9701101D0 publication Critical patent/SE9701101D0/sv
Priority to EEP199900419A priority patent/EE03883B1/xx
Priority to JP54446198A priority patent/JP2001517326A/ja
Priority to US09/381,632 priority patent/US6389396B1/en
Priority to PCT/SE1998/000506 priority patent/WO1998043235A2/en
Priority to DK98911338T priority patent/DK0970465T3/da
Priority to EP98911338A priority patent/EP0970465B1/en
Priority to DE69816049T priority patent/DE69816049T2/de
Publication of SE9701101L publication Critical patent/SE9701101L/sv
Priority to NO19994599A priority patent/NO318698B1/no
Publication of SE520065C2 publication Critical patent/SE520065C2/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)
  • Steroid Compounds (AREA)

Description

25 30 520 095 -,,.j,.g och meningama ges en betoning och ett intonationsmönster motsvarande det avsedda språket.
Rörelsemönstret är registrerat för ett antal punkter i ansiktet. I samband med genereringen av ord och meningar förstärks de olika punkternas rörelse beroende av en given betoning, satsmelodi. De givna rörelserna påföres därefter ansiktet varvid en naturtrogen animering erhålles vid t.ex. en översättning av en persons tal på ett första språk till ett andra språk.
I en första utföringsform innefattar uppfinningen medel för lagring och återgivning av ljud.
Vidare registreras till ljuden associerade rörelsemönster i ett ansikte. Nämnda rörelsemönster representeras av ett antal punkter i ansiktet. Aktuella ljud utgöres främst av ett antal halvstavelser, t.ex. spru. Rörelsemönster för respektive halvstavelse registreras vidare och lagras i nämnda medel eller i databas åtkomlig från medlet. I samband med framställandet av ord och meningar sammanställs nämnda halvstavelser. Härvid erhålles en sekvens som motsvarar en av talaren avsedd replik. För att åstadkomma en naturlig talad sekvens ges talet en betoning och en satsmelodi motsvarande talets andemening. De olika punktemas rörelse sammanställs vidare och påföres en ansiktsmodell, varvid en mot talet svarande rörelse erhålles. En ansiktstextur påföres därefter modellen. För att rörelsema i ansiktet skall bli naturtrogna förstärks de i förhållande till betoningama. Nämnda betoningar i talet påföres ansiktsmodellen.
Ansiktets rörelsemönster representeras av ett antal lagrade halvstavelser med motsvarande lagrade rörelsemönster. Dessa halvstavelser och tillhörande rörelsemönster inspelas i en neutral sinnesstämning respektive betoning. En uppsättning halvstavelser lagras på detta sätt tillsammans med aktuella rörelsemönster. Vid översättning av ett tal på ett första språk till ett andra språk överförs de grundläggande betoningama och rörelsemönstren till det andra språket. Ett i ansiktet återgivet rörelsemönster kommer härvid att återspegla det återgivna talet.
Anordningen fastställer vidare betoningslägen för meningar och/eller enstaka ord. Detta kan ske med redan kända metoder, se t. ex. patentansökan nr 9504367-5 som behandlar talsyntes.
Framhävníngar och betoningar överförs till motsvarande rörelser i ansiktet. Vid mottagning av talet på ett första språk är vidare anordningen anordnad att översätta talet till ett andra språk.
Betoningar i talet på det första språket registreras och överförs till betoningar i motsvarande tal på det andra språket. Rörelser i ansiktet anpassas härvid till det andra språket för såväl 10 l5 20 25 520 oss ,,,, 3 :Ä 'i ' betoningar, satsbetoningar som intonationer. Talaren ges på detta sätt i ansiktet påförda rörelser motsvarande ett på det andra språket framställt tal.
De i ansiktet registrerade punkterna inspelas t.ex. med markerade ansiktspunkter vilka följs av laserljus eller liknande. Valet av punkter i ansiktet är beroende av i hur hög grad animeringen skall motsvara verkliga rörelser.
Uppfinningen avser vidare metod vid visuell talsyntes. Ord och meningar skapas genom att sammanställning av polyfoner och betoningar i ord och satser fastställs FÖRDELAR Med föreliggande uppfinning ges möjlighet att återge en talares framställning på ett andra språk med ett i ansiktet återgivet rörelsemönster som motsvarar rörelsemönstret i det andra språket. Utnyttjande av uppfinningen är av betydelse vid t.ex. telefonering där talaren återges i bild. I en framtid där telesystem ansvarar för översättning mellan olika språk kommer risken för missförstånd om inte att elimineras att avsevärt minskas. De områden inom telefonin som i dag är aktuella är bredbandiga överföringar som tillämpas vid konferenstelefoni. Det kan även antas ha betydelse vid bildtelefoni mellan enskilda personer i framtida telesystem i takt med att även hushållen erhåller bredbandiga anslutningar med möjlighet att utnyttja bildtelefoni.
FIGURBESKRIVNING Fig l visar hur ett uttalat ord indelas i segment Fig 2 visar en koppling mellan olika punkter i ett ansikte och uttalade ord Fig 3 visar hur förstärkningen av rörelsen i olika delar i ansiktet påverkas av en funktion G(t) Fig 4 visar exempel på valda punkter i ett ansikte.
Fig 5 visar områden som påverkas i en ansiktsmodell FÖREDRAGEN UTFÖRINGSFORM I det följande beskrivs uppfinningen utifrån figurema och beteckningarna däri.
Föreliggande uppfinning föreslår att ansiktsrörelser förstärks med en funktion G(t) som har sitt maximum i stavelsekämans mitt (vokalmitt) och minimum i stavelsegränserna. Ljud och ljudkombinationer etc i ett språk tilldelas ett för språket typiskt rörelsemönster. Dessa lO l5 20 25 30 520 Û65;§j.~:j';'¿.' .fair s: rörelsemönster utgörs av grundrörelser för ljudkombinationer i tal i icke-fokal position. Läpp- och ansiktsuttryck påförs en funktion G(t) som är kopplad till ljudvågen för bestämning av vilka delar i ett tal som är betonade, obetonade, framhävda etc. Om exempelvis ordet sprut, fig. 1, skall återges delas de ingående ljuden upp i segment. För varje ljud har härvid funktionen ett givet rörelsemönster för läppar och övriga ansíktsrörelser. Sammanlänkning av nämnda rörelsemönster sker till en helhet. I exemplet sprut kommer betoningen av vokalen u att utgöra ett maximum. Den neutrala rörelsen som ges vid grundanimeringen av sprut påföres förstärkningssignalen G(t). Läpprörelser och ansiktsuttryck i övrigt förstärks härvid i en grad som motsvarar betoningen respektive trycket på den aktuella stavelsen. Förstärkningama utgör i detta fall en förstärkning av främst läpprörelserna men även övriga ansiktsuttryck. På motsvarande sätt anpassar funktionen G(t) förstärkningar av ansiktsrörelser med hänsyn till betoningar i satser som framsäges.
En koppling mellan ljudvåg och rörelsemönster erhålles således i enlighet med fig. 2.
Rörelserna återges för de olika delar i. ansiktet som önskas återgivna. Ansiktsdelar som återges kan vara ett antal punkter som utplaceras i ansiktet, vars rörelsemönster spelats in tillsammans med ljudsignalen. Olika delar av rörelsema kommer att förstärkas med funktionen G(t). Emellertid kan det förhålla sig så att olika delar av ansiktet påverkas i olika omfattning vid betoningar. För att överbrygga detta förhållande kan en viktfunktion, som är individuell för ansiktets olika delar, införas. l fig. 3 anges hur rörelsema för ansiktets olika delar förs in i en förstärkare för önskad anpassning. Genom denna manipulation av rörelsen för betonad/obetonad stavelse, informationsfokus (satsaccent) etc med olika funktioner och för kontrastiv betoning uppnås framhävning av specifikt ord och dess ingående stavelser.
Enligt uppfinningen inspelas ett antal ljud, halvstavelser, utan att betoningar påverkar uttalet.
För att åstadkomma detta inspelas företrädesvis nonsensord. I samband med inspelningarna markeras ett antal punkter, a, se fig 4. Markeringarna utförs på så vis att punkterna är registrerbara med hjälp av t.ex. laserteknik. Inspelade ljud och rörelser kommer härvid att registreras tillsammans. Vid exempelvis översättning av en talares tal på ett första språk till ett andra språk överförs de registrerade rörelserna i ansiktet till en modell, fig 5. I modellen inordnas rörelserna av polygoner, i figuren angivna som trianglar. Det verkliga ansikte som 520 065 5 används appliceras över modellen. Härvid kommer ansiktets olika delar att animeras till det tal som skall återges.
Uppfinningen är inte begränsad till det i ovan beskrivna utföringsexemplet eller till efterföljande patentkrav utan kan undergå modifieringar inom, ramen för uppfinningstanken.

Claims (1)

1. 0 20 25 520 065 PATENTKRAV Anordning för prosodigenerering vid visuell syntes, innefattande medel för lagring och återgivning av ljud, samt till ljuden associerade rörelsemönster i ett ansikte, där nämnda rörelsemönster representeras av ett antal valda punkter i ansiktet i avsikt att bygga upp rörelser i en ansiktsmodell, och där de valda punkternas inspelade rörelsemönster lagras i nämnda medel, kännetecknad av, att ljuden främst är anordnade att representeras av halvstavelser, vilka halvstavelser är anordnade att representeras av i ansiktet associerat rörelsemönster, att medlet är anordnat att sammanställa ljuden till ord och meningar med en naturlig betoning, att medlet vidare är anordnat att sammanställa de inspelade rörelsemönstren till mot nämnda ord och meningar svarande rörelsesekvens, samt att en förstärkning av de inspelade rörelsesekvenserna är införd i avsikt att återspegla betoningar hos en talare. Anordning enligt patentkrav l, kännetecknad av, att rörelsema i ansiktsmodellen är anordnade att representeras av ett antal halvstavelser, vilka inspelats med neutralt uttal, samt att motsvarande rörelsemönster i ansiktet inspelats och registrerats i medlet. Anordning enligt patentkrav l eller 2, kännetecknad av, att medlet är anordnat att fastställa betoningslägen för en mening och/eller i enstaka ord och att en motsvarande framhävning av ansiktets rörelse är anordnad att framställas i nämnda rörelsesekvens. Anordning enligt patentkrav 1,2 eller 3 kännetecknad av, att anordningen är anordnad att motta ett tal framställt på ett första språk och att anordningen är anordnad att översätta talet till ett andra språk. Anordning enligt patentkrav 4, kännetecknar] av, att anordningen är anordnad att registrera betoningar i talet på det första språket vilka betoningar är anordnade att överföras till talet på det andra språket och att motsvarande rörelsesekvens i talarens ansikte är anordnat att återspeglas vid återgivande av talarens ansikte i kombination med det översatta talet. Anordning enligt patentkrav 1, kännetecknad av, att ljudvågor motsvarande halvstavelsema är lagrade tillsammans med rörelsemönstret för ett antal punkter i ansiktet. 10 15 20 25 10. 12. 13. 14. -v »u . fi., 1 'I . . . » än Anordning enligt patentkrav l, kännetecknad av, att rörelsesekvensen är anordnad att ges en maximal förstärkning i en vokals mitt och att förstärkningen är noll i aktuella stavelsegränser. Anordning enligt något av föregående patentkrav, kännetecknad av, att rörelsesekvensen är påförd en ansiktsmodell vilken är påförd det verkliga ansiktet varvid ansiktet ges en animering motsvarande det framställda talet och/eller ljudet. Anordning enligt något av föregående patentkrav, kännetecknad av, att rörelsesekvensen i modellen införs i polygoner, vilka återspeglar rörelsen i olika delar av ansiktet. Metod vid visuell talsyntes, där ord och meningar bildas av polyfoner, och där talanalys fastställer betoningar i ord och satser, samt där inspelade rörelsesekvenser, som motsvarande orden och satserna, påföres en ansiktsmodell, där punkter i polygonerna, t. ex. trianglar, anger områden som påverkas av polyfonema, kännetecknad av, att punkterna i varje polygon tilldelas en viktning som beror av motsvarande ords och/eller sats betoning, varvid en förfinad animering av en till talet associerad inspelad rörelsesekvens erhålles, och att en bild av den animerade personen påföres ansiktsmodellen varvid en tredimensionell bild skapas och återges tillsammans med motsvarande ljud. . Metod enligt patentkrav 10, kännetecknad av, att viktnin gen av punktema i polygonerna förstärker respektive försvagar ansiktsrörelserna i förhållande till de inspelade ansiktsrörelserna. Metod enligt patentkrav 10 eller l 1, kännetecknad av, att polyfonerna bildas ur intalade ord, företrädesvis nonsensord, och att ansiktsrörelser inregistreras simultant. Metod enligt patentkrav 10, ll eller 12, kännetecknad av, att ansiktsrörelserna inspelas för olika personer och/eller personkategorier och lagras för utnyttjande vid animation av respektive person/personkategori. Metod enligt något av patentkraven 10-13, kännetecknad av, att personkategorierna är män, kvinnor och bam. 520 065 S? \/ 15. Metod enligt något av patentkraven 10- 14, kännetecknad av, att talet framställs ur en text vilken ges vid t.ex. översättning av ett tal från ett första språk till ett andra språk och/eller vid framställning av ett tal søm skall animeras till en person ur ett givet textunderlag.
SE9701101A 1997-03-25 1997-03-25 Anordning och metod för prosodigenerering vid visuell talsyntes SE520065C2 (sv)

Priority Applications (9)

Application Number Priority Date Filing Date Title
SE9701101A SE520065C2 (sv) 1997-03-25 1997-03-25 Anordning och metod för prosodigenerering vid visuell talsyntes
DE69816049T DE69816049T2 (de) 1997-03-25 1998-03-20 Vorrichtung und verfahren zur prosodie-erzeugung bei der visuellen synthese
PCT/SE1998/000506 WO1998043235A2 (en) 1997-03-25 1998-03-20 Device and method for prosody generation at visual synthesis
JP54446198A JP2001517326A (ja) 1997-03-25 1998-03-20 視覚的合成における韻律生成のための装置および方法
US09/381,632 US6389396B1 (en) 1997-03-25 1998-03-20 Device and method for prosody generation at visual synthesis
EEP199900419A EE03883B1 (et) 1997-03-25 1998-03-20 Seade ja meetod prosoodia genereerimiseks visuaalsünteesil
DK98911338T DK0970465T3 (da) 1997-03-25 1998-03-20 Indretning og fremgangsmåde til prosodigenerering til visuel syntese
EP98911338A EP0970465B1 (en) 1997-03-25 1998-03-20 Device and method for prosody generation for visual synthesis
NO19994599A NO318698B1 (no) 1997-03-25 1999-09-22 Anordning og fremgangsmate for prosodigenering av visuell syntese

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9701101A SE520065C2 (sv) 1997-03-25 1997-03-25 Anordning och metod för prosodigenerering vid visuell talsyntes

Publications (3)

Publication Number Publication Date
SE9701101D0 SE9701101D0 (sv) 1997-03-25
SE9701101L SE9701101L (sv) 1998-09-26
SE520065C2 true SE520065C2 (sv) 2003-05-20

Family

ID=20406308

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9701101A SE520065C2 (sv) 1997-03-25 1997-03-25 Anordning och metod för prosodigenerering vid visuell talsyntes

Country Status (9)

Country Link
US (1) US6389396B1 (sv)
EP (1) EP0970465B1 (sv)
JP (1) JP2001517326A (sv)
DE (1) DE69816049T2 (sv)
DK (1) DK0970465T3 (sv)
EE (1) EE03883B1 (sv)
NO (1) NO318698B1 (sv)
SE (1) SE520065C2 (sv)
WO (1) WO1998043235A2 (sv)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947044B1 (en) * 1999-05-21 2005-09-20 Kulas Charles J Creation and playback of computer-generated productions using script-controlled rendering engines
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US7076430B1 (en) 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
US20060009978A1 (en) * 2004-07-02 2006-01-12 The Regents Of The University Of Colorado Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
JP4985714B2 (ja) * 2009-06-12 2012-07-25 カシオ計算機株式会社 音声表示出力制御装置、および音声表示出力制御処理プログラム
US8447610B2 (en) * 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
AU2012100262B4 (en) * 2011-12-15 2012-05-24 Nguyen, Phan Thi My Ngoc Ms Speech visualisation tool
JP2012098753A (ja) * 2012-01-27 2012-05-24 Casio Comput Co Ltd 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム
CN112100352A (zh) * 2020-09-14 2020-12-18 北京百度网讯科技有限公司 与虚拟对象的对话方法、装置、客户端及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
GB9019829D0 (en) 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
US6122616A (en) * 1993-01-21 2000-09-19 Apple Computer, Inc. Method and apparatus for diphone aliasing
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
KR960018988A (ko) * 1994-11-07 1996-06-17 엠, 케이. 영 음향 보조 영상 처리 방법 및 장치
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning

Also Published As

Publication number Publication date
WO1998043235A3 (en) 1998-12-23
SE9701101D0 (sv) 1997-03-25
WO1998043235A2 (en) 1998-10-01
JP2001517326A (ja) 2001-10-02
SE9701101L (sv) 1998-09-26
NO994599L (no) 1999-12-14
EP0970465B1 (en) 2003-07-02
DE69816049D1 (de) 2003-08-07
EP0970465A2 (en) 2000-01-12
DE69816049T2 (de) 2004-04-22
NO318698B1 (no) 2005-04-25
US6389396B1 (en) 2002-05-14
EE9900419A (et) 2000-04-17
NO994599D0 (no) 1999-09-22
DK0970465T3 (da) 2003-10-27
EE03883B1 (et) 2002-10-15

Similar Documents

Publication Publication Date Title
Roelofs Phonological segments and features as planning units in speech production
SE519244C2 (sv) Anordning och metod vid talsyntes
Theune et al. From data to speech: a general approach
Eide et al. A corpus-based approach to< ahem/> expressive speech synthesis
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
Granström et al. Prosodic cues in multimodal speech perception
US5878396A (en) Method and apparatus for synthetic speech in facial animation
Benoı̂t et al. Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP
SE520065C2 (sv) Anordning och metod för prosodigenerering vid visuell talsyntes
KR20060051951A (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
Aylett et al. Building and designing expressive speech synthesis
El Haddad et al. An HMM approach for synthesizing amused speech with a controllable intensity of smile
Schröder Can emotions be synthesized without controlling voice quality
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
EP0970467B1 (en) Method of speech synthesis
Ouni et al. Training Baldi to be multilingual: A case study for an Arabic Badr
Granström Towards a virtual language tutor
Roehling et al. Towards expressive speech synthesis in english on a robotic platform
De Pijper High-quality message-to-speech generation in a practical application
Keating SEGMENTAL PHONOLOGY AND NON-SEGMENTAL PIIONETICS
JPH03273280A (ja) 発声練習用音声合成方式
Granström et al. Speech and gestures for talking faces in conversational dialogue systems
Greenberg Pronunciation variation is key to understanding spoken language
Granström et al. Eyebrow movements as a cue to prominence
Gambino et al. Virtual conversation with a real talking head

Legal Events

Date Code Title Description
NUG Patent has lapsed