SE520065C2

SE520065C2 - Anordning och metod för prosodigenerering vid visuell talsyntes

Info

Publication number: SE520065C2
Application number: SE9701101A
Authority: SE
Inventors: Bertil Lyberg
Original assignee: Telia Ab
Priority date: 1997-03-25
Filing date: 1997-03-25
Publication date: 2003-05-20
Also published as: WO1998043235A3; SE9701101D0; WO1998043235A2; JP2001517326A; SE9701101L; NO994599L; EP0970465B1; DE69816049D1; EP0970465A2; DE69816049T2; NO318698B1; US6389396B1; EE9900419A; NO994599D0; DK0970465T3; EE03883B1

Description

25 30 520 095 -,,.j,.g och meningama ges en betoning och ett intonationsmönster motsvarande det avsedda språket.

Rörelsemönstret är registrerat för ett antal punkter i ansiktet. I samband med genereringen av ord och meningar förstärks de olika punkternas rörelse beroende av en given betoning, satsmelodi. De givna rörelserna påföres därefter ansiktet varvid en naturtrogen animering erhålles vid t.ex. en översättning av en persons tal på ett första språk till ett andra språk.

I en första utföringsform innefattar uppfinningen medel för lagring och återgivning av ljud.

Vidare registreras till ljuden associerade rörelsemönster i ett ansikte. Nämnda rörelsemönster representeras av ett antal punkter i ansiktet. Aktuella ljud utgöres främst av ett antal halvstavelser, t.ex. spru. Rörelsemönster för respektive halvstavelse registreras vidare och lagras i nämnda medel eller i databas åtkomlig från medlet. I samband med framställandet av ord och meningar sammanställs nämnda halvstavelser. Härvid erhålles en sekvens som motsvarar en av talaren avsedd replik. För att åstadkomma en naturlig talad sekvens ges talet en betoning och en satsmelodi motsvarande talets andemening. De olika punktemas rörelse sammanställs vidare och påföres en ansiktsmodell, varvid en mot talet svarande rörelse erhålles. En ansiktstextur påföres därefter modellen. För att rörelsema i ansiktet skall bli naturtrogna förstärks de i förhållande till betoningama. Nämnda betoningar i talet påföres ansiktsmodellen.

Ansiktets rörelsemönster representeras av ett antal lagrade halvstavelser med motsvarande lagrade rörelsemönster. Dessa halvstavelser och tillhörande rörelsemönster inspelas i en neutral sinnesstämning respektive betoning. En uppsättning halvstavelser lagras på detta sätt tillsammans med aktuella rörelsemönster. Vid översättning av ett tal på ett första språk till ett andra språk överförs de grundläggande betoningama och rörelsemönstren till det andra språket. Ett i ansiktet återgivet rörelsemönster kommer härvid att återspegla det återgivna talet.

Anordningen fastställer vidare betoningslägen för meningar och/eller enstaka ord. Detta kan ske med redan kända metoder, se t. ex. patentansökan nr 9504367-5 som behandlar talsyntes.

Framhävníngar och betoningar överförs till motsvarande rörelser i ansiktet. Vid mottagning av talet på ett första språk är vidare anordningen anordnad att översätta talet till ett andra språk.

Betoningar i talet på det första språket registreras och överförs till betoningar i motsvarande tal på det andra språket. Rörelser i ansiktet anpassas härvid till det andra språket för såväl 10 l5 20 25 520 oss ,,,, 3 :Ä 'i ' betoningar, satsbetoningar som intonationer. Talaren ges på detta sätt i ansiktet påförda rörelser motsvarande ett på det andra språket framställt tal.

De i ansiktet registrerade punkterna inspelas t.ex. med markerade ansiktspunkter vilka följs av laserljus eller liknande. Valet av punkter i ansiktet är beroende av i hur hög grad animeringen skall motsvara verkliga rörelser.

Uppﬁnningen avser vidare metod vid visuell talsyntes. Ord och meningar skapas genom att sammanställning av polyfoner och betoningar i ord och satser fastställs FÖRDELAR Med föreliggande uppfinning ges möjlighet att återge en talares framställning på ett andra språk med ett i ansiktet återgivet rörelsemönster som motsvarar rörelsemönstret i det andra språket. Utnyttjande av uppfinningen är av betydelse vid t.ex. telefonering där talaren återges i bild. I en framtid där telesystem ansvarar för översättning mellan olika språk kommer risken för missförstånd om inte att elimineras att avsevärt minskas. De områden inom telefonin som i dag är aktuella är bredbandiga överföringar som tillämpas vid konferenstelefoni. Det kan även antas ha betydelse vid bildtelefoni mellan enskilda personer i framtida telesystem i takt med att även hushållen erhåller bredbandiga anslutningar med möjlighet att utnyttja bildtelefoni.

FIGURBESKRIVNING Fig l visar hur ett uttalat ord indelas i segment Fig 2 visar en koppling mellan olika punkter i ett ansikte och uttalade ord Fig 3 visar hur förstärkningen av rörelsen i olika delar i ansiktet påverkas av en funktion G(t) Fig 4 visar exempel på valda punkter i ett ansikte.

Fig 5 visar områden som påverkas i en ansiktsmodell FÖREDRAGEN UTFÖRINGSFORM I det följande beskrivs uppfinningen utifrån figurema och beteckningarna däri.

Föreliggande uppfinning föreslår att ansiktsrörelser förstärks med en funktion G(t) som har sitt maximum i stavelsekämans mitt (vokalmitt) och minimum i stavelsegränserna. Ljud och ljudkombinationer etc i ett språk tilldelas ett för språket typiskt rörelsemönster. Dessa lO l5 20 25 30 520 Û65;§j.~:j';'¿.' .fair s: rörelsemönster utgörs av grundrörelser för ljudkombinationer i tal i icke-fokal position. Läpp- och ansiktsuttryck påförs en funktion G(t) som är kopplad till ljudvågen för bestämning av vilka delar i ett tal som är betonade, obetonade, framhävda etc. Om exempelvis ordet sprut, fig. 1, skall återges delas de ingående ljuden upp i segment. För varje ljud har härvid funktionen ett givet rörelsemönster för läppar och övriga ansíktsrörelser. Sammanlänkning av nämnda rörelsemönster sker till en helhet. I exemplet sprut kommer betoningen av vokalen u att utgöra ett maximum. Den neutrala rörelsen som ges vid grundanimeringen av sprut påföres förstärkningssignalen G(t). Läpprörelser och ansiktsuttryck i övrigt förstärks härvid i en grad som motsvarar betoningen respektive trycket på den aktuella stavelsen. Förstärkningama utgör i detta fall en förstärkning av främst läpprörelserna men även övriga ansiktsuttryck. På motsvarande sätt anpassar funktionen G(t) förstärkningar av ansiktsrörelser med hänsyn till betoningar i satser som framsäges.

En koppling mellan ljudvåg och rörelsemönster erhålles således i enlighet med fig. 2.

Rörelserna återges för de olika delar i. ansiktet som önskas återgivna. Ansiktsdelar som återges kan vara ett antal punkter som utplaceras i ansiktet, vars rörelsemönster spelats in tillsammans med ljudsignalen. Olika delar av rörelsema kommer att förstärkas med funktionen G(t). Emellertid kan det förhålla sig så att olika delar av ansiktet påverkas i olika omfattning vid betoningar. För att överbrygga detta förhållande kan en viktfunktion, som är individuell för ansiktets olika delar, införas. l fig. 3 anges hur rörelsema för ansiktets olika delar förs in i en förstärkare för önskad anpassning. Genom denna manipulation av rörelsen för betonad/obetonad stavelse, informationsfokus (satsaccent) etc med olika funktioner och för kontrastiv betoning uppnås framhävning av specifikt ord och dess ingående stavelser.

Enligt uppfinningen inspelas ett antal ljud, halvstavelser, utan att betoningar påverkar uttalet.

För att åstadkomma detta inspelas företrädesvis nonsensord. I samband med inspelningarna markeras ett antal punkter, a, se fig 4. Markeringarna utförs på så vis att punkterna är registrerbara med hjälp av t.ex. laserteknik. Inspelade ljud och rörelser kommer härvid att registreras tillsammans. Vid exempelvis översättning av en talares tal på ett första språk till ett andra språk överförs de registrerade rörelserna i ansiktet till en modell, fig 5. I modellen inordnas rörelserna av polygoner, i figuren angivna som trianglar. Det verkliga ansikte som 520 065 5 används appliceras över modellen. Härvid kommer ansiktets olika delar att animeras till det tal som skall återges.

Uppfinningen är inte begränsad till det i ovan beskrivna utföringsexemplet eller till efterföljande patentkrav utan kan undergå modifieringar inom, ramen för uppfinningstanken.

Claims

1. 0 20 25 520 065 PATENTKRAV Anordning för prosodigenerering vid visuell syntes, innefattande medel för lagring och återgivning av ljud, samt till ljuden associerade rörelsemönster i ett ansikte, där nämnda rörelsemönster representeras av ett antal valda punkter i ansiktet i avsikt att bygga upp rörelser i en ansiktsmodell, och där de valda punkternas inspelade rörelsemönster lagras i nämnda medel, kännetecknad av, att ljuden främst är anordnade att representeras av halvstavelser, vilka halvstavelser är anordnade att representeras av i ansiktet associerat rörelsemönster, att medlet är anordnat att sammanställa ljuden till ord och meningar med en naturlig betoning, att medlet vidare är anordnat att sammanställa de inspelade rörelsemönstren till mot nämnda ord och meningar svarande rörelsesekvens, samt att en förstärkning av de inspelade rörelsesekvenserna är införd i avsikt att återspegla betoningar hos en talare. Anordning enligt patentkrav l, kännetecknad av, att rörelsema i ansiktsmodellen är anordnade att representeras av ett antal halvstavelser, vilka inspelats med neutralt uttal, samt att motsvarande rörelsemönster i ansiktet inspelats och registrerats i medlet. Anordning enligt patentkrav l eller 2, kännetecknad av, att medlet är anordnat att fastställa betoningslägen för en mening och/eller i enstaka ord och att en motsvarande framhävning av ansiktets rörelse är anordnad att framställas i nämnda rörelsesekvens. Anordning enligt patentkrav 1,2 eller 3 kännetecknad av, att anordningen är anordnad att motta ett tal framställt på ett första språk och att anordningen är anordnad att översätta talet till ett andra språk. Anordning enligt patentkrav 4, kännetecknar] av, att anordningen är anordnad att registrera betoningar i talet på det första språket vilka betoningar är anordnade att överföras till talet på det andra språket och att motsvarande rörelsesekvens i talarens ansikte är anordnat att återspeglas vid återgivande av talarens ansikte i kombination med det översatta talet. Anordning enligt patentkrav 1, kännetecknad av, att ljudvågor motsvarande halvstavelsema är lagrade tillsammans med rörelsemönstret för ett antal punkter i ansiktet. 10 15 20 25 10. 12. 13. 14. -v »u . fi., 1 'I . . . » än Anordning enligt patentkrav l, kännetecknad av, att rörelsesekvensen är anordnad att ges en maximal förstärkning i en vokals mitt och att förstärkningen är noll i aktuella stavelsegränser. Anordning enligt något av föregående patentkrav, kännetecknad av, att rörelsesekvensen är påförd en ansiktsmodell vilken är påförd det verkliga ansiktet varvid ansiktet ges en animering motsvarande det framställda talet och/eller ljudet. Anordning enligt något av föregående patentkrav, kännetecknad av, att rörelsesekvensen i modellen införs i polygoner, vilka återspeglar rörelsen i olika delar av ansiktet. Metod vid visuell talsyntes, där ord och meningar bildas av polyfoner, och där talanalys fastställer betoningar i ord och satser, samt där inspelade rörelsesekvenser, som motsvarande orden och satserna, påföres en ansiktsmodell, där punkter i polygonerna, t. ex. trianglar, anger områden som påverkas av polyfonema, kännetecknad av, att punkterna i varje polygon tilldelas en viktning som beror av motsvarande ords och/eller sats betoning, varvid en förfinad animering av en till talet associerad inspelad rörelsesekvens erhålles, och att en bild av den animerade personen påföres ansiktsmodellen varvid en tredimensionell bild skapas och återges tillsammans med motsvarande ljud. . Metod enligt patentkrav 10, kännetecknad av, att viktnin gen av punktema i polygonerna förstärker respektive försvagar ansiktsrörelserna i förhållande till de inspelade ansiktsrörelserna. Metod enligt patentkrav 10 eller l 1, kännetecknad av, att polyfonerna bildas ur intalade ord, företrädesvis nonsensord, och att ansiktsrörelser inregistreras simultant. Metod enligt patentkrav 10, ll eller 12, kännetecknad av, att ansiktsrörelserna inspelas för olika personer och/eller personkategorier och lagras för utnyttjande vid animation av respektive person/personkategori. Metod enligt något av patentkraven 10-13, kännetecknad av, att personkategorierna är män, kvinnor och bam. 520 065 S? \/ 15. Metod enligt något av patentkraven 10- 14, kännetecknad av, att talet framställs ur en text vilken ges vid t.ex. översättning av ett tal från ett första språk till ett andra språk och/eller vid framställning av ett tal søm skall animeras till en person ur ett givet textunderlag.