SE519679C2

SE519679C2 - Metod vid talsyntes

Info

Publication number: SE519679C2
Application number: SE9701102A
Authority: SE
Inventors: Bertil Lyberg; Mats Wiren
Original assignee: Telia Ab
Priority date: 1997-03-25
Filing date: 1997-03-25
Publication date: 2003-03-25
Also published as: SE9701102L; DK0970467T3; NO317597B1; EE9900420A; DE69817550T2; WO1998043236A2; EP0970467B1; WO1998043236A3; US6385580B1; EP0970467A2; SE9701102D0; JP2001517327A; DE69817550D1; NO994600L; NO994600D0

Description

30 519 Tal från en försöksperson inspelas samtidigt som försökspersonens rörelsemönster registreras.

Det inspelade talet utgöres företrädesvis av nonsensord varur polyfoner, halvstavelser, utsorteras. De registrerade polyfonema lagras i en polyfonbank. Till varje polyfon lagras vidare försökspersonens ansiktsrörelser i en rörelsebank. För en andra person registreras på motsvarande sätt polyfoner i en polyfondatabas. Den andra personens ansiktsrörelser registreras emellertid icke. En jämförelse mellan ljudsegmenten i motsvarande polyfoner sker därefter mellan polyfondatabasen och polyfonbanken. De registrerade skillnaderna utnyttjas därefter för att modifiera aktuellt rörelsemönster i rörelsebanken varvid en modell med ett rörelsemönster motsvarande den andra talarens uttal av polyfonerna erhålles. Det modifierade rörelsemönstret lagras i en rörelsedatabas. Vid sammanställning av polyfoner ur polyfondatabasen utnyttjas därefter rörelsedatabasen för skapande av en ansiktsmodell vars rörelser motsvaras av talarens sätt att tala. Den skapade modellen utgöres av en polygonmodell baserad på rörelsemönstret från förste försökspersonens rörelsemönster. För att skapa en vision av att den andre personen talar påföres modellen en bild av den talande.

Polygonmodellen modifieras härvid att passa den andre personen. Den till modellen påförda bilden kan utgöras av stillbilder eller rörliga bilder, som lagrats i databasen eller överförts via tex. telenätet. En tredimensionell bild skapas på detta sätt.

De registrerade rörelserna i det första ansiktet utgöres av punkter som inordnas i en tredimensionell ansiktsmodell. Ansiktsmodellen består av ett antal polygoner sammanfogade av punkter. Punktema utgöres av mätpunkter i en försökspersons ansikte, vilka punkter registreras under inspelning av ljud/polyfoner. Registreringen av punkterna i försökspersonens ansikte sker företrädesvis genom markering av valda punkter i försökspersonens ansikte.

Punktema registreras därefter med hjälp av exempelvis laserteknik. En bank över ljud och rörelsemönster skapas.

Uppfinningens användningsområde utgöres av alla fall där en återgivning av tal/ljud som skall ges ett naturtroget rörelsemönster i en talares ansikte. Det kan exempelvis avse en person, som talar ett första språk men som medelst talsyntes återges talande ett andra språk. Dylika förhållanden torde i framtiden bli förknippade med telefoni där telesystemet eller utrustningar hos de telefonerande översätter talet samt återger de talande i bild. Användningsorruådet för uppfinningen är emellertid inte enbart telefoni utan alla sammanhang där ett första tal framställt av en person skall översättas och återges på ett andra språk med naturtrogna ansiktsrörelser. 20 1 6 :'.:'°.'.: ft.. '. .' -- - - FÖRDELAR Den anvisade uppfinningen medger att ett billigare förfarande kan tillämpas vid animering av tal med ett tillhörande ansikte. Detta utnyttjas exempelvis vid översättning av en talares tal vid översättning från ett första språk till ett andra språk. Vid inspelning erfordras endast en försöksperson som utnyttjas för inmatning av grundrörelserna i ansiktet. Den/de personer som skall låna rörelsemönstret från försökspersonen behöver endast inspela ett antal ljudsekvenser varur polyfoner är extraherbara. Genom att registrera polyfoner och tillhörande ansiktsrörelser hos ett lämpligt urval personer kan en bank skapas, vilken kan utnyttjas i olika situationer för animering av olika ansikten. De registrerade ansiktena kan exempelvis avse personer i olika åldrar och av olika kön.

FIGURBESKRIVNING Fig l visar hur ansiktsrörelser registreras Fig 2 visar hur en polygonmodell är uppbyggd FÖREDRAGEN UrFöRmGsFoRiw I det följ ande beskrivs uppfinningen utifrån figurerna och beteckningama däri.

Registrering av ljud med tillhörande rörelsemönster i en försökspersons ansikte genomförs med nyttjande av t.ex. nonsensord eller ur löpande text. Att använda nonsensord har fördelar i att försökspersoner! i såväl ordframställning som ansiktsutryfk hutfudsakligen intar en neutral ställning. Nonsensorden utgöres huvudsakligen av enstaviga ord som indelas i halvstavelser.

Halvstavelsema sammanlänkas till ord och meningar. Sammanlänkning av två halvstavelser sker i vokalmitten för respektive halvstavelse. Skapandet av ett ord sker enligt följande, först fastställes de halvstavelser som skall ingå i ordet samt betoningen av ordet i fråga. Ett enstaka ord t.ex. nod indelas i följande halvstavelser, no, od. Sammanlänkning av no och od sker därefter i vokalen o. Från språklexikon erhålles uppgifter om ordets lexikalbetoning. Nämnda ljud sammanställs därefter till ord och meningar där varje ords betoning framställs liksom satsmelodin för hela satsen bestämmes. En uppbyggnad av ord och meningar enligt detta förfarande är tidigare känt och beskrivet i bl.a. patentskrift Se 9504367-5. 10 20 30 519 679 4 - - - | u För att skapa en polyfonbank utnyttjas en försöksperson som intalar en mängd ord, exempelvis nonsensord. Altemativt kan även löpande text utnyttjas. Samtidigt som nämnda ord registreras registreras även försökspersonens rörelser i ansiktet. Dessa ansiktsrörelser lagras i en rörelsedatabas. De inspelade orden delas upp i polyfoner, halvstavelsertilsammans med motsvarande rörelser. En koppling mellan polyfonema och motsvarande rörelser skapas på detta sätt.

Registrering av ansiktsrörelsema sker genom markering av olika punkter i försökspersonens ansikte. Punkterna placeras tätare där stora förändringar sker och glesare i områden med liten avvikelse i rörelserna. Områden med stora avvikelser är exempelvis läppama och området kring läpparna. Var och en av punkterna ges en position i en tredimmensionell avbildning av försökspersonen. Bilden utgör endast en polygonmodell av ansiktet. Genom att koordinera rörelsema i modellen med polyfoner, som sammansätts till ord och meningar. erhålles ett rörelsemönster som motsvaras av det framställda talet.

Polyfoner registreras vidare från en andra person, dock utan registrering av den andra personens ansiktsrörelser. Även i detta fall utnyttjas företrädesvis nonsensord, men löpande text kan även nyttjas. En polyfondatabas skapas på detta sätt för den andre personen. För att skapa en rörelsedatabas för den andra personen utnyttjas därefter polyfonbanken, som tagits fram mha den första försökspersonen. Motsvarande polyfoner i polyfonbanken och polyfondatabasen jämförs med avseende på ljudens varaktighet. Avvikelser i varaktighet registreras för polyfonema varefter motsvarande rörelse i rörelsebanken modifieras. Den zncdifierade rörelsen lagras därefter i en iörelscdatabas. R-išrels-:databasen och polyfondatabasen kopplas därvid till varandra.

När den andra personen skall animeras framställs ord och fraser genom sammansättning av halvstavelser tagna ur polyfonerna. Samtidigt byggs en tredimensionell polygonmodell upp med motsvarande rörelsemönster som uttagits ur rörelsedatabasen. Den skapade bilden utgörs av en trådmodell där ändpunkterna i polygonerna representerar mätpunktema i den första försökspersonens ansikte.

För att skapa en vision av att den andra personen .ramstälwr det framstända talet påföres polygonmodellen en bild av den andre personen. Polygonmodellen modifieras i samband härmed att passa till den andre personens ansiktsformer, munstorlek etc. Den framställda avbildningen är tredimensionell och visas simultant med det framställda talet varvid tal och 10 15 20 519 679 v n u ~ -ø » « u = | u ansiktsrörelser står väl i samklang. Den angivna metoden medger emellertid inte att rörelsemönstret helt överenstämmer med den andre personens normala rörelsemönster utan präglas av den första personens rörelsemönster.

En person, B, talar ett första språk som skall översättas till ett andra språk eller en text är given och skall tilldelas personen B. För personen, B, har en polyfondatabas skapats men inga rörelsemönster registrerats. De för B registrerade polyfonema jämförs med motsvarande polyfoner i en polyfonbank med associerade rörelsemönster hos en person, A.

Ljudsegmentens exakta längd fastställs i såväl polyfonbanken som polyfondatabasen.

Avvikelserna registreras och ett modellansikte skapas där rörelsemönstren från, A, utnyttjas.

Rörelserna modifieras emellertid i förhållande till avvikelsen mellan polyfonerna i polyfondatabasen och polyfonbanken. Ljudsegment som är längre i polyfondatabasen än i polyfonbanken renderar i att motsvarande rörelsemönster i ansiktsmodellen förlängs. För ljudsegment som är kortare i polyfondatabasen än i polyfonbanken sker en motsvarande förkortning av motsvarande rörelsemönster i modellansiktet. En databas med rörelsemönster associerade till polyfondatabasen skapas på detta sätt. Vid sammanställning av polyfoner ur B:s polyfondatabas till ord och meningar framställs ett modellansikte med rörelser tagna ur databasen med rörelsemönster. De framställda rörelsemönstren motsvaras av B:s sätt att uttala motsvarande delar av polyfonerna men med Azs grundläggande rörelsemönster. B:s ansikte kan därefter tillföras modellen varvid B talar med den egna rösten men tilldelas ett rörelsemönster tillhörande A varvid bild och ljud står i samklang och en naturlig upplevelse erhålles.

Uppfinningen är inte begränsad till det ovan beskrivna utföringsexemplet eller till efterföljande patentkrav utan kan undergå modifieringar inom, ramen för uppﬁnningstanken.

Claims

1. 20 25 519 679

2. PATENTKRAV

3. Metod vid talsyntes, där första polyfoner och relaterade ansiktsrörelser, från en första person, lagras, och andra polyfoner från en andra person lagras, kännetecknad av, att ljudsegmentens längd i första och andra polyfonema jämförs varvid ansiktsrörelserna modifieras i förhållande till relationen mellan första och andra polyfonerna, att en databas med modifierade ansiktsrörelser skapas, och att databasen med modifierade ansiktsrörelser utnyttjas för att skapa en ansiktsmodell med tillhörande ljud där rörelsemönster och ljud står i samklang.

4. Metod enligt patentkrav l, kännetecknad av, att polyfonerna för den första personen lagras i en polyfonbank, samt att rörelsemönstret i första personens ansikte lagras i en rörelsebank.

5. Metod enligt patentkrav 1 eller 2, kännetecknad av, att polyfonema för den andra personen lagras i en polyfondatabas.

6. Metod enligt patentkrav 2 och 3, kännetecknad av, att ljudsegmentens varaktighet i motsvarande polyfoner i polyfonbanken och polyfondatabasen fastställs och att differensen fastställs.

7. Metod enligt patentkrav 2, 3 eller 4 kännetecknad av, att rörelsemönstret, som motsvarar ett polyfon, uttas ur rörelsebanken och modifieras med avseende på skillnaden i varaktighet i ljudsegmenten i polyfonets olika delar.

8. Metod enligt patentkrav 5, kännetecknad av, att det modifierade rörelsemönstret lagras i en rörelsedatabas.

9. Metod enligt patentkrav 3 och 6, kännetecknad av, att polyfoner ur polyfondatabasen sammanställs till ord och meningar och att motsvarande rörelsemönster uttas ur rörelsedatabasen och tillförs ansiktsmodellen, vilken erhåller mot orden och meningarna svarande rörelsemönster. 10 15 20

10.

11.

12.

13.

14. 519 6779 f'¿fw=,._í »fvt s Metod enligt något av föregående patentkrav, kännetecknad av, att ansiktsrörelsema i den första personens ansikte registreras genom markering av ett antal punkter i den första personens ansikte, och att registreringen av ansiktsrörelserna sker samtidigt som ljudupptagning sker. Metod enligt patentkrav 8, kännetecknad av, att ansiktsrörelsema registreras med laserteknik, som är kapabel att följa de markerade punkterna i det första ansiktet. Metod enligt något av föregående patentkrav, kännetecknad av, att ansiktsmodellen byggs upp i en polygonmodell och att en bild av den andra personens ansikte påföres polygonmodellen varvid den andra personens ansiktsrörelser står i samklang med de framställda ljuden. Metod enligt patentkrav 10, kännetecknad av, att bilden av det andra ansiktet utgöres av stillbild eller rörlig bild. Metod enligt något av patentkrav 10 till ll, kännetecknad av, att polygonmodellen är tredimensionell varvid efter påförande av bilden en tredimensionell bild av det verkliga ansiktet erhålles, vilken andra bild motsvarar ansiktsrörelser hos en person vars ansikte motsvaras av bilden. Metod enligt något av patentkrav 10 till 12, kännetecknad av, att punkter i polygonema representerar områden i första personens ansikte som rör sig i beroende av varandra, och att justeringen av punkternas rörelser avser dels ett rörelseutslag dels avser vilket avstånd som föreligger mellan punkterna i den första personens ansikte och den andra personens ansikte. Metod enligt något av föregående patentkrav, kännetecknad av, att bilden av den andra personens ansikte införes, överföres eller framtas ur databasen.