SE519679C2 - Metod vid talsyntes - Google Patents

Metod vid talsyntes

Info

Publication number
SE519679C2
SE519679C2 SE9701102A SE9701102A SE519679C2 SE 519679 C2 SE519679 C2 SE 519679C2 SE 9701102 A SE9701102 A SE 9701102A SE 9701102 A SE9701102 A SE 9701102A SE 519679 C2 SE519679 C2 SE 519679C2
Authority
SE
Sweden
Prior art keywords
person
face
polyphones
database
facial movements
Prior art date
Application number
SE9701102A
Other languages
English (en)
Other versions
SE9701102L (sv
SE9701102D0 (sv
Inventor
Bertil Lyberg
Mats Wiren
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9701102A priority Critical patent/SE519679C2/sv
Publication of SE9701102D0 publication Critical patent/SE9701102D0/sv
Priority to DK98911339T priority patent/DK0970467T3/da
Priority to EEP199900420A priority patent/EE9900420A/xx
Priority to US09/381,630 priority patent/US6385580B1/en
Priority to PCT/SE1998/000507 priority patent/WO1998043236A2/en
Priority to JP54446298A priority patent/JP2001517327A/ja
Priority to EP98911339A priority patent/EP0970467B1/en
Priority to DE69817550T priority patent/DE69817550T2/de
Publication of SE9701102L publication Critical patent/SE9701102L/sv
Priority to NO19994600A priority patent/NO317597B1/no
Publication of SE519679C2 publication Critical patent/SE519679C2/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Description

30 519 Tal från en försöksperson inspelas samtidigt som försökspersonens rörelsemönster registreras.
Det inspelade talet utgöres företrädesvis av nonsensord varur polyfoner, halvstavelser, utsorteras. De registrerade polyfonema lagras i en polyfonbank. Till varje polyfon lagras vidare försökspersonens ansiktsrörelser i en rörelsebank. För en andra person registreras på motsvarande sätt polyfoner i en polyfondatabas. Den andra personens ansiktsrörelser registreras emellertid icke. En jämförelse mellan ljudsegmenten i motsvarande polyfoner sker därefter mellan polyfondatabasen och polyfonbanken. De registrerade skillnaderna utnyttjas därefter för att modifiera aktuellt rörelsemönster i rörelsebanken varvid en modell med ett rörelsemönster motsvarande den andra talarens uttal av polyfonerna erhålles. Det modifierade rörelsemönstret lagras i en rörelsedatabas. Vid sammanställning av polyfoner ur polyfondatabasen utnyttjas därefter rörelsedatabasen för skapande av en ansiktsmodell vars rörelser motsvaras av talarens sätt att tala. Den skapade modellen utgöres av en polygonmodell baserad på rörelsemönstret från förste försökspersonens rörelsemönster. För att skapa en vision av att den andre personen talar påföres modellen en bild av den talande.
Polygonmodellen modifieras härvid att passa den andre personen. Den till modellen påförda bilden kan utgöras av stillbilder eller rörliga bilder, som lagrats i databasen eller överförts via tex. telenätet. En tredimensionell bild skapas på detta sätt.
De registrerade rörelserna i det första ansiktet utgöres av punkter som inordnas i en tredimensionell ansiktsmodell. Ansiktsmodellen består av ett antal polygoner sammanfogade av punkter. Punktema utgöres av mätpunkter i en försökspersons ansikte, vilka punkter registreras under inspelning av ljud/polyfoner. Registreringen av punkterna i försökspersonens ansikte sker företrädesvis genom markering av valda punkter i försökspersonens ansikte.
Punktema registreras därefter med hjälp av exempelvis laserteknik. En bank över ljud och rörelsemönster skapas.
Uppfinningens användningsområde utgöres av alla fall där en återgivning av tal/ljud som skall ges ett naturtroget rörelsemönster i en talares ansikte. Det kan exempelvis avse en person, som talar ett första språk men som medelst talsyntes återges talande ett andra språk. Dylika förhållanden torde i framtiden bli förknippade med telefoni där telesystemet eller utrustningar hos de telefonerande översätter talet samt återger de talande i bild. Användningsorruådet för uppfinningen är emellertid inte enbart telefoni utan alla sammanhang där ett första tal framställt av en person skall översättas och återges på ett andra språk med naturtrogna ansiktsrörelser. 20 1 6 :'.:'°.'.: ft.. '. .' -- - - FÖRDELAR Den anvisade uppfinningen medger att ett billigare förfarande kan tillämpas vid animering av tal med ett tillhörande ansikte. Detta utnyttjas exempelvis vid översättning av en talares tal vid översättning från ett första språk till ett andra språk. Vid inspelning erfordras endast en försöksperson som utnyttjas för inmatning av grundrörelserna i ansiktet. Den/de personer som skall låna rörelsemönstret från försökspersonen behöver endast inspela ett antal ljudsekvenser varur polyfoner är extraherbara. Genom att registrera polyfoner och tillhörande ansiktsrörelser hos ett lämpligt urval personer kan en bank skapas, vilken kan utnyttjas i olika situationer för animering av olika ansikten. De registrerade ansiktena kan exempelvis avse personer i olika åldrar och av olika kön.
FIGURBESKRIVNING Fig l visar hur ansiktsrörelser registreras Fig 2 visar hur en polygonmodell är uppbyggd FÖREDRAGEN UrFöRmGsFoRiw I det följ ande beskrivs uppfinningen utifrån figurerna och beteckningama däri.
Registrering av ljud med tillhörande rörelsemönster i en försökspersons ansikte genomförs med nyttjande av t.ex. nonsensord eller ur löpande text. Att använda nonsensord har fördelar i att försökspersoner! i såväl ordframställning som ansiktsutryfk hutfudsakligen intar en neutral ställning. Nonsensorden utgöres huvudsakligen av enstaviga ord som indelas i halvstavelser.
Halvstavelsema sammanlänkas till ord och meningar. Sammanlänkning av två halvstavelser sker i vokalmitten för respektive halvstavelse. Skapandet av ett ord sker enligt följande, först fastställes de halvstavelser som skall ingå i ordet samt betoningen av ordet i fråga. Ett enstaka ord t.ex. nod indelas i följande halvstavelser, no, od. Sammanlänkning av no och od sker därefter i vokalen o. Från språklexikon erhålles uppgifter om ordets lexikalbetoning. Nämnda ljud sammanställs därefter till ord och meningar där varje ords betoning framställs liksom satsmelodin för hela satsen bestämmes. En uppbyggnad av ord och meningar enligt detta förfarande är tidigare känt och beskrivet i bl.a. patentskrift Se 9504367-5. 10 20 30 519 679 4 - - - | u För att skapa en polyfonbank utnyttjas en försöksperson som intalar en mängd ord, exempelvis nonsensord. Altemativt kan även löpande text utnyttjas. Samtidigt som nämnda ord registreras registreras även försökspersonens rörelser i ansiktet. Dessa ansiktsrörelser lagras i en rörelsedatabas. De inspelade orden delas upp i polyfoner, halvstavelsertilsammans med motsvarande rörelser. En koppling mellan polyfonema och motsvarande rörelser skapas på detta sätt.
Registrering av ansiktsrörelsema sker genom markering av olika punkter i försökspersonens ansikte. Punkterna placeras tätare där stora förändringar sker och glesare i områden med liten avvikelse i rörelserna. Områden med stora avvikelser är exempelvis läppama och området kring läpparna. Var och en av punkterna ges en position i en tredimmensionell avbildning av försökspersonen. Bilden utgör endast en polygonmodell av ansiktet. Genom att koordinera rörelsema i modellen med polyfoner, som sammansätts till ord och meningar. erhålles ett rörelsemönster som motsvaras av det framställda talet.
Polyfoner registreras vidare från en andra person, dock utan registrering av den andra personens ansiktsrörelser. Även i detta fall utnyttjas företrädesvis nonsensord, men löpande text kan även nyttjas. En polyfondatabas skapas på detta sätt för den andre personen. För att skapa en rörelsedatabas för den andra personen utnyttjas därefter polyfonbanken, som tagits fram mha den första försökspersonen. Motsvarande polyfoner i polyfonbanken och polyfondatabasen jämförs med avseende på ljudens varaktighet. Avvikelser i varaktighet registreras för polyfonema varefter motsvarande rörelse i rörelsebanken modifieras. Den zncdifierade rörelsen lagras därefter i en iörelscdatabas. R-išrels-:databasen och polyfondatabasen kopplas därvid till varandra.
När den andra personen skall animeras framställs ord och fraser genom sammansättning av halvstavelser tagna ur polyfonerna. Samtidigt byggs en tredimensionell polygonmodell upp med motsvarande rörelsemönster som uttagits ur rörelsedatabasen. Den skapade bilden utgörs av en trådmodell där ändpunkterna i polygonerna representerar mätpunktema i den första försökspersonens ansikte.
För att skapa en vision av att den andra personen .ramstälwr det framstända talet påföres polygonmodellen en bild av den andre personen. Polygonmodellen modifieras i samband härmed att passa till den andre personens ansiktsformer, munstorlek etc. Den framställda avbildningen är tredimensionell och visas simultant med det framställda talet varvid tal och 10 15 20 519 679 v n u ~ -ø » « u = | u ansiktsrörelser står väl i samklang. Den angivna metoden medger emellertid inte att rörelsemönstret helt överenstämmer med den andre personens normala rörelsemönster utan präglas av den första personens rörelsemönster.
En person, B, talar ett första språk som skall översättas till ett andra språk eller en text är given och skall tilldelas personen B. För personen, B, har en polyfondatabas skapats men inga rörelsemönster registrerats. De för B registrerade polyfonema jämförs med motsvarande polyfoner i en polyfonbank med associerade rörelsemönster hos en person, A.
Ljudsegmentens exakta längd fastställs i såväl polyfonbanken som polyfondatabasen.
Avvikelserna registreras och ett modellansikte skapas där rörelsemönstren från, A, utnyttjas.
Rörelserna modifieras emellertid i förhållande till avvikelsen mellan polyfonerna i polyfondatabasen och polyfonbanken. Ljudsegment som är längre i polyfondatabasen än i polyfonbanken renderar i att motsvarande rörelsemönster i ansiktsmodellen förlängs. För ljudsegment som är kortare i polyfondatabasen än i polyfonbanken sker en motsvarande förkortning av motsvarande rörelsemönster i modellansiktet. En databas med rörelsemönster associerade till polyfondatabasen skapas på detta sätt. Vid sammanställning av polyfoner ur B:s polyfondatabas till ord och meningar framställs ett modellansikte med rörelser tagna ur databasen med rörelsemönster. De framställda rörelsemönstren motsvaras av B:s sätt att uttala motsvarande delar av polyfonerna men med Azs grundläggande rörelsemönster. B:s ansikte kan därefter tillföras modellen varvid B talar med den egna rösten men tilldelas ett rörelsemönster tillhörande A varvid bild och ljud står i samklang och en naturlig upplevelse erhålles.
Uppfinningen är inte begränsad till det ovan beskrivna utföringsexemplet eller till efterföljande patentkrav utan kan undergå modifieringar inom, ramen för uppfinningstanken.

Claims (14)

1. 20 25 519 679
2. PATENTKRAV
3. Metod vid talsyntes, där första polyfoner och relaterade ansiktsrörelser, från en första person, lagras, och andra polyfoner från en andra person lagras, kännetecknad av, att ljudsegmentens längd i första och andra polyfonema jämförs varvid ansiktsrörelserna modifieras i förhållande till relationen mellan första och andra polyfonerna, att en databas med modifierade ansiktsrörelser skapas, och att databasen med modifierade ansiktsrörelser utnyttjas för att skapa en ansiktsmodell med tillhörande ljud där rörelsemönster och ljud står i samklang.
4. Metod enligt patentkrav l, kännetecknad av, att polyfonerna för den första personen lagras i en polyfonbank, samt att rörelsemönstret i första personens ansikte lagras i en rörelsebank.
5. Metod enligt patentkrav 1 eller 2, kännetecknad av, att polyfonema för den andra personen lagras i en polyfondatabas.
6. Metod enligt patentkrav 2 och 3, kännetecknad av, att ljudsegmentens varaktighet i motsvarande polyfoner i polyfonbanken och polyfondatabasen fastställs och att differensen fastställs.
7. Metod enligt patentkrav 2, 3 eller 4 kännetecknad av, att rörelsemönstret, som motsvarar ett polyfon, uttas ur rörelsebanken och modifieras med avseende på skillnaden i varaktighet i ljudsegmenten i polyfonets olika delar.
8. Metod enligt patentkrav 5, kännetecknad av, att det modifierade rörelsemönstret lagras i en rörelsedatabas.
9. Metod enligt patentkrav 3 och 6, kännetecknad av, att polyfoner ur polyfondatabasen sammanställs till ord och meningar och att motsvarande rörelsemönster uttas ur rörelsedatabasen och tillförs ansiktsmodellen, vilken erhåller mot orden och meningarna svarande rörelsemönster. 10 15 20
10.
11.
12.
13.
14. 519 6779 f'¿fw=,._í »fvt s Metod enligt något av föregående patentkrav, kännetecknad av, att ansiktsrörelsema i den första personens ansikte registreras genom markering av ett antal punkter i den första personens ansikte, och att registreringen av ansiktsrörelserna sker samtidigt som ljudupptagning sker. Metod enligt patentkrav 8, kännetecknad av, att ansiktsrörelsema registreras med laserteknik, som är kapabel att följa de markerade punkterna i det första ansiktet. Metod enligt något av föregående patentkrav, kännetecknad av, att ansiktsmodellen byggs upp i en polygonmodell och att en bild av den andra personens ansikte påföres polygonmodellen varvid den andra personens ansiktsrörelser står i samklang med de framställda ljuden. Metod enligt patentkrav 10, kännetecknad av, att bilden av det andra ansiktet utgöres av stillbild eller rörlig bild. Metod enligt något av patentkrav 10 till ll, kännetecknad av, att polygonmodellen är tredimensionell varvid efter påförande av bilden en tredimensionell bild av det verkliga ansiktet erhålles, vilken andra bild motsvarar ansiktsrörelser hos en person vars ansikte motsvaras av bilden. Metod enligt något av patentkrav 10 till 12, kännetecknad av, att punkter i polygonema representerar områden i första personens ansikte som rör sig i beroende av varandra, och att justeringen av punkternas rörelser avser dels ett rörelseutslag dels avser vilket avstånd som föreligger mellan punkterna i den första personens ansikte och den andra personens ansikte. Metod enligt något av föregående patentkrav, kännetecknad av, att bilden av den andra personens ansikte införes, överföres eller framtas ur databasen.
SE9701102A 1997-03-25 1997-03-25 Metod vid talsyntes SE519679C2 (sv)

Priority Applications (9)

Application Number Priority Date Filing Date Title
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes
DE69817550T DE69817550T2 (de) 1997-03-25 1998-03-20 Verfahren zur sprachsynthese
PCT/SE1998/000507 WO1998043236A2 (en) 1997-03-25 1998-03-20 Method of speech synthesis
EEP199900420A EE9900420A (et) 1997-03-25 1998-03-20 Kõnesünteesi juurde kuuluv meetod
US09/381,630 US6385580B1 (en) 1997-03-25 1998-03-20 Method of speech synthesis
DK98911339T DK0970467T3 (da) 1997-03-25 1998-03-20 Fremgangsmåde til talesyntese
JP54446298A JP2001517327A (ja) 1997-03-25 1998-03-20 スピーチ合成方法
EP98911339A EP0970467B1 (en) 1997-03-25 1998-03-20 Method of speech synthesis
NO19994600A NO317597B1 (no) 1997-03-25 1999-09-22 Fremgangsmate for talesyntese

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes

Publications (3)

Publication Number Publication Date
SE9701102D0 SE9701102D0 (sv) 1997-03-25
SE9701102L SE9701102L (sv) 1998-09-26
SE519679C2 true SE519679C2 (sv) 2003-03-25

Family

ID=20406309

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes

Country Status (9)

Country Link
US (1) US6385580B1 (sv)
EP (1) EP0970467B1 (sv)
JP (1) JP2001517327A (sv)
DE (1) DE69817550T2 (sv)
DK (1) DK0970467T3 (sv)
EE (1) EE9900420A (sv)
NO (1) NO317597B1 (sv)
SE (1) SE519679C2 (sv)
WO (1) WO1998043236A2 (sv)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
JP4495886B2 (ja) * 2001-08-09 2010-07-07 株式会社日立製作所 音声入力認識文例集の管理方法
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US10708545B2 (en) * 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
GB9019829D0 (en) 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
SE500277C2 (sv) 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
MX9504648A (es) 1994-11-07 1997-02-28 At & T Corp Metodo y aparato para el procesamiento de imagenes, asistido por acustica.
SE519244C2 (sv) 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE9600959L (sv) 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis

Also Published As

Publication number Publication date
SE9701102L (sv) 1998-09-26
DK0970467T3 (da) 2003-12-15
NO317597B1 (no) 2004-11-22
EE9900420A (et) 2000-04-17
DE69817550T2 (de) 2004-06-17
WO1998043236A2 (en) 1998-10-01
EP0970467B1 (en) 2003-08-27
WO1998043236A3 (en) 1998-12-23
US6385580B1 (en) 2002-05-07
EP0970467A2 (en) 2000-01-12
SE9701102D0 (sv) 1997-03-25
JP2001517327A (ja) 2001-10-02
DE69817550D1 (de) 2003-10-02
NO994600L (no) 1999-11-23
NO994600D0 (no) 1999-09-22

Similar Documents

Publication Publication Date Title
Cox et al. Tessa, a system to aid communication with deaf people
SE519244C2 (sv) Anordning och metod vid talsyntes
US6250928B1 (en) Talking facial display method and apparatus
Hazen et al. A segment-based audio-visual speech recognizer: Data collection, development, and initial experiments
Crompton Syllables and segments in speech production
US7369992B1 (en) System and method for triphone-based unit selection for visual speech synthesis
Bear et al. Decoding visemes: Improving machine lip-reading
Benoı̂t et al. Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP
ITTO20000303A1 (it) Procedimento per l'animazione di un modello sintetizzato di volto umano pilotata da un segnale audio.
O'Brien An experimental approach to debuccalization and supplementary gestures
Beskow Trainable articulatory control models for visual speech synthesis
SE519679C2 (sv) Metod vid talsyntes
US6389396B1 (en) Device and method for prosody generation at visual synthesis
CN115497448A (zh) 语音动画的合成方法、装置、电子设备及存储介质
Foley Traditional signs and Homeric art
Farella et al. Question Answering with BERT: designing a 3D virtual avatar for Cultural Heritage exploration
Yi Corpus-based unit selection for natural-sounding speech synthesis
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
Ragona Hidden noise: Strategies of sound montage in the films of Hollis Frampton
Campr et al. Automatic fingersign to speech translator
Yang et al. The design and implementation of a smart e-receptionist
Ufomata Englishization of Yoruba phonology
Mažonavičiūtė et al. English talking head adaptation for Lithuanian speech animation
Whipple et al. Foreign language visemes for use in lip-synching with computer-generated audio

Legal Events

Date Code Title Description
NUG Patent has lapsed