SE511927C2

SE511927C2 - Förbättringar i, eller med avseende på, visuell talsyntes

Info

Publication number: SE511927C2
Application number: SE9701977A
Authority: SE
Inventors: Mats Ljungqvist
Original assignee: Telia Ab
Priority date: 1997-05-27
Filing date: 1997-05-27
Publication date: 1999-12-20
Also published as: DE69816078D1; EP0983575B1; DE69816078T2; DK0983575T3; SE9701977D0; NO995673D0; EE03634B1; WO1998054696A1; EE9900542A; NO995673L; SE9701977L; EP0983575A1; NO317598B1

Description

15 20 25 30 35 40 511927 2 Vissa foner, såsom vokaler och en delmängd konsonanter, åtföljs av stäm- bandsvibration och kallas "tonande" foner, medan andra foner, såsom plosiva konsonanter, är helt oberoende av stämbandsvibration och kallas "tonläsa" foner.

Vid tonande foner formas talspektrum, som tidigare beskrivits, i överensstämmelse med röstapparatens geometri, med karakteristiska energikoncentrationer kring tre huvudtoppar som kallas "forrnanter", belägna vid ökande frekvenser, Fl, P2 och P3.

En iakttagare som är skicklig i läppavläsning kan bestämma de troliga form- anttoppställena genom att beräkna överföringsfunktionen från de synliga artikula- torernas konfiguration. Denna beräkning utförs genom en bestämning av fyra grundläggande parametrar, nämligen: (i) röstapparatens längd L: (ii) (iii) (iV) avståndet d mellan glottis och platsen för maximal sammandragning sammandragningens radie r: och förhållandet mellan sammandragningens area A och röstapparatens längd L.

Medan röstapparatens längd L a priori kan bestämmas med hänsyn tagen till den talandes ålder och kön, kan man bara (grovt) sluta sig till de andra para- metrarna från den synliga konfigurationen. Om den maximala sammandragningen är belägen i anslutning till munnen, och alltså involverar läpparna, tungan och tändema, som fallet är för labiala och dentala foner, är bestämningen vanligen tillförlitlig. Däremot, när den maximala sammandragningen inte är synlig, såsom vid velara foner (/k/, /g/), är bestämningen vanligen mycket dålig.

Läppavläsning representerar den högsta syntesen av mänsklig expertis ifråga om omvandling av visuella inmatningar till ord och senare till meningar. Den ut- görs av en personlig databas av kunskap och färdigheter som uppbyggts och raffi- nerats genom träning, med förmågan att associera virtuella ljud med specifika munforrner, i allmänhet kallade "visem", och därav ge uppslag till det under- liggande akustiska meddelandet. Läppavläsarens uppmärksamhet är i grunden fokuserad på munnen, inklusive alla dess komponenter, d v s tänder och tunga, men betydelsefull hjälp till en läppavläsares förståelse kommer också från den talandes hela ansiktsuttryck.

Vid läppavläsning utförs en betydelsefull mängd bearbetning av läppav- läsaren själv, som är skicklig i efterñltrering av det omvandlade meddelandet, såsom återvinning från fel och kommunikationsfördröjningar. Det är genom ling- vistiskt och semantiskt övervägande möjligt att utnyttja meddelanderedundans och erhålla en förståelse utifrån meddelandets sammanhang. Detta slags kunskaps- baserad tolkning utförs av läppavläsaren i realtid.

Audiovisuell taluppfattning och läppavläsning vilar på två samverkande perceptuella system, så att i fall av hörselförsäniringar den visuella modaliteten effektivt kan integrera eller t o m ersätta den auditiva modaliteten. Det har 10 15 20 25 30 35 3 511 927 experimentellt visats att utnyttjande av visuell information, som har samband med den talandes läpprörelser, förbättrar talförståelsen: vid dessa experiment inkre- menteras signal- brusförhållandet (SNR) upp till 15 dB, och auditivt misslyckande omvandlas i de ﬂesta fall till en nästan perfekt visuell förståelse. Den visuella analysen av den talandes ansikte ger iakttagaren olika inforrnationsnivåer, som gör det lättare att skilja signal från brus. Öppnandet/stängandet av läpparna har i själva verket ett starkt samband med talsignalens styrka och ger nyttiga antydningar om det sätt på vilket röstströmmen är segmenterad. Medan vokaler kan igenkännas ganska lätt, både genom hörande och seende, är konsonantema däremot mycket känsliga för brus, och visuell analys utgör ofta det enda sättet att uppnå lyckad förståelse. De akustiska ledtrådar som hör samman med konsonantema, känne- tecknas vanligen genom låg intensitet, mycket kort varaktighet och fin röst- mönstring.

Det har visats (se B. Dodd, R. Campbell, "Hearing by eye: the psychology of lipreading" (höra med ögat: läppavläsningens psykologi), Lawrence Erlbaum Ass.

Publ., särskilt figur B.l: Auditory confusion of consonant transitions, CV, in white noise with decreasing Signal to Noise Ratio expressed in dB (hörförväxling av konsonantövergångar, CV, i vitt brus med avtagande signal-brusförhållande ut- tryckt i dB), och figur B.2: Visual confusion of consonant transitions, CV, in white noise among adult hearing impaíred persons (Visuell förväxling av konsonant- övergångar, CV, i vitt brus bland vuxna hörselskadade personer)) i samband med auditiv förväxling, att ledtrådar från nasalitet och tonande effektivt särskiljs genom akustisk analys, på annat sätt än från platsledtrådar, som lätt förvrängs av brus (se figur B.l i Dodd et al.).

Den motsatta situationen förekommer inom det optiska området (se Figur B.2 i Dodd et al.) där plats igenkänns mycket lättare än tonande och nasalitet. Vid minskning av signal-brusförhållandet blir konsonanter, som ursprungligen hållits åtskilda, alltmera sammanblandade och klustrade. När det 11-te klustret bildats (streckad linje i figur B. 2 i Dodd et al . ) kan de 9 gruppema av konsonanter som blivit resultatet betraktas som distinkta visem.

Platsledtrådar har i själva verket samband med medelhöga frekvenser, d v s över l kHz, som vanligen knappast särskiljs vid ﬂertalet hörselrubbningar.

Emellertid ligger nasalitet och tonande i den lägre delen av frekvensspektret.

Dessutom kännetecknas platsledtrádar genom en korttids-, ñn spektralstruktu'r, som kräver hög frekvens- och tidsupplösning, medan tonande- och nasalitets- ledtrådar mestadels har samband med ostrukturerad energifördelning över ﬂera tiotals millisekunder.

I varje fall, att observera en talandes ansikte är uppenbarligen till stor fördel för talförståelse och nästan nödvändigt i närvaro av buller eller hörselrubbningar, 10 15 20 25 30 35 40 511 927 4 d v s seendet styr den hörandes uppmärksamhet, lägger redundans till signalen och ger belägg för de ledtrådar som skulle ha blivit irreversibelt maskerade av buller.

Det är känt att i normal verbal kommunikation vilar analys och förstående av de olika artikulationsrörelsema på en bimodal perceptiv mekanism för kontinuerlig integrering av sammanhängande optiska och akustiska stimuli. I fallet med för- sämringar i den akustiska kanalen, beroende på avstånd, bullriga omgivningar, transportbairiärer (t ex en glasruta) eller patologier, utförs den övervägande perceptiva uppgiften följaktligen genom den visuella modaliteten. I det fallet utnyttjas för förståelsen enbart rörelsen och uttrycken hos de synliga artikulations- organen, d v s det vertikala och horisontella öppnandet av den talandes läppar, vertikal käkförskjutning, tandsynlighet, tungläge och andra mindre indikatorer. såsom uppblåsning av den talandes kinder samt nässamrnandragningar.

Det är känt från resultaten av experimentell fonetik, att hörselskadade personer uppför sig annorlunda än normalt hörande personer vid läppavläsning. I synnerhet visem såsom bilabiala lb, p, rnl, frikativa lf, v/ och ocklusiva konsonanter lt, dl igenkänns av både hörselskadade personer och personer som har normal hörsel , medan andra visem, såsom /k, gl igenkänns enbart av hörselskadade personer. Förekomsten av korrekt igenkänning för varje visem är också olika mellan normala och hörselskadade personer. Exempelvis lyckas hörselskadade personer mycket bättre än normalhörande personer känna igen nasala konsonanter lm, nl. Dessa två specifika skillnader i fonemigenkänning är svåra att förklara, eftersom velum, som är den huvudsakliga artikulator som är involverad i fonem såsom /k, gl eller lm, nl, inte är synlig och dess rörelser inte kan iakttas vid läppavläsning. En möjlig förklaring, som stammar från sena resultat i experimen- tell fonetik, förlitar sig på utnyttjandet av sekundära artikulationsindikatorer, som den normala iakttagaren vanligen inte lägger märke till.

Det är ett syfte med föreliggande uppfinning att tillhandahålla ett förfarande och utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal.

Det är ännu ett syfte med föreliggande uppfinning att tillhandahålla ett telekommunikationssystem som innefattar en utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal, för att underlätta en förhöjd förståelse av akustiska talsignaler för användare av systemet som har försämrad hörsel och en färdighet i läppavläsning.

Enligt en första aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande stegen att analysera den akustiska talsignalen för identifiering av dess ingående elementära talenheter; alstrande och visning, på en bildskärm, av en bild av mänskliga ansiktsdrag i rörelse, varvid närrmda ansiktsdragrörelser väsentligen 10 15 20 25 30 35 40 5 511927 synkroniseras i realtid med nämnda ingående elementära talenheter; nämnda förfarande kännetecknas av steget att på bildskärmen visa en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, för ett antal punkter runt den talandes mun, och väsentligen är synkroniserat i realtid med en respektive ingående elementär talenhet.

Enligt en andra aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande stegen att analysera den akustiska talsignalen för identifiering av dess ingående talenheter; alstrande och visning på en bildskärm av en bild av mänskliga ansikts- drag i rörelse, varvid nämnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nämnda förfarande kännetecknas av stegen att alstra och lagra en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på bildskärmen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimen- sioner, av ett antal punkter runt en talandes mun för en respektive ingående ele- mentär talenhet.

De i de föregående styckena skisserade förfarandena kan innefatta steget att, som svar på identifieringen av var och en de ingående elementära enhetema av den akustiska talsignal som levereras av den talande. tillbakahämta ett respektive lagrat rörelsemönster för visning.

Ansiktsdragen runt munnen kan innefatta området kring läppama, kinderna och näsan, och antalet punkter runt munnen kan uppgå till minst tio punkter. l ett föredraget förfarande av föreliggande uppfinning, kan alstrandet av en serie ansiktsrörelsemönster innefatta stegen med lagring av en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med in- formation som är utvisande för ett normalt läge för ett antal punkter runt munnen; att analysera akustiska talsignaler för identifiering av motsvariga akustiska para- metrar som definierar nämnda ingående elementära talenheter; att utföra tredimen- sionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; att för var och en av nämnda akustiska parametrar jämföra deuppmätta och normala lägena för var och en av nämnda antal punkter runt mumíen för att bestämma en lägesskillnad, i tre dimen- sioner, på var och en av nämnda antal punkter för en respektive akustisk parameter; att skapa ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; och att lagra rörelsemönstren för var och en av nämnda akustiska parametrar. Omvandlingen 10 15 20 25 30 35 40 511927 6 kan vara en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar. Dessutom kan de akustiska parametrarna vara statistiskt bestämda från kända data med användande av multipla linjära regres- sionstekniker.

De ingående elementära enhetema, som är ett resultat av analys av nämnda akustiska talsignal(er), kan vara i form av en serie foner som är representativa för vokaler och konsonanter. l enlighet med föreliggande uppfinnings förfarande kan de akustiska para- metrarna bestämmas var 20 millisekund (50 Hz).

Enligt en tredje aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en akustisk talsignal, i vilken den akustiska talsignalen analyseras för identifiering av dess ingående elementära talenheter, i vilket den talandes ansiktsrörelser mäts i anslutning till var och en av nämnda ingående elementära talenheter, varvid nänmda analys och ansiktsmätningar synkroniseras i tid och används för att syntetisera de visuella framställningama av den talandes ansiktsrörelser, och i vilket de syntetiserade visuella framställningama visas, för betraktande av en person till vilken den akustiska talsignalen är riktad, samtidigt med denna persons mottagande av de respektive ingående elementära talenheterna, kännetecknat av att nämnda förfarande innefattar stegen att lagra en visuell fram- ställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: att analysera den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: att under den akustiska talsignalanalysen, utföra tredimensionella mätningar på var och en av nämnda antal punkter runt den talandes mun, för var och en av de iden- tifierade akustiska parametrarna; att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, vid var och en av nämnda antal punkter för en respektive akustisk parameter; att skapa ett rörelse- mönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; att överföra de som resultat erhållna rörelsemönstren till en mottagare, samtidigt som och synkront med de respektive ingående elementära talenhetema; och att visa munnens rörelsemönster på nämnda bildskärmsenhet synkront med mottagarens mottagande av respektive ingående elementära enheter av den akustiska talsignalen.

Enligt en fjärde aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i 10 15 20 25 30 35 40 7 511 927 anslutning till en akustisk talsignal som levereras av den talande, innefattande en bildskärmsenhet för visning av nämnda visuella framställningar: medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära tal- enheter: alstringsmedel för alstrande och visning, på nämnda bildskärmsenhet, av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragsrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda utrustning är anpassad för visning på bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den aku- stiska talsignalen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun och väsent- ligen synkroniserat i realtid med en respektive ingående elementär talenhet.

Enligt en femte aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande en bildskärmsenhet för visning av nämnda visuella framställningar; medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära tal- enheter: alstringsmedel för alstrande och visning, på nämnda bildskärmsenhet, av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda alstringsmedel innefattar medel för alstrande av en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på skärmen, varvid vart och ett av närnnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt en talandes mun, för en respektive ingående elementär talenhet, och av att nämnda utrustning innefattar lagringsmedel för lagring av nämnda serier av ansiktsrörelsemönster.

Föreliggande uppﬁnnings utrustning kan innefatta tillbakahämtningsmedel, som svarar på identifieringen av var och en av de ingående elementära enheterna av den akustiska talsignal som levereras av den talande, för att tillbakahärnta ett respektive lagrat rörelsemönster för visning på närnnda bildskärmsenhet.

Med föreliggande uppfinnings utrustning kan ansiktsdragen runt munnen innefatta området kring läpparna, kinderna och näsan, och antalet punkter runt munnen kan uppgå till minst tio punkter.

Alstringsmedlen kan innefatta lagringsmedel för lagring av en visuell fram- ställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen-, analysmedel för analys av akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: mätmedel för utförande av tredimensionella mätningar vid var och en av nämnda antal punkter runt den talandes mun, för var och en av de identifierade akustiska parametrama; jämförelsemedel för att, för var och en av nämnda aku- 10 15 20 25 30 35 40 511 927 8 stiska parametrar, jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter; och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.

De av omvandlingsmedlen skapade omvandlingarna kan vara en linjär funk- tion av akustiska parametrar, och analysmedlen kan vara anpassade för att sta- tistiskt bestämma de akustiska parametrarna från kända data med användande av multipla linjära regressionstekniker.

De ingående elementära talenheter som är ett resultat av den (de) akustiska talsignalen (-erna) kan vara i form av en serie foner, som är utmärkande för vokaler och konsonanter, och de akustiska parametrarna kan bestämmas för var 20 milli- sekund (50 Hz).

Enligt en sjätte aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal, innefattande en bildskärmsenhet för visning av de visuella framställningama: analysmedel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter, mätmedel för mätning av den talandes ansiktsrörelser, i anslutning till var och en av nämnda ingående ele- mentära talenheter, van/id nämnda ansiktsrörelser och talsignalanalys tidssyn- kroniseras: medel för syntetisering av de visuella framställningama av den talandes ansiktsrörelser, varvid nänmda syntetiserade visuella framställningar visas på nänmda bildskärmsenhet, för betraktande av en person till vilken den akustiska talsignalen är riktad, samtidigt med denna person mottagande av de respektive ingående elementära talenhetema, kännetecknad av att nämnda utrustning inne- fattar lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- rörelser, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen; analysmedel för analys av den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: mätmedel för utförande, under den akustiska talsignalanalysen, av tredimensionella mätningar på var och en av nämnda antal punkter runt den talandes mun, för var och en av de identifierade akustiska parametrarna: järnförelsemedel för att, för var och en av nämnda akustiska parametrar jämföra de uppmätta och nonnala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, vid var och en av nämnda antal punkter för en respektive akustisk parameter; omvandlingsmedel skapade av ett rörelsemönster för nänmda antal 10 15 20 25 30 35 9 511 927 punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; och överföringsmedel för överföring av de rörelse- mönster som är resultatet till en mottagare, samtidigt som och synkront med de respektive ingående elementära talenhetema; och av att nämnda utrustning är anpassad till att visa munnens rörelsemönster på nämnda bildskärmsenhet synkront med mottagarens mottagande av den akustiska talsignalens respektive ingående elementära enheter.

Enligt en sjunde aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal som levereras av den talande, i enlighet med det förfarande som skisserades i föregående stycken.

Enligt en åttonde aspekt av föreliggande uppfinning tillhandahålls ett tele- kommunikationssystem som innefattar telefonapparater och omkopplingsmedel, anpassade för att sammankoppla vilka som helst av två eller ﬂera av nämnda telefonapparater, kännetecknat av att närrmda system innefattar utrustning, så som skisserats i föregående stycken, för att ge en förhöjd förståelse av akustiska tal- signaler, för användare av närrmda telefonapparater som har försämrad hörsel och en färdighet i läppavläsning. Var och en av nämnda telefonapparater kan anpassas för att anslutas till eller ingå i nämnda utrustning, varvid utrustningens bildskärms- enhet är anpassad för att visa ansiktsmönster synkront med mottagande av respek- tive ingående elementära enheter av en akustisk talsignal, som mottas av en respektive telefonapparat, och visningen av ansiktsrörelser gör det möjligt för tele- fonapparatens användare att förstå en väsentlig del av innehållet i nämnda aku- stiska talsignal genom läppavläsning av ansiktsrörelsema.

De föregående och andra särdrag enligt föreliggande uppfinning förstås lättare genom följande beskrivning av specifika utföringsformer av uppfinningen.

I enlighet med föreliggande uppñnnings förfarande och utrustning levereras en läppavläsbar visuell syntetisk utmatning genom automatisk analys av kon- tinuerligt tal, varvid noggrann uppmärksamhet riktas mot definitionen av lämpliga indikatorer som har förmåga att beskriva de visuellt relevanta artikulerings- platserna, såsom labial, dental, och alveolar, med minsta möjliga tvetydighetsrest.

Det framgår av följande beskrivning att föreliggande uppñnnings metodologi levererar visuella framstälhiingar i realtid av en talandes ansiktsrörelser, i anslut- ning till en akustisk talsignal, kring en talandes mun, d v s ansiktsområdet för analys-syntes är området kring läpparna, inklusive kinderna och näsan.

Sålunda, med föreliggande uppfmnings förfarande och utrustning styrs ansiktsrörelser, som härrör från en akustisk talsignal, vid ett antal punkter runt 10 15 20 25 30 35 40 5 1 1 9 2 7 10 munnen, och avancerade beräkningar görs av tal- ansiktsrörelseomvandlingar, d v s omvandlingar från akustiska talparametrar till ansiktsrörelseparametrar.

Kända förfaranden och utrustningar för leverans av visuella framställningar av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal som levereras av den talande, involverar normalt analys av den akustiska talsignalen för identifiering av dess ingående elementära enheter, och alstrandet och visningen på en bildskärm av en bild av mänskliga ansiktsdrag i rörelse. De visade ansiktsdragrörelserna är väsentligen synkroniserade i realtid med de ingående elementära talenhetema.

I enlighet med föreliggande uppfinnings förfarande och utrustning alstras och lagras en serie ansiktsrörelsemönster för de ingående elementära enhetema av akustiska talsignaler. Dessa ansiktsrörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter, t ex minst tio punkter, runt en talandes mun.

Ansiktsrörelsema runt den talandes mun, för vilka rörelsemönstren alstras och lagras, innefattar företrädesvis området kring läpparna, kinderna och näsan.

Alstrandet av serie av ansiktsrörelsemönster åstadkoms företrädesvis, i enlig- het med föreliggande uppfinning, genom att man först lagrar en visuell framställ- ning av mänskliga ansiktsdrag, innefattande åtminstone munnen, i dess normala tillstånd, tillsammans med information som utvisar ett normalt läge för ett antal punkter, t ex minst tio punkter runt munnen som, som tidigare framhållits, före- trädesvis innefattar området kring läpparna, kindema och näsan.

Nästa steg i förloppet att alstra rörelsemönster är att företa en analys av akustiska talsignaler för identifiering av motsvariga akustiska parametrar som definierar de ingående elementära talenheterna och att utföra tredimensionella mätningar på var och en av antalet punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna.

De akustiska parametrarna kan t ex bestämmas statistiskt utifrån kända data med användande av multipla linjära regressionstekniker.

Som tidigare framhållits är tal sarnrnanlänkningen av elementära enheter, som kallas foner, som i allmänhet klassificeras som - vokaler, när de motsvarar en stabil konfiguration av röstapparaten, eller altemativt - konsonanter, när de motsvarar övergående artikulationsrörelser.

Varje fon kan som tidigare framhållits, karakteriseras medelst ett fåtal attribut (d v s öppen/stängd, främre/bakre, oral/nasal och rundad/orundad) som utmärker artikulationssättet (d v s frikativ, som /f/, /s/-, plosiv, som /b/, /p/; nasal, som /n/, /m/; ) och artikulationsplats (d v s labial, dental, alveolar, palatal, glottal). Vissa foner, såsom vokaler och en delmängd av konsonanter, åtföljs av stämbandsvibra- tion och kallas "tonande" foner, medan andra foner, såsom plosiva konsonanter, är helt oberoende av stärnbandsvibration och kallas "tonläsa" foner. Vid tonande foner formas talspektrum, som tidigare beskrivits, i överensstämmelse med röst- 10 15 20 25 30 35 n 511 927 apparatens geometri, med karakteristiska energikoncentrationer kring tre huvudtoppar, kallade "formanter", belägna vid ökande frekvenser, Fl, P2 och P3.

Vidare har en iakttagare med färdigheter i läppavläsning, som tidigare fram- hållits, förmåga att bestämma forrnanttoppars troliga belägenheter genom att be- räkna överföringsfunktionen utifrån de synliga artikulatoremas konfiguration.

I enlighet med föreliggande uppfinning kan de ingående elementära tal- enhetema, som är ett resultat av analys av de akustiska talsignalema, sålunda vara i form av en serie foner som är utmärkande för vokaler och konsonanter.

På nästa steg i förloppet att alstra rörelsemönster utförs tredimensionella mätningar vid var och en av antalet punkter runt den talandes mun för var och en av de identifierade akustiska parametrarna. De uppmätta och normala lägena för var och en av antalet punkter runt munnen jämförs sedan för var och en av de akustiska parametrarna för bestämning av en lägesskillnad, i tre dimensioner, på var och en av antalet punkter för en respektive akustisk parameter. Ett rörelse- mönster skapas sedan för antalet punkter runt munnen för var och en av de akustiska parametrarna. De rörelsemönster som blir resultatet är vardera en omvandling från de akustiska parametrarna till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av antalet punkter runt munnen. Omvandlingen kan t ex vara en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar.

Ansiktsrörelsemönstren för var och en av de akustiska parametrarna lagras sedan för senare användning i syntesen och visningen av ansiktsrörelser som har samband en akustisk talsignal.

Som svar på identiﬁeringen av var och en av de ingående elementära en- hetema av den akustiska talsignal som levererats av den talande, tillbakahämtas och visas sålunda ett respektive lagrat ansiktsrörelsemönster på en bildskärm, för betraktande av en mottagare av talsignalen. De akustiska parametrar som defi- nierar de ingående elementära talenheterna kan t ex bestämmas var 20 millisekund (50 Hz). Bildskärmen kommer därför att ge en visuell framställning i realtid av den talandes ansiktsdrag, som i realtid är väsentligen synkroniserad med de ingående elementära enhetema av den akustiska talsignalen. Denna visning kommer att göra det möjligt för en person, som har försämrad hörsel och en färdighet i läppavläsning, att erhålla en förhöjd förståelse av den akustiska talsignalen.

Medan föreliggande uppﬁnnings förfarande och utrustning skulle kunna användas i ett antal tillämpningar, som är direkt uppenbara för fackmannen inom området, är en speciell tillämpning av föreliggande uppfinning ett telekommu- nikationssystem, som har abonnenter med försämrad hörsel och en färdighet i läppavläsning. 10 15 20 25 30 35 40 511 927 12 I ett telekommunikationssystem som innefattar ett ﬂertal telefonapparater och kopplingsmedel, anpassade för att sammankoppla två eller ﬂera telefonapparater, gör sålunda föreliggande uppfinning det möjligt för telefonapparatemas användare, med försämrad hörsel och en färdighet i läppavläsning, att erhålla en förhöjd förståelse av akustiska talsignaler genom att betrakta de i realtid visade visuella framställningar-na av en talandes ansiktsrörelser, under avlyssnande av den akustiska talsignalen. Med andra ord skulle utrustningens bildskärmsenhet vara anpassad för att visa ansiktsrörelsemönster synkront med mottagandet av respek- tive ingående elementära enheter av en akustisk talsignal, som mottas av en respektive telefonapparat, och ansiktsrörelsevisningen skulle göra det möjligt för telefonapparatens användare att förstå en väsentlig del av den akustiska tal- signalens innehåll genom läppavläsning av ansiktsrörelserna.

Med ett sådant telekommunikationssystem skulle varje telefonapparat t ex kunna anpassas för, eller ingå i, föreliggande uppñnnings utrustning.

Medan ett videotelefonsystem skulle göra det möjligt för en hörselskadad abonnent med en färdighet i läppavläsning att erhålla en förhöjd förståelse av en akustisk talsignal, är ett konventionellt telefonsystem, i vilket föreliggande upp- ﬁnnings utrustning ingår, eller som arbetar i överensstämmelse med föreliggande uppﬁnnings förfarande, mera kostnadseffektivt och använder avsevärt mindre bandbredd än ett videotelefonsystem.

Emellertid skulle föreliggande uppfmnings förfarande och utrustning kunna anpassas för användning i ett telekommunikationssystem genom användande av visuella bilder i realtid av den talandes ansiktsrörelser istället för lagrade fram- ställningar. Bandbreddskraven för ett sådant telekommunikationssystem skulle bli större än för ett konventionellt telefonsystem, men mindre än för ett konventionellt videotelefonsystem.

För att förverkliga en sådan anordning innefattar föreliggande uppﬁnnings förfarande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en akustisk talsignal, stegen att lagra en visuell framställ- ning av mänskliga ansiktsdrag, innefattande åtminstone munnen, i ett normalt tillstånd, tillsammans med information som utvisar ett normalt läge för ett antal punkter, t ex tio punkter, runt munnen, och analys av den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar de ingående elementära talenheterna. Under akustisk talsignalanalys skulle tredimensionella mätningar utföras på var och en av antalet punkter runt den talandes mun, för var och en av de identifierade akustiska parametrarna. Dessa mätningar kan t ex göras var 20 rnillisekund (50 Hz). Nästa steg i förfarandet innebär att, för var och en av de identifierade akustiska parametrarna, jämföra de uppmätta och normala lägena för var och en av antalet punkter runt munnen för bestänming av en lägesskillnad, i tre dimensioner, på var och en av antalet punkter för en respektive akustisk 13 511 927 parameter, för att skapa ett rörelsemönster för antalet punkter runt munnen för var och en av nämnda akustiska pararnetrar. Liksom tidigare är rörelsemönstret en omvandling från de akustiska parametrarna till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av antalet punkter runt munnen. De rörelsemönster som blir resultatet överförs samtidigt som och synkront med de respektive ingående elementära talenhetema. Rörelsemönstren visas sedan på en bildskärmsenhet synkront med en lyssnares mottagande av de respektive ingående elementära enhetema av den akustiska talsignalen.

Claims

10 15 20 25 30 35 511927 14 PATENTKRAV

1. Förfarande för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande följande steg: - analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstrande och visning på en bildskärm, av en bild av mänskliga ansiktsdrag i rörelse, van/id nämnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nämnda förfarande kännetecknas av steget att på bildskärmen visa en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: - utvisande för rörelse, i tre dimensioner, för ett antal punkter runt den talandes mun; och - väsentligen synkroniserat, i realtid, med en respektive ingående elementär talenhet, varvid som svar på identifieringen av var och en av de ingående elementära enhetema av den akustiska talsignal som levereras av den talande, tillbakahämta ett respektive lagrat rörelsemönster för visning, samt att alstrandet av nämnda serie ansiktsrörelsemönster innefattar följande steg: - att lagra en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: - att analysera akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter; - att utföra tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun för var och en av de identifierade akustiska parametrarna: - att för var och en av nämnda akustiska parametrar jämföra de uppmätta och norrnala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter: - att skapa ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, van/id nämnda rörelsemönster är en omvand- ling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och de normala lägena för var och en av nämnda antal punkter; och - att lagra rörelsemänstren för var och en av nämnda akustiska parametrar. lO 15 20 25 30 35 1, 511 927

2. Förfarande för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande följande steg: - analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstrande och visning på en bildskärm av en bild av mänskliga ansiktsdrag i rörelse, varvid närnnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nänmda förfarande kännetecknas av stegen att alstra och lagra en serie ansiktsrörelsemönster för de ingående elementära enhetema av akustiska tal- signaler för visning på bildskärmen, varvid var och en av nämnda rörelsemönster är utvisande för rörelse i tre dimensioner för ett antal punkter runt en talandes mun för en respektive ingående elementär talenhet, varvid som svar på identifieringen av var och en av de ingående elementära enhetema av den akustiska talsignal som levereras av den talande, tillbakahärnta ett respektive lagrat rörelsemönster för visning, samt att alstrandet av nämnda serie ansiktsrörelsemönster innefattar följande steg: - att lagra en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: - att analysera akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter; - att utföra tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun för var och en av de identifierade akustiska parametrarna: - att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter: - att skapa ett rörelsemönster för närnnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvand- ling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och de normala lägena för var och en av nämnda antal punkter; och - att lagra rörelsemänstren för var och en av nämnda akustiska parametrar.

3. Förfarande enligt något av de föregående patentkraven, kännetecknat av att nämnda ansiktsdrag runt munnen innefattar området kring läpparna, kinderna och näsan, 10 15 20 25 30 35 40 511 927 16

4. Förfarande enligt något av de föregående patentkraven, kännetecknat av att nämnda antal punkter runt munnen uppgår till minst tio punkter.

5. Förfarande enligt patentkrav 4, kännetecknat av att omvandlingen är en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar.

6. Förfarande enligt patentkrav 4, kännetecknat av att nämnda akustiska parametrar bestäms statistiskt från kända data med användande av multipla linjära regressionstekniker.

7. Förfarande enligt något av de föregående patentkraven, kännetecknat av att de ingående elementära enheter som är ett resultat av analys av nämnda aku- stiska talsignal(er) är i fonn av en serie foner, som är representativa för vokaler och konsonanter.

8. Förfarande enligt något av de föregående patentkraven, kännetecknat av steget att bestämma nämnda akustiska parametrar var 20 rnillisekund (50 Hz).

9. Utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstiingsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda utrustning är anpassad för visning på bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den aku- stiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: - utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun; och - väsentligen synkroniserad i realtid med en respektive ingående elementär talenhet, samt att nämnda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone munnen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen: - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som definierar nämnda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; - jämförelsemedel för att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter 10 15 20 25 30 35 I, 511 927 runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk parameter; - och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.

10. Utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess elementära talenheter; - alstringsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda alstringsmedel innefattar medel för alstrande av en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på skärmen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt en talandes mun för en respektive ingående elementär talenhet, och av att nämnda utrustning innefattar lagringsmedel för lagring av närrmda serie av ansiktrörelsemönster samt att samt att närrmda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone murmen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen: - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som deﬁnierar närrmda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrama; - jämförelsemedel för att för var och en av närrmda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk pararneter; - och omvandlingsmedel för skapande av ett rörelsemönster för närrmda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till lO 15 20 25 30 35 40 511 927 18 skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.

11. Utrustning enligt patentkrav 9 eller patentkrav 10, kännetecknad av att nämnda utrustning innefattar tillbakahämtningsmedel som svarar på identifieringen av var och en av de ingående elementära enheterna av den akustiska talsignal som levereras av den talande, för att tillbakahämta ett respektive lagrat rörelsemönster för visning på nämnda bildskärmsenhet.

12. Utrustning enligt något av patentkraven 9-l 1, kännetecknad av att nämnda ansiktsdrag runt munnen innefattar området kring läpparna, kinderna och näsan.

13. Utrustning enligt något av patentkraven 9-12, kännetecknad av att nämnda antal punkter runt munnen uppgår till minst tio punkter.

14. Utrustning enligt patentkraven 11-13, kännetecknad av att var och en av nämnda omvandlingar som skapats av nämnda omvandlingsmedel är en linjär funktion som beskriver en skillnad för en uppmätt punkt som en funktion av akustiska parametrar.

15. Utrustning enligt patentkraven 11-14, kännetecknad av att nämnda analysmedel är anpassade för att statistiskt bestämma nämnda akustiska parametrar utifrån kända data med användande av multipla linjära regressionstekniker.

16. Utrustning enligt något av patentkraven 9-15, kännetecknad av att de ingående elementära enheter som är ett resultat av analys av nämnda akustiska talsignal(er) är i forrn av en serie foner som är utmärkande för vokaler och kon- sonanter.

17. Utrustning enligt något av patentkraven 9-16, kännetecknad av att nämnda akustiska parametrar bestäms var 20 millisekund (50 Hz).

18. Telekommunikationssystem innefattande ett flertal telefonapparater och kopplingsmedel, anpassade för att sarnmankoppla vilka som helst av två eller flera av nämnda telefonapparater, kännetecknat av att nämnda system innefattar ut- rustning för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser i anslutning till en akustisk talsignal som levereras av den talande, inne- fattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter: - alstringsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, varvid nämnda utrustning är anpassad för visning pa bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: 10 15 20 25 30 19 511 927 - utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun; och - väsentligen synkroniserad i realtid med en respektive ingående elementär talenhet, samt att nämnda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone munnen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen; - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som definierar nämnda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; - jämförelsemedel för att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk parameter; - och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.

19. Telekommunikationssystem enligt patentkrav 18, kännetecknat av att var och en av nämnda telefonapparater är anpassad för att anslutas till eller ingå i nämnda utrustning, av att nämnda utrustnings bildskärmsenhet är anpassad för att visa ansiktsrörelsemönster synkront med mottagande av respektive ingående ele- mentära enheter av en akustisk talsignal som mottas av en respektive telefon- apparat, och av att nämnda ansiktsrörelsevisning gör det möjligt för en telefon- apparatanvändare att förstå en väsentlig del av innehållet i nämnda akustiska talsignal genom läppavläsning av ansiktsrörelserna.