SE511927C2 - Förbättringar i, eller med avseende på, visuell talsyntes - Google Patents

Förbättringar i, eller med avseende på, visuell talsyntes

Info

Publication number
SE511927C2
SE511927C2 SE9701977A SE9701977A SE511927C2 SE 511927 C2 SE511927 C2 SE 511927C2 SE 9701977 A SE9701977 A SE 9701977A SE 9701977 A SE9701977 A SE 9701977A SE 511927 C2 SE511927 C2 SE 511927C2
Authority
SE
Sweden
Prior art keywords
acoustic
mouth
speaker
points
units
Prior art date
Application number
SE9701977A
Other languages
English (en)
Other versions
SE9701977D0 (sv
SE9701977L (sv
Inventor
Mats Ljungqvist
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9701977A priority Critical patent/SE511927C2/sv
Publication of SE9701977D0 publication Critical patent/SE9701977D0/sv
Priority to DK98917918T priority patent/DK0983575T3/da
Priority to DE69816078T priority patent/DE69816078T2/de
Priority to EP98917918A priority patent/EP0983575B1/en
Priority to EEP199900542A priority patent/EE03634B1/xx
Priority to PCT/SE1998/000710 priority patent/WO1998054696A1/en
Publication of SE9701977L publication Critical patent/SE9701977L/sv
Priority to NO19995673A priority patent/NO317598B1/no
Publication of SE511927C2 publication Critical patent/SE511927C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Photoreceptors In Electrophotography (AREA)

Description

15 20 25 30 35 40 511927 2 Vissa foner, såsom vokaler och en delmängd konsonanter, åtföljs av stäm- bandsvibration och kallas "tonande" foner, medan andra foner, såsom plosiva konsonanter, är helt oberoende av stämbandsvibration och kallas "tonläsa" foner.
Vid tonande foner formas talspektrum, som tidigare beskrivits, i överensstämmelse med röstapparatens geometri, med karakteristiska energikoncentrationer kring tre huvudtoppar som kallas "forrnanter", belägna vid ökande frekvenser, Fl, P2 och P3.
En iakttagare som är skicklig i läppavläsning kan bestämma de troliga form- anttoppställena genom att beräkna överföringsfunktionen från de synliga artikula- torernas konfiguration. Denna beräkning utförs genom en bestämning av fyra grundläggande parametrar, nämligen: (i) röstapparatens längd L: (ii) (iii) (iV) avståndet d mellan glottis och platsen för maximal sammandragning sammandragningens radie r: och förhållandet mellan sammandragningens area A och röstapparatens längd L.
Medan röstapparatens längd L a priori kan bestämmas med hänsyn tagen till den talandes ålder och kön, kan man bara (grovt) sluta sig till de andra para- metrarna från den synliga konfigurationen. Om den maximala sammandragningen är belägen i anslutning till munnen, och alltså involverar läpparna, tungan och tändema, som fallet är för labiala och dentala foner, är bestämningen vanligen tillförlitlig. Däremot, när den maximala sammandragningen inte är synlig, såsom vid velara foner (/k/, /g/), är bestämningen vanligen mycket dålig.
Läppavläsning representerar den högsta syntesen av mänsklig expertis ifråga om omvandling av visuella inmatningar till ord och senare till meningar. Den ut- görs av en personlig databas av kunskap och färdigheter som uppbyggts och raffi- nerats genom träning, med förmågan att associera virtuella ljud med specifika munforrner, i allmänhet kallade "visem", och därav ge uppslag till det under- liggande akustiska meddelandet. Läppavläsarens uppmärksamhet är i grunden fokuserad på munnen, inklusive alla dess komponenter, d v s tänder och tunga, men betydelsefull hjälp till en läppavläsares förståelse kommer också från den talandes hela ansiktsuttryck.
Vid läppavläsning utförs en betydelsefull mängd bearbetning av läppav- läsaren själv, som är skicklig i efterñltrering av det omvandlade meddelandet, såsom återvinning från fel och kommunikationsfördröjningar. Det är genom ling- vistiskt och semantiskt övervägande möjligt att utnyttja meddelanderedundans och erhålla en förståelse utifrån meddelandets sammanhang. Detta slags kunskaps- baserad tolkning utförs av läppavläsaren i realtid.
Audiovisuell taluppfattning och läppavläsning vilar på två samverkande perceptuella system, så att i fall av hörselförsäniringar den visuella modaliteten effektivt kan integrera eller t o m ersätta den auditiva modaliteten. Det har 10 15 20 25 30 35 3 511 927 experimentellt visats att utnyttjande av visuell information, som har samband med den talandes läpprörelser, förbättrar talförståelsen: vid dessa experiment inkre- menteras signal- brusförhållandet (SNR) upp till 15 dB, och auditivt misslyckande omvandlas i de flesta fall till en nästan perfekt visuell förståelse. Den visuella analysen av den talandes ansikte ger iakttagaren olika inforrnationsnivåer, som gör det lättare att skilja signal från brus. Öppnandet/stängandet av läpparna har i själva verket ett starkt samband med talsignalens styrka och ger nyttiga antydningar om det sätt på vilket röstströmmen är segmenterad. Medan vokaler kan igenkännas ganska lätt, både genom hörande och seende, är konsonantema däremot mycket känsliga för brus, och visuell analys utgör ofta det enda sättet att uppnå lyckad förståelse. De akustiska ledtrådar som hör samman med konsonantema, känne- tecknas vanligen genom låg intensitet, mycket kort varaktighet och fin röst- mönstring.
Det har visats (se B. Dodd, R. Campbell, "Hearing by eye: the psychology of lipreading" (höra med ögat: läppavläsningens psykologi), Lawrence Erlbaum Ass.
Publ., särskilt figur B.l: Auditory confusion of consonant transitions, CV, in white noise with decreasing Signal to Noise Ratio expressed in dB (hörförväxling av konsonantövergångar, CV, i vitt brus med avtagande signal-brusförhållande ut- tryckt i dB), och figur B.2: Visual confusion of consonant transitions, CV, in white noise among adult hearing impaíred persons (Visuell förväxling av konsonant- övergångar, CV, i vitt brus bland vuxna hörselskadade personer)) i samband med auditiv förväxling, att ledtrådar från nasalitet och tonande effektivt särskiljs genom akustisk analys, på annat sätt än från platsledtrådar, som lätt förvrängs av brus (se figur B.l i Dodd et al.).
Den motsatta situationen förekommer inom det optiska området (se Figur B.2 i Dodd et al.) där plats igenkänns mycket lättare än tonande och nasalitet. Vid minskning av signal-brusförhållandet blir konsonanter, som ursprungligen hållits åtskilda, alltmera sammanblandade och klustrade. När det 11-te klustret bildats (streckad linje i figur B. 2 i Dodd et al . ) kan de 9 gruppema av konsonanter som blivit resultatet betraktas som distinkta visem.
Platsledtrådar har i själva verket samband med medelhöga frekvenser, d v s över l kHz, som vanligen knappast särskiljs vid flertalet hörselrubbningar.
Emellertid ligger nasalitet och tonande i den lägre delen av frekvensspektret.
Dessutom kännetecknas platsledtrádar genom en korttids-, ñn spektralstruktu'r, som kräver hög frekvens- och tidsupplösning, medan tonande- och nasalitets- ledtrådar mestadels har samband med ostrukturerad energifördelning över flera tiotals millisekunder.
I varje fall, att observera en talandes ansikte är uppenbarligen till stor fördel för talförståelse och nästan nödvändigt i närvaro av buller eller hörselrubbningar, 10 15 20 25 30 35 40 511 927 4 d v s seendet styr den hörandes uppmärksamhet, lägger redundans till signalen och ger belägg för de ledtrådar som skulle ha blivit irreversibelt maskerade av buller.
Det är känt att i normal verbal kommunikation vilar analys och förstående av de olika artikulationsrörelsema på en bimodal perceptiv mekanism för kontinuerlig integrering av sammanhängande optiska och akustiska stimuli. I fallet med för- sämringar i den akustiska kanalen, beroende på avstånd, bullriga omgivningar, transportbairiärer (t ex en glasruta) eller patologier, utförs den övervägande perceptiva uppgiften följaktligen genom den visuella modaliteten. I det fallet utnyttjas för förståelsen enbart rörelsen och uttrycken hos de synliga artikulations- organen, d v s det vertikala och horisontella öppnandet av den talandes läppar, vertikal käkförskjutning, tandsynlighet, tungläge och andra mindre indikatorer. såsom uppblåsning av den talandes kinder samt nässamrnandragningar.
Det är känt från resultaten av experimentell fonetik, att hörselskadade personer uppför sig annorlunda än normalt hörande personer vid läppavläsning. I synnerhet visem såsom bilabiala lb, p, rnl, frikativa lf, v/ och ocklusiva konsonanter lt, dl igenkänns av både hörselskadade personer och personer som har normal hörsel , medan andra visem, såsom /k, gl igenkänns enbart av hörselskadade personer. Förekomsten av korrekt igenkänning för varje visem är också olika mellan normala och hörselskadade personer. Exempelvis lyckas hörselskadade personer mycket bättre än normalhörande personer känna igen nasala konsonanter lm, nl. Dessa två specifika skillnader i fonemigenkänning är svåra att förklara, eftersom velum, som är den huvudsakliga artikulator som är involverad i fonem såsom /k, gl eller lm, nl, inte är synlig och dess rörelser inte kan iakttas vid läppavläsning. En möjlig förklaring, som stammar från sena resultat i experimen- tell fonetik, förlitar sig på utnyttjandet av sekundära artikulationsindikatorer, som den normala iakttagaren vanligen inte lägger märke till.
Det är ett syfte med föreliggande uppfinning att tillhandahålla ett förfarande och utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal.
Det är ännu ett syfte med föreliggande uppfinning att tillhandahålla ett telekommunikationssystem som innefattar en utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal, för att underlätta en förhöjd förståelse av akustiska talsignaler för användare av systemet som har försämrad hörsel och en färdighet i läppavläsning.
Enligt en första aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande stegen att analysera den akustiska talsignalen för identifiering av dess ingående elementära talenheter; alstrande och visning, på en bildskärm, av en bild av mänskliga ansiktsdrag i rörelse, varvid närrmda ansiktsdragrörelser väsentligen 10 15 20 25 30 35 40 5 511927 synkroniseras i realtid med nämnda ingående elementära talenheter; nämnda förfarande kännetecknas av steget att på bildskärmen visa en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, för ett antal punkter runt den talandes mun, och väsentligen är synkroniserat i realtid med en respektive ingående elementär talenhet.
Enligt en andra aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande stegen att analysera den akustiska talsignalen för identifiering av dess ingående talenheter; alstrande och visning på en bildskärm av en bild av mänskliga ansikts- drag i rörelse, varvid nämnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nämnda förfarande kännetecknas av stegen att alstra och lagra en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på bildskärmen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimen- sioner, av ett antal punkter runt en talandes mun för en respektive ingående ele- mentär talenhet.
De i de föregående styckena skisserade förfarandena kan innefatta steget att, som svar på identifieringen av var och en de ingående elementära enhetema av den akustiska talsignal som levereras av den talande. tillbakahämta ett respektive lagrat rörelsemönster för visning.
Ansiktsdragen runt munnen kan innefatta området kring läppama, kinderna och näsan, och antalet punkter runt munnen kan uppgå till minst tio punkter. l ett föredraget förfarande av föreliggande uppfinning, kan alstrandet av en serie ansiktsrörelsemönster innefatta stegen med lagring av en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med in- formation som är utvisande för ett normalt läge för ett antal punkter runt munnen; att analysera akustiska talsignaler för identifiering av motsvariga akustiska para- metrar som definierar nämnda ingående elementära talenheter; att utföra tredimen- sionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; att för var och en av nämnda akustiska parametrar jämföra deuppmätta och normala lägena för var och en av nämnda antal punkter runt mumíen för att bestämma en lägesskillnad, i tre dimen- sioner, på var och en av nämnda antal punkter för en respektive akustisk parameter; att skapa ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; och att lagra rörelsemönstren för var och en av nämnda akustiska parametrar. Omvandlingen 10 15 20 25 30 35 40 511927 6 kan vara en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar. Dessutom kan de akustiska parametrarna vara statistiskt bestämda från kända data med användande av multipla linjära regres- sionstekniker.
De ingående elementära enhetema, som är ett resultat av analys av nämnda akustiska talsignal(er), kan vara i form av en serie foner som är representativa för vokaler och konsonanter. l enlighet med föreliggande uppfinnings förfarande kan de akustiska para- metrarna bestämmas var 20 millisekund (50 Hz).
Enligt en tredje aspekt av föreliggande uppfinning tillhandahålls ett för- farande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en akustisk talsignal, i vilken den akustiska talsignalen analyseras för identifiering av dess ingående elementära talenheter, i vilket den talandes ansiktsrörelser mäts i anslutning till var och en av nämnda ingående elementära talenheter, varvid nänmda analys och ansiktsmätningar synkroniseras i tid och används för att syntetisera de visuella framställningama av den talandes ansiktsrörelser, och i vilket de syntetiserade visuella framställningama visas, för betraktande av en person till vilken den akustiska talsignalen är riktad, samtidigt med denna persons mottagande av de respektive ingående elementära talenheterna, kännetecknat av att nämnda förfarande innefattar stegen att lagra en visuell fram- ställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: att analysera den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: att under den akustiska talsignalanalysen, utföra tredimensionella mätningar på var och en av nämnda antal punkter runt den talandes mun, för var och en av de iden- tifierade akustiska parametrarna; att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, vid var och en av nämnda antal punkter för en respektive akustisk parameter; att skapa ett rörelse- mönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; att överföra de som resultat erhållna rörelsemönstren till en mottagare, samtidigt som och synkront med de respektive ingående elementära talenhetema; och att visa munnens rörelsemönster på nämnda bildskärmsenhet synkront med mottagarens mottagande av respektive ingående elementära enheter av den akustiska talsignalen.
Enligt en fjärde aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i 10 15 20 25 30 35 40 7 511 927 anslutning till en akustisk talsignal som levereras av den talande, innefattande en bildskärmsenhet för visning av nämnda visuella framställningar: medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära tal- enheter: alstringsmedel för alstrande och visning, på nämnda bildskärmsenhet, av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragsrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda utrustning är anpassad för visning på bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den aku- stiska talsignalen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun och väsent- ligen synkroniserat i realtid med en respektive ingående elementär talenhet.
Enligt en femte aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande en bildskärmsenhet för visning av nämnda visuella framställningar; medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära tal- enheter: alstringsmedel för alstrande och visning, på nämnda bildskärmsenhet, av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda alstringsmedel innefattar medel för alstrande av en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på skärmen, varvid vart och ett av närnnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt en talandes mun, för en respektive ingående elementär talenhet, och av att nämnda utrustning innefattar lagringsmedel för lagring av nämnda serier av ansiktsrörelsemönster.
Föreliggande uppfinnings utrustning kan innefatta tillbakahämtningsmedel, som svarar på identifieringen av var och en av de ingående elementära enheterna av den akustiska talsignal som levereras av den talande, för att tillbakahärnta ett respektive lagrat rörelsemönster för visning på närnnda bildskärmsenhet.
Med föreliggande uppfinnings utrustning kan ansiktsdragen runt munnen innefatta området kring läpparna, kinderna och näsan, och antalet punkter runt munnen kan uppgå till minst tio punkter.
Alstringsmedlen kan innefatta lagringsmedel för lagring av en visuell fram- ställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen-, analysmedel för analys av akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: mätmedel för utförande av tredimensionella mätningar vid var och en av nämnda antal punkter runt den talandes mun, för var och en av de identifierade akustiska parametrama; jämförelsemedel för att, för var och en av nämnda aku- 10 15 20 25 30 35 40 511 927 8 stiska parametrar, jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter; och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.
De av omvandlingsmedlen skapade omvandlingarna kan vara en linjär funk- tion av akustiska parametrar, och analysmedlen kan vara anpassade för att sta- tistiskt bestämma de akustiska parametrarna från kända data med användande av multipla linjära regressionstekniker.
De ingående elementära talenheter som är ett resultat av den (de) akustiska talsignalen (-erna) kan vara i form av en serie foner, som är utmärkande för vokaler och konsonanter, och de akustiska parametrarna kan bestämmas för var 20 milli- sekund (50 Hz).
Enligt en sjätte aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal, innefattande en bildskärmsenhet för visning av de visuella framställningama: analysmedel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter, mätmedel för mätning av den talandes ansiktsrörelser, i anslutning till var och en av nämnda ingående ele- mentära talenheter, van/id nämnda ansiktsrörelser och talsignalanalys tidssyn- kroniseras: medel för syntetisering av de visuella framställningama av den talandes ansiktsrörelser, varvid nänmda syntetiserade visuella framställningar visas på nänmda bildskärmsenhet, för betraktande av en person till vilken den akustiska talsignalen är riktad, samtidigt med denna person mottagande av de respektive ingående elementära talenhetema, kännetecknad av att nämnda utrustning inne- fattar lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- rörelser, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen; analysmedel för analys av den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter: mätmedel för utförande, under den akustiska talsignalanalysen, av tredimensionella mätningar på var och en av nämnda antal punkter runt den talandes mun, för var och en av de identifierade akustiska parametrarna: järnförelsemedel för att, för var och en av nämnda akustiska parametrar jämföra de uppmätta och nonnala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, vid var och en av nämnda antal punkter för en respektive akustisk parameter; omvandlingsmedel skapade av ett rörelsemönster för nänmda antal 10 15 20 25 30 35 9 511 927 punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter; och överföringsmedel för överföring av de rörelse- mönster som är resultatet till en mottagare, samtidigt som och synkront med de respektive ingående elementära talenhetema; och av att nämnda utrustning är anpassad till att visa munnens rörelsemönster på nämnda bildskärmsenhet synkront med mottagarens mottagande av den akustiska talsignalens respektive ingående elementära enheter.
Enligt en sjunde aspekt av föreliggande uppfinning tillhandahålls utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal som levereras av den talande, i enlighet med det förfarande som skisserades i föregående stycken.
Enligt en åttonde aspekt av föreliggande uppfinning tillhandahålls ett tele- kommunikationssystem som innefattar telefonapparater och omkopplingsmedel, anpassade för att sammankoppla vilka som helst av två eller flera av nämnda telefonapparater, kännetecknat av att närrmda system innefattar utrustning, så som skisserats i föregående stycken, för att ge en förhöjd förståelse av akustiska tal- signaler, för användare av närrmda telefonapparater som har försämrad hörsel och en färdighet i läppavläsning. Var och en av nämnda telefonapparater kan anpassas för att anslutas till eller ingå i nämnda utrustning, varvid utrustningens bildskärms- enhet är anpassad för att visa ansiktsmönster synkront med mottagande av respek- tive ingående elementära enheter av en akustisk talsignal, som mottas av en respektive telefonapparat, och visningen av ansiktsrörelser gör det möjligt för tele- fonapparatens användare att förstå en väsentlig del av innehållet i nämnda aku- stiska talsignal genom läppavläsning av ansiktsrörelsema.
De föregående och andra särdrag enligt föreliggande uppfinning förstås lättare genom följande beskrivning av specifika utföringsformer av uppfinningen.
I enlighet med föreliggande uppñnnings förfarande och utrustning levereras en läppavläsbar visuell syntetisk utmatning genom automatisk analys av kon- tinuerligt tal, varvid noggrann uppmärksamhet riktas mot definitionen av lämpliga indikatorer som har förmåga att beskriva de visuellt relevanta artikulerings- platserna, såsom labial, dental, och alveolar, med minsta möjliga tvetydighetsrest.
Det framgår av följande beskrivning att föreliggande uppñnnings metodologi levererar visuella framstälhiingar i realtid av en talandes ansiktsrörelser, i anslut- ning till en akustisk talsignal, kring en talandes mun, d v s ansiktsområdet för analys-syntes är området kring läpparna, inklusive kinderna och näsan.
Sålunda, med föreliggande uppfmnings förfarande och utrustning styrs ansiktsrörelser, som härrör från en akustisk talsignal, vid ett antal punkter runt 10 15 20 25 30 35 40 5 1 1 9 2 7 10 munnen, och avancerade beräkningar görs av tal- ansiktsrörelseomvandlingar, d v s omvandlingar från akustiska talparametrar till ansiktsrörelseparametrar.
Kända förfaranden och utrustningar för leverans av visuella framställningar av en talandes ansiktsrörelser, i anslutning till en akustisk talsignal som levereras av den talande, involverar normalt analys av den akustiska talsignalen för identifiering av dess ingående elementära enheter, och alstrandet och visningen på en bildskärm av en bild av mänskliga ansiktsdrag i rörelse. De visade ansiktsdragrörelserna är väsentligen synkroniserade i realtid med de ingående elementära talenhetema.
I enlighet med föreliggande uppfinnings förfarande och utrustning alstras och lagras en serie ansiktsrörelsemönster för de ingående elementära enhetema av akustiska talsignaler. Dessa ansiktsrörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter, t ex minst tio punkter, runt en talandes mun.
Ansiktsrörelsema runt den talandes mun, för vilka rörelsemönstren alstras och lagras, innefattar företrädesvis området kring läpparna, kinderna och näsan.
Alstrandet av serie av ansiktsrörelsemönster åstadkoms företrädesvis, i enlig- het med föreliggande uppfinning, genom att man först lagrar en visuell framställ- ning av mänskliga ansiktsdrag, innefattande åtminstone munnen, i dess normala tillstånd, tillsammans med information som utvisar ett normalt läge för ett antal punkter, t ex minst tio punkter runt munnen som, som tidigare framhållits, före- trädesvis innefattar området kring läpparna, kindema och näsan.
Nästa steg i förloppet att alstra rörelsemönster är att företa en analys av akustiska talsignaler för identifiering av motsvariga akustiska parametrar som definierar de ingående elementära talenheterna och att utföra tredimensionella mätningar på var och en av antalet punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna.
De akustiska parametrarna kan t ex bestämmas statistiskt utifrån kända data med användande av multipla linjära regressionstekniker.
Som tidigare framhållits är tal sarnrnanlänkningen av elementära enheter, som kallas foner, som i allmänhet klassificeras som - vokaler, när de motsvarar en stabil konfiguration av röstapparaten, eller altemativt - konsonanter, när de motsvarar övergående artikulationsrörelser.
Varje fon kan som tidigare framhållits, karakteriseras medelst ett fåtal attribut (d v s öppen/stängd, främre/bakre, oral/nasal och rundad/orundad) som utmärker artikulationssättet (d v s frikativ, som /f/, /s/-, plosiv, som /b/, /p/; nasal, som /n/, /m/; ) och artikulationsplats (d v s labial, dental, alveolar, palatal, glottal). Vissa foner, såsom vokaler och en delmängd av konsonanter, åtföljs av stämbandsvibra- tion och kallas "tonande" foner, medan andra foner, såsom plosiva konsonanter, är helt oberoende av stärnbandsvibration och kallas "tonläsa" foner. Vid tonande foner formas talspektrum, som tidigare beskrivits, i överensstämmelse med röst- 10 15 20 25 30 35 n 511 927 apparatens geometri, med karakteristiska energikoncentrationer kring tre huvudtoppar, kallade "formanter", belägna vid ökande frekvenser, Fl, P2 och P3.
Vidare har en iakttagare med färdigheter i läppavläsning, som tidigare fram- hållits, förmåga att bestämma forrnanttoppars troliga belägenheter genom att be- räkna överföringsfunktionen utifrån de synliga artikulatoremas konfiguration.
I enlighet med föreliggande uppfinning kan de ingående elementära tal- enhetema, som är ett resultat av analys av de akustiska talsignalema, sålunda vara i form av en serie foner som är utmärkande för vokaler och konsonanter.
På nästa steg i förloppet att alstra rörelsemönster utförs tredimensionella mätningar vid var och en av antalet punkter runt den talandes mun för var och en av de identifierade akustiska parametrarna. De uppmätta och normala lägena för var och en av antalet punkter runt munnen jämförs sedan för var och en av de akustiska parametrarna för bestämning av en lägesskillnad, i tre dimensioner, på var och en av antalet punkter för en respektive akustisk parameter. Ett rörelse- mönster skapas sedan för antalet punkter runt munnen för var och en av de akustiska parametrarna. De rörelsemönster som blir resultatet är vardera en omvandling från de akustiska parametrarna till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av antalet punkter runt munnen. Omvandlingen kan t ex vara en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar.
Ansiktsrörelsemönstren för var och en av de akustiska parametrarna lagras sedan för senare användning i syntesen och visningen av ansiktsrörelser som har samband en akustisk talsignal.
Som svar på identifieringen av var och en av de ingående elementära en- hetema av den akustiska talsignal som levererats av den talande, tillbakahämtas och visas sålunda ett respektive lagrat ansiktsrörelsemönster på en bildskärm, för betraktande av en mottagare av talsignalen. De akustiska parametrar som defi- nierar de ingående elementära talenheterna kan t ex bestämmas var 20 millisekund (50 Hz). Bildskärmen kommer därför att ge en visuell framställning i realtid av den talandes ansiktsdrag, som i realtid är väsentligen synkroniserad med de ingående elementära enhetema av den akustiska talsignalen. Denna visning kommer att göra det möjligt för en person, som har försämrad hörsel och en färdighet i läppavläsning, att erhålla en förhöjd förståelse av den akustiska talsignalen.
Medan föreliggande uppfinnings förfarande och utrustning skulle kunna användas i ett antal tillämpningar, som är direkt uppenbara för fackmannen inom området, är en speciell tillämpning av föreliggande uppfinning ett telekommu- nikationssystem, som har abonnenter med försämrad hörsel och en färdighet i läppavläsning. 10 15 20 25 30 35 40 511 927 12 I ett telekommunikationssystem som innefattar ett flertal telefonapparater och kopplingsmedel, anpassade för att sammankoppla två eller flera telefonapparater, gör sålunda föreliggande uppfinning det möjligt för telefonapparatemas användare, med försämrad hörsel och en färdighet i läppavläsning, att erhålla en förhöjd förståelse av akustiska talsignaler genom att betrakta de i realtid visade visuella framställningar-na av en talandes ansiktsrörelser, under avlyssnande av den akustiska talsignalen. Med andra ord skulle utrustningens bildskärmsenhet vara anpassad för att visa ansiktsrörelsemönster synkront med mottagandet av respek- tive ingående elementära enheter av en akustisk talsignal, som mottas av en respektive telefonapparat, och ansiktsrörelsevisningen skulle göra det möjligt för telefonapparatens användare att förstå en väsentlig del av den akustiska tal- signalens innehåll genom läppavläsning av ansiktsrörelserna.
Med ett sådant telekommunikationssystem skulle varje telefonapparat t ex kunna anpassas för, eller ingå i, föreliggande uppñnnings utrustning.
Medan ett videotelefonsystem skulle göra det möjligt för en hörselskadad abonnent med en färdighet i läppavläsning att erhålla en förhöjd förståelse av en akustisk talsignal, är ett konventionellt telefonsystem, i vilket föreliggande upp- finnings utrustning ingår, eller som arbetar i överensstämmelse med föreliggande uppfinnings förfarande, mera kostnadseffektivt och använder avsevärt mindre bandbredd än ett videotelefonsystem.
Emellertid skulle föreliggande uppfmnings förfarande och utrustning kunna anpassas för användning i ett telekommunikationssystem genom användande av visuella bilder i realtid av den talandes ansiktsrörelser istället för lagrade fram- ställningar. Bandbreddskraven för ett sådant telekommunikationssystem skulle bli större än för ett konventionellt telefonsystem, men mindre än för ett konventionellt videotelefonsystem.
För att förverkliga en sådan anordning innefattar föreliggande uppfinnings förfarande för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser, i anslutning till en akustisk talsignal, stegen att lagra en visuell framställ- ning av mänskliga ansiktsdrag, innefattande åtminstone munnen, i ett normalt tillstånd, tillsammans med information som utvisar ett normalt läge för ett antal punkter, t ex tio punkter, runt munnen, och analys av den akustiska talsignalen för identifiering av de motsvariga akustiska parametrar som definierar de ingående elementära talenheterna. Under akustisk talsignalanalys skulle tredimensionella mätningar utföras på var och en av antalet punkter runt den talandes mun, för var och en av de identifierade akustiska parametrarna. Dessa mätningar kan t ex göras var 20 rnillisekund (50 Hz). Nästa steg i förfarandet innebär att, för var och en av de identifierade akustiska parametrarna, jämföra de uppmätta och normala lägena för var och en av antalet punkter runt munnen för bestänming av en lägesskillnad, i tre dimensioner, på var och en av antalet punkter för en respektive akustisk 13 511 927 parameter, för att skapa ett rörelsemönster för antalet punkter runt munnen för var och en av nämnda akustiska pararnetrar. Liksom tidigare är rörelsemönstret en omvandling från de akustiska parametrarna till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av antalet punkter runt munnen. De rörelsemönster som blir resultatet överförs samtidigt som och synkront med de respektive ingående elementära talenhetema. Rörelsemönstren visas sedan på en bildskärmsenhet synkront med en lyssnares mottagande av de respektive ingående elementära enhetema av den akustiska talsignalen.

Claims (19)

10 15 20 25 30 35 511927 14 PATENTKRAV
1. Förfarande för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser, i anslutning till en av den talande levererad akustisk talsignal, innefattande följande steg: - analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstrande och visning på en bildskärm, av en bild av mänskliga ansiktsdrag i rörelse, van/id nämnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nämnda förfarande kännetecknas av steget att på bildskärmen visa en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: - utvisande för rörelse, i tre dimensioner, för ett antal punkter runt den talandes mun; och - väsentligen synkroniserat, i realtid, med en respektive ingående elementär talenhet, varvid som svar på identifieringen av var och en av de ingående elementära enhetema av den akustiska talsignal som levereras av den talande, tillbakahämta ett respektive lagrat rörelsemönster för visning, samt att alstrandet av nämnda serie ansiktsrörelsemönster innefattar följande steg: - att lagra en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: - att analysera akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter; - att utföra tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun för var och en av de identifierade akustiska parametrarna: - att för var och en av nämnda akustiska parametrar jämföra de uppmätta och norrnala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter: - att skapa ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, van/id nämnda rörelsemönster är en omvand- ling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och de normala lägena för var och en av nämnda antal punkter; och - att lagra rörelsemänstren för var och en av nämnda akustiska parametrar. lO 15 20 25 30 35 1, 511 927
2. Förfarande för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande följande steg: - analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstrande och visning på en bildskärm av en bild av mänskliga ansiktsdrag i rörelse, varvid närnnda ansiktsdragrörelser väsentligen synkroniseras i realtid med nämnda ingående elementära talenheter; varvid nänmda förfarande kännetecknas av stegen att alstra och lagra en serie ansiktsrörelsemönster för de ingående elementära enhetema av akustiska tal- signaler för visning på bildskärmen, varvid var och en av nämnda rörelsemönster är utvisande för rörelse i tre dimensioner för ett antal punkter runt en talandes mun för en respektive ingående elementär talenhet, varvid som svar på identifieringen av var och en av de ingående elementära enhetema av den akustiska talsignal som levereras av den talande, tillbakahärnta ett respektive lagrat rörelsemönster för visning, samt att alstrandet av nämnda serie ansiktsrörelsemönster innefattar följande steg: - att lagra en visuell framställning av mänskliga ansiktsdrag, innefattande åtminstone munnen, tillsammans med information som är utvisande för ett normalt läge för ett antal punkter runt munnen: - att analysera akustiska talsignaler för identifiering av de motsvariga akustiska parametrar som definierar nämnda ingående elementära talenheter; - att utföra tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun för var och en av de identifierade akustiska parametrarna: - att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad, i tre dimensioner, på var och en av nämnda antal punkter för en respektive akustisk parameter: - att skapa ett rörelsemönster för närnnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvand- ling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och de normala lägena för var och en av nämnda antal punkter; och - att lagra rörelsemänstren för var och en av nämnda akustiska parametrar.
3. Förfarande enligt något av de föregående patentkraven, kännetecknat av att nämnda ansiktsdrag runt munnen innefattar området kring läpparna, kinderna och näsan, 10 15 20 25 30 35 40 511 927 16
4. Förfarande enligt något av de föregående patentkraven, kännetecknat av att nämnda antal punkter runt munnen uppgår till minst tio punkter.
5. Förfarande enligt patentkrav 4, kännetecknat av att omvandlingen är en linjär funktion som beskriver en skillnad för en mätpunkt som en funktion av akustiska parametrar.
6. Förfarande enligt patentkrav 4, kännetecknat av att nämnda akustiska parametrar bestäms statistiskt från kända data med användande av multipla linjära regressionstekniker.
7. Förfarande enligt något av de föregående patentkraven, kännetecknat av att de ingående elementära enheter som är ett resultat av analys av nämnda aku- stiska talsignal(er) är i fonn av en serie foner, som är representativa för vokaler och konsonanter.
8. Förfarande enligt något av de föregående patentkraven, kännetecknat av steget att bestämma nämnda akustiska parametrar var 20 rnillisekund (50 Hz).
9. Utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter; - alstiingsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda utrustning är anpassad för visning på bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den aku- stiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: - utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun; och - väsentligen synkroniserad i realtid med en respektive ingående elementär talenhet, samt att nämnda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone munnen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen: - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som definierar nämnda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; - jämförelsemedel för att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter 10 15 20 25 30 35 I, 511 927 runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk parameter; - och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.
10. Utrustning för leverans av visuella framställningar i realtid av en talandes ansiktsrörelser i anslutning till en akustisk talsignal som levereras av den talande, innefattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess elementära talenheter; - alstringsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, kännetecknad av att nämnda alstringsmedel innefattar medel för alstrande av en serie ansiktsrörelsemönster för de ingående elementära enheterna av akustiska talsignaler för visning på skärmen, varvid vart och ett av nämnda rörelsemönster är utvisande för rörelse, i tre dimensioner, av ett antal punkter runt en talandes mun för en respektive ingående elementär talenhet, och av att nämnda utrustning innefattar lagringsmedel för lagring av närrmda serie av ansiktrörelsemönster samt att samt att närrmda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone murmen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen: - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som definierar närrmda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrama; - jämförelsemedel för att för var och en av närrmda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk pararneter; - och omvandlingsmedel för skapande av ett rörelsemönster för närrmda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till lO 15 20 25 30 35 40 511 927 18 skillnadema, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.
11. Utrustning enligt patentkrav 9 eller patentkrav 10, kännetecknad av att nämnda utrustning innefattar tillbakahämtningsmedel som svarar på identifieringen av var och en av de ingående elementära enheterna av den akustiska talsignal som levereras av den talande, för att tillbakahämta ett respektive lagrat rörelsemönster för visning på nämnda bildskärmsenhet.
12. Utrustning enligt något av patentkraven 9-l 1, kännetecknad av att nämnda ansiktsdrag runt munnen innefattar området kring läpparna, kinderna och näsan.
13. Utrustning enligt något av patentkraven 9-12, kännetecknad av att nämnda antal punkter runt munnen uppgår till minst tio punkter.
14. Utrustning enligt patentkraven 11-13, kännetecknad av att var och en av nämnda omvandlingar som skapats av nämnda omvandlingsmedel är en linjär funktion som beskriver en skillnad för en uppmätt punkt som en funktion av akustiska parametrar.
15. Utrustning enligt patentkraven 11-14, kännetecknad av att nämnda analysmedel är anpassade för att statistiskt bestämma nämnda akustiska parametrar utifrån kända data med användande av multipla linjära regressionstekniker.
16. Utrustning enligt något av patentkraven 9-15, kännetecknad av att de ingående elementära enheter som är ett resultat av analys av nämnda akustiska talsignal(er) är i forrn av en serie foner som är utmärkande för vokaler och kon- sonanter.
17. Utrustning enligt något av patentkraven 9-16, kännetecknad av att nämnda akustiska parametrar bestäms var 20 millisekund (50 Hz).
18. Telekommunikationssystem innefattande ett flertal telefonapparater och kopplingsmedel, anpassade för att sarnmankoppla vilka som helst av två eller flera av nämnda telefonapparater, kännetecknat av att nämnda system innefattar ut- rustning för leverans av visuella framställningar i realtid av en talandes ansikts- rörelser i anslutning till en akustisk talsignal som levereras av den talande, inne- fattande: - en bildskärmsenhet för visning av nämnda visuella framställningar; - medel för analys av den akustiska talsignalen för identifiering av dess ingående elementära talenheter: - alstringsmedel för alstrande och visning på nämnda bildskärmsenhet av en bild av mänskliga ansiktsdrag i rörelse, varvid nämnda ansiktsdragrörelser är väsentligen synkroniserade i realtid med nämnda ingående elementära talenheter, varvid nämnda utrustning är anpassad för visning pa bildskärmen av en serie rörelsemönster för respektive ingående elementära enheter av den akustiska talsignalen, varvid vart och ett av nämnda rörelsemönster är: 10 15 20 25 30 19 511 927 - utvisande för rörelse, i tre dimensioner, av ett antal punkter runt den talandes mun; och - väsentligen synkroniserad i realtid med en respektive ingående elementär talenhet, samt att nämnda alstringsmedel innefattar: - lagringsmedel för lagring av en visuell framställning av mänskliga ansikts- drag, innefattande åtminstone munnen, tillsammans med information som är ut- visande för ett normalt läge för ett antal punkter runt munnen; - analysmedel för analys av akustiska talsignaler för identifiering av de mot- svariga akustiska parametrar som definierar nämnda ingående elementära talen- heter; mätmedel för utförande av tredimensionella mätningar på var och en av nämnda antal punkter runt en talandes mun, för var och en av de identifierade akustiska parametrarna; - jämförelsemedel för att för var och en av nämnda akustiska parametrar jämföra de uppmätta och normala lägena för var och en av nämnda antal punkter runt munnen för bestämning av en lägesskillnad i tre dimensioner på var och en av nämnda antal punkter för en respektive akustisk parameter; - och omvandlingsmedel för skapande av ett rörelsemönster för nämnda antal punkter runt munnen för var och en av nämnda akustiska parametrar, varvid nämnda rörelsemönster är en omvandling från nämnda akustiska parametrar till skillnaderna, i tre dimensioner, mellan de uppmätta och normala lägena för var och en av nämnda antal punkter.
19. Telekommunikationssystem enligt patentkrav 18, kännetecknat av att var och en av nämnda telefonapparater är anpassad för att anslutas till eller ingå i nämnda utrustning, av att nämnda utrustnings bildskärmsenhet är anpassad för att visa ansiktsrörelsemönster synkront med mottagande av respektive ingående ele- mentära enheter av en akustisk talsignal som mottas av en respektive telefon- apparat, och av att nämnda ansiktsrörelsevisning gör det möjligt för en telefon- apparatanvändare att förstå en väsentlig del av innehållet i nämnda akustiska talsignal genom läppavläsning av ansiktsrörelserna.
SE9701977A 1997-05-27 1997-05-27 Förbättringar i, eller med avseende på, visuell talsyntes SE511927C2 (sv)

Priority Applications (7)

Application Number Priority Date Filing Date Title
SE9701977A SE511927C2 (sv) 1997-05-27 1997-05-27 Förbättringar i, eller med avseende på, visuell talsyntes
DK98917918T DK0983575T3 (da) 1997-05-27 1998-04-20 Forbedringer af eller vedrørende visuel talesyntese
DE69816078T DE69816078T2 (de) 1997-05-27 1998-04-20 Verbesserungen im bezug auf visuelle sprachsynthese
EP98917918A EP0983575B1 (en) 1997-05-27 1998-04-20 Improvements in, or relating to, visual speech synthesis
EEP199900542A EE03634B1 (et) 1997-05-27 1998-04-20 Visuaalse kõnesünteesi alased või sellega seotud täiustused
PCT/SE1998/000710 WO1998054696A1 (en) 1997-05-27 1998-04-20 Improvements in, or relating to, visual speech synthesis
NO19995673A NO317598B1 (no) 1997-05-27 1999-11-19 Fremgangsmate og apparat for frembringelse av visuell talesyntese

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9701977A SE511927C2 (sv) 1997-05-27 1997-05-27 Förbättringar i, eller med avseende på, visuell talsyntes

Publications (3)

Publication Number Publication Date
SE9701977D0 SE9701977D0 (sv) 1997-05-27
SE9701977L SE9701977L (sv) 1998-11-28
SE511927C2 true SE511927C2 (sv) 1999-12-20

Family

ID=20407101

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9701977A SE511927C2 (sv) 1997-05-27 1997-05-27 Förbättringar i, eller med avseende på, visuell talsyntes

Country Status (7)

Country Link
EP (1) EP0983575B1 (sv)
DE (1) DE69816078T2 (sv)
DK (1) DK0983575T3 (sv)
EE (1) EE03634B1 (sv)
NO (1) NO317598B1 (sv)
SE (1) SE511927C2 (sv)
WO (1) WO1998054696A1 (sv)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1905012A2 (en) 2005-07-11 2008-04-02 Philips Intellectual Property & Standards GmbH Method for communication and communication device
US8664160B2 (en) 2005-11-10 2014-03-04 Basf Se Fungicidal mixtures
US9956407B2 (en) 2014-08-04 2018-05-01 Cochlear Limited Tonal deafness compensation in an auditory prosthesis system
US10534955B2 (en) * 2016-01-22 2020-01-14 Dreamworks Animation L.L.C. Facial capture analysis and training system
CN106067989B (zh) * 2016-04-28 2022-05-17 江苏大学 一种人像语音视频同步校准装置及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5482048A (en) * 1993-06-30 1996-01-09 University Of Pittsburgh System and method for measuring and quantitating facial movements
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
CA2162199A1 (en) * 1994-11-07 1996-05-08 Homer H. Chen Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes

Also Published As

Publication number Publication date
DE69816078D1 (de) 2003-08-07
EP0983575B1 (en) 2003-07-02
DE69816078T2 (de) 2004-05-13
DK0983575T3 (da) 2003-10-27
SE9701977D0 (sv) 1997-05-27
NO995673D0 (no) 1999-11-19
EE03634B1 (et) 2002-02-15
WO1998054696A1 (en) 1998-12-03
EE9900542A (et) 2000-06-15
NO995673L (no) 2000-01-25
SE9701977L (sv) 1998-11-28
EP0983575A1 (en) 2000-03-08
NO317598B1 (no) 2004-11-22

Similar Documents

Publication Publication Date Title
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
Rosenblum et al. An audiovisual test of kinematic primitives for visual speech perception.
Lavagetto Converting speech into lip movements: A multimedia telephone for hard of hearing people
Jiang et al. On the relationship between face movements, tongue movements, and speech acoustics
Tran et al. Improvement to a NAM-captured whisper-to-speech system
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
Beskow et al. Synface–a talking head telephone for the hearing-impaired
JP3670180B2 (ja) 補聴器
Fu et al. Audio/visual mapping with cross-modal hidden Markov models
KR20150076125A (ko) 3차원 파노라마 멀티 앵글 투시 영상 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
Salvi et al. SynFace—speech-driven facial animation for virtual speech-reading support
Barker et al. Evidence of correlation between acoustic and visual features of speech
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
SE511927C2 (sv) Förbättringar i, eller med avseende på, visuell talsyntes
Patel et al. Teachable interfaces for individuals with dysarthric speech and severe physical disabilities
Olives et al. Audio-visual speech synthesis for finnish
Adjoudani et al. A multimedia platform for audio-visual speech processing
Lavagetto Multimedia Telephone for Hearing-Impaired People
Bastanfard et al. A comprehensive audio-visual corpus for teaching sound persian phoneme articulation
Beskow et al. Visualization of speech and audio for hearing impaired persons
Agelfors et al. Synthetic visual speech driven from auditory speech
Beautemps et al. Telma: Telephony for the hearing-impaired people. from models to user tests
Kumar et al. Real time detection and conversion of gestures to text and speech to sign system
Hatzis et al. Optical logo-therapy (OLT): a computer-based real time visual feedback application for speech training.
KR20150075502A (ko) 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법