NL2021041B1 - Spraakherkenning met beeld signaal - Google Patents

Spraakherkenning met beeld signaal Download PDF

Info

Publication number
NL2021041B1
NL2021041B1 NL2021041A NL2021041A NL2021041B1 NL 2021041 B1 NL2021041 B1 NL 2021041B1 NL 2021041 A NL2021041 A NL 2021041A NL 2021041 A NL2021041 A NL 2021041A NL 2021041 B1 NL2021041 B1 NL 2021041B1
Authority
NL
Netherlands
Prior art keywords
speech
signal
reflection signal
reflection
letter
Prior art date
Application number
NL2021041A
Other languages
English (en)
Inventor
Leonardus Jozef Meijer Johannes
Petrus Quirinus Mossinkoff Olaf
Original Assignee
Iebm B V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iebm B V filed Critical Iebm B V
Priority to PCT/IB2019/050626 priority Critical patent/WO2019150234A1/en
Priority to US16/962,734 priority patent/US11114101B2/en
Priority to EP19706316.7A priority patent/EP3747007A1/en
Application granted granted Critical
Publication of NL2021041B1 publication Critical patent/NL2021041B1/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

De onderhavige openbaarmaking betreft een werkwijze van spraakherkenning, omvattende: - het met een microfoon in een spraaksignaal registreren van spraak; - het belichten van een sprekende mond; - het met een sensor in een reflectiesignaal registreren van een mate van door de mond gereflecteerd licht; en - het per een op voorhand bepaalde tijdsduur koppelen en registreren van gecombineerde parameters van het spraaksignaal en van het reflectiesignaal met daarmee samenhangende letters; - het vergelijken van een in spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal met de geregistreerde en aan letters gekoppelde gecombineerde parameters van het spraaksignaal en van het reflectiesignaal; en - het op basis van het vergelijken beslissen met welke letter de in de spraak voorkomende 15 combinatie van parameters van het spraaksignaal en van het reflectiesignaal overeenkomt. Representatieve Figuur voor Publicatie:

Description

SPRAAKHERKENNING MET BEELD SIGNAAL
De onderhavige openbaarmaking betreft spraakherkenning op basis van het met een microfoon in een spraaksignaal registreren van spraak; het belichten van een sprekende mond; en het registreren van beeld van een sprekende mond. Uit de geregistreerde geluid en beeldsignalen werd voorheen aangenomen dat spraakherkenning mogelijk is. Op basis van de spraakherkenning is het mogelijk geschreven tekst te genereren, commando's in te voeren in systemen, zoals computers en mobiele telefoons, et cetera.
Een dusdanige werkwijze is namelijk bij voorbeeld bekend uit US-3.383.466, US-3.192.321 en US-5.666.400. Deze bekende werkwijzen en daarop gebaseerde systemen schieten echter tekort als het gaat om een betrouwbare en accurate spraakherkenning of persoonsidentificatie.
Met de onderhavige openbaarmaking hebben de uitvinders beoogd een verbeterde werkwijze te verschaffen, waarmee meer accurate en meer betrouwbare spraakherkenning mogelijk is. Hiertoe onderscheid de onderhavige werkwijze zich door de maatregelen van: het met een sensor in een reflectiesignaal registreren van een mate van door de mond gereflecteerd licht; het per een op voorhand bepaalde tijdsduur koppelen en registreren van gecombineerde parameters van het spraaksignaal en van het reflectiesignaal met daarmee samenhangende letters; het vergelijken van een in spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal met de geregistreerde en aan letters gekoppelde gecombineerde parameters van het spraaksignaal en van het reflectiesignaal; en het op basis van het vergelijken beslissen met welke letter de in de spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal overeenkomt.
De werkwijze kan de stap omvatten dat de parameter van het spraaksignaal is genomen uit een groep, ten minste omvattende, in de op voorhand bepaalde tijdsduur; volumespreiding van een verschil tussen een hoogste en een laagste waarde van een volume van het spraaksignaal; en een verhouding van geluid van het spraaksignaal binnen en buiten een ruisniveau (signaal-tot-ruis-verhouding).
De werkwijze kan de aanvullende of alternatieve stap omvatten dat de parameter van het reflectiesignaal is genomen uit een groep, ten minste omvattende, in de op voorhand bepaalde tijdsduur: een gemiddelde van het reflectiesignaal; en een mate van stijging of daling van het reflectiesignaal.
De werkwijze kan de aanvullende of alternatieve stap omvatten van het in blokbreedte moduleren van het reflectiesignaal.
In een uitvoeringsvorm waarbij de parameter van het reflectiesignaal is genomen uit een groep, ten minste omvattende, in de op voorhand bepaalde tijdsduur: een gemiddelde van hel reflectiesignaal; en een mate van stijging of daling van het reflectiesignaal en optioneel het reflectiesignaal in blokbreedte is gemoduleerd, kan de werkwijze verder omvatten het vaststellen van het gemiddelde van het reflectiesignaal als een over de op voorhand bepaalde tijdsduur gemiddelde van de halve blokduur van de blokgolf.
De werkwijze kan de aanvullende of alternatieve stap omvatten van het vaststellen van de mate van stijging of daling van het reflectiesignaal als een maat in graden.
De werkwijze kan de aanvullende of alternatieve stap omvatten dat de op voorhand bepaalde tijdsduur 1, 2, 3,4 of 5 milliseconde is.
De werkwijze kan de aanvullende of alternatieve stap omvatten van het onderverdelen van het spraaksignaal in met letters overeenkomende porties, en het aangeven ten minste één van: starten eindtijden van letters in het spraaksignaal; en tijdsduren in aantallen maal de kleinste tijdsduur, die door de frequentie van bijvoorbeeld 88.200 Hz is bepaald.
De werkwijze kan de aanvullende of alternatieve stap omvatten van het bepalen van maxima en minima van het reflectiesignaal, en het op basis van de maxima en minima normaliseren van het reflectiesignaal.
De werkwijze kan de aanvullende of alternatieve stap omvatten van: het op basis van het beslissen met welke letter de in de spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal overeenkomt vormen van een voorselectie van daarop volgende kandidaat letters.
Na de voorgaande bespreking van eigenschappen volgens de onderhavige openbaarmaking in termen volgens de bij gevoegde conclusies volgt onder een meer gedetailleerde maar niet-limitatieve beschrijving van aspecten daarvan. In de tekening tonen:
Figuren 1-5 grafieken van in combinatie geregistreerde spraak- en beeldsignalen;
Figuur 6 in meer detail een deel van de grafiek van figuur 5 en conversie in tekst;
Figuur 7 een screenshot van een computerprogramma met metagegevens als uitvoeringsvorm van een werkwijze volgens deze openbaarmaking;
Figuren 8 een schema van het inleren van een systeem als implementatie van een werkwijze volgens de onderhavige openbaarmaking;
Figuur 9 een schematische weergave van spraakherkenning in de praktijk;
Figuur 10 een schematische weergave van mogelijke toepassingen van de onderhavige openbaarmaking;
Figuur 11 een opstelling van een systeem voor implementatie van een werkwijze volgens de onderhavige openbaarmaking;
Figuur 12 een opstelling van een systeem voor implementatie van een werkwijze volgens de onderhavige openbaarmaking;
Figuur 13 een implementatie van een werkwijze volgens de onderhavige openbaarmaking;
Figuur 14 een implementatie van een werkwijze volgens de onderhavige openbaarmaking voor twee verschillende personen; en
Figuur 15 toont transformatie volgens de onderhavige openbaarmaking van een variabele blokgolf in een beeldorgel en uiteindelijk verder naar een beeldviool.
In figuren 1.-5 zijn grafieken getoond van gecombineerde beeld- en geluidsignalen. Op één van de stereo geluidssporen wordt naast het mono-spraakgeluid een op een blokgolf lijkend signaal opgenomen, die informatie bevat over de intensiteit van het door de mond gereflecteerde licht van een op de mond gerichte lamp, in casu een gelijkspanningslamp. Zonder verlichting of omgevingslicht werkt het systeem niet, bij verlichting op de mond zonder omgevingslicht werkt het systeem optimaal door het ontbreken van door achtergrond licht veroorzaakte ruis, en bij verdere uitvoeringsvormen kan wellicht ook alleen omgevingslicht volstaan, dus zonder op de mond gerichte lamp.
Bij de letter A is de mond open en is de lichtreflectie minimaal en bij de letter M is de mond gesloten en is de lichtreflectie maximaal. De overige letters en lettercombinaties uit het alfabet vallen hier tussen in. Zo is bij de letter N de mond iets geopend wat een mindere lichtreflectie geeft dan de letter M. Het idee is dat de mondstand (gebied van en rond de lippen) een indicator is van hetgeen gezegd wordt, waarbij de viseem (mondstand) net iets eerder wordt weergegeven dan de foneem (de letterklank). Door de mondbeweging in combinatie met het gesprokene te analyseren ontstaat spraakbeeldherkenning.
In een leerproces kunnen de karakteristiek van een foneem en foneemcombinaties in de letterbak worden opgeslagen om later overeenkomende momenten uit spraak te herkennen.
Opname kwaliteit
Opnamekwaliteit van het beeld
De opname van spraakbeeld is door middel van blokbreedtemodulatie (BWM) van de lichtintensiteit in het hoorbare spectrum. Bij de opname van spraakgeluid op 88.200 Hz en verwerking tot kengetallen van deze meting is de kleinste eenheid 1 milliseconde, en wordt een speld genoemd.
Lichtmeting van reflectie van gelijkspanningslicht op lippen en het deel van de omliggende huid rondom de mond is hoger wanneer de mond dicht is dan de geringere reflectie wanneer de mond open is. Achtergrondlicht van wisselspanningslampen met een netfrequentie van 50 hertz is hierbij ongewenst. Bij voorkeur is er geen licht van achter de spreker. Verder wordt rekening gehouden met daglicht variatie. Willekeurige pieken verplaatsen het maximum weliswaar en verandering van zonlicht en langzame bewolkings-schaduwen verplaatsen het minimum. De sensor wordt niet recht tegenover de mond geplaatst wegens mogelijke condensvorming en warmte effect door de adem.
Opnamekwaliteit van het geluid
Op het spraakgeluid wordt signaalanalyse toegepast met fouriertransformatie van 21 opeenvolgende waarden en gladgemaakt tot 3 waarden: begin-, midden- en eindwaarde. Daarmee wordt de geluidsfile teruggebracht van 88.200 tot 12.600 kilohertz. Routines om fast fourier transformatie te benutten zijn de vakman bekend, maar ten tijde van het opstellen van deze openbaarmaking nog niet getest. Fouriertransformatie zoekt naar sinusgolven in tegenstelling tot de blokgolven in de hier toegepaste fast fourier transformatie, die alleen machten van twee als waardelengte kent. Bij 512 waarden reikt het frequentiespectrum van 24 tot en met 6300 hertz. Dus voor spraakfrequenties 48 tot en met 3150 hertz is de fase ook helemaal bekend.
Vier variabelen als bouwstenen
Uit meetgegevens zoals die schematisch in grafieken van figuren 1-5 zijn weergegeven zijn een aantal variabelen te bereken: 1. Beeld registratie: over de milliseconde wordt de halve blokduur van de blokgolf van de sensor gemiddeld, in vioo!5 aangegeven met de letter “b”; 2. Beeld fase: in graden is 0 het maximum, 90 daling, 180 minimum en 270 stijging in stappen van 5 graden, in viool5 aangegeven met de letters “bf 3. Volume spreiding: hel verschil tussen de hoogste en laagste waarde van geluid in de milliseconde, in viool5 aangegeven met de letter “v”; 4. Percentage: procentuele verhouding van geluid binnen en buiten een ruisniveau (signal to noise ratio), in viool5 aangegeven met de letter “p”.
Figuren 1-5 lonen karakteristieken van een met een microfoon geregistreerd geluid- of spraaksignaal 1 en een met een camera geregistreerd beeldsignaal 2. In deze figuren zijn het spraaksignaal en het beeldsignaal gesynchroniseerd, zodat momentane mondstand een komst van een bepaalde klank of foneem kan aankondigen.
Hel beeldsignaal hangt samen met een mate van reflectie van licht door en om de mond, en aldus met een mondstand. Een niveau 10 van lichtreflectie kan een maximum of een minimum aanduiden. Naarmate de mond minder of meer is geopend, hangt samen met uitgesproken klanken, die daarmee terug te voeren zijn op letters. Een overgang 5 in de mondstand in figuren 1 en 2 is bijvoorbeeld te detecteren op basis van een raaklijn 11 of van een buiglijn aan het verloop van de grafiek van het beeldsignaal 2, waar tot een overgang tussen mondstanden kan worden besloten wanneer de raaklijn 11 een snijlijn of bniglijn is. De raaklijn is een maat voor de stijg- of daalkarakteristiek van het beeldsignaal 2.
Zwak geluidssignaal 1 bij of vlak boven ruisvloer 9, die indicatief is voor achtergrondruis, duidt op stilte en/of spaties 3, en sterk geluidssignaal is indicatief voor de spraak van woorden 4.
De representatie van spraaksignalen 1 en beeldsignalen 2 is in de tijd tussen een start 7 van een opname en een einde 8 daarvan verdeeld in onderling gelijke tijdsperiodes, en iedere tijdsperiode is aangeduid als een speld 6. Deze spelden 6 omvatten elk een periode van bijvoorbeeld 1 milliseconde, of een (klein) veelvoud daarvan, en zijn in opeenvolging genummerd in figuren 1-5.
Spraakherkenning lean worden beperkt tot periodes of gebieden van herkenning met spraak 4, tussen spelden vier en dertien en tussen spelden vijftien en negenentwintig, terwijl stiltes en/of spaties 3 genegeerd kunnen worden. In figuren 4 en 6 is weergegeven hoe een periode van de zestiende speld 6 tot en met de achtentwintigste speld 6 wordt uitgelicht. Per milliseconde of speld 6 en per foneem of klank worden gegevens geregistreerd, van de genoemde vier variabelen, die na de leerfase / karaoke leiden tot metagegevens.
Per speld 6 worden de gegevens registreerd van de stijg / daal karakteristiek in het beeldsignaal, en de gemiddelde, minimale en maximale waardes van het spraaksignaal.
Per klank of foneem, die één of meer dan één speld 6 kan beslaan, worden de start- en eindtijden geregistreerd. In een inleerfase kunnen de gemiddelde tijdsduren van fonemen of klanken worden geregistreerd, of in de praktijk worden bijgesteld.
Verder worden van het beeldsignaal 2 per foneem een gemiddelde waarde en een maximum en een minimum vastgelegd, alsmede een gemiddelde waarde van de oriëntatie van de raaklijn 11, wnarnaar hier ook wel wordt verwezen als de beeldfase en/of de stijg / daal karakteristiek in het beeldsignaal. Dit kan in een willekeurige nauwkeurigheid, en gebleken is dat een nauwkeurigheid afgerond op veelvouden van 5 graden kan volstaan voor zeer betrouwbare en accurate spraakherkenning. Uit het spraaksignaal 1 wordt per foneem of klank het gemiddelde, maximum en minimum van het volume geregistreerd, en verder ook het percentage, dat staat voor een procentuele verhouding van geluid buiten en binnen een ruisniveau. Aldus worden per foneem 11 metagegevens gergistreerd, alsmede metagegevens voor overgangen tussen fonemen, hetgeen resulteert in een totaal aantal van 22.
De starttijd 12 in de opeenvolging van spelden 6, wanneer een woord begint, wordt geregistreerd, bijvoorbeeld aan de hand van het nummer van de eerste speld 6, dus in het geval van figuren 4 en 6 de zestiende speld. Hetzelfde kan voor andere tijdstippen gelden, zoals begin en einde van fonemen / klanken, etc.
Na een stilte of spatie waarin een mondstand stabiliseert, is een sterk schuine stand van de raaklijk 11 een aanduiding dat spraak begint. Zo is tussen spelden vier en vijf, en tussen spelden vijftien en zestien een verandering in mondstand indicatief voor het begin van een nieuw woord.
De beeldfase wordt in stappen van 5 graden geregistreerd en het is informatie over de raaklijn aan de grafiek van de gemiddelde halve blokduur en dus de mate van stijgen of dalen. Bij gesloten mond is er veel reflectie en is de gemiddelde halve blokduur klein; dit is karakteristiek voor bijvoorbeeld de b, m en de n. Bij open mond is er minder reflectie en is de gemiddelde halve blokduur groot; dit is karakteristiek voor de a en de e.
Een hele blok is een tijdstuk 1 en een tijdstuk 0. De sensor is symmetrisch gemaakt zodat het stukje 1 en het stukje 0 dezelfde informatie bevatten en (ongeveer) even lang duren, daardoor is de halve blokduur (stukje 1 of stukje 0) de kleinste informatiedrager.
De beeldfase wordt verkregen door de grafiek van f(t) gladder te maken (middeling over drie opvolgende punten, f '(Ij (f(0) + f(l) +f(2))/3 en de minima en maxima en buigpunten te markeren en ertussen de fase gradueel (of in stappen van 5 graden) te laten oplopen. Het is informatie uit het PWM signaal f(t).
Als de halve blokduur klein is (bij veel reflectie) is de frequentie van de toon van de beeldviool hoog en als de halve blokduur groot is is de frequentie laag. Tijdens het programmeren wordt er liever gewerkt met de halve blokbreedte.
Om een equidistante tijdkromme te krijgen wordt de halve blokduur gemiddeld over het standaard tijdsinterval 1 milliseconde. Andere tijdsintervallen zijn ook mogelijk, bijvoorbeeld 5 milliseconde, of langer, of korter, waartoe hier wordt verwezen naar Figuur 15. Exact geldt dat het aantal halve blokduren in de tijdstap wordt geteld en de tijdstap gedeeld door dit aantal wordt berekend. Dit wordt dan de maat voor hoeveelheid gereflecteerd licht.
Voorbereiding eerste opname
Definities
Viseem is een onderdeel van beeld van een woord in een taal. Foneem is een onderdeel van klank van een woord in spraak. Letterbak: metagegevens van een letter of foneemcombinatie met de daarbij horende mondstand en de mondstand die hieraan vooraf gaat. De metagegevens zijn het gemiddelde van de vier parameters en hun standaardafwijking en hun minimum en maximum.
Vooringenomen tekst bepalen
Vooringenomen tekst is het uitkiezen van woorden met speciale letter/foneemcombinaties. Doel van de vooringenomen tekst is het analyseproces, zoals beeldpatroon voorafgaand aan foneem, te versnellen. Van de 26 maal 26 letter combinaties komt ongeveer 30% voor, ca. 240 combinaties. Het is mogelijk hieruit een minimum aantal woorden te kiezen, zodat de tekst elke bestaande foneemcombinatie minstens een keer bevat om compleetheid van de letterbak te krijgen. Deze woorden worden op een geassocieerde volgorde gezet. In deze openbaarmaking is de vooringenomen tekst “pA mA nA panAmA” gehanteerd (fonetisch gezien worden korte fonemen als kleine letters geschreven en dubbele letters of lange fonemen w'orden in kapitalen weergegeven).
Fonetisch uitschriiven
Door de tekst fonetisch uit te schrijven is er een script voor het opnemen om daarmee de letterbak te kunnen vullen en vervolgens latere opnamen daarmee te kunnen vergelijken uit dergelijke opnamen of real-time in registraties van geluid en beeld (zonder opslag).
Apparatuur instellen
Lichtintensiteit
Hierbij wordt de hoogste en laagste waarde van de lichtintensiteit bepaald, die de mond reflecteert door het uitspreken en meten van de letter M (gesloten mond geeft maximale reflectie en minimale blokduur) en de letter A (geopende mond geeft minimale reflectie en maximale blokduur). Dit wordt gebruikt voor normeren, waarmee het beeldgetal binnen een verticale beeldschermresolutie blijft.
Meetbereik
Hierbij wordt gecontroleerd, bij voorbeeld met behulp van een spiegel, of de lichtsensor de mondbewegingen van de lippen registreert (ook de geopende mond moet binnen het meetbereik vallen).
Gel uidsvol urne
Hierbij wordt de opname gevoeligheid ingesteld op het gemiddelde spraakvolume waarbij het maximum nog net tot signaalvervorming mag leiden.
Muziek sampling
In de opname worden geluidsgebieden gemarkeerd door tijdstippen aan te leggen. Het gemarkeerde gebied tussen twee tijdstippen bestaat uit een woord, spatie of een foneem (binnen een woord).
Herkenning
Er zijn twee vormen van herkenning: 1. Gebied herkenning van gebied 14 is schematisch weergegeven in figuur 3 van vooringenomen tekst (van te voren bekende tekst) ook wel Karaoke / belettering genoemd waaruit de metagegevens bepaald kunnen worden, bij voorbeeld bij het inleren. Karaoke is het precies aanduiden van op welke tijdstippen fonemen in elkaar overgaan. Hel kan handmatige gebiedsherkenning betreffen. Over deze gebieden wordt het gemiddelde bepaald voor de metagegevens en daarna wordt met kleinste kwadraten de best passende speld gezocht, die op zijn beurt het minimum en maximum in de metagegevens bepaalt. 2. Speld herkenning is ook in figuur 3 voor speld 15 aangeduid, en dient voor herkenning van spontane tekst, waarbij niet op voorhand bekend is wat de spreker gaat zeggen.
Gemiddelde tijdsduur
Aangezien medeklinkers niet even lang zijn en klinkers bovendien qua tijdsduur variabel zijn, zal per foneem een start- en eindtijdstip opgegeven moeten worden, waaruit per foneem een gemiddelde ontstaat, die gebruikt w'ordt voor een proces dat als ritsen w'ordt aangeduid. Dit is in figuur 4 weergegeven.
Gebied herkenning voor Karaoke
Typerende momenten van de variabele foneemlengte worden weergegeven als buigpunten in de beeldfase (het minimum, midwaarde of maximum) en vormen de kengetallen voor letterovergangen. Door spaties uit het geluid te halen kunnen hele woorden achter elkaar worden 'geritst'. Met ritsen worden de startlijdstippen herzien. Het hele bestand heeft een bekende tijdsduur, dus de letter op de helft moet kloppen: door het start tijdstip van deze letter op te geven rekt een deel uit en wordt een deel qua tijd ingedrukt: dat heet met de halveringsmethode ritsen.
Bepalen metagegevens
Met de spelden die in een foneem gebied vallen w'ordt het gemiddelde genomen van de variabelen voor de metagegevens (zie tabel in Figuur 6). Een nadeel van gemiddelde van spelden is dat het kan zijn dat er geen speld is die een bepaalde waarde heeft. Vandaar het gebruik van de kleinste kwadraten methode; de speld wordt genomen, die het dichtst ligt bij het gemiddelde. Deze geven minimum en maximum. Voor iedere speld kan vastgesteld worden of de variabelen binnen de extremen van een foneem vallen of niet. Dit is schematisch weergegeven in figuur 6.
Unieke-, multi- en loze spelden
Door de spelden uit de spontane tekst te vergelijken met de metagegevens van de vooringenomen tekst (met name het minimum en maximum) ontstaan drie mogelijkheden: de spontane speld komt overeen met slechts één (uniek) foneem, met meerdere (multi) fonemen en er zijn geen (nul) 'hits'. 1. Unieke spelden 13 komen één keer voor en kunnen goed of niet goed zijn. Als de A speld 18 vergeleken wordt met de spelden 22, 26 en 27 en de metagegevens zijn aan elkaar gelijk (omdat tijdens de mondstand A niet verandert na de vorige A) is dit een goede speld. 2. Multi spelden leveren meerdere fonemen op die binnen de extremen vallen maar zijn niet typerend genoeg voor unieke herkenning. De speld valt voor meerdere fonemen in het min/max bereik. 3. Loze spelden, waarbij er geen foneem is waarvoor de speld tussen de extremen valt.
Zoeken met kleinste kwadraten
Bij iedere speld is er een foneem en twee foneemovergangen (één links en één rechts) die met kleinste kwadraten het dichtst bij ligt, dus binnen de kleinste (hyper-)kubus om de vier variabelen van de speld past. Bij een gevonden foneemovergang zijn er twee fonemen die gelijkertijd worden herkend (bij linker herkenning de foneem uit het heden en de toekomstige en bij rechter herkenning de foneem uit het heden en het verleden).
Zoeken met kleinste afstanden
Voor iedere van de vier boven genoemde variabelen is er een foneem met de kleinste afstand, dat levert vier fonemen op. Als er drie overeen komen is dit de meest kansrijke foneem.
Optimaliseren van speldherkenning
Het zijn de goede unieke spelden 13 die leiden tot spraakherkenning. Als er fonemen in een spontane tekst niet herkend worden dan zijn één of meer onderdelen van de metagegevens niet juist. Het is mogelijk om vervolgens de metagegevens zodanig te optimaliseren, dat 'foute' unieke spelden of multispelden 'goede' unieke spelden worden.
Dit kan op verschillende manieren: • Verschuif start- en eindtijdstippen van karaoke en bereken de letterbak opnieuw; • Pas het min/max gebied voor een van de variabelen aan in de letterbak; • laat de variabele met het grootste onderscheidende verschil uitsluitsel geven.
In het aanzicht in figuur 7 van een interface om de werking van een methode volgens de onderhavige werkwijze te illustreren, geeft “Viool 5” op de regel onder de aanduidingen “Speld perc vol stijg daal Viool5” de fonemen op basis van karaoke uit de vooringenomen tekst (beeld mondreflectie) weer, voor een enkele persoon, terwijl deze in figuur 14 zijn weergegeven voor twee personen, waaruit blijkt hoe betrouwbaar de werkwijze is, ongeacht de persoon die spreekt. Verder zijn twee regels lager de op basis van speldherkenning herkende fonemen getoond. De lijn van grafiek 16 is van het percentage (p). De lijn van grafiek 22 geeft de beeldvariabele (b) van één foneem (zie ook figuur 13).
Schema spraakbeeld ‘kenning’ eerste/vooringenomen opname
Figuur 8 toont schematisch de wijze van het inleren van de spraakherkenning, met op voorhand bekende tekst, hier ook wel aangeduid als vooringenomen tekst. Zoals aangeduid bij de beschrijving van figuur 3 is hierbij de nadruk op gebiedherkenning, en figuur 8 voegt toe dat voor hel inleren van een systeem met vooringenomen tekst de beeldherkenning benadrukt is.
Schema spraakbeeld ‘herkenning’ vervolg/spontane opnamen
Bij spontane herkenning, dat wil zeggen zonder op voorhand bekende tekst, schematisch weergegeven in figuur 9, ligt de nadruk op spelden zoals ook aangeduid in figuur 3, en dus het geregistreerde spraak- of geluidssignaal.
Bij figuren 8 en 9 hoort de volgende legenda:
De beeldmicrofoon is de headset met een op de mond gerichte lamp, (beeld)sensor en microfoon.
De beeldviool is het blokbreedte gemoduleerde signaal, dat op het tweede spoor wordt opgenomen.
Scopo is een aanduiding voor spelden met gegevens over de vier variabelen: b - beeld fb - fase beeld p - percentage v - volume
De aanduiding Karaoke staat voor de tijdstippen van de foneemovergangen in de uitgesproken vooringenomen tekst.
Het beeldorgel duidt aan dat bij verandering van variabele b even kortstondig een harmonische pianotoon wordt afgespeeid, die aansluit bij de variabele b.
Letterbak: metagegevens over de vier variabelen per foneem en foneemovergang.
De microfoon dient voor het opnemen van spraakgeluid op het eerste spoor.
De spraak zelf is de geluidsopname in stereo bij 88.200 hertz.
De aanduiding tekst spraak staat voor de voorgaande spraakherkenning met geluid op het eerste spoor.
Het tekst spraakbeeld is een aanduiding voor nieuwe spraakherkenning met geluid en beeld op beide sporen.
Toepassingen spraak-beeld herkenning
Figuur 10 geeft een aanduiding van diverse toepassingen van de werkwijze volgens de onderhavige openbaarmaking, welke destilleerbaar zijn uit diverse punten in het schema van figuren 8 en 9.
Dergelijke toepassingen omvatten: • bandrecorder voor opname op twee sporen; • Spraakherkenning obv woordsuggestie;
Zoomsensor bij film of video; • Voelspeaker: spraakbeweging voor visueel beperkten; • Mondreflectie: spraakvisualisatie voor gehoor beperkten; • Beeldorgel: logopedisch oefenprogramma; • Spraakherkenning in lawaaiige omgeving; • Beeldviool: herkenning van alle gesproken talen; en • Letterbak: persoonsherkenning voor beveiligingsdoeleinden.
Over enkele van dergelijke toepassingen volgt hieronder meer informatie.
Zoomsensor bij film of video
Films of video met sprekers is viseem correct na-te-synchroniseren door een camera 17 in figuur 11 met ingebouwde beeldsensor in te zoomen op de mond van het gezicht van een spreker in de film of video. Deze kan ook worden gebruikt voor herkenning van vooringenomen tekst of spontane tekst, tezamen met een koptelefoon 18 met microfoon 19, die ook zijn getoond in figuur 11. De onderlinge verbindingen zijn van minder belang voor de onderhavige openbaarmaking. maar een systeem volgens deze openbaarmaking kan A/D converters omvatten voor het omvormen van het spraaksignaal 1 en het beeldsignaal 2 in digitale of althans bemonsterde vorm, of een systeem kan analoog zijn vormgegeven.
Voelspeaker: spraakbeweging voor visueel beperkten
Visueel beperkten kunnen worden geholpen door ze een voelspeaker 20 te leren gebruiken. Dat is een speaker die bewegingen of variaties in het beeldsignaal 2 laat voelen aan de top van een wijsvinger op een conus 21 van een luidspreker, zoals in figuur 12 is afgebeeld.
Mondreflectie: spraakvisualisatie voor gehoor beperkten
Gehoor beperkten kan men beeldgeluid laten zien met bijvoorbeeld het programma Viool5 - zie figuren 7 en 14. De fasen van de beeld variabele is weer te geven in verschillende kleuren, mede afhankelijk van de achtergrondkleur bijvoorbeeld wit, blauw, rood en groen, en dit staat voor de mondreflectie 22, zoals in figuur 13 is getoond.
Beeldorgel: logopedisch oefenprogramma
Nog een toepassing van de onderhavige openbaarmaking is een oefen-effect voor logopedie: de zogeheten over-articulatie stimuleren. Het geluid van de blokgolf is onharmonisch; dat is te verhelpen door deze te integreren tot een driehoek, die een aangenamer geluid oplevert.
Dit geluid of het geluid van een beeldorgel (van zaagtand door tellen naar driehoek omzetting, zie figuur 15) geeft een terugkoppeling aan de cliënt van de logopedist. Een beeldorgel zet het beeldsignaal om in gestemde orgeltonen; acht per octaaf, namelijk c-octaaf + bes. Dergelijke beeldorgels met de mogelijkheid de blokgolf te integreren tot een driehoekvorm zijn de vakman bekend.
Beeldviool: herkenning van alle gesproken talen
Voor gerelateerde beroepen is er spraakherkenning in een lawaaierige omgeving te realiseren.
Spraakherkenning is volgens de onderhavige openbaarmaking voor alle talen te realiseren door aanvulling met refïeetie-informatie uit beeld van de gangbare spraakherkenning van het geluid alleen.
Letterbak: persoonherkenning voor heveiligingsrioeleinden
De volgens de onderhavige openbaarmaking te registreren spraak met beeld, of althans met lichtreflectie-informatie van iedere persoon is uniek, en bijkans net zo uniek als een vingerafduk of iris. Niet na te maken unieke herkenning van een persoon door het oplezen van een random te generen zin door een persoon waarvan de spraakbeeld herkenning bekend is. Daarbij is een op de werkwijze gebaseerd systeem ingeleerd. Hierbij wordt persoonsherkenning derhalve gebaseerd op herkenning van viseem- en foneemcombinaties in plaats van database-woord-analyse. en een voorbeeld van een interface hiertoe is getoond in figuur 14, vergelijkbaar met figuur 7 maar resp. voor een of twee personen, met een opnamevoorbeeld van “pA_mA_nA_panAmA” en geanalyseerd door de letterbak en viool5.
Figuur 15 toont conversie van de variabele blokgolf 23, die digitaal is bij een frequentie van 88.200 Hz en te verdelen is in verschillende tijdsduren 24. Deze wordt geconverteerd in het bij wijze van voorbeeld onharmonische beeldorgel 25. Bij wijze van voorbeeld worden hierbij 30 stapjes toegepast, dus 30 / 88.100, bo-bl+b2 - b3, etc. toegepast. Door verdere conversie wordt de beeldviool 26 verkregen, gebaseerd op harmonische functies.
Na de voorgaande openbaarmaking van aspecten, elementen, eigenschappen en functionaliteiten van werkwijzen van spraakherkenning volgen hierna conclusies, waarin de beschermingsomvang voor deze openbaarmaking is gedefinieerd, welke ten minste in bepaalde jurisdicties zelfs voor de hand liggende alternatieven voor in de conclusies gedefinieerde aspecten omvat, waarmee duidelijk is dat de bescherming op geen enkele wijze is beperkt tot een specifieke uitvoeringsvorm of toepassing.

Claims (10)

1. Werkwijze van spraakherkenning, omvattende: - het met een microfoon in een spraaksignaal registreren van spraak; - het belichten van een sprekende mond; - het met een sensor in een reflectiesignaal registreren van een mate van door de mond gereflecteerd licht; en - het per een op voorhand bepaalde tijdsduur koppelen en registreren van gecombineerde parameters van het spraaksignaal en van het reflectiesignaal met daarmee samenhangende letters; - het vergelijken van een in spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal met de geregistreerde en aan letters gekoppelde gecombineerde parameters van het spraaksignaal en van het reflectiesignaal; en - het op basis van het vergelijken beslissen met welke letter de in de spraak voorkomende combinatie van parameters van het spraaksignaal en van het reflectiesignaal overeenkomt.
2. De werkwijze volgens conclusie 1, waarbij de parameter van het spraaksignaal is genomen uit een groep, ten minste omvattende, in de op voorhand bepaalde tijdsduur: volumespreiding van een verschil tussen een hoogste en een laagste waarde van een volume van het spraaksignaal; en een verhouding van geluid van het spraaksignaal binnen en buiten een ruisniveau (signaal-tot-ruis-verhouding).
3. De werkwijze volgens conclusie 1 of 2, waarbij de parameter van het reflectiesignaal is genomen uit een groep, ten minste omvattende, in de op voorhand bepaalde tijdsduur: een gemiddelde van het reflectiesignaal; en een mate van stijging of daling van het reflectiesignaal.
4. De werkwijze volgens conclusie 1, 2 of 3, verder omvattende het in blokbreedte moduleren van het reflectiesignaal.
5. De werkwijze volgens conclusie 3 of conclusies 3 en 4, verder omvattende het vaststellen van het gemiddelde van het reflectiesignaal als een over de op voorhand bepaalde tijdsduur gemiddelde van de halve blokduur van de blokgolf.
6. De werkwijze volgens ten minste één van de voorgaande conclusies, verder omvattende het vaststellen van de mate van stijging of daling van het reflectiesignaal als een maat in graden.
7. De werkwijze volgens ten minste één van de voorgaande conclusies, waarbij de op voorhand bepaalde tijdsduur 1, 2, 3,4 of 5 milliseconde is.
8. De werkwijze volgens ten minste één van de voorgaande conclusies, verder omvattende het onderverdelen van het spraaksignaal in met letters overeenkomende porties, en het aangeven ten minste één van: start- en eindtijden van letters in het spraaksignaal; en tijdsduren in aantallen maal de op voorhand bepaalde tijdsduur.
9. De werkwijze volgens ten minste één van de voorgaande conclusies, verder omvattende hel bepalen van maxima en minima van het reflectiesignaal, en het op basis van de maxima en minima normaliseren van het reflectiesignaal.
10. De werkwijze volgens ten minste één van de voorgaande conclusies, verder omvattende: het op basis van het beslissen met w elke letter de in de spraak voorkomende combinatie van parameters van het spraaksignaal en van hel reflectiesignaal overeenkomt vormen van een voorselectie van daarop volgende kandidaat letters.
NL2021041A 2018-01-31 2018-06-01 Spraakherkenning met beeld signaal NL2021041B1 (nl)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/IB2019/050626 WO2019150234A1 (en) 2018-01-31 2019-01-25 Speech recognition with image signal
US16/962,734 US11114101B2 (en) 2018-01-31 2019-01-25 Speech recognition with image signal
EP19706316.7A EP3747007A1 (en) 2018-01-31 2019-01-25 Speech recognition with image signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NL2020358 2018-01-31

Publications (1)

Publication Number Publication Date
NL2021041B1 true NL2021041B1 (nl) 2019-08-07

Family

ID=62751516

Family Applications (1)

Application Number Title Priority Date Filing Date
NL2021041A NL2021041B1 (nl) 2018-01-31 2018-06-01 Spraakherkenning met beeld signaal

Country Status (3)

Country Link
US (1) US11114101B2 (nl)
EP (1) EP3747007A1 (nl)
NL (1) NL2021041B1 (nl)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615786B2 (en) * 2019-03-05 2023-03-28 Medyug Technology Private Limited System to convert phonemes into phonetics-based words
US11908478B2 (en) * 2021-08-04 2024-02-20 Q (Cue) Ltd. Determining speech from facial skin movements using a housing supported by ear or associated with an earphone

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
WO1997029481A1 (en) * 1996-02-06 1997-08-14 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687280A (en) * 1992-11-02 1997-11-11 Matsushita Electric Industrial Co., Ltd. Speech input device including display of spatial displacement of lip position relative to predetermined position
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
CA2999499C (en) * 2013-03-15 2020-04-07 Sonovia Holdings Llc Light and ultrasonic transducer device
TWI576826B (zh) * 2014-07-28 2017-04-01 jing-feng Liu Discourse Recognition System and Unit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
WO1997029481A1 (en) * 1996-02-06 1997-08-14 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUCHNOWSKI P ET AL: "SEE ME, HEAR ME: INTEGRATING AUTOMATIC SPEECH RECOGNITION AND LIP-READING", ICSLP 94 : 1994 INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING. YOKOHAMA, JAPAN, SEPT. 18 - 22, 1994; [INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING. (ICSLP)], YOKOHAMA : ASJ, JP, vol. 2, 18 September 1994 (1994-09-18), pages 547 - 550, XP000855307 *
LIU Z ET AL: "Classification TV programs based on audio information using hidden Markov model", MULTIMEDIA SIGNAL PROCESSING, 1998 IEEE SECOND WORKSHOP ON REDONDO BEACH, CA, USA 7-9 DEC. 1998, PISCATAWAY, NJ, USA,IEEE, US, 7 December 1998 (1998-12-07), pages 27 - 32, XP010318313, ISBN: 978-0-7803-4919-3, DOI: 10.1109/MMSP.1998.738908 *

Also Published As

Publication number Publication date
US20200357407A1 (en) 2020-11-12
US11114101B2 (en) 2021-09-07
EP3747007A1 (en) 2020-12-09

Similar Documents

Publication Publication Date Title
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
Camastra et al. Machine learning for audio, image and video analysis: theory and applications
Kewley‐Port Time‐varying features as correlates of place of articulation in stop consonants
Krull Acoustic properties as predictors of perceptual responses: A study of Swedish voiced stops
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
Harrison Making accurate formant measurements: An empirical investigation of the influence of the measurement tool, analysis settings and speaker on formant measurements
NL2021041B1 (nl) Spraakherkenning met beeld signaal
KR20150076128A (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
US20120078625A1 (en) Waveform analysis of speech
Amin et al. Glottal and vocal tract characteristics of voice impersonators
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
JP3174777B2 (ja) 信号処理方法および装置
KR102484006B1 (ko) 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치
WO2019150234A1 (en) Speech recognition with image signal
Airas et al. Emotions in short vowel segments: effects of the glottal flow as reflected by the normalized amplitude quotient
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
Mellesmoen et al. Acoustically distinct and perceptually ambiguous: ʔayʔaǰuθəm (Salish) fricatives
CN115050387A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
WO2021218138A1 (zh) 歌曲合成方法、装置、设备及存储介质
CN113129923A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
Chien et al. An Acoustic-Phonetic Approach to Vocal Melody Extraction.
Selle Experiencing Sound: A Hybrid Approach to Electronic Music Analysis
Mills Cues to voicing contrasts in whispered Scottish obstruents
US20140207456A1 (en) Waveform analysis of speech

Legal Events

Date Code Title Description
MM Lapsed because of non-payment of the annual fee

Effective date: 20230701