NL192701C

NL192701C - Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.

Info

Publication number: NL192701C
Application number: NL8300718A
Authority: NL
Original assignee: Sony Corp
Priority date: 1982-02-25
Filing date: 1983-02-25
Publication date: 1997-12-02
Also published as: GB8305292D0; FR2522179A1; KR910002198B1; GB2153127A; NL192701B; GB2153127B; KR840003871A; JPS58145998A; DE3306730A1; GB8429480D0; GB2118343B; NL8300718A; CA1193732A; JPH0441356B2; FR2522179B1; DE3306730C2; GB2118343A; US4592085A

Description

1 192701

Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaa!

De uitvinding heeft betrekking op een werkwijze en een inrichting voor herkenning van een foneem in een stemsignaal onder vorming van een, het stemsignaal weergevend elektrisch signaal, waarbij de werkwijze 5 de volgende stappen omvat: extractie uit het elektrische signaal van een eerste akoestisch parametersignaal, dat een foneeminformatie van het stemsignaal vertegenwoordigt, waarbij een elektrisch signaal in analoge vorm wordt omgezet in een digitaal signaal, een aantal van dergelijke digitale signalen wordt opgeslagen, en het parametersignaal wordt gevormd door Fourier-transformatie van een aantal opgeslagen digitale signalen, 10 detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal, opwekking van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, opslag van het eerste akoestische parametersignaal, extractie, op basis van het indicatiesignaal, uit het opgeslagen eerste akoestische parametersignaal van een tweede akoestisch parametersignaal, dat ten 15 minste de stilte-foneem-overgang of de foneem-foneem-overgang van het eerste akoestische parameter bevat.

Verder betreft de uitvinding een inrichting voor herkenning van een foneem in een stemsignaal, waarbij deze inrichting de volgende stadia omvat: middelen voor extractie uit het elektrische signaal van een eerste akoestische parametersignaal, dat een 20 foneeminformatie van het stemsignaal vertegenwoordigt, waarbij de extractiemiddelen omvatten: omzet-middelen voor omzetting van het in analoge vorm verkerende elektrische signaal in een digitaal signaal, opslagmiddelen voor opslag van een aantal dergelijke digitale signalen, en extractiemiddelen voor vorming van het eerste akoestische parametersignaal door Fourier-transformatie van de opgeslagen digitale signalen, 25 detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal en voor afgifte van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, en opslagmiddelen voor opslag van het eerste akoestische parametersignaal en voor extractie op basis van het indicatiesignaal uit het opgeslagen signaal van een tweede akoestisch parametersignaal, dat ten minste de 30 stilte-foneem-overgang, of de foneem-foneem-overgang van het eerste akoestische parametersignaal bevat. Een dergelijke werkwijze en inrichting zijn bijvoorbeeld bekend uit ’’Proceedings of the Seminar on Pattern Recognition”, Vol. 1, subnr. 30,19-20 november 1977, Sart-Tilman België, Sitel Ophain (BE); J.J. Mariani et al: "Reconnaissance automatique de la parole utilisant la notion de spectre differentiel”, blz.

4.3.1-4.3.10. Een nadeel van een dergelijke bekende inrichting is, dat deze onvoldoende betrouwbaar is. In 35 de bovengenoemde publicatie is zelfs sprake van een betrouwbaarheid van 90%, hetgeen inhoudt dat gemiddeld 1 op 10 klanken niet correct wordt gedetecteerd. Een dergelijke foutratio is onacceptabel hoog, aangezien hierdoor ten minste verwarring kan ontstaan.

De uitvinding beoogt een werkwijze en inrichting voor herkenning van een foneem in een stemsignaal onder vorming van een het stemsignaal weergevend elektrisch signaal met een hogere graad van 40 betrouwbaarheid te verschaffen, waarbij de werkwijze zich onderscheidt, doordat de detectie van een overgang plaatsvindt door: afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekening van het gemiddelde van de energieniveausignalen, gevolgd door berekening van een aantal 45 eerste verschilniveaus tussen het berekende gemiddelde van de energieniveausignalen en die respectieve energieniveausignalen, extractie van het laagste van de berekende eerste verschilniveaus, berekening van een aantal tweede verschilniveaus tussen dat laagste niveau en de respectieve eerste verschilniveaus, 50 vorming van een overgangsdetectieparametersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetec-tieparametersignaal. In overeenstemming met de werkwijze onderscheidt de inrichting zich doordat de detectiemiddelen zijn voorzien van: 55 middelen voor afscheiding van een energieniveausignaal voor iedere van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekeningsmiddelen voor berekening van het gemiddelde van de energieniveausignalen en voor bereke- 192701 2 ning van een aantal eerste verschilniveaus tussen dat gemiddelde en de respectieve energieniveausignalen, extractiemiddelen voor extractie van het laagste van de eerste verschilniveaus, berekeningsmiddelen voor berekening van een aantal tweede verschilniveaus tussen het geëxtraheerde laagste niveau en de respectieve eerste verschilniveaus en voor afgifte van een overgangsdetectieparame-5 tersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetectieparametersignaal en voor afgifte van het indicatiesignaal.

Met een inrichting en een werkwijze volgens de onderhavige uitvinding is het mogelijk een betrouwbaarst? heid te behalen van bij benadering 98,2%, hetgeen een aanzienlijke verbetering ten opzichte van bekende werkwijzen en inrichting betekent.

De uitvinding zal worden verduidelijkt in de nu volgende beschrijving aan de hand van de tekening. Daarin tonen: 15 figuren 1A en 1B schematische weergaven van foneem-veranderingen ter verduidelijking van de foneemherkenningswijze volgens de uitvinding, figuur 2 een blokschema van een uitvoeringsvorm van een foneemherkenningsinrichting volgens de uitvinding, figuren 3A-3H enige schematische weergaven van het ontstaan van akoestische parameterwaarden ter 20 verduidelijking van de werking van een foneemherkenningsinrichting volgens de uitvinding, figuur 4 een tabel ter verduidelijking van de werking van een foneemherkenningswijze volgens de uitvinding, figuren 5A-5I enige grafieken ter verduidelijking van een foneemherkenningswijze volgens de uitvinding, figuur 6 een principeblokschema van een foneemovergangsdetectieschakeling ten behoeve van een 25 foneemherkenningsinrichting volgens de uitvinding en figuren 7A-7C enige grafieken van de relatie tussen een foneem en een gedetecteerde parameterwaarde ter verduidelijking van de foneemherkenningswijze volgens de uitvinding.

Voorafgaande aan een meer gedetailleerde beschrijving van de uitvinding wordt eerst ingegaan op de wijze, 30 waarop geluiden (tijdens het spreken) worden geuit.

In de eerste plaats kan worden opgemerkt, dat een geluid kan worden geuit, respectievelijk uitgesproken met grote nadruk op de afzonderlijke klinkers en medeklinkers (S, H, enz.). Zo kan bijvoorbeeld bij de uitspraak van het woord ”HAI” het geluid op de in figuur 1A schematisch weergegeven wijze variëren volgens "stilte —> H -> A -> I —> stilte”. In de tweede plaats kan het geluid bij de uitspraak van 35 hetzelfde woord ”HAI” op de in figuur 1B schematisch weergegeven wijze variëren. Hieruit komt naar voren, dat een quasi-stationair deel of segment, bestaande uit foneemgeluiden zoals Η,Α,Ι e.d., van uitspraak tot uitspraak in lengte (tijdsduur) kan variëren, terwijl een stilte-foneem-overgang of een foneem-foneem-overgang, dat wil zeggen het tussen de quasi-stationaire delen of segmenten in de figuren 1A en 1B met een schuine lijn gemarkeerde deel of segment, een lengte of tijdsduur vertoont, welke van uitspraak tot 40 uitspraak niet zeer sterk varieert.

Het voorgaande wil zeggen, dat bij uiting van een geluid wel een tijdbasisvariatie van de quasi-stationaire delen of segmenten optreedt, doch niet of in veel geringere mate in de stilte-foneem- of foneem-foneem-overgangen.

De uitvinding is op het zojuist gesignaleerde verschil gebaseerd, waartoe nu eerst naar het blokschema 45 volgens figuur 2 wordt verwezen.

In figuur 2 bevat een met een volle lijn getekend blok A een microfoon 1 en een daarop volgende microfoonversterker 2; het desbetreffende blok zet een stemgeluid in een elektrisch signaal om. Een met een volle lijn getekend blok B bevat een laagdoorlaatfilter 3, een analoog/digitaal-omzetter 4, een register 6, een snelle-Fourier-transformatieschakeling 8 (FFT) en een detector 9; het blok B abstraheert uit het 50 genoemde elektrische signaal een eerste akoestisch parametersignaal. Een met een volle lijn getekend blok C bevat een accentueringsschakeling 10 en een foneemovergangsdetectieschakeling 20; het blok C dient voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal. Een met een gebroken lijn getekend blok D bevat eveneens de genoemde accentueringsschakeling 10, een frequentiebanddeelschakeling 11, een logaritmische schakeling 12, een discrete-Fourier-55 transformatieschakeling 13 (DFT) en een geheugenschakeling 14; het blok D dient voor detectie van een tweede akoestisch parametersignaal in het eerste akoestische parametersignaal op basis van een door de detectieschakeling 20 afgegeven signaal.

3 192701

Een van de microfoon 1 afkomstig stemsignaal wordt via de microfoonversterker 2 en het laagdoorlaat-filter 3 tot een frequentiewaarde van minder dan 5,5 kHz doorgelaten naar de analoog/digitaal-omzetter 4, welke van een klokimpulsgenerator 5 een bemonsterklokimpuls met een impulsherhalingsfrequentie van 12,5 kHz en een verschijningsinterval van 80 microseconden krijgt toegevoerd; daardoor wordt het 5 stemsignaal in het ritme van de bemonsterklokimpuls omgezet in een digitaal signaal met een voorafbepaald aantal bits per woord. Het aldus aan omzetting onderworpen stemsignaal wordt toegevoerd aan een schuifregister 6 met een capaciteit van 5 x 64 woorden; door de klokimpulsgenerator 5 wordt bovendien een frameklokimpuls met een verschijningsinterval van 5,12 milliseconden aan een telkens-vijf-teller 7 toegevoerd, waarvan het teluitgangssignaal aan het register 6 wordt toegevoerd, zodanig, dat daardoor het 10 stemsignaal met 64 woorden per keer wordt verschoven, zodat het register 6 een verschoven stemsignaal van 4 x 64 woorden afgeeft.

Dit verschoven stemsignaal van 4 x 64 = 256 woorden wordt toegevoerd aan de snelle-Fourier-transformatieschakeling 8 (FFT). Indien nu wordt aangenomen, dat een uit kleine nf monsterinformatie-waarden bestaande golfvormfunctie U, welke zich over een tijdsduur T uitstrekt, kan worden weergegeven 15 als: urfT(f) (1) dan leidt Fourier-transformatie van de golfvormfunctie tot een signaal, dat kan worden weergegeven als:

UntT(f) = ƒUnfT(f)e-2lAlt = UlnfT(f) + jU2nfT(f) (2) 20 Het uitgangssignaal van de snelle-Fourier-transformatieschakeling 8 wordt toegevoerd aan de ener-giespectrumsignaaldetectieschakeling 9, waarvan het uitgangssignaal een energiespectrumsignaal vormt, waarvoor geldt: |U2| = u2 infT(f) U2 2rrfT(f) (3)

Aangezien het uit deze Fourier-transformatie resulterende signaal symmetrisch ten opzichte van de 25 frequentie-as is, is de helft van de n{ uit de transformatie resulterende monsterwaarden redundant; uitsluiting van de helft van de n, monsterwaarden resulteert dan in de levering van 1/2nf informatiewaarden. Het 256-woordssignaal, dat aan de genoemde snelle-Fourier-transformatieschakeling 8 wordt toegevoerd, resulteert derhalve na de transformatie in een 128-woords energiespectrumsignaal.

Dit energiespectrumsignaal wordt toegevoerd aan de accentueringsschakeling 10, welke een zodanige 30 weging van het signaal uitvoert, dat correctie in gehoormatige zin wordt verkregen. Als voorbeeld van een dergelijke weging kan een correctie worden genoemd, waarbij bijvoorbeeld de hoogfrequentcomponent van het signaal wordt geaccentueerd.

Het aldus aan weging onderworpen signaal wordt toegevoerd aan de frequentiebanddeelschakeling 11, welke het signaal bijvoorbeeld verdeelt over 32 frequentiebanden volgens een voor geluidswaarneming 35 geschikte frequentie-mel-schaal. Wanneer deze frequentiebanden niet samenvallen met de deelpunten van het energiespectrum, wordt het signaal in zodanig frequentiebanden opgesplitst, dat met de verdeling van het signaal over de respectieve frequentiebanden overeenkomende signalen worden verkregen, zodanig, dat het oorspronkelijke 128-woords energiespectrumsignaal wordt gecomprimeerd tot een energiespectrumsignaal van 32 woorden met akoestische eigenschappen.

40 Dit laatstgenoemde signaal wordt toegevoerd aan de logaritmische schakeling 12 voor omzetting van ieder signaal in logaritmische waarden. De door de weging en dergelijke in de accentueringsschakeling 10 veroorzaakte redundantie van het energiespectrumsignaal wordt derhalve uitgesloten bij weergave van het gelogaritmiseerde energiespectrum log | U2r*T(f)| (4) 45 door de spectrumparameter x(i), waarbij i=0,1.....31. Deze spectrumparameter x(i) wordt toegevoerd aan de discrete-Fourier-transformatieschakeling 13 (DFT). Indien daarbij het aantal uit de verdeling resulterende frequentiebanden M bedraagt, voert de discrete-Fourier-transformatieschakeling 13 een discrete Fourier-analyse van 2M-2 punten uit, waarbij de M-dimensionale parameter x(i) (i = 0,1,...,M-1) als het reëele aantal in 2M-1 punten symmetrische parameterwaarden geldt. Dit wil zeggen: 50 2M—3 X(m) - ÊQ X(i)^2M - 2 ^ waarin Wijfje = e - j waarbij m = 0, 1.....2M-3.

Aangezien de functie, volgens welke de discrete Fourier-transformatie wordt uitgevoerd, als een even functie wordt beschouwd, leidt het voorgaande tot: 55 Wg|i,.2.cos(^jf) 192701 4 ___ττ .i.m.

= C0SW’ hetgeen leidt tot: y _ zlv3 v Ίτ-i-m 5 A(m> jtè X(i)C0S M-l (6)

Door deze discrete Fourier-transformatie (DFT) worden de akoestische parameterwaarden geëxtraheerd, welke de omhuilende van het spectrum karakteriseren.

Voor de spectrumparameter x(i), welke op de hier beschreven wijze aan discrete Fourier-transformatie onderworpen wordt, worden de waarden voor de P dimensies van O tot P-1 (bijvoorbeeld P=8), geëxtra-10 heerd en samengesteld tot de lokale parameter L(p) (p=0,1 ,...,P-1) van de gedaante: 2M-3 : _ ί-(ρ) = Σ *o)cos lair (7)

Het feit, dat de spectrumparameter symmetrisch is, leidt tot: *<i) “ X2m-i-2) (8) 15 hetgeen tot een verandering van de lokale param eterwaarden L(p) leidt tot: L(p)= χ(0) + Σ X(i) {cos + cos + X (M-1) cos waarin p=0,1,...,P-1.

Op deze wijze heeft compressie van het 32-woords signaal tot een P-woords signaal, bijvoorbeeld een 20 8-woords signaal, plaatsgevonden.

De desbetreffende lokale parameterwaarden L(p) worden toegevoerd aan de geheugenschakeling 14. Deze bevat een matrixverdeling van geheugensecties met bijvoorbeeld 16 rijen, welke elk uit P-woorden bestaan, waarin de lokale parameterwaarden L(p) voor iedere dimensie om de beurt worden opgeslagen; de frameklokimpuls met een verschijningsinterval van 5,12 milliseconden wordt door de genoemde klokimpuls-25 generator 5 geleverd, zodat de parameterwaarden van iedere rij in zijdelingse richting worden verplaatst. In de geheugenschakeling 14 vindt derhalve opslag plaats van de lokale parameterwaarden L(p) voor P dimensies met een interval van 5,12 milliseconden, dit geschiedt in de vorm van 16 frames (81,92 milliseconden). De desbetreffende lokale parameterwaarden L(p) worden bij het verschijnen van iedere volgende frameklokimpuls bijgewerkt.

30 Het bijvoorbeeld van de accentueringsschakeling 10 afkomstige signaal wordt bovendien toegevoerd aan de foneemovergangsdetectieschakeling 20 voor detectie van de overgang tussen opeenvolgende fonemen.

Het uitgangssignaal van de schakeling 20, respectievelijk het overgangsdetectiesignaal T(l), wordt toegevoerd aan de geheugenschakeling 14, zodanig, dat op het tijdstip, waarop de bij het verschijnen van dit detectiesignaal behorende lokale parameterwaarden L(p) naar de achtste rij wordt doorgeschoven, 35 uitlezing van de geheugenschakeling 14 plaatsvindt. Een dergelijke uitlezing van de geheugenschakeling 14 heeft de gedaante van de uitlezing van 16 frames in zijdelingse richting voor iedere dimensie P; de aldus uitgelezen signalen worden toegevoerd aan de discrete-Fourier-transformatieschakeling 15 (DFT).

Deze schakeling 15 voert op soortgelijke wijze discrete Fourier-transformatie uit, zodat de omhullende van de tijdsreeksverandering van de akoestische parameterwaarden wordt verkregen. Uit de desbetreffende 40 DFT-signalen worden de waarden voor Q dimensies van o tot Q-1 verkregen, waarbij bijvoorbeeld Q=3. Deze digitale Fourier-transformatie vindt voor iedere dimensie P plaats, waaruit overgangsparameter- waarden K<p p) resulteren (p=0, 1.....P-1 en q=0,1.....Q-1) voor in totaal P x Q (=24) woorden. Daarbij kunnen, aangezien K(0 0) de macht van de stemgolfvorm vertegenwoordigt, ter wille van energie-normalisering voor P0 de waarden q=l tot Q worden verkregen.

45 Onder verwijzing naar de schematische weergave volgens de figuren 3A-3H wordt opgemerkt, dat dit wil zeggen, dat wanneer de overgang volgens figuur 3B van een ingangsstemsignaal (HAI) volgens figuur 3A wordt gedetecteerd, het totale energiespectrum van dit signaal bijvoorbeeld de gedaante volgens figuur 3C heeft. Indien het energiespectrum van de overgang van ”H—>A” de gedaante volgens figuur 3D heeft, krijgt het desbetreffende signaal na accentuering de gedaante volgens figuur 3E; na compressie volgens de 50 mel-schaal resulteert de gedaante volgens figuur 3F. Het desbetreffende signaal krijgt na discrete Fourier-transformatie de gedaante volgens figuur 3G. De 16 voor- en achterframes van dit signaal hebben na matrixbewerking de gedaante volgens figuur 3H, waarna discrete Fourier-transformatie in de richting van de tijdbasis of as t tot de overgangsparameterwaarden q) leidt.

Deze overgangsparameterwaarden K(p p) worden toegevoerd aan een berekeningsschakeling 16 voor 55 berekening van de afstand volgens Mahalanobis; de berekeningsschakeling 16 krijgt bovendien van een geheugeninrichting 17 een ’’cluster coëfficiënt” toegevoerd voor berekening van de genoemde afstand volgens Mahalanobis voor ieder van deze coëfficiënten; bij een dergelijke berekening resulteert de i> 192701 desbetreffende coëfficiënt uit aftrekking van de overgangsparameterwaarden van de uitingen van verschillende sprekers, klassifikatie van de overgangsparameterwaarden op basis van het foneembestand en daarop volgende statistische analyse daarvan.

De berekende afstand volgens Mahalanobis wordt toegevoerd aan een evaluatieschakeling 18, waardoor 5 wordt onderzocht of een gedetecteerde overgang een foneem-foneem-overgang is; het detectie-uitgangssignaal komt ter beschikking aan een uitgangsaansluiting 19.

Meer in het bijzonder worden voor bijvoorbeeld de 12 woorden "HAI”, ΊΙΕ” en ”0(ZERO)”-"9(KYU)” de stemsignalen van een aantal (meer dan honderd) sprekers vooraf aan de beschreven inrichting toegevoerd, waarbij de optredende overgangen worden gedetecteerd en de desbetreffende overgangsparameterwaarden 10 worden geëxtraheerd. Deze overgangsparameterwaarden worden volgens een tabel, bijvoorbeeld de tabel volgens figuur 4, geclassificeerd en vervolgens voor iedere desbetreffende classificatie (cluster) aan statistische analyse onderworpen. In de tabel volgens figuur 4 heeft het symbool ·*· betrekking op stilte.

Voor de desbetreffende overgangsparameterwaarden wordt als arbitrair monster Rg (r=1,2,..,,24) en a vertegenwoordigt de clusterindex; a=1 komt bijvoorbeeld overeen met ·*· —> H, a=2 komt overeen met 15 H—>A en n vertegenwoordigt het aantal sprekers) de covariantiematrix

Ag = E(R(g - Rr(a') (R^ - R?5) (15) berekent, waarin R~<a) E = ^ en E een ensemble-gemiddelde vertegenwoordigt. Vervolgens wordt de inverse-matrix 20 Bias = Wai>r:1s9ezooht· <16)

Op deze wijze wordt de afstand tussen een willekeurige overgangsparameterwaarde K, en een cluster a verkregen als een Mahalanobis-afstand met de gedaante:

DfK,, a) Ξ Σ Σ (K, - R/*>). Bg . (K, - R^>) (17) bJ Γ s 5

Indien de genoemde Bg en Rg worden gezocht en vervolgens in de geheugeninrichting 17 worden opgeslagen, wordt de iviahalanobis-afstand tussen de willekeurige overgangsparameterwaarden van het ingangsstemsignaal en het cluster berekend door de berekeningsschakeling 16.

Deze laatstgenoemde schakeling verschaft derhalve voor ieder ontvangen stemsignaal de minimale 30 afstand van iedere overgangswaarde tot iedere cluster en voorts de volgorde van de overgangen; deze informaties worden vervolgens toegevoerd aan de evaluatieschakeling 18 voor herkenning en beoordeling wanneer het ontvangen stemsignaal stilvalt. Bijvoorbeeld wordt bij ieder woord de afstand berekend als de gemiddelde waarde van de vierkantswortel van de minimale afstand tussen de desbetreffende overgangsparameterwaarde en de clusters. Voor het geval, dat de overgangen gedeeltelijk wegvallen, wordt de 33 woordafstand van het woord onderzocht voor een aantal mogelijk vervallen types. Daarbij wordt echter een woord met een van die volgens de tabel afwijkende volgorde van overgangswaarden afgewezen. Vervolgens wordt het woord met de minimale woordafstand herkend en onderzocht.

Bij een inrichting volgens de uitvinding zal derhalve, aangezien detectie van foneemverandering aan de overgangen van het foneem wordt toegepast, nimmer een tijdbasisschommeling optreden, zodat de van 40 ongeïdentificeerde sprekers afkomstige fonemen op bevredigende wijze kunnen worden herkend.

Aangezien de parameterwaarden op de beschreven wijze bij de overgangen worden geëxtraheerd, kan iedere overgang in 24 dimensies worden herkend, met als gevolg, dat de herkenning gemakkelijk en met hoge nauwkeurigheid geschiedt.

Met behulp van de hiervoor beschreven inrichting volgens de uitvinding werd bij een beproeving, waarin 43 in eerste instantie 120 sprekers deelnamen en vervolgens andere sprekers dan deze 120 aan een onderzoek met 120 woorden werden onderworpen, een gemiddeld herkenningspercentage van 98,2% bereikt.

Bij het hiervoor beschreven voorbeeld kunnen de overgangen "H—>A” in ”HAI” en ”H—>A” in ”8(HACHI)” beide als tot hetzelfde cluster behorend worden geclassificeerd. Indien nu het aantal fonemen 50 van te herkennen woorden α bedraagt en vooraf clusters van ongeveer α P2 fonemen vooraf worden berekend, waarna de daarbij gevonden clustercoëfficiënt in de geheugeninrichting 17 wordt opgeslagen, is dit voldoende voor de herkenning van verschillende woorden, welke vervolgens zonder problemen kunnen worden herkend.

Figuur 6 toont een principeblokschema van een foneemovergangsdetectieschakeling 20, welke bij de 55 foneemherkenningsinrichting volgens de uitvinding kan worden toegepast.

Voorafgaande aan de beschrijving van een dergelijk foneemovergangsdetectieschakeling 20 wordt eerst 192701 6 opgemerkt, dat volgens een gebruikelijke methode van overgangsdetectie gebruik gemaakt wordt van de som van de veranderingshoeveelheden van bijvoorbeeld de akoestische parameterwaarden L(p). Dit wil zeggen, dat wanneer voor ieder frame de parameterwaarden voor P dimensies worden afgetrokken, waarbij de parameter voor het frame G de waarde L(p) (G), waarbij p=0,1,...,P-1, de overgangsdetectie plaatsvindt 5 op basis van de som van de absolute waarden van de verschilhoeveelheden, welke som wordt bepaald door: T(G) = Smp)(G)-^(G-1)| (g,}

Wanneer P=1, dat wil zeggen één dimensie betreft, zoals de figuren 5A en 5B laten zien, worden de 10 piekwaarden van de parameter T(G) verkregen in de punten, waarin de parameterwaarden L(p) (G) verandert. Wanneer P=2, respectievelijk sprake van twee dimensies is, zal de parameterwaarde T(G), indien ondanks soortgelijke verandering als hiervoor van de parameterwaarden L(0) (G) en L(1) (G) voor 0 en 1 volgens respectievelijk de figuren 5C en 5D optreedt, de verschilhoeveelheden volgens de respectieve figuren 5E en 5F veranderen, twee pieken vertonen, zodat geen overgang voor één punt kan worden 15 bepaald. Dit verschijnsel zal bijvoorbeeld optreden wanneer de parameterwaarden voor meer dan twee dimensies worden genomen.

Hoewel bij een dergelijke beschouwing tewerk gegaan wordt, alsof de parameterwaarden L(p) (G) een continue gedrag vertoont, vertoont de parameterwaarde L(p) (G) in de praktijk een verandering in discrete stappen. Voorts kan algemeen gesteld worden, dat een foneem een betrekkelijk geringe fluctuatie vertoont, 20 zodat de parameterwaarde L(p) (G) in de praktijk verandert als weergegeven in figuur 5H, hetgeen leidt tot het optreden van een aantal pieken en dalen in de gedetecteerde parameterwaarde T(G), zoals figuur 5I laat zien.

Als gevolg daarvan vertoont een dergelijke methode de nadelen, dat geen nauwkeurige detectie wordt verkregen en het detectieniveau niet stabiel is.

25 In verband daarmede bevat een foneemovergangsdetectieschakeling 20 volgens de onderhavige uitvinding enige deelschakelingen, welke een gemakkelijke en stabiele foneemovergangsdetectie mogelijk maken.

Bij de foneemovergangsdetectieschakeling volgens figuur 6 wordt het van de accentueringsschakeling 10 volgens figuur 2 afkomstige, gewogen signaal via een ingangsaansluiting 21 -a toegevoerd aan een 30 banddeelschakeling 21, waardoor het signaal in N (bijvoorbeeld 20) banden wordt verdeeld volgens de mel-schaal, waaruit een aan de signaal hoeveelheid per respectieve band toegevoegd signaal V(n) resulteert, waarbij n=0,1,...,N-1. Dit signaal V(n) wordt toegevoerd aan een instelspanningslogaritmescha-keling 22 ter verkrijging van een signaal v'(n> = log (v(n) + B) (10) 35 Het signaal V(n) wordt tevens toegevoerd aan een accumulator 23 voor vorming van een signaal V(a) van de gedaante: 20

Va = Σ V(n)/20 n-i

Toevoer van dit signaal Va aan de instelspanningslogaritmeschakeling 22 levert als resultaat: 40 V'a = log (Va + B) (11)

Verdere toevoer van deze signalen aan een bewerkingsschakeling 24 leidt tot: v(n) = V'a-v'n (12)

Het hiervoor beschreven gebruik van het door de banddeelschakeling 21 geleverde signaal V(n) heeft tot gevolg, dat de veranderingshoeveelheid voor iedere dimensie (n=0,1,...,N-1) van dit signaal voor de 45 overgang van foneem tot foneem in bij benadering dezelfde mate wordt verminderd, zodanig, dat de door verschillen tussen fonemen veroorzaakte veranderingshoeveelheid geen spreidingsverschijnselen gaat vertonen. Aangezien eerst wordt gelogaritmiseerd en vervolgens de berekening wordt uitgevoerd voor vorming van de genormaliseerde parameterwaarde v(n), kan worden voorkomen, dat deze parameterwaarden v(n) met veranderingen in het niveau van een ontvangen stemsignaal fluctueert. Aangezien de 50 berekening wordt uitgevoerd onder toevoeging van een instelspanningsniveau B, is het mogelijk, zoals duidelijk wordt uit het feit dat voor B—>°°, v(n)—>0, de gevoeligheid voor betrekkelijk zwakke componenten (ruis en dergelijke) van het ontvangen stemsignaal te verminderen.

De parameterwaarden v(n) worden toegevoerd aan een geheugeninrichting 25 met een capaciteit voor opslag van parameterwaarden voor 2w + 1 (bijvoorbeeld 9) frames. Het uit deze opslag resulterende signaal 55 wordt toegevoerd aan een bewerkingsschakeling 26 voor vorming van een signaal: na

Yn.t = lcGFN Cv(n) {!)} (13)

Claims

1. Werkwijze voor herkenning van een foneem in een stemsignaal onder vorming van een, het stemsignaal weergevend, elektrisch signaal, omvattende de volgende stappen: extractie uit het elektrische signaal van een eerste akoestisch parametersignaal, dat een foneem-informatie van het stemsignaal vertegenwoordigt, waarbij een elektrisch signaal in analoge vorm wordt 40 omgezet in een digitaal signaal, een aantal van dergelijke digitale signalen wordt opgeslagen, en het parametersignaal wordt gevormd door Fourier-transformatie van een aantal opgeslagen digitale signalen, detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal, opwekking van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, 45 opslag van het eerste akoestische parametersignaal, extractie, op basis van het indicatiesignaal, uit het opgeslagen eerste akoestische parametersignaal van een tweede akoestische parametersignaal, dat ten minste de stilte-foneem-overgang of de foneem-foneem-overgang van het eerste akoestisch parametersignaal bevat, met het kenmerk, dat de detectie van een overgang plaatsvindt door: afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste 50 akoestische parametersignaal, berekening van het gemiddelde van de energieniveausignalen, gevolgd door berekening van een aantal eerste verschilniveaus tussen het berekende gemiddelde van de energieniveausignalen en die respectieve energieniveausignalen, extractie van het laagste van de berekende eerste verschilniveaus, 55 berekening van een aantal tweede verschilniveaus tussen dat laagste niveau en de respectieve eerste verschilniveaus, vorming van een overgangsdetectieparametersignaal op basis van de tweede verschilniveaus voor de 192701 8 energieniveausignalen van het eerste akoestische parametersignaal, en door detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsde-tectieparametersignaal.

2. Herkenningswijze volgens conclusie 1, met het kenmerk, dat detectie van een overgang geschiedt door 5 accentuering van het energieniveau van het eerste akoestische parametersignaal.

3. Herkenningswijze volgens conclusie 1 of 2, met het kenmerk, dat de opslag van het eerste akoestische parametersignaal geschiedt door: scheiding van het eerste akoestische parametersignaal in een aantal frequentiebandsignalen, omzetting van de frequentiebandsignalen door Fourier-transformatie in een derde akoestische parameter-10 signaal, en door ontvangst van het derde akoestische parametersignaal en opslag van een aantal dergelijke derde akoestische parametersignalen.

4. Herkenningswijze volgens conclusie 3, gekenmerkt door weging van het eerste akoestische parametersignaal.

5. Inrichting voor elektrische herkenning van een foneem in een stemsignaal, voorzien van middelen voor vorming van een het stemsignaal weergevend elektrisch signaal, omvattende de volgende stadia: middelen voor extractie uit het elektrische signaal van een eerste akoestische parametersignaal, dat een foneeminformatie van het stemsignaal vertegenwoordigt, waarbij de extractiemiddelen omvatten: omzetmiddelen voor omzetting van het in analoge vorm verkerende elektrische signaal in een digitaal 20 signaal, opslagmiddeien voor opslag van een aantal dergelijke digitale signalen, en extractiemiddelen voor vorming van het eerste akoestische parametersignaal door Fourier-transformatie van de opgeslagen digitale signalen, detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal en voor afgifte van een indicatiesignaal, dat het optreden van een 25 dergelijke onvergang aanwijst, en opslagmiddeien voor opslag van het eerste akoestische parametersignaal en voor extractie op basis van het indicatiesignaal uit het opgeslagen signaal van een tweede akoestisch parametersignaal, dat tenminste de stilte-foneem-overgang, of de foneem-foneem-overgang van het eerste akoestische parametersignaal bevat, met het kenmerk, dat de detectiemiddelen omvatten: 30 middelen voor afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekeningsmiddelen voor berekening van het gemiddelde van de energieniveausignalen en voor berekening van een aantal eerste verschilniveaus tussen dat gemiddelde en de respectieve energieniveausignalen, 35 extractiemiddelen voor extractie van het laagste van de eerste verschilniveaus, berekeningsmiddelen voor het berekenen van een aantal tweede verschilniveaus tussen het geëxtraheerde laagste niveau en de respectieve eerste verschilniveaus en voor afgifte van een overgangsdetec-tieparametersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en 40 detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetectieparametersignaal en voor afgifte van het indicatiesignaal.

6. Herkenningsinrichting volgens conclusie 5, met het kenmerk, dat de detectiemiddelen middelen voor accentuering van het energieniveau van het eerste akoestische parametersignaal omvatten.

7. Herkenningsinrichting volgens conclusie 5 of 6, met het kenmerk, dat de opslagmiddeien omvatten: 45 scheidingsmiddelen voor scheiding van het eerste akoestische parametersignaal en een aantal energieniveausignalen, omzetmiddelen voor omzetting van de energieniveausignalen met behulp van Fourier-transformatie in een derde akoestische parametersignaal, en opslagmiddeien voor opslag van een aantal dergelijke derde akoestische parametersignalen.

7 192701 waarin GFN = {l;-w + t i \é w + t} Toevoer van dit uitgangssignaal van de bewerkingsschakeling 26 en het rechtstreeks van de geheugen-inrichting 25 afkomstige parametersignaal Y(e) aan een bewerkingsschakeling 27 levert een signaal: T(„ = ï l (v(n)o+t) —Yn,t) (14) g n-0 i--W v ' Dit signaal T(t) vormt de overgangsdetectieparameterwaarde en wordt toegevoerd aan een piekwaarde-evaluatieschakeling 28 voor detectie van een foneemovergang in het ingangsstemsignaal, dat vervolgens aan een uitgangsaansluiting 29 ter beschikking komt voor toevoer aan de uitgangsschakeling van de geheugeninrichting 14 volgens figuur 2.

10 Aangezien de parameterwaarde T(t) wordt bepaald door w frames, ieder over het frame t, treden geen onnoodzakelijke "holten”, "bolten" en "multipolen” op. De figuren 7A-7C verduidelijken het geval, waarin de uitspraak of uiting van bijvoorbeeld het woord "ZERO” wordt opgenomen als 12-bits digitale informatie met een bemonsterfrequentie van 12,5 kHz; de informatie wordt voor 256 punten aan snelle Fourier-transformatie onderworpen met een frameperiodeduur van 5,12 milliseconden, terwijl de beschreven 15 detectie wordt uitgevoerd voor een aantal banden N=20, een instelspanningswaarde B=0 en een aantal gedetecteerde frames van 2w+1=9. Figuur 7A toont de stemgeluidsgolfvormen, figuur 7B de fonemen en figuur 7C het gedetecteerde signaal, waarin de opmerkelijke piekwaarden optreden bij de respectieve overgangen "stilte—>Z”, ”Z—>E”, ”E—>R”, ”R—>0” en ”0—>stilte”. Hoewel in het stilte-deel als gevolg van ruis enige pieken en dalen voorkomen, kunnen deze praktisch tot nagenoeg de waarde nul worden 20 teruggebracht door verhoging van het instelspanningsniveau B, zoals met een gebroken lijn in figuur 7C is aangeduid. Het voorgaande beschrijft de detectie van foneemovergangen. Bij de daartoe toegepaste foneemover-gangsdetectieschakeling 20 volgens de uitvinding is stabiele detectie van foneemovergangen met geringe schommeling van de detectieparameterwaarden als gevolg van verschillen in fonemen en van optredende 25 niveauveranderingen op ieder ogenblik mogelijk. Bovendien beperkt de foneemovergangsdetectie volgens de uitvinding zich niet tot de hiervoor beschreven foneemherkenningswijze, doch kan een dergelijke detectie eveneens worden toegepast in gevallen, waarin het stationaire segment of deel tussen gedetecteerde overgangen zelf het object van detectie vormt en de tijdbases van de stationaire segmenten aan elkaar worden aangepast door gebruikmaking van de 30 gedetecteerde overgangen. De foneemovergangsdetectieschakeling volgens de uitvinding kan bovendien met voordeel worden toegepast bij de analyse van overgangen in geval van stemgeluidssynthese. 35

8. Herkenningsinrichting volgens conclusie 7, gekenmerkt door weegmiddelen voor weging van het eerste akoestische parametersignaal. Hierbij 6 bladen tekening