NL192701C - Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal. - Google Patents

Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal. Download PDF

Info

Publication number
NL192701C
NL192701C NL8300718A NL8300718A NL192701C NL 192701 C NL192701 C NL 192701C NL 8300718 A NL8300718 A NL 8300718A NL 8300718 A NL8300718 A NL 8300718A NL 192701 C NL192701 C NL 192701C
Authority
NL
Netherlands
Prior art keywords
signal
phoneme
transition
acoustic parameter
detection
Prior art date
Application number
NL8300718A
Other languages
English (en)
Other versions
NL192701B (nl
NL8300718A (nl
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of NL8300718A publication Critical patent/NL8300718A/nl
Publication of NL192701B publication Critical patent/NL192701B/nl
Application granted granted Critical
Publication of NL192701C publication Critical patent/NL192701C/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

1 192701
Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaa!
De uitvinding heeft betrekking op een werkwijze en een inrichting voor herkenning van een foneem in een stemsignaal onder vorming van een, het stemsignaal weergevend elektrisch signaal, waarbij de werkwijze 5 de volgende stappen omvat: extractie uit het elektrische signaal van een eerste akoestisch parametersignaal, dat een foneeminformatie van het stemsignaal vertegenwoordigt, waarbij een elektrisch signaal in analoge vorm wordt omgezet in een digitaal signaal, een aantal van dergelijke digitale signalen wordt opgeslagen, en het parametersignaal wordt gevormd door Fourier-transformatie van een aantal opgeslagen digitale signalen, 10 detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal, opwekking van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, opslag van het eerste akoestische parametersignaal, extractie, op basis van het indicatiesignaal, uit het opgeslagen eerste akoestische parametersignaal van een tweede akoestisch parametersignaal, dat ten 15 minste de stilte-foneem-overgang of de foneem-foneem-overgang van het eerste akoestische parameter bevat.
Verder betreft de uitvinding een inrichting voor herkenning van een foneem in een stemsignaal, waarbij deze inrichting de volgende stadia omvat: middelen voor extractie uit het elektrische signaal van een eerste akoestische parametersignaal, dat een 20 foneeminformatie van het stemsignaal vertegenwoordigt, waarbij de extractiemiddelen omvatten: omzet-middelen voor omzetting van het in analoge vorm verkerende elektrische signaal in een digitaal signaal, opslagmiddelen voor opslag van een aantal dergelijke digitale signalen, en extractiemiddelen voor vorming van het eerste akoestische parametersignaal door Fourier-transformatie van de opgeslagen digitale signalen, 25 detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal en voor afgifte van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, en opslagmiddelen voor opslag van het eerste akoestische parametersignaal en voor extractie op basis van het indicatiesignaal uit het opgeslagen signaal van een tweede akoestisch parametersignaal, dat ten minste de 30 stilte-foneem-overgang, of de foneem-foneem-overgang van het eerste akoestische parametersignaal bevat. Een dergelijke werkwijze en inrichting zijn bijvoorbeeld bekend uit ’’Proceedings of the Seminar on Pattern Recognition”, Vol. 1, subnr. 30,19-20 november 1977, Sart-Tilman België, Sitel Ophain (BE); J.J. Mariani et al: "Reconnaissance automatique de la parole utilisant la notion de spectre differentiel”, blz.
4.3.1-4.3.10. Een nadeel van een dergelijke bekende inrichting is, dat deze onvoldoende betrouwbaar is. In 35 de bovengenoemde publicatie is zelfs sprake van een betrouwbaarheid van 90%, hetgeen inhoudt dat gemiddeld 1 op 10 klanken niet correct wordt gedetecteerd. Een dergelijke foutratio is onacceptabel hoog, aangezien hierdoor ten minste verwarring kan ontstaan.
De uitvinding beoogt een werkwijze en inrichting voor herkenning van een foneem in een stemsignaal onder vorming van een het stemsignaal weergevend elektrisch signaal met een hogere graad van 40 betrouwbaarheid te verschaffen, waarbij de werkwijze zich onderscheidt, doordat de detectie van een overgang plaatsvindt door: afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekening van het gemiddelde van de energieniveausignalen, gevolgd door berekening van een aantal 45 eerste verschilniveaus tussen het berekende gemiddelde van de energieniveausignalen en die respectieve energieniveausignalen, extractie van het laagste van de berekende eerste verschilniveaus, berekening van een aantal tweede verschilniveaus tussen dat laagste niveau en de respectieve eerste verschilniveaus, 50 vorming van een overgangsdetectieparametersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetec-tieparametersignaal. In overeenstemming met de werkwijze onderscheidt de inrichting zich doordat de detectiemiddelen zijn voorzien van: 55 middelen voor afscheiding van een energieniveausignaal voor iedere van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekeningsmiddelen voor berekening van het gemiddelde van de energieniveausignalen en voor bereke- 192701 2 ning van een aantal eerste verschilniveaus tussen dat gemiddelde en de respectieve energieniveausignalen, extractiemiddelen voor extractie van het laagste van de eerste verschilniveaus, berekeningsmiddelen voor berekening van een aantal tweede verschilniveaus tussen het geëxtraheerde laagste niveau en de respectieve eerste verschilniveaus en voor afgifte van een overgangsdetectieparame-5 tersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetectieparametersignaal en voor afgifte van het indicatiesignaal.
Met een inrichting en een werkwijze volgens de onderhavige uitvinding is het mogelijk een betrouwbaarst? heid te behalen van bij benadering 98,2%, hetgeen een aanzienlijke verbetering ten opzichte van bekende werkwijzen en inrichting betekent.
De uitvinding zal worden verduidelijkt in de nu volgende beschrijving aan de hand van de tekening. Daarin tonen: 15 figuren 1A en 1B schematische weergaven van foneem-veranderingen ter verduidelijking van de foneemherkenningswijze volgens de uitvinding, figuur 2 een blokschema van een uitvoeringsvorm van een foneemherkenningsinrichting volgens de uitvinding, figuren 3A-3H enige schematische weergaven van het ontstaan van akoestische parameterwaarden ter 20 verduidelijking van de werking van een foneemherkenningsinrichting volgens de uitvinding, figuur 4 een tabel ter verduidelijking van de werking van een foneemherkenningswijze volgens de uitvinding, figuren 5A-5I enige grafieken ter verduidelijking van een foneemherkenningswijze volgens de uitvinding, figuur 6 een principeblokschema van een foneemovergangsdetectieschakeling ten behoeve van een 25 foneemherkenningsinrichting volgens de uitvinding en figuren 7A-7C enige grafieken van de relatie tussen een foneem en een gedetecteerde parameterwaarde ter verduidelijking van de foneemherkenningswijze volgens de uitvinding.
Voorafgaande aan een meer gedetailleerde beschrijving van de uitvinding wordt eerst ingegaan op de wijze, 30 waarop geluiden (tijdens het spreken) worden geuit.
In de eerste plaats kan worden opgemerkt, dat een geluid kan worden geuit, respectievelijk uitgesproken met grote nadruk op de afzonderlijke klinkers en medeklinkers (S, H, enz.). Zo kan bijvoorbeeld bij de uitspraak van het woord ”HAI” het geluid op de in figuur 1A schematisch weergegeven wijze variëren volgens "stilte —> H -> A -> I —> stilte”. In de tweede plaats kan het geluid bij de uitspraak van 35 hetzelfde woord ”HAI” op de in figuur 1B schematisch weergegeven wijze variëren. Hieruit komt naar voren, dat een quasi-stationair deel of segment, bestaande uit foneemgeluiden zoals Η,Α,Ι e.d., van uitspraak tot uitspraak in lengte (tijdsduur) kan variëren, terwijl een stilte-foneem-overgang of een foneem-foneem-overgang, dat wil zeggen het tussen de quasi-stationaire delen of segmenten in de figuren 1A en 1B met een schuine lijn gemarkeerde deel of segment, een lengte of tijdsduur vertoont, welke van uitspraak tot 40 uitspraak niet zeer sterk varieert.
Het voorgaande wil zeggen, dat bij uiting van een geluid wel een tijdbasisvariatie van de quasi-stationaire delen of segmenten optreedt, doch niet of in veel geringere mate in de stilte-foneem- of foneem-foneem-overgangen.
De uitvinding is op het zojuist gesignaleerde verschil gebaseerd, waartoe nu eerst naar het blokschema 45 volgens figuur 2 wordt verwezen.
In figuur 2 bevat een met een volle lijn getekend blok A een microfoon 1 en een daarop volgende microfoonversterker 2; het desbetreffende blok zet een stemgeluid in een elektrisch signaal om. Een met een volle lijn getekend blok B bevat een laagdoorlaatfilter 3, een analoog/digitaal-omzetter 4, een register 6, een snelle-Fourier-transformatieschakeling 8 (FFT) en een detector 9; het blok B abstraheert uit het 50 genoemde elektrische signaal een eerste akoestisch parametersignaal. Een met een volle lijn getekend blok C bevat een accentueringsschakeling 10 en een foneemovergangsdetectieschakeling 20; het blok C dient voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal. Een met een gebroken lijn getekend blok D bevat eveneens de genoemde accentueringsschakeling 10, een frequentiebanddeelschakeling 11, een logaritmische schakeling 12, een discrete-Fourier-55 transformatieschakeling 13 (DFT) en een geheugenschakeling 14; het blok D dient voor detectie van een tweede akoestisch parametersignaal in het eerste akoestische parametersignaal op basis van een door de detectieschakeling 20 afgegeven signaal.
3 192701
Een van de microfoon 1 afkomstig stemsignaal wordt via de microfoonversterker 2 en het laagdoorlaat-filter 3 tot een frequentiewaarde van minder dan 5,5 kHz doorgelaten naar de analoog/digitaal-omzetter 4, welke van een klokimpulsgenerator 5 een bemonsterklokimpuls met een impulsherhalingsfrequentie van 12,5 kHz en een verschijningsinterval van 80 microseconden krijgt toegevoerd; daardoor wordt het 5 stemsignaal in het ritme van de bemonsterklokimpuls omgezet in een digitaal signaal met een voorafbepaald aantal bits per woord. Het aldus aan omzetting onderworpen stemsignaal wordt toegevoerd aan een schuifregister 6 met een capaciteit van 5 x 64 woorden; door de klokimpulsgenerator 5 wordt bovendien een frameklokimpuls met een verschijningsinterval van 5,12 milliseconden aan een telkens-vijf-teller 7 toegevoerd, waarvan het teluitgangssignaal aan het register 6 wordt toegevoerd, zodanig, dat daardoor het 10 stemsignaal met 64 woorden per keer wordt verschoven, zodat het register 6 een verschoven stemsignaal van 4 x 64 woorden afgeeft.
Dit verschoven stemsignaal van 4 x 64 = 256 woorden wordt toegevoerd aan de snelle-Fourier-transformatieschakeling 8 (FFT). Indien nu wordt aangenomen, dat een uit kleine nf monsterinformatie-waarden bestaande golfvormfunctie U, welke zich over een tijdsduur T uitstrekt, kan worden weergegeven 15 als: urfT(f) (1) dan leidt Fourier-transformatie van de golfvormfunctie tot een signaal, dat kan worden weergegeven als:
UntT(f) = ƒUnfT(f)e-2lAlt = UlnfT(f) + jU2nfT(f) (2) 20 Het uitgangssignaal van de snelle-Fourier-transformatieschakeling 8 wordt toegevoerd aan de ener-giespectrumsignaaldetectieschakeling 9, waarvan het uitgangssignaal een energiespectrumsignaal vormt, waarvoor geldt: |U2| = u2 infT(f) U2 2rrfT(f) (3)
Aangezien het uit deze Fourier-transformatie resulterende signaal symmetrisch ten opzichte van de 25 frequentie-as is, is de helft van de n{ uit de transformatie resulterende monsterwaarden redundant; uitsluiting van de helft van de n, monsterwaarden resulteert dan in de levering van 1/2nf informatiewaarden. Het 256-woordssignaal, dat aan de genoemde snelle-Fourier-transformatieschakeling 8 wordt toegevoerd, resulteert derhalve na de transformatie in een 128-woords energiespectrumsignaal.
Dit energiespectrumsignaal wordt toegevoerd aan de accentueringsschakeling 10, welke een zodanige 30 weging van het signaal uitvoert, dat correctie in gehoormatige zin wordt verkregen. Als voorbeeld van een dergelijke weging kan een correctie worden genoemd, waarbij bijvoorbeeld de hoogfrequentcomponent van het signaal wordt geaccentueerd.
Het aldus aan weging onderworpen signaal wordt toegevoerd aan de frequentiebanddeelschakeling 11, welke het signaal bijvoorbeeld verdeelt over 32 frequentiebanden volgens een voor geluidswaarneming 35 geschikte frequentie-mel-schaal. Wanneer deze frequentiebanden niet samenvallen met de deelpunten van het energiespectrum, wordt het signaal in zodanig frequentiebanden opgesplitst, dat met de verdeling van het signaal over de respectieve frequentiebanden overeenkomende signalen worden verkregen, zodanig, dat het oorspronkelijke 128-woords energiespectrumsignaal wordt gecomprimeerd tot een energiespectrumsignaal van 32 woorden met akoestische eigenschappen.
40 Dit laatstgenoemde signaal wordt toegevoerd aan de logaritmische schakeling 12 voor omzetting van ieder signaal in logaritmische waarden. De door de weging en dergelijke in de accentueringsschakeling 10 veroorzaakte redundantie van het energiespectrumsignaal wordt derhalve uitgesloten bij weergave van het gelogaritmiseerde energiespectrum log | U2r*T(f)| (4) 45 door de spectrumparameter x(i), waarbij i=0,1.....31. Deze spectrumparameter x(i) wordt toegevoerd aan de discrete-Fourier-transformatieschakeling 13 (DFT). Indien daarbij het aantal uit de verdeling resulterende frequentiebanden M bedraagt, voert de discrete-Fourier-transformatieschakeling 13 een discrete Fourier-analyse van 2M-2 punten uit, waarbij de M-dimensionale parameter x(i) (i = 0,1,...,M-1) als het reëele aantal in 2M-1 punten symmetrische parameterwaarden geldt. Dit wil zeggen: 50 2M—3 X(m) - ÊQ X(i)^2M - 2 ^ waarin Wijfje = e - j waarbij m = 0, 1.....2M-3.
Aangezien de functie, volgens welke de discrete Fourier-transformatie wordt uitgevoerd, als een even functie wordt beschouwd, leidt het voorgaande tot: 55 Wg|i,.2.cos(^jf) 192701 4 ___ττ .i.m.
= C0SW’ hetgeen leidt tot: y _ zlv3 v Ίτ-i-m 5 A(m> jtè X(i)C0S M-l (6)
Door deze discrete Fourier-transformatie (DFT) worden de akoestische parameterwaarden geëxtraheerd, welke de omhuilende van het spectrum karakteriseren.
Voor de spectrumparameter x(i), welke op de hier beschreven wijze aan discrete Fourier-transformatie onderworpen wordt, worden de waarden voor de P dimensies van O tot P-1 (bijvoorbeeld P=8), geëxtra-10 heerd en samengesteld tot de lokale parameter L(p) (p=0,1 ,...,P-1) van de gedaante: 2M-3 : _ ί-(ρ) = Σ *o)cos lair (7)
Het feit, dat de spectrumparameter symmetrisch is, leidt tot: *<i) “ X2m-i-2) (8) 15 hetgeen tot een verandering van de lokale param eterwaarden L(p) leidt tot: L(p)= χ(0) + Σ X(i) {cos + cos + X (M-1) cos waarin p=0,1,...,P-1.
Op deze wijze heeft compressie van het 32-woords signaal tot een P-woords signaal, bijvoorbeeld een 20 8-woords signaal, plaatsgevonden.
De desbetreffende lokale parameterwaarden L(p) worden toegevoerd aan de geheugenschakeling 14. Deze bevat een matrixverdeling van geheugensecties met bijvoorbeeld 16 rijen, welke elk uit P-woorden bestaan, waarin de lokale parameterwaarden L(p) voor iedere dimensie om de beurt worden opgeslagen; de frameklokimpuls met een verschijningsinterval van 5,12 milliseconden wordt door de genoemde klokimpuls-25 generator 5 geleverd, zodat de parameterwaarden van iedere rij in zijdelingse richting worden verplaatst. In de geheugenschakeling 14 vindt derhalve opslag plaats van de lokale parameterwaarden L(p) voor P dimensies met een interval van 5,12 milliseconden, dit geschiedt in de vorm van 16 frames (81,92 milliseconden). De desbetreffende lokale parameterwaarden L(p) worden bij het verschijnen van iedere volgende frameklokimpuls bijgewerkt.
30 Het bijvoorbeeld van de accentueringsschakeling 10 afkomstige signaal wordt bovendien toegevoerd aan de foneemovergangsdetectieschakeling 20 voor detectie van de overgang tussen opeenvolgende fonemen.
Het uitgangssignaal van de schakeling 20, respectievelijk het overgangsdetectiesignaal T(l), wordt toegevoerd aan de geheugenschakeling 14, zodanig, dat op het tijdstip, waarop de bij het verschijnen van dit detectiesignaal behorende lokale parameterwaarden L(p) naar de achtste rij wordt doorgeschoven, 35 uitlezing van de geheugenschakeling 14 plaatsvindt. Een dergelijke uitlezing van de geheugenschakeling 14 heeft de gedaante van de uitlezing van 16 frames in zijdelingse richting voor iedere dimensie P; de aldus uitgelezen signalen worden toegevoerd aan de discrete-Fourier-transformatieschakeling 15 (DFT).
Deze schakeling 15 voert op soortgelijke wijze discrete Fourier-transformatie uit, zodat de omhullende van de tijdsreeksverandering van de akoestische parameterwaarden wordt verkregen. Uit de desbetreffende 40 DFT-signalen worden de waarden voor Q dimensies van o tot Q-1 verkregen, waarbij bijvoorbeeld Q=3. Deze digitale Fourier-transformatie vindt voor iedere dimensie P plaats, waaruit overgangsparameter- waarden K<p p) resulteren (p=0, 1.....P-1 en q=0,1.....Q-1) voor in totaal P x Q (=24) woorden. Daarbij kunnen, aangezien K(0 0) de macht van de stemgolfvorm vertegenwoordigt, ter wille van energie-normalisering voor P0 de waarden q=l tot Q worden verkregen.
45 Onder verwijzing naar de schematische weergave volgens de figuren 3A-3H wordt opgemerkt, dat dit wil zeggen, dat wanneer de overgang volgens figuur 3B van een ingangsstemsignaal (HAI) volgens figuur 3A wordt gedetecteerd, het totale energiespectrum van dit signaal bijvoorbeeld de gedaante volgens figuur 3C heeft. Indien het energiespectrum van de overgang van ”H—>A” de gedaante volgens figuur 3D heeft, krijgt het desbetreffende signaal na accentuering de gedaante volgens figuur 3E; na compressie volgens de 50 mel-schaal resulteert de gedaante volgens figuur 3F. Het desbetreffende signaal krijgt na discrete Fourier-transformatie de gedaante volgens figuur 3G. De 16 voor- en achterframes van dit signaal hebben na matrixbewerking de gedaante volgens figuur 3H, waarna discrete Fourier-transformatie in de richting van de tijdbasis of as t tot de overgangsparameterwaarden q) leidt.
Deze overgangsparameterwaarden K(p p) worden toegevoerd aan een berekeningsschakeling 16 voor 55 berekening van de afstand volgens Mahalanobis; de berekeningsschakeling 16 krijgt bovendien van een geheugeninrichting 17 een ’’cluster coëfficiënt” toegevoerd voor berekening van de genoemde afstand volgens Mahalanobis voor ieder van deze coëfficiënten; bij een dergelijke berekening resulteert de i> 192701 desbetreffende coëfficiënt uit aftrekking van de overgangsparameterwaarden van de uitingen van verschillende sprekers, klassifikatie van de overgangsparameterwaarden op basis van het foneembestand en daarop volgende statistische analyse daarvan.
De berekende afstand volgens Mahalanobis wordt toegevoerd aan een evaluatieschakeling 18, waardoor 5 wordt onderzocht of een gedetecteerde overgang een foneem-foneem-overgang is; het detectie-uitgangssignaal komt ter beschikking aan een uitgangsaansluiting 19.
Meer in het bijzonder worden voor bijvoorbeeld de 12 woorden "HAI”, ΊΙΕ” en ”0(ZERO)”-"9(KYU)” de stemsignalen van een aantal (meer dan honderd) sprekers vooraf aan de beschreven inrichting toegevoerd, waarbij de optredende overgangen worden gedetecteerd en de desbetreffende overgangsparameterwaarden 10 worden geëxtraheerd. Deze overgangsparameterwaarden worden volgens een tabel, bijvoorbeeld de tabel volgens figuur 4, geclassificeerd en vervolgens voor iedere desbetreffende classificatie (cluster) aan statistische analyse onderworpen. In de tabel volgens figuur 4 heeft het symbool ·*· betrekking op stilte.
Voor de desbetreffende overgangsparameterwaarden wordt als arbitrair monster Rg (r=1,2,..,,24) en a vertegenwoordigt de clusterindex; a=1 komt bijvoorbeeld overeen met ·*· —> H, a=2 komt overeen met 15 H—>A en n vertegenwoordigt het aantal sprekers) de covariantiematrix
Ag = E(R(g - Rr(a') (R^ - R?5) (15) berekent, waarin R~<a) E = ^ en E een ensemble-gemiddelde vertegenwoordigt. Vervolgens wordt de inverse-matrix 20 Bias = Wai>r:1s9ezooht· <16)
Op deze wijze wordt de afstand tussen een willekeurige overgangsparameterwaarde K, en een cluster a verkregen als een Mahalanobis-afstand met de gedaante:
DfK,, a) Ξ Σ Σ (K, - R/*>). Bg . (K, - R^>) (17) bJ Γ s 5
Indien de genoemde Bg en Rg worden gezocht en vervolgens in de geheugeninrichting 17 worden opgeslagen, wordt de iviahalanobis-afstand tussen de willekeurige overgangsparameterwaarden van het ingangsstemsignaal en het cluster berekend door de berekeningsschakeling 16.
Deze laatstgenoemde schakeling verschaft derhalve voor ieder ontvangen stemsignaal de minimale 30 afstand van iedere overgangswaarde tot iedere cluster en voorts de volgorde van de overgangen; deze informaties worden vervolgens toegevoerd aan de evaluatieschakeling 18 voor herkenning en beoordeling wanneer het ontvangen stemsignaal stilvalt. Bijvoorbeeld wordt bij ieder woord de afstand berekend als de gemiddelde waarde van de vierkantswortel van de minimale afstand tussen de desbetreffende overgangsparameterwaarde en de clusters. Voor het geval, dat de overgangen gedeeltelijk wegvallen, wordt de 33 woordafstand van het woord onderzocht voor een aantal mogelijk vervallen types. Daarbij wordt echter een woord met een van die volgens de tabel afwijkende volgorde van overgangswaarden afgewezen. Vervolgens wordt het woord met de minimale woordafstand herkend en onderzocht.
Bij een inrichting volgens de uitvinding zal derhalve, aangezien detectie van foneemverandering aan de overgangen van het foneem wordt toegepast, nimmer een tijdbasisschommeling optreden, zodat de van 40 ongeïdentificeerde sprekers afkomstige fonemen op bevredigende wijze kunnen worden herkend.
Aangezien de parameterwaarden op de beschreven wijze bij de overgangen worden geëxtraheerd, kan iedere overgang in 24 dimensies worden herkend, met als gevolg, dat de herkenning gemakkelijk en met hoge nauwkeurigheid geschiedt.
Met behulp van de hiervoor beschreven inrichting volgens de uitvinding werd bij een beproeving, waarin 43 in eerste instantie 120 sprekers deelnamen en vervolgens andere sprekers dan deze 120 aan een onderzoek met 120 woorden werden onderworpen, een gemiddeld herkenningspercentage van 98,2% bereikt.
Bij het hiervoor beschreven voorbeeld kunnen de overgangen "H—>A” in ”HAI” en ”H—>A” in ”8(HACHI)” beide als tot hetzelfde cluster behorend worden geclassificeerd. Indien nu het aantal fonemen 50 van te herkennen woorden α bedraagt en vooraf clusters van ongeveer α P2 fonemen vooraf worden berekend, waarna de daarbij gevonden clustercoëfficiënt in de geheugeninrichting 17 wordt opgeslagen, is dit voldoende voor de herkenning van verschillende woorden, welke vervolgens zonder problemen kunnen worden herkend.
Figuur 6 toont een principeblokschema van een foneemovergangsdetectieschakeling 20, welke bij de 55 foneemherkenningsinrichting volgens de uitvinding kan worden toegepast.
Voorafgaande aan de beschrijving van een dergelijk foneemovergangsdetectieschakeling 20 wordt eerst 192701 6 opgemerkt, dat volgens een gebruikelijke methode van overgangsdetectie gebruik gemaakt wordt van de som van de veranderingshoeveelheden van bijvoorbeeld de akoestische parameterwaarden L(p). Dit wil zeggen, dat wanneer voor ieder frame de parameterwaarden voor P dimensies worden afgetrokken, waarbij de parameter voor het frame G de waarde L(p) (G), waarbij p=0,1,...,P-1, de overgangsdetectie plaatsvindt 5 op basis van de som van de absolute waarden van de verschilhoeveelheden, welke som wordt bepaald door: T(G) = Smp)(G)-^(G-1)| (g,}
Wanneer P=1, dat wil zeggen één dimensie betreft, zoals de figuren 5A en 5B laten zien, worden de 10 piekwaarden van de parameter T(G) verkregen in de punten, waarin de parameterwaarden L(p) (G) verandert. Wanneer P=2, respectievelijk sprake van twee dimensies is, zal de parameterwaarde T(G), indien ondanks soortgelijke verandering als hiervoor van de parameterwaarden L(0) (G) en L(1) (G) voor 0 en 1 volgens respectievelijk de figuren 5C en 5D optreedt, de verschilhoeveelheden volgens de respectieve figuren 5E en 5F veranderen, twee pieken vertonen, zodat geen overgang voor één punt kan worden 15 bepaald. Dit verschijnsel zal bijvoorbeeld optreden wanneer de parameterwaarden voor meer dan twee dimensies worden genomen.
Hoewel bij een dergelijke beschouwing tewerk gegaan wordt, alsof de parameterwaarden L(p) (G) een continue gedrag vertoont, vertoont de parameterwaarde L(p) (G) in de praktijk een verandering in discrete stappen. Voorts kan algemeen gesteld worden, dat een foneem een betrekkelijk geringe fluctuatie vertoont, 20 zodat de parameterwaarde L(p) (G) in de praktijk verandert als weergegeven in figuur 5H, hetgeen leidt tot het optreden van een aantal pieken en dalen in de gedetecteerde parameterwaarde T(G), zoals figuur 5I laat zien.
Als gevolg daarvan vertoont een dergelijke methode de nadelen, dat geen nauwkeurige detectie wordt verkregen en het detectieniveau niet stabiel is.
25 In verband daarmede bevat een foneemovergangsdetectieschakeling 20 volgens de onderhavige uitvinding enige deelschakelingen, welke een gemakkelijke en stabiele foneemovergangsdetectie mogelijk maken.
Bij de foneemovergangsdetectieschakeling volgens figuur 6 wordt het van de accentueringsschakeling 10 volgens figuur 2 afkomstige, gewogen signaal via een ingangsaansluiting 21 -a toegevoerd aan een 30 banddeelschakeling 21, waardoor het signaal in N (bijvoorbeeld 20) banden wordt verdeeld volgens de mel-schaal, waaruit een aan de signaal hoeveelheid per respectieve band toegevoegd signaal V(n) resulteert, waarbij n=0,1,...,N-1. Dit signaal V(n) wordt toegevoerd aan een instelspanningslogaritmescha-keling 22 ter verkrijging van een signaal v'(n> = log (v(n) + B) (10) 35 Het signaal V(n) wordt tevens toegevoerd aan een accumulator 23 voor vorming van een signaal V(a) van de gedaante: 20
Va = Σ V(n)/20 n-i
Toevoer van dit signaal Va aan de instelspanningslogaritmeschakeling 22 levert als resultaat: 40 V'a = log (Va + B) (11)
Verdere toevoer van deze signalen aan een bewerkingsschakeling 24 leidt tot: v(n) = V'a-v'n (12)
Het hiervoor beschreven gebruik van het door de banddeelschakeling 21 geleverde signaal V(n) heeft tot gevolg, dat de veranderingshoeveelheid voor iedere dimensie (n=0,1,...,N-1) van dit signaal voor de 45 overgang van foneem tot foneem in bij benadering dezelfde mate wordt verminderd, zodanig, dat de door verschillen tussen fonemen veroorzaakte veranderingshoeveelheid geen spreidingsverschijnselen gaat vertonen. Aangezien eerst wordt gelogaritmiseerd en vervolgens de berekening wordt uitgevoerd voor vorming van de genormaliseerde parameterwaarde v(n), kan worden voorkomen, dat deze parameterwaarden v(n) met veranderingen in het niveau van een ontvangen stemsignaal fluctueert. Aangezien de 50 berekening wordt uitgevoerd onder toevoeging van een instelspanningsniveau B, is het mogelijk, zoals duidelijk wordt uit het feit dat voor B—>°°, v(n)—>0, de gevoeligheid voor betrekkelijk zwakke componenten (ruis en dergelijke) van het ontvangen stemsignaal te verminderen.
De parameterwaarden v(n) worden toegevoerd aan een geheugeninrichting 25 met een capaciteit voor opslag van parameterwaarden voor 2w + 1 (bijvoorbeeld 9) frames. Het uit deze opslag resulterende signaal 55 wordt toegevoerd aan een bewerkingsschakeling 26 voor vorming van een signaal: na
Yn.t = lcGFN Cv(n) {!)} (13)

Claims (8)

1. Werkwijze voor herkenning van een foneem in een stemsignaal onder vorming van een, het stemsignaal weergevend, elektrisch signaal, omvattende de volgende stappen: extractie uit het elektrische signaal van een eerste akoestisch parametersignaal, dat een foneem-informatie van het stemsignaal vertegenwoordigt, waarbij een elektrisch signaal in analoge vorm wordt 40 omgezet in een digitaal signaal, een aantal van dergelijke digitale signalen wordt opgeslagen, en het parametersignaal wordt gevormd door Fourier-transformatie van een aantal opgeslagen digitale signalen, detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal, opwekking van een indicatiesignaal, dat het optreden van een dergelijke overgang aanwijst, 45 opslag van het eerste akoestische parametersignaal, extractie, op basis van het indicatiesignaal, uit het opgeslagen eerste akoestische parametersignaal van een tweede akoestische parametersignaal, dat ten minste de stilte-foneem-overgang of de foneem-foneem-overgang van het eerste akoestisch parametersignaal bevat, met het kenmerk, dat de detectie van een overgang plaatsvindt door: afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste 50 akoestische parametersignaal, berekening van het gemiddelde van de energieniveausignalen, gevolgd door berekening van een aantal eerste verschilniveaus tussen het berekende gemiddelde van de energieniveausignalen en die respectieve energieniveausignalen, extractie van het laagste van de berekende eerste verschilniveaus, 55 berekening van een aantal tweede verschilniveaus tussen dat laagste niveau en de respectieve eerste verschilniveaus, vorming van een overgangsdetectieparametersignaal op basis van de tweede verschilniveaus voor de 192701 8 energieniveausignalen van het eerste akoestische parametersignaal, en door detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsde-tectieparametersignaal.
2. Herkenningswijze volgens conclusie 1, met het kenmerk, dat detectie van een overgang geschiedt door 5 accentuering van het energieniveau van het eerste akoestische parametersignaal.
3. Herkenningswijze volgens conclusie 1 of 2, met het kenmerk, dat de opslag van het eerste akoestische parametersignaal geschiedt door: scheiding van het eerste akoestische parametersignaal in een aantal frequentiebandsignalen, omzetting van de frequentiebandsignalen door Fourier-transformatie in een derde akoestische parameter-10 signaal, en door ontvangst van het derde akoestische parametersignaal en opslag van een aantal dergelijke derde akoestische parametersignalen.
4. Herkenningswijze volgens conclusie 3, gekenmerkt door weging van het eerste akoestische parametersignaal.
5. Inrichting voor elektrische herkenning van een foneem in een stemsignaal, voorzien van middelen voor vorming van een het stemsignaal weergevend elektrisch signaal, omvattende de volgende stadia: middelen voor extractie uit het elektrische signaal van een eerste akoestische parametersignaal, dat een foneeminformatie van het stemsignaal vertegenwoordigt, waarbij de extractiemiddelen omvatten: omzetmiddelen voor omzetting van het in analoge vorm verkerende elektrische signaal in een digitaal 20 signaal, opslagmiddeien voor opslag van een aantal dergelijke digitale signalen, en extractiemiddelen voor vorming van het eerste akoestische parametersignaal door Fourier-transformatie van de opgeslagen digitale signalen, detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang in het eerste akoestische parametersignaal en voor afgifte van een indicatiesignaal, dat het optreden van een 25 dergelijke onvergang aanwijst, en opslagmiddeien voor opslag van het eerste akoestische parametersignaal en voor extractie op basis van het indicatiesignaal uit het opgeslagen signaal van een tweede akoestisch parametersignaal, dat tenminste de stilte-foneem-overgang, of de foneem-foneem-overgang van het eerste akoestische parametersignaal bevat, met het kenmerk, dat de detectiemiddelen omvatten: 30 middelen voor afscheiding van een energieniveausignaal voor ieder van een aantal frequentiebanden uit het eerste akoestische parametersignaal, berekeningsmiddelen voor berekening van het gemiddelde van de energieniveausignalen en voor berekening van een aantal eerste verschilniveaus tussen dat gemiddelde en de respectieve energieniveausignalen, 35 extractiemiddelen voor extractie van het laagste van de eerste verschilniveaus, berekeningsmiddelen voor het berekenen van een aantal tweede verschilniveaus tussen het geëxtraheerde laagste niveau en de respectieve eerste verschilniveaus en voor afgifte van een overgangsdetec-tieparametersignaal op basis van de tweede verschilniveaus voor de energieniveausignalen van het eerste akoestische parametersignaal, en 40 detectiemiddelen voor detectie van een stilte-foneem-overgang of een foneem-foneem-overgang op basis van het overgangsdetectieparametersignaal en voor afgifte van het indicatiesignaal.
6. Herkenningsinrichting volgens conclusie 5, met het kenmerk, dat de detectiemiddelen middelen voor accentuering van het energieniveau van het eerste akoestische parametersignaal omvatten.
7. Herkenningsinrichting volgens conclusie 5 of 6, met het kenmerk, dat de opslagmiddeien omvatten: 45 scheidingsmiddelen voor scheiding van het eerste akoestische parametersignaal en een aantal energieniveausignalen, omzetmiddelen voor omzetting van de energieniveausignalen met behulp van Fourier-transformatie in een derde akoestische parametersignaal, en opslagmiddeien voor opslag van een aantal dergelijke derde akoestische parametersignalen.
7 192701 waarin GFN = {l;-w + t i \é w + t} Toevoer van dit uitgangssignaal van de bewerkingsschakeling 26 en het rechtstreeks van de geheugen-inrichting 25 afkomstige parametersignaal Y(e) aan een bewerkingsschakeling 27 levert een signaal: T(„ = ï l (v(n)o+t) —Yn,t) (14) g n-0 i--W v ' Dit signaal T(t) vormt de overgangsdetectieparameterwaarde en wordt toegevoerd aan een piekwaarde-evaluatieschakeling 28 voor detectie van een foneemovergang in het ingangsstemsignaal, dat vervolgens aan een uitgangsaansluiting 29 ter beschikking komt voor toevoer aan de uitgangsschakeling van de geheugeninrichting 14 volgens figuur 2.
10 Aangezien de parameterwaarde T(t) wordt bepaald door w frames, ieder over het frame t, treden geen onnoodzakelijke "holten”, "bolten" en "multipolen” op. De figuren 7A-7C verduidelijken het geval, waarin de uitspraak of uiting van bijvoorbeeld het woord "ZERO” wordt opgenomen als 12-bits digitale informatie met een bemonsterfrequentie van 12,5 kHz; de informatie wordt voor 256 punten aan snelle Fourier-transformatie onderworpen met een frameperiodeduur van 5,12 milliseconden, terwijl de beschreven 15 detectie wordt uitgevoerd voor een aantal banden N=20, een instelspanningswaarde B=0 en een aantal gedetecteerde frames van 2w+1=9. Figuur 7A toont de stemgeluidsgolfvormen, figuur 7B de fonemen en figuur 7C het gedetecteerde signaal, waarin de opmerkelijke piekwaarden optreden bij de respectieve overgangen "stilte—>Z”, ”Z—>E”, ”E—>R”, ”R—>0” en ”0—>stilte”. Hoewel in het stilte-deel als gevolg van ruis enige pieken en dalen voorkomen, kunnen deze praktisch tot nagenoeg de waarde nul worden 20 teruggebracht door verhoging van het instelspanningsniveau B, zoals met een gebroken lijn in figuur 7C is aangeduid. Het voorgaande beschrijft de detectie van foneemovergangen. Bij de daartoe toegepaste foneemover-gangsdetectieschakeling 20 volgens de uitvinding is stabiele detectie van foneemovergangen met geringe schommeling van de detectieparameterwaarden als gevolg van verschillen in fonemen en van optredende 25 niveauveranderingen op ieder ogenblik mogelijk. Bovendien beperkt de foneemovergangsdetectie volgens de uitvinding zich niet tot de hiervoor beschreven foneemherkenningswijze, doch kan een dergelijke detectie eveneens worden toegepast in gevallen, waarin het stationaire segment of deel tussen gedetecteerde overgangen zelf het object van detectie vormt en de tijdbases van de stationaire segmenten aan elkaar worden aangepast door gebruikmaking van de 30 gedetecteerde overgangen. De foneemovergangsdetectieschakeling volgens de uitvinding kan bovendien met voordeel worden toegepast bij de analyse van overgangen in geval van stemgeluidssynthese. 35
8. Herkenningsinrichting volgens conclusie 7, gekenmerkt door weegmiddelen voor weging van het eerste akoestische parametersignaal. Hierbij 6 bladen tekening
NL8300718A 1982-02-25 1983-02-25 Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal. NL192701C (nl)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法
JP2947182 1982-02-25

Publications (3)

Publication Number Publication Date
NL8300718A NL8300718A (nl) 1983-09-16
NL192701B NL192701B (nl) 1997-08-01
NL192701C true NL192701C (nl) 1997-12-02

Family

ID=12277008

Family Applications (1)

Application Number Title Priority Date Filing Date
NL8300718A NL192701C (nl) 1982-02-25 1983-02-25 Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.

Country Status (8)

Country Link
US (1) US4592085A (nl)
JP (1) JPS58145998A (nl)
KR (1) KR910002198B1 (nl)
CA (1) CA1193732A (nl)
DE (1) DE3306730A1 (nl)
FR (1) FR2522179B1 (nl)
GB (2) GB2118343B (nl)
NL (1) NL192701C (nl)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法
JPS59170897A (ja) * 1983-03-17 1984-09-27 ソニー株式会社 音声過渡点検出方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5136653A (en) * 1988-01-11 1992-08-04 Ezel, Inc. Acoustic recognition system using accumulate power series
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
EP0438662A2 (en) * 1990-01-23 1991-07-31 International Business Machines Corporation Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
WO1998009206A1 (fr) 1996-08-29 1998-03-05 Fujitsu Limited Procede et dispositif permettant de diagnostiquer la panne d'un equipement et programme d'enregistrement sur support d'enregistrement pour l'execution d'un processus informatique conformement audit procede
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6230122B1 (en) 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US7139708B1 (en) 1999-03-24 2006-11-21 Sony Corporation System and method for speech recognition using an enhanced phone set
US20010029363A1 (en) * 1999-05-03 2001-10-11 Lin J. T. Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
GB981153A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates

Also Published As

Publication number Publication date
GB2153127A (en) 1985-08-14
FR2522179B1 (fr) 1986-05-02
GB2153127B (en) 1986-01-15
JPH0441356B2 (nl) 1992-07-08
FR2522179A1 (fr) 1983-08-26
GB2118343B (en) 1986-01-02
GB2118343A (en) 1983-10-26
US4592085A (en) 1986-05-27
NL192701B (nl) 1997-08-01
DE3306730C2 (nl) 1991-10-17
KR910002198B1 (ko) 1991-04-06
JPS58145998A (ja) 1983-08-31
DE3306730A1 (de) 1983-09-01
NL8300718A (nl) 1983-09-16
GB8305292D0 (en) 1983-03-30
CA1193732A (en) 1985-09-17
KR840003871A (ko) 1984-10-04
GB8429480D0 (en) 1985-01-03

Similar Documents

Publication Publication Date Title
NL192701C (nl) Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.
US4100370A (en) Voice verification system based on word pronunciation
JPH0990974A (ja) 信号処理方法
US20100332222A1 (en) Intelligent classification method of vocal signal
JPS5876899A (ja) 音声区間検出装置
US7809555B2 (en) Speech signal classification system and method
US3236947A (en) Word code generator
AU612737B2 (en) A phoneme recognition system
JPH0441357B2 (nl)
JPH0552509B2 (nl)
JPH0552510B2 (nl)
JPH0546558B2 (nl)
JP3423233B2 (ja) オーディオ信号処理方法および装置
US5899974A (en) Compressing speech into a digital format
JP3049711B2 (ja) 音声処理装置
JP2577891B2 (ja) 単語音声予備選択装置
Bhaduri et al. Onset detection: A new approach to QBH system
JPS6068000A (ja) ピッチ抽出装置
JPH0552512B2 (nl)
JPS6069697A (ja) 音声認識装置
JPH0552511B2 (nl)
JPS59170896A (ja) 音声認識方法
JPH0552515B2 (nl)
JPH0546559B2 (nl)
JPH0546560B2 (nl)

Legal Events

Date Code Title Description
A85 Still pending on 85-01-01
BA A request for search or an international-type search has been filed
BB A search report has been drawn up
BC A request for examination has been filed
V4 Discontinued because of reaching the maximum lifetime of a patent

Effective date: 20030225