NL7812151A - Werkwijze en inrichting voor het bepalen van de toon- hoogte in menselijke spraak. - Google Patents

Werkwijze en inrichting voor het bepalen van de toon- hoogte in menselijke spraak. Download PDF

Info

Publication number
NL7812151A
NL7812151A NL7812151A NL7812151A NL7812151A NL 7812151 A NL7812151 A NL 7812151A NL 7812151 A NL7812151 A NL 7812151A NL 7812151 A NL7812151 A NL 7812151A NL 7812151 A NL7812151 A NL 7812151A
Authority
NL
Netherlands
Prior art keywords
pitch
value
peak positions
mask
significant peak
Prior art date
Application number
NL7812151A
Other languages
English (en)
Other versions
NL177950B (nl
NL177950C (nl
Original Assignee
Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Nv filed Critical Philips Nv
Priority to NLAANVRAGE7812151,A priority Critical patent/NL177950C/nl
Priority to CA000341411A priority patent/CA1223074A/en
Priority to DE19792949582 priority patent/DE2949582A1/de
Priority to GB7942692A priority patent/GB2037129B/en
Priority to SE7910165A priority patent/SE465190B/sv
Priority to AU53682/79A priority patent/AU536724B2/en
Priority to FR7930736A priority patent/FR2444313A1/fr
Priority to JP54161723A priority patent/JPS5848117B2/ja
Publication of NL7812151A publication Critical patent/NL7812151A/nl
Priority to US06/347,763 priority patent/US4384335A/en
Publication of NL177950B publication Critical patent/NL177950B/nl
Application granted granted Critical
Publication of NL177950C publication Critical patent/NL177950C/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

* ί
Aanvragers II.V. Philips'Gloeilampenfabrieken te Eindhoven.
13.12.78 1 PHN 9313 ¥erkwijze en inrichting voor het bepalen van de toonhoogte in menselijke spraak.
A. Achtergrond van de uitvinding.
A(i). Gebied van de uitvinding.
De uitvinding heeft betrekking op een spraakana-lysesysteem waarin het amplitudespectrum van een spraaksig-5 naai wordt geanalyseerd door regelmatig tijdsegmenten van het spraaksignaal te selecteren en van ieder segment spectrum-componenten te bepalen welke de discrete Fouriertransforma-tie vormen van monsters van'het spraaksignaal en door het afleiden in ieder segment van significante piekposities uit 10 de reeks spectrumcomponenten.
De significante piekposities vormen de ingangsgegevens voor een volgend deel van het spraakanalysesysteem welke dient voor het bepalen van de toonhoogte van het spraaksignaal.
15 A(2). Beschrijving van de stand van de techniek.
Een spraakanalysesysteem dat gebruik maakt van een FFT-transformatie en van het onder A(l) beschreven type is, is beschreven in IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP, No. k, August 1978, pp 358-365. De toonhoogte wordt daarbij bepaald uit de afstanden tussen de pieken in het spectrum.
In een artikel in Philips Technical Review, Vol.
5> No. 10, October 19^0, pp 286-29^ is reeds' aangetoond, dat de toonhoogte niet gecorreleerd is met de afstand tussen 7812151 13.12.78 2 - PHN93I3 • de harmonischen maar met de periodiciteit van de collectieve trillingsvorm van de samenstellende harmpnischen.
In het proefschrift van E. de Boer met de titel :
On the "residue" in hearing, van de Universiteit van Amster-5 dam wordt een m. s. a. criterium (mean-square-error) gebruikt . voor het bepalen van een waarschijnlijke waarde van de toonhoogte welke behoort bij een reeks spectrumcomponenten waarvan de zogenaamde "harmonische nummers" bekend zijn. Dit zijn .de nummers van de meest nabij gelegen harmonischen van 10 de grondtoon.
In een artikel in Journal of the Acoustic Society of America, Vol. No. 6, June 1973» PP 1^96-1516 is aan getoond dat het hierboven genoemde m.s.e. criterium en het in dit artikel ontwikkelde op psychofysische verschijnselen 15 berustende "maximum likelihood" criterium tot dezelfde schatting van de toonhoogte voeren.
Bij de analyse van spraaksignalen welke afkomstig zijn van bronnen zoals telefoonlijnen, doet zich niet alleen het probleem voor dat de grondtoon zelf afwezig kan zijn, maar 20 ook dat stoorcomponenten worden geïntroduceerd, welke de ’ uitkomst van toonhoogtebepaling sterk kunnen beïnvloeden.
B. Samenvatting van de uitvinding.
De uitvinding beoogt een spraakanalyse systeem voor het bepalen van de toonhoogte van spraaksignalen te verschaf-25 fen welke ongevoelig is voor de aanwezigheid van stoorsignalen en wélke minder berekeningen vergt als in het geval dat voor iedere mogelijke reeks harmonische nummers de fout berekend moet worden.
Dit doel wordt gerealiseerd in een qspraakanalyse 30 systeem van het onderhavige type door de werkwijze omvatten-.de de stappen : - het kiezen van een waarde voor de toonhoogte en het bepalen van een reeks opeenvolgende gehele veelvouden van deze waarden en het bepalen van 35 intervallen rondom deze waarde en de veelvouden daarvan, welke intervallen een masker definiëren met openingen ter plaatse van een interval, aan welke openingen harmonische nummers zijn toege— 7812151 f 13.12.78 ’ 3 PHN9313 f gevoegd corresponderende met de vermenigvuldig-factoren in de genoemde veelvouden; - het bepalen van de significante piekposities welke coïncideren met een opening van het masker; 5 - het berekenen van een kwaliteitsgetal overeen komstig een criterium dat de mate aangeeft waarin de significante piekposities en de openingen van het masker bij elkaar passen; - het herhalen van de voorafgaande stappen voor 10 opeenvolgende hogere waarden van de toonhoogte tot een bepaalde hoogste waarde, waardoor een reeks bij deze waarden van de toonhoogÏe behorende kwaliteitsgetallen verkregen wordt; - het selecteren van de waarde van de toonhoogte 15 met het hoogste kwaliteitsgetal, waarvan het bij behorende masker een referentiemasker vormt; - het toevoegen van de harmonische nummers van de openingen van het referentiemasker aan de met de openingen colnciderende significante piek- 20 posities,welke harmonische nummers de plaatsen van deze piekposities karakteriseren in een reeks harmonischen van eenzelfde grondtoon; - het bepalen van een waarschijnlijke waarde voor de toonhoogte, zodanig dat de afwijkingen tussen '25 .de laatstgenoemde significante piekposities en de overeenkomstige veelvouden van de waarschijnlijke | waarde met dezelfde harmonische nummers, zo klein mogelijk zijn.
De waarde van de toonhoogte met het hoogste kwali-30 teitsgetal zelf kan gebruikt worden als een schatting van de werkelijke toonhoogte, in welk geval de laatste drie stappen van de werkwijze tot één stap gereduceerd worden.
Een nauwkeuriger schatting wordt echter verkregen door in de laatste stap gebruik te maken van een optimalisatie gebruik-35 makende van het m.s.e. criterium.
781 2151 Λ- Λi · 13.12.78 4 PHN 9313 C. Korte beschrijving van de figuren.
Pig. 1 is een schematisch stroomschema illustrerende de opeenvolging van operaties overeenkomstig de praktijk van het spraakanalyse 5 systeem volgens de uitvinding;
Fig. 2 is een stroomschema van een programma van een digitale computer voor het uitvoeren van bepaalde procedures in het spraakanalyse systeem volgens Fig. 1; 10 Fig, 3 is een stroomschema van een computerprogram ma voor het implementeren van bepaalde functies uit het stroomschema van Fig. 1;
Fig. k is een’schematisch blokdiagram van electro-nische apparatuur voor het implementeren 15 van het onderhavige spraakanalyse systeem;
Fig. 5·is een stroomschema van een programma dat uitgevoerd kan worden door het microprocessor gedeelte van de apparatuur volgens Fig. k voor het vervullen van bepaalde operaties 20 in het onderhavige spraakanalyse systeem.
In het onderhavige spraakanalyse systeem is het een eerste doel een zogenaamd . "short-time" amplitudespec-trum van het spraaksignaal te vormen dat een lopend beeld geeft van het amplitudespectrum.
25 Van het bemonsterde spraaksignaal worden tijdseg- .menten genomen met een duur van 40 ms. Deze functie wordt gerepresenteerd door blok 10, met de inscriptie ko ms. De volgende bewerking is het vermenigvuldigen van het spraak-signaalsegment met een zogenaamd "Hamming window", welke 30 functie wordt gerepresenteerd door blok 11 met de inscriptie WNDW.
De monsters van het spraaksignaalsegment worden vervolgens onderworpen aan een discrete Fouriertransformatie met 256 punten zoals gerepresenteerd door blok 12 met de in-35 scriptie DFT.
In een volgende operatie worden de amplituden van 128 spectrumcomponenten bepaald uit de 256.reële en imaginaire waarden welke door de DFT geleverd worden. Uit deze 7812151 13-12/78 5 RHN 9313 spectrumcomponenten worden de significante piekposities x.
„ „ . , , /plaatsen van de . , 1 afgeleid welke de/ pieken in net spectrum representeren.
Deze functies worden gerepresenteerd door blok 13 met de inscriptie DRV x^.
5 Als volgende stap in het proces wordt een waarde F voor de toonhoogte aangenomen, zoals gerepresenteerd s --^-door blok 14.
Rondom deze beginwaarde en een aantal opeenvolgende gehele veelvouden daarvan worden intervallen gedefinieerd.
10 Deze intervallen worden beschouwd als openingen in een masker in de zin dat een getalwaarde welke.coincideert met een opening door het masker zal worden doorgelaten. In deze opvatting functioneert het masker als een' soort zeef voor getalwaarden. Deze operaties worden gerepresenteerd door blok 15 15 met de inscriptie MSK.
Aan de openingen van een masker zijn nummers toegevoegd, welke worden aangeduid als harmonische nummers en . welke corresponderen met de vermenigvuldigfactoren van de betreffende veelvouden van de gekozen waarde van de toon-20 hoogte.
In een volgende bewerking wordt bepaald in welke mate de significante piekposities x_^ en de openingen van het masker bij elkaar passen. Wanneer weinig significante piekposities door het masker worden doorgelaten dan is er duidelijk 25 een slechte aanpassing. Wanneer anderzijds veel van de piekposities worden doorgelaten maar veel openingen in het masker geen significante piekposities doorlaten omdat deze op die plaats niet aanwezig zijn, dan is er eveneens sprake van een slechte aanpassing.
30 Het is mogelijk een goed criterium te vinden om de mate van aanpassing tot uitdrukking te brengen in een kwaliteitsgetal, zoals in het navolgende nog zal worden toegelicht. Op dit punt van de beschrijving is het voldoende te zeggen dat een geschikt kwaliteitsgetal wordt berekend 35 voor het masker. Deze operatie wordt gerepresenteerd door blok 16, met de inscriptie QLT.
781 2151 13.12.78 6 PHN 9313
In de beslissingsruit 17 wordt nagegaan of de waarde F welke voor de toonhoogte gekozen is kleiner ds dan een bepaalde maximale waarde : Fg< MX. Wanneer dit zo is, dan wordt de Y-tak van ruit 17 gevolgd, waardoor een lus 0 18 ontstaat naar blok 15· In deze lüs wordt de waarde van F op een bepaalde wijze verhoogd; met een bepaald bedrag s of een bepaald percentage. Deze functie wordt gerepresenteerd door blok 19 met de inscriptie NCR F .
s
Het gevolg van de aanwezigheid van beslissings- 10 ruit 17 is dat de procedures welke worden gerepresenteerd door de blokken 15 en 16 voortdurend worden herhaald voor steeds nieuwe waarden van F totdat F de maximale waarde s s MX bereikt. Wanneer dit het geval is dan wordt de N-tak gevolgd en wordt lus 18 verlaten..
15 De volgende procedure in het huidige spraakana- lyse systeem bestaat dan in het bepalen van het masker of de waarde F. van de toonhoogte waarvan het kwaliteitsgetal s de hoogste waarde heeft. Deze functie wordt gerepresenteerd door blok 20 met de inscriptie SLCT F .
* s 20 In het onderhavige spraakanalyse systeem wordt vervolgens in twee stappen een nauwkeurige schatting ge- · maakt van de toonhoogte van het spraaksegment uitgaande van de geselecteerde waarde F . Bij deze waarde behoort s een masker dat als referentiemasker wordt aangeduid. Deze 25 laatste twee stapppen in de procedure voor het bepalen van de toonhoogte worden gerepresenteerd door blok 21 met het inschrift STM F waarvan de uitgangstak de geschatte waarde ✓s 0 F van de toonhoogte levert, o
In een eerste van de twee stappen worden de harmo-30 nieche nummers van de openingen van het referentiemasker toegevoegd aan de met deze openingen coïnciderende significante piekpositi.es x. . Ieder van deze preposities x. zal 1 λ 1 dan een harmonisch nummer n^ krijgen welke de plaats van de piekposittesbepaalt in een reeks harmonischen van dezelfde 35 grondtoon.
/"v
Een waarschijnlijke waarde van Fq : Fq kan gedefinieerd worden al,s de waarde waarvoor de afwijkingen tussen de 7-812151 13.12.78 7 PHN 9313 . laatstgenoemde, significante piekposities x. en de overeen- Λ Λ -1- komstige veelvouden n^. van de waarschijnlijke waarde zo klein mogelijk zijn. Wanneer voor het bepalen van de afwijkingen een m.s.e.-criterium (mean-square-error), wordt Λ 5 toegepast dan laat F zich berekenen door de uitdrukking : Λ ° AT λ / A ~λ z .
-fi = Σ n£ / ^ (Ί) s/ d-7
De sommatie in deze uitdrukking strekt zich uit over alle significante piekpositieswelke coïncideren met een opening van het referentiemasker waarvan het aantal 10 door K wordt gerepresenteerd.
Het zal duidelijk zijn dat de waarde van de toonhoogte welke behoort bij het referentiemasker reeds een eerste schatting vormt van de gezochte toonhoogte. Wanneer deze schatting wordt gebruikt dan reduceren de laatste drie 15 stappen van de hierboven beschreven procedure in feite tot een stap. Een aanmerkelijk nauwkeuriger schatting wordt echter verkregen door gebruik te maken van uitdrukking (l).
Sommige operaties van het onderhavige spraakana-lyse systeem kunnen worden geïmplementeerd in de software 20 van een general-purpose computer. Andere operaties kunnen versneld worden door toepassing van externe hardware.
In Fig. 2 is een stroomdiagram weergegeven voor het bepalen van de significante piekposities x_^, een functie welke in Fig. 1 wordt vervuld door blok 13.
25 De blokken 22, 23 en 2b komen overeen met" respec tievelijk de blokken 10, 11 en 12 van Fig. 1. Het blok 23 met het inschrift MP representeert de amplitudebepalings-funetie uit blok 13 van Fig.- 1. De functies van de blokken 22-25 kunnen in hardware worden gerealiseerd met gebruik-30 making van bekende componenten. Vanaf blok 25 wordt de procedure geïmplementeerd door de software van een general-purpose computer.
De computer ontvangt als ingangsgegevens de componenten AF(r), r = 1, - .... , 128 van het amplitudespectrum 35 zoals gerepresenteerd door blok 26.
Als beginwaarden voor de routine worden r s 2 en N = O gezet. Deze functie wordt gerepresenteerd door blok 27. Te beginnen met spectrumcomponent AF(2) wordt dan onder- 7812151 13.12.78 8 PHN 9313 zocht of" deze component groter of gelijk is aan de voorafgaande spectrumcomponent Α3Τ(ΐ) en of spectrumcomponent AP(2) groter is dan de volgende spectrumcomponent AF(3). Deze functie wordt gerepresenteerd door beslissingsruit 28. Wan-g neer de spectrumcomponent een locaal maximum vormt, dan wordt de Y-tak van ruit 28 gevolgd.
De N-tak van ruit 28 voert naar blok 29 welke aangeeft dat r met één verhoogd wordt. Daarna wordt in beslissingsruit 30 onderzocht of r groter of gelijk is geworden 10 aan 127, Zolang dit niet het geval is wordt een lus 31 gevormd naar blok 28. De functie van blok 28 wordt dan herhaald met een nieuwe waarde van r.
De Y-tak van beslissingsruit 28 voert naar beslissingsruit 32 waarin wordt onderzocht of spectrumcompo-15 nent AF(r) groter is dan een drempelwaarde THD. Is dit niet het geval dan wordt de N-tak actief en wordt via de blokken 29 en 30 de lus 31 binnengegaan zolang de nieuwe waarde van r kleiner is dan 127.
De drempelwaarde THD wordt in de eerste plaats 20 gevormd door een absolute waarde welke wordt bepaald door het niveau van de ruis welke een gevolg is van de kwanti-sering en de "Hamming window".
In de tweede plaats kan een deel van de drempelwaarde THD variabel zijn om rekening te houden met het mas-25 keren van een spectrumcomponent door de naburige spectrum-componenten wanneer deze een veel grotere amplitude hebben. Dit effect treedt op bij het menselijke, gehoor en is daar een belangrijke factor bij de toonhoogtewaarneming.
Wanneer de Y-tak van beslissingsruit 32 wordt 30 gevolgd, dan wordt een operatie uitgevoerd om de amplitude en de frequentie van het locale maximum van het amplitude-spectrüm te bepalen. Hiervoor wordt gebruik gemaakt van interpolatie tussen de waarden AF(r-l), AF(r) en AF(r + l) met een tweedegraads polynoom (parabolische interpolatie).
35 Deze functie wordt gerepresenteerd door blok 33 met het inschrift NTRP.
De volgende operatie betreft een test van de vorm van het amplitudespectrum in de omgeving van het locale 7812151 yr 13.12.78 9 PHN 9313 * maximum. De regulaire vorm wordt benaderd door de tweedegraads polynoom (parabool) welke in de vorige operatie is gevonden. De vorm van het locale maximum wordt getest door de verschillen te bepalen tussen de spectrumcom-5 ponenten AP(t-Z) en AF(r '+ z) en de verwachte' .waarden daarvan welke op de parabool liggen. Een locaal maximum wordt als regulair beschouwd wanneer de gemiddelde kwadratische fout onder een bepaalde waarde ligt. De functie van het testen van de vorm wordt gerepresenteerd door beslissings-10 ruit 3^ niet het inschrift SHP.
Wanneer de vorm van het maximum niet aan het vorm-criterium voldoet dan wordt de N-tak actief en wordt via de blokken 29 en 30 de lus 31 binnengegaan. De routine van beslissingsruit 28 wordt dan herhaald met een nieuwe waarde 15 van r.
Als de vorm van het maximum voldoet aan de eis dan wordt de Y-tak van beslissingsruit actief en wordt blok 35 binnengegaan waarin de waarde van N met één wordt verhoogd. Daarna wordt de beslissingsruit 36 binnengegaan. Wanneer 20 N niet groter is als een bepaalde waarde, bijvoorbeeld in het huidige systeem zes, dan wordt de N-talc actief en wordt via de blokken 29 en 30 de lus 31 binnengegaan.
Het zoeken naar locale maxima van het amplitude-spectrum wordt voortgezet tot maximaal zes significante piek-25 posities x^ bepaald zijn. Wanneer dit het geval is, dan wordt de Y-tak van beslissingsruit 36 actief en worden de significante piekposities x^ uitgevoerd (blok 37)·
De significante piekp.osit.iesx_^ welke worden geleverd door de routine volgens Fig. 2 vormen de ingangsgegevens 30 voor de routine volgens Pig. 3·
Pig. 3 toont het stroomdiagram van een programma voor het bepalen van een waarschijnlijke waarde van de toonhoogte gebruikmakende van het concept van de maskers.
Het programma ontvangt als ingangsgegevens de 35 significante piekpositiesx^, i = 1, .... , N, zoals geïllustreerd in blok 38. Deze worden'alternatief als componenten aangeduid.
7812 151 • **·, , __ · 13.12.78 10 . PHN 9313
Als beginwaarde voor de toonhoogte f wordt gezet f - 0 en de variabele C wordt op de maximum waarde gezet (blok 39).
Wanneer het aantal aangeboden componenten kleiner 5 is dan één (ruit 4θ), dan wordt de routine verlaten en de waarde f = 0 uitgevoerd (blok 4l).
Wordt één of meer componenten ingevoerd dan wordt de routine verder gevolgd.
Als voorbereiding wordt de variabele 1 welke het 10 nummer van het masker aangeeft op één gezet (blok 42).
Daarna volgt de specificatie van een waarde van de toonhoogte f* ^ en worden enkele variabelen op een beginwaarde gezet (blok 43).
In de volgende procedure (blok 44) wordt te be-15 ginnen bij de eerste component x^ een schatting gemaakt van het bij de component x^ behorende harmonische nummer m^^ en wordt deze waarde afgerond naar het meest nabij gelegen gehele getal m.^.·
Wanneer m^ groter is dan 11 (beslissingsruit 45)» 20 dan wordt een groot deel van het programma overgeslagen, .omdat in het onderhavige spraakanalyse systeem harmonischen met een hoger nummer dan 11 niet bij de toonhoogtebepaling worden betrokken.
Vervolgens wordt nagegaan of m1 ^ de waarde nul 25' heeft (beslissingsruit 46). Is dit niet het geval, dan wordt nagegaan of de component x^ in een opening van het masker • met toonhoogte f ^ valt. Wanneer de relatieve afwijking van xn ten opzichte van de meest nabij gelegen harmonische van de grondtoon f ^ kleiner is dan een bepaald percentage, 30 in het huidige systeem 5$> dan wordt x^ geacht in de, opening te liggen (beslissingsruit 47).
Wanneer de component in een opening van het masker ligt, dan wordt de N-tak van beslissingsruit 47 actief. Vervolgens wordt nagegaan of het eerste harmonische 35 nummer van de reeks m^ groter is dan 7 (beslissingsruit 48). Wanneer dit het geval is, dan wordt een deel van het programma overgeslagen, omdat in het onderhavige spraakanalyse systeem geen reeksen die met_ een dergelijk hoog harmo- 781 2151 13.'12.78 11 ΡΗΜ 9313 nische nummer beginnen, bij de bepaling van de toonhoogte worden betrokken.
Vanneer het laagste harmonische nummer kleiner is als 7 dan wordt de N-tak van beslissingsruit 48 actief* en g wordt beslissingsruit 49 binnengegaan.
De volgende operatie betreft nu het geval dat voor mlk "waarde wordt gevonden als de waarde m^ (Κ+1 = k) welke de vorige keer is bepaald. In dit geval liggen er twee componenten in dezelfde opening van het mas-1 q ker. Het onderhavige spraakanalyse systeem accepteert alleen de component welke het dichtst bij het midden van de opening ligt en telt de andere component niet mee.
De variabele K telt. het aantal van de componenten welke in een opening liggen. Vanneer m^ groter is dan 15 mlK (beslissingsruit 49) dan wordt daarna K met één verhoogd (blok 52).
Wanneer echter m^^ niet groter is dan m^ dan wordt bepaald voor welke van de waarden m^ en m^y de kleinste relatieve afwijking optreedt ten opzichte van het midden 20 van de opening (beslissingsruit 50). Wanneer dit het geval is voor m.^ dan wordt m^^ gelijk gesteld aan m^ (blok 51)· In bet andere geval wordt m.^ niet veranderd. In beide gevallen wordt K niet verhoogd.
Wanneer het programma de Y-tak van beslissingsruit 25 46, de Y-tak van beslissingsruit 47 of de N-tak van beslissingsruit 50 volgt of na de operaties van de blokken 51 of 52, wordt de waarde van n met één verhoogd (blok 54).
De variabele n telt de aangeboden componenten x^ en wanneer n kleiner is dan het totaal aantal aangeboden componenten 30 (beslissingsruit 54), dan wordt de lus 55 binnengetreden.
De beschreven routine begint dan opnieuw bij blok 44 voor een nieuwe waarde van n. Op deze wijze wordt de routine herhaald voor all N componenten x^.
Wanneer n groter wordt dan N, dan wordt de Y-tak 35 van beslissingsruit 5^ gevolgd. Hierna wordt geregistreerd dat voor het masker met index 1 het aantal in aanmerking genomen componenten gelijk is aan N. Wanneer het programma de Y-tak van beslissingsruit 45 volgt dan wordt gelijk 7812151 13.12.78 12 PHN 93 13 gesteld aan n (blok 57)· Componenten x^ met een hogere in-dexwaarde hebben een geschat harmonische nummer welke groter is dan 11 en worden niet in aanmerking genomen bij de toonhoogte bepaling. Een masker.....heeft in het huidige spraak- 5 analyse systeem 11 openingen en componenten xi welke buiten het masker liggen, doen niet mee bij de bepaling van de toonhoogte.
In de volgende operatie wordt nagegaan of tenminste de helft van de aangeboden componenten x^ door het 10 masker worden doorgelaten (beslissingsruit 58). Dit is een niet erg strenge eis waarmede in ieder geval het triviale geval dat « O wordt uitgesloten.
De volgende procedure heeft betrekking op de berekening van een kwaliteitsgetal Q waarmede wordt aangegeven 15 de mate waarin de componenten x^ en de openingen van het masker op elkaar passen.
Een kwaliteitsgetal kan worden afgeleid door de reeks aangeboden componenten x^ en de reeks openingen van een masker te beschouwen als componenten met de waarde nul 20 of één van vectoren in een meerdimensionale ruimte. De afstand tussen de vectoren geeft aan hoe goed de componenten x^ en het masker op elkaar passen. Het kwaliteitsgetal kan dan worden berekend als één gedeeld door de afstand. In de plaats van de afstand kan ook iedere andere uitdrukking ge-25 nomen worden welke minimaal is als de afstand minimaal is en omgekeerd.
Het kan op elementaire wijze worden aangetoond dat de afstand D kan worden uitgedrukt door D = \/N + M - 2 K 1 (2) 30 } waarin N het aantal componenten x^, M het aantal openingen van het masker en K het aantal van de componenten x^ voorstelt welke liggen in de openingen van het masker.
Het kwaliteitsgetal Q kan worden uitgedrukt als : Q= \· = .-L-- (3)
35 D N + M - 2 K
De afstand D kan worden genormaliseerd door deze te delen· door de lengte van de eenheidsvector ; E = \/n + Μ - K ' · (k) 7812151 13.12.78 13 PHN 93 13
Dit zou resulteren in het kwaliteitsgetal : Q = 4 - W + M-^ (5)
u N + Μ - 2K
Na elementaire bewerkingen kan worden aangetoond (5 ) 5 dat Q volgens uitdrukking/maximaal is wanneer Q' volgens de uitdrukking : «' = --- (6)
N + M
10 , maximaal is. Het is dan toegestaan Q door Q' te vervangen.
Een ander kwaliteitsgetal kan worden gebaseerd op de hoek tussen de twee vectoren. Op elementaire wijze kan worden aangetoond dat de. hoek minimaal is wanneer Q'' volgens de uitdrukking : 15 2 Q" = -2- (7)
N.M
, maximaal is.
Componenten x^ welke buiten het masker vallen dra- 20 gen niet bij tot de waarde van K hoewel ze wel een harmonisch verband kunnen hebben met de grondtoon van het masker. Een beter bruikbaar kwaliteitsgetal zal worden verkregen wanneer in de uitdrukkingen voor Q de grootheid N wordt vervangen door N^, welke het aantal componenten aangeeft, dat binnen het bereik van het masker ligt.'
Het kan voorkomen dat openingen van het masker buiten het bereik yan de aangeboden componenten vallen en daarom geen component doorlaten. Het kwaliteitsgetal kan hiervoor worden gecorrigeerd door in de uitdrukking voor Q de groot- 20 heid M te vervangen door m^welke het hoogste nummer is van de openingen welke een componenten doorlaten.
In de procedure volgens Fig. 3 wordt na het actief worden van de N-tak van beslissingsruit 59 een grootheid uitgerekend welke de inverse is van het kwaliteitsgetal Q volgens uitdrukking (6) met N vervangen door N^ en M vervangen door (blok 59)· 7812151.
13.12.78 l4 ΡΗΝ 9313
In de volgende operatie wordt nagegaan of groter is dan de waarde van de variabele C. (beslissingsruit 6o). Wanneer dit niet het geval is dan wordt aan C de waarde van C gegeven. Dit betekent dat het huidige masker een betere 5 passing geeft als het vorige. De toonhoogte f wordt nu berekend overeenkomstig uitdrukking (l) (blok 6l).
Na de operatie van blok 61 of wanneer het programma de Y-tak van beslissingsruit 58 of de Y-tak van beslissingsruit 60 volgt, wordt de index 1 van het masker met één ver-10 hoogd (blok 62). Wanneer 1 kleiner is dan het totaal aantal maskers L (beslissingsruit 63)» dan wordt de lus 64 binnengetreden en wordt^de beschreven routine herhaald met een nieuwe' waardevan/4;otdat alle maskers zijn afgewerkt.
Wanneer 1 groter wordt dan L dan wordt de Y-tak 15 van beslissingsruit 63 actief en wordt de laatst berekende waarde van f uitgevoerd (blok 65)·
Het- huidige spraakanalyse systeem kan worden geïmplementeerd door de software van een general-purpose digitale computer, of voor een deel in externe hardware en 20 voor het overige in de software.
Een voorbeeld van de hardware, welke, gebruikt kan worden voor de implementatie van het huidige spraakanalyse systeem, is geïllustreerd in Fig. 4.
Als ingangssignaal ontvangt deze apparatuur een 25 analoog spraaksignaal (ingang 100). Dit signaal wordt gefilterd in een laagdoorlaatfilter 101 en wordt dan bemonsterd door een bemonsterschakelaar 102 welke opereert met een bemonsterfrequentie van 4 kHz.
De volgende operatie is de analoog-digitaalom-30 zetting van de monsters van het spraaksignaal in A/D omzetter 103. De gecodeerde signaalmonsters worden opgeslagen in een buffergeheugen 104 met een capaciteit van 200 monsters.
Het berekenen van het de toonhoogte benodigt bijvoorbeeld 10 ms, terwijl voor iedere berekaing gebruik wordt gemaakt 35 van een spraaksegment van 4o ms. De capaciteit van het buffergeheugen 104 moet dan voldoende zijn voor 50 ms spraak of 200 monsters.
* 7 β 1 2151 13.12.78 , 15 9313
Uit de 160 meest recente monsters a^, i = 1,...., 16Ο worden met behulp van een discrete Fouriertransformatie (DFT) 64 frequentiepunten van het amplitudespectrum berekend. Deze punten liggen op de frequenties (25 + k.25)Hz, 5 k = 1, 2, ...... 64.
De coëfficiënten van de DFT zijn : c^v = cos [ 27(k + 1)(i - 80,5)/160] s^ = sin [ 277 (k + 1) (i - 80,5)/l6o] 10 De vermenigvuldiging met het "Hamming window” vindt plaats door de coëfficiënten van de DFT met het "Hamming window” te vermenigvuldigen overeenkomstig de factoren: Η± = 0,54 + 0,46 cos £277 (i - 80,5)/160] 15 i =1,2,........,160
Ieder frequentiepunt bestaat uit een reëel deel FR^. en een imaginair deel FI^ welke worden berekend als volgt : FR, = a,#c....*H, 20 k ^ x xk x 160 FIJC- Σ. ai*sik*Hi X = 1
Deze operaties worden uitgevoerd door een verme-25 nigvuldiger 105 en een coefficiëntengeheugen 106 (ROM) in combinatie met accumulator 107.
Voor het berekenen van de 64 frequentiepunten moet de vermenigvuldiger 105 20480 vermenigvuldigingen uitvoeren. Bij een vermenigvuldigtijd van 150 ns bedraagt 30 de totale rekentijd 3·072 ms. Een geschikte vermenigvuldiger is het type MPY-12AJ van TRW.
De berekende waarden van de frequentiepunten wórden opgeslagen in buffergeheugen 108. Wanneer het spectrum berekend is, dan-wordt door klokpulsgenerator 109 een onderbrekings-35 signaal gegenereerd op uitgang 110 welke verbonden is met de onderbrekingsingang van de microcomputer, welke in het blok 111 is weergegeven.
7812151 • 13.12.78 16 PHN 9313 <*·
De uitgang van buffer 108 is aangesloten op de data-ingang van de microcomputer, welke na ontvangst van een onderbrekingssignaal de waarden uit buffergeheugen 108 overneemt in het werkgeheugen.
5 De microcomputer is gebaseerd op de Signetics 3OOO microprocessor en omvat een centrale verwerkingseenheid (CPü) 112, een direct toegankelijk geheugen (RAM) 113» een micro stuureenheid (MCU) 11k, een micro programma geheugen (mpm) 115 en een uitgangsregister (OR) 116.
10 Tijdens het uitvoeren van een programma genereert MCU 114 adressen voo.r MPM 115· Deze voert instructies toe aan CPU 112 (lijn 117) en voert gegevens omtrent de volgende instructie terug naar MCU 114 (lijn .118).
Ten behoeve van invoer/uitvoer besturing voert 15 MPM 115 besturingsbits toe aan RAM 113 (lijn 119) en .het uitgangsregister (OR) 116 (lijn 120).
De CPU 112 voert adressen (lijn 121) en data (lijn 122) toe aan RAM 113 en voert data toe aan OR 116 (lijn 123) en ontvangt data van RAM 113 (lijn 124) en van de ^ data-ingang (lijn.125).
De MCU 114 wisselt flag en overdracht (carry) informatie uit met CPU 112 (lijn 126) en ontvangt het onder- · brekingssignaal (lijn 127).
Deze microcomputer kan door een gemiddelde vakman 25 -worden geprogrammeerd overeenkomstig de stroomdiagrammen \eLke zijn aangegeven in de figuren 5A-D, gebruikmakende van de gebruikersinformatie welke door de fabrikant van de microprocessor geleverd wordt.
G-eladen met dit programma levert de microcomputer na ontvangst van een onderbrekingssignaal van klokpulsgenera-
A
tor 109 een waarde voor Fq op de uitgang. Deze waarde wordt vernieuwd, na ieder onderbrekingssignaal van klokpulsgenerator 109. Deze onderbrekingssignalen mogen .optreden na iedere 10 ms, welke tijd voldoende is voor de microcomputer om de 35 toonhoogte te berekenen.
« 7812151 13.12.78 17 PHN 9313
De microcomputer ontvangt na een onderbrekingssignaal als ingangsgegevens de waarden van de frequentiepunten FA^. en FI^., k = 1, ...... 64 (blok 200, Fig. 5A).
De volgende operatie bestaat uit het bepalen van 5 de waarde van de amplitude (blok 201). Daarna wordt een .is drempelwaarde Z bepaald welke gelijk/aan een fractie van de maximale amplitude (blok 202).
Daarna wordt de waarde van de variabele k welke de index van componenten A^ van het amplitudespectrum repre-10 senteert op 2 gezet en.wordt het aantal N van de significante piekposities x^ op nul gezet (blok 203)·
In de volgende procedure wordt eerst nagegaan of het maximum aantal van 8 significante piekposities al bereikt is (blok 20k). Wanneer dit niet het geval is dan wordt 15 nagegaan of de amplitudewaarde een locaal maximum vormt dat boven de drempel Z uitkomt (beslissingsruit 206).
Wanneer dit het geval is, dan wordt de Y-tak van beslissingsruit 206 actief en wordt N met één verhoogd (blok 207).
20 De juiste .plaats van het locale maximum in het spec trum «wordt berekend door interpolatie middels een polynoom van de tweede graad, tussen de componenten A^, Α^._.| en A^+_| (blok 208). Deze routine levert de positie x^ van de significante piek in het amplitudespectrum.· Hierna wordt 25 de index k met één verhoogd (blok 209) en wordt de lus 210 binnengetreden wanneer de nieuwe waarde van k nóg kleiner of gelijk is aan 63 (beslissingsruit 211).
Wanneer component A^. geen locaal maximum vormt dan wordt de N-tak van beslissingsruit 206 actief en wordt 30 N niet met één verhoogd. In dit geval wordt wel k met één verhoogd (blok 209).
Wanneer lus 210 wordt gevolgd dan herhaalt de beschreven routine zich vanaf beslissingsruit 204 voor de nieuwe waarde van k totdat alle componenten A^. op de laatste na "35 afgewerkt zijn, *
Als beslissingsruit 211 detecteert dat de nieuwe waarde van k 64 is dan wordt de N-tak actief en worden dé significante piekposities x. uitgevoerd (blok 212), indien 7812151 13.12.78 · - 18 ’ PHN 9313 niet al eerder werd gedetecteerd dat er acht significante piekposities zijn gevonden (beslissingsruit 204). In het laatste geval wordt de Y-tak van beslissingsruit 20k actief èn worden daarna de acht significante piekposities x^ uit-5 gevoerd.
De significante piekposities x^ vormen de ingangsgegevens voor de volgende routine waardoor de harmonische nummers van de componenten x^ bepaald worden. Deze ingangsgegevens worden in het volgende alternatief als compo-10 nenten x^ aangeduid.
Anders dan bij de routine volgens fig. 3 wordt hier een masker gevormd met openingen rondom de componenten x^. Vervolgens wordt nagegaan voor welke waarde van de toonhoogte de beste passing tussen het masker en de reeks harmoni-15 schen van de toonhoogte wordt verkregen. Deze alternatieve werkwijze heeft rekenkundig voordelen en levert hetzelfde resultaat als de eerdere werkwijze.
Voor iedere waarde van x^ wordt een lagere waarde xL^ en een hogere waarde xïL berekend welke samen een opening 20 rondom de component x^ bepalen (blok 213). De reeks openingen voor alle componenten x^ vormt het vergelijkingsmasker.
Voor de aanvang van de hoofdlus van de routine wordt de variabele C welke het kwaliteitsgetal registreert op nul gezet en wordt een beginwaarde (50Hz) voor de toonhoogte 25 SFq ingesteld (blok 214).
De reeks harmonischen van de gekozen toonhoogte omvat initieel altijd acht componenten* Er wordt vervolgens bepaald het aantal N’ van de componenten x^ welke binnen het bereik van de reeks harmonischen liggen, dat wil zeggen het aantal 30 componenten x^ -Waarvoor xL^ kleiner is dan acht-maal de gekozen waarde van de toonhoogte SF^ (blok 215).
Wanneer N’ groter is dan nul (beslissingsruit 216) dan wordt het aantal M' bepaald van de harmonischen van de gekozen toonhoogte SFq welke binnen het bereik van de compo-nenten liggen, waarbij M' het geheeltallige resultaat is van het quotiënt xH^f/SFo.
7812151 13.12.78 19 ' PHN 9313
In de volgende operatie wordt het aantal K bepaald van de harmonischen van de gekozen toonhoogte welke in de openingen van het masker liggen. Hierbij wordt aan iedere component een voorlopig harmonisch rangnummer RI\ toegevoegd.
5 Wanneer in een opening geen harmonische van de toonhoogte ligt, dan krijgt de betreffende componentn x_^ het rangnummer nul. In het geval dat een harmonische van de gekozen toonhoogte in de openingen van meer dan één component x^ ligt, dan wordt het harmonische rangnummer aan de component 10 met de laagste waarde toegekend (blok 218).
In Fig. 5D is de routine van blok 218 meer in detail weergegeven, waarvan de werking uit de figuur kan worden afgeleid.
Na de operatie van blok 218 volgt de berekening 15 Van het kwaliteitsgetal Q welke bij de gekozen waarde van de toonhoogte SF behoort (blok 219).
Daarna wordt bepaald of het kwaliteitsgetal Q groter of gelijk is aan de waarde welke de vorige keer werd gevonden (beslissingsruit 22θ). Wanneer dit het geval is, 20 dan wordt de variabele C gelijk gemaakt aan Q en worden de voorlopige rangnummers RI\ overgenomen door de variabelen R_^ welke de nieuwe rangnummers registreren (blok 221).-
Wanneer de routine de Y-tak van beslissingsruit 216 volgt of de N-tak van beslissingsruit 220 of na de 25 operatie van blok 221, wordt een nieuwe waarde voor de toonhoogte SFq berekend (blok 222).
De routine treedt nu de lus 224 binnen wanneer de nieuwe waarde van de toonhoogte nog kleiner of gelijk is aan 500 Hz (beslissingsruit 223). De beschreven routine wordt 30 dan vanaf blok 215 herhaald voor de nieuwe waarde van de toonhoogte SFq.
Wanneer nadat de las 224 een aantal malen doorlopen is de nieuwe, waarde van de toonhoogte SFq groter wordt dan 500 Hz (beslissingsruit 223),dan wordt de lus verlaten en 35 worden de componenten x^ met de bijbehorende rangnummers R^ uitgevoerd (blok 225)· 781 2 1 51 13.12.78 20 . PHN 9313
De componenten x^ en de rangnummers vormen de ingangsgegevens voor eén routine voor het berekenen van
A
de waarschijnlijke waarde van de toonhoogte F (uitdrukking O)).
5 Deze procedure begint met het berekenen van een grootheid DNN welke gevormd wordt door de som van de kwadraten van de rangnummers (blok 226). Wanneer deze grootheid niet gelijk is aan nul (beslissingsruit 227)> dan a , .
wordt Fq overeenkomstig de uitdrukking (1) berekend in blok 10 228. In het andere geval wordt de Y-tak van beslissingsruit 227 gevolgd en wordt Fq op nul gezet (blok 229). In beide gevallen eindigt de routine met het uitvoeren van de waarde van de toonhoogte Fq (blok 230).
Het kwaliteitsgetal Q dat in blok 219 wordt berekend 15 kan natuurlijk volgens één van de andere uitdrukkingen voor Q worden berekend., zonder van het principe van de beschreven werkwijze af te wijken.
De twee procedures voor het vergelijken van de significante piekposities met reeksen harmoni,schen van een 20 grondtoon,, gebruikmakende van het concept van een masker, welke in het eerste geval wordt gedefinieerd door de reeks harmonischen van de grondtoon en in het tweede geval door de significante piekposities leveren hetzelfde resultaat.
Ieder van deze procedures kan worden beschouwd als het duale 25 geval van de andere, met dezelfde voordelen wat betreft de ongevoeligheid voor stoorcomponenten, 30 i 35 7812151

Claims (14)

13.12.78 21 PHN 9313 CONCLUSIES.
1. In een spraakanalyse systeem waarin het amplitude- spectrum van een spraaksignaal wordt geanalyseerd door regelmatig tijdségmenten van het spraaksignaal te selecteren en van 5 ieder segment spectrumcomponenten te bepalen welke de discrete Fouriertransformatie vormen van monsters van het spraaksignaal en door het afleiden in ieder segment van significante piekposities uit de reeks spectrumcomponenten, de werkwijze omvattende de stappen : 10. het kiezen van een waarde voor de toonhoogte en het bepalen van een reeks opeenvolgende gehele veelvouden van deze waarde en het bepalen van intervallen rondom deze waarde en de veelvouden daarvan, welke intervallen een masker definiëren 10 met openingen ter plaatse van een interval, aan welke openingen harmonische nummers zijn toegevoegd corresponderende met de vermenigvuldigfac-toren in de genoemde veelvouden ; - het bepalen van de significante piekposities 20 welke coïncideren met een opening van het masker; - het berekenen van een kwaliteitsgetal overeenkomstig een criterium dat de mate aangeeft waarin de significante piekposities en de openingen van het masker bij elkaar passen; 25. het herhalen van de voorafgaande stappen voor opeenvolgende hogere waarden van de toonhoogte tot een bepaald hoogste waarde, waardoor een reeks bij deze waarden van de toonhoogte behorende kwaliteitsgetallen verkregen wordt; 30 -'het selecteren van de waarde van de toonhoogte met het hoogste kwaliteitsgetal, waarvan het bijbehorende masker een referentiemasker vormt; - het toevoegen van de harmonische nummers van de openingen van het referentiemasker aan de met de . ^5 openingen coïnciderende significante piekposities, welke harmonische nummers deze piekposities karakteriseren in een reeks harmonisch®.van eenzelfde grondtoon; 7812151 * « , 13.12.7S 22 . PHN 93I3 - het bepalen van een waarschijnlijke waarde voor de toonhoogte, zodanig dat de afwijkingen tussen de laatstgenoemde significante piekposities en de overeenkomstige veelvouden van de waarschijn-5 lijke waarde met dezelfde harmonische nummers, zo klein mogelijk zijn.
2. Een spraakanalyse systeem volgens conclusie 1, met het kenmerk, dat het kwaliteitsgetal Q wordt berekend overeenkomstig één van de uitdrukkingen i 10 0__K_ ___sf_ ! Q = -2- M + N 11 · Λ M + N - 2K , waarin K het aantal significante piekposities voorstelt welke coïncideren met openingen van het masker, waarin M het aantal openingen van het masker en N het aantal significante 1%)iekposities voorstelt.
2. Een spraakanalyse systeem volgens conclusie 2, met het kenmerk, dat in de uitdrukkingen voor het kwaliteitsgetal Q de grootheid M is vervangen door M’, waarin M' gelijk is aan M verminderd met het aantal openingen van het masker 2%elke liggen buiten het gebied van de significante piekposities,
4. Een spraakanalyse sytteem volgens conclusie 2, met het kenmerk, dat in de uitdrukkingen voor het kwaliteitsgetal Q de grootheid N is vervangen door N' welke gelijk is aan N ^Verminderd met het aantal significante piekposities welke liggen buiten·het gebied van de openingen van het masker.
5. Een spraakanalyse systeem volgens conclusie 1, met het kenmerk, dat de waarschijnlijke waarde van de toonhoogte A F , wordt berekend overeenkomstig de uitdrukking ί 30 / •K / K fo z h*y z v i = 1 / i s 1 , waarin de i-de significante piekpositie en δ. het daaraan 35toegevoegde nummer voorstelt, en waarin K het aantal significante piekposities voorstelt, welke coïncideren met openingen van het masker. 7812151 13. 12.78 23 PHN.931-3
6. In een spraakanalyse systeem waarin het amplitude- spectrum van een spraaksignaal wordt geanalyseerd door regelmatig tijdsegmenten van het spraaksignaal te selecteren en van ieder segment spectrumcomponenten te bepalen welke 5 de discrete Fouriertransformatie vormen van monsters van het spraaksignaal en door het afleiden in ieder segment van significante piekposities uit de reeks spectrumcomponenten, de werkwijze omvattende de stappen : - het kiezen van een waarde voor de toonhoogte 10 en het bepalen van een reeks opeenvolgende gehele veelvouden van deze waarde en het bepalen van intervallen rondom de significante piekposities welke intervallen een masker definiëren met ope-ningen ter plaatse van een piekpositie aan welke I5 veelvouden van de toonhoogte harmonis.che nummers zijn toegevoegd corresponderende met de vermenig-vuldigfactoren in de genoemde veelvouden; - het bepalen van de veelvouden van de toonhoogte welke coïncideren met een opening van het masker; 20. het berekenen van-een kwaliteitsgetal overeen komstig eën criterium dat de mate aangeeft waarin de veelvouden van de toonhoogte en de openingen van het masker bij elkaar passen; - het herhalen van de voorafgaande stappen voor opeenvolgende hogere waarden van de toonhoogte tot een bepaalde hoogste waarde, 'waardoor een reeks bij deze waarden van de toonhoogten behorende kwaliteitsgetallen verkregen wordt; - hèt selecteren van de waarde van de toonhoogte 30 met het hoogste kwaliteitsgetal, welke de re- ferentietoonhoogte vormt; . - het toevoegen van de harmonische nummers van de veelvouden van de referentietoonhoogte aan de in dezelfde openingen gelegen significante piek-^ posities, welke harmonische nummers deze piek posities karakteriseren in een reeks harmoni-schen van eenzelfde grondtoon; 781 2151 t ί · · 1.3.12.78 2k ΡΗΝ 9313 - het bepalen van een waarschijnlijke waarde voor de toonhoogte, zodanig dat de afwijkingen tussen de laatstgenoemde significante piekposities en de overeenkomstige veelvouden van de waarschijnlijke 5 waarde met dezelfde harmonische nummers, zo klein mogelijk zijn.
7. Een spraakanalyse systeem volgens conclusie 6, met het kenmerk, dat het kwaliteitsgetal Q wordt berekend overeenkomstig één van de uitdrukkingen i 10 2 1 Q = _5_ . Q = -SI- 5 —- M + N M . N M + N - 2K ., waarin K het aantal veelvouden van de toonhoogte voorstelt welke coïncideren met een opening van het masker,waarin M 15 het aantal veelvouden van de toonhoogte van de reeks en N het aantal significante piekposities voorstelt.
8. Een spraakanalyse systeem volgens conclusie 7» met het kenmerk, dat in de uitdrukkingen voor het kwaliteitsgetal Q de grootheid M is vervangen door M', waarin M' gelijk 2. is aan M verminderd met het aantal veelvouden van de toonhoogte welke liggen buiten het gebied van de significante piekposities.
9. Een spraakanalyse systeem volgens conclusie 7» «iet het kenmerk, dat in de uitdrukkingen voor het kwaliteitsgetal 25. de grootheid N is vervangen door N',welke gelijk is aan N verminderd'met het aantal significante piekposities, welke liggen buiten het gebied van de reeks veelvouden van de toonhoogte.
10. Een spraakanalyse systeem volgens conclusie 6, met 30 het kenmerk, dat de waarschijnlijke waarde van de toonhoogte Λ. F , wordt berekend·overeenkomstig de uitdrukking s N / JL 2 f = x.*r. / 5Γ r. x — 1 / x = 1 QC , waarin x^ de waarde van de i-de significante piekpositie en het daaraan toegevoegde rangnummer voorstelt waarin N het aantal significante piekposities voorstelt en waarin aan een significante piekpositie het rangnummer nul wordt toege- 7812151 13.12.78 25 PHN 9313 voegd, wanneer in de betreffende opening van het masker geen veelvoud van de gekozen toonhoogte ligt. 5 10 15 20 $ '30 35 7812151 ’ INTERNATIONAAL OCTROOIBUREAU B.V. Nr. ............ EINDHOVEN ·; r . P^...9313...ffgdgrl. C. .1 : Jr - * s Erratablad 1. Behorende bij Nederlandse octrooiaanvrage 7812151. Blz. 1, regel 6, verander "segment" in - spraaksegment een reeks - . Blz. 1, regel 9, verander "segment" in -^-ti jdsegment - $ na "van" invoegen - de posities van de - ; verander "piek- 5 posities" in - pieken in het spectrum - . Blz. 1, regel 19» verander "ASSP" in - ASSP - 26 - . Blz. 2, regel 27, verander "de" in - een - . Blz. 2, regel 34, verander "waarden" in - waarde - . Blz. 3 regel 19,- verander "de" in - deze - .
10 Blz. 5, regel 11, verander "getalwaarde" in - frequentie- waarde x. - . x Blz. 5, regel 13/4, verander "getalwaarden" in - frequentie-waarden - . Blz. 6, regel 3^·, verander "piekpasities" in - piekpositie - .
15 Blz. 8, regel 10, verander "blok 28" in - ruit 28 - (tweemaal). Blz. 8, regel 27, schrappen "daar". Blz. 9, regel 24, na "maximaal" invoegen - de bovengenoemde - . Blz. 11, regel 3, verander "kleiner is" door - niet groter is - . Blz. 11, regel 8, na "bepaald" invoegen - (Voor k = i wordt 20 mii vergeleken met de vooraf gestelde waarde m^Q = O). Blz. 11, regel 21, verander "m.^." ('tweede voorkomen) in m!k * Blz. 11, regel 22, verander "mÏ1f" in - - . Blz. 11, regel 27, verander ”54" in - 53 - ·
25 Blz. 12, regel 19-20, schrappen "componenten met de waarde nul of één van". Blz. 12, regel 20, na "ruimte" invoegen - de projecties van welke t vectoren op de assen de waarde nul of één hebben - . ../3 7812151
NLAANVRAGE7812151,A 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. NL177950C (nl)

Priority Applications (9)

Application Number Priority Date Filing Date Title
NLAANVRAGE7812151,A NL177950C (nl) 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
CA000341411A CA1223074A (en) 1978-12-14 1979-12-06 Method of and system for determining the pitch in human speech
DE19792949582 DE2949582A1 (de) 1978-12-14 1979-12-10 Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
SE7910165A SE465190B (sv) 1978-12-14 1979-12-11 Saett att bestaemma tonhoejden i en anordning foer talanalys
GB7942692A GB2037129B (en) 1978-12-14 1979-12-11 Analyzing the amplitude spectrum of a speech signal by regularly selecting time segments thereof
AU53682/79A AU536724B2 (en) 1978-12-14 1979-12-11 Method and system for determining pitch in human speech
FR7930736A FR2444313A1 (fr) 1978-12-14 1979-12-14 Procede et dispositif pour determiner la tonalite de la voix humaine
JP54161723A JPS5848117B2 (ja) 1978-12-14 1979-12-14 音声分析方式
US06/347,763 US4384335A (en) 1978-12-14 1982-02-11 Method of and system for determining the pitch in human speech

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NLAANVRAGE7812151,A NL177950C (nl) 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
NL7812151 1978-12-14

Publications (3)

Publication Number Publication Date
NL7812151A true NL7812151A (nl) 1980-06-17
NL177950B NL177950B (nl) 1985-07-16
NL177950C NL177950C (nl) 1986-07-16

Family

ID=19832069

Family Applications (1)

Application Number Title Priority Date Filing Date
NLAANVRAGE7812151,A NL177950C (nl) 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.

Country Status (9)

Country Link
US (1) US4384335A (nl)
JP (1) JPS5848117B2 (nl)
AU (1) AU536724B2 (nl)
CA (1) CA1223074A (nl)
DE (1) DE2949582A1 (nl)
FR (1) FR2444313A1 (nl)
GB (1) GB2037129B (nl)
NL (1) NL177950C (nl)
SE (1) SE465190B (nl)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3377951D1 (en) * 1982-12-30 1988-10-13 Victor Company Of Japan Musical note display device
GB2139405B (en) * 1983-04-27 1986-10-29 Victor Company Of Japan Apparatus for displaying musical notes indicative of pitch and time value
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
NL8900520A (nl) * 1989-03-03 1990-10-01 Philips Nv Probabilistische toonhoogtemeter.
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH08510572A (ja) * 1994-03-11 1996-11-05 フィリップス エレクトロニクス エヌ ベー 準周期的信号用の送信システム
US5870704A (en) * 1996-11-07 1999-02-09 Creative Technology Ltd. Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
DE19906118C2 (de) * 1999-02-13 2001-09-06 Primasoft Gmbh Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
FR2830118B1 (fr) * 2001-09-26 2004-07-30 France Telecom Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur
US7233894B2 (en) * 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50155105A (nl) * 1974-06-04 1975-12-15
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1541041A (en) * 1976-04-30 1979-02-21 Int Computers Ltd Sound analysing apparatus
DE2715411B2 (de) * 1977-04-06 1979-02-01 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Elektrisches Verfahren zum Bestimmen der Grundperiode eines Sprachsignals
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system

Also Published As

Publication number Publication date
FR2444313B1 (nl) 1983-08-05
AU536724B2 (en) 1984-05-24
NL177950B (nl) 1985-07-16
CA1223074A (en) 1987-06-16
JPS5848117B2 (ja) 1983-10-26
FR2444313A1 (fr) 1980-07-11
DE2949582A1 (de) 1980-06-26
US4384335A (en) 1983-05-17
SE465190B (sv) 1991-08-05
AU5368279A (en) 1980-06-19
SE7910165L (sv) 1980-06-15
GB2037129A (en) 1980-07-02
GB2037129B (en) 1983-02-09
JPS5583100A (en) 1980-06-23
NL177950C (nl) 1986-07-16

Similar Documents

Publication Publication Date Title
NL7812151A (nl) Werkwijze en inrichting voor het bepalen van de toon- hoogte in menselijke spraak.
EP0153787B1 (en) System of analyzing human speech
US4559602A (en) Signal processing and synthesizing method and apparatus
US4015088A (en) Real-time speech analyzer
Van Immerseel et al. Pitch and voiced/unvoiced determination with an auditory model
US4038503A (en) Speech recognition apparatus
Ross et al. Average magnitude difference function pitch extractor
Steiglitz On the simultaneous estimation of poles and zeros in speech analysis
Virtanen Sound source separation using sparse coding with temporal continuity objective
US4489434A (en) Speech recognition method and apparatus
US4489435A (en) Method and apparatus for continuous word string recognition
US4544919A (en) Method and means of determining coefficients for linear predictive coding
US4004096A (en) Process for extracting pitch information
CA1172362A (en) Continuous speech recognition method
US4283601A (en) Preprocessing method and device for speech recognition device
GB2107100A (en) Continuous speech recognition
GB2153127A (en) Phoneme transition recognition
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
KR0173923B1 (ko) 다층구조 신경망을 이용한 음소 분할 방법
US3947638A (en) Pitch analyzer using log-tapped delay line
JPS6356560B2 (nl)
Yu et al. Singing voice synthesis using differentiable LPC and glottal-flow-inspired wavetables
JP2001520764A (ja) スピーチ分析システム
Slaney Pattern playback from 1950 to 1995
Czyżewski Soft processing of audio signals

Legal Events

Date Code Title Description
A1B A search report has been drawn up
BC A request for examination has been filed
A85 Still pending on 85-01-01
R1VN Request for mentioning name(s) of the inventor(s) in the patent or request for changing the name(s) of inventor(s) with respec
NP1 Patent granted (not automatically)
V1 Lapsed because of non-payment of the annual fee

Effective date: 19950701