NL8603163A - Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal. - Google Patents

Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal. Download PDF

Info

Publication number
NL8603163A
NL8603163A NL8603163A NL8603163A NL8603163A NL 8603163 A NL8603163 A NL 8603163A NL 8603163 A NL8603163 A NL 8603163A NL 8603163 A NL8603163 A NL 8603163A NL 8603163 A NL8603163 A NL 8603163A
Authority
NL
Netherlands
Prior art keywords
polynomial
formant frequencies
unit
recursion step
zeros
Prior art date
Application number
NL8603163A
Other languages
English (en)
Original Assignee
Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Nv filed Critical Philips Nv
Priority to NL8603163A priority Critical patent/NL8603163A/nl
Priority to US07/128,669 priority patent/US4945568A/en
Priority to DE8787202461T priority patent/DE3779897T2/de
Priority to JP62309753A priority patent/JPS63157200A/ja
Priority to EP87202461A priority patent/EP0275584B1/en
Priority to KR87014155A priority patent/KR960003663B1/ko
Publication of NL8603163A publication Critical patent/NL8603163A/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

« ?
N
fe PHN 11.973 1 N.V. Philips' Gloeilampenfabrieken te Eindhoven.
Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
De uitvinding heeft betrekking op een werkwijze voor het bepalen van formantfrekwenties uit een binnen een zeker tijdinterval liggend gedeelte van een spraaksignaal, waarbij - voor opeenvolgende tijdstippen liggend binnen het tijdinterval uit het 5 binnen het tijdinterval liggend gedeelte van het spraaksignaal een parameterwaarde wordt afgeleid, - uit de parameterwaardes wordt een polynoom van een zekere orde bepaald, - uit de bepaalde polynoom worden de formantfrekwenties afgeleid. De uitvinding heeft eveneens betrekking op een inrichting voor het 10 uitvoeren van de werkwijze.
Formanten zijn in werkelijkheid de resonanties van het mondkanaal en worden gekenmerkt door veel energie in het spektrum.
Tijdens het praten verandert het mondkanaal voortdurend van vorm en daardoor veranderen ook de formanten wat betreft de ligging op de 15 frekwentie-as en wat betreft de bandbreedte. In een bron-filter-model van spraakproduktie wordt vaak gebruik gemaakt van een beschrijving van het filter in termen van formantfrekwenties en -bandbreedten. Ook de spraakanalyse voor de Philips' spraaksynthesechips MEA 8000 en PCF 8200 gebruikt een formantbeschrijving van het spraaksignaal, zie (!) en 20 (2).
De redenen waarom men een formantbeschrijving wil toepassen zijn: - er is een zuinige kodering mogelijk, - men heeft te maken met fysisch te interpreteren gegevens, waardoor manipulaties inzichtelijk zijn, zoals bijvoorbeeld konkatenatie van 25 difoonsegmenten en editing ten behoeve van de spraaksynthesechip.
Hierboven is de indruk gewekt als zou het spraaksignaal altijd door een aantal formanten (= resonanties) beschreven kunnen worden. In dat geval bestaat het filter in het bron-filter-model uit alleen resonanties (all pole filter). In lopende spraak voldoet het 30 spraakproduktiesysteem niet altijd aan dit model: er zijn klanken waarvoor het model minder formanten zou moeten bevatten of naast formanten ook nulpunten (= antiresonanties: dit is een frekwentiegebied 8603153' > PHN 11.973 2 waar een aan resonantie tegengesteld verschijnsel werkzaam is, waardoor het signaal niet wordt opgeslingerd maar als het ware wordt weggezogen en waar lokaal weinig energie in het spektrum is). In een praktisch systeem echter is de struktuur van het bron-filter-model vastgelegd en 5 daardoor ook het aantal formanten. Dit niet aangepast zijn van het gehanteerde model aan alle werkelijk optredende situaties maakt dat bij de spraaksynthese een operationele definitie aan de formanten wordt gegeven. Het spraaksynthesefilter bevat slechts een vast aantal formanten (en geen nulpunten) en de daarbij behorende spraakanalyse 10 heeft de opdracht de modelparameters te vinden onafhankelijk van het feit of het model past bij de spraakproduktie.
Een formantanalyse is uitvoerig beschreven in (3).
Bij deze formantanalyse doen zich een tweetal problemen voor: - niet altijd wordt het voorgeschreven aantal formanten gevonden, 15 - af en toe faalt de analyse om numerieke redenen: het toegepaste algoritme konvergeert niet.
De uitvinding beoogt nu een werkwijze en een inrichting voor het uitvoeren van de werkwijze aan te geven die in staat is het voorgeschreven aantal operationeel gedefinieerde formanten in alle 20 gevallen te bepalen waarbij gebruik gemaakt wordt van een algoritme dat in alle gevallen konvergeert.
De werkwijze volgens de uitvinding heeft daartoe het kenmerk, dat een Split Levinson algoritme wordt uitgevoerd, waarbij in een aantal achtereenvolgende rekursiestappen uit de parameterwaardes 25 telkens een singuliere prediktorpolynoom van een hogere orde wordt bepaald, en dat na de laatste rekursiestap uit de in de laatste rekursiestap verkregen singuliere prediktorpolynoom de formantfrekwenties worden afgeleid. De werkwijze kan daarbij verder zijn gekenmerkt doordat in een rekursiestap de nulpunten van de in deze 30 rekursiestap bepaalde singuliere prediktorpolynoom worden afgeleid, daarbij gebruik makend van de nulpunten berekend tijdens de voorgaande rekursiestap, en dat na de laatste rekursiestap uit de in deze rekursiestap verkregen nulpunten de formantfrekwenties worden afgeleid. Het bepalen van de nulpunten van de singuliere prediktorpolynomen gaat 35 eenvoudiger dan het bepalen van de nulpunten volgens de bekende methode. De nulpunten van de polynoom die volgens de bekende werkwijze zijn verkregen liggen binnen de eenheidscirkel terwijl de nulpunten van £ Λ t * * t ' · * * PHN 11.973 3 een singuliere prediktorpolynoom op de eenheidscirkel liggen. Dit heeft bovendien tot gevolg dat de nulpunten op eenvoudiger wijze zijn te berekenen en dat bovendien altijd voldoende nulpunten worden gevonden, zodat in feite een robuuste methode voor het bepalen van 5 formantfrekwenties is verkregen.
De werkwijze kan verder zijn gekenmerkt, doordat bij elk der aldus gevonden formantfrekwenties de bijbehorende bandbreedte wordt bepaald uitgaande van de parameterwaardes en de berekende formantfrekwenties, door middel van een minimaliseringsalgoritme. Men 10 heeft daarmee weer alle grootheden afgeleid benodigd om synthetische spraak te genereren, zoals reeds gedaan wordt met de eerder genoemde spraakchips MEA 8000 en PCF 8200.
De inrichting voor het uitvoeren van de werkwijze, voorzien van 15 - een ingangsklem voor het ontvangen van een spraaksignaal, - een eerste eenheid voor het, voor opeenvolgende tijdstippen liggend binnen een tijdinterval, uit het binnen dit tijdinterval gelegen gedeelte van het spraaksignaal afleiden van een parameterwaarde, met een ingang gekoppeld met de ingangsklem, en een uitgang, 20 - een tweede eenheid voor het bepalen van een polynoom van een zekere orde uit de parameterwaardes, met een ingang gekoppeld met de uitgang van de eerste eenheid, en een uitgang, en - een derde eenheid voor het afleiden van de formantfrekwenties uit de bepaalde polynoom, met een ingang gekoppeld met de uitgang van de tweede 25 eenheid en een uitgang voor het afgeven van de formantfrekwenties, heeft het kenmerk, dat de tweede eenheid is ingericht voor het uitvoeren van een Split Levinson algoritme, en voor het daarin in een aantal achtereenvolgende rekursiestappen uit de parameterwaardes afleiden van telkens een singuliere prediktorpolynoom van een hogere orde en dat de 30 derde eenheid is ingericht voor het afleiden van de formantfrekwenties uit de in de laatste rekursiestap verkregen singuliere prediktorpolynoom.
De tweede eenheid kan daarbij verder zijn ingericht voor het in een rekursiestap afleiden van de nulpunten van de in deze 35 rekursiestap bepaalde singuliere prediktorpolynoom, daarbij gebruik makend van de nulpunten berekend tijdens de voorgaande rekursiestap, en dat de derde eenheid ingericht is voor het afleiden van de 'P. fi u * r. %
V* ' r. * V
k PHN 11.973 4 λ formantfrekwenties uit de nulpunten verkregen in de laatste rekursiestap. Wil men behalve de op bovenstaande wijze verkregen formantfrekwenties ook nog de bandbreedtes bepalen dan kan daartoe de derde eenheid verder zijn ingericht voor het bij elk der aldus gevonden 5 formantfrekwenties bepalen van de bijbehorende bandbreedte, uitgaande van de parameterwaardes en de berekende formantfrekwenties, door middel van een minimaliseringsalgoritme.
De uitvinding zal hierna in de figuurbeschrijving nader worden uiteengezet. Hierin toont 10 figuur 1 nulpunten van het A-filter uit de LPC-analyse, liggend binnen de eenheidscirkel en nulpunten van de singuliere prediktorpolynoom, liggend op de eenheidscirkel, figuren 2 en 3 het gedrag van de nulpunten verkregen voor opeenvolgende rekursiestappen in het Split Levinson algoritme, 15 figuur 4 een stroomdiagram van de werkwijze, figuur 5 een stroomdiagram van het programmagedeelte waarin het Split Levinson algoritme wordt toegepast, figuur 6 een inrichting voor het uitvoeren van de werkwijze.
20 De formantbepaling in de bekende werkwijze geschiedt door het berekenen van een all pole filter met behulp van de LPC-analyse, dat vervolgens wordt ontleedt in tweede orde sekties. De LPC-analyse is een uit de literatuur bekende analysemethode, zie bijvoorbeeld (5). Bij de LPC-analyse neemt men een stuk signaal van ongeveer 25 ms en 25 vermenigvuldigt dat met een Hamming venster en berekent de autokorrelatie-koëfficiënten. Met behulp van het zogenaamde Levison algoritme wordt nu een polynoom A(z) (1/A(z) = het all pole filter) van een zekere orde bepaald. Dit is een rekursief algoritme waarin voor elke rekursie-slag een A-polynoom wordt berekend waarvan de nulpunten binnen 30 de eenheidscirkel liggen.
Achtereenvolgens: A0(z) = 1 (1f1) 35 A.](z) = 1 + a^.^z ^ 2j 8003163 PHN 11.973 5 A2(z) = 1 + a2.-|Z 1 + a2.2z 2 (Ί.3)
Vz) = 1 + a»-12"1 +.....+ S-m2'·"1 (1.4) 5
Bij elke rekursie verandert het A-polynoom in zijn geheel. Dat de nulpunten steeds binnen de eenheidscirkel liggen garandeert een stabiel synthesefilter en is een gevolg van het toepassen van de autokorrelatiemethode. De nulpunten van dit polynoom zijn toegevoegde 10 komplexe nulpuntparen, óf reële nulpunten, zie figuur 1. In figuur 1 geven de open rondjes de toegevoegde komplexe nulpunt-paren aan en geven de gesloten rondjes de reële nulpunten aan. De nulpunt-paren (inklusief reële) zijn te schrijven als: 15 N(z) = 1 + pz"1 + gz-2 ^2)
Als men het A-polynoom A(z) schrijft als: A(z) = 1 + + ----- + amz_m 20 kan dat ontleedt worden in tweede orde sekties: M/2 M/2 A(z) = Tlf Nj(z_1) = H (1 + ρ^ Z-1 + qj z-2) 25 j=1 j=1
Het afsplitsen van deze (Pj, qj)-paren kan geschieden met behulp van het zogenaamde bairstow-algoritme, dat uit de handboeken bekend is, zie onder andere (6).
30 Toegevoegde komplexe nulpunt-paren vertegenwoordigen een resonantie (= formant) en de Pj, qj getallen geven de formantfrekwentie en -bandbreedte als volgt:
Pj = -2.exp (-irBjT) . cos (2FFjT) (5a) 35
Ij = “P (-2'BjT) (Sb) Λ ti ». r V* '·' *.< ? o *5 Μ Μ ΡΗΝ 11.973 6 waarin Τ = 1/F_ de bemonsteringsperiode; hieruit zijn en te
5 J J
bepalen.
Reële nulpunten kunnen niet naar formantgegevens omgerekend worden omdat deze geen resonantie beschrijven, maar veel meer 5 het spektrum een zekere helling geven.
De twee in de inleiding genoemde problemen bij de huidige formantbepaling kan men nu beter formuleren: - de aanwezigheid van reële nulpunten van het A-polynoom, waardoor geen formantfrekwentie en -bandbreedte bepaald kan worden, 10 - het af en toe falen van het bairstow-algoritme om numerieke redenen die niet echt bekend zijn. Het algoritme blijft dan itereren zonder te konvergeren.
Het zogenaamde Split Levinson algoritme is ontwikkeld door Genin en Delsarte (4), en een van de eigenschappen is, dat ongeveer 15 de helft van het aantal vermenigvuldigingen nodig is om een LPC-analyse uit te voeren vergeleken met het klassieke Levinson algoritme. Dit is mogelijk doordat in plaats van de A-polynomen nu de zogenaamde singuliere prediktor polynomen worden gebruikt. Deze zijn symmetrisch en daardoor liggen de nulpunten op de eenheidscirkel en deze polynomen 20 bestaan dus globaal gesproken uit half zo veel betekenisvolle koëfficiënten.
Het aantrekkelijke van dit algoritme ligt in de eigenschappen van de singuliere prediktor polynomen (SPP). De SPP worden gedefinieerd door 25 -1 Λ
Pk(z) = Ak_.,(z) + z Ak_>, (Z) (6) waarbij Ak(z) het A-polynoom bij de k-de rekursie van het normale Levinson algoritme is en voor ^k(z) geldt: 30
Ak(z) = z“k . Ak (z-1) Λ
Ak(z) is de reciproke polynoom van Ak(z).
Deze SPP zijn zoals gezegd symmetrische polynomen en ze 35 hebben daarom nulpunten die op de eenheidscirkel liggen en niet erbinnen zoals bij de Ak(z) het geval is.
Deze SPP zijn ook verwant aan de polynomen die een rol pjin ·" .=···> » PHN 11.973 7 spelen bij de LSP-analyse (Line Spectrum Pairs) (7). Op grond van de definitie en de eigenschappen van Ak(z) kan men een rekurrente betrekking afleiden voor de SPP: 5 Pk(z) = (1+z‘1) Pfc.jiz) - a]£_1 z“1 Pk_2(z) (8) hier is een getal dat wordt berekend uit de gegeven autokorrelatiekoëfficiënten.
Het is bekend (7) dat de positie van de nulpunten op de 10 eenheidscirkel van deze SPP voor even waarden van de orde in de buurt is van de formantposities zoals men die afleidt uit het A-polynoom. Deze overeenkomst is des te beter naarmate de pool dichter bij de eenheidscirkel ligt of met andere woorden de bandbreedte van de formant kleiner is. Volgens de uitvinding worden de formantfrekwenties nu 15 afgeleid uit de posities van de nulpunten van de singuliere prediktor polynoom op de eenheidscirkel, Het probleem is nu vereenvoudigd van het vinden van de nulpunten van het A-polynoom, die overal binnen de eenheidscirkel kunnen liggen, tot het vinden van de nulpunten van de singuliere prediktor polynoom, die op de eenheidscirkel liggen, zie de 20 met een kruis aangegeven punten op de eenheidscirkel in figuur 1. Het vinden van deze nulpunten van de singuliere prediktor polynoom wordt verder nog vergemakkelijkt, doordat de nulpunten in de suksessievelijke rekursiestappen heel systematisch verschuiven.
De rekursiestappen worden op de volgende wijze 25 doorlopen. In de eerste rekursiestap wordt PQ(z) = 1 genomen. In de * -1 tweede rekursiestap wordt P^(z) = 1+z 1 genomen. Dit volgt rechtstreeks uit de formules (1.1), (6) en (7). Het nulpunt np1 ^ van deze polynoom ligt bij z = -1 ofwel w = ïï, waarbij w het argument is van het (komplexe) nulpunt. In de derde rekursiestap wordt P2(z) 30 berekend gebruik makend van de formule (8):
Pk(z) = (1+z-1) ijj^tz) - t>k_1 z’1 Pk_2(z) ,8) waarbij 35 “k-1 = 1 k'1/ ^k-2 (9)
Λ·, ** Λ η· Λ A
y ,ί i É> 3 9
V
PHN 11.973 8 L k-1 = (ro+rk-1^ + (r1+rk-2) pk-1.1 + ..... (10) en pk ^ volgt uit de algemene formule voor Pk(z) te weten 5 /Vz) = 1+Pk>1z-1 + Pk 2z-2 +.....+ Pk.1z“k+1 + z_k (11) ofwel P2(z) = 1 + P2 -jz-1 + z~2 10
Voor het berekenen van P2(z) geldt dus dat pk-1.1 = pk-1.2 = ..... = 0 15 en dus is S = ro + r1
Bovendien kiest men: ^ = rQ/2 20
Bijgevolg wordt P2(z): P2(z) = (1+z~^)2 - a^z-^ = 1 + (2-a1) z_1 + z“2 25 = z~1 f(2-a1) + (z-1+z)}
Substitueren we hierin z = e]W, hetgeen betekent dat z+z-^ = 2cos w dan krijgen we: 30 P2(z) = e~^w {(2—Of^) + 2cos w)
De tweedegraads polynoom P2(z) is nu teruggebracht tot een eerstegraads polynoom met nulpunten op het interval (-1,+1) in plaats van op de eenheidscirkel.
35 We vinden een nulpunt np2 1 dat ligt in het interval bepaald door np-| 1 (= -1) en +1, zie figuur 2.
Vervolgens wordt in de vierde rekursiestap P-j(z) Βϊ'ΰ ο ι 6 3 PHN 11.973 9 berekend gebruik makend van de formules (8), (9), (10) en (11). Men vindt een vergelijking van de vorm: P3(z) = 1 + P3 + P3 + z-2 5 = (1+z_1) [1+(p3 -j-1) z~1 + z“2] -1
Deze vergelijking is te delen door 1+z , hetgeen een nulpunt np3 ^ oplevert bij z-^ = -1 ofwel w = π.
Wat overblijft is weer een tweedegraadsvergelijking die weer omgewerkt 10 kan worden op de wijze zoals aan de hand van P2(z) beschreven.
Men vindt dan een nulpunt np3 2 ϋ(Γ*- in het interval bepaald door np2 j en +1, zie figuur 2.
Vervolgens wordt in de vijfde rekursiestap P4(z) berekend gebruik makend van de formules (8), (9), (10) en (11): 15 P4(z) = 1 + P4>1z"1 + P4.2Z"2 + P4.1Z~3 + z~4 = z-2 (z2 + P4iz + p4 2 + P4.12"1 + z~2) = z-2 [ (z2+z"2) + p4.,(z+z"1) + p4 2 3 20 Substitueren we weer z = e3W, dan is -1 V -lr z + z =2 cos w en ζΛ + z = 2 cos kw P4(z) = e~2:,w [ 2 cos 2w + 2p4 ^ cos w + p4 2 3 25
En dit is altijd te schrijven in machten van y = cos w; in dit geval met cos 2w = 2 cos2w-1.
P4(z) = e"2jw [ 4y2 + 2p4>1y + (P4 2-2) 3 30
De vierdegraads polynoom P4(z) is nu teruggebracht tot een tweedegraads polynoom met nulpunten weer op het interval (-1,+1) in plaats van op de eenheidscirkel. In het bijzonder ligt er een nulpunt np4 1 tussen np3 1 en np3 2 in en ligt er een nulpunt np4 2 35 tussen np3 2 en +1 in, zie figuur 2.
* PHN 11.973 10
Saraenvattend:
In het Split Levinson algoritme zien de SPP in de achtereenvolgende rekursiestappen eruit als: 5 k = 0 P0(z) = 1 k = 1 P1(z) = 1 + z“1 k = 2 P2(z) = 1 + p2 1z_1 + z"2 k = 3 P3(z) = 1 + p3 fz"1 + P3 ·|Ζ~2 + z-3 = (1 + z“1) (1 + (P3>r1)z~1 + z-2) 10 k = 4 P4(z) = 1 + P4t1z"1 + P4 2Z_2 + P4.1Z_3 + z”4 enzovoorts.
Het is een eigenschap van deze SPP (z) dat de nulpunten van Ρ^(ζ) liggen in een interval dat is af te leiden uit de nulpunten van Ρ^_^(ζ). Zie figuur 2: voor k = 1 is het nulpunt np^ 1 15 = -1, voor k = 2 ligt het nulpunt in het interval (np^ ^ , +1). Voor k = 3 is een nulpunt np2 1 = -1 en het ander nulpunt np2 2 in het interval (np2 1 , +1), enzovoorts.
Het vinden van een nulpunt in een interval waarvan bekend is dat er slechts een aanwezig is leidt altijd tot sukses. In het 20 algoritme worden nu vanaf het begin (vanaf k = 3) steeds de posities van de nulpunten bepaald, zie ook figuur 3.
De formantfrekwenties worden op de volgende wijze berekend uit de nulpunten bepaald in de laatste rekursiestap. Daar een nulpunt np: ^ de lengte van de projektie op de horizontale as (zie
* I J
25 figuur 1) van de eenheidsvektor naar een bepaald punt op de eenheidscirkel aangeeft geldt: np: ^ = cos (2ïï f^.T)
J-1 J J
30 waarbij T = 1/fs, de bemonsteringsperiode en fg de bemonsteringsfrekwentie.
Hieruit volgt dat de formantfrekwentie 35 f = £_ are cos (ηρ· ·)/2ïï j a -1- > j waarbij j loopt van 1 tot en met 1/2 M en i gelijk is aan M.
hΰy o 160 PHN 11.973 11
Het getal M wordt bepaald door het aantal formanten dat men verwacht binnen het te analyseren frekwentiebereik. Is de bandbreedte van het te analyseren frekwentiebereik bij voorbeeld 5000 Hz dan bevinden zich daarbinnen voor een mannenstem vijf en voor een vrouwenstem vier 5 formanten. M is in dat geval 10 respektievelijk 8. Is de bandbreedte bijvoorbeeld 8000 Hz dan bevinden zich binnen dit frekwentiegebied 8 formanten voor een mannenstem en 6 formanten voor een vrouwenstem. M is nu 16 respektievelijk 12. Duidelijk mag zijn dat M dus gelijk genomen wordt aan twee maal het verwachte aantal formanten binnen het 10 frekwentiegebied.
De bandbreedte-informatie bij de aldus gevonden formantfrekwenties moet nu nog bepaald worden. Dit probleem wordt opgelost door een minimaliseringstechniek toe te passen, met de bandbreedten als onbekenden. Hiertoe doet men uit de tabel van mogelijke 15 bandbreedten een keuze voor elke formant. Daaruit is een A-polynoom te berekenen, waarvan men kan nagaan hoe goed dit past bij het binnenkomende signaal. Dus kan men ook berekenen welke keuze uit de tabel de beste passing heeft met het binnenkomende signaal. De passing tussen een a-filter en het binnenkomende signaal kan nu bepaald worden 20 met behulp van de (al berekende) autokorrelatiekoêfficiënten.
- -.1 -
Stel dat A(z ) het a-fxlter is dat tot stand is gekomen door voor alle nog onbekende bandbreedten een waarde uit de beschikbare tabel te kiezen. Dan is de gemaakte fout
25 M
E - Σ (sn + Σ 5k sn-k>2 = n k=1
N
30 = Z ( Σ h sn-k)2 ®et *0 = 1 n k=0
Dit is te herleiden tot:
35 M MM
E = X ak2rk2 + 2 X ak 21 aj rk-j k=0 k=0 j=k+1 C> Γ fi 4 f. ** i . v 'J , :* l V* A-' ♦ PHN 11.973 12 waarin n-k 5 rk = Σ. sj'sj+k 1 j=1 dit zijn de autokorrelatiekoëfficiënten die al berekend zijn en ook gediend hebben als input voor het Split Levinson algoritme.
10 In het minimaliseringsalgoritme wordt het minimum van de fout gezocht voor de bandbreedte van de eerste formant, vervolgens voor de tweede formant, enzovoorts en daarna weer opnieuw voor de eerste formant, enzovoorts. Dit proces wordt zolang herhaald tot de bandbreedte-getallen niet meer veranderen. De waardes voor de bandbreedtes worden 15 genomen uit een tabel met een zekere kwantisatie. Deze kwantisatie is met verschillende stapgroottes getest zonder dat de konvergentie ooit mislukte. De volgorde waarin de minimalisatie verloopt (hier voor achtereenvolgens formant 1, 2, 3, 4 en 5) is van belang voor de snelheid van konvergentie.
20 Figuur 4 toont een stroomdiagram van de werkwijze volgens de uitvinding. De werkwijze wordt gestart in blok 40. In blok 41 wordt een in een zeker tijdinterval, van bij voorbeeld 25 ms lang, gelegen gedeelte van het spraaksignaal ingenomen. Het signaal wordt bewerkt onder invloed van een "Hamming"-venster. Vervolgens worden uit de dan 25 verkregen bemonsteringen S^, ... SN autokorrelatiekoëfficiënten r^ (i=0, ..., M) waarbij M << N berekend in het blok 42. In blok 43 wordt het Split Levinson algoritme toegepast, uitgaande van de autokorrelatiekoëfficiënten r^. Na een aantal, te weten M, rekursiestappen in het Split Levinson algoritme heeft men de nulpunten 30 npM I, npM 2, ···» nPM 1/2 m is even)· Vervolgens worden in het blok 44 uit de in de laatste rekursiestap verkregen nulpunten de formantfrekwenties f^, fM^2 afgeleid. Daarna worden in blok 45 de bij de formantfrekwenties behorende bandbreedtes tot en met bM/2 af9eleid· Vervolgens loopt het programma via de keten 46, 47 weer 35 terug naar blok 41 en wordt uit een, over een zeker tijdinterval (van bij voorbeeld 10 ms) verschoven, tijdinterval (van 25 ms) een spraaksignaal afgeleid waaruit opnieuw een set formantfrekwenties met
JM. .* Λ, i-: C
y‘ f * »· ' iK ftv .3 * ï r * Λ ? * S , i PHN 11.973 13 bijbehorende bandbreedtes kan worden afgeleid. Het programma wordt dus telkens herhaald totdat het volledige spraaksignaal is gekodeerd. Het programma eindigt dan via 46 en 48.
Figuur 5 toont een verdere uitwerking van blok 43 van 5 figuur 4. Figuur 5 toont een stroomschema van het Split Levinson algoritme zoals dat hiervoor al is uiteengezet. Het programma start in blok 50. In de blokken 51 en 52 wordt Pq(z) respektievelijk P^(z) berekend. Het nulpunt van P^z) np1 j ligt bij z"1 = -1.
Vervolgens wordt k = 2 genomen (blok 53) en wordt in blok 54 de 10 singuliere prediktor polynoom Ρ^(ζ) berekend volgens formule (8). Afhankelijk van de vraag of k even of oneven is (blok 55) worden de nulpunten np^ np^ 2> df volgens blok 56 of volgens blok 57 bepaald. Vervolgens wordt de waarde k met 1 verhoogd (blok 58) en loopt het programma via 59 en de keten 60 terug naar blok 54 voor het 15 doorlopen van de volgende rekursiestap. Na de laatste rekursiestap (k = M) loopt het programma via 59 naar blok 61 en is het programma beëindigd.
Figuur 6 toont een uitvoeringsvoorbeeld van de inrichting volgens de uitvinding voor het uitvoeren van de werkwijze. Via de 20 ingangsklem 65 wordt een spraaksignaal aan de inrichting aangeboden. In de eerste eenheid 66 wordt een in een zeker tijdinterval gelegen gedeelte van het spraaksignaal gebruikt voor het berekenen van een parameterwaarde, bij voorbeeld de autokorrelatiekoêfficiënt voor opeenvolgende tijdstippen liggend binnen dit tijdinterval. Deze 25 parameterwaardes worden toegevoerd aan een tweede eenheid 67. Deze eenheid 67 past het Split Levinson algoritme toe op de toegevoerde parameterwaardes. De in de laatste rekursiestap van het Split Levinson algoritme verkregen nulpunten worden toegevoerd aan de derde eenheid 68 die daaruit de formantfrekwenties afleidt. Bovendien kan de derde 30 eenheid 68 zijn ingericht voor het berekenen van de bijbehorende bandbreedtes. De resultaten worden aan een uitgang 69 van de derde eenheid 68 aangeboden.
Het zij vermeld dat diverse modifikaties van de getoonde werkwijze respektievelijk inrichting mogelijk zijn, zonder dat wordt 35 afgeweken van datgene dat valt onder de scope van de uitvinding, zoals gedefinieerd in de conclusies.
4*1 r λ v λ * *τ V ·'·< \· 4 PHN 11.973 14
Tabel -Inschriften in de stroomdiagrammen van figuren 4 en 5.
5 bloknummer inschrift 40, 50 start 41 derive speech segment 10 42 determine auto correlation coefficients 43 determination of zeroes in Split Levinson algorithm 44 calculate formant frequencies 45 calculate corresponding bandwidths 15 48 stop 54 calculate singular predictor polynomial 55 k even? 56, 57 determination of zeroes 61 return #>4 > ‘V *·· J " »5· r* S' -. . ··.
•kn - ·· \* 2 X.' V
PHN 11.973 15
LITERATUURLIJST
5 (1) Philips' Elcoma technical publication no. 101 (1983) MEA 8000 voice synthesizer: principles and interfacing.
(2) Philips' Elcoma technical publication no. 217 (1986) 10 Speech synthesis: the complete approach with the PCF 8200.
(3) Vogten, L.L.M. (1983) Analyse, zuinige kodering en resynthese van spraakgeluid. Dissertatie, Eindhoven.
15 (4) Delsarte, P. and Genin, Y.V. (1986) The Split Levinson Algorithm.
IEEE Trans, on ASSP, Vol. ASSP-34, No. 3, June 86, p. 470-478.
(5) Markel, J.D. and Gray, A.H. (1976) Linear prediction of speech Springer Verlag.
20 (6) Hildebrand, F.B., Introduction to numerical analysis.
McGraw Hill (1956).
(7) Sugamura, N. en Itakura, F., Speech analysis and synthesis 25 methods developed at ELL in NTT - From LPC to LSP, in Speech Communication Vol. 5, 1986, p. 199-215.
ft Γ. .·> : UT
* * >.· i \J

Claims (7)

1. Werkwijze voor het bepalen van formantfrekwenties uit een binnen een zeker tijdinterval liggend gedeelte van een spraaksignaal, waarbij - voor opeenvolgende tijdstippen liggend binnen het tijdinterval uit het 5 binnen het tijdinterval liggend gedeelte van het spraaksignaal een parameterwaarde wordt afgeleid, - uit de parameterwaardes wordt een polynoom van een zekere orde bepaald, - uit de bepaalde polynoom worden de formantfrekwenties afgeleid, met het kenmerk, dat een Split Levinson algoritme wordt uitgevoerd, 10 waarbij in een aantal achtereenvolgende rekursiestappen uit de parameterwaardes telkens een singuliere prediktor polynoom van een hogere orde wordt bepaald, en dat na de laatste rekursiestap uit de in de laatste rekursiestap verkregen singuliere prediktorpolynoom de formantfrekwenties worden afgeleid.
2. Werkwijze volgens conclusie 1, met het kenmerk, dat in een rekursiestap de nulpunten van de in deze rekursiestap bepaalde singuliere prediktorpolynoom worden afgeleid, daarbij gebruik makend van de nulpunten berekend tijdens de voorgaande rekursiestap, en dat na de laatste rekursiestap uit de in deze rekursiestap verkregen nulpunten de 20 formantfrekwenties worden afgeleid.
3. Werkwijze volgens conclusie 1 of 2, met het kenmerk, dat bij elk der aldus gevonden formantfrekwenties de bijbehorende bandbreedte wordt bepaald uitgaande van de parameterwaardes en de berekende formantfrekwenties, door middel van een 25 minimaliseringsalgoritme.
4. Werkwijze volgens conclusie 1, 2 of 3, met het kenmerk, dat de parameterwaarde de waarde van de autokorrelatiekoëfficiënt is.
5. Inrichting voor het uitvoeren van de werkwijze volgens één der voorgaande conclusies, voorzien van 30. een ingangsklem voor het ontvangen van een spraaksignaal, - een eerste eenheid voor het, voor opeenvolgende tijdstippen liggend binnen een tijdinterval, uit het binnen dit tijdinterval gelegen gedeelte van het spraaksignaal afleiden van een parameterwaarde, met een ingang gekoppeld met de ingangsklem, en een uitgang, 35. een tweede eenheid voor het bepalen van een polynoom van een zekere orde uit de parameterwaardes, met een ingang gekoppeld met de uitgang van de eerste eenheid, en een uitgang, en Λ ;ή· Λ ·" i'\ f- fc t a · s o ί PHN 11.973 17 - een derde eenheid voor het afleiden van de formantfrekwenties uit de bepaalde polynoom, eet een ingang gekoppeld met de uitgang van de tweede eenheid en een uitgang voor het afgeven van de formantfrekwenties, met het kenmerk, dat de tweede eenheid is ingericht voor het uitvoeren 5 van een Split Levinson algoritme, en voor het daarin in een aantal achtereenvolgende rekursiestappen uit de parameterwaardes afleiden van telkens een singuliere prediktor polynoom van een hogere orde en dat de derde eenheid is ingericht voor het afleiden van de formantfrekwenties uit de in de laatste rekursiestap verkregen singuliere prediktor 10 polynoom.
6. Inrichting volgens conclusie 5, voor het uitvoeren van de werkwijze volgens conclusie 2, met het kenmerk, dat de tweede eenheid verder is ingericht voor het in een rekursiestap afleiden van de nulpunten van de in deze rekursiestap bepaalde singuliere 15 prediktor polynoom, daarbij gebruik makend van de nulpunten berekend tijdens de voorgaande rekursiestap, en dat de derde eenheid ingericht is voor het afleiden van de formantfrekwenties uit de nulpunten verkregen in de laatste rekursiestap.
7. Inrichting volgens conclusie 5, voor het uitvoeren van de 20 werkwijze volgens conclusie 3, met het kenmerk, dat de derde eenheid verder is ingericht voor het bij elk der aldus gevonden formantfrekwenties bepalen van de bijbehorende bandbreedte, uitgaande van de parameterwaardes en de berekende formantfrekwenties, door middel van een minimaliseringsalgoritme. rx < n “· c X n ij u ; v.f v
NL8603163A 1986-12-12 1986-12-12 Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal. NL8603163A (nl)

Priority Applications (6)

Application Number Priority Date Filing Date Title
NL8603163A NL8603163A (nl) 1986-12-12 1986-12-12 Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
US07/128,669 US4945568A (en) 1986-12-12 1987-12-04 Method of and device for deriving formant frequencies using a Split Levinson algorithm
DE8787202461T DE3779897T2 (de) 1986-12-12 1987-12-09 Verfahren und vorrichtung zur ableitung der formantfrequenzen aus einem teil eines sprachsignals.
JP62309753A JPS63157200A (ja) 1986-12-12 1987-12-09 スピーチ信号の一部分からフォルマント周波数を導出する方法と装置
EP87202461A EP0275584B1 (en) 1986-12-12 1987-12-09 Method of and device for deriving formant frequencies from a part of a speech signal
KR87014155A KR960003663B1 (en) 1986-12-12 1987-12-11 Method and device for deriving formant frequency from a part of a speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8603163 1986-12-12
NL8603163A NL8603163A (nl) 1986-12-12 1986-12-12 Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.

Publications (1)

Publication Number Publication Date
NL8603163A true NL8603163A (nl) 1988-07-01

Family

ID=19848988

Family Applications (1)

Application Number Title Priority Date Filing Date
NL8603163A NL8603163A (nl) 1986-12-12 1986-12-12 Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.

Country Status (6)

Country Link
US (1) US4945568A (nl)
EP (1) EP0275584B1 (nl)
JP (1) JPS63157200A (nl)
KR (1) KR960003663B1 (nl)
DE (1) DE3779897T2 (nl)
NL (1) NL8603163A (nl)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
SE9200349L (sv) * 1992-02-07 1993-03-22 Televerket Foerfarande vid talanalys foer bestaemmande av laempliga formantfrekvenser
US6208959B1 (en) * 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
KR100511316B1 (ko) 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법
KR100634526B1 (ko) * 2004-11-24 2006-10-16 삼성전자주식회사 포만트 트래킹 장치 및 방법
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL188189C (nl) * 1979-04-04 1992-04-16 Philips Nv Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting.
US4477925A (en) * 1981-12-11 1984-10-16 Ncr Corporation Clipped speech-linear predictive coding speech processor
US4536886A (en) * 1982-05-03 1985-08-20 Texas Instruments Incorporated LPC pole encoding using reduced spectral shaping polynomial

Also Published As

Publication number Publication date
JPS63157200A (ja) 1988-06-30
DE3779897D1 (de) 1992-07-23
EP0275584B1 (en) 1992-06-17
KR960003663B1 (en) 1996-03-21
US4945568A (en) 1990-07-31
DE3779897T2 (de) 1993-01-14
EP0275584A1 (en) 1988-07-27

Similar Documents

Publication Publication Date Title
Stoller et al. Wave-u-net: A multi-scale neural network for end-to-end audio source separation
US12014746B2 (en) Method and apparatus for processing an audio signal, audio decoder, and audio encoder to filter a discontinuity by a filter which depends on two fir filters and pitch lag
NL8603163A (nl) Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
US11062720B2 (en) Concept for encoding of information
JP6946494B2 (ja) オーディオデータを処理するための方法および装置
JPS60194499A (ja) 音声分析方式
WO2004015688A1 (en) Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
Niedzwiecki et al. Elimination of impulsive disturbances from archive audio signals using bidirectional processing
Wu et al. Quasi-periodic WaveNet: An autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network
JP6392450B2 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
Yu et al. Singing voice synthesis using differentiable LPC and glottal-flow-inspired wavetables
Koo et al. End-to-end music remastering system using self-supervised and adversarial training
EP1216504A1 (en) Spectrum modeling
EP1442455B1 (en) Enhancement of a coded speech signal
Niediwiecki et al. Smart copying-a new approach to reconstruction of audio signals
CN114822580B (zh) 基于重采样加速计算的修正音频的音高及音色的方法及装置
US12033613B2 (en) Deep neural network based non-autoregressive speech synthesizer method and system using multiple decoder
AU2022201270B2 (en) Cross Product Enhanced Subband Block Based Harmonic Transposition
CN113272896B (en) Apparatus and processor, audio decoder, audio encoder, method and computer program providing a processed audio signal representation
CN114067785B (zh) 语音深度神经网络训练方法、装置、存储介质及电子装置
JPS5816297A (ja) 音声合成方式
JP2000267686A (ja) 信号伝送方式及び復号化装置
US20220108681A1 (en) Deep neural network based non-autoregressive speech synthesizer method and system using multiple decoder
JP2003122380A (ja) ピッチマーク付与装置およびその処理方法ならびに記憶媒体
JPS5925238B2 (ja) 音声分析合成方式の音声区間判定方法

Legal Events

Date Code Title Description
A1B A search report has been drawn up
BV The patent application has lapsed