NL7902631A

NL7902631A - Spraakanalysesysteem.

Info

Publication number: NL7902631A
Application number: NL7902631A
Authority: NL
Original assignee: Philips Nv
Priority date: 1979-04-04
Filing date: 1979-04-04
Publication date: 1980-10-07
Also published as: US4346262A; FR2453459A1; JPH0225518B2; GB2047055A; NL188189B; JPS55166700A; DE3012771C2; GB2047055B; NL188189C; DE3012771A1; FR2453459B1

Description

> N.V. Philips’ Gloeilampenfabrieken te Eindhoven. Λ/ν^ 3_4_1979 1 Sn OQ&cÈoJl

Spraakanalys e sys teem.

A, Achtergrond van de uitvinding.

Afl), Gebied van de uitvinding.

De uitvinding . heeft betrekking op een spraakana-lysesysteem waarin een recursief digitaal filter met louter 5 polen wordt bepaald, zodanig dat een van het filter afgeleide functie een van de spraak afgeleide functie zo goed mogehjk benadert.

Dit hogere orde recursieve digitale louter-polen filter (all-pole-filter) kan gebruikt worden in een spraak- ^ syntheseinrichting voor het reproduceren van de spraak.

A(2) Beschrijving van de stand van de techniek.

Er is op gewezen in een artikel in de IEEE

Transactions on Acoustics, Speech and Signal Processing,

Vol. ASSP-22, No. 2, April 1974, pp 135-141 dat het voor 15 de hand ligt om voor het extraheren van de formanten de polen te bepalen door de noemer van de overdrachtsfunctie van het filter gelijk aan nul te stellen.

In een artikel in de Journal of the Acoustic Society of America, Vol. 63, No. 5» May, 1978 pp l638-l640 20 is opgemerkt, dat een uit louter polen bestaand filter opgevat kan worden als een cascade van verschillende eerste orde en tweede orde louter-polen filters. Het schema van een hierop gebaseerde spraaksynth.eseinrichting voor een even aantal polen is weergegeven in Fig. 1. Deze bestaat 790 2 6 31 3-4-1979 2 ΡΗΝ 9401

V

uit een pulsgenerator 1, een ruisgenerator 2, een stemhebbend- niet stemhebbend schakelaar 3, een versterker 4 en een cascade van tweede orde louter-polen filters 5, 6, 7 en 8.

S De pulsgenerator 1 wordt bestuurd door de toon hoogte (pitch) parameter Fo. De schakelaar 3 wordt bestuurd door de stemhebbend/nietstemhebbend informatie V/U. De amplitudeparameter A bestuurt de versterker 4. De filters 5» 6, 7 en 8 worden bestuurd door de formant para-10 meters F^, J F^, B^J F^, B^ en F^, B^ welke de formant-frequentie (f) en de bandbreedte (b) specificeren.

Een methode voor het berekenen van de filterco-efficienten van het hogere orde digitale filter is bekend uit Proceedings of the International Congres on Acoustics, 15 C-5-5, Tokyo, Japan, August 1968 (zie referentie in het boek Speech Analysis Synthesis and Perception second edition van J.L. Flanagan, pp 364-367, Springer-Verlag, 1972), Hierbij wordt gebruik gemaakt van de kort-tijd autocorrelatie functie van de spraak.

20

Voor het bepalen van de poolparen van het louter- polen filter kan gebruik gemaakt worden van de methode van

Bairstow voor het bepalen van de complexe wortels van een algebraïsche vergelijking met reële coëfficiënten. Deze methode is beschreven in het boek Introduction to Numerical 25

Analysis van C.E, Fröberg, Addison, Wesley, 1965.

Een probleem bij de formantextractie is, dat de poolparen niet in een zodanige ordening voorkomen dat zij eenvoudig aan bepaalde formantgebieden kunnen worden 2Q toegekend en dat reële polen kunnen voorkomen die niet in aanmerking komen om formanten genoemd te worden.

Uit de poolparen kunnen de formanten i.e. de centrale formantfrequentie en de bandbreedte berekend worden en deze gegevens kunnen naar toenemende frequentie 35 gerangschikt worden. Dit geeft echter geen oplossing voor de reële polen waar geen centrale frequentie bijhoort.

B. Samenvatting van de uitvinding.

De uitvinding beoogt in een spraakanalysesysteem van het onderhavige type op eenvoudige wijze een ordening 7902831 4 3-4-1979 3 PHN 9401 van de poolparen te bewerkstelligen.

Dit doel wordt in. het onderhavige spraakanalyse-systeem gerealiseerd door de werkwijze omvattende de stappen : 5 - het transformeren van de coëfficiënten p. en ri q^ van de n tweede orde secties van het filter, met de overdrachtsfuncties ^ 2 t “1, n 10 1 + P±z" + 9±ζ' waarin z”^ * exp (-sT) en s de complexe frequentie s = o< + jw en T de bemonsterperiode voorstelt, naar de coëfficiënten c. en r.

volgens de betrekkingen 15 °i pi N iqii' r± s sign(qi) * \j |q±| ‘ 20 - de waarden van de coëfficiënten c. en r. worden x x begrensd tot waarden dié liggen in een gebied dat begrensd wordt door de waarden c = -2, c=+2, r = 1 en r = 0.

- de coëfficiënten combinaties (c., r.) worden \ x» 25 gerangschikt volgens toenemende waarden van c. .

x

Door het begrenzen van de coëfficiënten c^ en r^ zoals hierboven is aangegeven worden de reële polen complex gemaakt, zodat op eenvoudige wijze formanten be-30 paald kunnen worden. Het blijkt dat deze begrenzing van de coëfficiënten geen hoorbaar effect heeft op de uiteindelijke gesynthetiseerde spraak.

Uit de coëfficiënten c. en r. welke in het ge- xx noemde gebied liggen kunnen de centrale formantfrequenties 35 en de bandbreedtesberekend worden volgens de betrekkingen : 790 2 6 3 1 *i Η· 3-4-1979 k PHN 9^01

-77B.T

r. = e i 1 c± = -2 cos (277F/T) 5 Het resultaat is dat een geordende reeks for mant gegevens (F, b) wordt verkregen waarin geen gaten voorkomen als het gevolg van het optreden van reële polen in de filter overdrachtsfuncties. Anders gezegd, er zijn voor de spraaksyntheseinrichting volgens Fig. 1 10 steeds zonder onderbreking en in de juiste volgorde en voor het juiste filter stuurinformaties beschikbaar.

C. Korte beschrijving van de figuren.

Fig. 1 is het principe schema van een bekende spraaksyntheseinrichting.

15

Fig. 2 is een stroomschema illustrerende de opeenvolging van operaties overeenkomstig het spraakanalysesysteem volgens de uitvinding.

Fig. 3 is een diagram voor het weergeven van de 20 posities van de polen van een tweede orde digitaal filter.

Fig, k is een tweede diagram met getransformeerde coördinaten voor het weergeven van de polen van een tweede orde filtersectie.

25 , .

In het onderhavige spraakanalysesysteem (Fig. 2) worden van een spraaksignaal segmenten afgescheiden met een duur van 25 >ns, Deze functie wordt gerepresenteerd door blok 9 met de inscriptie 25 ms, De volgende bewerking is het vermenigvuldigen van het spraaksignaalsegment met 30 een "Hamming window", welke functie wordt gerepresenteerd door blok 10 met de inscriptie WNDW.

De bemonsterfrequentie bedraagt bijvoorbeeld 8000 Hz, zódat een segment van 25 ms 200 monsters omvat.

jg Het resultaat van de "window"-vermenigvuldiging zijn de signaalmonsters s. , j =1, ...... 200. Vervolgens worden

J

uit deze signaalmonsters de autocorrelatie coëfficiënten r^ , k = 1, ..... , 8 berekend, zoals gerepresenteerd door 7902631 3-4-1979 5 PHN 9401 blok 11. Uit deze coëfficiënten r. worden de filtercoëffi- k cienten a., j = 1, ......, 8 berekend, met behulp van een

J

groep van acht lineaire vergelijkingen, zoals gerepresenteerd door blok 12.

5 De filtercoëfficienten a . zijn de coëfficiënten

J

van het 3outer-polen filter met de overdrachtsfunctie : H = - (l) 8 1 + . Σ _ a . z ^ 10 j = 1 j

Met behulp van het Bairstow-algoritme wordt de overdrachtsfunctie H gesplitst in vier tweede orde overdrachtsfuncties H. .

x H = _i_ = Jt- (2) 4 -1 _a i = iHi i = l (l + piz‘L + qiz^)

Deze laatste operatie wordt gerepresenteerd door blok 13. Het resultaat van deze operatie zijn de vier coëffi- cientencombinatie (p^, q_^ ), i = l, ......... , 4.

De mogelijke combinaties (p^, q^) liggen binnen de in Fig. 3 weergegeven driehoek in het p, q-vlak. De com-2g binaties welke corresponderen met complexe polen liggen boven de parabool p - 4 q = 0; de combinaties die corresponderen met de reële polen liggen onder de parabool in het gearceerde deel van de driehoek.

Een combinatie (p^, q^) hangt samen met de formant 3Q frequentie F^ en de bandbreedte B^ volgens de betrekkingen ρ± = -2e _T,BiT . cos 2T1F. T (3)

-2TIB. T

q± = e x , waarin T de bemonsterperiode voorstelt.

In Fig. 3 is bij punt 1 een (p, q) combinatie weergegeven en is bij punt 2 een (p, q) combinatie weergegeven 7902631 35 3-4-1979 6 PHN 9401 corresponderende met een formant met een hogere frequentie en dezelfde bandbreedte als de bij punt 1 behorende formant. Wanneer van de bij punt 1 behorende formant de bandbreedte bij gelijkblijvende formantfrequentie toeneemt, dan beweegt 5 het corresponderende punt van 1 naar 1* langs een parabool.

Een beweging van punt 2 naar punt 2' correspondeert met een afnemende formantfrequentie bij gelijkblijvende formant bandbreedte .

Het ordenen van de (p, q) combinaties naar opklimmende formantfrequenties is niet eenvoudig omdat in het p, q-vlak niet duidelijk gebieden zijn aan te wijzen welke bij de formanten behoren. De bewegingen van de formanten van punt 1 naar punt 1’ en van punt 2 naar punt 2' onder bepaalde omstandigheden illustreren dat. Het bij deze ordening in aanmerking nemen van de reële polen (punt 3) uit het gearceerde gebied is praktisch moeilijk te realiseren.

Het spraakanalysesysteem zoals dusver beschreven is conventioneel van ophouw en behoort tot de stand van de 20 techniek. De nieuwe trekken overeenkomstig de onderhavige aanvrage zullen nu beschreven worden.

In het spraakanalysesysteem dat overeenkomstig de uitvinding is ingericht wordt een coördinatentransfor-mantie toegepast van de coördinaten p, q naar de coördinaten 25 c, r volgens de betrekkingen j c = P / l/ fqT _ (4) r = sign (q) £ \J [qj1

Deze operatie wordt gerepresenteerd door blok 14. Door deze transformantie wordt de driehoek uit Fig. 3 ge-30 transformeerd naar de figuur in het c, r-vlak, welke is weergegeven in Fig. 4. De punten 1 en 1’ en 2 en 2' uit Fig.

3 zijn weer aangegeven in Fig* 4. De parabool 1-1' uit Fig. 3 is in Fig.4 een rechte lijn.

De coördinatentransformatie levert als resultaat 35 de coëfficientencombinaties (c^, r^), welke vervolgens naar opklimmende waarden van de coëfficiënten c^ worden gerangschikt. Deze elementaire operatie van het ordenen van de poolparen wordt gerepresenteerd door blok 15 met de inscrip- 790 2 6 3 1 3-4-1979 7 PHN9401 «> tie RDR.

De combinaties (c^, r^) welke in het gearceerde gebied van Fig. 4 liggen en welke corresponderen met reële polen worden verschoven naar het rechthoekige gebied dat be-5 grensd wordt door de waarden c = -2, c = +2, r = 1 en r = 0, waarbinnen de complexe polen liggen. Dit geschiedt door de waarden van de coëfficiënten c_^ en r_^ te begrenzen. Deze functie wordt gerepresenteerd door blok 16. De grenswaarden voor c. zijn bijvoorbeeld -1,99 en +1,99 en voor r. bijvoor-10 1 1 beeld 0,3 en 0,99·

De laatstgenoemde operatie kan genoemd worden het complex maken van de reële polen van de overdrachtsfunctie van het louter-polen filter. Door deze operatie wordt een reële pool welke gerepresenteerd wordt door punt 3 verschoven naar punt 3’ en wordt een reële pool welke wordt gerepresenteerd door punt 4 verschoven naar punt 4’. De coördinatentransformatie maakt het op eenvoudige wijze mogelijk aan de reële polen formanten toe te kennen. Anders gezegd: de 2Q operatie van blok 16 levert altijd combinaties (c^, r^), i = l, ....... 4, waarmede formanten corresponderen. De reële pool van punt 3 is ook weergegeven in Fig. 3, waaruit minder duidelijk is hoe aan deze pool een formant toegekend kan worden.

2g De coëfficientencombinatie (c^, r^) welke afkom stig is van blok 16 hangt samen met de formantfrequentie F^ en de bandbreedte Ik volgens de betrekking : c. a -2 cos (277F. T) (5) 1 -77B.T 1 r. a e x x 30

Met behulp van de betrekkingen (5) kunnen de combinaties (F^, B^), i = 1, ...... , 4 berekend worden. Deze functie wordt gerepresenteerd door blok 17.

Het resultaat van het spraakanalysesysteem is een 35 groep van vier geordende (F^, B_^) combinaties, waarmede de vier filters 5 tot 8 van de spraaksynthese inrichting volgens Fig. 1 bestuurd kunnen worden voor het reproduceren van de spraak. Het onderhavige spraakanalysesysteem levert altijd 78Γ0 2 β 3 1 3-4-1979 8 ΡΗΝ 94οι vier (i^, B_^) combinaties in de juiste volgorde, zodat geen van de filters 5 tot 8 geen besturingsinformatie ontvangt of de informatie ontvangt van een naburig filter.

5 10 15 20 25 30 790 2 6 3 1 35

Claims

3-4-1979 9 PHN 9^01 CONCLUSIE.
1. In een spraakanalysesysteem waarin een recursief digitaal louter-polen filter wordt bepaald zodanig dat een van bet filter afgeleide functie een van de spraak afgeleide functie zo goed mogelijk benadert, de werkwijze omvattende 5 de stappen : - het transformeren van de coëfficiënten p. en q. van de n tweede orde secties van het digitale louter-polen filter met de overdrachtsfuncties: 10 „ 1 Hi p i = 1 * .···, n 1. p.z X + q.z^ ,waarin z“1 = exp (-sT), met s de complexe frequentie s = o<+ jw en T de bemonsterperiode, jg naar de coëfficiënten c^ en r_^ volgens de betrekkingen : ci * pi/1/ hil' ri = si^· (q±) ï . VT^T 20 — de waarden van de coëfficiënten c. en r. worden x x begrensd tot waarden die liggen in een gebied dat begrensd wordt door de waarden c = — 2, c = +2, r = 1 en r s 0. 7902631 v . ·*ν- 3-4-1979 10 ΡΗΝ 9^01 - de coëfficiënten combinaties (c. , r.) worden gerangschikt volgens toenemende waarden van c. . x 5 i 15 20 25 30 35 7902631