NL193037C

NL193037C - Werkwijze en inrichting voor het bewerken van spraak.

Info

Publication number: NL193037C
Application number: NL8204641A
Authority: NL
Original assignee: Western Electric Co
Priority date: 1981-12-01
Filing date: 1982-11-30
Publication date: 1998-08-04
Also published as: GB2110906A; CA1181854A; DE3244476C2; JPS6046440B2; FR2517452A1; NL193037B; NL8204641A; SE467429B; JPS6156400A; SE8206641D0; SE8704178L; FR2517452B1; SE456618B; SE8704178D0; GB2110906B; SE8206641L; JPS58105300A; US4472832A; DE3244476A1; JPH0650437B2

Description

Werkwijze en inrichting voor het bewerken van spraak

De onderhavige uitvinding heeft betrekking op een werkwijze voor het bewerken van een spraakpatroon voor digitale codering, omvattende het opdelen van het spraakpatroon in opeenvolgende tijdsintervallen, het 5 genereren van een set van signalen die representatief zijn voor genoemd spraakpatroon van elk tijdsinterval in respons op het intervalspraakpatroon, en het genereren van een verschilsignaal.

De uitvinding heeft voorts betrekking op een spraakprocessor, omvattende: middelen voor het opdelen van een spraakpatroon in opeenvolgende tijdsintervallen; middelen die responsief zijn op elk intervalspraakpatroon voor het genereren van een set van signalen die 10 representatief zijn voor het spraakpatroon van genoemd tijdsinterval; middelen die responsief zijn op genoemd intervalspraakpatroon en genoemde intervalspraakpatroonrepre-sentatieve signalen voor het genereren van een verschilsignaal.

Een dergelijke werkwijze en inrichting zijn bekend uit het Amerikaanse octrooischrift 4.130.729.

Bij digitale spraakcommunicatiestelsels, welke spraakopzamel- en spraakresponsfaciliteiten bezitten, 15 wordt gebruik gemaakt van signaalcompressie om de bitfrequentie welke nodig is voor opslag en/of overdracht, te reduceren. Zoals bekend bevat een spraakpatroon redundanties, welke voor de schijnbare kwaliteit daarvan niet essentieel zijn. Het verwijderen van redundante componenten van het spraakpatroon verlaagt op een significante wijze het aantal digitale codes dat nodig is om een replica van de spraak te construeren. De subjectieve kwaliteit van de spraakrepiica is evenwel afhankelijk van de compressie- en 20 codeermethoden.

Het reeds genoemde Amerikaanse octrooischrift 4.130.729 beschrijft een systeem voor gecomprimeerde spraak dat representatief is voor adaptieve en voorspellende codering. Aan een comparator worden een ingangsspraaksignaal en een daarvoor voorspellend signaal aangeboden, en het verschil daartussen wordt gecodeerd om een voorspellend restsignaal te vormen. Het voorspellende restsignaal wordt teruggevoerd 25 om het voorspellende signaal te modificeren voor een vergelijking met het volgende monster van het ingangssignaal. Het verschilsignaal wordt gecodeerd in een A/D-omzetter en rechtstreeks gebruikt in een ontvanger voor het reconstrueren van het ingangsspraaksignaal. Het resultaat van de aanpak zoals beschreven in genoemde publicatie is een voorspellend restsignaal met uitgesproken complexe veranderingen van monster naar monster, hetgeen een overdracht met hoge bitsnelheid vereist.

30 De onderhavige uitvinding beoogt spraak met hoge kwaliteit te verschaffen met lagere bitsnelheden dan restcodeerschema’s die zijn ingericht voor het verminderen van de kwantisatieruis.

Daartoe heeft een werkwijze van het voornoemde type volgens de onderhavige uitvinding het kenmerk dat het verschilsignaal representatief is voor de verschillen tussen het intervalspraakpatroon en de intervalspraakpatroonrepresentatieve signaalset; 35 dat met het intervalspraakpatroon corresponderend eerste signaal wordt gevormd in respons op de intervalspraakpatroonrepresentatieve signalen en het voor de intervalverschillen representatieve signaal; dat een tweede intervalcorresponderend signaal wordt gevormd in respons op de intervalspraakpatroonre-presentatieve signalen; dat een signaal wordt gegenereerd dat correspondeert met de verschillen tussen de eerste en tweede 40 intervalcorresponderende signalen; en dat een derde signaal wordt geproduceerd in respons op het met de intervalverschillen corresponderende signaal voor het wijzigen van het tweede signaal teneinde het met de intervalverschillen corresponderende signaal te reduceren.

Voorts heeft een spraakprocessor van het voornoemde type volgens de onderhavige uitvinding het 45 kenmerk dat het verschilsignaal representatief is voor de verschillen tussen het intervalspraakpatroon en de intervalrepresentatieve signaalset; dat is voorzien in middelen die responsief zijn op de spraakintervalsignalen en het voor de intervalverschillen representatieve signaal voor het vormen van een met het intervalspraakpatroon corresponderend eerste signaal; 50 dat is voorzien in middelen die responsief zijn op de intervalspraakpatroonrepresentatieve signalen voor het vormen van een tweede intervalcorresponderend signaal; dat is voorzien in middelen voor het genereren van een signaal dat correspondeert met de verschillen tussen de eerste en tweede intervalcorresponderende signalen; en dat is voorzien in middelen die responsief zijn op het met de intervalverschillen corresponderende signaal 55 voor het produceren van een derde signaal voor het wijzigen van het tweede intervalcorresponderende signaal teneinde het met de intervalverschillen corresponderende signaal te reduceren.

Volgens de uitvinding wordt elk opeenvolgend interval van een spraakpatroon geanalyseerd en een set

ISOUOf Z

van voorspellende parametersignalen gegenereerd alsmede een signaal dat correspondeert met de verschillen tussen het spraakpatroon van het frame-interval en de voorspellende signaalset van het frame-interval. In respons op het voor de frameverschillen representatieve signaal en de voorspellende parametersignalen wordt in een voorspellend filter een eerste signaal gegenereerd dat correspondeert met 5 het spraakpatroon van het frame-interval. In respons op de voorspellende parametersignalen wordt in een ander voorspellend filter een tweede signaal gegenereerd dat correspondeert met het interval. Er wordt een signaal gegenereerd dat correspondeert met de verschillen tussen de eerste en tweede fram-intervalcorresponderende signalen, en er wordt een signaal gevormd dat een voorgeschreven formaat heeft en dat het tweede signaal modificeert om het frame-intervalverschillen-signaal te minimaliseren. Dit signaal 10 wordt, anders dan een restsignaal, gecodeerd met een veel lagere bitsnelheid terwijl toch gesynthetiseerde spraak met hoge kwaliteit wordt verschaft. Er is geen afzonderlijke codering benodigd voor intervallen met en zonder stem, en gedeeltelijk gesproken intervallen kunnen nauwkeurig gerepresenteerd worden. Aldus zijn het gesproken/ongesproken-gecodeerde signaal en de ruisgenerator geëlimineerd en kunnen nauwkeuriger replica’s gesynthetiseerd worden bij bitsnelheden die lager zijn dan die welke benodigd zijn voor 15 restsignaalcodering.

De uitvinding zal onderstaand nader worden toegelicht onder verwijzing naar de tekening. Daarbij toont: figuur 1 een blokschema van een spraakprocessorketen ter illustratie van de uitvinding; figuur 2 een blokschema van een excitatiesignaalvormende processor, en die in de keten van figuur 1 20 kan worden toegepast; figuur 3 een stroomdiagram ter toelichting van de werking van de excitatiesignaalvormende keten volgens figuur 1; figuren 4 en 5 stroomdiagrammen ter toelichting van de werking van de keten volgens figuur 2; figuur 6 een tijddiagram ter illustratie van de werking van de excitatiesignaalvormende keten volgens 25 figuur 1 en figuur 2; en figuur 7 golfvormen ter illustratie van de spraakverwerking volgens de uitvinding.

Figuur 1 toont een algemeen blokschema van een spraakprocessor volgens de uitvinding. In figuur 1 wordt een spraakpatroon, zoals een gesproken bericht, ontvangen door een microfoontransducent 101. Het 30 overeenkomstige analoge spraaksignaal daarvan wordt wat bandbreedte betreft begrensd en in een filteren steekproefketen 113 van een voorspellingsanalysator 110 in een reeks pulssteekproeven omgezet. Het filteren dient voor het verwijderen van frequentiecomponenten van het spraaksignaal boven 4,0 kHz en het nemen van steekproeven kan geschieden bij een frequentie van 8,0 kHz, zoals op zichzelf bekend is. De tempering van de steekproeven wordt bestuurd door de steekproefklok CL uit de klokgenerator 103. Elke 35 steekproef uit keten 113 wordt in een analoogdigitaalomzetter 115 omgezet in een amplitude-representatieve digitale code.

De reeks spraaksteekproeven wordt toegevoerd aan een voorspellingsparameterrekentuig 119, dat zoals bekend, dient om de spraaksignalen te splitsen in intervallen van 10 tot 20 ms en een stel lineaire voorspellingscoëfficiëntsignalen ak op te wekken, waarbij k = 1,2,....., p, representatief voor het voorspelde 40 een korte tijd durende spectrum van de N » p spraaksignalen van elk interval. De spraaksteekproeven uit de A/D omzetter 115 worden in een vertragingsinrichting 117 vertraagd om tijd te scheppen voor het vormen van de signalen ak. De vertraagde steekproeven worden toegevoerd aan de ingang van een voorspellings-restgenerator 118. De voorspellingsrestgenerator vormt, zoals bekend, in responsie op de vertraagde spraaksteekproeven en de voorspellingsparameters ak een signaal, overeenkomende met het verschil 45 daartussen. De vorming van de voorspellingsparameters en het voorspellingsrestsignaal voor elk raster, aangegeven in de voorspellingsanalisator 110, kan plaatsvinden overeenkomstig hetgeen is beschreven in het Amerikaanse octrooischrift 3.740.476.

Ofschoon de voorspellingsparametersignalen ak een efficiënte representatie van het kortdurende spraakspectrum vormen, varieert het restsignaal in het algemeen sterk van interval tot interval en vertoont 50 dit een hoge bitfrequentie, die voor vele toepassingen ongeschikt is. Bij de toonhoogte-geëxciteerde vocoder worden slechts de pieken van de rest als toonhoogtepulscodes overgedragen. De resulterende kwaliteit is evenwel in het algemeen slecht. De golfvorm 701 van figuur 7 toont een typerend spraakpatroon over twee tijdrasters. De golfvorm 703 toont het voorspellingsrestsignaal, dat afkomstig is uit het patroon van de golfvorm 701 en de voorspellingsparameters van de rasters. Zoals blijkt, is de golfvorm 703 betrekkelijk 55 complex, zodat codeertoonhoogtepulsen, welke overeenkomen met pieken daarin, geen adequate benadering van de voorspellingsrest verschaffen. Volgens de uitvinding ontvangt de excitatiecodeprocessor 120 het restsignaal dk en de voorspellingsparameters ak van het raster en wekt een intervalexcitatiecode op,

O ItfJUÜS

welke een voorafbepaald aantal bitposities bezit. De resulterende excitatiecode, aangegeven in de golfvorm 705, bezit een relatief lage bitfrequentie, die constant is. Een replica van het spraakpatroon van de golfvorm 701, opgebouwd uit de excitatiecode en de voorspellingsparameters van de rasters, is aangegeven bij de golfvorm 707. Zoals uit een vergelijking van de golfvormen 701 en 707 blijkt, worden bij veel lagere 5 bitfrequenties spraakkarakteristieken van adaptieve voorspellingscodering met betere kwaliteit verkregen.

Het voorspellingsrestsignaal dk en de voorspellingsparametersignalen ak voor elk opeenvolgend raster worden vanuit de keten 110 toegevoerd aan de excitatiesignaalvormende keten 120 bij het begin van het volgende raster. De keten 120 wekt een uit een aantal elementen bestaande rasterexcitatiecode EC met een voorafbepaald aantal bitposities voor elk raster op. Elke excitatiecode komt overeen met een reeks 1 ^ i 10 = I pulsen, die representatief zijn voor de excitatiefunctie van het raster. De amplitude β; en de plaats m, van elke puls binnen het raster wordt bepaald in de excitatiesignaalvormende keten teneinde een opbouw van een replica van het rasterspraaksignaal uit het excitatiesignaal en de voorspellingsparametersignalen van het raster mogelijk te maken. De ft - en nrysignalen worden in de codeerinrichting 131 gecodeerd en met de voorspellingsparametersignalen van het raster aan een multiplexbewerking onderworpen in een 15 multiplexinrichting 135 voor het verschaffen van een digitaal signaal, dat met het rasterspraakpatroon overeenkomt.

In de excitatiesignaalvormende keten 120 worden het voorspellingsrestsignaal dk en de voorspellingsparametersignalen ak van een raster via respectieve poorten 122 en 124 toegevoerd aan een filter 121. Bij het begin van elk raster opent het rasterkloksignaal FC de poorten 122 en 124, waardoor de dk-signalen aan 20 het filter 121 en de ak-signalen aan de filters 121 en 123 worden toegevoerd. Het filter 121 modifiëert het signaal dk zodanig, dat het kwantiseerspectrum van het foutsignaal in de formantgebieden daarvan is geconcentreerd. Zoals beschreven in het Amerikaanse octrooischrift 4.133.976 dient dit filterstelsel om de fout in de energiegedeelten met een sterk signaal van het spectrum te maskeren.

De overdrachtsfunctie van het filter 121 wordt in z transformatienotatie uitgedrukt door 15 H(z)m-ï^i) (1) waarbij B(z) wordt geregeld door de rastervoorspellingsparameters ak.

Het voorspellingsfilter 123 ontvangt de rastervoorspellingsparametersignalen uit het rekentuig 119 en een 30 kunstmatig excitatiesignaal EC uit de excitatiesignaalprocessor 127. Het filter 123 heeft de overdrachtsfunctie volgens vergelijking (1). Het filter 121 vormt een gewogen rasterspraaksignaal y in responsie op het voorspellingsrestsignaal dk, terwijl het filter 123 een gewogen kunstmatig spraaksignaal Ϋ optrekt in responsie op het excitatiesignaal uit de signaalprocessor 127. De signalen y en Ϋ worden gecorreleerd in de correlatieprocessor 125, welke een signaal E opwekt, dat overeenkomt met het gewogen verschil daartus-35 sen. Het signaal E wordt toegevoerd aan de signaalprocessor 127 om het excitatiesignaal EC zodanig in te stellen, dat de verschillen tussen het gewogen spraakrepresentatieve signaal uit het filter 121 en het gewogen kunstmatige spraakrepresentatieve signaal uit het filter 123 worden gereduceerd.

Het excitatiesignaal bestaat uit een reeks van 1 ^ i ^ I pulsen. Elke puls heeft een amplitude ft en een plaats try De processor 127 dient voor het achtereenvolgens vormen van de ft, nysignalen, welke de 40 verschillen tussen het gewogen rasterspraakrepresentatieve signaal uit het filter 121 en het gewogen kunstmatige rasterspraakrepresentatieve signaal uit het filter 123 reduceren. Het gewogen rasterspraakrepresentatieve signaal.

Vn= Σ dkhn_k 1inSN (2) k=n-k 45 en het gewogen kunstmatige spraakrepresentatieve signaal van het raster 'f'n = Σ fthn-mj 1 S Π S N (3) 50 waarbij hn de pulsresponsie van het filter 121 of het filter 123 is.

Het in de keten 120 gevormde excitatiesignaal is een gecodeerd signaal met elementen β;, nry waarbij i = 1,2,..........,l. Elk element stelt een puls in het tijdraster voor. ft is de amplitude van de puls en mi is de plaats van de puls in het raster. De correlatiesignaalgeneratorketen 125 wekt achtereenvolgens voor elk element een correlatiesignaal op. Elk element kan op het tijdstip 1 ü q ^ Q in het tijdraster worden 55 geplaatst. Derhalve vormt de correlatieprocessorketen Q mogelijke kandidaten voor het element i overeenkomstig vergelijking (4).

Ciq — Σ Yn^n-q — Σ Υη,ί-1 ^n-q W

n=q n=q waarbij 5 Vi ='|pjhn-mj (5)

De excitatiesignaalgenerator 127 ontvangt de Ciq-signalen uit de correlatiesignaalgeneratorketen, kiest het Clq-signaai met de maximale absolute waarde en vormt het ide element van het gecodeerde signaal.

10 ^= Ciq7k?0 h* ^ mj = q* waarbij q* de plaats van het correiatiesignaal met de maximale absolute waarde is. De index i wordt geïncrementeerd tot i+1 en het signaal Ϋη aan de uitgang van het voorspellingsfilter 123 wordt gewijzigd.

15 Het proces volgens de vergelijkingen (4), (5) en (6) wordt herhaald voor het vormen van het element β,+1, mi+1. Na de vorming van het element β,, m, wordt het signaal met de elementen ftm.,, β2ητι2,.......β, m, naar de codeerinrichting 131 overgedragen. Zoals bekend kwantiseert de codeerinrichting 131 de β^ elementen en vormt een gecodeerd signaal, dat geschikt is om naar het netwerk 140 te worden overgedragen.

Elk van de filters 121 en 123 in figuur 1 kan bestaan uit een transversaal filter van het type, beschreven 20 in het bovengenoemde Amerikaanse octrooischrift 4.133.976. Elk van de processors 125 en 127 kan bestaan uit een van de bekende processorstelsel voor het uitvoeren van een verwerking, zoals deze wordt vereist door de vergelijkingen (4) en (6) zoals het C.S.P., Ine. Macro Arithmetic Processor System 100 of een ander bekend processorstelsel. De processor 125 omvat een geheugen, dat slechts kan worden uitgelezen, welk geheugen permanent geprogrammeerde instructies opslaat om de vorming van het 25 Ciq-signaal overeenkomstig vergelijking (4) te regelen en de processor 127 omvat een slechts uitleesbaar geheugen, dat permanent geprogrammeerde instructies opslaat voor het kiezen van de β,,πν signaalelementen overeenkomstig vergelijking (6) zoals bekend.

Figuur 3 toont een stroomdiagram ter toelichting van de werking van de processor 125 en 127 voor elk tijdraster. Onder verwijzing naar figuur 3, worden de hk pulsresponsiesignalen in de rechthoek 305 opgewekt 30 in responsie op de rastervoorspellingsparameters voor de overdrachtsfunctie van de vergelijking 1. Dit vindt plaats na ontvangst van het FC-signaal uit de klok 103 in figuur 1 bijvoorbeeld via de wachtrechthoek 303. De elementindex i en de excitatiepuls plaatsindex 3 worden in de rechthoek 307 initieel ingesteld op 1. Bij ontvangst van de signalen yn en Ϋη M uit de voorspellingsfilters 121 en 123, wordt het signaal Ciq door de rechthoek 309 gevormd. De plaatsindex 3 wordt in de rechthoek 311 geïncrementeerd en de vorming van 35 het volgende Ciq-plaatssignaal wordt ingeleid.

Nadat het CiQ-signaal is gevormd om het signaalelement i in de processor 125 te exciteren, wordt de processor 127 geactiveerd. De s-index in de processor 127 wordt in de rechthoek 315 initieel ingesteld op 1 en de i-index evenals de in de processor 125 gevormd Ciq-signalen worden overgedragen naar de processor 127. Het signaal Ciq*, dat het Ciq-signaal met de maximale absolute waarde voorstelt, en de 40 plaats q* daarvan, worden in de rechthoek 317 op 0 ingesteld. De absolute waarden van de Ciq-signalen worden vergeleken met het signaal Cip. en het maximum van deze absolute waarden wordt als het signaal Clq. opgeslagen in de lus, welke de rechthoeken 319, 321, 323 en 325 omvat.

Nadat het CiQ-signaal uit de processor 125 is verwerkt, wordt de rechthoek 327 vanuit de rechthoek 325 geïntroduceerd. De excitatiecodeelementplaats m( wordt ingesteld op q* en de waarde van het excitatie-45 codeelement β, wordt opgewekt in overeenstemming met vergelijking (6). Het ftnij-element wordt via de rechthoek 328 naar het voorspellingsfilter 123 gevoerd en de index i wordt door de rechthoek 329 geïncrementeerd. Bij vorming van het β,ι-η,-βίβιτιβηΐ van het raster, wordt de wachtrechthoek 303 opnieuw vanuit de beslissingsrechthoek 331 geïntroduceerd. De processors 125 en 127 worden dan in wacht-toestand gebracht totdat de FC-rasterklokpuls van het volgende raster optreedt.

50 Ook de excitatiecode in de processor 127 wordt toegevoerd aan de codeerinrichting 131. De codeerinrichting transformeert de excitatiecode uit de processor 127 in een vorm, welke geschikt is om in het netwerk 140 te worden gebruikt. De voorspellingsparametersignalen ak voor het raster worden via een vertragingsinrichting 133 toegevoerd aan de ingang van de multiplexinrichting 135. Het excitatiegecodeerde signaal EC uit de codeerinrichting 131 wordt toegevoerd aan de andere ingang van de multiplexinrichting.

55 De multiplex excitatie- en voorspellingsparametercodes voor het raster worden dan naar het netwerk 140 gezonden.

Het netwerk 140 jan een communicatiestelsel, de berichtopzamelinrichting van een spraakopzamelstelsel, of een inrichting, bestemd voor het opslaan van een volledig bericht of een vocabulaire van voorgeschreven berichteenheden bijvoorbeeld woorden, fonemen, enz. ten gebruike bij spraaksynthetisators zijn. Wat ook de berichteenheid is, de resulterende reeks van rastercodes uit de keten 120 wordt via een netwerk 140 toegevoerd aan de spraaksynthetisator 150. De synthetisator gebruikt op zijn beurt de rasterexcitatiecodes 5 uit de keten 120 evenals de rastervoorspellingsparametercodes voor het opbouwen van een replica van het spraakpatroon.

De demultiplexinrichting 152 in de synthetisator 150 scheidt de excitatiecode EC van een raster van de voorspellingsparameters ak daarvan. De excitatiecode wordt nadat deze in de decodeerinrichting 153 tot een excitatiepulsreeks is gedecodeerd, toegevoerd aan de excitatieingang van het spraaksynthetisatorfilter 154.

10 De ak-codes worden toegevoerd aan de parameteringangen van het filter 154. Het filter 154 vormt in responsie op de excitatie- en voorspellingsparametersignalen een gecodeerde replica van het rasterspraak-signaal, zoals bekend. De D/A-omzetter 156 transformeert de gecodeerde replica in een analoog signaal, dat over het laagdoorlaatfilter 158 wordt gevoerd en door de transducent 160 in een spraakpatroon wordt getransformeerd.

15 Een andere inrichting voor het uitvoeren van de excitatiecode vormhandelingen van de keten 120 kan zijn gebaseerd op de gewogen effectieve fout tussen de signalen yn en Ϋη. Deze gewogen effectieve fout bij het vormen van β, en m; voor de i-de excitatiesignaalpuls wordt gegeven door E|= Siyn-i^hn-m,)2 (7) n = 1 \ j=1 7 20 waarbij hn de n-de steekproef van de pulsresponsie van H(z), nrij de plaats van de j-de puls in het excitatie-codesignaal en β) de waarde van de j-de puls is.

De pulsplaatsen en -amplituden worden sequentieel gevormd. Het i-de element van de excitatie wordt bepaald door Ei in vergelijking (7) minimaal te maken. De vergelijking (7) kan opnieuw worden geschreven 25 als

Ei = Σ .(y„ - Σ Pjhn-J2 + Pfhp-m, - (YA-m, - Σ βΑ-η hn_ J] (8) zodat de bekende excitatiecode elementen, welke voorafgaan aan ft.nij, slechts in de eerste term optreden. 30 Zoals bekend kan de waarde van βί; welke Es minimaal maakt, worden bepaald door vergelijking (8) ten aanzien van β, te differentiëren en gelijk aan 0 te stellen.

i- 35 Derhalve is de optimale waarde van β) rrii+K i-1 Σ dk«}> I k-rrii I Σ βί Φ Irrij-m,! ----- (10> 40 waarbij Φκ = Σ hnhn_k o s k s K (11) n=k de autocorrelatiecoëfficiënten van het voorspellingsfilterpulsresponsiesignaal hk zijn.

45 βί in vergelijking (10) is een functie van de pulsplaats en wordt voor elke mogelijke waarde daarvan bepaald. Het maximum van de β, - waarden over de mogelijke pulsplaatsen wordt dan gekozen. Nadat β: en rrvwaarden zijn verkregen, worden βι+1, mi+1-waarden gevormd door vergelijking (10) op een soortgelijke

m, +K

wijze op te lossen. De eerste term van de vergelijking (10), d.w.z. 2 dk <}>k.m , komt overeen met het k=m,-K ' 50 spraakrepresentatieve signaal van het raster aan de uitgang van het voorspellingsfilter 121. De tweede term van vergelijking (10), d.w.z. 2 βίφΓΠ) - πΐ| komt overeen met het kunstmatige spraakrepresentatieve signaal van het raster van de uitgang van het voorspellingsfilter 123. β( is de amplitude van een excitatiepuls op de plaats m,, waarbij het verschil tussen de eerste en tweede termen minimaal is.

De in figuur 2 afgebeelde informatieverwerkingsketen voorziet in een andere constructie van de 55 excitatiesignaalvormingsketen 120 volgens figuur 1. De keten volgens figuur 2 levert de excitatiecode voor elk raster van het spraakpatroon in responsie op het rastervoorspellingsrestsignaal dk en de rastervoorspel-

.«wvw. O

lingsparametersignalen ak overeenkomstig vergelijking (10) en kan bestaan uit het eerdergenoemde C.S.P., Ine. Macro Arithmetic Processor System 100 of een ander bekend processorstelsel.

Zoals uit figuur 2 blijkt, ontvangt de processor 210 de voorspellingsparametersignalen ak en de voorspellingsrestsignalen dn van elk opeenvolgend raster van het spraakpatroon via de opzamelinrichting 5 218 uit de keten 110. De processor vormt de excitatiecode signaalelementen p1m1, β2ιη2,........β,,ηι, onder bestuur van permanent opgeslagen instructies in het slechts uitleesbare voorspellingsfilter subroutine geheugen 201 en het slechts uitleesbare excitatieverwerkingssubroutinegeheugen 205. De voorspellings-filtersubroutine van de ROM 201 vindt men in appendix C en de excitatieverwerkingssubroutine van de ROM 205 vindt men in de appendix D.

10 De processor 210 omvat een gemeenschappelijke lijn 225, een informatiegeheugen 230, een centrale processor 240, een rekenkundige processor 250, een regelkoppelinrichting 220 en een ingangs-uitgangskoppelinrichting 260. Zoals bekend dient de centrale processor 240 voor het regelen van de volgorde van werking van de andere eenheden van de processor 210 in responsie op gecodeerde instructies uit de regelaar 215. De rekenkundige processor 250 dient voor het uitvoeren van de rekenkun-15 dige bewerkingen op gecodeerde signalen uit het informatiegheugen 230 in responsie op stuursignalen uit de centrale processor 240. Het informatiegeheugen 230 slaat signalen op, onder bestuur van de centrale processor 240 en levert deze signalen aan de rekenkundige processor 250 en de koppelinrichting 260. De koppelinrichting 220 voorziet in een communicatieverbinding voor de programmainstructies in de ROM 201 en de ROM 205 naar de centrale processor 240 via de regelaar 215, en de koppelinrichting 260 maakt het 20 mogelijk, dat het dk- en ak-signaal aan het informatiegeheugen 230 wordt toegevoerd en de uitgangssignalen β,ιτι-, uit het informatiegeheugen aan de codeerinrichting 131 in figuur 1 wordt toegevoerd.

De werking van de keten volgens figuur 2 is aangegeven in het filterparameterverwerkingsstroomdiagram volgens figuur 4, het excitatiecodeverwerkingsstroomdiagram volgens figuur 5 en het tijddiagram volgens figuur 6. Bij het begin van het spraaksignaal wordt de rechthoek 401 in figuur 4 via de rechthoek 405 25 geïntroduceerd en wordt de rastertelling i op het eerste raster ingesteld door een enkele puls ST uit de klokgenerator 103. Figuur 6 toont de werking van de keten volgens figuren 1 en 2 voor twee opeenvolgende rasters. Tussen de tijdstippen t0 en t7 in het eerste raster vormt de voorspellingsanalysator 110 de spraakpatroonsteekproeven van het raster r+2 als bij de golfvorm 605 onder bestuur van de steekproefklok-pulsen met de golfvorm 601. De analysator 110 wekt de ak-signalen overeenkomende met het raster r+1 30 tussen de tijdstippen t0en t3 en vormt het voorspellingsrestsignaal dk tussen de tijdstippen t3 en ^ als aangegeven bij de golfvorm 607. Het signaal FC (golfvorm 603) treedt op tussen de tijdstippen tg en V De signalen dk uit de restsignaalgenerator 118, die eerder in de opzamelinrichting 218 waren opgeslagen tijdens het voorafgaande raster, worden via de koppelinrichting 260 en de lijn 225 onder bestuur van de centrale processor 240 in het informatiegeheugen 230 gebracht. Zoals aangegeven bij de rechthoek 415 in 35 figuur 4 vinden deze handelingen plaats in responsie op het rasterkloksignaal FC. De rastervoorspellingspa-rametersignalen ak uit de voorspellingsparameter rekeninrichting 119, welke zich eerst in de opzamelinrichting 218 bevonden tijdens het voorafgaande raster, worden eveneens via de rechthoek 420 in het geheugen 230 gebracht. Deze handelingen vinden plaats tussen de tijdstippen tg en t1 in figuur 6.

Na het toevoeren van de dk en ak-rastersignalen aan het geheugen 230, wordt de rechthoek 425 40 geïntroduceerd en worden de voorspellingsfiltercoëfficiënten bk, overeenkomende met de overdrachtsfunctie volgens vergelijking (1) bk = akak k = 1,2.......p (12) in de rekenkundige processor 250 opgewekt en in het informatiegeheugen 230 gebracht, p is meer in het 45 bijzonder 16 en α is meer in het bijzonder 0,85 voor een steekproeffrequentie van 8 kHz. De voorspellings-filterpuls responsiesignalen hk h0 = 1 min(k-1,P) hk = Σ bkhk_j k = 1,2......K (13) i=1 50 worden dan in de rekenkundige processor 250 opgewekt en in het informatiegeheugen 230 opgeslagen. Wanneer het hK-pulsresponsiesignaal wordt opgeslagen, wordt de rechthoek 435 geïntroduceerd en worden de voorspellingsfilter autocorrelatiesignalen volgens vergelijking (11) opgewekt en opgeslagen.

Op het tijdstip t2 in figuur 6, wordt de verbinding tussen de ROM 201 en de koppelinrichting 220 door de 55 regelaar 215 verbroken en wordt de excitatieverwerkinssubroutine-ROM 205 met de koppelinrichting verbonden. Daarna wordt de vorming van de βι,ηνβχαίθίίερυΐεα^ββ, aangegeven in het stroomdiagram volgens figuur 5, ingeleid. Tussen de tijdstippen t2 en t4 in figuur 6, wordt de excitatiepulsreeks gevormd. De

Claims

35 Het is duidelijk, dat binnen het kader van de uitvinding verschillende wijzigingen mogelijk zijn. Zo worden bij de bovenbeschreven uitvoeringsvormen lineaire voorspellingsparameters en voorspellingsrest gebruikt. De lineaire voorspellingsparameters kunnen worden vervangen door formantparameters of andere bekende spraakparameters. De voorspellingsfilters worden dan zodanig ingericht, dat deze reageren op de spraak-parameters, welke worden gebruikt, en op het spraaksignaal, zodat in de keten 120 van figuur 1 gevormde 40 excitatiesignaal in combinatie met de spraakparametersignalen kan worden gebruikt voor het opbouwen van een replica van het spraakpatroon van het raster volgens de uitvinding. Het codeerstelsel volgens de uitvinding kan worden uitgebreid tot sequentiële patronen, zoals biologische en geologische patronen teneinde doeltreffende representaties daarvan te verkrijgen. 45

1. Werkwijze voor het bewerken van een spraakpatroon voor digitale codering, omvattende het opdelen van het spraakpatroon in opeenvolgende tijdsintervallen, het genereren van een set van signalen die representa-50 tief zijn voor genoemd spraakpatroon van elk tijdsinterval in respons op het intervalspraakpatroon, en het genereren van een verschilsignaal; met het kenmerk: dat het verschilsignaal representatief is voor de verschillen tussen het intervalspraakpatroon en de intervalspraakpatroonrepresentatieve signaalset; dat een met het intervalspraakpatroon corresponderend eerste signaal wordt gevormd in respons op de 55 intervalspraakpatroonrepresentatieve signalen en het voor de intervalverschillen representatieve signaal; dat een tweede intervalcorresponderend signaal wordt gevormd in respons op de intervalspraakpatroon-representatieve signalen; I90U0/ ö dat een signaal wordt gegenereerd dat correspondeert met de verschillen tussen de eerste en tweede intervalcorresponderende signalen; en dat een derde signaal wordt geproduceerd in respons op het met de intervalverschillen corresponderende signaal voor het wijzigen van het tweede signaal teneinde het met de intervalverschillen corresponde-5 rende signaal te reduceren.

2. Werkwijze volgens conclusie 1, met het kenmerk: dat de stap voor het genereren van de intervalrepresentatieve signaalset het genereren omvat van een set van spraakparametersignalen die representatief zijn voor het intervalspraakpatroon; dat de stap voor het vormen van het eerste intervalcorresponderende signaal het genereren omvat van 10 het eerste intervalcorresponderende signaal in respons op de spraakparametersignalen en het voor de verschillen representatieve signaal; en dat de stap voor het vormen van het tweede intervalcorresponderende signaal het genereren omvat van het tweede intervalcorresponderende signaal in respons op de intervalspraakparametersignalen.

3. Werkwijze volgens conclusie 2, met het kenmerk, dat de stap voor het genereren van het spraak- 15 parametersignaal het genereren omvat van een set van signalen die representatief zijn voor het interval-spraakspectrum.

4. Werkwijze volgens conclusie 3, met het kenmerk: dat de stap voor het produceren van het derde signaal het genereren omvat van een gecodeerd signaal waarvan ten minste één element responsief is voor het met het intervalverschil corresponderende 20 signaal; en dat het tweede intervalcorresponderende signaal wordt gemodificeerd in respons op het gecodeerde signaalelement.

5. Werkwijze volgens conclusie 4, met het kenmerk, dat de stap voor het genereren van het gecodeerde signaal het een voorafbepaald aantal malen genereren omvat van een gecodeerd signaalelement in respons 25 op het met de intervalverschillen corresponderende signaal, en het modificeren van het tweede intervalcorresponderende signaal in respons op de gegenereerde gecodeerde signaalelementen.

6. Werkwijze volgens conclusie 5, met het kenmerk, dat de stap voor het genereren van het met de verschillen corresponderende signaal het genereren omvat van een signaal dat representatief is voor de correlatie tussen het eerste intervalcorresponderende signaal en het tweede intervalcorresponderende 30 signaal.

7. Werkwijze volgens conclusie 4, met het kenmerk, dat de stap voor het genereren van het met de verschillen corresponderende signaal het genereren omvat van een signaal dat representatief is voor het gemiddelde kwadratenverschil tussen het eerste intervalcorresponderende signaal en het tweede intervalcorresponderende signaal.

8. Werkwijze volgens conclusie 4, met het kenmerk, dat het geproduceerde gecodeerde signaal en de spraakparametersignalen worden gecombineerd om een gecodeerd signaal te vormen dat representatief is voor het framespraakpatroon.

9. Werkwijze volgens conclusie 4, met het kenmerk: dat het genereren van de spraakparametersignaalset het genereren omvat van een set van lineaire 40 voorspellende parametersignalen voor het frame in respons op het framespraakpatroon; en dat het genereren van het voor de verschillen representatieve signaal het genereren omvat van een voorspellend restsignaal in respons op de lineaire voorspellende parametersignalen en het framespraakpatroon.

10. Werkwijze volgens conclusie 9, met het kenmerk, dat de stap voor het produceren van het gecodeerde 45 signaal het genereren omvat van een gecodeerd signaal waarvan ten minste één element responsief is op het met de verschillen corresponderende signaal, en het modificeren van het tweede framesignaal in respons op de gecodeerde signaalelementen.

11. Werkwijze volgens conclusie 10, met het kenmerk, dat de signaalproducerende stap het genereren omvat van een gecodeerd signaal met meerdere elementen door het successievelijk genereren van een 50 gecodeerd signaalelement in respons op het met de verschillen corresponderende signaal, en het modificeren van genoemd tweede signaal in respons op de genoemde gecodeerde signaalelementen.

12. Werkwijze volgens een willekeurige der conclusies 1 t/m 11, gekenmerkt door het gebruikmaken van het derde signaal voor het construeren van een replica van het intervalspraakpatroon.

13. Spraakprocessor, omvattende: 55 middelen voor het opdelen van een spraakpatroon in opeenvolgende tijdsintervallen; middelen die responsief zijn op elk intervalspraakpatroon voor het genereren van een set van signalen die representatief zijn voor het spraakpatroon van genoemd tijdsinterval; Ï7 l9WVtfl middelen die responsief zijn op genoemd intervalspraakpatroon en genoemde intervalspraakpatroonre-presentatieve signalen voor het genereren van een verschilsignaal; met het kenmerk: dat het verschilsignaal representatief is voor de verschillen tussen het intervalspraakpatroon en de 5 intervalrepresentatieve signaalset; dat is voorzien in middelen die responsief zijn op de spraakintervalsignalen en het voor de interval-verschillen representatieve signaal voor het vormen van een met het intervalspraakpatroon corresponderend eerste signaal; dat is voorzien in middelen die responsief zijn op de intervalspraakpatroonrepresentatieve signalen voor 10 het vormen van een tweede intervalcorresponderend signaal; dat is voorzien in middelen voor het genereren van een signaal dat correspondeert met de verschillen tussen de eerste en tweede intervalcorresponderende signalen; en dat is voorzien in middelen die responsief zijn op het met de intervalverschillen corresponderende signaal voor het produceren van een derde signaal voor het wijzigen van het tweede interval-15 corresponderende signaal teneinde het met de intervalverschillen corresponderende signaal te reduceren.

14. Spraakprocessor volgens conclusie 13, met het kenmerk: dat de middelen voor het genereren van de spraakintervalrepresentatieve signaalset middelen omvat voor het genereren van een set van signalen die representatief zijn voor voorgeschreven spraak-20 parameters van het intervalspraakpatroon; dat de middelen voor het vormen van het eerste intervalcorresponderende signaal middelen omvatten die responsief zijn op de intervalvoorgeschreven spraakparametersignalen en het voor de verschillen representatieve signaal voor het genereren van het eerste intervalcorresponderende signaal; en dat de middelen voor het vormen van het tweede intervalcorresponderende signaal middelen omvatten 25 die responsief zijn op de intervalvoorgeschreven spraakparametersignalen voor het genereren van het tweede intervalcorresponderende signaal.

15. Spraakprocessor volgens conclusie 14, met het kenmerk, dat de middelen voor het genereren van het voorgeschreven spraakparametersignaal middelen omvatten voor het genereren van een set van signalen die representatief zijn voor het intervalspraakpatroonspectrum.

16. Spraakprocessor volgens conclusie 15, met het kenmerk: dat de middelen voor het produceren van het derde signaal middelen omvatten die responsief zijn op het met de intervalverschillen corresponderende signaal voor het genereren van een gecodeerd signaal met ten minste één element; en middelen die responsief zijn op de gecodeerde signaalelementen voor het modificeren van het tweede 35 intervalcorresponderende signaal.

17. Spraakprocessor volgens conclusie 16, met het kenmerk, dat de middelen voor het genereren van het gecodeerde signaal middelen omvatten die N malen werkzaam zijn voor het produceren van een N-element gecodeerd signaal, met inbegrip van middelen die responsief zijn op het met de verschillen corresponderende signaal voor het genereren van gecodeerde signaalelementen en middelen die responsief zijn op de 40 gegenereerde gecodeerde signaalelementen voor het modificeren van het tweede intervalcorresponderende signaal.

18. Spraakprocessor volgens conclusie 17, met het kenmerk, dat de middelen voor het genereren van het met de intervalverschillen corresponderende signaal middelen omvatten voor het genereren van een signaal dat representatief is voor de correlatie tussen de eerste en tweede intervalcorresponderende signalen.

19. Spraakprocessor volgens conclusie 17, met het kenmerk, dat de middelen voor het genereren van het met de intervalverschillen corresponderende signaal middelen omvatten voor het genereren van een signaal dat representatief is voor het gemiddelde kwadratenverschil tussen de eerste en tweede intervalcorresponderende signalen.

20. Spraakprocessor volgens conclusie 13, met het kenmerk, dat is voorzien in middelen voor het combine-50 ren van het geproduceerde derde signaal en de voor het spraakpatroon representatieve set van signalen voor het vormen van een voor het spraakpatroon representatief gecodeerd signaal.

21. Spraakprocessor volgens conclusie 13, met het kenmerk: dat de middelen voor het genereren van de spraakpatroonsignaalset middelen omvatten die responsief zijn op genoemd spraakpatroon voor het genereren van een set van lineaire voorspellende parameter-55 signalen voor het tijdsinterval; dat de middelen voor het genereren van het voor de verschillen representatieve signaal middelen omvatten die responsief zijn op genoemde lineaire voorspellende parametersignalen en genoemd I93U0f 1U spraakpatroon voor het genereren van een voorspellend restsignaal; dat de middelen voor het genereren van het eerste signaal middelen omvatten die responsief zijn op de voorspellende parametersignalen en het voorspellende restsignaal voor het vormen van genoemd eerste corresponderende signaal; en 5 dat de middelen voor het genereren van het tweede signaal middelen omvatten die responsief zijn op de lineaire voorspellende parametersignalen voor het vormen van het tweede corresponderende signaal.

22. Spraakprocessor voor het produceren van een spraakboodschap, gekenmerkt door: middelen voor het ontvangen van een sequentie van spraakboodschaptijdintervalsignalen, waarbij elke 10 spraakintervalsignaal een veelvoud van spectrale representatieve signalen en een excitatie-representatief signaal voor genoemd tijdsinterval omvat; en middelen die te zamen responsief zijn op genoemde intervalspectrale representatieve signalen en genoemd intervalexcitatierepresentatief signaal voor het genereren van een spraakpatroon dat met de spraakboodschap correspondeert; 15 waarbij genoemd intervalexcitatiespraaksignaal is gevormd door: - het opdelen van een spraakboodschappatroon in opeenvolgende tijdsintervallen, - het genereren van een set van signalen die representatief zijn voor genoemd spraakboodschappatroon voor elk tijdsinterval in respons op genoemd intervalspraakpatroon, - het genereren van een signaal dat representatief is voor de verschillen tussen genoemd interval-20 spraakpatroon en genoemde representatieve signaalset in respons op genoemd intervalspraakpatroon en genoemde intervalrepresentatieve signalen, - het vormen van een eerste signaal dat correspondeert met het intervalspraakboodschappatroon in respons op genoemd spraakboodschappatroon in respons op genoemde voor het spraakboodschap-patrooninterval representatieve signalen en het voor de verschillen representatieve signaal, 25. het vormen van een tweede intervalcorresponderend signaal in respons op genoemde voor het intervalspraakboodschappatroon representatieve signalen, - het genereren van een signaal dat correspondeert met de verschillen tussen genoemde eerste en tweede intervalcorresponderende signalen, en - het produceren van een derde signaal in respons op het met de intervalverschillen corresponderende 30 signaal voor het wijzigen van het tweede intervalcorresponderende signaal teneinde het met de intervalverschillen corresponderende signaal te reduceren, welke derde signaal het genoemde intervalexcitatierepresentatieve signaal is.

23. Spraakprocessor volgens één der conclusies 13-22, gekenmerkt door middelen voor het genereren van een set van lineaire voorspellende parametersingalen voor het frame in respons op het framespraakpatroon; 35 en middelen voor het genereren van een voorspellend restsignaal in respons op de lineaire voorspellende parametersignalen en het framespraakpatroon.

24. Spraakprocessor volgens conclusie 23, met het kenmerk, dat de middelen voor het produceren van het gecodeerde signaal middelen omvatten voor het genereren van een gecodeerd signaal waarvan ten minste één element responsief is op het met de verschillen corresponderende signaal, alsmede middelen voor het 40 modificeren van het tweede framesignaal in respons op de gecodeerde signaalelementen.

25. Spraakprocessor volgens conclusie 24, met het kenmerk, dat de signaalproducerende middelen middelen omvatten voor het genereren van een gecodeerd signaal met meerdere elementen door het successievelijk genereren van een gecodeerd signaalelement in respons op het met de verschillen corresponderende signaal, alsmede middelen voor het modificeren van genoemd tweede signaal in respons 45 op de genoemde gecodeerde signaalelementen.

26. Spraakprocessor volgens een willekeurige der conclusies 13 t/m 25, gekenmerkt door middelen die, onder gebruikmaking van het derde signaal, een replica van het intervalspraakpatroon construeren. Hierbij 6 bladen tekening