NO322594B1 - Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale - Google Patents
Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale Download PDFInfo
- Publication number
- NO322594B1 NO322594B1 NO20024065A NO20024065A NO322594B1 NO 322594 B1 NO322594 B1 NO 322594B1 NO 20024065 A NO20024065 A NO 20024065A NO 20024065 A NO20024065 A NO 20024065A NO 322594 B1 NO322594 B1 NO 322594B1
- Authority
- NO
- Norway
- Prior art keywords
- amplitude
- pulse
- speech signal
- positions
- signal
- Prior art date
Links
- 239000013598 vector Substances 0.000 claims description 89
- 238000000034 method Methods 0.000 claims description 40
- 230000005236 sound signal Effects 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 16
- 230000001413 cellular effect Effects 0.000 claims description 12
- 230000010267 cellular communication Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 28
- 230000007774 longterm Effects 0.000 description 9
- 230000005284 excitation Effects 0.000 description 8
- 238000011045 prefiltration Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Foreliggende oppfinnelse angår en forbedret teknikk for digital koding av et lydsignal, spesielt, men ikke utelukkende, et talesignal, med det formål å transmittere og syntetisere dette lydsignalet.
Behovet for effektive digitale talekodingsteknikker med god subjektiv kvalitet i forhold til bithastighet, øker for en rekke anvendelser slik som stemmeoverføring via satellitt, landmobile digitale radio- eller pakkenettverk, talelagring, talerespons og trådløs telefoni.
En av de beste kjente teknikker, som er i stand til å gi god kvalitet i forhold til bithastighet, er den såkalte kodeeksiterte lineære prediksjon (CELP) teknikken. Ifølge denne teknikken, samples talesignalet og behandles i blokker av L-sampler (dvs. vektorer), hvor L er et forhåndsbestemt tall. CELP-teknikken gjør bruk av en kodebok.
En kodebok i CELP-sammenheng, er et indeksert sett av L-sampel lange sekvenser som vil referes til som L-dimensjonale kodevektorer
(pulskombinasjoner som definerer L forskjellige posisjoner og som omfatter både null-amplitudepulser og ikke-null-amplitudepulser tilknyttet respektive posisjoner p=l, 2,... L av kombinasjonen). Kodeboken omfatter en indeks k som går fra 1 til M, hvor M representerer størrelsen til kodeboken, noen ganger uttrykt som et antall bits b:
En kodebok kan lagres i et fysisk minne (f.eks. en oppslagstabell), eller kan referere til en mekanisme for å knytte indeksen til en tilhørende kodevektor (f.eks. en formel).
For å syntetisere tale ifølge CELP-teknikken, syntetiseres hver blokk av talesampler ved å filtrere den aktuelle kodevektor fra kodeboken gjennom tidsvarierende filtre som modellerer de spektrale karakteristikker til talesignalet. Ved innkodingen beregnes det syntetiske utsignal for alle eller et subsett av de aktuelle kodevektorer fra kodeboken (kodeboksøk). Den kodevektor som velges er den som produserer det syntetiske utsignal som er nærmest det originale talesignal ifølge et forvrengningsmål som er veid i forhold til menneskets oppfattelsesevne.
En første type kodebok er den såkalte "stokastiske"-kodebok. En ulempe med denne type kodebok er at den ofte krever stor fysisk lagringsplass. Den er stokastisk, dvs. tilfeldig i den betydning at veien fra indeksen til den tilhørende kodevektor involverer oppslagstabeller som er et resultat av tilfeldig genererte tall eller statistiske teknikker anvendt på store taletreningssett. Størrelsen på en stokastisk kodebok vil vanligvis være begrenset av lagrings- og/eller søkekompleksitet.
En annen type kodebok er algebraisk kodebok. I motsetning til stokastisk kodebok er algebraisk kodebok ikke tilfeldig og krever ingen lagring. En algebraisk kodebok er et sett av indekserte kodevektorer hvor amplituder og posisjoner for pulsene til kodevektor k kan utledes fra dens indeks k gjennom en regel som krever ingen eller minimal fysisk lagring. Derfor er størrelsen til en algebraisk kodebok ikke begrenset av lagringsbehov. En algebraisk kodebok kan også være konstruert for effektive søk.
Dokumentet WO 91/13432 angir en metode for å kode et talesignal som forbedrer eksitasjonskodeboken og søkeprosedyren til de konvensjonelle CELP tale-kodere. Det benyttes en dynamisk kodebok som består av en kombinasjon av to moduler: en sparsom algebraisk kodegenerator og et filter som har en transferfunksjon som varierer i tid med talesignalet. Den sparsomme algebraiske kodegeneratoren er en strukturert kodebok med kodeord som har svært få komponenter forskjellig fra null. Filteret former spektralkarakteristikkene på en slik måte at den resulterende eksitasjonskodeboken har fordelaktige sansningsegenskaper. Søkekompleksiteten for å finne det beste kodeordet blir mye redusert ved å bringe søket tilbake til det algebraiske kodeområdet og dermed tillate at sparsomheten i den algebraiske koden øker beregningsnastigneten.
Et formål ved den foreliggende oppfinnelser er derfor å fremskaffe en fremgangsmåte og anordning for å drastisk redusere kompleksiteten til et kodeboksøk ved kodingen av et lydsignal, idet disse fremgangsmåte og anordninger er anvendbare til en stor klasse av kodebøker.
Formålet ved oppfinnelsen oppnås ved hjelp av trekkene i patentkravene.
Mer spesielt, i overenstemmelse med den foreliggende oppfinnelsen, er det tilveiebragt en fremgangsmåte for å gjennomføre et søk i en kodebok med det formål å kode et lydsignal. Kodeboken omfatter et sett av puls-amplitude/posisjonskombinasjoner som definerer et antall L av forskjellige posisjoner p og omfatter både null-amplitudepulser og amplitudepulser forskjellig fra null tilknyttet respektive posisjoner p = 1, 2, ...L av kombinasjonen. Hver ikke-null-amplitudepuls antar en av q mulige amplituder. Denne fremgangsmåten for å utføre kodesøk omfatter å forhåndsvelge fra kodeboken et subsett av pulsamplitude/posisjonskombinasjoner i forhold til lydsignalet, og å søke gjennom bare dette subsettet av pulsamplitude/posisjonskombinasjoner for å kode lydsignalet hvorigjennom kompleksiteten av søket reduseres siden bare et subsett av pulsamplitude/posisjonskombinasjoner av kodeboken gjennomsøkes. Forhåndsvelging av et subsett av pulsamplitude/posisjonskombinasjoner omfatter å forhåndsetablere, i forhold til lydsignalet, en amplitude/posisjonsfunksjon mellom posisjonene p = 1,2, ...L og de q mulige amplitudene. Forhåndsetablering av en amplitude/posisjonsfunksjon omfatter å forhåndstilknytte en av de q mulige amplitudene som gyldig amplitude til hver posisjon p. Forhåndstilknytning av én av de q mulige amplitudene til hver posisjon p omfatter (a) å prosessere lydsignalet for å produsere et bakoverfiltrert målsignal D og et hovedfrekvensfiltrert R', (b) å beregne en amplitudeestimatvektor B i respons til det bakoverfiltrerte målsignalet D og til det hovedfrekvensflltrerte restsignalet R' og (c) for hver posisjon p, å kvantifisere en amplitudeestimat Bp for vektoren B for å oppnå amplituden som skal velges for den posisjonen p. Til slutt, omfatter å søke gjennom subsettet av pulsamplitude/posisjonskombinasjoner å begrense søket til de pulsamplitude/posisjonskombinasjonene i kodeboken som har ikke-null-amplitudepulser som tilfredsstiller den forhåndsetablerte funksjonen.
Den foreliggende oppfinnelsen angår en anordning for å utføre et søk i en kodebok for å kode et lydsignal. Kodeboken omfatter et sett av pulsamplitude/posisjonskombinasjoner som hver definerer et antall L av forskjellige posisjoner p og omfatter både null-amplitudepulser og ikke-null-amplitudepulser tilknyttet til respektive posisjoner p = 1, 2, ...L av kombinasjonen. Hver ikke-null-amplitudepuls antar én av q mulige amplituder. Denne anordningen for å utføre kodeboksøk omfatter midler for å forhåndsvelge fra kodeboken et subsett av pulsamplitude/posisjonskombinasjoner i forhold til lydsignalet og midler for å søke bare gjennom subsettet av pulsamplitude/posisjonskombinasjoner for å kode lydsignalet hvorved kompleksiteten av søket reduseres siden bare et subsett av pulsamplitude/posisjonskombinasjonene av kodeboken gjennomsøkes. De forhåndsvelgende midlene omfatter midler for å forhåndsetablere, i forbindelse med lydsignalet, en amplitudeposisjonsfunksjon mellom posisjonene p = 1,2, ...L og de q mulige amplitudene, og midlene for forhåndsetablering omfatter midler for å forhåndstilknytte en av de q mulige amplitudene som gyldig amplitude for hver posisjon p. Midlene for forhåndstilknytning av en av q mulige amplituder til hver posisjon p omfatter (a) midler for å prosessere lydsignalet for å produsere et bakoverfiltrert målsignal D og et pitch-fjernet restsignal R', og (b) midler for å beregne en amplitudeestimatvektor B som respons på det bakoverfiltrerte målsignalet D og det restsignalet R<*> og (c) midler for å kvantisere, for hver av posisjonene p, et amplitudeestimat Bp for vektoren B for å oppnå amplituden som skal velges for posisjonen p. Til slutt omfatter søkemidlene midler for å begrense søket til de pulsamplitude/posisjonskombinasjonene i kodeboken som har ikke-null-amplitudepulser som tilfredsstiller den fornåndsetablerte funksjonen. ;Fordelaktig er den fornåndsetablerte funksjonen tilfredsstilt når ikke-null-amplitudepulsene for en pulsamplitude/posisjonskombinasjon hver har en amplitude lik amplituden forhåndstilknyttet av den fornåndsetablerte funksjonen til posisjonen p for nevnte ikke-null-amplitudepuls. ;I henhold til en foretrukket utførelse, blir amplitudeestimatvektoren B beregnet ved å summere det bakoverfiltrerte målsignalet D på normalisert form: ;til det hovedfrekvensfiltrerte restsignalet R' i normalisert form: for derved å oppnå en amplitudeestimat vektor B med formen: ;hvor P er en fast konstant som fortrinnsvis har en verdi mellom 0 og 1. ;Ifølge en ytterligere foretrukket utførelse er amplitudevektorestimatet kvantisert for hver posisjon p, ved å kvantisere et toppverdinormalisert amplitudeestimat Bp for vektoren B ved å bruke det følgende uttrykk: hvor nevneren ;er en normaliseringsfaktor som representerer toppamplituden til ikke-null-amplitudepulsene. ;I henhold til en tredje foretrukket utførelse, omfatter fremgangsmåten ytterligere å begrense posisjonene p til ikke-null-amplitudepulsene for kombinasjonene til kodeboken i henhold til et sett av spor for pulsposisjoner. Pulsposisjonene for hvert spor kan gripe inn med pulsposisjonene til andre spor. Pulskombinasjonene kan hver omfatte et antall N ikke-null-amplitudepulser, settet med spor kan omfatte N spor med pulsposisjoner respektivt tilknyttet til de N ikke-null-amplitudepulsene, og pulsposisjonene til hver ikke-null-amplitudepuls er begrenset til posisjonene til det tilknyttede sporet. ;I henhold til en fjerde foretrukket utførelse: ;- pulsamplitude/posisjonskombinasjonene omfatter hver et antall N ikke-null-amplitudepulser; • subsettet av pulsamplitude/posisjonskombinasjoner søkes ved maksimering av et gitt forhold med nevner o*2 beregnet ved hjelp av N nestede løkker i overenstemmelse med følgende relasjon:
hvor beregningen for hver løkke er skrevet inn i en separat linje fra en ytterste løkke til en innerste løkke av de N-nestede løkker, hvor pn er posisjonen til den n-te ikke-null-amplitude pulsen av kombinasjonen, og hvor U<f> (px> py) er en funksjon avhengig av amplituden SPi forhåndstilknyttet til en
posisjon px blant posisjonene p og amplituden SPr forhåndstilknyttet til en posisjon py blant posisjonene p; og
- å maksimalisere det gitte forholdet omfatter å utelate minst den innerste løkken av de N nestede løkker når den følgende ulikhet er sann:
hvor SP/ t er amplituden forhåndstilknyttet til posisjonen p„, DPm er den pn-te komponent av målvektoren D, og TD er en terskel knyttet til den bakoverfiltrerte målvektor D.
Den foreliggende oppfinnelsen angår videre et cellulært kommunikasjonssystem for å betjene et stort geografisk område delt inn til flere celler, omfattende: mobile sender/mottakerenheter;
cellulære basestasjoner respektivt plassert i cellene;
midler for å kontrollere kommunikasjon mellom de ceullulære basestasjonene;
et toveis trådløst kommunikasjonssubsystem mellom hver mobil enhet plassert i én celle og den cellulære basestasjonen til den cellen, hvor dette toveistrådløse kommunikasjonssubsystemet omfatter i både den mobile enheten og den cellulære basestasjonen (a) en sender som omfatter midler for å kode et talesignal og midler for å transmittere det kodede talesignalet, og (b) en mottaker som omfatter midler for å motta et transmittert kodet talesignal og midler for å dekode det mottatte kodede talesignalet. Talesignalkodemidlene omfatter midler som er responsive til talesignalet for å produsere talesignalkodeparametere, og disse midlene for å produsere talesignalkodeparametere omfatter en anordning som beskrevet over for å gjennomføre et søk i en kodebok for å produsere minst én av talesignalkodeparameterne, hvori talesignalet utgjør lydsignalet.
I henhold til oppfinnelsen er det ytterligere tilveiebragt:
• et cellulært nettverkselement som omfatter (a) en sender som omfatter midler for å kode et talesignal og midler for å transmittere det kodede talesignalet, og (b) en mottaker som omfatter midler for å motta et transmittert kodet talesignal og midler for å dekode det mottatte kodede talesignalet. Talesignalkodemidlene omfatter midler som er responsive til talesignalet for å produsere talesignalkodeparametere, disse midlene for å produsere talesignalkodeparametere omfatter en anordning som beskrevet over, for å gjennomføre et søk i en kodebok for å produsere minst én av talesignalkodeparameterene, hvor talesignalet utgjør lydsignalet.
En cellulær mobil sender/mottakerenhet som omfatter (a) en sender som omfatter midler for å kode et talesignal, midler for å transmittere det kodede talesignalet, og (b) en mottaker som omfatter midler for å motta et transmittert kodet talesignal og midler for å dekode det kodede talesignalet. Midlene for å kode talesignalet omfatter midler som er responsive til talesignalet for å produsere talesignalparametere, og disse midlene for å produsere talesignalkodeparametere omfatter den ovenfor beskrevne anordning for å gjennomføre et søk i en kodebok for å produsere minst én av talesignalkodeparameterene, hvor talesignalet utgjør lydsignalet.
I et cellulært kommunikasjonssystem for å betjene et stort geografisk område delt i flere celler, og omfattende: mobile sender/mottakerenheter; cellulære basestasjoner respektivt plassert i disse celler; og midler for å kontrollere kommunikasjon mellom de cellulære basestasjonene;
et toveist trådløst kommunikasjonssubsystem mellom hver mobil enhet plassert i én celle og den cellulære basestasjonen til den cellen, hvor dette toveise trådløse kommunikasjonssubsystemet omfatter i både den mobile enheten og den cellulære basestasjonen (a) en sender som omfatter midler for å kode talesignal og midler for å transmittere det kodede talesignalet; og (b) en mottaker som omfatter midler for å motta et transmittert kodet talesignal og midler for å dekode det mottatte kodede talesignalet. Talesignalkodemidlene omfatter midler som er responsive til talesignalet for å produsere talesignalkodeparametere, og disse
talesignalkodeparameterproduserende midlene omfatter den ovenfor beskrevne anordning for å gjennomføre et søk i en kodebok for å produsere minst én av talesignalkodeparameterene, hvor talesignalet utgjør lydsignalet. De foregående og andre hensikter, fordeler og trekk med den foreliggende oppfinnelsen vil bli mer tydelig ved å lese den følgende ikke-begrensende beskrivelsen av en foretrukket utførelse, gitt ved hjelp av eksempel med referanse til de medfølgende tegningene.
De vedlagte tegninger:
Figur 1 er et skjematisk blokkdiagram av en anordning for koding av et lydsignal omfattende en amplitudevelger og en optimaliseringskontroller i overensstemmelse med foreliggende oppfinnelse; Figur 2 er et skjematisk blokkdiagram av en dekodingsanordning for bruk med kodingsanordningen i figur 1; Figur 3a er en sekvens av grunnleggende operasjoner for det hurtige kodeboksøket i overensstemmelse med foreliggende oppfinnelse, basert på signalvalgte pulsamplituder; Figur 3b er en sekvens av operasjoner for forhåndstilknytning av én av de q amplituder til hver posisjon p av puls-amplitude/posisjon kombinasjonene; Figur 3c er en sekvens av operasjoner som inngår i det N-lags løkkesøket hvor den innerste løkke hoppes over hver gang bidraget fra de første N-1 pulser til nevneren DAkT ansees utilstrekkelig; Figur 4 er en skjematisk representasjon av de N-nestede løkker brukt ved kodeboksøket; og Figur 5 er et skjematisk blokkdiagram som illustrerer infrastrukturen til et typisk celledelt kommunikasjonssystem. Figur 5 illustrerer infrastrukturen til et typisk celledelt
kommunikasjonssystem 1.
Selv om anvendelsen av fremgangsmåte for gjennomføring av søket og anordningen ifølge oppfinnelsen ved et celledelt kommunikasjonssystem er beskrevet som et ikke-begrensende eksempel i den foreliggende beskrivelse, bør det huskes at disse fremgangsmåter og anordninger kan brukes med de samme fordeler i mange andre typer av kommunikasjonssystemer hvor lydsignalkoding er nødvendig. 1 et celledelt kommunikasjonssystem slik som 1, fremskaffes en telekommunikasjonstjeneste over et stort geografisk område ved å dele nevnte område inn i et antall mindre celler. Hver celle har en cellebasestasjon 2 (figur 5) for å fremskaffe radiosignaleringskanaler, og lyd og datakanaler. Radiosignaleringskanalene utnyttes for å anrope mobile radiotelefoner (mobile sender-/mottagerenheter) slik som 3 innenfor grensene for cellebasestasjonens dekningsområde (celle), og for å sette opp samtaler fra andre radiotelefoner enten innenfor eller utenfor basestasjonens celle, eller ut på et annet nett slik som det offentlige svitsjede telefonnett (PSTN) 4.
Så snart en radiotelefon 3 har lykkes i å sette opp eller motta en samtale, settes en lyd eller datakanal opp med den cellebasestasjonen 2 som tilsvarer den celle radiotelefonen 3 befinner seg i, og kommunikasjon mellom basestasjonen 2 og radiotelefonen 3 foregår over den lyd- eller datakanalen. Radiotelefonen 3 kan også motta kontroll eller tidsinformasjon over signaleringskanalen mens en samtale er i gang.
Hvis en radiotelefon 3 forlater en celle i løpet av en samtale og beveger seg inn i en annen celle, overlater radiotelefonen samtalen til en tilgjengelig lyd eller datakanal i den nye cellen. Tilsvarende, hvis ingen samtale pågår sendes en kontrollmelding over signaleringskanaler slik at radiotelefonen logger seg inn på basestasjonen 2 tilknyttet den nye cellen. På denne måten er mobil kommunikasjon over et stort geografisk område mulig.
Det celledelte kommunikasjonssystem 1 omfatter videre en terminal 5 for å kontrollere kommunikasjon mellom cellebasestasjonene 2 og det offentlige svitsjede telefonnett 4, f.eks. under kommunikasjons mellom en radiotelefon 3 og PSTN 4, eller mellom en radiotelefon 3 i en første celle og en radiotelefon 3 i en andre celle.
Selvfølgelig er et toveis trådløst radiokommunikasjonsundersystem nødvendig for å opprette kommunikasjon mellom hver radiotelefon 3 i en celle og cellebasestasjonen 2 i samme celle. Et slikt toveis trådløst radiokommunikasjonssystem omfatter typisk i både radiotelefonen 3 og cellebasestasjonen 2 (a) en sender for koding av talesignalet og for sending av det kodede talesignalet gjennom en antenne slik som 6 eller 7, og eller (b) en mottager for å motta et sendt kodet talesignal gjennom samme antenne 6 eller 7 og for dekoding av de motsatte kodede talesignal. Det er velkjent for de med kunnskaper innen teknikken at talekoding er nødvendig for å redusere båndbredden for å overføre tale via toveis trådløse radiokommunikasjonssystemer, dvs. mellom en radiotelefon 3 og en basestasjon 2.
Formålet med foreliggende oppfinnelse er å fremskaffe en effektiv digital talekodingsteknikk med god subjektiv kvalitet i forhold til bithastighet f.eks. for toveis overføring av talesignaler mellom en cellebasestasjon 2 og en radiotelefon 3 gjennom en lyd eller datakanal. Figur 1 er et skjematisk blokkdiagram av en digital talekodingsenhet egnet for å gjennomføre denne effektive teknikk.
Talekodingsanordningen i figur 1 er samme talekodingsanordning som illustrert i figur 1 i den opprinnelige US patentsøknad nr. 07/927,528 til hvilken en amplitudevelger 112 har blitt tilføyd i overenstemmelse med foreliggende oppfinnelse. Den opprinnelige US patentsøknad nr. 07/927,528 ble inngitt 10. september 1992 for en oppfinnelse med tittel "DYNAMISK
KODEBOK FOR EFFEKTIV TALEKODING BASERT PÅ ALGEBRAISKE KODER."
Det analoge talesignal samples og Mokkbehandles. Det må forstås at foreliggende oppfinnelse ikke er begrenset til en anvendelse for talesignaler. Koding av andre typer lydsignaler kan også tenkes.
I det illustrerte eksempel omfatter blokken for inngangssample tale S (Figur 1) L etterfølgende sampler. I CELP-litteraturen er L omtalt som "underramme"-lengden og er typisk i området mellom 20 og 80. Blokkene med L sampler refereres også til som L-dimensjonale vektorer. Forskjellige L-dimensjonale vektorer produseres under utførelsen av kodingsprosedyren. En liste over disse vektorer som fremgår i figurene 1 og 2, så vel som en liste over transmitterte parametere er angitt under:
Liste over de viktigste L- dimensionale vektorer:
S Inngangstalevektor;
R' Hovedfrekvensfiltrert restvektor;
X Målvektor;
D Bakoverfiltrert målvektor;
Ak Kodevektor med indeks k fra den algebraiske kodebok; og
Cit Innovasjonsvektor (filtrert kodevektor)
Liste over overførte parametre:
k Kodevektorindeks (inngangsverdi i den algebraiske kodebok);
g Forsterkning;
STP Korttidsprediksjonsparametre (definerer A (z)); og
LTP Langtidsprediksjonsparametre (definerer en hovedfreksvensforsterker b og en hovedfrekvensforsinkelse T). Det er antatt fordelaktig først å beskrive taledekodingsanordningen fra figur 2 for å illustrere de forskjellige trinn utført mellom den digitale inngang (inngang på demultiplekser 205) og den avgitte samplede tale (utgang fra syntesefilter 204).
Demultiplekseren 205 utvinner fire forskjellige parametre fra den binære informasjon som mottas fra en digital inngangskanal, nemlig indeksen k, forsterkningen g, korttidsprediksjonsparametrene STP, og langtidsprediksjonsparametrene LTP. Den foreliggende L-dimensjonale vektor S av talesignalet syntetiseres på bakgrunn av disse fire parametre slik det vil forklares i den etterfølgende beskrivelse.
Taledekodingsanordningen i figur 2 omfatter en dynamisk kodebok 208 som er sammensatt av en algebraisk kodegenerator 201 og et adaptivt inngangsfilter 202, en forsterker 206, en summerer 207, en langtidsprediktor 203, og et syntesefilter 204.
I et første trinn produserer den algebraiske kodegenerator 201 en kodevektor Ak i respons til indeksen k.
I et andre trinn behandles kodevektoren Ak av et adaptivt forfilter 202 som forsynes med langstidsprediskjonsparametrene LTP for å produsere en utgangsinnovasjonsvektor Ck. Formålet med adaptive forfiltre 202 er å dynamisk kontrollere frekvensinnholdet i utgangsinnovasjonsvektoren Ck slik at talekvaliteten høynes, dvs. for å redusere den hørbare forvrengning forårsaket av frekvenser som virker irriterende på det menneskelig øre. Typisk overføringsfunksjon F (z) for de adaptive forfilter 202 er gitt under:
Fa (z) er et formant-forfilter hvor 0 < yi < y2 < 1 er konstanter. Dette forfilter fremhever formant-områdene og er svært effektivt, spesielt ved kodingshastigheter under 5 kbit/s.
Fb (z) er et hovedfrekvens-forfilter hvor T er den tidsvarierende hovedfrekvensforsinkelse og b0 er enten konstant eller lik den kvantiserte langtidshovedfrekvens-prediksjonsparameter fra foreliggende eller tidligere underrammer. Fb (z) er svært effektiv for å fremheve
hovedfrekvensharmoniske frekvenser ved alle hastigheter. Derfor inkluderer F (z) typisk et hovedfrekvens-forfllter noen ganger kombinert med et formant-forfilter, nemlig:
I overenstemmelse med CELP-teknikken finnes det samplede talesignal S på utgangen ved først å skalere innovasjonsvektoren Ck fra kodeboken 208 med forsterkning g gjennom forsterkeren 206. Summereren 207 legger så til den skalerte bølgeformen gCk til utgangen E (langtidsprediksjonskomponenten av signaleksitasjonen av syntesefilteret 204) fra en langtidsprediktor 203 forsynt med LTP-parametrene, plassert i en tilbakekoblingssløyfe og med en overføringsfunksjon B (z) definert som følger:
hvor b og T er respektive hovedfrekvensforsterkningen og -forsinkelsen definerte over.
Prediktoren 203 er et filter med en overføringsfunksjon i overenstemmelse med de sist mottatte LTP parametre b og T for å modellere hovedfrekvensperiodisiteten til tale. Den innfører den passende hovedfrekvensforsterkning b og forsinkelse T for samplene. Det sammensatte signalet E + gCk utgjør signaleksitasjonen for syntesefilteret 204 som har en overføringsfunksjon l/A (z) (A (z) defineres i den etterfølgende beskrivelse). Filteret 204 frembringer den korrekte spektrumforming i overensstemmelse med de sist mottatte STP parametre. Mer spesifikt, filteret 204 modellerer resonansfrekvensene (formantene) for tale. Utgangsblokken S er det syntetiserte samplede talesignal som kan konverteres til et analogt signal med passende anti-aliasing filtrering i overensstemmelse med en teknikk som er velkjent.
En algebraisk kodegenerator 201 kan konstrueres på mange måter. En fordelaktig metode, beskrevet i den ovenfor nevnte US patentsøknad nr. 07/927,528, består i å bruke minst én N-innfelt enkelpuls-permutasjonskode.
Dette konsept vil illustreres ved hjelp av en enkel algebraisk kodegenerator 201.1 dette eksempelet er L = 40 og settet av 40-dimensjonale kodevektorer omfatter kun N = 5 ikke-null-amplitudepulser som vil kalles Spi, SP2, SP3, Sp4, Sp5.1 denne noe grundigere notasjon står p$ for plasseringen av puls nummer i innenfor subrammen (dvs. p; går fra 0 til L-l). Anta at pulsen SPi er begrenset til åtte mulige posisjoner p! som følger:
Innenfor disse åtte posisjoner, som kan kalles "spor" #1, kan SPi og sju null-amplitude-pulser ombyttes fritt. Dette er en "enkelpulspermutasjonskode". La oss nå innfelle fem slike "enkelpulspermutasjonskoder" ved også å begrense posisjonene for de gjenværende pulser på tilsvarende måte (dvs. spor #2, spor #3, spor #4, og spor #5).
Legg merke til at heltallene nij = 0, 1, ..., 7 definerer posisjonen p{ til hver puls S fullstendig. På den måten kan en enkel posisjonsindeks kp finnes gjennom enkel multipleksing av mrene ved bruk av følgende relasjon:
Det skal pekes på at andre kodebøker kan utvikles ved bruk at de ovennevnte pulsspor. F.eks. kan kun 4 pulser brukes, hvor de tre første pulsene opptar posisjonene i de tre første sporene respektive, mens den fjerde pulsen opptar enten det fjerde og det femte sporet med en bit for å angi hvilket spor. Dette design gir opphav til en 13 bits posisjonskodebok.
I den kjente teknikk antas det at ikke-null-amplitudepulsene har en bestemt amplitude for alle praktiske formål av hensyn til kompleksiteten til kodevektorsøket. Faktisk, hvis puls SPi kan anta én av q mulige amplituder,
må så mange som q<N> pulsamplitudekombinasjoner måtte vurderes under søket. F.eks., hvis de fem pulsene i det første eksempelet tillates å anta én av q = 4 forskjellige amplituder, f.eks. Sp. = +1, -1, +2, -2 isteden for en fast amplitude, øker størrelsen til algebraiske kodebok fra 15 til 15 + (5x2) bits = 25 bits; dvs. et søk tusen ganger mer komplisert.
Det er foreliggende oppfinnelses formål å avsløre det overraskende faktum at svært god virkning kan oppnås med q amplitudepulser uten å måtte betale en høy pris. Løsningen består i å begrense søket til et avgrenset subsett av kodevektorer. Metoden for å velge kodevektorer er knyttet til inngangstalesignalet slik det vil beskrives i den etterfølgende beskrivelse.
Den praktiske fordel ved foreliggende oppfinnelse er muligheten for øke størrelsen på den dynamiske algebraiske kodebok 208 ved å tillate individuelle pulser og anta de forskjellige mulige amplituder uten å øke kompleksiteten til kodevektorsøket.
Det samplede talesignalet S kodes på en blokk for blokk basis ved kodesystemet i figur 1 som er delt opp i 11 moduler nummerert fra 102 til 112. Funksjonen og operasjonen for de fleste av disse modulene er uendrede med hensyn til beskrivelsen i den opprinnelige US patentsøknad nr. 07/927,528. Derfor, til tross for at den etterfølgende beskrivelse idet minste i korte trekk vil beskrive funksjonen og operasjonen av hver modul, vil den konsentreres om det som er nytt med hensyn til beskrivelsen i den opprinnelige US patentsøknad nr. 07/927,528.
For hver blokk med L sampler av talesignal, produseres et sett med lineær prediktiv koding (LPC) parametre kalt korttidsprediksjon-(STP) parametre, i overensstemmelse med kjent teknikk ved hjelp av en LPC spektrum analysator 102. Mer spesifikt modellerer analysatoren 102 de spektrale karakteristikker for hver blokk S med L sampler.
Inngangsblokken S med L sampler hvites med et hvite-fllter 103 med følgende overføringsfunksjon basert på de foreliggende verdier for STP parametrene:
hvor a0 = 1, og z er den vanlige variable i den såkalte z-transformasjon. Som illustrert i figur 1 produserer hvite-filteret 103 en restvektor R.
En hovedfrekvensberegner 104 brukes for å beregne og kvantisere LTP parametrene, nemlig hovedfrekvensforsinkelsen T og
hovedfrekvensforsterkningen g. Den opprinnelige tilstand for beregneren 104 er også satt til en verdi FS fra en opprinnelig tilstandsberegner 110. En detaljert prosedyre for å beregne og kvantisere LTP parametrene er beskrevet i den opprinnelige US patentsøknad nr. 07/927,528 og antas å være vel kjent for de med noenlunde kunnskaper innen fagområdet. Den vil derfor ikke beskrives ytterligere i denne fremstilling.
En fllterrespons-karakteriserer 105 (figur 1) forsynes med STP og LTP parametrene for å beregne en filterresponskarakteristikk FRC for bruk i de etterfølgende trinn. FRC informasjonen består av følgende tre komponenter hvor n = 1, 2,... L.
f(n): responsen til F (z)
legg merke til at F (z) typisk omfatter hovedfrekvensforfiltre
• h (n): responsen av
hvor y er en persepsjonsfaktor. Mer generelt er h (n) impulsresponsen til F (2) W (2) / A(z) som er kjeden av forfilter F (z), persepsjonsveiefilter W (z) og syntesefilter l/A (2). Legg merke til at F (z) og l/A (z) er de samme filtre som blir brukt i dekoderen på figur 2. • U (i, j): autokorrellasjon for h (n) ifølge følgende uttrykk:
Langtidsprediktoren 106 forsynes med det foregående eksitasjonssignal (dvs. E + gCk av tidligere subramme) for å danne den nye E-komponent ved bruk av riktig hovedfrekvensforsinkelse T og forsterkning b.
Den opprinnelige tilstand for persepsjonsfiltre 107 settes til verdien FS levert fra den opprinnelige tilstandsberegner 110. Restvektoren med hovedfrekvensen fjernet R' = R-E beregnet av subtraktoren 121 (figur l) forsynes så til persepsjonsfiltre 107 for på utgangen av det sistnevnte filter å oppnå en målvektor X. Som illustrert på figur 1 er STP parametrene anvendt på filter 107 for å endre dets overføringsfunksjon med hensyn på disse parametre. I hovedsak er X = R' - P, hvor P representerer bidraget fra langstidsprediksjonen (LTP) inkludert "ringing" fra de foregående eksitasjoner. MSE-kriterier som gjelder for A kan nå uttrykkes i følgende matrisenotasjon:
hvor H er en L x L nedre triangulær Toeplitz matrise dannet fra n (n) responsen som følger. h(0) følger matrisediagonalen og h (1), h (2),... h (L-1) fyller de respektive nedre diagonaler.
Et bakoverfiltreringstrinn utføres av filteret 108 på figur 1. Ved å sette den deriverte av likningen over med hensyn på forsterkningen g lik 0 finner vi den optimale forsterkningen som følger:
Med denne forsterkningen for g blir minimaliseringen:
Formålet er å finne den spesielle indeks k for hvilken minimaliseringen oppnås. Legg merke til at fordi ||X||<2> er en fast verdi kan samme indeks finnes ved å maksimalisere følgende verdi:
I bakoverfilteret 108 beregnes en bakoverfiltrert målvektor D = (XH). Betegnelsen "bakoverfiltrering" for denne operasjonen kommer fra tolkningen av (XH) som filtreringen av tidsreversert X.
Kun én amplitudevelger 112 har blitt lagt til figur 1 fra den ovenfor nevnte opprinnelige US patentsøknad nr. 07/927,528. Funksjonen til amplitudevelgeren 112 er å begrense kodevektorene Ak som gjennomsøkes av optimaliseringskontrolleren 109 til de mest lovende kodevektorer Ak for derved å redusere kodevektorsøkets kompleksitet. Som beskrevet i den foregående beskrivelse, er hver kodevektor Ak en puls-amplitude/posisjon kombinasjon bølgeform som definerer L forskjellige posisjoner p og som omfatter både null-amplitudepulser og ikke-null-amplitudepulser knyttet til respektive posisjoner p = 1, 2, ... L av kombinasjonen, hvor hver ikke-null-amplitudepuls antar minst én av q forskjellig mulige amplituder.
Idet det nå vises til figur 3a, 3b og 3c er formålet med amplitudevelgeren 112 å forhåndsetablere en funksjon Sp mellom posisjonene p til kodevektorbølgeformen og de q mulige verdier av pulsamplituder. Den fornåndsetablerte funksjon Sp er avledet i relasjon til talesignalet før kodeboksøket. Mer spesifikt består forhåndsetableringen av denne funksjonen av forhåndstilknytning, i relasjon til talesignalet, minst én av de q mulige amplituder til hver posisjon p for bølgeformen (trinn 301 i figur 3a).
For å forhåndstilknytte en av de q amplitudene til hver posisjon p for bølgeformen beregnes én amplitudeestimatvektor B som respons til den bakoverfiltrerte målvektor D og til restvektoren R' med fjernet hovedfrekvens. Mer spesifikt er amplitudeestimatvektoren B beregnet ved å summere (undertrinn 301- 1 på figur 3b) den bakoverfiltrerte målevektor D i normalisert form:
og restvektoren R<1> med hovedfrekvensen fjernet i normalisert form: for derved å oppnå en amplitude estimatvektor B av formen:
hvor P er en fast konstant med en typisk verdi på Vi (verdien av (3 velges mellom 0 og 1 avhengig av prosentandelen av ikke-null-amplitudepulser brukt i den algebraiske kode).
For hver posisjon p for bølgeformen finnes amplituden Sp som skal forhåndstilknyttes til posisjonen p ved å kvantisere et tilsvarende amplitudeestimat Bp av vektor B. Mer spesifikt kvantiseres et oppnormalisert amplitudeestimat Bp for vektoren B for hver posisjon p av bølgeformen (undertrinn 301-2 i figur 3b) ved bruk av følgende uttrykk: hvor Q (. ) er kvantiseringsfunksjonen og
er en normaliseringsfaktor som representerer en toppamplitude for ikke-null-amplitudepulsene.
I det viktig spesialtilfellet hvor:
q = 2, dvs. at pulsamplitudene kan anta bare to verdier (dvs.
sPl - ±i); og
-ikke-null-amplitude pulstettheten N/L er lavere enn eller lik 15 %;
verdien av p kan være lik null; så kan amplitudeestimat vektoren B reduseres simpelten til den bakoverfiltrerte målvektor D og som en konsekvens
Formålet med optimaliseringskontrolleren 109 er å velge den beste kodevektor Ak fra den algebraiske kodebok. Valgkriteriet er gitt i form av et forhold som skal beregnes for hver kodevektor Ak og som skal maksimaliseres over alle kodevektorer (trinn 303):
Siden Ak er en algebraisk kodevektor med n ikke-null-amplitudepulser av respektive amplituder SPi, er telleren kvadratet av og nevneren er et energiledd som kan uttrykkes som:
hvor U (p{, pj) er korrellasjonen assosisert med to enhetsamplitudepulser, en ved posisjon pi og den andre ved posisjon pj. Denne matrisen beregnes i
overensstemmelse med likningen over i filterresponskarakterisereren 105 og inkluderes i settet av parametre som refereres til som FRC i blokkdiagrammet på figur 1.
En hurtig metod for å beregne denne nevneren (trinn 304) inkluderer de In-nestede løkker illustrert i figur 4, hvor notasjonen S(i) og SS(iJ) brukes istendefor de respektive størrelser " SPi" og " SPi Sp.". Beregningen av nevneren ak<2> er den mest tidkrevende prosessen. Beregningene som bidrar til otk2 som utføres i hver løkke i figur 4, kan skrives på separate linjer fra den ytterste løkke til den innerste løkke som følger:
hvor pi er posisjonen til den ikke-null-amplitudepuls nummer i. Legg merke til at de N-nestede løkker på figur 4 gjør det mulig å begrense ikke-null-amplitudepulsene i kodevektorene Ak i overensstemmelse med N-innfelte enkeltpuls permutasjonskoder.
I den foreliggende oppfinnelse begrenses søkekompleksiteten drastisk ved å begrense subsettet av kodevektorer Ak som gjennomsøkes til kodevektorer hvor de N ikke-null-amplitudepulsene oppfyller funksjonen forhåndsetablert i trinn 301 på figur 3a. Den fornåndsetablerte funksjonen oppfylles når de N ikke-null-amplitudepulsene i en kodevektor Ak hver har en amplitude lik amplituden forhåndstilknyttet til posisjonen p for ikke-null-amplitudepulsen.
Nevnte begrensning av subsettet av kodevektorer utføres ved først å kombinere den fornåndsetablerte funksjon Sp med verdien i matrisen U (i, j)
(trinn 302 i figur 3a), så ved å bruke de N-nestede løkker fra figur 4 hvor alle pulser S(i) antatt å være faste, positive og av enhetsamplitude (trinn 303). På denne måten reduseres søkekompleksiteten til det tilfelle at pulsamplitudene er faste, selv om amplitudene til ikke-null-pulsene kan anta en hvilken som helst av q mulige verdier i den algebraiske kodebok. Mer presist kombineres matrisen U (i, j) som forsynes av filterresponskarakteriseren 105, med den fornåndsetablerte funksjon i overensstemmelse med følgende relasjon (trinn
302):
hvor Sj resulterer fra velgemetoden for amplitudevelgeren 112, nemlig den at Sj er amplituden valgt for en individuell posisjon i etter kvantisering av det tilhørende amplitudeestimat.
Med denne nye matrisen kan beregningen for hver løkke av den hurtige algoritmen skrives på en separat linje fra den ytterste til den innerste løkken som følger:
hvor px er posisjonen til null-amplitudepuls nummer x av bølgeformen, og hvor U' (px, py) er en funksjon avhengig av amplituden SPj forhåndstilknyttet til posisjon px av posisjonene p og amplituden SPv forhåndstilknyttet et posisjon py av posisjonene p.
For ytterligere å redusere søkerkompleksiteten, kan man hoppe over (jf- figur 3 c) spesielt, men ikke utelukkende, den innerste løkken hver gang følgende ulikhet er sann:
Hvor S Pii er amplituden forhåndstilknyttet til posisjon pn, Dp^ er komponent p„ for målvektor D, og TD er en terskel knyttet til den bakoverfiltrerte målvektor D.
Det globale eksitasjonssignal E + gCk beregnes av en adderer 120 (figur 1) fra signalet gCk fra kontroller 109 og utsignalet E fra prediktoren 106. Utgangstilstandsberegnermodulen 110, bestående av et persepsjonsfilter med overføringsfunksjon l/A (zY"<1>) som varierer i relasjon til STP parametrene, subtraherer eksitasjonssignalet E + gCk fra restsignalet R utelukkende for det formål å finne den endelige filtertilstand FS for bruk som utgangstilstand i filter 107 og hovedfrekvensberegner 104.
Settet av fire parametre k, g, LPT og STP konverteres til egnet digitalt kanalformat av en multiplekser 111 som fullfører prosedyren for å kode en blokk S av sampler av talesignalet.
Selv om foreliggende oppfinnelse har blitt beskrevet i det foregående med referanse til foretrukne utførelser, kan disse utførelser modifiseres fritt innenfor omfanget av de vedføyde krav uten at foreliggende oppfinnelses ånd og natur forlates.
Claims (24)
1. Fremgangsmåte for å gjennomføre et søk i en kodebok for å kode et lydsignal,
karakterisert ved at: - kodeboken omfatter et sett av pulsamplitude/posisjonskombinasjoner (A*); - hver pulsamplitude/posisjonskombinasjon (A^) definerer et antall L forskjellige posisjoner p og omfatter både null-amplitudepulser og ikke-null-pulsamplitudepulser tilknyttet til respektive posisjoner p = 1, 2, ...L av kombinasjonen: - hver ikke-null-amplitudepuls antar én av q mulige amplituder; og - nevnte fremgangsmåte for å gjennomføre et kodeboksøk omfatter: å forhåndsvelge fra nevnte kodebok et subsett av puls-amplitude/posisjonskombinasjoner (Ak) i forhold til lydsignalet; og å søke gjennom bare nevnte subsett av puls-
amplitude/posisjonskombinasjonene (Ak) for å kode lydsignalet hvorved kompleksiteten av søket reduseres siden bare et subsett av puls-amplitude/posisjonskombinasjoner av kodeboken gjennomsøkes;
hvor: å forhåndsvelge et subsett av puls-amplitude/posisjonskombinasjoner (Ak) omfatter å forhåndsetablere, i forhold til lydsignalet, en amplitude/posisjonsfunksjon (Sp) mellom posisjonene p = 1,2, ...L og de q mulige amplitudene; å forhåndsetablere en amplitude/posisjonsfunksjon (Sp) omfatter å forhåndstilknytte en av de q mulige amplitudene som gyldig amplitude til hver posisjon p; og å forhåndstilknytte en av de q mulige amplitudene til hver posisjon p omfatter:
å behandle lydsignalet for å frembringe et bakoverfiltrert målsignal D og et hovedfrekvensfiltrert restsignal R';
å beregne en amplitudeestimatvektor B som respons til det bakoverfiltrerte målsignalet D og til det hovedfrekvensfiltrerte restsignalet R'; og
for hver av nevnte posisjoner p, og kvantisere et amplitudeestimat Bp for vektoren B for å oppnå amplituden som skal velges for nevnte posisjon p; og
å gjennomsøke nevnte subsett av puls-
amplitude/posisjonskombinasjoner (Ak) omfatter å begrense søket til puls-amplitude/posisjonskombinasjonene (Ak) til nevnte kodebok som har ikke-null-amplitudepulser som tilfredsstiller den fornåndsetablerte funksjonen (Sp).;
2. Fremgangsmåte i henhold til krav 1,
karakterisert ved at den forhåndsetablerte funksjonen (Sp) er tilfredsstilt når ikke-null-amplitudepulsene til en pulsamplitude/posisjonskombinasjon (Ak) hver har en amplitude som er lik amplituden forhåndstilknyttet av den forhåndsetablerte funksjonen (Sp) til posisjonen p til nevnte ikke-null-amplitudepuls.;
3. Fremgangsmåte i henhold til krav 1 eller 2,
karakterisert ved at å beregne en amplitudeestimatvektor B omfatter å summere det bakoverfiltrerte målsignalet D i normalisert form:
til det hovedfrekvensflltrerte restsignal R' i normalisert form:
for derved å oppnå en amplitudeestimat vektor B med formen:
hvor P er en fast konstant.;
4. Fremgangsmåte i henhold til krav 3,
karakterisert ved at P er en fast konstant med verdi mellom 0 og 1.;
5. Fremgangsmåte i henhold til et av kravene 1-4, karakterisert ved at for hver av nevnte posisjoner p, omfatter
kvantisering av en amplitudevektorestimat å kvantisere en toppverdi-normalisert amplitudeestimat Bp av nevnte vektor B ved bruk av følgende
uttrykk:
hvor nevneren
er en normaliseringsfaktor som representerer toppamplituden til ikke-null-amplitudepulsene.;
6. Fremgangsmåte i henhold til et av kravene 1-5,
karakterisert ved at de ytterligere omfatter å begrense posisjonene p til ikke-null-amplitudepulsene til kombinasjonene (Ak) til kodeboken i henhold til et sett med spor av pulsposisjoner.;
7. Fremgangsmåte i henhold til krav 6,
karakterisert ved at pulsposisjonene til hvert spor innskutt mellom pulsposisjonene til de andre sporene.;
8. Fremgangsmåte i henhold til krav 6,
karakterisert ved at: - nevnte pulskombinasjoner (Ak) hver omfatter et antall N av ikke-null-amplitudepulser; - settet av spor omfatter N spor av pulsposisjoner henholdsvis tilknyttet til de N ikke-null-amplitudepulsene; - pulsposisjonene for hvert spor er innskutt mellom pulsposisjonene til de N-l andre spor; og - å begrense posisjonen p omfatter å begrense pulsposisjonene til hver ikke-null-amplitudepuls til posisjonene til det tilknyttede spor.;
9. Fremgangsmåte i henhold til et av kravene 1-8,
karakterisert ved at nevnte pulsamplitude/posisjonskombinasjoner (Ak) hver omfatter et antall N av ikke-null-amplitudepulser, og hvor å søke nevnte subsett av puls-amplitude/posisjonskombinasjoner (Ak) omfatter en maksimering av et gitt forhold som har en nevner ak beregnet ved hjelp av N nestede løkker i overenstemmelse med følgende relasjon:
hvor beregningen for hver løkke er skrevet inn i en separat linje fra en ytterste løkke til en innerste løkke av de N-nestede løkker, hvor pn er posisjonen til den n-te ikke-mill-amplitude pulsen av kombinasjonen, og hvor U<*> (px, py) er en funksjon avhengig av amplituden SPs forhåndstilknyttet til en posisjon px blant posisjonene p og amplituden SPr forhåndstilknyttet til en posisjon py blant posisjonene p.
10. Fremgangsmåten i henhold til krav 9,
karakterisert ved at å maksimalisere nevnte forhold omfatter å utelate idet minste den innerste løkken av de N nestede løkkenr når følgende ulikhet er sann:
hvor SPm er amplituden forhåndstilknyttet til posisjonen p„, DPm er den pn-te komponenten av målvektoren D, og TD er en terskel knyttet til den bakoverfiltrerte målvektor D.
11. Anordning for å gjennomføre et søk i en kodebok for å kode et lydsignal, hvor kodeboken består av et sett av puls-amplitude/posisjonskombinasjoner (Ak), hver puls-amplitude/posisjonskombinasjon (Ak) definerer et antall L for skjellige posisjoner p og omfatter både null-amplitudepulser og ikke-null-amplitudepulser tilknyttet respektive posisjoner p = 1, 2, ...L av kombinasjonen, og hver ikke-null-amplitudepuls antar en av q mulige amplituder,
karakterisert ved at nevnte anordning for kodeboksøk omfatter: midler for å forhåndsvelge fra nevnte kodebok et subsett av puls-amplitude/posisjonskombinasjoner (Ak) i forhold til lydsignalet; og midler for å søke gjennom bare nevnte subsett av puls-amplitude/posisjonskombinasjoner (Ak) for å kode lydsignalet hvorved kompleksiteten av søket blir redusert siden bare et subsett av puls-amplitude/posisjonskombinasjonene til kodeboken gjennomsøkes; midlene for å forhåndsvelge omfatter midler for å forhåndsetablere, i forhold til lydsignalet, en amplitude/posisjonsfunksjon (Sp) mellom posisjonene p = 1, 2, ...L og de q mulige amplitudene; midlene for å forhåndsetablere omfatter midler for å forhåndstilknytte en av de q mulige amplitudene som gyldig amplitude til hver posisjon p; og midlene for å forhåndstilknytte en av de q mulige amplitudene til hver posisjon p omfatter: midler for å behandle lydsignalet for å frembringe et bakoverfiltrert målsignal D og et restsignal R' som har hovedfrekvensen fjernet; midler for å beregne en amplitudeestimatvektor B som respons til det bakoverfiltrerte målsignalet D og til restsignalet R' som har hovedfrekvensen fjernet; og midler for å kvantisere, for hver av nevnte posisjoner p, et amplitudeestimat Bp for nevnte vektor B for å oppnå amplituden som skal velges for nevnte posisjon p; og midlene for å søke omfatter midler for å begrense søket til de puls-amplitude/posisjonskombinasjonene (Ak) til nevnte kodebok som har ikke-null-amplitudepulser som tilfredsstiller den forhåndsetablerte funksjonen (Sp).
12. Anordning i henhold til krav 11,
karakterisert ved at den forhåndsetablerte funksjonen (Sp) er tilfredsstilt når ikke-null-amplitudepulsene for en puls-amplitude/posisjonskombinasjon (Ak) hver har en amplitude som er lik amplituden forhåndstilknyttet av den forhåndsetablerte funksjonen (Sp) til posisjonen p til nevnte ikke-null-amplitudepuls.
13. Anordningen i henhold til krav 11 eller 12,
karakterisert ved at midlene for å beregne en amplitudeestimatvektor B omfatter midler for å summere det bakoverfiltrerte målsignalet D i normalisert form:
til det hovedfrekvensfiltrerte restsignal R' i normalisert form:
for derved å oppnå en amplitudeestimat vektor B med formen:
hvor (3 er en fast konstant.
14. Anordningen i henhold til krav 13,
karakterisert ved at (3 er en fast konstant som har en verdi mellom 0 og 1.
15. Anordning i henhold til kravene 11-14,
karakterisert ved at midlene for å kvantisere et amplitudevektorestimat omfatter midler for å kvantisere, for hver av nevnte posisjoner p, et toppverdi-normalisert amplitudeestimat Bp av nevnte vektor B ved bruk av følgende uttrykk:
hvor nevneren
er en normaliseringsfaktor som representerer toppamplituden til ikke-null-amplitudepulsene.
16. Anordning i henhold til et av kravene 11-15,
karakterisert ved at den ytterligere omfatter midler for å begrense posisjonene p til ikke-null-amplitudepulsene til kombinasjonene (Ak) til kodeboken i henhold til et sett av spor av pulsposisjoner.
17. Anordning i henhold til krav 16,
karakterisert ved at pulsposisjonene for hvert spor er innskutt mellom pulsposisjonene til de andre sporene.
18. Anordning i henhold til krav 16,
karakterisert ved at - nevnte pulskombinasjoner (Ak) hver omfatter et antall N med ikke-null-amplitudepulser; - settet av spor omfatter N spor med pulsposisjoner respektivt tilknyttet til de N ikke-null-amplitudepulsene; - pulsposisjonene for hvert spor er innskutt mellom pulsposisjonene til de N-l andre spor; og
midler for å begrense posisjonene p omfatter en struktur for å begrense pulsposisjonene til hver ikke-null-amplitudepuls til posisjonene til det tilknyttede sporet.
19. Anordning i henhold til et av kravene 11-18,
karakterisert ved at nevnte puls-amplitude/posisjonkombinasjoner (Ak) hver omfatter et antall N med ikke-null-amplitudepulser, og hvor midlene for å gjennomsøke nevnte subsett av pulsamplitude/posisjonskombinasjoner (Ak) omfatter midler for å maksimalisere et gitt forhold som har en nevner ak2 beregnet ved hjelp av N nestede løkker i overenstemmelse med følgende relasjon:
hvor beregningen for hver løkke er skrevet inn i en separat linje fra en ytterste løkke til en innerste løkke av de N-nestede løkker, hvor p„ er posisjonen til den n-te ikke-null-amplitude pulsen av kombinasjonen, og hvor U' (px, py) er en funksjon avhengig av amplituden SPt forhåndstilknyttet til en posisjon px blant posisjonene p og amplituden SPr forhåndstilknyttet til en posisjon py blant posisjonene p.
20. Fremgangsmåte i henhold til krav 19,
karakterisert ved at midler for å maksimalisere nevnte gitte forhold omfatter midler for å utelate i det minste den innerste løkken av de N nestede løkker når følgende ulikheter er sann
hvor SPt er amplituden forhåndstilknyttet til posisjonen pn, DPm er den pn-te komponenten av målvektoren D, og TD er en terskel knyttet til den bakoverfiltrerte målvektor D.
21. Et celledelt kommunikasjonssystem for dekning av et stort geografisk område delt inn i et flertall av celler, omfattende: -mobile transportable celler/mottagerenheter (3); -cellebasestasjoner (2) plassert i hver respektive celle; -midler (5) for å kontrollere kommunikasjon mellom basestasjonene i cellene (2); -et toveis trådløs kommunikasjonsundersystem mellom hver mobile enhet (3) plassert i en celle og basestasjonen i cellen (2), idet nevnte toveis trådløse kommunikasjonsundersystem omfatter, i både den mobile enheten (3) og i basestatsjonen i cellen (2) (a) en sender som omfatter midler for koding av et talesignal og midler for å sende det kodede talesignalet, og (b) en mottager som omfatter midler for å motta et sendt kodet talesignal og midler for å dekode det mottatte kodede talesignal;
karakterisert ved at nevnte midler for å kode et talesignal omfatter midler som er responsive til talesignalet for å danne kodeparametere for talesignalet, og hvor nevnte midler for å danne kodeparametere for talesignalet omfatter en anordning som nevnt i et av kravene 11-20 for å gjennomføre et søk i en kodebok for å danne i det minste én av nevnte kodeparametere for talesignalet, hvor talesignalet utgjør nevnte lydsignal.
22. Et celledelt nettverkselement (2) omfatter (a) en sender som omfatter midler for å kode et talesignal og midler for å sende det kodede talesignalet, og (b) en mottaker som omfatter midler for å motta et sendt kodet talesignal og midler for å dekode det mottatte kodede talesignal; - hvor nevnte midler for koding av talesignalet omfatter midler som gir respons på talesignalet for å produsere kodeparametere for talesignalet, og hvor nevnte midler for å danne kodeparameter for talesignalet omfatter en anordning som nevnt i et av kravene 11-20, for å gjennomføre et søk i en kodebok for å produsere minst én av nevnte kodeparametere for talesignalet, hvor talesignalet utgjør nevnte lydsignal.
23. En celledelt mobil sender/mottakerenhet (3) som omfatter (a) en sender som omfatter midler for å kode et talesignal og midler for å sende det kodede talesignalet, og (b) en mottaker omfattende midler for å motta et sendt kodet talesignal og midler for å dekode det mottatte kodede talesignalet;
hvor nevnte midler for å kode talesignalet omfatter midler som gir respons til talesignalet for å produsere kodeparametere for talesignalet, og hvor nevnte midler for å produsere kodeparametere for talesignalet omfatter en anordning som nevnt i et av kravene 11-20, for å gjennomføre et søk i en kodebok for å produsere minst en av nevnte kodesignal for talesignalet, hvor talesignalet utgjør nevnte lydsignal.
24. I et celledelt kommunikasjonssystem for å dekke et stort geografisk område delt i flere celler, og som omfatter: mobile sender/mottakerenheter (3); cellebasestasjoner (2) respektivt plassert i nevnte celler; og midler (5) for å kontrollere kommunikasjon mellom cellebasestasjonene (2); - en toveis trådløs kommunikasjons undersystem mellom hver mobil enhet (3) plassert i én celle og basestasjonen i cellen (2) til nevnte en celle, hvor nevnte toveis trådløse kommunikasjonsundersystem omfatter i både den mobile enheten (3) og basestasjonen i cellen (2) (a) en sender som omfatter midler for å kode talesignal og midler for å sende det kodede talesignalet, og (b) en mottaker som omfatter midler for å motta et sendt kodet talesignal og midler for å dekode det mottatte kodede talesignalet;
hvor nevnte talesignalkodemidler omfatter midler som i respons på talesignalet for å produsere kodeparametere for talesignalet, og hvor nevnte midler for å produsere kodeparametere for talesignalet omfatter en anordning som vist i et av kravene 11-20, for å gjennomføre et søk i en kodebok for å produsere minst én av nevnte talesignalkodeparametere, hvor talesignalet utgjør nevnte lydsignal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38396895A | 1995-02-06 | 1995-02-06 | |
PCT/CA1996/000069 WO1996024925A1 (en) | 1995-02-06 | 1996-02-02 | Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech |
Publications (3)
Publication Number | Publication Date |
---|---|
NO20024065L NO20024065L (no) | 1997-10-06 |
NO20024065D0 NO20024065D0 (no) | 2002-08-26 |
NO322594B1 true NO322594B1 (no) | 2006-10-30 |
Family
ID=23515511
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20023493A NO20023493D0 (no) | 1995-02-06 | 2002-07-22 | Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale |
NO20024065A NO322594B1 (no) | 1995-02-06 | 2002-08-26 | Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20023493A NO20023493D0 (no) | 1995-02-06 | 2002-07-22 | Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale |
Country Status (2)
Country | Link |
---|---|
NO (2) | NO20023493D0 (no) |
ZA (1) | ZA96852B (no) |
-
1996
- 1996-02-02 ZA ZA96852A patent/ZA96852B/xx unknown
-
2002
- 2002-07-22 NO NO20023493A patent/NO20023493D0/no unknown
- 2002-08-26 NO NO20024065A patent/NO322594B1/no not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ZA96852B (en) | 1996-08-26 |
NO20024065D0 (no) | 2002-08-26 |
NO20023493L (no) | 1997-10-06 |
NO20024065L (no) | 1997-10-06 |
NO20023493D0 (no) | 2002-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO318595B1 (no) | Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale | |
KR100299408B1 (ko) | 음성의고속코딩을위한심도우선대수코드북검색 | |
US7774200B2 (en) | Method and apparatus for transmitting an encoded speech signal | |
US5495555A (en) | High quality low bit rate celp-based speech codec | |
KR930010399B1 (ko) | 특정 여기 코드 워드 선택 방법 | |
US7249014B2 (en) | Apparatus, methods and articles incorporating a fast algebraic codebook search technique | |
CA2202825C (en) | Speech coder | |
KR19980080463A (ko) | 코드여기 선형예측 음성코더내에서의 벡터 양자화 방법 | |
US6804639B1 (en) | Celp voice encoder | |
NO322594B1 (no) | Algebraisk kodebok med signalvalgte pulsamplituder for hurtig koding av tale | |
KR960015861B1 (ko) | 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기 | |
CA2618002C (en) | Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech | |
CA2210765E (en) | Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech | |
JPH10133696A (ja) | 音声符号化装置 | |
WO2000042601A1 (en) | A method and device for designing and searching large stochastic codebooks in low bit rate speech encoders | |
JP2004093946A (ja) | 音声符号化装置および音声符号化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MK1K | Patent expired |