NO339287B1

NO339287B1 - Subbånds talekodek med flertrinns kodebok og redundant koding

Info

Publication number: NO339287B1
Application number: NO20075782A
Authority: NO
Inventors: Xiaoqin Sun; Tian Wang; Hosam A Khalil; Kazuhito Koishida; Wei-Ge Chen
Original assignee: Microsoft Technology Licensing Llc
Priority date: 2005-05-31
Filing date: 2007-11-12
Publication date: 2016-11-21
Also published as: DE602006018908D1; EP1886306A1; PL1886306T3; US20060271355A1; TWI413107B; US7177804B2; CA2611829C; CN101996636B; AU2006252965A1; EP2282309A3; AU2006252965B2; US20080040105A1; CA2611829A1; EP1886306B1; BRPI0610909A2; EP1886306A4; KR101238583B1; KR20080009205A; RU2007144493A; US20060271357A1

Description

TEKNISK OMRÅDE

Beskrevne verktøy og fremgangsmåter vedrører audiokodeker, og spesielt subbånd-koding, kodebøker og/eller redundant koding.

BAKGRUNN

Med fremveksten av digitale trådløse telefonnettverk, overføring av lyddata-strømmer over Internett og Internett-telefoni har digital behandling og overføring av tale blitt stadig mer vanlig. Ingeniører anvender en rekke forskjellige metoder for å behandle tale på en effektiv måte samtidig som kvaliteten bevares. For å forstå disse metodene er det nyttig å forstå hvordan lydinformasjon blir representert og behandlet i en datamaskin.

I. Representasjon av lydinformasjon i en datamaskin

En datamaskin behandler lydinformasjon som en sekvens av tall som representerer lyden. Ett enkelt tall kan representere et lydsample, som er en amplitude-verdi på et gitt tidspunkt. Flere faktorer påvirker lydens kvalitet, inkludert samplingsdybde og samplingsrate.

Samplingsdybde (eller presisjon) angir området av tall som anvendes for å representere et sample. Flere mulige verdier for hvert sample gir typisk utmating med høyere kvalitet fordi mer detaljerte variasjoner i amplituden kan representeres. Et åtte-bits sample har 256 mulige verdier, mens et 16-bits sample har 65536 mulige verdier.

Samplingsraten (vanligvis målt som antallet sampler per sekund) påvirker også kvaliteten. Jo høyere samplingsrate, jo høyere kvalitet fordi flere lydfrekven-ser kan representeres. Eksempler på vanlige samplingsrater er 8000, 11025, 22050, 32000, 44100, 48000 og 96000 sampler/sekund (Hz). Tabell 1 viser flere lydformater med forskjellig kvalitetsnivå, sammen med tilhørende bitratekrav for ubehandlede data.

Som tabell 1 viser er prisen for å oppnå lyd av høy kvalitet høy bitrate. Høykvalitets lydinformasjon krever mye datalagringsplass og overføringskapasitet. Mange datamaskiner og datanettverk har ikke ressurser til å prosessere ubehand-let digital lyd. Komprimering (også kalt innkoding eller koding) reduserer kapasitets-kravet ved lagring og overføring av lydinformasjon ved å konvertere informasjonen til en form som krever lavere bitrate. Komprimering kan være tapsfri (der kvaliteten ikke forringes) eller tapsbeheftet (der kvaliteten forringes, men bitratereduksjonen fra påfølgende tapsfri komprimering er større). Dekomprimering (også kalt dekoding) gjenoppretter en rekonstruert versjon av den opprinnelige informasjonen fra den komprimerte formen. En kodek er et koder/dekoder-system.

II. Talekodere og dekodere

Ett mål med lydkomprimering er å representere lydsignalene digitalt for å oppnå maksimal signalkvalitet for et gitt antall bit. Sagt på en annen måte er målet å representere lydsignalene med færrest mulig bit for et gitt kvalitetsnivå. Andre motiver, så som robusthet mot overføringsfeil og begrensning av den totale forsink-elsen som følge av innkoding/overføring/dekoding, foreligger i noen tilfeller.

Forskjellige typer lydsignaler har forskjellige egenskaper. Musikk kjennetegnes ved store områder av frekvenser og amplituder, og inkluderer ofte to eller flere kanaler. Tale derimot, kjennetegnes ved mindre områder av frekvenser og amplituder, og er vanligvis representert i én enkelt kanal. Visse kodeker og behandlingsmetoder er tilpasset for musikk og lyd generelt; andre kodeker og behandlingsmetoder er tilpasset for tale.

Én type tradisjonell talekodek anvender lineær prediksjon for å bevirke komprimering. Taleinnkodingen inkluderer flere trinn. Koderen finner og kvantiserer koeffisienter for et lineært prediksjonsfilter, som anvendes for å predikere samplingsverdier som lineære kombinasjoner av foregående samplingsverdier. Et restsignal (representert som et "eksitasjonssignal") angir deler av det opprinnelige signalet som ikke er presist predikert av filtreringen. I noen trinn anvender tale-kodeken forskjellige komprimeringsteknikker for stemte segmenter (kjennetegnet ved stemmebåndets vibrasjon), ustemte segmenter og lydløse segmenter, siden forskjellige typer tale har forskjellige egenskaper. Stemte segmenter utviser typisk hyppig gjentatte talemønstre, også i restdomenet. For stemte segmenter oppnår koderen ytterligere komprimering ved å sammenlikne det gjeldende restsignalet med tidligere restsykluser, og innkode det gjeldende restsignalet basert på forsinkelses- eller latensinformasjon relativt de tidligere syklusene. Koderen hånd-

terer andre avvik mellom det opprinnelige signalet og den predikerte, innkodede representasjonen ved anvendelse av spesialiserte kodebøker.

Mange talekodeker utnytter tidsmessig redundans i et signal på en eller annen måte. Som nevnt over anvender én vanlig måte langsiktig prediksjon av tonehøydeparametere (pitch parameters) for å predikere et gjeldende eksitasjonssignal med hensyn til forsinkelse eller latens relativt tidligere eksitasjonssykluser. Utnyttelse av tidsmessig redundans kan gi en betydelig forbedring av komprimer-ingseffektiviteten med hensyn til kvalitet og bitrate, men på bekostning av at det innføres hukommelsesavhengighet i kodeken - en dekoder er avhengig av en tidligere dekodet del av signalet for å dekode en annen del av signalet korrekt. Mange effektive talekodeker har betydelig hukommelsesavhengighet.

US 6757654 B1 beskriver en forbedret forover-feilkorreksjons (FEC) teknikk for koding av taledata som omfatter en givermodul som primær-koder for et inngangstalesignal ved hjelp av en primær syntesemodell for å fremstille primær-kodede data, og redundans-koder inngangstalesignalet ved hjelp av en redundans-syntese modell for å produsere redundans-kodede data. En datapakker kombinerer de primær-kodede data og de redundant-kodede data i en serie av pakker og sender pakkene via et pakkebasert nettverk, for eksempel et (IP) Internet Protocol nettverk. En dekodings modul primær-dekoder pakker ved å bruke primær-syntese modellen, og de redundant-dekodede pakkene med redundans-syntese modellen. Teknikken gir interaksjon mellom primære-syntese modellen og redundans-syntese modellen både under og etter dekoding for å forbedre kvaliteten av et syntetisert utgangstalesignal. Slik "samhandling", for eksempel, kan ta form av oppdatering av tilstander i én modell ved å bruke den andre modellen.

Selv om talekodeker som beskrevet over har en god generell ytelse for mange anvendelser har de også flere ulemper. Spesielt viser flere ulemper seg når talekodekene anvendes sammen med dynamiske nettverksressurser. I slike scenarier kan innkodet tale gå tapt på grunn av en midlertidig knapphet på bånd-bredde eller andre problemer.

A. Smalbånd og bredbånd kodeker

Mange standard talekodeker er konstruert for smalbåndssignaler med en samplingsrate på åtte kHz. Selv om en samplingsrate på åtte kHz er tilstrekkelig i mange tilfeller, kan høyere samplingsrater være ønskelig i andre tilfeller, for eksempel for å representere høyere frekvenser.

Talesignaler med en samplingsrate på minst seksten kHz kalles typisk bredbånd-tale. Selv om disse bredbåndskodekene kan være nyttige for å representere høyfrekvente talemønstre, krever de typisk høyere bitrater enn smalbånd-kodeker. Slike høyere bitrater kan være uoppnåelige i noen typer nettverk, eller under visse nettverkstilstander.

B. Ineffektiv hukommelsesavhengighet i dynamiske nettverksforhold

Når innkodet tale mangler, for eksempel fordi den er tapt, forsinket, korrump-ert eller på annen måte er gjort ubrukelig i transitt eller annetsteds, kan talekodeke-nes ytelse forringes som følge av avhengighet av den tapte informasjonen. Tap av informasjon for et eksitasjonssignal gir problemer ved senere rekonstruksjon som avhenger av det tapte signalet. Dersom tidligere sykluser er tapt, kan latensinformasjon være ubrukelig ettersom den peker til informasjon som dekoderen ikke har. Et annet eksempel på hukommelsesavhengighet er interpolasjon av filterkoeffisienter (som anvendes for å glatte overgangene mellom forskjellige syntesefiltre, spesielt for stemte signaler). Dersom filterkoeffisienter for en ramme er tapt, kan filterkoeffisientene for etterfølgende rammer ha ukorrekte verdier.

Dekodere anvender forskjellige metoder for å dekke over feil som følge av tap av datapakker og andre informasjonstap, men disse feilskjulingsmetodene er sjelden i stand til å skjule feilen helt. For eksempel kan dekoderen gjenta tidligere parametere eller estimere parametere basert på korrekt dekodet informasjon. Latensinformasjon kan imidlertid være veldig følsom, og kjente feilskjulingsmetoder er ikke spesielt virkningsfulle.

I de fleste tilfeller vil dekodere etter hvert innhente seg fra feil som følge av tapt informasjon. Etter hvert som pakker mottas og dekodes blir parametre gradvis justert mot sine korrekte verdier. Kvaliteten er imidlertid gjerne forringet inntil dekoderen har gjenopprettet korrekt intern tilstand. I mange av de mest effektive talekodeker er avspillingskvaliteten forringet i lang tid (f.eks. opptil ett sekund), noe som forårsaker sterk forvrengning og ofte gjør talen uforståelig. Gjenopprettings-tiden er kortere når det forekommer en betydelig endring, så som en lydløs ramme, ettersom denne representerer et naturlig nullstillingspunkt for mange parametere. Noen kodeker er mer robuste for pakketap fordi de fjerner avhengigheter mellom rammer. Slike kodeker krever imidlertid betydelig høyere bitrater for å oppnå samme talekvalitet som en tradisjonell CELP-kodek med avhengighet mellom rammer.

Gitt viktigheten av komprimering og dekomprimering for å representere talesignaler i datasystemer er det ikke overraskende at komprimering og dekomprimering av tale har vært gjenstand for mye forsknings- og standardiseringsaktivitet. Uansett hvilke fordeler som innehas av kjente fremgangsmåter og verktøy, har de imidlertid ikke fordelene med fremgangsmåtene og verktøyene beskrevet her.

OPPSUMMERING

Som en oppsummering retter den detaljerte beskrivelsen seg mot forskjellige fremgangsmåter og verktøy for audiokodeker, og spesielt verktøy og fremgangsmåter i forbindelse med subbånd-koding, kodebøker for audiokodeker og/eller redundant koding. Beskrevne utførelsesformer realiserer én eller flere av de beskrevne fremgangsmåter og verktøy, inkludert, men ikke begrenset til følgende: I ett aspekt inkluderer en bitstrøm for et lydsignal innkodet hovedinformasjon for en gjeldende ramme som refererer til et segment i en foregående ramme som skal anvendes ved dekoding av den gjeldende rammen, og innkodet redundant informasjon for dekoding av den gjeldende rammen. Den innkodede redundante informasjonen inkluderer signalhistorieinformasjon for det segmentet av den foregående rammen det refereres til.

I et annet aspekt inkluderer en bitstrøm for et lydsignal innkodet hovedinformasjon for en gjeldende kodeenhet som refererer til et segment i en tidligere kodeenhet som skal anvendes ved dekoding av den gjeldende kodeenheten, og innkodet redundant informasjon for dekoding av den gjeldende kodeenheten. Den innkodede redundante informasjonen inkluderer én eller flere parametre for ett eller flere ekstra kodeboktrinn som skal anvendes ved dekoding av den gjeldende kodeenheten bare dersom den tidligere kodeenheten ikke er tilgjengelig.

I et annet aspekt inkluderer en bitstrøm flere lydkodeenheter, og hver kodeenhet inkluderer et felt. Feltet angir hvorvidt kodeenheten inkluderer innkodet hovedinformasjon som representerer et segment i lydsignalet, og hvorvidt kodeenheten inkluderer innkodet redundant informasjon til bruk ved dekoding av innkodet hovedinformasjon.

I et annet aspekt dekomponeres et lydsignal i flere subfrekvensbånd. Hvert subbånd er innkodet i henhold til en kodeeksitert lineær prediksjonsmodell. Bit-strømmen kan inkludere flere kodeenheter som hver representerer et segment i lydsignalet, der de flere kodeenhetene omfatter en første kodeenhet som representerer et første sett av subfrekvensbånd og en andre kodeenhet som representerer et andre sett av subfrekvensbånd, der det andre settet av subbånd er forskjellig fra det første settet av subbånd som følge av tap av subbånd-informasjon for enten den første kodeenheten eller den andre kodeenheten. Et første subbånd kan være innkodet i henhold til en første kodingsmodus, og et andre subbånd kan være innkodet i henhold til en andre, forskjellig, kodingsmodus. De første og andre kodingsmodusene kan anvende forskjellig antall kodeboktrinn. Hvert subbånd kan bli innkodet separat. Videre kan en sanntids talekoder behandle bitstrømmen, inkluderende å dekomponere lydsignalet i de flere subfrekvensbåndene og innkode de flere subfrekvensbåndene. Behandlingen av bitstrømmen kan inkludere dekoding av de flere subfrekvensbåndene og syntetisere de flere subfrekvensbåndene.

I et annet aspekt inkluderer en bitstrøm for et lydsignal parametre for en første gruppe av kodeboktrinn for å representere et første segment av lydsignalet, der den første gruppen av kodeboktrinn inkluderer et første sett av flere faste kodeboktrinn. Det første settet av faste kodeboktrinn kan inkludere flere tilfeldige faste kodeboktrinn. De faste kodeboktrinnene kan inkludere et pulskodeboktrinn og et tilfeldig kodeboktrinn. Den første gruppen av kodeboktrinn kan videre inkludere et adaptivt kodeboktrinn. Bitstrømmen kan videre inkludere parametre for en andre gruppe av kodeboktrinn som representerer et andre segment i lydsignalet, der den andre gruppen har et forskjellig antall kodeboktrinn fra den første gruppen. Antallet kodeboktrinn i den første gruppen av kodeboktrinn kan velges basert på én eller flere faktorer, inkluderende én eller flere egenskaper ved det første segmentet av lydsignalet. Antallet kodeboktrinn i den første gruppen av kodeboktrinn kan velges basert på én eller flere faktorer, inkluderende nettoverføringsforhold-ene mellom koderen og en dekoder. Bitstrømmen kan omfatte en egen kodebokindeks og en egen gainverdi for hvert av de flere faste kodeboktrinnene. Bruk av separate gainverdier kan lette signalsammenlikning og bruk av separate kodebokindekser kan lette søk i kodeboken.

I et annet aspekt inkluderer en bitstrøm, for hver av flere enheter som kan være parametrist ved anvendelse av en adaptiv kodebok, et felt som angir om adaptive kodebokparametre er anvendt for enheten. Enhetene kan være subrammer fra flere rammer i lydsignalet. Et lydbehandlingsverktøy, så som en sanntids talekoder, kan behandle bitstrømmen, inkluderende å bestemme om de adaptive kodebokparametrene i hver enhet skal anvendes. Det å bestemme om de adaptive kodebokparametrene skal anvendes kan inkludere det å bestemme om en adaptiv kodeboks gainverdi er høyere enn en terskelverdi. Det å bestemme om de adaptive kodebokparametrene skal anvendes kan også inkludere det å vurdere ett eller flere trekk ved rammen. Videre kan det å bestemme om de adaptive kodebokparametrene skal anvendes inkludere det å vurdere ett eller flere nettoverførings-trekk mellom koderen og en dekoder. Feltet kan være et én-bits flagg for hver stemte enhet. Feltet kan være et én-bits flagg for hver subramme i en taleramme i lydsignalet, og feltet kan være utelatt fra andre typer rammer.

De forskjellige fremgangsmåter og verktøy kan anvendes i kombinasjon eller hver for seg.

Ytterligere særtrekk og fordeler vil tydeliggjøres av den følgende detaljerte beskrivelsen av forskjellige utførelsesformer, som er gitt med henvisning til de vedlagte figurene.

KORT BESKRIVELSE AV FIGURENE

Figur 1 er et blokkdiagram som illustrerer et passende databehandlingsmiljø hvor én eller flere av de beskrevne utførelsesformer kan realiseres. Figur 2 er et blokkdiagram som illustrerer et nettverksmiljø i der én eller flere av de beskrevne utførelsesformer kan realiseres. Figur 3 er en graf som viser et sett av frekvensresponser for en subbånd-struktur som kan anvendes for subbåndinnkoding. Figur 4 er et blokkdiagram som illustrerer en sanntids talebåndkoder som én eller flere av de beskrevne utførelsesformer kan realiseres med.

Figur 5 er et flytdiagram som illustrerer bestemmelse av kodebokparametre

i én utførelse.

Figur 6 er et blokkdiagram som illustrerer en sanntids talebånddekoder som én eller flere av de beskrevne utførelsesformer kan realiseres med. Figur 7 er et diagram som illustrerer en eksitasjonssignalhistorie, inkluderende en gjeldende ramme og en ominnkodet del av en foregående ramme. Figur 8 er flytdiagram som illustrerer bestemmelse av kodebokparametre for et ekstra, tilfeldig kodeboktrinn i én utførelse. Figur 9 er et blokkdiagram som illustrerer en sanntids talebånddekoder som anvender et ekstra, tilfeldig kodeboktrinn. Figur 10 er et diagram som illustrerer bitstrømformater for rammer som omfatter informasjon for forskjellige redundante kodingsmetoder som kan anvendes med noen utførelser. Figur 11 er et diagram som illustrerer bitstrømformater for datapakker som inkluderer rammer med redundant kodingsinformasjon som kan anvendes med noen utførelser.

DETALJERT BESKRIVELSE

Beskrevne utførelsesformer er rettet mot fremgangsmåter og verktøy for å behandle lydinformasjon ved innkoding og dekoding. Med disse fremgangsmåtene bedres kvaliteten til tale avledet fra en talekodek, for eksempel en sanntids talekodek. Disse forbedringene kan oppnås ved anvendelse av forskjellige fremgangsmåter og verktøy alene eller i kombinasjon.

Slike fremgangsmåter og verktøy kan inkludere koding og/eller dekoding av subbånd ved anvendelse av lineære prediksjonsmetoder, så som CELP.

Fremgangsmåtene kan også inkludere bruk av flere trinn av faste kode-bøker, inkluderende faste pulskodebøker og/eller tilfeldige kodebøker. Antallet kodeboktrinn kan varieres for å maksimere kvaliteten for en gitt bitrate. Videre kan en adaptiv kodebok skrus på eller av, avhengig av faktorer så som den ønskede bitraten og trekkene ved den gjeldende rammen eller subrammen.

Videre kan rammer inkludere innkodet redundant informasjon for deler av eller en hel foregående ramme som den gjeldende rammen avhenger av. Denne informasjonen kan anvendes av dekoderen for å dekode den gjeldende rammen dersom den foregående rammen er tapt, uten å kreve at hele den foregående rammen sendes flere ganger. Denne informasjonen kan bli innkodet med samme bitrate som den gjeldende eller foregående rammer, eller med en lavere bitrate. Videre kan denne informasjonen inkludere tilfeldig kodebokinformasjon som til- nærmer den ønskede delen av eksitasjonssignalet, heller enn en hel ominnkoding av den ønskede delen av eksitasjonssignalet.

Selv om trinnene i de forskjellige fremgangsmåtene er beskrevet i en gitt sekvensiell rekkefølge for klarhetens skyld må det forstås at denne beskrivelses-måten er ment å omfatte mindre endringer i trinnenes rekkefølge, dersom ikke en gitt rekkefølge er nødvendig. For eksempel kan trinn som er beskrevet sekvensielt i noen tilfeller bli stokket om eller utført samtidig. For å lette forklaringen viser ikke flytdiagrammene nødvendigvis alle de forskjellige måter som fremgangsmåtene kan anvendes sammen med andre fremgangsmåter på.

I. Databehandlingsmiljø

Figur 1 illustrerer et generalisert eksempel på et passende databehandlingsmiljø (100) der én eller flere av de beskrevne utførelsesformer kan realiseres. Databehandlingsmiljøet (100) er ikke ment å antyde noen som helst begrensning når det gjelder oppfinnelsens bruksområde eller funksjonalitet, ettersom foreligg-ende oppfinnelse kan realiseres i forskjellige generelle eller spesialiserte databehandlingsmiljøer.

Med henvisning til figur 1 inkluderer databehandlingsmiljøet (100) minst én prosesseringsenhet (110) og minne (120). I figur 1 er denne mest grunnleggende konfigurasjonen (130) vist innenfor en stiplet linje. Prosesseringsenheten (110) eksekverer datamaskin-eksekverbare instruksjoner og kan være en fysisk eller en virtuell prosessor. I et flerprosessorsystem eksekverer flere prosesseringsenheter datamaskin-eksekverbare instruksjoner for å øke prosesseringskapasiteten. Minnet (120) kan være volatilt minne (f.eks. registre, cache, RAM), ikke-volatilt minne (f.eks. ROM, EEPROM, flashminne, etc.) eller enhver kombinasjon av de to. Minnet (120) lagrer programvare (180) som implementerer subbåndinnkoding, flertrinns kodebøker og/eller redundante kodingsmetoder for en talekoder eller

-dekoder.

Et databehandlingsmiljø (100) kan ha ytterligere trekk. I figur 1 inkluderer databehandlingsmiljøet (100) lagre (140), én eller flere innmatingsanordninger

(150), én eller flere utmatingsanordninger (160) og én eller flere kommunikasjons-forbindelser (170). En sammenkoblingsmekanisme (ikke vist) så som en buss, en styringsenhet eller et nettverk, kobler sammen komponentene i databehandlingsmiljøet (100). Operativsystem programvare (ikke vist) tilveiebringer typisk et kjøre- miljø for annen programvare som kjører i databehandlingsmiljøet (100), og samord-ner aktiviteter for komponentene i databehandlingsmiljøet (100).

Lagret (140) kan være flyttbart eller stasjonært, og kan inkludere magnet-platelagre, magnetbånd eller -kasetter, CD-ROM, CD-RW, DVD eller hvilke som helst andre medier som kan anvendes for å lagre informasjon og som kan aksesseres innenfor databehandlingsmiljøet (100). Lagrene (140) lagrer instruksjoner for programvaren (180).

Innmatingsanordningen(e) (150) kan være en berøringsbasert innmatingsanordning så som et tastatur, en mus, en innmatingspenn eller en styrekule, en talebasert innmatingsanordning, en skanneranordning, et nettverksadapter eller en annen anordning som muliggjør innmating av data til databehandlingsmiljøet

(100). For lyd kan innmatingsanordningen(e) (150) være et lydkort, en mikrofon eller en annen anordning som mottar lydinnmating på analog eller digital form, eller en CD/DVD-leser som forsyner lydsampler til databehandlingsmiljøet (100). Utmatingsanordningen(e) (160) kan være en fremvisningsanordning, en skriver, en høyttaler, en CD/DVD-brenner, et nettverksadapter eller en annen anordning som muliggjør utmating fra databehandlingsmiljøet (100).

Kommunikasjonsforbindelsen(e) (170) muliggjør kommunikasjon over et kommunikasjonsmedium med en annen databehandlingsentitet. Kommunikasjons-mediet overfører informasjon så som datamaskin-eksekverbare instruksjoner, komprimert taleinformasjon eller andre data i et modulert datasignal. Et modulert datasignal er et signal som får én eller flere av sine egenskaper satt eller endret på en slik måte at det kodes informasjon i signalet. Som et eksempel, og ikke begrensende inkluderer kommunikasjonsmedier kabelbaserte eller trådløse medier realisert med en elektrisk, optisk, RF-basert, infrarødt-basert, akustisk eller annen bærer.

Oppfinnelsen kan beskrives i den generelle sammenhengen datamaskinlesbare medier. Et datamaskinlesbart medium er et hvilket som helst tilgjengelig medium som kan aksesseres innenfor et databehandlingsmiljø. Som et eksempel, og ikke begrensende inkluderer datamaskinlesbare medier i databehandlingsmiljøet (100) minne (120), lagre (140), kommunikasjonsmedier og enhver kombinasjon av det ovennevnte.

Oppfinnelsen kan beskrives i den generelle sammenhengen datamaskin-eksekverbare instruksjoner, for eksempel de som er inkludert i programmoduler, som eksekveres i et databehandlingsmiljø på en fysisk eller virtuell målprosessor. Generelt inkluderer programmoduler rutiner, programmer, biblioteker, objekter, klasser, komponenter, datastrukturer, etc. som utfører bestemte oppgaver eller implementerer bestemte abstrakte datatyper. Funksjonaliteten til programmodul-ene kan kombineres eller deles mellom programmoduler som ønsket i forskjellige utførelsesformer. Datamaskin-eksekverbare instruksjoner for programmoduler kan bli eksekvert i et lokalt eller distribuert databehandlingsmiljø.

For presentasjonsformå! anvender den detaljerte beskrivelsen ord som "bestemme", "generere", "justere" og "anvende" for å beskrive datamaskinoperasjo-ner i et databehandlingsmiljø. Disse ordene er høynivå abstraksjoner for operasjoner som utføres av en datamaskin, og må ikke blandes sammen med handlinger som utføres av et menneske. De faktiske datamaskinoperasjonene som svarer til disse ordene varierer avhengig av utførelsen.

II. Generalisert nettverksmiljø og sanntids talekodek

Figur 2 er et blokkdiagram som illustrerer et generalisert nettverksmiljø

(200) der én eller flere av de beskrevne utførelsesformene kan realiseres. Et nettverk (250) skiller forskjellige koderkomponenter fra forskjellige dekoder-komponenter.

De primære funksjonene til koder- og dekoderkomponentene er henholdsvis koding og dekoding av tale. På kodesiden mottar og lagrer et innbuffer (210) innmatet tale (202). Talekoderen (230) tar taleinnmating (202) fra innbufferet (210) og koder den.

Spesifikt deler en rammesplitter (212) samplene i taleinnmatingen (202) i rammer. I én utførelse er rammene uniformt tyve ms lange - 160 sampler for åtte kHz innmating og 320 sampler for seksten kHz innmating. I andre utførelser har rammene forskjellig varighet, er ikke-uniforme eller overlappende og/eller samplingsraten for innmatingen (202) er variabel. Rammene kan ordnes som superram-me/ramme, ramme/subramme eller på annen måte for forskjellige trinn i innkodingen og dekodingen.

En rammeklassifikator (214) klassifiserer rammene i henhold til ett eller flere kriterier, så som energien i signalet, nullkryssingshyppighet, langsiktig predik- sjonsgain, gaindifferensial og/eller andre kriterier for subrammer eller de hele rammene. Basert på kriteriene deler rammeklassifikatoren (214) de forskjellige rammene i klasser så som lydløs, ustemt, stemt og overgang (f.eks. fra ustemt til stemt). Videre kan rammene bli klassifisert i henhold til typen redundant koding, om noen, som anvendes for rammen. Rammeklassen påvirker parametrene som vil bli beregnet for å kode inn rammen. Videre kan rammeklassen påvirke oppløs-ningen og tapstoleransen som parametrene kodes med, idet oppløsningen økes og tapstoleransen reduseres for viktigere rammeklasser og parametre. For eksempel blir lydløse rammer typisk kodet med veldig lav rate, er meget enkle å gjenopprette med feilskjulingsmetoder dersom de tapes, og trenger ikke kreve beskyttelse mot tap. Ustemte rammer kodes typisk med en litt høyere rate, er forholdsvis enkle å gjenopprette med feilskjulingsmetoder om de tapes, og beskyttes ikke i stor grad mot tap. Stemte rammer og overgangsrammer blir vanligvis kodet med flere bit, avhengig av rammens kompleksitet så vel som eksistens av overganger. Stemte rammer og overgangsrammer er også vanskelige å gjenopprette dersom de tapes, og er derfor i større grad beskyttet mot tap. Alternativt kan rammeklassifikatoren

(214) anvende andre og/eller ytterligere rammeklasser.

Det innmatede talesignalet kan bli delt inn i subbåndssignaler før anvendelse av en innkodingsmodell, så som CELP, på subbåndsinformasjonen for en ramme. Dette kan gjøres ved hjelp av en sekvens av én eller flere analysefilter-banker (for eksempel QMF-analysefiltre) (216). Dersom det for eksempel skal anvendes en struktur med tre bånd, kan det laveste frekvensbåndet skilles ut ved å sende signalet gjennom et lavpassfilter. Likeledes kan det høyeste båndet skilles ut ved å sende signalet gjennom et høypassfilter. Den midtre båndet kan skilles ut ved å sende signalet gjennom et båndpassfilter, som kan inkludere et lavpassfilter og et høypassfilter i serie. Alternativt kan andre typer filteranordninger for subbånd-dekomponering og/eller tidsstyring av filtrering (f.eks. før rammeoppdel-ing) anvendes. Dersom bare ett bånd skal dekodes for en del av signalet, kan denne delen sendes rundt analysefilterbankene (216). CELP-innkoding har typisk høyere kodingseffektivitet enn ADPCM og MLT for talesignaler.

Antallet bånd n kan bestemmes av samplingsraten. For eksempel anvendes i én utførelse en ettbåndsstruktur for en samplingsrate på åtte kHz. For samplingsrater på 16 kHz og 22,05 kHz kan en trebåndsstruktur anvendes som vist i figur 3. I trebåndsstrukturen i figur 3 omfatter det laveste frekvensbåndet (310) halve båndbredden F (fra 0 til 0,5F). Den andre halvparten av båndbredden deles likt mellom det midtre båndet (320) og det høyeste båndet (330). Nær krysningen av båndene kan frekvensresponsen for et bånd avta gradvis fra passnivået til stoppnivået, som kjennetegnes ved en dempning av signalet på begge sider etter hvert som en nærmer seg krysningspunktet. Andre oppdelinger av frekvensbånd-bredden kan også anvendes. For eksempel kan det for en samplingsrate på trettito kHz anvendes en uniformt oppdelt firebåndsstruktur.

Det laveste frekvensbåndet er typisk det viktigste båndet for talesignaler ettersom signalenergien typisk avtar mot de høyere frekvensområdene. Følgelig blir det laveste frekvensbåndet ofte kodet ved anvendelse av flere bit enn de andre båndene. Sammenliknet med en ettbånds kodingsstruktur er subbåndsstrukturen mer fleksibel, og muliggjør bedre styring av bitfordeling / kvantiseringsstøy over frekvensbåndene. Følgelig antas det at de perseptuelle talekvaliteten forbedres vesentlig ved å anvende subbåndsstrukturen.

I figur 2 er hvert subbånd kodet for seg, som illustrert av innkodingskompo-nentene (232, 234). Selv om båndinnkodingskomponentene (232, 234) er vist separat, kan innkodingen av alle båndene gjøres av én enkelt koder, eller de kan bli kodet av separate kodere. Slik båndinnkoding er beskrevet nærmere nedenfor i forbindelse med figur 4. Alternativt kan kodeken fungere som en ettbåndskodek.

Den resulterende innkodede talen blir forsynt til programvare for ett eller flere nettverkslag (240) gjennom en multiplekser ("MUX") (236). Nettverkslagene

(240) behandler den innkodede talen for overføring over nettverket (250). For eksempel kan nettverkslag-programvaren pakke inn rammer av innkodet taleinformasjon i pakker som er i overensstemmelse med RTP-protokollen, som sendes over Internett ved anvendelse av UDP, IP og forskjellige protokoller på det fysiske lag. Alternativt kan andre og/eller ytterligere lag av programvare eller nettverksproto-koller anvendes. Nettverket (250) er et regionalt, pakkesvitsjet nettverk, så som Internett. Alternativt kan nettverket (250) være et lokalt nettverk eller en annen type nettverk.

På dekodersiden mottar og behandler programvare for ett eller flere nettverkslag (260) de overførte dataene. Protokoller og programvare for nettverks-laget, transportlaget og høyere lag på dekodersidens nettverkslag (260) svarer vanligvis til de på kodersidens nettverkslag (240). NettverkslagetV-lagene forsyner den innkodede taleinformasjonen til taledekoderen (270) gjennom en demultiplekser ("DEMUX") (276). Dekoderen (270) dekoder hvert av subbåndene for seg, som vist i dekodingsmodulene (272, 274). Alle subbåndene kan bli dekodet av én enkelt dekoder, eller de kan bli dekodet av separate bånddekodere.

De dekodede subbåndene blir så syntetisert i en sekvens av én eller flere syntesefilterbanker (for eksempel QMF-syntesefiltre) (280), som mater ut dekodet tale (292). Alternativt kan andre typer filteranordninger for subbåndssyntese anvendes. Dersom det kun eksisterer ett enkelt bånd, kan da det dekodede båndet bli sendt rundt filterbankene (280).

Den dekodede taleutmatingen (292) kan også bli sendt gjennom ett eller flere etterbehandlingsfiltre (284) for å bedre kvaliteten til den resulterende filtrerte taleutmatingen (294). Videre kan hvert bånd bli sendt separat gjennom ett eller flere etterbehandlingsfiltre før de føres til filterbankene (280). Én mulig generalisert sanntids talebånddekoder er beskrevet under henvisning til figur 6, selv om andre taledekodere kan anvendes i stedet. Videre kan noen av eller alle de beskrevne verktøy og fremgangsmåter anvendes med andre typer lydkodere og -dekodere, så som musikkkodere og -dekodere eller generelle lydkodere og -dekodere.

Bortsett fra disse primære innkodings- og dekodingsfunksjonene kan komponentene også dele informasjon (vist med stiplet linje i figur 2) for å styre hastigheten, kvaliteten og/eller tapstoleransen for den innkodede talen. Hastighetsstyringsenheten (220) tar hensyn til en rekke forskjellige faktorer, så som kompleksiteten til de eksisterende inndataene i innbufferet (210), oppfyllingsgraden i utbuff-ere i koderen (230) eller andre steder, ønsket utmatingshastighet, den tilgjengelige nettverksbåndbredden, nettbelastning/støyforhold og/eller dekoderens tapsprosent. Dekoderen (270) sender tilbake informasjon om dekoderens tapsprosent til hastighetsstyringsenheten (220). NettverkslagetV-lagene (240, 260) innhenter eller estimerer informasjon om tilgjengelig nettverksbåndbredde og nettbelastning/støy-forhold, som sendes tilbake til hastighetsstyringsenheten (220). Alternativt kan hastighetsstyringsenheten (220) ta hensyn til andre og/eller ytterligere faktorer.

Hastighetsstyringsenheten (220) instruerer talekoderen (230) til å endre hastigheten, kvaliteten og/eller tapstoleransen som talen innkodes med. Koderen

(230) kan endre hastigheten og kvaliteten ved å justere kvantiseringsfaktorer for parametere eller endre oppløsningen til entropikoder som representerer parametrene. Videre kan koderen endre tapstoleransen ved å justere hastigheten eller typen redundant koding. Følgelig kan koderen (230) endre allokeringen av bit mellom primære innkodingsfunksjoner og tapstoleransefunksjoner avhengig av forhold i nettverket.

Hastighetsstyringsenheten (220) kan bestemme kodingsmodi for hvert subbånd i hver ramme basert på forskjellige faktorer. Disse faktorene kan inkludere signalegenskapene i hvert subbånd, bitstrøm-historiebufferet og den ønskede bitraten. For eksempel, som beskrevet over, er i alminnelighet færre bit nødvendig for enklere rammer, så som ustemte og lydløse rammer, og flere bit er nødvendig for mer komplekse rammer, så som overgangsrammer. Videre kan færre bit være nødvendig for noen bånd, så som høyfrekvente bånd. Dersom den gjennomsnittlige bitraten i bitstrøm-historiebufferet er lavere enn den ønskede gjennomsnittlige bitraten, kan videre en høyere bitrate anvendes for den gjeldende rammen. Dersom den gjennomsnittlige bitraten er lavere enn den ønskede gjennomsnittlige bitraten, kan en lavere bitrate velges for den gjeldende rammen for å redusere den gjennomsnittlige bitraten. Videre kan ett eller de flere av båndene utelates fra én eller flere rammer. For eksempel kan de mellom- og høyfrekvente delene utelates for ustemte rammer, eller de kan utelates fra alle rammer for en tidsperiode for å redusere bitraten i denne perioden.

Figur 4 er et blokkdiagram som illustrerer en generalisert talebåndkoder

(400) som én eller flere av de beskrevne utførelsesformene kan realiseres med. Båndkoderen (400) svarer generelt til en hvilken som helst av båndinnkodingskomponentene (232, 234) i figur 2.

Båndkoderen (400) mottar båndinnmatingene (402) fra filterbankene (eller andre filtre) dersom signalet (f.eks. den gjeldende rammen) er delt inn i flere bånd. Dersom den gjeldende rammen ikke er delt inn i flere bånd, inkluderer båndinnmatingene (402) sampler som representerer hele båndbredden. Båndkoderen genererer en innkodet båndutmating (492).

Dersom et signal er delt inn i flere bånd, kan en nedsamplingskomponent

(420) utføre nedsampling på hvert bånd. Dersom for eksempel samplingsraten er satt til seksten kHz og hver ramme har en varighet på tyve ms, inkluderer hver ramme 320 sampler. Dersom ingen nedsampling ble utført og rammen ble delt inn i trebåndsstrukturen vist i figur 3, ville tre ganger så mange sampler (dvs. 320 sampler for hvert bånd, eller totalt 960 sampler) blitt innkodet og dekodet for rammen. Hvert bånd kan imidlertid bli nedsamplet. For eksempel kan det laveste frekvensbåndet (310) bli nedsamplet fra 320 sampler til 160 sampler, og hvert av det midtre båndet (320) og det høyeste båndet (330) kan bli nedsamplet fra 320 sampler til 80 sampler, idet båndene (310, 320, 330) henholdsvis dekker halvparten, en fjerdedel og en fjerdedel av frekvensområdet (graden av nedsampling (420) i denne utførelsen varierer i forhold til frekvensområdet til båndene (310, 320, 330). Imidlertid er andre utførelser mulig. I senere trinn anvendes typisk færre bit for de høyere båndene fordi signalenergien typisk avtar mot de høyere frekvensområdene). Følgelig gir dette totalt 320 sampler som skal innkodes og dekodes for rammen.

Det antas at subbåndskodeken selv med denne nedsamplingen av hvert bånd er i stand til å produsere utmating med høyere talekvalitet enn en ettbåndskodek fordi den er mer fleksibel. For eksempel kan den være mer fleksibel i styringen av kvantiseringsstøy for hvert bånd, heller enn å anvende samme metode for hele frekvensspekteret. Hvert av de flere båndene kan bli kodet med forskjellige egenskaper (så som forskjellige antall og/eller typer kodeboktrinn, som beskrevet nedenfor). Slike egenskaper kan bestemmes av hastighetsstyringen beskrevet over basert på flere faktorer, inkluderende signaltrekkene i hvert subbånd, bitstrøm-historiebufferet og den ønskede bitraten. Som beskrevet over er typisk færre bit nødvendig for "enkle" rammer, så som ustemte og lydløse rammer, og flere bit er nødvendig for "komplekse" rammer, så som overgangsrammer. Dersom den gjennomsnittlige bitraten i bitstrøm-historiebufferet er lavere enn den ønskede gjennomsnittlige bitraten, kan en høyere bitrate anvendes for den aktuelle rammen. Ellers velges en lavere bitrate for å redusere den gjennomsnittlige bitraten. I en subbåndskodek kan hvert bånd blikarakterisertpå denne måten og innkodet følgelig, heller enn at hele frekvensspekteret blirkarakterisertpå samme måte. I tillegg kan hastighetsstyringen redusere bitraten ved å utelate ett eller flere de de høyere frekvensbåndene for én eller flere rammer.

LP-analysekomponenten (430) beregner lineærprediksjonskoeffisienter

(432). I én utførelse anvender LP-filteret ti koeffisienter for åtte kHz innmating og seksten koeffisienter for seksten kHz innmating, og LP-analysekomponenten (430) beregner ett sett av lineærprediksjonskoeffisienter pr ramme for hvert bånd. Alternativt kan LP-analysekomponenten (430) beregne to sett av koeffisienter pr ramme for hvert bånd, ett for hvert av to vinduer sentrert om forskjellige posisjo-ner, eller beregne et ulikt antall koeffisienter pr bånd og/eller pr ramme.

LPC-behandlingskomponenten (435) mottar og behandler lineærprediksjonskoeffisientene (432). LPC-behandlingskomponenten (435) konverterer typisk LPC-verdier til en annen representasjon for å oppnå en mer effektiv kvantisering og koding. For eksempel kan LPC-behandlingskomponenten (435) konvertere LPC-verdier til en linjespektralpar-["LSP"]-representasjon, og LSP-verdiene bli kvantisert (for eksempel ved vektorkvantisering) og kodet. LSP-verdiene kan bli intrakodet eller predikert fra andre LSP-verdier. Forskjellige representasjoner, kvantiseringsmetoder og kodingsmetoder er mulige for LPC-verdier. LPC-verdiene forsynes i en eller annen form som del av den innkodede båndutmatingen (492) for pakettering og overføring (sammen med eventuelle kvantiseringsparametre og annen informasjon nødvendig for rekonstruksjon). LPC-behandlingskomponenten

(435) rekonstruerer LPC-verdiene for påfølgende bruk i koderen (400). LPC-behandlingskomponenten (435) kan interpolere LPC-verdier (for eksempel ekviva-lent i LSP-representasjonen eller en annen representasjon) for å glatte overgangene mellom forskjellige sett av LPC-koeffisienter, eller mellom LPC-koeffisientene som anvendes for forskjellige subrammer i rammer.

Syntese-(eller "korttidsprediksjons-")-filteret (440) mottar rekonstruerte LPC-verdier (438) og innlemmer dem i filteret. Syntesefilteret (440) mottar et eksitasjonssignal og genererer en tilnærming av det opprinnelige signalet. For en gitt ramme kan syntesefilteret (440) bufre et antall rekonstruerte sampler (f.eks. ti for et "ten tap"-filter) fra den forrige rammen for å initiere prediksjonen.

De perseptuelle vektingskomponentene (450, 455) anvender perseptuell vekting på det opprinnelige signalet og den modellerte utmatingen fra syntesefilteret (440) for selektivt å nedtone formantstrukturen til talesignaler for å gjøre lytte-systemene mindre følsomme overfor kvantiseringsfeil. De perseptuelle vektingskomponentene (450, 455) utnytter psykoakustiske fenomener så som maskering. I én utførelse anvender de perseptuelle vektingskomponentene (450, 455) vekter basert på de opprinnelige LPC-verdiene (432) mottatt fra LP-analysekomponenten

(430). Alternativt kan de perseptuelle vektingskomponentene (450, 455) anvende andre og/eller ytterligere vekter.

Etter de perseptuelle vektingskomponentene (450, 455) beregner koderen

(400) forskjellen mellom det perseptuelt vektede opprinnelige signalet og den perseptuelt vektede utmatingen fra syntesefilteret (440) for å generere et diffe-ransesignal (434). Alternativt kan koderen (400) anvende en annen metode for å beregne taleparametrene.

Eksitasjonsparametriseringskomponenten (460) søker etter den beste kombinasjonen av adaptive kodebokindekser, faste kodebokindekser og gain-kodebokindekser for å minimere forskjellen mellom det perseptuelt vektede opprinnelige signalet og det syntetiserte signalet (basert på vektet midlere kvadratifeil eller andre kriterier). Mange parametere blir beregnet for hver subramme, men mer generelt kan parametrene være pr superramme, ramme eller subramme. Som beskrevet over kan parametrene for forskjellige bånd innenfor en ramme eller subramme være forskjellige. Tabell 2 viser de tilgjengelige typene av parametre for forskjellige rammeklasser i én utførelse.

I figur 4 deler eksitasjonsparametriseringskomponenten (460) inn rammen i subrammer og beregner kodebokindekser og gainverdier for hver subramme på passende måte. For eksempel kan antallet av og typen kodeboktrinn som skal anvendes, samt oppløsningene for kodebokindekser innledningsvis bli bestemt ved en innkodingsmodus, der modusen kan bestemmes av hastighetsstyringskomponenten beskrevet over. En gitt modus kan også bestemme andre innkodings- og dekodingsparametere enn antallet av og typen kodeboktrinn, for eksempel oppløsningen av kodebokindeksene. Parametrene i hvert kodeboktrinn bestemmes ved å optimere parametrene for å minimere feilen mellom et målsignal og bidraget fra dette kodeboktrinnet til det syntetiserte signalet. (Med å "optimere" menes her å finne en passende løsning under gjeldende føringer, så som forvreng-ningsreduksjon, parametersøketid, parametersøk-kompleksitet, bitraten for parametre, etc, i motsetning til å utføre et fullt søk i parameterrommet. Tilsvarende skal "minimere" forstås som å finne en passende løsning under gjeldende føringer.) For eksempel kan optimering gjøres ved anvendelse av en modifisert midlere kvadratfeilmetode. Målsignalet i hvert trinn er forskjellen mellom restsignalet samt summen av bidragene fra de tidligere kodeboktrinnene, om noen, og det syntetiserte signalet. Alternativt kan andre optimeringsmetoder anvendes.

Figur 5 viser en fremgangsmåte for å bestemme kodebokparametre ifølge én utførelse. Eksitasjonsparametriseringskomponenten (460) utfører fremgangsmåten, eventuelt sammen med andre komponenter så som en hastighetsstyringsenhet. Alternativt kan en annen komponent i en koder utføre fremgangsmåten.

Med henvisning til figur 5 bestemmer (510), for hver subramme i en stemt ramme eller overgangsramme, eksitasjonsparametriseringskomponenten (460) hvorvidt en adaptiv kodebok kan anvendes for den aktuelle subrammen. (For eksempel kan hastighetsstyringen kreve at ingen adaptiv kodebok skal anvendes for en gitt ramme.) Dersom den adaptive kodeboken ikke skal anvendes, vil da en adaptiv kodebokvelger angi at ingen adaptive kodebøker skal anvendes (535). For eksempel kan dette gjøres ved å sette et én-bits flagg på rammenivå som angir at ingen adaptive kodebøker er anvendt i rammen, ved å spesifisere en gitt kodingsmodus på rammenivå eller ved å sette et én-bits flagg for hver subramme som angir at ingen adaptiv kodebok er anvendt i subrammen.

For eksempel kan hastighetsstyringskomponenten ekskludere den adaptive kodeboken for en ramme, og dermed fjerne den viktigeste hukommelsesavhengig-heten mellom rammer. Spesielt for stemte rammer kjennetegnes et typisk eksitasjonssignal ved et periodisk mønster. Den adaptive kodeboken inkluderer en indeks som representerer en latens som angir posisjonen til et eksitasjonssegment i historiebufferet. Det foregående eksitasjonssegmentet skaleres til å bli den adaptive kodebokens bidrag til eksitasjonssignalet. Ved dekoderen er den adaptive kodebokinformasjonen typisk nokså viktig for rekonstruksjonen av eksitasjonssignalet. Dersom den foregående rammen er tapt og den adaptive kodebokin deksen peker tilbake til et segment i den foregående rammen, er den adaptive kodebokindeksen typisk ubrukelig fordi den peker til ikke-eksiterende historieinformasjon. Selv om feilskjulingsmetoder utføres for å gjenopprette denne tapte informasjonen, vil også fremtidig rekonstruksjon være basert på det ufullkomment gjen-opprettede signalet. Dette vil gjøre at feilen forplanter seg til de etterfølgende rammene fordi latensinformasjon typisk er følsom.

Følgelig vil tap av en pakke som en etterfølgende adaptiv kodebok er avhengig av føre til en langsiktig forringelse som ikke dør ut før etter at mange pakker er dekodet, eller når det møtes på en ramme uten noen adaptiv kodebok. Dette problemet kan reduseres ved jevnlig å sette inn såkalte "intrarammer" i pakkestrømmen som ikke har hukommelsesavhengighet mellom rammer. På den måten vil feil bare forplante seg til neste intraramme. Følgelig er det en avveining mellom bedre talekvalitet og bedre pakketapsytelse fordi kodingseffektiviteten til den adaptive kodeboken vanligvis er høyere enn den til de faste kodebøkene. Hastighetsstyringskomponenten kan bestemme når det er tjenlig å ikke anvende adaptive kodebøker for en gitt ramme. Adaptiv kodebok-velgeren kan anvendes for å hindre bruk av adaptive kodebøker for en gitt ramme, og dermed fjerne det som typisk er den mest betydelige avhengigheten av foregående rammer (LPC-interpolasjon og syntesefilterhukommelse kan også til en viss grad være avhengig av foregående rammer). Følgelig kan adaptiv kodebok-velgeren anvendes av hastighetsstyringskomponenten for å generere en kvasi-intraramme dynamisk basert på faktorer så som pakketapsraten (dvs. at når pakketapsraten er høy, kan flere intrarammer bli satt inn for å muliggjøre raskere nullstilling av hukommelse).

Fortsatt med henvisning til figur 5, dersom en adaptiv kodebok kan anvendes, bestemmer komponenten (460) adaptiv kodebokparametre. Disse parametere inkluderer en indeks, eller tonehøydeverdi, som angir et ønsket segment i eksitasjonssignalets historie, så vel som en gainverdi som skal anvendes på det ønskede segmentet. I figurene 4 og 5 utfører komponenten (460) et lukket sløyfe-pitchsøk (520). Dette søket begynner med tonehøyden bestemt av den eventuelt anvendte åpen sløyfe-pitchsøkekomponenten (425) i figur 4. En åpen sløyfe-pitchsøkekomponent (425) analyserer det vektede signalet generert av vektings-komponenten (450) for å estimere tonehøyden i det. Med utgangspunkt i denne estimerte tonehøyden optimerer lukket sløyfe-pitchsøket (520) tonehøydeverdien for å redusere feilen mellom målsignalet og det vektede syntetiserte signalet generert fra et angitt segment i eksitasjonssignalhistorien. Den adaptive kodebokens gainverdi blir også optimert (525). Den adaptive kodebokens gainverdi angir en multiplikator som skal anvendes på de tonehøyde-predikerte verdiene (verdiene fra det angitte segmentet i eksitasjonssignalhistorien) for å justere verdienes skala. Gainen som multipliseres med de tonehøyde-predikerte verdiene er den adaptive kodebokens bidrag til eksitasjonssignalet for den gjeldende rammen eller subrammen. Gainoptimeringen (525) gir en gainverdi og en indeksverdi som minimerer feilen mellom målsignalet og det vektede syntetiserte signalet fra bidraget fra den adaptive kodeboken.

Etter at tonehøyde- og gainverdiene er bestemt, blir det bestemt (530) hvorvidt bidraget fra den adaptive kodeboken er stort nok til at det forsvarer antallet bit som anvendes av den adaptive kodebokens parametre. Dersom den adaptive kodebokens gainverdi er mindre enn en terskelverdi, deaktiveres den adaptive kodeboken for å spare bit-plassene til de faste kodebøkene beskrevet nedenfor. I én utførelse anvendes en terskelverdi på 0,3, selv om andre verdier alternativt kan anvendes som terskel. Dersom for eksempel gjeldende kodingsmodus anvender den adaptive kodeboken pluss en pulskodebok med fem pulser, kan da en kodebok med syv pulser anvendes når den adaptive kodeboken er deaktivert og det totale antall bit vil fortsatt være det samme eller lavere. Som beskrevet over kan et én-bits flagg for hver subramme anvendes for å angi adaptiv kodebok-velgeren for subrammen. Dersom den adaptive kodeboken ikke anvendes, settes følgelig velgeren slik at den angir at ingen adaptiv kodebok er anvendt i subrammen (535). Likeledes, dersom den adaptive kodeboken anvendes, settes velgeren slik at den angir at den adaptive kodeboken er anvendt i subrammen, og parametrene for den adaptive kodeboken signaleres (540) i bitstrømmen. Selv om figur 5 viser signalering etter bestemmelsen kan alternativt signaler bli samlet opp inntil fremgangsmåten avslutter for en ramme eller superramme.

Eksitasjonsparametriseringskomponenten (460) bestemmer også (550) om det anvendes en pulskodebok. I én utførelse angis bruk eller ikke bruk av pulskodeboken som del av en generell kodingsmodus for den aktuelle rammen, eller det kan angis eller bestemmes på andre måter. En pulskodebok er en type fast kodebok som spesifiserer én eller flere pulser som skal bidra til eksitasjons signalet. Pulskodebok-parametrene inkluderer par av indekser og fortegn (en gainverdi kan være positiv eller negativ). Hvert par angir en puls som skal innlemmes i eksitasjonssignalet, idet indeksen angir pulsens posisjon og fortegnet angir pulsens polaritet. Antallet pulser som innlemmes i pulskodeboken og anvendes som bidrag til eksitasjonssignalet kan variere avhengig av kodingsmodus. I tillegg kan antallet pulser avhenge av om det anvendes en adaptiv kodebok eller ikke.

Dersom pulskodeboken anvendes, optimeres pulskodebok-parametrene

(555) for å minimere feilen mellom bidraget fra de angitte pulsene og et målsignal. Dersom det ikke anvendes en adaptiv kodebok, er målsignalet det vektede opprinnelige signalet. Dersom det anvendes en adaptiv kodebok, er målsignalet forskjellen mellom det vektede opprinnelige signalet pluss bidraget fra den adaptive kodeboken og det vektede syntetiserte signalet. På et eller annet tidspunkt (ikke vist) blir da pulskodebok-parametrene signalert i bitstrømmen.

Eksitasjonsparametriseringskomponenten (460) bestemmer også (565) hvorvidt det skal anvendes tilfeldige faste kodeboktrinn. Antallet (om noen) tilfeldige kodeboktrinn angis som del av en generell kodingsmodus for den gjeldende rammen, selv om det kan angis eller bestemmes på andre måter. En tilfeldig kodebok er en type fast kodebok som anvender en forhåndsdefinert signalmodell for verdiene den koder. Kodebokparametrene kan inkludere startpunktet for et angitt segment i signalmodellen og et fortegn, som kan være positivt eller negativt. Lengden eller omfanget til det angitte segmentet er typisk fast og blir derfor vanligvis ikke signalert, selv om kan lengden eller omfanget av det angitte segmentet alternativt kan bli signalert. En gainverdi blir multiplisert med verdiene i det angitte segmentet for å generere bidraget fra den tilfeldige kodeboken til eksitasjonssignalet.

Dersom det anvendes minst ett tilfeldig kodeboktrinn, blir parametrene for dette kodeboktrinnet optimert (570) for å minimere feilen mellom bidraget fra det tilfeldige kodeboktrinnet og et målsignal. Målsignalet er forskjellen mellom det vektede opprinnelige signalet og summen av bidragene til det vektede syntetiserte signalet fra den adaptive kodeboken (om noen), pulskodeboken (om noen) og de tidligere bestemte, tilfeldige kodeboktrinnene (om noen). På et eller annet tidspunkt (ikke vist) blir de tilfeldige kodebokparametrene signalert i bitstrømmen.

Komponenten (460) bestemmer da (580) om det skal anvendes flere tilfeldige kodeboktrinn. I så fall blir parametrene for det neste tilfeldige kodeboktrinnet optimert (570) og signalert som beskrevet over. Dette fortsetter inntil alle parametrene for de tilfeldige kodeboktrinnene er bestemt. Alle de tilfeldige kodeboktrinnene kan anvende samme signalmodell, selv om de gjerne vil angi forskjellige segmenter fra modellen og ha forskjellige gainverdier. Alternativt kan forskjellige signalmodeller anvendes for forskjellige tilfeldige kodeboktrinn.

Hver eksitasjonsgain kan bli kvantisert uavhengig eller to eller flere gainverdier kan bli kvantisert sammen, som bestemt av hastighetsstyringsenheten og/eller andre komponenter.

Selv om en bestemt rekkefølge er angitt her for å optimere de forskjellige kodebokparametrene kan andre rekkefølger og optimeringsmetoder anvendes. Selv om figur 5 viser sekvensiell beregning av forskjellige kodebokparametre kan således alternativt to eller flere forskjellige kodebokparametre bli optimert sammen (f.eks. ved å variere parametrene sammen og evaluere resultater i henhold til en ikke-lineær optimeringsmetode). I tillegg kan andre utførelser av kodebøker eller andre eksitasjonssignalparametre anvendes.

Eksitasjonssignalet i denne utførelsen er summen av alle bidrag fra den adaptive kodeboken, pulskodeboken og det eller de tilfeldige kodeboktrinnene. Alternativt kan komponenten (460) beregne andre og/eller ytterligere parametre for eksitasjonssignalet.

Med henvisning til figur 4 blir kodebokparametre for eksitasjonssignalet signalert eller på annen måte forsynt til en lokal dekoder (465) (omgitt av stiplede linjer i figur 4) og til båndutmatingen (492). For hvert bånd inkluderer således kode-rens utmating (492) utmatingen fra LPC-behandlingskomponenten (435) beskrevet over, så vel som utmatingen fra eksitasjonsparametriseringskomponenten (460).

Bitraten til utmatingen (492) avhenger delvis av parametrene som anvendes av kodebøkene, og koderen (400) kan styre bitraten og/eller kvaliteten ved å veksle mellom forskjellige sett av kodebokindekser, ved anvendelse av innlagte koder eller på andre måter. Forskjellige kombinasjoner av kodeboktyper og -trinn kan gi forskjellige innkodingsmodi for forskjellige rammer, bånd og/eller subrammen For eksempel kan en ustemt ramme kun anvende ett tilfeldig kodeboktrinn. En adaptiv kodebok og en pulskodebok kan anvendes for en stemt ramme med lav bitrate. En ramme med høy bitrate kan bli innkodet ved anvendelse av en adaptiv kodebok, en pulskodebok og ett eller flere tilfeldige kodeboktrinn. Innenfor en ramme kan kombinasjonen av alle innkodingsmodusene for alle subbåndene sammen kalles et modussett. Det kan finnes flere forhåndsdefinerte modussett for hver samplingsrate, idet forskjellige modi svarer til forskjellige kodingsbitrater. Hastighetsstyringsmodulen kan bestemme eller påvirke modussettet for hver ramme.

Området av mulige bitrater kan være nokså stort for de beskrevne utførels-ene, og kan gi betydelige forbedringer i den resulterende kvaliteten. I standard kodere kan også antallet bit som anvendes for en pulskodebok varieres, men for mange bit kan føre til pulser som står altfor tett. Tilsvarende, når det kun anvendes én enkelt kodebok, kan det å legge til flere bit muliggjøre bruk av en større signalmodell. Imidlertid kan dette i betydelig grad øke kompleksiteten i søk etter opti-male segmenter i modellen. I motsetning kan ytterligere typer kodebøker og ytterligere tilfeldige kodeboktrinn legges til uten i betydelig grad å øke kompleksiteten i de individuelle kodeboksøkene (sammenliknet med å søke i én enkelt, kombinert kodebok). Videre vil flere tilfeldige kodeboktrinn og flere typer faste kodebøker muligjøre flere gainfaktorer, noe som gir mer fleksibilitet for matching av bølge-former.

Fortsatt med henvisning til figur 4 blir utmatingen fra eksitasjonsparametriseringskomponenten (460) mottatt av kodebok-rekonstruksjonskomponentene (470, 472, 474, 476) og gainanvendelseskomponentene (480, 482, 484, 486) svarende til kodebøkene som anvendes av parametriseringskomponenten (460). Kodeboktrinnene (470, 472, 474, 476) og de motsvarende gainanvendelseskomponentene (480, 482, 484, 486) rekonstruerer bidragene fra kodebøkene. Disse bidragene summeres for å generere et eksitasjonssignal (490) som mottas av syntesefilteret (440), der de anvendes sammen med de "predikerte" samplene som etterfølgende lineærprediksjon baseres på. Forsinkede deler av eksitasjonssignalet anvendes også brukt som et eksitasjonshistoriesignal av adaptiv kodebok-rekonstruksjonskomponenten (470) for å rekonstruere etterfølgende adaptive kodebokparametre (f.eks. pitchbidrag), og av parametriseringskomponenten (460) for beregning av etterfølgende adaptive kodebokparametre (f.eks. pitchindeks og pitchgainverdier).

Med henvisning tilbake til figur 2 mottas båndutmatingen for hvert bånd av MUX (236), sammen med andre parametere. Slike andre parametre kan blant annet inkludere rammeklasseinformasjon (222) fra rammeklassifikatoren (214) og rammeinnkodingsmodi. MUX (236) genererer applikasjonslag-pakker for utsending til annen programvare, eller MUX (236) legger inn data i nyttedataene i pakker som følger en protokoll så som RTP. Multiplekseren kan bufre parametere for å muliggjøre selektiv gjentagelse av parametrene for tidlig feilkorrigering i senere pakker. I én utførelse pakker MUX (236) inn den primære innkodede taleinformasjonen for én ramme i én enkelt pakke, sammen med informasjon for tidlig feilkorrigering for hele eller deler av én eller flere foregående rammer.

MUX (236) gir tilbakemelding så som gjeldende bufferfyllingsgrad for hastighetsstyringsformål. Mer generelt kan forskjellige komponenter i koderen

(230) (inkluderende rammeklassifikatoren (214) og MUX (236)) forsyne informasjon til en hastighetsstyringsenhet (220) så som den vist i figur 2.

Bitstrøm-demultiplekseren (276) i figur 2 tar innkodet taleinformasjon som innmating og analyserer den for å identifisere og behandle parametre. Parametrene kan inkludere rammeklasse, en representasjon av LPC-verdier og kodebokparametre. Rammeklassen kan angi hvilke andre parametre som finnes for en gitt ramme. Mer generelt anvender DEMUX (276) protokollene som benyttes av koderen (230) og trekker ut parametrene som koderen (230) legger inn i datapakker. For datapakker som mottas over et dynamisk pakkesvitsjet nettverk inkluderer DEMUX (276) inkluderer et jitterbuffer for å glatte ut kortvarige fluktuasjoner i pakkehastigheten over en gitt tidperiode. I noen tilfeller regulerer dekoderen (270) bufferforsinkelse og styrer når pakker blir lest ut fra bufferet for å integrere forsinkelse, kvalitetsstyring, feilskjuling for manglende rammer, etc. i dekodingen. I andre tilfeller styrer en applikasjonslag-komponent jitterbufferet, og jitterbufferet fylles med variabel hastighet og tømmes av dekoderen (270) med konstant eller forholdsvis konstant hastighet.

DEMUX (276) kan motta flere versjoner av parametre for et gitt segment, inkluderende en primær innkodet versjon og én eller flere sekundære feilkorriger-ingsversjoner. Når feilkorrigeren mislykkes, anvender dekoderen (270) feilskjulingsmetoder så som gjentagelse eller estimering av parametre basert på informasjon som er korrekt mottatt.

Figur 6 er et blokkdiagram som illustrerer en generalisert sanntids talebånddekoder (600) som én eller flere beskrevne utførelsesformer kan realiseres sammen med. Bånddekoderen (600) svarer generelt til hvilken som helst av båndde-kodingskomponentene (272, 274) i figur 2.

Bånddekoderen (600) tar innkodet taleinformasjon (692) for et bånd (som kan være hele båndet, eller ett av flere subbånd) som innmating og genererer en rekonstruert utmating (602) etter dekoding. Komponentene i dekoderen (600) har motsvarende komponenter i koderen (400), men dekoderen (600) er totalt sett enklere siden den ikke har komponenter for perseptuell vekting, eksitasjonsbe-handlingssløyfen og hastighetsstyringen.

LPC-behandlingskomponenten (635) mottar informasjon som representerer LPC-verdier på formen tilveiebragt av båndkoderen (400) (samt eventuelle kvanti-seringsparametere og annen informasjon nødvendig for rekonstruksjon). LPC-behandlingskomponenten (635) rekonstruerer LPC-verdiene (638) ved anvendelse av de inverse av omformingen, kvantiseringen, kodingen, etc. som er anvendt på LPC-verdiene. LPC-behandlingskomponenten (635) kan også utføre interpolasjon av LPC-verdier (i LPC-representasjon eller en annen representasjon så som LSP) for å glatte overgangene mellom forskjellige sett av LPC-koeffisienter.

Kodeboktrinnene (670, 672, 674, 676) og gainanvendelseskomponentene (680, 682, 684, 686) dekoder parametrene for de motsvarende kodeboktrinnene anvendt for eksitasjonssignalet og beregner bidraget fra hvert kodeboktrinn som er anvendt. Mer generelt svarer konfigurasjonen og operasjonene i kodeboktrinnene (670, 672, 674, 676) og gainkomponentene (680, 682, 684, 686) til konfigurasjonen og operasjonene i kodeboktrinnene (470, 472, 474, 476) og gainkomponentene (480, 482, 484, 486) i koderen (400). Bidragene fra de anvendte kodeboktrinnene blir summert, og det resulterende eksitasjonssignalet (690) mates inn til syntesefilteret (640). Forsinkede verdier av eksitasjonssignalet (690) blir også brukt som eksitasjonshistorie av den adaptive kodeboken (670) ved beregning av bidraget fra den adaptive kodeboken for etterfølgende deler av eksitasjonssignalet.

Syntesefilteret (640) mottar rekonstruerte LPC-verdier (638) og innlemmer dem i filteret. Syntesefilteret (640) lagrer tidligere rekonstruerte sampler for behandling. Eksitasjonssignalet (690) sendes gjennom syntesefilteret for å frembringe en tilnærming av det opprinnelige talesignalet. Med henvisning tilbake til figur 2, som beskrevet over, dersom det er flere subbånd, blir utmatingen for hvert subbånd syntetisert i filterbankene (280) for å generere taleutmatingen (292).

Relasjonene vist i figurene 2-6 angir generell informasjonsflyt; andre relasjoner er for ikke vist for å forenkle bildet. Avhengig av utførelsen og typen komprimering som ønskes kan komponenter legges til, fjernes, deles inn i flere komponenter, kombineres med andre komponenter og/eller erstattes med tilsvarende komponenter. I miljøet (200) vist i figur 2 kan for eksempel hastighetsstyringsenheten (220) kombineres med talekoderen (230). Eventuelle tillagte komponenter inkluderer en multimedia-innkodingsapplikasjon (eller -avspillingsapplikasjon) som styrer talekoderen (eller dekoderen) så vel som andre kodere (eller dekodere) og innhenter informasjon om nettverket og dekoderens tilstand, og som utfører adaptive feilkorrigeringsfunksjoner. I alternative utførelses-former behandler forskjellige kombinasjoner og utførelser av komponenter taleinformasjon ved anvendelse av fremgangsmåtene beskrevet her.

III. Redundante kodingsmetoder

Én mulig bruk av talekodeker er i voice-over-IP-nettverk eller andre pakke-svitsjede nettverk. Slike nettverk har forskjellige fordeler fremfor de eksisterende kretsswitsjede infrastrukturene. I voice-over-IP-nettverk blir imidlertid pakker ofte forsinket eller droppet som følge av nettoverbelastning.

Mange standard talekodeker har stor avhengighet mellom rammer. For disse kodekene kan således en tapt ramme medføre betydelig forringet talekvalitet for mange etterfølgende rammer.

I andre kodeker kan hver ramme bli dekodet uavhengig. Slike kodeker er robuste med hensyn til pakketap. Imidlertid reduseres kodingseffektiviteten med hensyn til kvalitet og bitrate betydelig som følge av at avhengighet mellom rammer ikke tillates. Følgelig krever slike kodeker typisk høyere bitrater for å oppnå en talekvalitet tilsvarende tradisjonelle CELP-kodere.

I noen utførelsesformer kan de redundante kodingsmetodene beskrevet nedenfor bidra til å oppnå en god ytelse i forhold til gjenopprettelse etter tapte pakker uten å øke bitraten vesentlig. Metodene kan anvendes sammen innenfor én enkelt kodek, eller de kan anvendes hver for seg.

I koderutførelsen beskrevet over i forbindelse med figurene 2 og 4 er informasjonen fra adaptive kodebøker typisk hovedkilden til avhengighet av andre rammer. Som beskrevet over angir adaptiv-kodebokindeksen posisjonen til et segment i eksitasjonssignalet i historiebufferet. Segmentet av det tidligere eksitasjonssignalet blir skalert (i henhold til en gainverdi) til å bli den adaptive kodebokens bidrag til eksitasjonssignaler for den gjeldende rammen (eller subrammen). Dersom en foregående pakke som inneholder informasjon som anvendes for å rekonstruere det innkodede foregående eksitasjonssignalet tapes, er latensinfor-masjonen for den gjeldende rammen (eller subrammen) ubrukelig siden den peker til ikke-eksisterende historieinformasjon. Fordi latensinformasjon er følsom, fører dette vanligvis til en langvarig forringelse av den resulterende taleutmatingen som ikke dør ut før etter at mange pakker er dekodet.

De følgende metoder er innrettet for å fjerne, i hvert fall til en viss grad, avhengigheten til det gjeldende eksitasjonssignalet av rekonstruert informasjon fra foregående rammer som er utilgjengelige fordi de er forsinket eller tapt.

En koder så som koderen (230) beskrevet over i forbindelse med figur 2 kan veksle mellom følgende kodingsmetoder for hver ramme eller i henhold til en annen oppdeling. En tilhørende dekoder, så som dekoderen (270) beskrevet over i forbindelse med figur 2, veksler tilsvarende analyse-/dekodingsmetoder for hver ramme eller i henhold til en annen oppdeling. Alternativt kan andre kodere, dekodere eller lydbehandlingsverktøy utføre én eller flere av følgende metoder.

A. Primær ominnkoding/ dekoding av adaptiv kodebokhistorie

I primær ominnkoding/dekoding av adaptiv kodebokhistorie anvendes ikke eksitasjonshistoriebufferet for å dekode eksitasjonssignalet i den gjeldende rammen selv om eksitasjonshistoriebufferet er tilgjengelig ved dekoderen (foregående rammes pakke mottatt, foregående ramme dekodet, etc). I stedet blir ved koderen tonehøydeinformasjonen analysert for den gjeldende rammen for å bestemme hvor mye av eksitasjonshistorien som er nødvendig. Den nødvendige delen av eksitasjonshistorien blir innkodet på nytt og sendt sammen med den kodede informasjonen (f.eks. filterparametere, kodebokindekser og gainverdier) for den gjeldende rammen. Den adaptive kodebokens bidrag til den gjeldende rammen refererer til det om innkodede eksitasjonssignalet som er sendt med den gjeldende rammen. Følgelig er den relevante eksitasjonshistorien garantert å være tilgjenge lig for dekoderen for hver ramme. Denne redundante kodingen er ikke nødvendig dersom den gjeldende rammen ikke anvender en adaptiv kodebok, for eksempel en ustemt ramme.

Ominnkodingen av den delen av eksitasjonshistorien det er referert til kan gjøres sammen med kodingen av den gjeldende rammen, og den kan gjøres på samme måte som kodingen av eksitasjonssignalet for en gjeldende ramme, som er beskrevet over.

I noen utførelser gjøres innkodingen av eksitasjonssignalet subramme for subramme, og segmentet av det om innkodede eksitasjonssignalet strekker seg fra begynnelsen av den gjeldende rammen som inkluderer den aktuelle subrammen tilbake til subrammegrensen etter den ytterste adaptiv kodebok-avhengigheten for den gjeldende rammen. Det ominnkodede eksitasjonssignalet er følgelig tilgjengelig for referanse med tonehøydeinformasjon forflere subrammer i rammen. Alternativt kan innkoding av eksitasjonssignalet gjøres på annen måte, f.eks. ramme for ramme.

Figur 7 illustrerer et eksempel som viser en eksitasjonshistorie (710). Ram-megrenser (720) og subrammegrenser (730) er vist henholdsvis med større og mindre stiplede linjer. Subrammer i en gjeldende ramme (740) innkodes ved anvendelse av en adaptiv kodebok. Det ytterste avhengighetspunktet for enhver adaptiv kodeboks latensindeks for en subramme i den gjeldende rammen er vist med en linje (750). Følgelig strekker den ominnkodede historien (760) seg fra begynnelsen av den gjeldende rammen og bakover til den neste subrammegrensen etter dette ytterste punktet (750). Det ytterste avhengighetspunktet kan esti-meres ved hjelp resultatene av åpen sløyfe-pitchsøket (425) beskrevet over. Fordi dette søket ikke er eksakt er det imidlertid mulig at den adaptive kodeboken vil avhenge av en del av eksitasjonssignalet som ligger utenfor det estimerte ytterste punktet dersom ikke senere pitchsøk begrenses. Følgelig kan den ominnkodede historien inkludere ytterligere sampler utenfor det estimerte ytterste avhengighetspunktet for å gi ytterligere plass for å finne overensstemmende tonehøydeinforma-sjon. I én utførelse inkluderes minst ti ytterligere sampler utover det estimerte ytterste avhengighetspunktet i historien som ominnkodes. Selvfølgelig kan flere enn ti sampler innlemmes for å øke sannsynligheten for at den ominnkodede historien går langt nok til at den inkluderer tonehøydesykluser som sammenfaller med de i den gjeldende subrammen.

Alternativt kan bare det eller de segmentene i det foregående eksitasjonssignalet som faktisk refereres til i subrammen(e) i den gjeldende rammen bli ominnkodet. For eksempel kan et segment i det foregående eksitasjonssignalet av passende varighet bli om innkodet for bruk ved dekoding av ett enkelt gjeldende segment av denne varigheten.

Primær ominnkoding/dekoding av adaptiv kodebokhistorie fjerner avhengigheten av eksitasjonshistorien i foregående rammer. Samtidig muliggjør det bruk av adaptive kodebøker og krever ikke ominnkoding av én eller flere hele foregående rammer (eller ikke en gang hele eksitasjonshistorien i den eller de foregående rammene). Imidlertid er bitraten nødvendig for ominnkoding av adaptiv kodebok-hukommelsen nokså høy sammenliknet med metodene beskrevet nedenfor, spesielt når den ominnkodede historien anvendes for primær innkoding/dekoding med samme kvalitetsnivå som innkoding/dekoding med avhengighet mellom rammer.

Som et resutat av primær ominnkoding/dekoding av adaptiv kodebokhistorie kan det ominnkodede eksitasjonssignalet anvendes for å gjenopprette i hvert fall deler av eksitasjonssignalet for en tapt foregående ramme. For eksempel kan det ominnkodede eksitasjonssignalet bli rekonstruert under dekoding av sub-rammene i en gjeldende ramme, og det ominnkodede eksitasjonssignalet matet inn til et LPC-syntesefilter konstruert ved anvendelse av faktiske eller estimerte filterkoeffisienter.

Det resulterende rekonstruerte utsignalet kan anvendes som del av den foregående rammeutmatingen. Denne metoden kan også lette estimering av en innledende tilstand for syntesefilterhukommelsen for den gjeldende rammen. Ved anvendelse av den ominnkodede eksitasjonshistorien og den estimerte syntesefilterhukommelsen blir utmatingen av den gjeldende rammen generert på samme måte som ved ordinær koding.

B. Sekundær ominnkoding/ dekoding av adaptiv kodebokhistorie

Ved sekundær ominnkoding/dekoding av adaptiv kodebokhistorie endres ikke primære innkodingen av den adaptive kodeboken for den gjeldende rammen. Tilsvarende endres ikke den primære dekodingen av den gjeldende rammen; den anvender den foregående rammens eksitasjonshistorie dersom den foregående rammen er mottatt.

For bruk dersom den foregående eksitasjonshistorien ikke er rekonstruert blir eksitasjonshistoriebufferet ominnkodet på hovedsaklig samme måte som metoden med primær ominnkoding/dekoding av adaptiv kodebokhistorie beskrevet over. Sammenliknet med den primære ominnkodingen/dekodingen anvendes imidlertid færre bit for ominnkoding fordi talekvaliteten ikke påvirkes av det ominnkodede signalet når ingen pakker er tapt. Antallet bit som anvendes for å ominnkode eksitasjonshistorien kan reduseres ved å endre forskjellige parametere, for eksempel ved å anvende færre faste kodeboktrinn eller ved å anvende færre pulser i pulskodeboken.

Når den foregående rammen er tapt, anvendes den ominnkodede eksitasjonshistorien i dekoderen for å generere eksitasjonssignalet for den gjeldende rammen. Den ominnkodede eksitasjonshistorien kan også anvendes for å gjenopprette i hvert fall deler av eksitasjonssignalet for en foregående tapt ramme, som i metoden med primær ominnkoding/dekoding av adaptiv kodebokhistorie.

Det resulterende rekonstruerte utsignalet kan også anvendes som del av den foregående rammeutmatingen. Denne metoden kan også lette estimering av en innledende tilstand for syntesefilterhukommelsen for den gjeldende rammen. Ved anvendelse av den ominnkodede eksitasjonshistorien og den estimerte syntesefilterhukommelsen genereres utmatingen av den gjeldende rammen på samme måte som ved ordinær koding.

C. Ekstra kodeboktrinn

Som i metoden med sekundær ominnkoding/dekoding av adaptiv kodebokhistorie er i metoden med et ekstra kodeboktrinn hoved-eksitasjonssignalkodingen den samme som ved den ordinære kodingen beskrevet over i forbindelse med figurene 2-5. I tillegg blir det også bestemt parametere for et ekstra kodeboktrinn.

I denne kodingsmetoden, som er illustrert i figur 8, antas det (810) at det foregående eksitasjonshistoriebufferet inneholder kun nuller ved begynnelsen av den gjeldende rammen, og derfor at det ikke er noen bidrag fra det foregående eksitasjonshistoriebufferet. I tillegg til den innkodede hovedinformasjonen for den gjeldende rammen, anvendes ett eller flere ekstra kodeboktrinn for hver subramme eller et annet segment som anvender en adaptiv kodebok. For eksempel kan det ekstra kodeboktrinnet anvende en tilfeldig fast kodebok så som de beskrevet i forbindelse med figur 4.

I denne metoden blir en gjeldende ramme innkodet normalt for å generere innkodet hovedinformasjon (som kan inkludere parametere for hoved-kokeboktrinnene) som skal anvendes av dekoderen dersom den foregående rammen er tilgjengelig. Ved kodersiden bestemmes redundante parametre for ett eller flere ekstra kodeboktrinn i den lukkede sløyfen, igjen antatt ingen eksitasjonsinformasjon fra den foregående rammen. I en første utførelse gjøres bestemmelsen uten bruk av noen som helst av hoved-kodebokhovedparametrene. Alternativt kan i en andre utførelse bestemmelsen anvende i hvert fall noen av hoved-kodebokparametrene for den gjeldende rammen. Disse parametrene kan anvendes sammen med den eller de ekstra kodeboktrinnenes parametre for å dekode den gjeldende rammen dersom den foregående rammen mangler, som beskrevet nedenfor. I alminnelighet kan denne andre utførelsen oppnå tilsvarende kvalitet som den første utførelsen med bruk av færre bit for det eller de ekstra kodeboktrinnene.

Med henvisning til figur 8 blir gainverdien fra det ekstra kodeboktrinnet og gainverdien fra den siste eksisterende pulskodeboken eller tilfeldige kodeboken optimert sammen i et lukket sløyfe-søk på kodersiden for å minimere kodings-feilen. De fleste parametrene som genereres ved ordinær innkoding tas vare på og anvendes i denne optimeringen. I optimeringsprosessen blir det bestemt (820) om det er anvendt tilfeldige kodeboktrinn eller pulskodeboktrinn under ordinær koding. I så fall blir en justert gainverdi for det siste eksisterende tilfeldige kodeboktrinnet eller pulskodeboktrinnet (så som tilfeldig kodeboktrinn n i figur 4) optimert (830) for å minimere feilen mellom bidraget fra dette kodeboktrinnet og et målsignal. Målsignalet for denne optimeringen er forskjellen mellom restsignalet og summen av bidragene fra eventuelle foregående tilfeldige kodeboktrinn (dvs. alle de foregående kodeboktrinn, men bidraget fra adaptive kodebøker fra segmenter i foregående rammer settes til null).

Indeks- og gainparametrene i det ekstra, tilfeldige kodeboktrinnet blir tilsvarende optimert (840) for å minimere feilen mellom bidraget fra denne kodeboken og et målsignal. Målsignalet for det ekstra, tilfeldige kodeboktrinnet er forskjellen mellom restsignalet og summen av bidragene fra den adaptive kodeboken, pulskode boken (om noen) og eventuelle ordinære, tilfeldige kodebøker (idet den siste eksisterende ordinære, tilfeldige kodeboken eller pulskodeboken har den justerte gainverdien). Den justerte gainverdien i den siste eksisterende ordinære, tilfeldige kodeboken eller pulskodeboken og gainverdien til det ekstra, tilfeldige kodeboktrinnet kan optimeres hver for seg eller sammen.

Når den er i ordinær dekodingsmodus, anvender ikke dekoderen det ekstra, tilfeldige kodeboktrinnet, og dekoder et signal i henhold til beskrivelsen over (for eksempel som i figur 6).

Figur 9A illustrerer en subbånddekoder som kan anvende et ekstra kodeboktrinn når en adaptiv kodebokindeks peker til et segment i en foregående ramme som er tapt. Rammeverket er hovedsaklig det samme som dekodings-rammeverket beskrevet over og illustrert i figur 6, og funksjonene til mange av komponentene og signalene i subbånddekoderen (900) i figur 9 er de samme som tilsvarende komponenter og signaler i figur 6. For eksempel mottas den innkodede subbåndinformasjonen (992), og LPC-behandlingskomponenten (935) rekonstruerer lineærprediksjonskoeffisientene (938) ved anvendelse av denne informasjonen og mater koeffisientene til syntesefilteret (940). Når den foregående rammen mangler, vil imidlertid en nullstillingskomponent (996) instruere en nullhistorie-komponent (994) til å sette eksitasjonshistorien til null for den manglende rammen og mate denne historien til den adaptive kodeboken (970). Gainverdien (980) anvendes på bidraget fra den adaptive kodeboken. Den adaptive kodeboken (970) har følgelig null bidrag når dens indeks peker til historiebufferet for den manglende rammen, men kan ha bidrag som er forskjellig fra null når dens indeks peker til et segment innenfor den gjeldende rammen. De faste kodeboktrinnene (972, 974, 976) anvender sine ordinære indekser mottatt med subbåndinformasjonen (992). Tilsvarende anvender de faste kodebøkenes gainkomponenter (982, 984), bortsett fra den siste ordinære kodebokens gainkomponent (986), sine ordinære gainverdier for å generere sine respektive bidrag til eksitasjonssignalet (990).

Dersom et ekstra, tilfeldig kodeboktrinn (988) er tilgjengelig og den foregående rammen mangler, instruerer nullstillingskomponenten (996) en velger (998) til å sende bidraget fra det siste ordinære kodeboktrinnet (976) med en justert gainverdi (987) som skal summeres med de andre kodebøkenes bidrag, heller enn å sende bidraget fra det siste ordinære kodeboktrinnet (976) med den ordinære gainverdien (986) som skal summeres. Den justerte gainverdien er optimert for tilfellet der eksitasjonshistorien er satt til null for den foregående rammen. Videre anvender det ekstra kodeboktrinnet (978) sin indeks for å angi i den tilhørende kodeboken et segment i den tilfeldige kodebokens modellsignal, og den tilfeldige kodebokens gainkomponent (988) anvender gainverdien for det ekstra, tilfeldige kodeboktrinnet på dette segmentet. Velgeren (998) sender det resulterende bidraget fra det ekstra kodeboktrinnet for summering med bidragene fra de tidligere kodeboktrinnene (970, 972, 974, 976) for å generere eksitasjonssignalet (990). Følgelig anvendes den redundante informasjonen for det ekstra, tilfeldige kodeboktrinnet (så som ekstratrinnets indeks og gainverdi) og den justerte gainverdien i det siste tilfeldige hoved-kodeboktrinnet (anvendt i stedet for den ordinære gainverdien for det siste tilfeldige hovedkodeboktrinnet) for rask tilbakesetting av den gjeldende rammen til en kjent status. Alternativt kan den ordinære gainverdien anvendes for det siste tilfeldige hovedkodeboktrinnet og/eller andre parametere anvendes for å signalisere et ekstra, tilfeldig kodeboktrinn.

Metoden med et ekstra kodeboktrinn krever så få bit at den økte bitraten som er nødvendig typisk er ubetydelig. På den annen side kan den i betydelig grad redusere kvalitetsforringelsen som følge av rammetap når det er avhengigheter mellom rammer.

Figur 9B illustrerer en subbånddekoder tilsvarende den illustrert i figur 9A, men uten ordinære tilfeldige kodeboktrinn. I denne utførelsen blir følgelig den justerte gainverdien (987) optimert for pulskodeboken (972) når resthistorien for en foregående manglende ramme er satt til null. Når en ramme mangler, blir således bidragene fra den adaptive kodeboken (970) (med resthistorien for den foregående manglende rammen satt til null), pulskodeboken (972) (med den justerte gainverdien) og det ekstra, tilfeldige kodeboktrinnet (978) summert for å generere eksitasjonssignalet (990).

En ekstra kodeboktrinn som er optimert for tilfellet der resthistorien for en manglende ramme er satt til null kan anvendes med mange forskjellige utførelser og kombinasjoner av kodebøker og/eller andre representasjoner av restsignaler.

D. Avveininger mellom redundante kodingsmetoder

Hver av de tre redundante kodingsmetodene beskrevet over kan ha fordeler og ulemper, sammenliknet med de andre. Tabell 3 viser noen generaliserte konklusjoner når det gjelder hva som antas å være noen av avveiningene mellom disse tre redundante kodingsmetodene. Med ekstra bitratekrav menes antallet ekstra bit som kreves for å anvende metoden. Antatt at samme bitrate anvendes som ved ordinær innkoding/dekoding svarer for eksempel høyere bitratekrav generelt til lavere kvalitet under ordinær dekoding fordi flere bit anvendes for redundant koding, slik at færre bit kan anvendes for den ordinære innkodede informasjonen. Med effektiviteten av å redusere hukommelsesavhengighet menes effektiviteten til metoden i å bedre kvaliteten til den resulterende taleutmatingen når én eller flere foregående rammer er tapt. Med nyttigheten i gjenoppretting av én eller flere foregående rammer menes muligheten til å anvende den innkodede redundante informasjonen for å gjenopprette den ene eller de flere foregående rammene når den eller de foregående rammene er tapt. Konklusjonene i tabellen er generalisert, og gjelder ikke nødvendigvis spesifikke utførelser.

Koderen kan velge et hvilket som helst av de redundante kodingsskjema-ene for en hvilken som helst ramme dynamisk under innkoding. Redundant koding trenger ikke bli anvendt i det hele tatt for noen klasser av rammer (kan f.eks. bli anvendt for stemte rammer og ikke bli anvendt for lydløse eller ustemte rammer), og dersom redundant koding anvendes kan den bli anvendt på hver ramme, periodisk, for eksempel hver tiende ramme, eller på annen måte. Dette kan styres av en komponent så som hastighetsstyringskomponenten i henhold til faktorer så som avveiningene over, den tilgjengelige kanalbåndbredden og tilbakemelding fra dekoderen om pakketapsstatus.

E. Bitstrømformat for redundant koding

Den innkodede redundante informasjonen kan bli sendt i en rekke forskjellige formater i en bitstrøm. Det følgende er en utførelse av et format for å sende den innkodede redundante informasjonen beskrevet over og angi dens tilstedeværelse til en dekoder. I denne utførelsen innledes hver ramme i bitstrømmen med et to-bits felt kalt rammetype. Rammetypen anvendes for å identifisere redundant kodingsmodus for bit-feltene som følger, og den kan også anvendes for andre formål i forbindelse med innkoding og dekoding. Tabell 4 lister betydningen til rammetypefeltet.

Figur 10 viser fire forskjellige kombinasjoner av disse kodene i bitstrøm-rammeformatet som signaliserer at en ramme er en ordinær ramme og/eller de respektive typer av redundant koding. For en ordinær ramme (1010) som inneholder innkodet hovedinformasjon for rammen uten kodede redundante bit, etter-følges en bytegrense (1015) i begynnelsen av rammen av rammetypekoden 00. Rammetypekoden etterfølges av den innkodede hovedinformasjonen for en ordinær ramme.

For en ramme (1020) som inneholder primær redundant innkodet adaptiv kodebokhistorieinformasjon, etterfølges en bytegrense (1025) i begynnelsen av rammen av rammetypekoden 10, som angir tilstedeværelse av primær adaptiv kodebokhistorieinformasjon for rammen. Rammetypekoden etterfølges av en kodeenhet for en ramme med innkodet hovedinformasjon og adaptiv kodebokhistorieinformasjon.

Når sekundær redundant innkodet historieinformasjon er innlemmet i en ramme (1030), etterfølges bytegrensen (1035) i begynnelsen av rammen av en kodeenhet inkluderende en rammetypekode 00 (koden for en ordinær ramme) etterfulgt av innkodet hovedinformasjon for en ordinær ramme. Etter bytegrensen

(1045) i enden av den innkodede hovedinformasjonen inkluderer imidlertid en annen kodeenhet en rammetypekode 11 som angir at alternativ sekundær historieinformasjon (1040) (heller enn innkodet hovedinformasjon for en ramme) vil følge. Fordi den sekundære historieinformasjonen (1040) kun anvendes dersom den foregående rammen er tapt, kan en pakkettiseringsenhet eller en annen komponent bli gitt mulighet til å hoppe over informasjonen. Dette kan gjøres av forskjellige grunner, for eksempel når det totale bitratekravet må reduseres, pakketapsraten er lav eller den foregående rammen er inkludert i samme pakken som den gjeldende rammen. Alternativt kan en demultiplekser eller annen komponent bli gitt mulighet til å hoppe over den sekundære historieinformasjonen når den ordinære rammen (1030) er korrekt mottatt.

Tilsvarende, når innkodet redundant informasjon for et ekstra kodeboktrinn er innlemmet i en ramme (1050), etterfølges bytegrensen (1055) i begynnelsen av en kodeenhet av rammetypekoden 00 (koden for en ordinær ramme) etterfulgt av innkodet hovedinformasjon for en ordinær ramme. Etter bytegrensen (1065) i enden av den innkodede hovedinformasjonen følger imidlertid en annen kodeenhet som inkluderer rammetypekode 01 som angir alternativ at ekstra kodeboktrinninformasjon (1060) vil følge. Som med den sekundære historieinformasjonen anvendes ekstra kodeboktrinninformasjonen (1060) kun dersom den foregående rammen er tapt. Følgelig kan som for den sekundære historieinformasjonen en pakkettiseringsenhet eller en annen komponent bli gitt mulighet til å hoppe over den ekstra kodeboktrinninformasjonen, eller a demultiplekser eller annen komponent kan bli gitt mulighet til å hoppe over den ekstra kodeboktrinninformasjonen.

En applikasjon (f.eks. en applikasjon som tar seg av transportlag-pakettering) bestemme seg for å kombinere flere rammer for å danne en større pakke for å redusere antallet ekstra bitfelter nødvendig for pakkeheaderne. Innen for pakken kan applikasjonen bestemme rammegrensene ved å undersøke bit-strømmen. Figur 11 viser en mulig bitstrøm i én enkelt pakke (1100) med fire rammer (1110, 1120, 1130, 1140). Det kan antas at alle rammene innenfor den ene pakken vil bli mottatt om noen av dem mottas (dvs. ingen delvis datakorrumper-ing), og at latensen, eller pitchen, til den adaptive kodeboken typisk er mindre enn rammelengden. I dette eksempelet vil en eventuell alternativt innkodet redundant informasjon i ramme 2 (1120), ramme 3 (1130) og ramme 4 (1140) typisk bli anvendt fordi den foregående rammen alltid vil være tilgjengelig dersom den gjeldende rammen er mottatt. Følgelig kan den alternativt innkodede redundante informasjonen for alle utenom den første rammen i pakken (1100) fjernes. Dette resulterer i en kompakt pakke (1150) der ramme 1 (1160) inkluderer alternativ ekstra kodeboktrinninformasjon mens all alternativt innkodet redundant informasjon er fjernet fra de andre rammene (1170, 1180, 1190).

Dersom koderen anvender metoden med primær redundant historiekoding, vil ikke en applikasjon droppe eventuelle slike bit når den setter sammen rammer til i én enkelt pakke fordi den primære redundante historieinformasjonen anvendes uansett om den foregående rammen er tapt. Applikasjonen vil imidlertid kunne tvinge koderen til å kode en slik ramme som en ordinær ramme dersom den vet at rammen vil bli lagt inn i en multirammepakke og at den ikke vil være den første rammen i denne pakken.

Selv om figurene 10 og 11 og den tilhørende beskrivelsen viser byte-justerte grenser mellom rammer og informasjonstyper trenger ikke grensene være byte-justert. Videre viser figurene 10 og 11 og den tilhørende beskrivelsen eksempler på rammetypekoder og kombinasjoner av ramme typer. Alternativt kan en koder og dekoder anvende andre og/eller ytterligere rammetyper eller kombinasjoner av rammetyper.

Når nå oppfinnelsens prinsipper er beskrevet og illustrert med henvisning til beskrevne utførelsesformer vil det sees at de beskrevne utførelsesformene kan modifiseres i oppbygning og detalj uten å fjerne seg fra disse prinsippene. Det må forstås at programmene, prosessene eller metodene beskrevet her ikke er knyttet eller begrenset til noen som helst spesifikk type databehandlingsmiljø, dersom ikke annet er angitt. Forskjellige typer generelle eller spesialiserte databehandlings miljøer kan anvendes med eller utføre operasjoner i henhold til det som er beskrevet over. Elementer i de beskrevne utførelsesformer vist i programvare kan realiseres i maskinvare, og omvendt.

Claims

1. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm for et lydsignal, der bit-strømmen omfatter: innkodet hovedinformasjon for en gjeldende ramme som refererer til et segment i en foregående ramme som skal anvendes ved dekoding av den gjeldende rammen, og innkodet redundant informasjon for dekoding av den gjeldende rammen, der den innkodede redundante informasjonen omfatter signalhistorieinformasjon for segmentet det refereres til i den foregående rammen, og mate ut et resultat.

2. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en sanntids taleinnkoder og resultatet er innkodet tale.

3. Fremgangsmåte ifølge krav 1, der signalhistorieinformasjonen omfatter eksitasjonshistorie for segmentet det refereres til, men ikke eksitasjonshistorie for ett eller flere segmenter i den foregående rammen som det ikke refereres til.

4. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter bruk av den innkodede redundante informasjonen ved dekoding av den gjeldende rammen uansett om den foregående rammen er tilgjengelig for dekoderen eller ikke.

5. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter bruk av den innkodede redundante informasjonen ved dekoding av den gjeldende rammen bare dersom den foregående rammen ikke er tilgjengelig for dekoderen.

6. Fremgangsmåte ifølge krav 1, der signalhistorieinformasjonen kodes med et kvalitetsnivå som velges i hvert fall delvis avhengig av sannsynligheten for behov for den innkodede redundante informasjonen ved dekoding av den gjeldende rammen.

7. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter det å anvende den innkodede redundante informasjonen for å dekode den foregående rammen når den foregående rammen er utilgjengelig for dekoderen.

8. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm for et lydsignal, der bitstrømmen omfatter: innkodet hovedinformasjon for en gjeldende kodeenhet som refererer til et segment i en foregående kodeenhet som skal anvendes ved dekoding den gjeldende kodeenheten, og innkodet redundant informasjon for dekoding av den gjeldende kodeenheten, der den kodede redundante informasjonen omfatter én eller flere parametere for ett eller flere ekstra kodeboktrinn som skal anvendes ved dekoding av den gjeldende kodeenheten bare dersom den foregående kodeenheten ikke er tilgjengelig, og mate ut et resultat.

9. Fremgangsmåte ifølge krav 8, der den innkodede hovedinformasjonen for den gjeldende kodeenheten omfatter restsignalparametre som representerer én eller flere forskjeller mellom en rekonstruksjon av den gjeldende kodeenheten og en prediksjon av den gjeldende kodeenheten.

10. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en lydinnkoder, og behandling av bitstrømmen omfatter det å generere den alternativt innkodede redundante informasjonen, der det å generere den alternativt innkodede redundante informasjonen omfatter det å bestemme den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene i et lukket sløyfe-innkodersøk som antar ingen eksitasjonsinformasjon for den foregående kodeenheten.

11. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en taledekoder, dersom den foregående kodeenheten ikke er tilgjengelig for dekoderen, den ene eller de flere parametrene for kodeboken anvendes av dekoderen ved dekoding av den gjeldende kodeenheten, og dersom den foregående kodeenheten er tilgjengelig for dekoderen, den ene eller de flere parametrene for kodeboken ikke anvendes av dekoderen ved dekoding av den gjeldende kodeenheten.

12. Fremgangsmåte ifølge krav 8, der kodeboken er en fast kodebok i et fast kodeboktrinn som etterfølger et adaptivt kodeboktrinn, og der den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene omfatter en kodebokindeks og en gainverdi.

13. Fremgangsmåte ifølge krav 12, der én eller flere parametre for en adaptiv kodebok i det adaptive kodeboktrinnet representerer et eksitasjonssignal for den gjeldende kodeenheten med referanse til eksitasjonshistorien for den foregående kodeenheten, men der den ene eller de flere parametrene for den faste kodeboken representerer eksitasjonssignalet uten referanse til eksitasjonshistorien.

14. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en lyddekoder, og behandling av bitstrømmen omfatter: dersom den foregående kodeenheten ikke er tilgjengelig, anvende i hvert fall noe av den innkodede hovedinformasjonen og den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene ved dekoding av den gjeldende kodeenheten, og dersom den foregående kodeenheten er tilgjengelig, anvende den innkodede hovedinformasjonen, men ikke den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene, ved dekoding av den gjeldende kodeenheten.

15. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm omfattende flere lydkodeenheter, der hver kodeenhet av de flere kodeenhetene omfatter et felt som angir: hvorvidt kodeenheten omfatter innkodet hovedinformasjon som representerer et segment i lydsignalet, og hvorvidt kodeenheten omfatter innkodet redundant informasjon til bruk ved dekoding av innkodet hovedinformasjon.

16. Fremgangsmåte ifølge krav 15, der feltet for hver kodeenhet angir hvorvidt kodeenheten omfatter: både innkodet hovedinformasjon og innkodet redundant informasjon, innkodet hovedinformasjon, men ingen innkodet redundant informasjon, eller innkodet redundant informasjon, men ingen innkodet hovedinformasjon.

17. Fremgangsmåte ifølge krav 15, der behandlingen omfatter det å pakettere hvert fall noen av de flere kodeenhetene, der hver pakketterte kodeenhet som omfatter innkodet redundant informasjon for dekoding av tilsvarende innkodet hovedinformasjon, men ikke omfatter den tilhørende innkodede hovedinformasjonen, innlemmes i en datapakke med den tilhørende innkodede hovedinformasjonen.

18. Fremgangsmåte ifølge krav 15, der behandlingen omfatter det å bestemme hvorvidt innkodet redundant informasjon i en gjeldende kodeenhet av de flere kodeenhetene er valgfri.

19. Fremgangsmåte ifølge krav 18, der behandlingen videre omfatter det å bestemme hvorvidt å pakkettere den innkodede redundante informasjonen i den gjeldende kodeenheten dersom den innkodede redundante informasjonen i den gjeldende kodeenheten er valgfri.

20. Fremgangsmåte ifølge krav 15, der, dersom en gjeldende kodeenhet av de flere kodeenhetene omfatter innkodet redundant informasjon, feltet for den gjeldende kodeenheten angir en klassifisering av den innkodede redundante informasjonen for den gjeldende kodeenheten.