NO339287B1 - Subbånds talekodek med flertrinns kodebok og redundant koding - Google Patents

Subbånds talekodek med flertrinns kodebok og redundant koding Download PDF

Info

Publication number
NO339287B1
NO339287B1 NO20075782A NO20075782A NO339287B1 NO 339287 B1 NO339287 B1 NO 339287B1 NO 20075782 A NO20075782 A NO 20075782A NO 20075782 A NO20075782 A NO 20075782A NO 339287 B1 NO339287 B1 NO 339287B1
Authority
NO
Norway
Prior art keywords
encoded
codebook
information
frame
code unit
Prior art date
Application number
NO20075782A
Other languages
English (en)
Other versions
NO20075782L (no
Inventor
Xiaoqin Sun
Tian Wang
Hosam A Khalil
Kazuhito Koishida
Wei-Ge Chen
Original Assignee
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing Llc filed Critical Microsoft Technology Licensing Llc
Publication of NO20075782L publication Critical patent/NO20075782L/no
Publication of NO339287B1 publication Critical patent/NO339287B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Description

TEKNISK OMRÅDE
Beskrevne verktøy og fremgangsmåter vedrører audiokodeker, og spesielt subbånd-koding, kodebøker og/eller redundant koding.
BAKGRUNN
Med fremveksten av digitale trådløse telefonnettverk, overføring av lyddata-strømmer over Internett og Internett-telefoni har digital behandling og overføring av tale blitt stadig mer vanlig. Ingeniører anvender en rekke forskjellige metoder for å behandle tale på en effektiv måte samtidig som kvaliteten bevares. For å forstå disse metodene er det nyttig å forstå hvordan lydinformasjon blir representert og behandlet i en datamaskin.
I. Representasjon av lydinformasjon i en datamaskin
En datamaskin behandler lydinformasjon som en sekvens av tall som representerer lyden. Ett enkelt tall kan representere et lydsample, som er en amplitude-verdi på et gitt tidspunkt. Flere faktorer påvirker lydens kvalitet, inkludert samplingsdybde og samplingsrate.
Samplingsdybde (eller presisjon) angir området av tall som anvendes for å representere et sample. Flere mulige verdier for hvert sample gir typisk utmating med høyere kvalitet fordi mer detaljerte variasjoner i amplituden kan representeres. Et åtte-bits sample har 256 mulige verdier, mens et 16-bits sample har 65536 mulige verdier.
Samplingsraten (vanligvis målt som antallet sampler per sekund) påvirker også kvaliteten. Jo høyere samplingsrate, jo høyere kvalitet fordi flere lydfrekven-ser kan representeres. Eksempler på vanlige samplingsrater er 8000, 11025, 22050, 32000, 44100, 48000 og 96000 sampler/sekund (Hz). Tabell 1 viser flere lydformater med forskjellig kvalitetsnivå, sammen med tilhørende bitratekrav for ubehandlede data.
Som tabell 1 viser er prisen for å oppnå lyd av høy kvalitet høy bitrate. Høykvalitets lydinformasjon krever mye datalagringsplass og overføringskapasitet. Mange datamaskiner og datanettverk har ikke ressurser til å prosessere ubehand-let digital lyd. Komprimering (også kalt innkoding eller koding) reduserer kapasitets-kravet ved lagring og overføring av lydinformasjon ved å konvertere informasjonen til en form som krever lavere bitrate. Komprimering kan være tapsfri (der kvaliteten ikke forringes) eller tapsbeheftet (der kvaliteten forringes, men bitratereduksjonen fra påfølgende tapsfri komprimering er større). Dekomprimering (også kalt dekoding) gjenoppretter en rekonstruert versjon av den opprinnelige informasjonen fra den komprimerte formen. En kodek er et koder/dekoder-system.
II. Talekodere og dekodere
Ett mål med lydkomprimering er å representere lydsignalene digitalt for å oppnå maksimal signalkvalitet for et gitt antall bit. Sagt på en annen måte er målet å representere lydsignalene med færrest mulig bit for et gitt kvalitetsnivå. Andre motiver, så som robusthet mot overføringsfeil og begrensning av den totale forsink-elsen som følge av innkoding/overføring/dekoding, foreligger i noen tilfeller.
Forskjellige typer lydsignaler har forskjellige egenskaper. Musikk kjennetegnes ved store områder av frekvenser og amplituder, og inkluderer ofte to eller flere kanaler. Tale derimot, kjennetegnes ved mindre områder av frekvenser og amplituder, og er vanligvis representert i én enkelt kanal. Visse kodeker og behandlingsmetoder er tilpasset for musikk og lyd generelt; andre kodeker og behandlingsmetoder er tilpasset for tale.
Én type tradisjonell talekodek anvender lineær prediksjon for å bevirke komprimering. Taleinnkodingen inkluderer flere trinn. Koderen finner og kvantiserer koeffisienter for et lineært prediksjonsfilter, som anvendes for å predikere samplingsverdier som lineære kombinasjoner av foregående samplingsverdier. Et restsignal (representert som et "eksitasjonssignal") angir deler av det opprinnelige signalet som ikke er presist predikert av filtreringen. I noen trinn anvender tale-kodeken forskjellige komprimeringsteknikker for stemte segmenter (kjennetegnet ved stemmebåndets vibrasjon), ustemte segmenter og lydløse segmenter, siden forskjellige typer tale har forskjellige egenskaper. Stemte segmenter utviser typisk hyppig gjentatte talemønstre, også i restdomenet. For stemte segmenter oppnår koderen ytterligere komprimering ved å sammenlikne det gjeldende restsignalet med tidligere restsykluser, og innkode det gjeldende restsignalet basert på forsinkelses- eller latensinformasjon relativt de tidligere syklusene. Koderen hånd-
terer andre avvik mellom det opprinnelige signalet og den predikerte, innkodede representasjonen ved anvendelse av spesialiserte kodebøker.
Mange talekodeker utnytter tidsmessig redundans i et signal på en eller annen måte. Som nevnt over anvender én vanlig måte langsiktig prediksjon av tonehøydeparametere (pitch parameters) for å predikere et gjeldende eksitasjonssignal med hensyn til forsinkelse eller latens relativt tidligere eksitasjonssykluser. Utnyttelse av tidsmessig redundans kan gi en betydelig forbedring av komprimer-ingseffektiviteten med hensyn til kvalitet og bitrate, men på bekostning av at det innføres hukommelsesavhengighet i kodeken - en dekoder er avhengig av en tidligere dekodet del av signalet for å dekode en annen del av signalet korrekt. Mange effektive talekodeker har betydelig hukommelsesavhengighet.
US 6757654 B1 beskriver en forbedret forover-feilkorreksjons (FEC) teknikk for koding av taledata som omfatter en givermodul som primær-koder for et inngangstalesignal ved hjelp av en primær syntesemodell for å fremstille primær-kodede data, og redundans-koder inngangstalesignalet ved hjelp av en redundans-syntese modell for å produsere redundans-kodede data. En datapakker kombinerer de primær-kodede data og de redundant-kodede data i en serie av pakker og sender pakkene via et pakkebasert nettverk, for eksempel et (IP) Internet Protocol nettverk. En dekodings modul primær-dekoder pakker ved å bruke primær-syntese modellen, og de redundant-dekodede pakkene med redundans-syntese modellen. Teknikken gir interaksjon mellom primære-syntese modellen og redundans-syntese modellen både under og etter dekoding for å forbedre kvaliteten av et syntetisert utgangstalesignal. Slik "samhandling", for eksempel, kan ta form av oppdatering av tilstander i én modell ved å bruke den andre modellen.
Selv om talekodeker som beskrevet over har en god generell ytelse for mange anvendelser har de også flere ulemper. Spesielt viser flere ulemper seg når talekodekene anvendes sammen med dynamiske nettverksressurser. I slike scenarier kan innkodet tale gå tapt på grunn av en midlertidig knapphet på bånd-bredde eller andre problemer.
A. Smalbånd og bredbånd kodeker
Mange standard talekodeker er konstruert for smalbåndssignaler med en samplingsrate på åtte kHz. Selv om en samplingsrate på åtte kHz er tilstrekkelig i mange tilfeller, kan høyere samplingsrater være ønskelig i andre tilfeller, for eksempel for å representere høyere frekvenser.
Talesignaler med en samplingsrate på minst seksten kHz kalles typisk bredbånd-tale. Selv om disse bredbåndskodekene kan være nyttige for å representere høyfrekvente talemønstre, krever de typisk høyere bitrater enn smalbånd-kodeker. Slike høyere bitrater kan være uoppnåelige i noen typer nettverk, eller under visse nettverkstilstander.
B. Ineffektiv hukommelsesavhengighet i dynamiske nettverksforhold
Når innkodet tale mangler, for eksempel fordi den er tapt, forsinket, korrump-ert eller på annen måte er gjort ubrukelig i transitt eller annetsteds, kan talekodeke-nes ytelse forringes som følge av avhengighet av den tapte informasjonen. Tap av informasjon for et eksitasjonssignal gir problemer ved senere rekonstruksjon som avhenger av det tapte signalet. Dersom tidligere sykluser er tapt, kan latensinformasjon være ubrukelig ettersom den peker til informasjon som dekoderen ikke har. Et annet eksempel på hukommelsesavhengighet er interpolasjon av filterkoeffisienter (som anvendes for å glatte overgangene mellom forskjellige syntesefiltre, spesielt for stemte signaler). Dersom filterkoeffisienter for en ramme er tapt, kan filterkoeffisientene for etterfølgende rammer ha ukorrekte verdier.
Dekodere anvender forskjellige metoder for å dekke over feil som følge av tap av datapakker og andre informasjonstap, men disse feilskjulingsmetodene er sjelden i stand til å skjule feilen helt. For eksempel kan dekoderen gjenta tidligere parametere eller estimere parametere basert på korrekt dekodet informasjon. Latensinformasjon kan imidlertid være veldig følsom, og kjente feilskjulingsmetoder er ikke spesielt virkningsfulle.
I de fleste tilfeller vil dekodere etter hvert innhente seg fra feil som følge av tapt informasjon. Etter hvert som pakker mottas og dekodes blir parametre gradvis justert mot sine korrekte verdier. Kvaliteten er imidlertid gjerne forringet inntil dekoderen har gjenopprettet korrekt intern tilstand. I mange av de mest effektive talekodeker er avspillingskvaliteten forringet i lang tid (f.eks. opptil ett sekund), noe som forårsaker sterk forvrengning og ofte gjør talen uforståelig. Gjenopprettings-tiden er kortere når det forekommer en betydelig endring, så som en lydløs ramme, ettersom denne representerer et naturlig nullstillingspunkt for mange parametere. Noen kodeker er mer robuste for pakketap fordi de fjerner avhengigheter mellom rammer. Slike kodeker krever imidlertid betydelig høyere bitrater for å oppnå samme talekvalitet som en tradisjonell CELP-kodek med avhengighet mellom rammer.
Gitt viktigheten av komprimering og dekomprimering for å representere talesignaler i datasystemer er det ikke overraskende at komprimering og dekomprimering av tale har vært gjenstand for mye forsknings- og standardiseringsaktivitet. Uansett hvilke fordeler som innehas av kjente fremgangsmåter og verktøy, har de imidlertid ikke fordelene med fremgangsmåtene og verktøyene beskrevet her.
OPPSUMMERING
Som en oppsummering retter den detaljerte beskrivelsen seg mot forskjellige fremgangsmåter og verktøy for audiokodeker, og spesielt verktøy og fremgangsmåter i forbindelse med subbånd-koding, kodebøker for audiokodeker og/eller redundant koding. Beskrevne utførelsesformer realiserer én eller flere av de beskrevne fremgangsmåter og verktøy, inkludert, men ikke begrenset til følgende: I ett aspekt inkluderer en bitstrøm for et lydsignal innkodet hovedinformasjon for en gjeldende ramme som refererer til et segment i en foregående ramme som skal anvendes ved dekoding av den gjeldende rammen, og innkodet redundant informasjon for dekoding av den gjeldende rammen. Den innkodede redundante informasjonen inkluderer signalhistorieinformasjon for det segmentet av den foregående rammen det refereres til.
I et annet aspekt inkluderer en bitstrøm for et lydsignal innkodet hovedinformasjon for en gjeldende kodeenhet som refererer til et segment i en tidligere kodeenhet som skal anvendes ved dekoding av den gjeldende kodeenheten, og innkodet redundant informasjon for dekoding av den gjeldende kodeenheten. Den innkodede redundante informasjonen inkluderer én eller flere parametre for ett eller flere ekstra kodeboktrinn som skal anvendes ved dekoding av den gjeldende kodeenheten bare dersom den tidligere kodeenheten ikke er tilgjengelig.
I et annet aspekt inkluderer en bitstrøm flere lydkodeenheter, og hver kodeenhet inkluderer et felt. Feltet angir hvorvidt kodeenheten inkluderer innkodet hovedinformasjon som representerer et segment i lydsignalet, og hvorvidt kodeenheten inkluderer innkodet redundant informasjon til bruk ved dekoding av innkodet hovedinformasjon.
I et annet aspekt dekomponeres et lydsignal i flere subfrekvensbånd. Hvert subbånd er innkodet i henhold til en kodeeksitert lineær prediksjonsmodell. Bit-strømmen kan inkludere flere kodeenheter som hver representerer et segment i lydsignalet, der de flere kodeenhetene omfatter en første kodeenhet som representerer et første sett av subfrekvensbånd og en andre kodeenhet som representerer et andre sett av subfrekvensbånd, der det andre settet av subbånd er forskjellig fra det første settet av subbånd som følge av tap av subbånd-informasjon for enten den første kodeenheten eller den andre kodeenheten. Et første subbånd kan være innkodet i henhold til en første kodingsmodus, og et andre subbånd kan være innkodet i henhold til en andre, forskjellig, kodingsmodus. De første og andre kodingsmodusene kan anvende forskjellig antall kodeboktrinn. Hvert subbånd kan bli innkodet separat. Videre kan en sanntids talekoder behandle bitstrømmen, inkluderende å dekomponere lydsignalet i de flere subfrekvensbåndene og innkode de flere subfrekvensbåndene. Behandlingen av bitstrømmen kan inkludere dekoding av de flere subfrekvensbåndene og syntetisere de flere subfrekvensbåndene.
I et annet aspekt inkluderer en bitstrøm for et lydsignal parametre for en første gruppe av kodeboktrinn for å representere et første segment av lydsignalet, der den første gruppen av kodeboktrinn inkluderer et første sett av flere faste kodeboktrinn. Det første settet av faste kodeboktrinn kan inkludere flere tilfeldige faste kodeboktrinn. De faste kodeboktrinnene kan inkludere et pulskodeboktrinn og et tilfeldig kodeboktrinn. Den første gruppen av kodeboktrinn kan videre inkludere et adaptivt kodeboktrinn. Bitstrømmen kan videre inkludere parametre for en andre gruppe av kodeboktrinn som representerer et andre segment i lydsignalet, der den andre gruppen har et forskjellig antall kodeboktrinn fra den første gruppen. Antallet kodeboktrinn i den første gruppen av kodeboktrinn kan velges basert på én eller flere faktorer, inkluderende én eller flere egenskaper ved det første segmentet av lydsignalet. Antallet kodeboktrinn i den første gruppen av kodeboktrinn kan velges basert på én eller flere faktorer, inkluderende nettoverføringsforhold-ene mellom koderen og en dekoder. Bitstrømmen kan omfatte en egen kodebokindeks og en egen gainverdi for hvert av de flere faste kodeboktrinnene. Bruk av separate gainverdier kan lette signalsammenlikning og bruk av separate kodebokindekser kan lette søk i kodeboken.
I et annet aspekt inkluderer en bitstrøm, for hver av flere enheter som kan være parametrist ved anvendelse av en adaptiv kodebok, et felt som angir om adaptive kodebokparametre er anvendt for enheten. Enhetene kan være subrammer fra flere rammer i lydsignalet. Et lydbehandlingsverktøy, så som en sanntids talekoder, kan behandle bitstrømmen, inkluderende å bestemme om de adaptive kodebokparametrene i hver enhet skal anvendes. Det å bestemme om de adaptive kodebokparametrene skal anvendes kan inkludere det å bestemme om en adaptiv kodeboks gainverdi er høyere enn en terskelverdi. Det å bestemme om de adaptive kodebokparametrene skal anvendes kan også inkludere det å vurdere ett eller flere trekk ved rammen. Videre kan det å bestemme om de adaptive kodebokparametrene skal anvendes inkludere det å vurdere ett eller flere nettoverførings-trekk mellom koderen og en dekoder. Feltet kan være et én-bits flagg for hver stemte enhet. Feltet kan være et én-bits flagg for hver subramme i en taleramme i lydsignalet, og feltet kan være utelatt fra andre typer rammer.
De forskjellige fremgangsmåter og verktøy kan anvendes i kombinasjon eller hver for seg.
Ytterligere særtrekk og fordeler vil tydeliggjøres av den følgende detaljerte beskrivelsen av forskjellige utførelsesformer, som er gitt med henvisning til de vedlagte figurene.
KORT BESKRIVELSE AV FIGURENE
Figur 1 er et blokkdiagram som illustrerer et passende databehandlingsmiljø hvor én eller flere av de beskrevne utførelsesformer kan realiseres. Figur 2 er et blokkdiagram som illustrerer et nettverksmiljø i der én eller flere av de beskrevne utførelsesformer kan realiseres. Figur 3 er en graf som viser et sett av frekvensresponser for en subbånd-struktur som kan anvendes for subbåndinnkoding. Figur 4 er et blokkdiagram som illustrerer en sanntids talebåndkoder som én eller flere av de beskrevne utførelsesformer kan realiseres med.
Figur 5 er et flytdiagram som illustrerer bestemmelse av kodebokparametre
i én utførelse.
Figur 6 er et blokkdiagram som illustrerer en sanntids talebånddekoder som én eller flere av de beskrevne utførelsesformer kan realiseres med. Figur 7 er et diagram som illustrerer en eksitasjonssignalhistorie, inkluderende en gjeldende ramme og en ominnkodet del av en foregående ramme. Figur 8 er flytdiagram som illustrerer bestemmelse av kodebokparametre for et ekstra, tilfeldig kodeboktrinn i én utførelse. Figur 9 er et blokkdiagram som illustrerer en sanntids talebånddekoder som anvender et ekstra, tilfeldig kodeboktrinn. Figur 10 er et diagram som illustrerer bitstrømformater for rammer som omfatter informasjon for forskjellige redundante kodingsmetoder som kan anvendes med noen utførelser. Figur 11 er et diagram som illustrerer bitstrømformater for datapakker som inkluderer rammer med redundant kodingsinformasjon som kan anvendes med noen utførelser.
DETALJERT BESKRIVELSE
Beskrevne utførelsesformer er rettet mot fremgangsmåter og verktøy for å behandle lydinformasjon ved innkoding og dekoding. Med disse fremgangsmåtene bedres kvaliteten til tale avledet fra en talekodek, for eksempel en sanntids talekodek. Disse forbedringene kan oppnås ved anvendelse av forskjellige fremgangsmåter og verktøy alene eller i kombinasjon.
Slike fremgangsmåter og verktøy kan inkludere koding og/eller dekoding av subbånd ved anvendelse av lineære prediksjonsmetoder, så som CELP.
Fremgangsmåtene kan også inkludere bruk av flere trinn av faste kode-bøker, inkluderende faste pulskodebøker og/eller tilfeldige kodebøker. Antallet kodeboktrinn kan varieres for å maksimere kvaliteten for en gitt bitrate. Videre kan en adaptiv kodebok skrus på eller av, avhengig av faktorer så som den ønskede bitraten og trekkene ved den gjeldende rammen eller subrammen.
Videre kan rammer inkludere innkodet redundant informasjon for deler av eller en hel foregående ramme som den gjeldende rammen avhenger av. Denne informasjonen kan anvendes av dekoderen for å dekode den gjeldende rammen dersom den foregående rammen er tapt, uten å kreve at hele den foregående rammen sendes flere ganger. Denne informasjonen kan bli innkodet med samme bitrate som den gjeldende eller foregående rammer, eller med en lavere bitrate. Videre kan denne informasjonen inkludere tilfeldig kodebokinformasjon som til- nærmer den ønskede delen av eksitasjonssignalet, heller enn en hel ominnkoding av den ønskede delen av eksitasjonssignalet.
Selv om trinnene i de forskjellige fremgangsmåtene er beskrevet i en gitt sekvensiell rekkefølge for klarhetens skyld må det forstås at denne beskrivelses-måten er ment å omfatte mindre endringer i trinnenes rekkefølge, dersom ikke en gitt rekkefølge er nødvendig. For eksempel kan trinn som er beskrevet sekvensielt i noen tilfeller bli stokket om eller utført samtidig. For å lette forklaringen viser ikke flytdiagrammene nødvendigvis alle de forskjellige måter som fremgangsmåtene kan anvendes sammen med andre fremgangsmåter på.
I. Databehandlingsmiljø
Figur 1 illustrerer et generalisert eksempel på et passende databehandlingsmiljø (100) der én eller flere av de beskrevne utførelsesformer kan realiseres. Databehandlingsmiljøet (100) er ikke ment å antyde noen som helst begrensning når det gjelder oppfinnelsens bruksområde eller funksjonalitet, ettersom foreligg-ende oppfinnelse kan realiseres i forskjellige generelle eller spesialiserte databehandlingsmiljøer.
Med henvisning til figur 1 inkluderer databehandlingsmiljøet (100) minst én prosesseringsenhet (110) og minne (120). I figur 1 er denne mest grunnleggende konfigurasjonen (130) vist innenfor en stiplet linje. Prosesseringsenheten (110) eksekverer datamaskin-eksekverbare instruksjoner og kan være en fysisk eller en virtuell prosessor. I et flerprosessorsystem eksekverer flere prosesseringsenheter datamaskin-eksekverbare instruksjoner for å øke prosesseringskapasiteten. Minnet (120) kan være volatilt minne (f.eks. registre, cache, RAM), ikke-volatilt minne (f.eks. ROM, EEPROM, flashminne, etc.) eller enhver kombinasjon av de to. Minnet (120) lagrer programvare (180) som implementerer subbåndinnkoding, flertrinns kodebøker og/eller redundante kodingsmetoder for en talekoder eller
-dekoder.
Et databehandlingsmiljø (100) kan ha ytterligere trekk. I figur 1 inkluderer databehandlingsmiljøet (100) lagre (140), én eller flere innmatingsanordninger
(150), én eller flere utmatingsanordninger (160) og én eller flere kommunikasjons-forbindelser (170). En sammenkoblingsmekanisme (ikke vist) så som en buss, en styringsenhet eller et nettverk, kobler sammen komponentene i databehandlingsmiljøet (100). Operativsystem programvare (ikke vist) tilveiebringer typisk et kjøre- miljø for annen programvare som kjører i databehandlingsmiljøet (100), og samord-ner aktiviteter for komponentene i databehandlingsmiljøet (100).
Lagret (140) kan være flyttbart eller stasjonært, og kan inkludere magnet-platelagre, magnetbånd eller -kasetter, CD-ROM, CD-RW, DVD eller hvilke som helst andre medier som kan anvendes for å lagre informasjon og som kan aksesseres innenfor databehandlingsmiljøet (100). Lagrene (140) lagrer instruksjoner for programvaren (180).
Innmatingsanordningen(e) (150) kan være en berøringsbasert innmatingsanordning så som et tastatur, en mus, en innmatingspenn eller en styrekule, en talebasert innmatingsanordning, en skanneranordning, et nettverksadapter eller en annen anordning som muliggjør innmating av data til databehandlingsmiljøet
(100). For lyd kan innmatingsanordningen(e) (150) være et lydkort, en mikrofon eller en annen anordning som mottar lydinnmating på analog eller digital form, eller en CD/DVD-leser som forsyner lydsampler til databehandlingsmiljøet (100). Utmatingsanordningen(e) (160) kan være en fremvisningsanordning, en skriver, en høyttaler, en CD/DVD-brenner, et nettverksadapter eller en annen anordning som muliggjør utmating fra databehandlingsmiljøet (100).
Kommunikasjonsforbindelsen(e) (170) muliggjør kommunikasjon over et kommunikasjonsmedium med en annen databehandlingsentitet. Kommunikasjons-mediet overfører informasjon så som datamaskin-eksekverbare instruksjoner, komprimert taleinformasjon eller andre data i et modulert datasignal. Et modulert datasignal er et signal som får én eller flere av sine egenskaper satt eller endret på en slik måte at det kodes informasjon i signalet. Som et eksempel, og ikke begrensende inkluderer kommunikasjonsmedier kabelbaserte eller trådløse medier realisert med en elektrisk, optisk, RF-basert, infrarødt-basert, akustisk eller annen bærer.
Oppfinnelsen kan beskrives i den generelle sammenhengen datamaskinlesbare medier. Et datamaskinlesbart medium er et hvilket som helst tilgjengelig medium som kan aksesseres innenfor et databehandlingsmiljø. Som et eksempel, og ikke begrensende inkluderer datamaskinlesbare medier i databehandlingsmiljøet (100) minne (120), lagre (140), kommunikasjonsmedier og enhver kombinasjon av det ovennevnte.
Oppfinnelsen kan beskrives i den generelle sammenhengen datamaskin-eksekverbare instruksjoner, for eksempel de som er inkludert i programmoduler, som eksekveres i et databehandlingsmiljø på en fysisk eller virtuell målprosessor. Generelt inkluderer programmoduler rutiner, programmer, biblioteker, objekter, klasser, komponenter, datastrukturer, etc. som utfører bestemte oppgaver eller implementerer bestemte abstrakte datatyper. Funksjonaliteten til programmodul-ene kan kombineres eller deles mellom programmoduler som ønsket i forskjellige utførelsesformer. Datamaskin-eksekverbare instruksjoner for programmoduler kan bli eksekvert i et lokalt eller distribuert databehandlingsmiljø.
For presentasjonsformå! anvender den detaljerte beskrivelsen ord som "bestemme", "generere", "justere" og "anvende" for å beskrive datamaskinoperasjo-ner i et databehandlingsmiljø. Disse ordene er høynivå abstraksjoner for operasjoner som utføres av en datamaskin, og må ikke blandes sammen med handlinger som utføres av et menneske. De faktiske datamaskinoperasjonene som svarer til disse ordene varierer avhengig av utførelsen.
II. Generalisert nettverksmiljø og sanntids talekodek
Figur 2 er et blokkdiagram som illustrerer et generalisert nettverksmiljø
(200) der én eller flere av de beskrevne utførelsesformene kan realiseres. Et nettverk (250) skiller forskjellige koderkomponenter fra forskjellige dekoder-komponenter.
De primære funksjonene til koder- og dekoderkomponentene er henholdsvis koding og dekoding av tale. På kodesiden mottar og lagrer et innbuffer (210) innmatet tale (202). Talekoderen (230) tar taleinnmating (202) fra innbufferet (210) og koder den.
Spesifikt deler en rammesplitter (212) samplene i taleinnmatingen (202) i rammer. I én utførelse er rammene uniformt tyve ms lange - 160 sampler for åtte kHz innmating og 320 sampler for seksten kHz innmating. I andre utførelser har rammene forskjellig varighet, er ikke-uniforme eller overlappende og/eller samplingsraten for innmatingen (202) er variabel. Rammene kan ordnes som superram-me/ramme, ramme/subramme eller på annen måte for forskjellige trinn i innkodingen og dekodingen.
En rammeklassifikator (214) klassifiserer rammene i henhold til ett eller flere kriterier, så som energien i signalet, nullkryssingshyppighet, langsiktig predik- sjonsgain, gaindifferensial og/eller andre kriterier for subrammer eller de hele rammene. Basert på kriteriene deler rammeklassifikatoren (214) de forskjellige rammene i klasser så som lydløs, ustemt, stemt og overgang (f.eks. fra ustemt til stemt). Videre kan rammene bli klassifisert i henhold til typen redundant koding, om noen, som anvendes for rammen. Rammeklassen påvirker parametrene som vil bli beregnet for å kode inn rammen. Videre kan rammeklassen påvirke oppløs-ningen og tapstoleransen som parametrene kodes med, idet oppløsningen økes og tapstoleransen reduseres for viktigere rammeklasser og parametre. For eksempel blir lydløse rammer typisk kodet med veldig lav rate, er meget enkle å gjenopprette med feilskjulingsmetoder dersom de tapes, og trenger ikke kreve beskyttelse mot tap. Ustemte rammer kodes typisk med en litt høyere rate, er forholdsvis enkle å gjenopprette med feilskjulingsmetoder om de tapes, og beskyttes ikke i stor grad mot tap. Stemte rammer og overgangsrammer blir vanligvis kodet med flere bit, avhengig av rammens kompleksitet så vel som eksistens av overganger. Stemte rammer og overgangsrammer er også vanskelige å gjenopprette dersom de tapes, og er derfor i større grad beskyttet mot tap. Alternativt kan rammeklassifikatoren
(214) anvende andre og/eller ytterligere rammeklasser.
Det innmatede talesignalet kan bli delt inn i subbåndssignaler før anvendelse av en innkodingsmodell, så som CELP, på subbåndsinformasjonen for en ramme. Dette kan gjøres ved hjelp av en sekvens av én eller flere analysefilter-banker (for eksempel QMF-analysefiltre) (216). Dersom det for eksempel skal anvendes en struktur med tre bånd, kan det laveste frekvensbåndet skilles ut ved å sende signalet gjennom et lavpassfilter. Likeledes kan det høyeste båndet skilles ut ved å sende signalet gjennom et høypassfilter. Den midtre båndet kan skilles ut ved å sende signalet gjennom et båndpassfilter, som kan inkludere et lavpassfilter og et høypassfilter i serie. Alternativt kan andre typer filteranordninger for subbånd-dekomponering og/eller tidsstyring av filtrering (f.eks. før rammeoppdel-ing) anvendes. Dersom bare ett bånd skal dekodes for en del av signalet, kan denne delen sendes rundt analysefilterbankene (216). CELP-innkoding har typisk høyere kodingseffektivitet enn ADPCM og MLT for talesignaler.
Antallet bånd n kan bestemmes av samplingsraten. For eksempel anvendes i én utførelse en ettbåndsstruktur for en samplingsrate på åtte kHz. For samplingsrater på 16 kHz og 22,05 kHz kan en trebåndsstruktur anvendes som vist i figur 3. I trebåndsstrukturen i figur 3 omfatter det laveste frekvensbåndet (310) halve båndbredden F (fra 0 til 0,5F). Den andre halvparten av båndbredden deles likt mellom det midtre båndet (320) og det høyeste båndet (330). Nær krysningen av båndene kan frekvensresponsen for et bånd avta gradvis fra passnivået til stoppnivået, som kjennetegnes ved en dempning av signalet på begge sider etter hvert som en nærmer seg krysningspunktet. Andre oppdelinger av frekvensbånd-bredden kan også anvendes. For eksempel kan det for en samplingsrate på trettito kHz anvendes en uniformt oppdelt firebåndsstruktur.
Det laveste frekvensbåndet er typisk det viktigste båndet for talesignaler ettersom signalenergien typisk avtar mot de høyere frekvensområdene. Følgelig blir det laveste frekvensbåndet ofte kodet ved anvendelse av flere bit enn de andre båndene. Sammenliknet med en ettbånds kodingsstruktur er subbåndsstrukturen mer fleksibel, og muliggjør bedre styring av bitfordeling / kvantiseringsstøy over frekvensbåndene. Følgelig antas det at de perseptuelle talekvaliteten forbedres vesentlig ved å anvende subbåndsstrukturen.
I figur 2 er hvert subbånd kodet for seg, som illustrert av innkodingskompo-nentene (232, 234). Selv om båndinnkodingskomponentene (232, 234) er vist separat, kan innkodingen av alle båndene gjøres av én enkelt koder, eller de kan bli kodet av separate kodere. Slik båndinnkoding er beskrevet nærmere nedenfor i forbindelse med figur 4. Alternativt kan kodeken fungere som en ettbåndskodek.
Den resulterende innkodede talen blir forsynt til programvare for ett eller flere nettverkslag (240) gjennom en multiplekser ("MUX") (236). Nettverkslagene
(240) behandler den innkodede talen for overføring over nettverket (250). For eksempel kan nettverkslag-programvaren pakke inn rammer av innkodet taleinformasjon i pakker som er i overensstemmelse med RTP-protokollen, som sendes over Internett ved anvendelse av UDP, IP og forskjellige protokoller på det fysiske lag. Alternativt kan andre og/eller ytterligere lag av programvare eller nettverksproto-koller anvendes. Nettverket (250) er et regionalt, pakkesvitsjet nettverk, så som Internett. Alternativt kan nettverket (250) være et lokalt nettverk eller en annen type nettverk.
På dekodersiden mottar og behandler programvare for ett eller flere nettverkslag (260) de overførte dataene. Protokoller og programvare for nettverks-laget, transportlaget og høyere lag på dekodersidens nettverkslag (260) svarer vanligvis til de på kodersidens nettverkslag (240). NettverkslagetV-lagene forsyner den innkodede taleinformasjonen til taledekoderen (270) gjennom en demultiplekser ("DEMUX") (276). Dekoderen (270) dekoder hvert av subbåndene for seg, som vist i dekodingsmodulene (272, 274). Alle subbåndene kan bli dekodet av én enkelt dekoder, eller de kan bli dekodet av separate bånddekodere.
De dekodede subbåndene blir så syntetisert i en sekvens av én eller flere syntesefilterbanker (for eksempel QMF-syntesefiltre) (280), som mater ut dekodet tale (292). Alternativt kan andre typer filteranordninger for subbåndssyntese anvendes. Dersom det kun eksisterer ett enkelt bånd, kan da det dekodede båndet bli sendt rundt filterbankene (280).
Den dekodede taleutmatingen (292) kan også bli sendt gjennom ett eller flere etterbehandlingsfiltre (284) for å bedre kvaliteten til den resulterende filtrerte taleutmatingen (294). Videre kan hvert bånd bli sendt separat gjennom ett eller flere etterbehandlingsfiltre før de føres til filterbankene (280). Én mulig generalisert sanntids talebånddekoder er beskrevet under henvisning til figur 6, selv om andre taledekodere kan anvendes i stedet. Videre kan noen av eller alle de beskrevne verktøy og fremgangsmåter anvendes med andre typer lydkodere og -dekodere, så som musikkkodere og -dekodere eller generelle lydkodere og -dekodere.
Bortsett fra disse primære innkodings- og dekodingsfunksjonene kan komponentene også dele informasjon (vist med stiplet linje i figur 2) for å styre hastigheten, kvaliteten og/eller tapstoleransen for den innkodede talen. Hastighetsstyringsenheten (220) tar hensyn til en rekke forskjellige faktorer, så som kompleksiteten til de eksisterende inndataene i innbufferet (210), oppfyllingsgraden i utbuff-ere i koderen (230) eller andre steder, ønsket utmatingshastighet, den tilgjengelige nettverksbåndbredden, nettbelastning/støyforhold og/eller dekoderens tapsprosent. Dekoderen (270) sender tilbake informasjon om dekoderens tapsprosent til hastighetsstyringsenheten (220). NettverkslagetV-lagene (240, 260) innhenter eller estimerer informasjon om tilgjengelig nettverksbåndbredde og nettbelastning/støy-forhold, som sendes tilbake til hastighetsstyringsenheten (220). Alternativt kan hastighetsstyringsenheten (220) ta hensyn til andre og/eller ytterligere faktorer.
Hastighetsstyringsenheten (220) instruerer talekoderen (230) til å endre hastigheten, kvaliteten og/eller tapstoleransen som talen innkodes med. Koderen
(230) kan endre hastigheten og kvaliteten ved å justere kvantiseringsfaktorer for parametere eller endre oppløsningen til entropikoder som representerer parametrene. Videre kan koderen endre tapstoleransen ved å justere hastigheten eller typen redundant koding. Følgelig kan koderen (230) endre allokeringen av bit mellom primære innkodingsfunksjoner og tapstoleransefunksjoner avhengig av forhold i nettverket.
Hastighetsstyringsenheten (220) kan bestemme kodingsmodi for hvert subbånd i hver ramme basert på forskjellige faktorer. Disse faktorene kan inkludere signalegenskapene i hvert subbånd, bitstrøm-historiebufferet og den ønskede bitraten. For eksempel, som beskrevet over, er i alminnelighet færre bit nødvendig for enklere rammer, så som ustemte og lydløse rammer, og flere bit er nødvendig for mer komplekse rammer, så som overgangsrammer. Videre kan færre bit være nødvendig for noen bånd, så som høyfrekvente bånd. Dersom den gjennomsnittlige bitraten i bitstrøm-historiebufferet er lavere enn den ønskede gjennomsnittlige bitraten, kan videre en høyere bitrate anvendes for den gjeldende rammen. Dersom den gjennomsnittlige bitraten er lavere enn den ønskede gjennomsnittlige bitraten, kan en lavere bitrate velges for den gjeldende rammen for å redusere den gjennomsnittlige bitraten. Videre kan ett eller de flere av båndene utelates fra én eller flere rammer. For eksempel kan de mellom- og høyfrekvente delene utelates for ustemte rammer, eller de kan utelates fra alle rammer for en tidsperiode for å redusere bitraten i denne perioden.
Figur 4 er et blokkdiagram som illustrerer en generalisert talebåndkoder
(400) som én eller flere av de beskrevne utførelsesformene kan realiseres med. Båndkoderen (400) svarer generelt til en hvilken som helst av båndinnkodingskomponentene (232, 234) i figur 2.
Båndkoderen (400) mottar båndinnmatingene (402) fra filterbankene (eller andre filtre) dersom signalet (f.eks. den gjeldende rammen) er delt inn i flere bånd. Dersom den gjeldende rammen ikke er delt inn i flere bånd, inkluderer båndinnmatingene (402) sampler som representerer hele båndbredden. Båndkoderen genererer en innkodet båndutmating (492).
Dersom et signal er delt inn i flere bånd, kan en nedsamplingskomponent
(420) utføre nedsampling på hvert bånd. Dersom for eksempel samplingsraten er satt til seksten kHz og hver ramme har en varighet på tyve ms, inkluderer hver ramme 320 sampler. Dersom ingen nedsampling ble utført og rammen ble delt inn i trebåndsstrukturen vist i figur 3, ville tre ganger så mange sampler (dvs. 320 sampler for hvert bånd, eller totalt 960 sampler) blitt innkodet og dekodet for rammen. Hvert bånd kan imidlertid bli nedsamplet. For eksempel kan det laveste frekvensbåndet (310) bli nedsamplet fra 320 sampler til 160 sampler, og hvert av det midtre båndet (320) og det høyeste båndet (330) kan bli nedsamplet fra 320 sampler til 80 sampler, idet båndene (310, 320, 330) henholdsvis dekker halvparten, en fjerdedel og en fjerdedel av frekvensområdet (graden av nedsampling (420) i denne utførelsen varierer i forhold til frekvensområdet til båndene (310, 320, 330). Imidlertid er andre utførelser mulig. I senere trinn anvendes typisk færre bit for de høyere båndene fordi signalenergien typisk avtar mot de høyere frekvensområdene). Følgelig gir dette totalt 320 sampler som skal innkodes og dekodes for rammen.
Det antas at subbåndskodeken selv med denne nedsamplingen av hvert bånd er i stand til å produsere utmating med høyere talekvalitet enn en ettbåndskodek fordi den er mer fleksibel. For eksempel kan den være mer fleksibel i styringen av kvantiseringsstøy for hvert bånd, heller enn å anvende samme metode for hele frekvensspekteret. Hvert av de flere båndene kan bli kodet med forskjellige egenskaper (så som forskjellige antall og/eller typer kodeboktrinn, som beskrevet nedenfor). Slike egenskaper kan bestemmes av hastighetsstyringen beskrevet over basert på flere faktorer, inkluderende signaltrekkene i hvert subbånd, bitstrøm-historiebufferet og den ønskede bitraten. Som beskrevet over er typisk færre bit nødvendig for "enkle" rammer, så som ustemte og lydløse rammer, og flere bit er nødvendig for "komplekse" rammer, så som overgangsrammer. Dersom den gjennomsnittlige bitraten i bitstrøm-historiebufferet er lavere enn den ønskede gjennomsnittlige bitraten, kan en høyere bitrate anvendes for den aktuelle rammen. Ellers velges en lavere bitrate for å redusere den gjennomsnittlige bitraten. I en subbåndskodek kan hvert bånd blikarakterisertpå denne måten og innkodet følgelig, heller enn at hele frekvensspekteret blirkarakterisertpå samme måte. I tillegg kan hastighetsstyringen redusere bitraten ved å utelate ett eller flere de de høyere frekvensbåndene for én eller flere rammer.
LP-analysekomponenten (430) beregner lineærprediksjonskoeffisienter
(432). I én utførelse anvender LP-filteret ti koeffisienter for åtte kHz innmating og seksten koeffisienter for seksten kHz innmating, og LP-analysekomponenten (430) beregner ett sett av lineærprediksjonskoeffisienter pr ramme for hvert bånd. Alternativt kan LP-analysekomponenten (430) beregne to sett av koeffisienter pr ramme for hvert bånd, ett for hvert av to vinduer sentrert om forskjellige posisjo-ner, eller beregne et ulikt antall koeffisienter pr bånd og/eller pr ramme.
LPC-behandlingskomponenten (435) mottar og behandler lineærprediksjonskoeffisientene (432). LPC-behandlingskomponenten (435) konverterer typisk LPC-verdier til en annen representasjon for å oppnå en mer effektiv kvantisering og koding. For eksempel kan LPC-behandlingskomponenten (435) konvertere LPC-verdier til en linjespektralpar-["LSP"]-representasjon, og LSP-verdiene bli kvantisert (for eksempel ved vektorkvantisering) og kodet. LSP-verdiene kan bli intrakodet eller predikert fra andre LSP-verdier. Forskjellige representasjoner, kvantiseringsmetoder og kodingsmetoder er mulige for LPC-verdier. LPC-verdiene forsynes i en eller annen form som del av den innkodede båndutmatingen (492) for pakettering og overføring (sammen med eventuelle kvantiseringsparametre og annen informasjon nødvendig for rekonstruksjon). LPC-behandlingskomponenten
(435) rekonstruerer LPC-verdiene for påfølgende bruk i koderen (400). LPC-behandlingskomponenten (435) kan interpolere LPC-verdier (for eksempel ekviva-lent i LSP-representasjonen eller en annen representasjon) for å glatte overgangene mellom forskjellige sett av LPC-koeffisienter, eller mellom LPC-koeffisientene som anvendes for forskjellige subrammer i rammer.
Syntese-(eller "korttidsprediksjons-")-filteret (440) mottar rekonstruerte LPC-verdier (438) og innlemmer dem i filteret. Syntesefilteret (440) mottar et eksitasjonssignal og genererer en tilnærming av det opprinnelige signalet. For en gitt ramme kan syntesefilteret (440) bufre et antall rekonstruerte sampler (f.eks. ti for et "ten tap"-filter) fra den forrige rammen for å initiere prediksjonen.
De perseptuelle vektingskomponentene (450, 455) anvender perseptuell vekting på det opprinnelige signalet og den modellerte utmatingen fra syntesefilteret (440) for selektivt å nedtone formantstrukturen til talesignaler for å gjøre lytte-systemene mindre følsomme overfor kvantiseringsfeil. De perseptuelle vektingskomponentene (450, 455) utnytter psykoakustiske fenomener så som maskering. I én utførelse anvender de perseptuelle vektingskomponentene (450, 455) vekter basert på de opprinnelige LPC-verdiene (432) mottatt fra LP-analysekomponenten
(430). Alternativt kan de perseptuelle vektingskomponentene (450, 455) anvende andre og/eller ytterligere vekter.
Etter de perseptuelle vektingskomponentene (450, 455) beregner koderen
(400) forskjellen mellom det perseptuelt vektede opprinnelige signalet og den perseptuelt vektede utmatingen fra syntesefilteret (440) for å generere et diffe-ransesignal (434). Alternativt kan koderen (400) anvende en annen metode for å beregne taleparametrene.
Eksitasjonsparametriseringskomponenten (460) søker etter den beste kombinasjonen av adaptive kodebokindekser, faste kodebokindekser og gain-kodebokindekser for å minimere forskjellen mellom det perseptuelt vektede opprinnelige signalet og det syntetiserte signalet (basert på vektet midlere kvadratifeil eller andre kriterier). Mange parametere blir beregnet for hver subramme, men mer generelt kan parametrene være pr superramme, ramme eller subramme. Som beskrevet over kan parametrene for forskjellige bånd innenfor en ramme eller subramme være forskjellige. Tabell 2 viser de tilgjengelige typene av parametre for forskjellige rammeklasser i én utførelse.
I figur 4 deler eksitasjonsparametriseringskomponenten (460) inn rammen i subrammer og beregner kodebokindekser og gainverdier for hver subramme på passende måte. For eksempel kan antallet av og typen kodeboktrinn som skal anvendes, samt oppløsningene for kodebokindekser innledningsvis bli bestemt ved en innkodingsmodus, der modusen kan bestemmes av hastighetsstyringskomponenten beskrevet over. En gitt modus kan også bestemme andre innkodings- og dekodingsparametere enn antallet av og typen kodeboktrinn, for eksempel oppløsningen av kodebokindeksene. Parametrene i hvert kodeboktrinn bestemmes ved å optimere parametrene for å minimere feilen mellom et målsignal og bidraget fra dette kodeboktrinnet til det syntetiserte signalet. (Med å "optimere" menes her å finne en passende løsning under gjeldende føringer, så som forvreng-ningsreduksjon, parametersøketid, parametersøk-kompleksitet, bitraten for parametre, etc, i motsetning til å utføre et fullt søk i parameterrommet. Tilsvarende skal "minimere" forstås som å finne en passende løsning under gjeldende føringer.) For eksempel kan optimering gjøres ved anvendelse av en modifisert midlere kvadratfeilmetode. Målsignalet i hvert trinn er forskjellen mellom restsignalet samt summen av bidragene fra de tidligere kodeboktrinnene, om noen, og det syntetiserte signalet. Alternativt kan andre optimeringsmetoder anvendes.
Figur 5 viser en fremgangsmåte for å bestemme kodebokparametre ifølge én utførelse. Eksitasjonsparametriseringskomponenten (460) utfører fremgangsmåten, eventuelt sammen med andre komponenter så som en hastighetsstyringsenhet. Alternativt kan en annen komponent i en koder utføre fremgangsmåten.
Med henvisning til figur 5 bestemmer (510), for hver subramme i en stemt ramme eller overgangsramme, eksitasjonsparametriseringskomponenten (460) hvorvidt en adaptiv kodebok kan anvendes for den aktuelle subrammen. (For eksempel kan hastighetsstyringen kreve at ingen adaptiv kodebok skal anvendes for en gitt ramme.) Dersom den adaptive kodeboken ikke skal anvendes, vil da en adaptiv kodebokvelger angi at ingen adaptive kodebøker skal anvendes (535). For eksempel kan dette gjøres ved å sette et én-bits flagg på rammenivå som angir at ingen adaptive kodebøker er anvendt i rammen, ved å spesifisere en gitt kodingsmodus på rammenivå eller ved å sette et én-bits flagg for hver subramme som angir at ingen adaptiv kodebok er anvendt i subrammen.
For eksempel kan hastighetsstyringskomponenten ekskludere den adaptive kodeboken for en ramme, og dermed fjerne den viktigeste hukommelsesavhengig-heten mellom rammer. Spesielt for stemte rammer kjennetegnes et typisk eksitasjonssignal ved et periodisk mønster. Den adaptive kodeboken inkluderer en indeks som representerer en latens som angir posisjonen til et eksitasjonssegment i historiebufferet. Det foregående eksitasjonssegmentet skaleres til å bli den adaptive kodebokens bidrag til eksitasjonssignalet. Ved dekoderen er den adaptive kodebokinformasjonen typisk nokså viktig for rekonstruksjonen av eksitasjonssignalet. Dersom den foregående rammen er tapt og den adaptive kodebokin deksen peker tilbake til et segment i den foregående rammen, er den adaptive kodebokindeksen typisk ubrukelig fordi den peker til ikke-eksiterende historieinformasjon. Selv om feilskjulingsmetoder utføres for å gjenopprette denne tapte informasjonen, vil også fremtidig rekonstruksjon være basert på det ufullkomment gjen-opprettede signalet. Dette vil gjøre at feilen forplanter seg til de etterfølgende rammene fordi latensinformasjon typisk er følsom.
Følgelig vil tap av en pakke som en etterfølgende adaptiv kodebok er avhengig av føre til en langsiktig forringelse som ikke dør ut før etter at mange pakker er dekodet, eller når det møtes på en ramme uten noen adaptiv kodebok. Dette problemet kan reduseres ved jevnlig å sette inn såkalte "intrarammer" i pakkestrømmen som ikke har hukommelsesavhengighet mellom rammer. På den måten vil feil bare forplante seg til neste intraramme. Følgelig er det en avveining mellom bedre talekvalitet og bedre pakketapsytelse fordi kodingseffektiviteten til den adaptive kodeboken vanligvis er høyere enn den til de faste kodebøkene. Hastighetsstyringskomponenten kan bestemme når det er tjenlig å ikke anvende adaptive kodebøker for en gitt ramme. Adaptiv kodebok-velgeren kan anvendes for å hindre bruk av adaptive kodebøker for en gitt ramme, og dermed fjerne det som typisk er den mest betydelige avhengigheten av foregående rammer (LPC-interpolasjon og syntesefilterhukommelse kan også til en viss grad være avhengig av foregående rammer). Følgelig kan adaptiv kodebok-velgeren anvendes av hastighetsstyringskomponenten for å generere en kvasi-intraramme dynamisk basert på faktorer så som pakketapsraten (dvs. at når pakketapsraten er høy, kan flere intrarammer bli satt inn for å muliggjøre raskere nullstilling av hukommelse).
Fortsatt med henvisning til figur 5, dersom en adaptiv kodebok kan anvendes, bestemmer komponenten (460) adaptiv kodebokparametre. Disse parametere inkluderer en indeks, eller tonehøydeverdi, som angir et ønsket segment i eksitasjonssignalets historie, så vel som en gainverdi som skal anvendes på det ønskede segmentet. I figurene 4 og 5 utfører komponenten (460) et lukket sløyfe-pitchsøk (520). Dette søket begynner med tonehøyden bestemt av den eventuelt anvendte åpen sløyfe-pitchsøkekomponenten (425) i figur 4. En åpen sløyfe-pitchsøkekomponent (425) analyserer det vektede signalet generert av vektings-komponenten (450) for å estimere tonehøyden i det. Med utgangspunkt i denne estimerte tonehøyden optimerer lukket sløyfe-pitchsøket (520) tonehøydeverdien for å redusere feilen mellom målsignalet og det vektede syntetiserte signalet generert fra et angitt segment i eksitasjonssignalhistorien. Den adaptive kodebokens gainverdi blir også optimert (525). Den adaptive kodebokens gainverdi angir en multiplikator som skal anvendes på de tonehøyde-predikerte verdiene (verdiene fra det angitte segmentet i eksitasjonssignalhistorien) for å justere verdienes skala. Gainen som multipliseres med de tonehøyde-predikerte verdiene er den adaptive kodebokens bidrag til eksitasjonssignalet for den gjeldende rammen eller subrammen. Gainoptimeringen (525) gir en gainverdi og en indeksverdi som minimerer feilen mellom målsignalet og det vektede syntetiserte signalet fra bidraget fra den adaptive kodeboken.
Etter at tonehøyde- og gainverdiene er bestemt, blir det bestemt (530) hvorvidt bidraget fra den adaptive kodeboken er stort nok til at det forsvarer antallet bit som anvendes av den adaptive kodebokens parametre. Dersom den adaptive kodebokens gainverdi er mindre enn en terskelverdi, deaktiveres den adaptive kodeboken for å spare bit-plassene til de faste kodebøkene beskrevet nedenfor. I én utførelse anvendes en terskelverdi på 0,3, selv om andre verdier alternativt kan anvendes som terskel. Dersom for eksempel gjeldende kodingsmodus anvender den adaptive kodeboken pluss en pulskodebok med fem pulser, kan da en kodebok med syv pulser anvendes når den adaptive kodeboken er deaktivert og det totale antall bit vil fortsatt være det samme eller lavere. Som beskrevet over kan et én-bits flagg for hver subramme anvendes for å angi adaptiv kodebok-velgeren for subrammen. Dersom den adaptive kodeboken ikke anvendes, settes følgelig velgeren slik at den angir at ingen adaptiv kodebok er anvendt i subrammen (535). Likeledes, dersom den adaptive kodeboken anvendes, settes velgeren slik at den angir at den adaptive kodeboken er anvendt i subrammen, og parametrene for den adaptive kodeboken signaleres (540) i bitstrømmen. Selv om figur 5 viser signalering etter bestemmelsen kan alternativt signaler bli samlet opp inntil fremgangsmåten avslutter for en ramme eller superramme.
Eksitasjonsparametriseringskomponenten (460) bestemmer også (550) om det anvendes en pulskodebok. I én utførelse angis bruk eller ikke bruk av pulskodeboken som del av en generell kodingsmodus for den aktuelle rammen, eller det kan angis eller bestemmes på andre måter. En pulskodebok er en type fast kodebok som spesifiserer én eller flere pulser som skal bidra til eksitasjons signalet. Pulskodebok-parametrene inkluderer par av indekser og fortegn (en gainverdi kan være positiv eller negativ). Hvert par angir en puls som skal innlemmes i eksitasjonssignalet, idet indeksen angir pulsens posisjon og fortegnet angir pulsens polaritet. Antallet pulser som innlemmes i pulskodeboken og anvendes som bidrag til eksitasjonssignalet kan variere avhengig av kodingsmodus. I tillegg kan antallet pulser avhenge av om det anvendes en adaptiv kodebok eller ikke.
Dersom pulskodeboken anvendes, optimeres pulskodebok-parametrene
(555) for å minimere feilen mellom bidraget fra de angitte pulsene og et målsignal. Dersom det ikke anvendes en adaptiv kodebok, er målsignalet det vektede opprinnelige signalet. Dersom det anvendes en adaptiv kodebok, er målsignalet forskjellen mellom det vektede opprinnelige signalet pluss bidraget fra den adaptive kodeboken og det vektede syntetiserte signalet. På et eller annet tidspunkt (ikke vist) blir da pulskodebok-parametrene signalert i bitstrømmen.
Eksitasjonsparametriseringskomponenten (460) bestemmer også (565) hvorvidt det skal anvendes tilfeldige faste kodeboktrinn. Antallet (om noen) tilfeldige kodeboktrinn angis som del av en generell kodingsmodus for den gjeldende rammen, selv om det kan angis eller bestemmes på andre måter. En tilfeldig kodebok er en type fast kodebok som anvender en forhåndsdefinert signalmodell for verdiene den koder. Kodebokparametrene kan inkludere startpunktet for et angitt segment i signalmodellen og et fortegn, som kan være positivt eller negativt. Lengden eller omfanget til det angitte segmentet er typisk fast og blir derfor vanligvis ikke signalert, selv om kan lengden eller omfanget av det angitte segmentet alternativt kan bli signalert. En gainverdi blir multiplisert med verdiene i det angitte segmentet for å generere bidraget fra den tilfeldige kodeboken til eksitasjonssignalet.
Dersom det anvendes minst ett tilfeldig kodeboktrinn, blir parametrene for dette kodeboktrinnet optimert (570) for å minimere feilen mellom bidraget fra det tilfeldige kodeboktrinnet og et målsignal. Målsignalet er forskjellen mellom det vektede opprinnelige signalet og summen av bidragene til det vektede syntetiserte signalet fra den adaptive kodeboken (om noen), pulskodeboken (om noen) og de tidligere bestemte, tilfeldige kodeboktrinnene (om noen). På et eller annet tidspunkt (ikke vist) blir de tilfeldige kodebokparametrene signalert i bitstrømmen.
Komponenten (460) bestemmer da (580) om det skal anvendes flere tilfeldige kodeboktrinn. I så fall blir parametrene for det neste tilfeldige kodeboktrinnet optimert (570) og signalert som beskrevet over. Dette fortsetter inntil alle parametrene for de tilfeldige kodeboktrinnene er bestemt. Alle de tilfeldige kodeboktrinnene kan anvende samme signalmodell, selv om de gjerne vil angi forskjellige segmenter fra modellen og ha forskjellige gainverdier. Alternativt kan forskjellige signalmodeller anvendes for forskjellige tilfeldige kodeboktrinn.
Hver eksitasjonsgain kan bli kvantisert uavhengig eller to eller flere gainverdier kan bli kvantisert sammen, som bestemt av hastighetsstyringsenheten og/eller andre komponenter.
Selv om en bestemt rekkefølge er angitt her for å optimere de forskjellige kodebokparametrene kan andre rekkefølger og optimeringsmetoder anvendes. Selv om figur 5 viser sekvensiell beregning av forskjellige kodebokparametre kan således alternativt to eller flere forskjellige kodebokparametre bli optimert sammen (f.eks. ved å variere parametrene sammen og evaluere resultater i henhold til en ikke-lineær optimeringsmetode). I tillegg kan andre utførelser av kodebøker eller andre eksitasjonssignalparametre anvendes.
Eksitasjonssignalet i denne utførelsen er summen av alle bidrag fra den adaptive kodeboken, pulskodeboken og det eller de tilfeldige kodeboktrinnene. Alternativt kan komponenten (460) beregne andre og/eller ytterligere parametre for eksitasjonssignalet.
Med henvisning til figur 4 blir kodebokparametre for eksitasjonssignalet signalert eller på annen måte forsynt til en lokal dekoder (465) (omgitt av stiplede linjer i figur 4) og til båndutmatingen (492). For hvert bånd inkluderer således kode-rens utmating (492) utmatingen fra LPC-behandlingskomponenten (435) beskrevet over, så vel som utmatingen fra eksitasjonsparametriseringskomponenten (460).
Bitraten til utmatingen (492) avhenger delvis av parametrene som anvendes av kodebøkene, og koderen (400) kan styre bitraten og/eller kvaliteten ved å veksle mellom forskjellige sett av kodebokindekser, ved anvendelse av innlagte koder eller på andre måter. Forskjellige kombinasjoner av kodeboktyper og -trinn kan gi forskjellige innkodingsmodi for forskjellige rammer, bånd og/eller subrammen For eksempel kan en ustemt ramme kun anvende ett tilfeldig kodeboktrinn. En adaptiv kodebok og en pulskodebok kan anvendes for en stemt ramme med lav bitrate. En ramme med høy bitrate kan bli innkodet ved anvendelse av en adaptiv kodebok, en pulskodebok og ett eller flere tilfeldige kodeboktrinn. Innenfor en ramme kan kombinasjonen av alle innkodingsmodusene for alle subbåndene sammen kalles et modussett. Det kan finnes flere forhåndsdefinerte modussett for hver samplingsrate, idet forskjellige modi svarer til forskjellige kodingsbitrater. Hastighetsstyringsmodulen kan bestemme eller påvirke modussettet for hver ramme.
Området av mulige bitrater kan være nokså stort for de beskrevne utførels-ene, og kan gi betydelige forbedringer i den resulterende kvaliteten. I standard kodere kan også antallet bit som anvendes for en pulskodebok varieres, men for mange bit kan føre til pulser som står altfor tett. Tilsvarende, når det kun anvendes én enkelt kodebok, kan det å legge til flere bit muliggjøre bruk av en større signalmodell. Imidlertid kan dette i betydelig grad øke kompleksiteten i søk etter opti-male segmenter i modellen. I motsetning kan ytterligere typer kodebøker og ytterligere tilfeldige kodeboktrinn legges til uten i betydelig grad å øke kompleksiteten i de individuelle kodeboksøkene (sammenliknet med å søke i én enkelt, kombinert kodebok). Videre vil flere tilfeldige kodeboktrinn og flere typer faste kodebøker muligjøre flere gainfaktorer, noe som gir mer fleksibilitet for matching av bølge-former.
Fortsatt med henvisning til figur 4 blir utmatingen fra eksitasjonsparametriseringskomponenten (460) mottatt av kodebok-rekonstruksjonskomponentene (470, 472, 474, 476) og gainanvendelseskomponentene (480, 482, 484, 486) svarende til kodebøkene som anvendes av parametriseringskomponenten (460). Kodeboktrinnene (470, 472, 474, 476) og de motsvarende gainanvendelseskomponentene (480, 482, 484, 486) rekonstruerer bidragene fra kodebøkene. Disse bidragene summeres for å generere et eksitasjonssignal (490) som mottas av syntesefilteret (440), der de anvendes sammen med de "predikerte" samplene som etterfølgende lineærprediksjon baseres på. Forsinkede deler av eksitasjonssignalet anvendes også brukt som et eksitasjonshistoriesignal av adaptiv kodebok-rekonstruksjonskomponenten (470) for å rekonstruere etterfølgende adaptive kodebokparametre (f.eks. pitchbidrag), og av parametriseringskomponenten (460) for beregning av etterfølgende adaptive kodebokparametre (f.eks. pitchindeks og pitchgainverdier).
Med henvisning tilbake til figur 2 mottas båndutmatingen for hvert bånd av MUX (236), sammen med andre parametere. Slike andre parametre kan blant annet inkludere rammeklasseinformasjon (222) fra rammeklassifikatoren (214) og rammeinnkodingsmodi. MUX (236) genererer applikasjonslag-pakker for utsending til annen programvare, eller MUX (236) legger inn data i nyttedataene i pakker som følger en protokoll så som RTP. Multiplekseren kan bufre parametere for å muliggjøre selektiv gjentagelse av parametrene for tidlig feilkorrigering i senere pakker. I én utførelse pakker MUX (236) inn den primære innkodede taleinformasjonen for én ramme i én enkelt pakke, sammen med informasjon for tidlig feilkorrigering for hele eller deler av én eller flere foregående rammer.
MUX (236) gir tilbakemelding så som gjeldende bufferfyllingsgrad for hastighetsstyringsformål. Mer generelt kan forskjellige komponenter i koderen
(230) (inkluderende rammeklassifikatoren (214) og MUX (236)) forsyne informasjon til en hastighetsstyringsenhet (220) så som den vist i figur 2.
Bitstrøm-demultiplekseren (276) i figur 2 tar innkodet taleinformasjon som innmating og analyserer den for å identifisere og behandle parametre. Parametrene kan inkludere rammeklasse, en representasjon av LPC-verdier og kodebokparametre. Rammeklassen kan angi hvilke andre parametre som finnes for en gitt ramme. Mer generelt anvender DEMUX (276) protokollene som benyttes av koderen (230) og trekker ut parametrene som koderen (230) legger inn i datapakker. For datapakker som mottas over et dynamisk pakkesvitsjet nettverk inkluderer DEMUX (276) inkluderer et jitterbuffer for å glatte ut kortvarige fluktuasjoner i pakkehastigheten over en gitt tidperiode. I noen tilfeller regulerer dekoderen (270) bufferforsinkelse og styrer når pakker blir lest ut fra bufferet for å integrere forsinkelse, kvalitetsstyring, feilskjuling for manglende rammer, etc. i dekodingen. I andre tilfeller styrer en applikasjonslag-komponent jitterbufferet, og jitterbufferet fylles med variabel hastighet og tømmes av dekoderen (270) med konstant eller forholdsvis konstant hastighet.
DEMUX (276) kan motta flere versjoner av parametre for et gitt segment, inkluderende en primær innkodet versjon og én eller flere sekundære feilkorriger-ingsversjoner. Når feilkorrigeren mislykkes, anvender dekoderen (270) feilskjulingsmetoder så som gjentagelse eller estimering av parametre basert på informasjon som er korrekt mottatt.
Figur 6 er et blokkdiagram som illustrerer en generalisert sanntids talebånddekoder (600) som én eller flere beskrevne utførelsesformer kan realiseres sammen med. Bånddekoderen (600) svarer generelt til hvilken som helst av båndde-kodingskomponentene (272, 274) i figur 2.
Bånddekoderen (600) tar innkodet taleinformasjon (692) for et bånd (som kan være hele båndet, eller ett av flere subbånd) som innmating og genererer en rekonstruert utmating (602) etter dekoding. Komponentene i dekoderen (600) har motsvarende komponenter i koderen (400), men dekoderen (600) er totalt sett enklere siden den ikke har komponenter for perseptuell vekting, eksitasjonsbe-handlingssløyfen og hastighetsstyringen.
LPC-behandlingskomponenten (635) mottar informasjon som representerer LPC-verdier på formen tilveiebragt av båndkoderen (400) (samt eventuelle kvanti-seringsparametere og annen informasjon nødvendig for rekonstruksjon). LPC-behandlingskomponenten (635) rekonstruerer LPC-verdiene (638) ved anvendelse av de inverse av omformingen, kvantiseringen, kodingen, etc. som er anvendt på LPC-verdiene. LPC-behandlingskomponenten (635) kan også utføre interpolasjon av LPC-verdier (i LPC-representasjon eller en annen representasjon så som LSP) for å glatte overgangene mellom forskjellige sett av LPC-koeffisienter.
Kodeboktrinnene (670, 672, 674, 676) og gainanvendelseskomponentene (680, 682, 684, 686) dekoder parametrene for de motsvarende kodeboktrinnene anvendt for eksitasjonssignalet og beregner bidraget fra hvert kodeboktrinn som er anvendt. Mer generelt svarer konfigurasjonen og operasjonene i kodeboktrinnene (670, 672, 674, 676) og gainkomponentene (680, 682, 684, 686) til konfigurasjonen og operasjonene i kodeboktrinnene (470, 472, 474, 476) og gainkomponentene (480, 482, 484, 486) i koderen (400). Bidragene fra de anvendte kodeboktrinnene blir summert, og det resulterende eksitasjonssignalet (690) mates inn til syntesefilteret (640). Forsinkede verdier av eksitasjonssignalet (690) blir også brukt som eksitasjonshistorie av den adaptive kodeboken (670) ved beregning av bidraget fra den adaptive kodeboken for etterfølgende deler av eksitasjonssignalet.
Syntesefilteret (640) mottar rekonstruerte LPC-verdier (638) og innlemmer dem i filteret. Syntesefilteret (640) lagrer tidligere rekonstruerte sampler for behandling. Eksitasjonssignalet (690) sendes gjennom syntesefilteret for å frembringe en tilnærming av det opprinnelige talesignalet. Med henvisning tilbake til figur 2, som beskrevet over, dersom det er flere subbånd, blir utmatingen for hvert subbånd syntetisert i filterbankene (280) for å generere taleutmatingen (292).
Relasjonene vist i figurene 2-6 angir generell informasjonsflyt; andre relasjoner er for ikke vist for å forenkle bildet. Avhengig av utførelsen og typen komprimering som ønskes kan komponenter legges til, fjernes, deles inn i flere komponenter, kombineres med andre komponenter og/eller erstattes med tilsvarende komponenter. I miljøet (200) vist i figur 2 kan for eksempel hastighetsstyringsenheten (220) kombineres med talekoderen (230). Eventuelle tillagte komponenter inkluderer en multimedia-innkodingsapplikasjon (eller -avspillingsapplikasjon) som styrer talekoderen (eller dekoderen) så vel som andre kodere (eller dekodere) og innhenter informasjon om nettverket og dekoderens tilstand, og som utfører adaptive feilkorrigeringsfunksjoner. I alternative utførelses-former behandler forskjellige kombinasjoner og utførelser av komponenter taleinformasjon ved anvendelse av fremgangsmåtene beskrevet her.
III. Redundante kodingsmetoder
Én mulig bruk av talekodeker er i voice-over-IP-nettverk eller andre pakke-svitsjede nettverk. Slike nettverk har forskjellige fordeler fremfor de eksisterende kretsswitsjede infrastrukturene. I voice-over-IP-nettverk blir imidlertid pakker ofte forsinket eller droppet som følge av nettoverbelastning.
Mange standard talekodeker har stor avhengighet mellom rammer. For disse kodekene kan således en tapt ramme medføre betydelig forringet talekvalitet for mange etterfølgende rammer.
I andre kodeker kan hver ramme bli dekodet uavhengig. Slike kodeker er robuste med hensyn til pakketap. Imidlertid reduseres kodingseffektiviteten med hensyn til kvalitet og bitrate betydelig som følge av at avhengighet mellom rammer ikke tillates. Følgelig krever slike kodeker typisk høyere bitrater for å oppnå en talekvalitet tilsvarende tradisjonelle CELP-kodere.
I noen utførelsesformer kan de redundante kodingsmetodene beskrevet nedenfor bidra til å oppnå en god ytelse i forhold til gjenopprettelse etter tapte pakker uten å øke bitraten vesentlig. Metodene kan anvendes sammen innenfor én enkelt kodek, eller de kan anvendes hver for seg.
I koderutførelsen beskrevet over i forbindelse med figurene 2 og 4 er informasjonen fra adaptive kodebøker typisk hovedkilden til avhengighet av andre rammer. Som beskrevet over angir adaptiv-kodebokindeksen posisjonen til et segment i eksitasjonssignalet i historiebufferet. Segmentet av det tidligere eksitasjonssignalet blir skalert (i henhold til en gainverdi) til å bli den adaptive kodebokens bidrag til eksitasjonssignaler for den gjeldende rammen (eller subrammen). Dersom en foregående pakke som inneholder informasjon som anvendes for å rekonstruere det innkodede foregående eksitasjonssignalet tapes, er latensinfor-masjonen for den gjeldende rammen (eller subrammen) ubrukelig siden den peker til ikke-eksisterende historieinformasjon. Fordi latensinformasjon er følsom, fører dette vanligvis til en langvarig forringelse av den resulterende taleutmatingen som ikke dør ut før etter at mange pakker er dekodet.
De følgende metoder er innrettet for å fjerne, i hvert fall til en viss grad, avhengigheten til det gjeldende eksitasjonssignalet av rekonstruert informasjon fra foregående rammer som er utilgjengelige fordi de er forsinket eller tapt.
En koder så som koderen (230) beskrevet over i forbindelse med figur 2 kan veksle mellom følgende kodingsmetoder for hver ramme eller i henhold til en annen oppdeling. En tilhørende dekoder, så som dekoderen (270) beskrevet over i forbindelse med figur 2, veksler tilsvarende analyse-/dekodingsmetoder for hver ramme eller i henhold til en annen oppdeling. Alternativt kan andre kodere, dekodere eller lydbehandlingsverktøy utføre én eller flere av følgende metoder.
A. Primær ominnkoding/ dekoding av adaptiv kodebokhistorie
I primær ominnkoding/dekoding av adaptiv kodebokhistorie anvendes ikke eksitasjonshistoriebufferet for å dekode eksitasjonssignalet i den gjeldende rammen selv om eksitasjonshistoriebufferet er tilgjengelig ved dekoderen (foregående rammes pakke mottatt, foregående ramme dekodet, etc). I stedet blir ved koderen tonehøydeinformasjonen analysert for den gjeldende rammen for å bestemme hvor mye av eksitasjonshistorien som er nødvendig. Den nødvendige delen av eksitasjonshistorien blir innkodet på nytt og sendt sammen med den kodede informasjonen (f.eks. filterparametere, kodebokindekser og gainverdier) for den gjeldende rammen. Den adaptive kodebokens bidrag til den gjeldende rammen refererer til det om innkodede eksitasjonssignalet som er sendt med den gjeldende rammen. Følgelig er den relevante eksitasjonshistorien garantert å være tilgjenge lig for dekoderen for hver ramme. Denne redundante kodingen er ikke nødvendig dersom den gjeldende rammen ikke anvender en adaptiv kodebok, for eksempel en ustemt ramme.
Ominnkodingen av den delen av eksitasjonshistorien det er referert til kan gjøres sammen med kodingen av den gjeldende rammen, og den kan gjøres på samme måte som kodingen av eksitasjonssignalet for en gjeldende ramme, som er beskrevet over.
I noen utførelser gjøres innkodingen av eksitasjonssignalet subramme for subramme, og segmentet av det om innkodede eksitasjonssignalet strekker seg fra begynnelsen av den gjeldende rammen som inkluderer den aktuelle subrammen tilbake til subrammegrensen etter den ytterste adaptiv kodebok-avhengigheten for den gjeldende rammen. Det ominnkodede eksitasjonssignalet er følgelig tilgjengelig for referanse med tonehøydeinformasjon forflere subrammer i rammen. Alternativt kan innkoding av eksitasjonssignalet gjøres på annen måte, f.eks. ramme for ramme.
Figur 7 illustrerer et eksempel som viser en eksitasjonshistorie (710). Ram-megrenser (720) og subrammegrenser (730) er vist henholdsvis med større og mindre stiplede linjer. Subrammer i en gjeldende ramme (740) innkodes ved anvendelse av en adaptiv kodebok. Det ytterste avhengighetspunktet for enhver adaptiv kodeboks latensindeks for en subramme i den gjeldende rammen er vist med en linje (750). Følgelig strekker den ominnkodede historien (760) seg fra begynnelsen av den gjeldende rammen og bakover til den neste subrammegrensen etter dette ytterste punktet (750). Det ytterste avhengighetspunktet kan esti-meres ved hjelp resultatene av åpen sløyfe-pitchsøket (425) beskrevet over. Fordi dette søket ikke er eksakt er det imidlertid mulig at den adaptive kodeboken vil avhenge av en del av eksitasjonssignalet som ligger utenfor det estimerte ytterste punktet dersom ikke senere pitchsøk begrenses. Følgelig kan den ominnkodede historien inkludere ytterligere sampler utenfor det estimerte ytterste avhengighetspunktet for å gi ytterligere plass for å finne overensstemmende tonehøydeinforma-sjon. I én utførelse inkluderes minst ti ytterligere sampler utover det estimerte ytterste avhengighetspunktet i historien som ominnkodes. Selvfølgelig kan flere enn ti sampler innlemmes for å øke sannsynligheten for at den ominnkodede historien går langt nok til at den inkluderer tonehøydesykluser som sammenfaller med de i den gjeldende subrammen.
Alternativt kan bare det eller de segmentene i det foregående eksitasjonssignalet som faktisk refereres til i subrammen(e) i den gjeldende rammen bli ominnkodet. For eksempel kan et segment i det foregående eksitasjonssignalet av passende varighet bli om innkodet for bruk ved dekoding av ett enkelt gjeldende segment av denne varigheten.
Primær ominnkoding/dekoding av adaptiv kodebokhistorie fjerner avhengigheten av eksitasjonshistorien i foregående rammer. Samtidig muliggjør det bruk av adaptive kodebøker og krever ikke ominnkoding av én eller flere hele foregående rammer (eller ikke en gang hele eksitasjonshistorien i den eller de foregående rammene). Imidlertid er bitraten nødvendig for ominnkoding av adaptiv kodebok-hukommelsen nokså høy sammenliknet med metodene beskrevet nedenfor, spesielt når den ominnkodede historien anvendes for primær innkoding/dekoding med samme kvalitetsnivå som innkoding/dekoding med avhengighet mellom rammer.
Som et resutat av primær ominnkoding/dekoding av adaptiv kodebokhistorie kan det ominnkodede eksitasjonssignalet anvendes for å gjenopprette i hvert fall deler av eksitasjonssignalet for en tapt foregående ramme. For eksempel kan det ominnkodede eksitasjonssignalet bli rekonstruert under dekoding av sub-rammene i en gjeldende ramme, og det ominnkodede eksitasjonssignalet matet inn til et LPC-syntesefilter konstruert ved anvendelse av faktiske eller estimerte filterkoeffisienter.
Det resulterende rekonstruerte utsignalet kan anvendes som del av den foregående rammeutmatingen. Denne metoden kan også lette estimering av en innledende tilstand for syntesefilterhukommelsen for den gjeldende rammen. Ved anvendelse av den ominnkodede eksitasjonshistorien og den estimerte syntesefilterhukommelsen blir utmatingen av den gjeldende rammen generert på samme måte som ved ordinær koding.
B. Sekundær ominnkoding/ dekoding av adaptiv kodebokhistorie
Ved sekundær ominnkoding/dekoding av adaptiv kodebokhistorie endres ikke primære innkodingen av den adaptive kodeboken for den gjeldende rammen. Tilsvarende endres ikke den primære dekodingen av den gjeldende rammen; den anvender den foregående rammens eksitasjonshistorie dersom den foregående rammen er mottatt.
For bruk dersom den foregående eksitasjonshistorien ikke er rekonstruert blir eksitasjonshistoriebufferet ominnkodet på hovedsaklig samme måte som metoden med primær ominnkoding/dekoding av adaptiv kodebokhistorie beskrevet over. Sammenliknet med den primære ominnkodingen/dekodingen anvendes imidlertid færre bit for ominnkoding fordi talekvaliteten ikke påvirkes av det ominnkodede signalet når ingen pakker er tapt. Antallet bit som anvendes for å ominnkode eksitasjonshistorien kan reduseres ved å endre forskjellige parametere, for eksempel ved å anvende færre faste kodeboktrinn eller ved å anvende færre pulser i pulskodeboken.
Når den foregående rammen er tapt, anvendes den ominnkodede eksitasjonshistorien i dekoderen for å generere eksitasjonssignalet for den gjeldende rammen. Den ominnkodede eksitasjonshistorien kan også anvendes for å gjenopprette i hvert fall deler av eksitasjonssignalet for en foregående tapt ramme, som i metoden med primær ominnkoding/dekoding av adaptiv kodebokhistorie.
Det resulterende rekonstruerte utsignalet kan også anvendes som del av den foregående rammeutmatingen. Denne metoden kan også lette estimering av en innledende tilstand for syntesefilterhukommelsen for den gjeldende rammen. Ved anvendelse av den ominnkodede eksitasjonshistorien og den estimerte syntesefilterhukommelsen genereres utmatingen av den gjeldende rammen på samme måte som ved ordinær koding.
C. Ekstra kodeboktrinn
Som i metoden med sekundær ominnkoding/dekoding av adaptiv kodebokhistorie er i metoden med et ekstra kodeboktrinn hoved-eksitasjonssignalkodingen den samme som ved den ordinære kodingen beskrevet over i forbindelse med figurene 2-5. I tillegg blir det også bestemt parametere for et ekstra kodeboktrinn.
I denne kodingsmetoden, som er illustrert i figur 8, antas det (810) at det foregående eksitasjonshistoriebufferet inneholder kun nuller ved begynnelsen av den gjeldende rammen, og derfor at det ikke er noen bidrag fra det foregående eksitasjonshistoriebufferet. I tillegg til den innkodede hovedinformasjonen for den gjeldende rammen, anvendes ett eller flere ekstra kodeboktrinn for hver subramme eller et annet segment som anvender en adaptiv kodebok. For eksempel kan det ekstra kodeboktrinnet anvende en tilfeldig fast kodebok så som de beskrevet i forbindelse med figur 4.
I denne metoden blir en gjeldende ramme innkodet normalt for å generere innkodet hovedinformasjon (som kan inkludere parametere for hoved-kokeboktrinnene) som skal anvendes av dekoderen dersom den foregående rammen er tilgjengelig. Ved kodersiden bestemmes redundante parametre for ett eller flere ekstra kodeboktrinn i den lukkede sløyfen, igjen antatt ingen eksitasjonsinformasjon fra den foregående rammen. I en første utførelse gjøres bestemmelsen uten bruk av noen som helst av hoved-kodebokhovedparametrene. Alternativt kan i en andre utførelse bestemmelsen anvende i hvert fall noen av hoved-kodebokparametrene for den gjeldende rammen. Disse parametrene kan anvendes sammen med den eller de ekstra kodeboktrinnenes parametre for å dekode den gjeldende rammen dersom den foregående rammen mangler, som beskrevet nedenfor. I alminnelighet kan denne andre utførelsen oppnå tilsvarende kvalitet som den første utførelsen med bruk av færre bit for det eller de ekstra kodeboktrinnene.
Med henvisning til figur 8 blir gainverdien fra det ekstra kodeboktrinnet og gainverdien fra den siste eksisterende pulskodeboken eller tilfeldige kodeboken optimert sammen i et lukket sløyfe-søk på kodersiden for å minimere kodings-feilen. De fleste parametrene som genereres ved ordinær innkoding tas vare på og anvendes i denne optimeringen. I optimeringsprosessen blir det bestemt (820) om det er anvendt tilfeldige kodeboktrinn eller pulskodeboktrinn under ordinær koding. I så fall blir en justert gainverdi for det siste eksisterende tilfeldige kodeboktrinnet eller pulskodeboktrinnet (så som tilfeldig kodeboktrinn n i figur 4) optimert (830) for å minimere feilen mellom bidraget fra dette kodeboktrinnet og et målsignal. Målsignalet for denne optimeringen er forskjellen mellom restsignalet og summen av bidragene fra eventuelle foregående tilfeldige kodeboktrinn (dvs. alle de foregående kodeboktrinn, men bidraget fra adaptive kodebøker fra segmenter i foregående rammer settes til null).
Indeks- og gainparametrene i det ekstra, tilfeldige kodeboktrinnet blir tilsvarende optimert (840) for å minimere feilen mellom bidraget fra denne kodeboken og et målsignal. Målsignalet for det ekstra, tilfeldige kodeboktrinnet er forskjellen mellom restsignalet og summen av bidragene fra den adaptive kodeboken, pulskode boken (om noen) og eventuelle ordinære, tilfeldige kodebøker (idet den siste eksisterende ordinære, tilfeldige kodeboken eller pulskodeboken har den justerte gainverdien). Den justerte gainverdien i den siste eksisterende ordinære, tilfeldige kodeboken eller pulskodeboken og gainverdien til det ekstra, tilfeldige kodeboktrinnet kan optimeres hver for seg eller sammen.
Når den er i ordinær dekodingsmodus, anvender ikke dekoderen det ekstra, tilfeldige kodeboktrinnet, og dekoder et signal i henhold til beskrivelsen over (for eksempel som i figur 6).
Figur 9A illustrerer en subbånddekoder som kan anvende et ekstra kodeboktrinn når en adaptiv kodebokindeks peker til et segment i en foregående ramme som er tapt. Rammeverket er hovedsaklig det samme som dekodings-rammeverket beskrevet over og illustrert i figur 6, og funksjonene til mange av komponentene og signalene i subbånddekoderen (900) i figur 9 er de samme som tilsvarende komponenter og signaler i figur 6. For eksempel mottas den innkodede subbåndinformasjonen (992), og LPC-behandlingskomponenten (935) rekonstruerer lineærprediksjonskoeffisientene (938) ved anvendelse av denne informasjonen og mater koeffisientene til syntesefilteret (940). Når den foregående rammen mangler, vil imidlertid en nullstillingskomponent (996) instruere en nullhistorie-komponent (994) til å sette eksitasjonshistorien til null for den manglende rammen og mate denne historien til den adaptive kodeboken (970). Gainverdien (980) anvendes på bidraget fra den adaptive kodeboken. Den adaptive kodeboken (970) har følgelig null bidrag når dens indeks peker til historiebufferet for den manglende rammen, men kan ha bidrag som er forskjellig fra null når dens indeks peker til et segment innenfor den gjeldende rammen. De faste kodeboktrinnene (972, 974, 976) anvender sine ordinære indekser mottatt med subbåndinformasjonen (992). Tilsvarende anvender de faste kodebøkenes gainkomponenter (982, 984), bortsett fra den siste ordinære kodebokens gainkomponent (986), sine ordinære gainverdier for å generere sine respektive bidrag til eksitasjonssignalet (990).
Dersom et ekstra, tilfeldig kodeboktrinn (988) er tilgjengelig og den foregående rammen mangler, instruerer nullstillingskomponenten (996) en velger (998) til å sende bidraget fra det siste ordinære kodeboktrinnet (976) med en justert gainverdi (987) som skal summeres med de andre kodebøkenes bidrag, heller enn å sende bidraget fra det siste ordinære kodeboktrinnet (976) med den ordinære gainverdien (986) som skal summeres. Den justerte gainverdien er optimert for tilfellet der eksitasjonshistorien er satt til null for den foregående rammen. Videre anvender det ekstra kodeboktrinnet (978) sin indeks for å angi i den tilhørende kodeboken et segment i den tilfeldige kodebokens modellsignal, og den tilfeldige kodebokens gainkomponent (988) anvender gainverdien for det ekstra, tilfeldige kodeboktrinnet på dette segmentet. Velgeren (998) sender det resulterende bidraget fra det ekstra kodeboktrinnet for summering med bidragene fra de tidligere kodeboktrinnene (970, 972, 974, 976) for å generere eksitasjonssignalet (990). Følgelig anvendes den redundante informasjonen for det ekstra, tilfeldige kodeboktrinnet (så som ekstratrinnets indeks og gainverdi) og den justerte gainverdien i det siste tilfeldige hoved-kodeboktrinnet (anvendt i stedet for den ordinære gainverdien for det siste tilfeldige hovedkodeboktrinnet) for rask tilbakesetting av den gjeldende rammen til en kjent status. Alternativt kan den ordinære gainverdien anvendes for det siste tilfeldige hovedkodeboktrinnet og/eller andre parametere anvendes for å signalisere et ekstra, tilfeldig kodeboktrinn.
Metoden med et ekstra kodeboktrinn krever så få bit at den økte bitraten som er nødvendig typisk er ubetydelig. På den annen side kan den i betydelig grad redusere kvalitetsforringelsen som følge av rammetap når det er avhengigheter mellom rammer.
Figur 9B illustrerer en subbånddekoder tilsvarende den illustrert i figur 9A, men uten ordinære tilfeldige kodeboktrinn. I denne utførelsen blir følgelig den justerte gainverdien (987) optimert for pulskodeboken (972) når resthistorien for en foregående manglende ramme er satt til null. Når en ramme mangler, blir således bidragene fra den adaptive kodeboken (970) (med resthistorien for den foregående manglende rammen satt til null), pulskodeboken (972) (med den justerte gainverdien) og det ekstra, tilfeldige kodeboktrinnet (978) summert for å generere eksitasjonssignalet (990).
En ekstra kodeboktrinn som er optimert for tilfellet der resthistorien for en manglende ramme er satt til null kan anvendes med mange forskjellige utførelser og kombinasjoner av kodebøker og/eller andre representasjoner av restsignaler.
D. Avveininger mellom redundante kodingsmetoder
Hver av de tre redundante kodingsmetodene beskrevet over kan ha fordeler og ulemper, sammenliknet med de andre. Tabell 3 viser noen generaliserte konklusjoner når det gjelder hva som antas å være noen av avveiningene mellom disse tre redundante kodingsmetodene. Med ekstra bitratekrav menes antallet ekstra bit som kreves for å anvende metoden. Antatt at samme bitrate anvendes som ved ordinær innkoding/dekoding svarer for eksempel høyere bitratekrav generelt til lavere kvalitet under ordinær dekoding fordi flere bit anvendes for redundant koding, slik at færre bit kan anvendes for den ordinære innkodede informasjonen. Med effektiviteten av å redusere hukommelsesavhengighet menes effektiviteten til metoden i å bedre kvaliteten til den resulterende taleutmatingen når én eller flere foregående rammer er tapt. Med nyttigheten i gjenoppretting av én eller flere foregående rammer menes muligheten til å anvende den innkodede redundante informasjonen for å gjenopprette den ene eller de flere foregående rammene når den eller de foregående rammene er tapt. Konklusjonene i tabellen er generalisert, og gjelder ikke nødvendigvis spesifikke utførelser.
Koderen kan velge et hvilket som helst av de redundante kodingsskjema-ene for en hvilken som helst ramme dynamisk under innkoding. Redundant koding trenger ikke bli anvendt i det hele tatt for noen klasser av rammer (kan f.eks. bli anvendt for stemte rammer og ikke bli anvendt for lydløse eller ustemte rammer), og dersom redundant koding anvendes kan den bli anvendt på hver ramme, periodisk, for eksempel hver tiende ramme, eller på annen måte. Dette kan styres av en komponent så som hastighetsstyringskomponenten i henhold til faktorer så som avveiningene over, den tilgjengelige kanalbåndbredden og tilbakemelding fra dekoderen om pakketapsstatus.
E. Bitstrømformat for redundant koding
Den innkodede redundante informasjonen kan bli sendt i en rekke forskjellige formater i en bitstrøm. Det følgende er en utførelse av et format for å sende den innkodede redundante informasjonen beskrevet over og angi dens tilstedeværelse til en dekoder. I denne utførelsen innledes hver ramme i bitstrømmen med et to-bits felt kalt rammetype. Rammetypen anvendes for å identifisere redundant kodingsmodus for bit-feltene som følger, og den kan også anvendes for andre formål i forbindelse med innkoding og dekoding. Tabell 4 lister betydningen til rammetypefeltet.
Figur 10 viser fire forskjellige kombinasjoner av disse kodene i bitstrøm-rammeformatet som signaliserer at en ramme er en ordinær ramme og/eller de respektive typer av redundant koding. For en ordinær ramme (1010) som inneholder innkodet hovedinformasjon for rammen uten kodede redundante bit, etter-følges en bytegrense (1015) i begynnelsen av rammen av rammetypekoden 00. Rammetypekoden etterfølges av den innkodede hovedinformasjonen for en ordinær ramme.
For en ramme (1020) som inneholder primær redundant innkodet adaptiv kodebokhistorieinformasjon, etterfølges en bytegrense (1025) i begynnelsen av rammen av rammetypekoden 10, som angir tilstedeværelse av primær adaptiv kodebokhistorieinformasjon for rammen. Rammetypekoden etterfølges av en kodeenhet for en ramme med innkodet hovedinformasjon og adaptiv kodebokhistorieinformasjon.
Når sekundær redundant innkodet historieinformasjon er innlemmet i en ramme (1030), etterfølges bytegrensen (1035) i begynnelsen av rammen av en kodeenhet inkluderende en rammetypekode 00 (koden for en ordinær ramme) etterfulgt av innkodet hovedinformasjon for en ordinær ramme. Etter bytegrensen
(1045) i enden av den innkodede hovedinformasjonen inkluderer imidlertid en annen kodeenhet en rammetypekode 11 som angir at alternativ sekundær historieinformasjon (1040) (heller enn innkodet hovedinformasjon for en ramme) vil følge. Fordi den sekundære historieinformasjonen (1040) kun anvendes dersom den foregående rammen er tapt, kan en pakkettiseringsenhet eller en annen komponent bli gitt mulighet til å hoppe over informasjonen. Dette kan gjøres av forskjellige grunner, for eksempel når det totale bitratekravet må reduseres, pakketapsraten er lav eller den foregående rammen er inkludert i samme pakken som den gjeldende rammen. Alternativt kan en demultiplekser eller annen komponent bli gitt mulighet til å hoppe over den sekundære historieinformasjonen når den ordinære rammen (1030) er korrekt mottatt.
Tilsvarende, når innkodet redundant informasjon for et ekstra kodeboktrinn er innlemmet i en ramme (1050), etterfølges bytegrensen (1055) i begynnelsen av en kodeenhet av rammetypekoden 00 (koden for en ordinær ramme) etterfulgt av innkodet hovedinformasjon for en ordinær ramme. Etter bytegrensen (1065) i enden av den innkodede hovedinformasjonen følger imidlertid en annen kodeenhet som inkluderer rammetypekode 01 som angir alternativ at ekstra kodeboktrinninformasjon (1060) vil følge. Som med den sekundære historieinformasjonen anvendes ekstra kodeboktrinninformasjonen (1060) kun dersom den foregående rammen er tapt. Følgelig kan som for den sekundære historieinformasjonen en pakkettiseringsenhet eller en annen komponent bli gitt mulighet til å hoppe over den ekstra kodeboktrinninformasjonen, eller a demultiplekser eller annen komponent kan bli gitt mulighet til å hoppe over den ekstra kodeboktrinninformasjonen.
En applikasjon (f.eks. en applikasjon som tar seg av transportlag-pakettering) bestemme seg for å kombinere flere rammer for å danne en større pakke for å redusere antallet ekstra bitfelter nødvendig for pakkeheaderne. Innen for pakken kan applikasjonen bestemme rammegrensene ved å undersøke bit-strømmen. Figur 11 viser en mulig bitstrøm i én enkelt pakke (1100) med fire rammer (1110, 1120, 1130, 1140). Det kan antas at alle rammene innenfor den ene pakken vil bli mottatt om noen av dem mottas (dvs. ingen delvis datakorrumper-ing), og at latensen, eller pitchen, til den adaptive kodeboken typisk er mindre enn rammelengden. I dette eksempelet vil en eventuell alternativt innkodet redundant informasjon i ramme 2 (1120), ramme 3 (1130) og ramme 4 (1140) typisk bli anvendt fordi den foregående rammen alltid vil være tilgjengelig dersom den gjeldende rammen er mottatt. Følgelig kan den alternativt innkodede redundante informasjonen for alle utenom den første rammen i pakken (1100) fjernes. Dette resulterer i en kompakt pakke (1150) der ramme 1 (1160) inkluderer alternativ ekstra kodeboktrinninformasjon mens all alternativt innkodet redundant informasjon er fjernet fra de andre rammene (1170, 1180, 1190).
Dersom koderen anvender metoden med primær redundant historiekoding, vil ikke en applikasjon droppe eventuelle slike bit når den setter sammen rammer til i én enkelt pakke fordi den primære redundante historieinformasjonen anvendes uansett om den foregående rammen er tapt. Applikasjonen vil imidlertid kunne tvinge koderen til å kode en slik ramme som en ordinær ramme dersom den vet at rammen vil bli lagt inn i en multirammepakke og at den ikke vil være den første rammen i denne pakken.
Selv om figurene 10 og 11 og den tilhørende beskrivelsen viser byte-justerte grenser mellom rammer og informasjonstyper trenger ikke grensene være byte-justert. Videre viser figurene 10 og 11 og den tilhørende beskrivelsen eksempler på rammetypekoder og kombinasjoner av ramme typer. Alternativt kan en koder og dekoder anvende andre og/eller ytterligere rammetyper eller kombinasjoner av rammetyper.
Når nå oppfinnelsens prinsipper er beskrevet og illustrert med henvisning til beskrevne utførelsesformer vil det sees at de beskrevne utførelsesformene kan modifiseres i oppbygning og detalj uten å fjerne seg fra disse prinsippene. Det må forstås at programmene, prosessene eller metodene beskrevet her ikke er knyttet eller begrenset til noen som helst spesifikk type databehandlingsmiljø, dersom ikke annet er angitt. Forskjellige typer generelle eller spesialiserte databehandlings miljøer kan anvendes med eller utføre operasjoner i henhold til det som er beskrevet over. Elementer i de beskrevne utførelsesformer vist i programvare kan realiseres i maskinvare, og omvendt.

Claims (20)

1. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm for et lydsignal, der bit-strømmen omfatter: innkodet hovedinformasjon for en gjeldende ramme som refererer til et segment i en foregående ramme som skal anvendes ved dekoding av den gjeldende rammen, og innkodet redundant informasjon for dekoding av den gjeldende rammen, der den innkodede redundante informasjonen omfatter signalhistorieinformasjon for segmentet det refereres til i den foregående rammen, og mate ut et resultat.
2. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en sanntids taleinnkoder og resultatet er innkodet tale.
3. Fremgangsmåte ifølge krav 1, der signalhistorieinformasjonen omfatter eksitasjonshistorie for segmentet det refereres til, men ikke eksitasjonshistorie for ett eller flere segmenter i den foregående rammen som det ikke refereres til.
4. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter bruk av den innkodede redundante informasjonen ved dekoding av den gjeldende rammen uansett om den foregående rammen er tilgjengelig for dekoderen eller ikke.
5. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter bruk av den innkodede redundante informasjonen ved dekoding av den gjeldende rammen bare dersom den foregående rammen ikke er tilgjengelig for dekoderen.
6. Fremgangsmåte ifølge krav 1, der signalhistorieinformasjonen kodes med et kvalitetsnivå som velges i hvert fall delvis avhengig av sannsynligheten for behov for den innkodede redundante informasjonen ved dekoding av den gjeldende rammen.
7. Fremgangsmåte ifølge krav 1, der lydbehandlingsverktøyet er en taledekoder, og der behandlingen omfatter det å anvende den innkodede redundante informasjonen for å dekode den foregående rammen når den foregående rammen er utilgjengelig for dekoderen.
8. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm for et lydsignal, der bitstrømmen omfatter: innkodet hovedinformasjon for en gjeldende kodeenhet som refererer til et segment i en foregående kodeenhet som skal anvendes ved dekoding den gjeldende kodeenheten, og innkodet redundant informasjon for dekoding av den gjeldende kodeenheten, der den kodede redundante informasjonen omfatter én eller flere parametere for ett eller flere ekstra kodeboktrinn som skal anvendes ved dekoding av den gjeldende kodeenheten bare dersom den foregående kodeenheten ikke er tilgjengelig, og mate ut et resultat.
9. Fremgangsmåte ifølge krav 8, der den innkodede hovedinformasjonen for den gjeldende kodeenheten omfatter restsignalparametre som representerer én eller flere forskjeller mellom en rekonstruksjon av den gjeldende kodeenheten og en prediksjon av den gjeldende kodeenheten.
10. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en lydinnkoder, og behandling av bitstrømmen omfatter det å generere den alternativt innkodede redundante informasjonen, der det å generere den alternativt innkodede redundante informasjonen omfatter det å bestemme den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene i et lukket sløyfe-innkodersøk som antar ingen eksitasjonsinformasjon for den foregående kodeenheten.
11. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en taledekoder, dersom den foregående kodeenheten ikke er tilgjengelig for dekoderen, den ene eller de flere parametrene for kodeboken anvendes av dekoderen ved dekoding av den gjeldende kodeenheten, og dersom den foregående kodeenheten er tilgjengelig for dekoderen, den ene eller de flere parametrene for kodeboken ikke anvendes av dekoderen ved dekoding av den gjeldende kodeenheten.
12. Fremgangsmåte ifølge krav 8, der kodeboken er en fast kodebok i et fast kodeboktrinn som etterfølger et adaptivt kodeboktrinn, og der den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene omfatter en kodebokindeks og en gainverdi.
13. Fremgangsmåte ifølge krav 12, der én eller flere parametre for en adaptiv kodebok i det adaptive kodeboktrinnet representerer et eksitasjonssignal for den gjeldende kodeenheten med referanse til eksitasjonshistorien for den foregående kodeenheten, men der den ene eller de flere parametrene for den faste kodeboken representerer eksitasjonssignalet uten referanse til eksitasjonshistorien.
14. Fremgangsmåte ifølge krav 8, der: lydbehandlingsverktøyet er en lyddekoder, og behandling av bitstrømmen omfatter: dersom den foregående kodeenheten ikke er tilgjengelig, anvende i hvert fall noe av den innkodede hovedinformasjonen og den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene ved dekoding av den gjeldende kodeenheten, og dersom den foregående kodeenheten er tilgjengelig, anvende den innkodede hovedinformasjonen, men ikke den ene eller de flere parametrene for det ene eller de flere ekstra kodeboktrinnene, ved dekoding av den gjeldende kodeenheten.
15. Fremgangsmåte, omfattende: ved et lydbehandlingsverktøy, behandle en bitstrøm omfattende flere lydkodeenheter, der hver kodeenhet av de flere kodeenhetene omfatter et felt som angir: hvorvidt kodeenheten omfatter innkodet hovedinformasjon som representerer et segment i lydsignalet, og hvorvidt kodeenheten omfatter innkodet redundant informasjon til bruk ved dekoding av innkodet hovedinformasjon.
16. Fremgangsmåte ifølge krav 15, der feltet for hver kodeenhet angir hvorvidt kodeenheten omfatter: både innkodet hovedinformasjon og innkodet redundant informasjon, innkodet hovedinformasjon, men ingen innkodet redundant informasjon, eller innkodet redundant informasjon, men ingen innkodet hovedinformasjon.
17. Fremgangsmåte ifølge krav 15, der behandlingen omfatter det å pakettere hvert fall noen av de flere kodeenhetene, der hver pakketterte kodeenhet som omfatter innkodet redundant informasjon for dekoding av tilsvarende innkodet hovedinformasjon, men ikke omfatter den tilhørende innkodede hovedinformasjonen, innlemmes i en datapakke med den tilhørende innkodede hovedinformasjonen.
18. Fremgangsmåte ifølge krav 15, der behandlingen omfatter det å bestemme hvorvidt innkodet redundant informasjon i en gjeldende kodeenhet av de flere kodeenhetene er valgfri.
19. Fremgangsmåte ifølge krav 18, der behandlingen videre omfatter det å bestemme hvorvidt å pakkettere den innkodede redundante informasjonen i den gjeldende kodeenheten dersom den innkodede redundante informasjonen i den gjeldende kodeenheten er valgfri.
20. Fremgangsmåte ifølge krav 15, der, dersom en gjeldende kodeenhet av de flere kodeenhetene omfatter innkodet redundant informasjon, feltet for den gjeldende kodeenheten angir en klassifisering av den innkodede redundante informasjonen for den gjeldende kodeenheten.
NO20075782A 2005-05-31 2007-11-12 Subbånds talekodek med flertrinns kodebok og redundant koding NO339287B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/142,605 US7177804B2 (en) 2005-05-31 2005-05-31 Sub-band voice codec with multi-stage codebooks and redundant coding
PCT/US2006/012686 WO2006130229A1 (en) 2005-05-31 2006-04-05 Sub-band voice codec with multi-stage codebooks and redundant coding

Publications (2)

Publication Number Publication Date
NO20075782L NO20075782L (no) 2007-12-19
NO339287B1 true NO339287B1 (no) 2016-11-21

Family

ID=37464576

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20075782A NO339287B1 (no) 2005-05-31 2007-11-12 Subbånds talekodek med flertrinns kodebok og redundant koding

Country Status (19)

Country Link
US (4) US7177804B2 (no)
EP (2) EP1886306B1 (no)
JP (2) JP5123173B2 (no)
KR (1) KR101238583B1 (no)
CN (2) CN101996636B (no)
AT (1) ATE492014T1 (no)
AU (1) AU2006252965B2 (no)
BR (1) BRPI0610909A2 (no)
CA (1) CA2611829C (no)
DE (1) DE602006018908D1 (no)
ES (1) ES2358213T3 (no)
HK (1) HK1123621A1 (no)
IL (1) IL187196A (no)
NO (1) NO339287B1 (no)
NZ (1) NZ563462A (no)
PL (1) PL1886306T3 (no)
RU (1) RU2418324C2 (no)
TW (1) TWI413107B (no)
WO (1) WO2006130229A1 (no)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
EP1775718A4 (en) * 2004-07-22 2008-05-07 Fujitsu Ltd AUDIOCODING DEVICE AND AUDIOCODING METHOD
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US20070058530A1 (en) * 2005-09-14 2007-03-15 Sbc Knowledge Ventures, L.P. Apparatus, computer readable medium and method for redundant data stream control
US7664091B2 (en) * 2005-10-03 2010-02-16 Motorola, Inc. Method and apparatus for control channel transmission and reception
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8611300B2 (en) * 2006-01-18 2013-12-17 Motorola Mobility Llc Method and apparatus for conveying control channel information in OFDMA system
KR101366124B1 (ko) * 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US8306827B2 (en) * 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US9515843B2 (en) * 2006-06-22 2016-12-06 Broadcom Corporation Method and system for link adaptive Ethernet communications
WO2008002098A1 (en) * 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
US8005678B2 (en) 2006-08-15 2011-08-23 Broadcom Corporation Re-phasing of decoder states after packet loss
US20080084853A1 (en) 2006-10-04 2008-04-10 Motorola, Inc. Radio resource assignment in control channel in wireless communication systems
US7778307B2 (en) * 2006-10-04 2010-08-17 Motorola, Inc. Allocation of control channel for radio resource assignment in wireless communication systems
WO2008064697A1 (en) * 2006-11-29 2008-06-05 Loquendo S.P.A. Multicodebook source -dependent coding and decoding
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8000961B2 (en) * 2006-12-26 2011-08-16 Yang Gao Gain quantization system for speech coding to improve packet loss concealment
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
CN101622663B (zh) * 2007-03-02 2012-06-20 松下电器产业株式会社 编码装置以及编码方法
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
EP2381580A1 (en) * 2007-04-13 2011-10-26 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
CN101170554B (zh) * 2007-09-04 2012-07-04 萨摩亚商·繁星科技有限公司 资讯安全传递系统
US8422480B2 (en) * 2007-10-01 2013-04-16 Qualcomm Incorporated Acknowledge mode polling with immediate status report timing
CN101874266B (zh) * 2007-10-15 2012-11-28 Lg电子株式会社 用于处理信号的方法和装置
EP2224432B1 (en) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
JP4506870B2 (ja) * 2008-04-30 2010-07-21 ソニー株式会社 受信装置および受信方法、並びにプログラム
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20100027524A1 (en) * 2008-07-31 2010-02-04 Nokia Corporation Radio layer emulation of real time protocol sequence number and timestamp
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
US8156530B2 (en) 2008-12-17 2012-04-10 At&T Intellectual Property I, L.P. Method and apparatus for managing access plans
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
KR20140032013A (ko) * 2009-10-07 2014-03-13 니폰덴신뎅와 가부시키가이샤 무선 통신 시스템, 무선 중계국 장치, 무선 단말국 장치 및 무선 통신 방법
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
TWI484473B (zh) * 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
PT2559028E (pt) * 2010-04-14 2015-11-18 Voiceage Corp Livro de códigos de inovação combinados flexível e evolutivo a utilizar num codificador e descodificador celp
US8660195B2 (en) * 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
MY156027A (en) 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
ES2600313T3 (es) 2010-10-07 2017-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la estimación de nivel de tramas de audio codificadas en un dominio de flujo de bits
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US8976675B2 (en) * 2011-02-28 2015-03-10 Avaya Inc. Automatic modification of VOIP packet retransmission level based on the psycho-acoustic value of the packet
US9171549B2 (en) 2011-04-08 2015-10-27 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
NO2669468T3 (no) * 2011-05-11 2018-06-02
WO2012161675A1 (en) * 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
US9373335B2 (en) * 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
JP6173484B2 (ja) 2013-01-08 2017-08-02 ドルビー・インターナショナル・アーベー 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
RU2602332C1 (ru) * 2013-01-21 2016-11-20 Долби Лабораторис Лайсэнзин Корпорейшн Перекодировка метаданных
CN107257234B (zh) * 2013-01-21 2020-09-15 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
LT3511935T (lt) * 2014-04-17 2021-01-11 Voiceage Evs Llc Būdas, įrenginys ir kompiuteriu nuskaitoma neperkeliama atmintis garso signalų tiesinės prognozės kodavimui ir dekodavimui po perėjimo tarp kadrų su skirtingais mėginių ėmimo greičiais
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
US9893835B2 (en) * 2015-01-16 2018-02-13 Real-Time Innovations, Inc. Auto-tuning reliability protocol in pub-sub RTPS systems
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
AR106308A1 (es) 2015-10-08 2018-01-03 Dolby Int Ab Codificación en capas para representaciones de sonido o campo de sonido comprimidas
ES2903247T3 (es) 2015-10-08 2022-03-31 Dolby Int Ab Codificación en capas y estructura de datos para representaciones comprimidas de campo sonoro o sonido ambisónico de orden superior
US10049681B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
US10049682B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
CN107025125B (zh) * 2016-01-29 2019-10-22 上海大唐移动通信设备有限公司 一种原始码流解码方法和系统
CN107564535B (zh) * 2017-08-29 2020-09-01 中国人民解放军理工大学 一种分布式低速语音通话方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing
CN110910906A (zh) * 2019-11-12 2020-03-24 国网山东省电力公司临沂供电公司 基于电力内网的音频端点检测及降噪方法
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置
US20230154474A1 (en) * 2021-11-17 2023-05-18 Agora Lab, Inc. System and method for providing high quality audio communication over low bit rate connection
CN117558283B (zh) * 2024-01-12 2024-03-22 杭州国芯科技股份有限公司 一种多路多标准的音频解码系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding

Family Cites Families (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4802171A (en) * 1987-06-04 1989-01-31 Motorola, Inc. Method for error correction in digitally encoded speech
US4815134A (en) 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5664051A (en) 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
KR960013206B1 (ko) 1990-12-31 1996-10-02 박헌철 조립식 원적외선 사우나 욕실
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US20030075869A1 (en) * 1993-02-25 2003-04-24 Shuffle Master, Inc. Bet withdrawal casino game with wild symbol
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JP3277705B2 (ja) * 1994-07-27 2002-04-22 ソニー株式会社 情報符号化装置及び方法、並びに情報復号化装置及び方法
TW271524B (no) 1994-08-05 1996-03-01 Qualcomm Inc
US5699477A (en) 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5751903A (en) 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
FR2734389B1 (fr) 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5668925A (en) 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5664055A (en) 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5699485A (en) 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5774837A (en) 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
EP0763818B1 (en) 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5835495A (en) 1995-10-11 1998-11-10 Microsoft Corporation System and method for scaleable streamed audio transmission over a network
TW321810B (no) * 1995-10-26 1997-12-01 Sony Co Ltd
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6041345A (en) 1996-03-08 2000-03-21 Microsoft Corporation Active stream format for holding multiple media streams
SE506341C2 (sv) 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3335841B2 (ja) 1996-05-27 2002-10-21 日本電気株式会社 信号符号化装置
US5819298A (en) * 1996-06-24 1998-10-06 Sun Microsystems, Inc. File allocation tables with holes
JPH1078799A (ja) * 1996-09-04 1998-03-24 Fujitsu Ltd コードブック
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6317714B1 (en) 1997-02-04 2001-11-13 Microsoft Corporation Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6292834B1 (en) 1997-03-14 2001-09-18 Microsoft Corporation Dynamic bandwidth selection for efficient transmission of multimedia streams in a computer network
US6728775B1 (en) 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
EP0934638B1 (en) 1997-05-12 2008-10-08 Texas Instruments Incorporated Method and apparatus for superframe bit allocation in a discrete multitone (dmt) system
US6009122A (en) 1997-05-12 1999-12-28 Amati Communciations Corporation Method and apparatus for superframe bit allocation
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
FI973873A (fi) 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
EP1734512B1 (en) * 1997-10-22 2015-09-09 Godo Kaisha IP Bridge 1 CELP encoder and a method of CELP encoding
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US5870412A (en) * 1997-12-12 1999-02-09 3Com Corporation Forward error correction system for packet based real time media
US6351730B2 (en) 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6493665B1 (en) 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6385573B1 (en) 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
FR2784218B1 (fr) 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6289297B1 (en) 1998-10-09 2001-09-11 Microsoft Corporation Method for reconstructing a video frame received from a video source over a communication channel
US6438136B1 (en) 1998-10-09 2002-08-20 Microsoft Corporation Method for scheduling time slots in a communications network channel to support on-going video transmissions
JP4359949B2 (ja) 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6310915B1 (en) 1998-11-20 2001-10-30 Harmonic Inc. Video transcoder with bitstream look ahead for rate control and statistical multiplexing
US6226606B1 (en) 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6460153B1 (en) 1999-03-26 2002-10-01 Microsoft Corp. Apparatus and method for unequal error protection in multiple-description coding using overcomplete expansions
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6952668B1 (en) 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE59908889D1 (de) * 1999-06-18 2004-04-22 Alcatel Sa Gemeinsame Quellen- und Kanalcodierung
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6434247B1 (en) 1999-07-30 2002-08-13 Gn Resound A/S Feedback cancellation apparatus and methods utilizing adaptive reference filter mechanisms
US6721337B1 (en) * 1999-08-24 2004-04-13 Ibiquity Digital Corporation Method and apparatus for transmission and reception of compressed audio frames with prioritized messages for digital audio broadcasting
US6775649B1 (en) 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6313714B1 (en) * 1999-10-15 2001-11-06 Trw Inc. Waveguide coupler
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
US6621935B1 (en) 1999-12-03 2003-09-16 Microsoft Corporation System and method for robust image representation over error-prone channels
AU2547201A (en) * 2000-01-11 2001-07-24 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
GB2358558B (en) 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6732070B1 (en) 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
US6693964B1 (en) 2000-03-24 2004-02-17 Microsoft Corporation Methods and arrangements for compressing image based rendering data using multiple reference frame prediction techniques that support just-in-time rendering of an image
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6934678B1 (en) 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
EP1199709A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
US7065338B2 (en) * 2000-11-27 2006-06-20 Nippon Telegraph And Telephone Corporation Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
EP1356454B1 (en) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Wideband signal transmission system
US6614370B2 (en) 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US7151749B2 (en) 2001-06-14 2006-12-19 Microsoft Corporation Method and System for providing adaptive bandwidth control for real-time communication
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US7277554B2 (en) * 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6801510B2 (en) * 2001-10-11 2004-10-05 Interdigital Technology Corporation System and method for using unused arbitrary bits in the data field of a special burst
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US6647366B2 (en) 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
US6789123B2 (en) 2001-12-28 2004-09-07 Microsoft Corporation System and method for delivery of dynamically scalable audio/video content over a network
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
ATE396537T1 (de) * 2004-01-19 2008-06-15 Nxp Bv System für die audiosignalverarbeitung
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7362819B2 (en) 2004-06-16 2008-04-22 Lucent Technologies Inc. Device and method for reducing peaks of a composite signal
US7246037B2 (en) 2004-07-19 2007-07-17 Eberle Design, Inc. Methods and apparatus for an improved signal monitor
MX2007012187A (es) 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding

Also Published As

Publication number Publication date
US20060271355A1 (en) 2006-11-30
US7280960B2 (en) 2007-10-09
CA2611829C (en) 2014-08-19
JP2008546021A (ja) 2008-12-18
CN101996636B (zh) 2012-06-13
KR20080009205A (ko) 2008-01-25
ATE492014T1 (de) 2011-01-15
HK1123621A1 (en) 2009-06-19
NZ563462A (en) 2011-07-29
TW200641796A (en) 2006-12-01
IL187196A0 (en) 2008-02-09
IL187196A (en) 2014-02-27
DE602006018908D1 (de) 2011-01-27
EP1886306B1 (en) 2010-12-15
CN101996636A (zh) 2011-03-30
US20080040121A1 (en) 2008-02-14
TWI413107B (zh) 2013-10-21
KR101238583B1 (ko) 2013-02-28
AU2006252965B2 (en) 2011-03-03
US7904293B2 (en) 2011-03-08
US7177804B2 (en) 2007-02-13
PL1886306T3 (pl) 2011-11-30
AU2006252965A1 (en) 2006-12-07
CN101189662B (zh) 2012-09-05
ES2358213T3 (es) 2011-05-06
US20080040105A1 (en) 2008-02-14
NO20075782L (no) 2007-12-19
WO2006130229A1 (en) 2006-12-07
EP2282309A2 (en) 2011-02-09
US7734465B2 (en) 2010-06-08
BRPI0610909A2 (pt) 2008-12-02
EP1886306A4 (en) 2008-09-10
JP5186054B2 (ja) 2013-04-17
RU2007144493A (ru) 2009-06-10
JP5123173B2 (ja) 2013-01-16
RU2418324C2 (ru) 2011-05-10
EP2282309A3 (en) 2012-10-24
JP2012141649A (ja) 2012-07-26
EP1886306A1 (en) 2008-02-13
CN101189662A (zh) 2008-05-28
CA2611829A1 (en) 2006-12-07
US20060271357A1 (en) 2006-11-30

Similar Documents

Publication Publication Date Title
NO339287B1 (no) Subbånds talekodek med flertrinns kodebok og redundant koding
JP5165559B2 (ja) オーディオコーデックポストフィルタ
JP5072835B2 (ja) 堅牢なデコーダ
AU2014391078B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates

Legal Events

Date Code Title Description
CHAD Change of the owner's name or address (par. 44 patent law, par. patentforskriften)

Owner name: MICROSOFT TECHNOLOGY LICENSING, US