NO326724B1

NO326724B1 - Metode for entropikoding av transformasjonskoeffisienter i videokomprimeringssystemer

Info

Publication number: NO326724B1
Application number: NO20074463A
Authority: NO
Inventors: Gisle Bjontegaard
Original assignee: Tandberg Telecom As
Priority date: 2007-09-03
Filing date: 2007-09-03
Publication date: 2009-02-02
Also published as: NO20074463A; EP2196031B1; WO2009031904A2; WO2009031904A3; JP5145421B2; US20090116550A1; CN101836453A; CN101836453B; EP2196031A2; JP2010538575A

Abstract

Den foreliggende oppfinnelsen angår en fremgangsmåte for entropikoding av kvantifiserte transformasjonskoeffisienter når det for én eller annen grunn ikke er piksler tilgjengelig for prediksjon og VLC-kodene som er basert på statistikker for tilgjengelige prediksjonsdata er uhensiktsmessig lang. I samsvar med oppFinnelsen er det bestemt hvorvidt en situasjon av ingen tilgjengelige prediksjonspiksler inntreffer. Dersom det er slik settes en fast verdi inn i en blokk av piksler som så anvendes som prediksjonsblokk for utledning av residualblokken, som i sin tur transformeres og kvantifiseres. I den følgende entropikodingen anvendes så en VLC med et spesielt formål for å representere de lavfrekvente koeffisientene i de kvantifiserte transformasjonskoeffisientene.

Description

Teknisk område

Den foreliggende oppfinnelsen angår entropikoding av

transformasjonskoeffisientdata i videokomprimeringssystemer.

Bakgrunn

Overføring av levende bilder i sann tid er anvendt i flere applikasjoner som f.eks. videokonferanser, nettmøter, TV-kringkasting og videotelefoni.

Representasjon av levende bilder som krever bulkinformasjon som digital video beskrives imidlertid typisk ved representasjon av hver piksel i et bilde med 8 bits (1 byte). Slike ukomprimerte videodata resulterer i store bitvolumer, og kan ikke overføres over ordinære kommunikasjonsverkoverføringslinjer i sann tid på grunn av begrenset båndbredde.

Muliggjøring av sanntids videooverføring krever dermed i stor utstrekning datakomprimering. Datakomprimering kan imidlertid gå på akkord med bildekvalitet. Derfor er det gjort stor innsats i å utvikle komprimeringsteknikker som tillater sanntidsoverføring av høykvalitets video over dataforbindelser med begrenset båndbredde.

I videokomprimeringssystemer er hovedformålet å representere videoinformasjonen ved hjelp av så liten kapasitet som mulig. Kapasitet er definert i form av bits, enten som en konstant verdi eller som bits pr. tidsenhet. I de fleste tilfeller er hovedformålet å redusere antallet bits.

Mange videokomprimeringsstandarder har blitt utviklet gjennom de siste årene. Mange av disse metodene er standardiserte gjennom ISO (the International Standards Organization) eller ITU (the International Telecommunications Union). Ved siden av dette er et antall andre proprietære metoder utviklet. De viktigste standardiserte metodene er: ITU: H.261, H.262, H.263, H.264

ISO: MPEG1, MPEG2, MPEG4/AVC)

Det første trinnet i kodingsprosessen i samsvar med disse standardene er å dele opp bildet inn i kvadratiske blokker av piksler, f.eks. 16x16 eller 8x8 piksler. Dette gjøres for luminansinformasjon likesom for krominansinformasjon.

Den følgende prediksjonsprosessen reduserer vesentlig mengden bits som kreves og hvert bilde i en videosekvens som skal overføres. Den tar fordel av likheten av delene av sekvensen med andre deler av sekvensen og produserer en prediksjon for pikslene i blokken. Dette kan være basert på piksler i et allerede kodet/dekodet bilde (kalt interprediksjon) eller på allerede kodede/dekodede piksler i det samme bildet (intraprediksjon). Prediksjonen er hovedsakelig basert på vektorer som representerer bevegelser.

Siden prediktordelen er kjent for både koderen og dekoderen må kun forskjellen overføres. Denne forskjellen krever typisk mye mindre kapasitet for sin representasjon. Forskjellen mellom pikslene som skal kodes og de predikterte pikslene henvises ofte til som en residualverdi.

Residualverdien som representeres som en blokk av data (f.eks. 4x4 piksler) inneholder fortsatt intern korrelasjon. En velkjent fremgangsmåte for å ta fordel av dette er å utføre en todimensjonal blokktransformasjon. I H.263 anvendes en 8 x 8 diskret cosinustransformasjon (DCT) hvorved H.264 anvender en 4 x 4 heltallstype transformasjon. Dette transformerer 4x4 piksler til 4 x 4 transformasjonskoeffisienter og disse kan vanligvis være representert ved færre bits enn pikselrepresentasjonen. Transformasjonen av en 4 x 4 gruppering av piksler med intern korrelasjon vil sannsynligvis resultere i en 4 x 4 blokk av transformasjonskoeffisienter med mye færre ikke-nullverdier enn den originale 4 x 4 pikselblokken.

Direkte representasjon av transformasjonskoeffisientene er fortsatt for kostbart for mange applikasjoner. En kvantifiseringsprosess utføres for en ytterligere reduksjon av datarepresentasjonen. Dermed gjennomgår transformasjonskoeffisientene kvantifisering. En enkel versjon av kvantifisering er å dele parameterverdiene med et tall - noe som resulterer i et mindre tall som kan representeres med færre bits. Dette er hovedverktøyet for styring av bitproduksjonen og rekonstruert bildekvalitet. Det skal bemerkes at denne kvantifiseringsprosessen har som et resultat at den rekonstruerte videosekvensen er noe ulik den ukomprimerte sekvensen. Dette fenomenet henvises til som "koding med tap" (engelsk: "lossy coding").

Til slutt utføres en såkalt skanning av de todimensjonale

transformasjonskoeffisientdataene til et endimensjonalt sett av data, og det endimensjonale settet transformeres i samsvar med et entropikodingsskjema. Entropikoding impliserer tapsfri representasjon av de kvantifiserte transformasjonskoeffisientene.

Trinnene ovenfor er listet i en naturlig rekkefølge for koderen. Dekoderen vil til en viss grad utføre trinnene i motsatt rekkefølge og gjøre "inverse" operasjoner slik som invers transformasjon istedenfor transformasjon og dekvantifisering istedenfor kvantifisering.

Operasjonene ovenfor er avbildet i fig. 1. Entropiprosessen vil bli beskrevet ytterligere i detalj nedenfor. Transformasjonskoeffisientene avbildes vanligvis med lavfrekvenskoeffisienter (eller DC-koeffisienter) posisjonert i øvre venstre hjørne. Så øker den horisontale og vertikale romlige frekvensen til høyre og nedover. Skanningen som indikeres i fig. 1 er en skanning fra lave til høye romlige frekvenskoeffisienter, som normalt kalles en sikk-sakk-skanning. I entropikoding tan koeffisientene skannes i retninaen inHikert ved nilen snm henvises til snm en foroverskanning, men i andre tilfeller kan entropikodingen være mer effektiv dersom "invers skanning" (høy til lav frekvens) anvendes.

Etter kvantifisering av transformasjonskoeffisientene representert som heltall med fortegn. Disse tallene skal overføres til dekoderen uten modifikasjoner. Dette henvises til som en tapsfri representasjon eller koding.

Samtidig bør modellen for representasjon av transformasjonskoeffisientene resultere i bruken av så få bits som mulig. Følgelig anvendes entropikoding for utføring av en optimal representasjon basert på forventet frekvens av tilstedeværelse av hendelser. Dette er basert på statistikk utledet fra normalt bildeinnhold.

Statistikken anvendes til å utforme variabellengdekodingstabeller (VLC)-tabeller som skal anvendes for koding. Den grunnleggende ideen er å allokere korte kodeord for hyppige hendelser - alt gjort i samsvar med statistikkene.

Dette vil resultere i lav bitbruk så lenge som dataene som skal kodes passer noenlunde bra med de underliggende statistikkene. Dersom det motsatte er tilfelle, når svært utypiske data skal kodes, kan bruken av bits bli for høy. I situasjoner hvor dataene som skal kodes feiler og blir tilpasset med "normal"-statistikkene, vil hendelser som er representert med et større antall bits bli mer hyppige. Dette kan være situasjonen ved hurtige og varige lysendringer i miljøet hvor videobildet tas opp. Dette vil skade kvaliteten til det kodede/dekodede bildet ettersom kodingsprosessen automatisk vil justere kvantifiseringsintervallene for å overholde den hyppige tilstedeværelsen av lange kodeord.

Publikasjonen EP 1773071 viser en fremgangsmåte og anordning for tapsfri videokoding/-dekoding som anvender en residualblokk som resultat fra interprediksjon. Publikasjonen US 20070058715 viser en anordning og fremgangsmåte for intraprediksjonskoding/-dekoding. Publikasjonen US 20070098067 viser en fremgangsmåte og anordning for videokoding/-dekoding for forbedring av kompresjonseffektiviteten ved generering av en prediksjonsblokk.

Sammendrag av oppfinnelsen

Det er et formål med den foreliggende oppfinnelsen å tilveiebringe en forbedret entropikodingsfremgangsmåte sammenlignet med kjent teknikk som balanserer lav kompleksitet med høy ytelse. Egenskapene definert i de uavhengige kravene vedlagt karakteriserer denne fremgangsmåten.

Spesielt tilveiebringer oppfinnelsen en fremgangsmåte for koding/dekoding av kvantifiserte lavfrekvente og høyfrekvente transformasjonskoeffisienter som representerer en blokk av residualpikselverdier utledet ifra en tilsvarende blokk av nåværende pikselverdier og en blokk av predikerte verdier ved en entropikodings/- dekodingsprosedyre som representerer lavfrekvente transformasjonskoeffisienter og høyfrekvente koeffisenter i samsvar med en første VLC justert til forventet tilstedeværelse av koeffisientverdier, karakterisert ved følgende trinn: bestemmelse av hvorvidt blokken av prediksjonsverdier eksisterer eller kan utledes i samsvar med én eller flere forhåndsbestemte regler, dersom ikke så

sette inn en fast verdi i blokken av predikerte verdier

ved bruk av en andre VLC spesielt justert til forventet tilstedeværelse av koeffisientverdier når blokken av prediksjonsverdier er fast i representasjon av de lavfrekvente koeffisientene.

Kort beskrivelse av tegningene

For å gjøre oppfinnelsen lettere å forstå vil diskusjonen som følger henvise til de vedlagte tegningene. Fig. 1 viser et blokkdiagram som illustrerer hovedtrinnene av en kodingsprosess i samsvar med kjent teknikk, Fig. 2 viser en blokk i et venstre øvre hjørne av et bilde hvor ingen piksler for intraprediksjon er nødvendige, Fig. 3 er en tabell av VLC som anvendes i en PRED-modus i samsvar med eksemplarisk utførelsesform av den foreliggende oppfinnelsen, Fig. 4 er en tabell av VLC som anvendes i en NOPRED-modus i samsvar med et utførelseseksempel av den foreliggende oppfinnelsen.

Den foreliggende oppfinnelsen tilveiebringer en fremgangsmåte for entropikoding av kvantifiserte transformasjonskoeffisienter når det av en eller annen grunn ikke er noen piksler tilgjengelige for prediksjon og når VLC-kodene som er basert på statistikker for tilgjengelige prediksjonsdata er uventet lang. Den følgende beskrivelsen er basert på kodingssiden, men den foreliggende oppfinnelsen angår likeså dekodersiden.

En situasjon hvor ingen piksler er tilgjengelig for prediksjon kan inntreffe av flere grunner. Det kan være at det ikke finnes noen relevante tidligere pikseldata (inter eller intra) tilgjengelig for prediksjon.

På den andre siden, selv dersom interpikseldata er tilgjengelige, kan det fortsatt være mangel av piksler tilgjengelige for prediksjon, dersom det av én eller annen grunn kun er intraprediksjon som betraktes og det ikke er noen piksler over eller til venstre for blokken. Denne situasjonen er avbildet i eksemplet med den øvre venstre blokken av bildet i fig. 2.

Den samme situasjonen vil inntreffe dersom det er ønsket f.eks. av feiltoleranseformål å ikke anvende piksler som er eksterne i forhold til blokken for prediksjon.

I disse tilfellene hvor det ikke er noen prediksjon som inneholder informasjon er det vanlig å sette pikselprediksjonen til den midterste verdien av den maksimale verdien. I tilfelle 8 bit (0-255) pikselrepresentasjon settes pikselprediksjonen for hele blokken til 128. Siden dette vil resultere i høyere residualverdier enn vanlig vil de kvantifiserte lavfrekvente transformasjonskoeffisientene, og spesielt DC-koeffisientene, også være høyere enn det som vanligvis forventes. Resultatet kan være at entropikodingsmodellen produserer flere bits enn nødvendig.

I samsvar med én utførelsesform av den foreliggende oppfinnelsen overvåker koderen kontinuerlig hvorvidt det er en situasjon med "ingen prediksjon" eller ikke. En av de to overvåkede situasjonene inntreffer når fornuftig prediksjon er mulig eller entropikoding kan gjøres relativt godt med den normale entropikodingsprosedyren. Denne situasjonen er bemerket PRED.

Den andre situasjonen inntreffer når ingen relativt god prediksjon kan gjøres, dette fører til koding av hendelser som krever urimelig mange bits. Denne situasjonen er merket NOPRED.

Noen eksempler på situasjoner med NOPRED sett fra dekoderen er vist i det følgende.

Dekoderen vil først typisk motta informasjon fra en prediksjonsprosedyre som skal anvendes for en blokk. Dette kan typisk være én av følgende: 1) Ta gjennomsnittet av de rekonstruerte pikslene rett over og rett til venstre og bruk disse som prediksjon. 2) Bruk de rekonstruerte pikslene rett over for å prediktere alle pikslene i blokken. 3) Bruk de rekonstruerte pikslene rett til venstre for å prediktere alle pikslene i blokken. 4) I situasjoner når overføringsfeil er forventet kan indikasjonene være at ingen dekodede piksler skal anvendes for prediksjon - tilgjengelige eller ikke.

De rekonstruerte pikslene rett over og rett til venstre trenger ikke være tilgjengelige for prediksjon av ulike grunner:

a) Pikslene kan være utenfor bildet og derfor ikke tilgjengelige.

b) Bildet kan være delt i slisser for koding. Det kan være en regel at piksler utenfor slissen ikke kan anvendes for prediksjon. Dermed behøver ikke

pikslene være tilgjengelig for prediksjon dersom blokken som skal predikeres er på et slissegrensesnitt

c) Piksler rett til venstre behøver ikke være tilgjengelige fordi blokken til venstre blir prosessert i parallell med den nåværende blokken og de

rekonstruerte pikslene fra blokken til venstre er derfor ikke klare til å bli brukt til prediksjon.

Som det kan ses kan ulike kombinasjoner av 1-4 og a)-b) føre til situasjoner når koding av en blokk av piksler gjøres uten henvisning til noen dekodede piksler.

I samsvar med foreliggende utførelsesform av den foreliggende oppfinnelsen utføres bestemte trinn med spesielle formål når NOPRED detekteres.

I en NOPRED-situasjon settes først prediksjonen til en fast verdi. Med en 8 bits representasjon kan dette typisk være 128 som indikert ovenfor.

Til tross for manglende "reelle" prediksjonsdata settes koderen til en prediksjons/kodingsmodus slik at koderen/dekoderen vil anta at prediksjonsdataene fortsatt er tilgjengelige.

Så svitsjes koderen/dekoderen til en ulik entropikodingsstrategi hvor én eller et fåtall av de lavfrekvente koeffisientene kodes separat med VLC-tabeller utformet for denne situasjonen. Residualkoeffisientene er fortsatt kodet med den normale entropikodingsprosedyren, men med DC-koeffisientene satt til null. DC-koeffisientene er følgelig definert fra den spesielle DC-kodingen og alle de andre koeffisientene er definert ved den normale kodingen.

Når en PRED-situasjon overvåkes kodes alle koeffisientene imidlertid i samsvar med den normale prosedyren.

I PRED-situasjonen antas prediksjonen å være noenlunde god og dermed er residualverdien som skal kodes liten. De kvantifiserte verdiene som skal kodes vil være heltall og mange mindre tall som skal kodes. I denne situasjonen vil en kodetabell med noen korte kodeord være foretrukket. På den andre siden kan også store tall inntreffe nå og da og VLC-tabellen må ha muligheten til å kode også disse tallene. Disse situasjonene vil da kreve mange bits, men ettersom de er sjeldne vil det ikke koste så mye i bits. En mulig VLC som kan anvendes i en slik situasjon er vist i fig. 3, med koeffisientene i den venstre kolonnen og koden i den høyre kolonnen.

Dette kan gjennomsnittelig sett være den beste løsningen, og er de typiske karakteristikkene til en vanlig anvendt VLC-kode i normale situasjoner, og derav i PRED-situasjoner. Vanligvis er det svært små tall som skal kodes. Et stort tall slik som 40, vil på den andre siden kreve 40 bits for å kodes.

NOPRED-situasjonen vil nå betraktes, og som tidligere nevnt, betraktes kun kodingen av en DC-koeffisient. Siden det ikke er noen god prediksjon tilgjengelig anvendes den gjennomsnittelige verdien på 128 for pikselprediksjonen. Residualverdien som skal kodes for DC-koeffisienten i denne situasjonen er forventet å ha en mye større spredning enn i PRED-situasjonen. Dette betyr at tallene som skal kodes typisk er større og det er ikke noe tall som er forventet å inntreffe svært hyppig. Dermed kreves ikke korte kodeord for bestemte hendelser (og vil ikke være nyttige) for biteffektivitet. I denne situasjonen er en mer passende VLC vist i fig. 4.

I en slik VLC er det korteste kodeordet fire bits. På den andre siden trenger tallet 40 åtte bits. Tabellen kan følgelig bruke totalt sett færre bits for å kode et sett av tall med større spredning.

Den foreliggende oppfinnelsen er nyttig i situasjoner hvor det skjer ofte at ingen piksel er tilgjengelig for prediksjon av en blokk av piksler. Dette kan typisk skje når kodingen gjøres for å minimere innvirkningen av overføringsbitfeil. I slike situasjoner resulterer fremgangsmåten i en god sparing av bitbruk. På den samme tiden er implementeringskostnaden for fremgangsmåten minimal.

Claims

1. Fremgangsmåte for koding/dekoding av kvantifiserte lavfrekvente og høyfrekvente transformasjonskoeffisienter som representerer en blokk av residualpikselverdier utledet fra en tilsvarende blokk av nåværende pikselverdier og en blokk av predikerte verdier ved en entropikodings/dekodingsprosedyre som representerer lavfrekvente transformasjonskoeffisienter og høyfrekvente koeffisenter i samsvar med en første VLC justert til forventet tilstedeværelse av koeffisientverdier, karakterisert ved følgende trinn: bestemmelse av hvorvidt blokken av prediksjonsverdier eksisterer eller kan utledes i samsvar med én eller flere forhåndsbestemte regler, dersom ikke så sette inn en fast verdi i blokken av predikerte verdier ved bruk av en andre VLC spesielt justert til forventet tilstedeværelse av koeffisientverdier når blokken av prediksjonsverdier er fast i representasjon av de lavfrekvente koeffisientene.

2. Fremgangsmåte i samsvar med krav 1, karakterisert ved at trinnene ved bruk av en andre VLC videre omfatter trinnet: representasjon av de lavfrekvente og de høyfrekvente transformasjonskoeffisientene med et første og et andre sett av koeffisienter hvor de lavfrekvente transformasjonskoeffisientene hos det første settet av koeffisienter er representert ved den andre VLCen, de høye transformasjonskoeffisientene hos det første settet koeffisienter er lik null, de lavfrekvente transformasjonskoeffisientene fra det andre settet av koeffisienter er lik null og de høyfrekvente transformasjonskoeffisientene av det andre settet av koeffisienter er representert ved den første VLCen.

3. Fremgangsmåte i samsvar med krav 1 eller 2, karakterisert ved at den faste verdien er den midterste verdien av den maksimalt mulige koeffisientverdien.

4. Fremgangsmåte i samsvar med et av kravene ovenfor, karakterisert ved at den ene eller flere av de forhåndsbestemte reglene er én eller flere av følgende sett av regler: blokken av predikerte verdier er beregnet ved rekonstruerte piksler romlig rett over blokken, blokken av prediksjonsverdier er beregnet ved rekonstruerte piksler romlig rett til venstre for blokken, blokken av predikerte verdier er beregnet ved gjennomsnittelig rekonstruering av piksler romlig rett over og rett til venstre for blokken, ingen dekodede piksler skal anvendes for prediksjon når overføringsfeil overføres.