NO339086B1

NO339086B1 - Adaptiv ramme-/feltkoding på bildenivå for digitalt videoinnhold

Info

Publication number: NO339086B1
Application number: NO20042543A
Authority: NO
Inventors: Ajay Luthra; Limin Wang; Rajeev Gandhi; Krit Panusopone; Yue Yu
Original assignee: Motorola Mobility Llc
Priority date: 2001-11-21
Filing date: 2004-06-17
Publication date: 2016-11-14
Also published as: CA2468086C; CN100584028C; JP2005510984A; EP2268038A1; EP1459562A2; CA2468086A1; CN101715136A; KR20040068143A; MXPA04004723A; EP2285120A1; CN101715138A; CN101715138B; CN101715128B; KR20100047321A; CN1615656A; WO2003047271A3; CN101715137A; EP2276261A1; KR101076506B1; CN101715136B

Description

Foreliggende oppfinnelse angår koding og dekoding av digitalt videoinnhold. Mer bestemt angår foreliggende oppfinnelse koding og dekoding i rammemodus og feltmodus av digitalt videoinnhold på bildenivå slik det blir anvendt i MPEG-4 del 10 AVC/H.264 videokodingsstandarden.

Videokomprimering kan anvendes i mange nåtidige og kommende produkter. Det er således et vesentlig element for digitale fjernsyns-"set-top"-bokser (STB), digitalsatellittsystemer, (DDS), høydefinisjonstelevisjonsdekodere (HDTV), digitalvideoplatespillere (DVD), videokonferanser, internettvideo og multimediainnhold, og andre digitale videoapplikasjoner. Uten videokomprimering kan digitalt videoinnhold bli ekstremt stort, hvilket gjør det vanskelig eller kanskje også umulig at det digitale videoinnholdet kan bli lagret på effektiv måte, overført eller bli betraktet.

Det digitale videoinnholdet innbefatter en strøm av bilder som kan fremvises som et bilde på en televisjonsmottaker, en datamaskinskjerm eller en aller annen form for elektronisk innretning som er i stand til å fremvise digitalt videoinnhold. Et bilde som fremvises i tid før et bestemt bilde er i en "reversretnings"-forhold til det bestemte bildet. Likeledes gjelder at for et bilde som fremvises i tid etter et bestemt bilde er i foroverretningsforhold til det bestemte bildet.

Videokomprimering oppnås i en videokodingsprosess, i hvilken hvert bilde kodes som enten en ramme eller som to felt. Hver ramme innbefatter et antall linjer med romlig informasjon. Eksempelvis rommer en typisk ramme 480 horisontale linjer. Hvert felt rommer det halve av linjeantallet i rammen. Eksempelvis, hvis rammen innbefatter 480 horisontale linjer innbefatter hvert felt 240 horisontale linjer. I en typisk konfigurasjon innbefatter feltene de oddetallsnummererte linjene i rammen og det andre feltet innbefatter de liketallsnummererte linjene i rammen. Feltet som innbefatter de oddetallsnummererte linjene vil heretter og i de vedfølgende krav bli omtalt som "topp"-feltet, med mindre annet er spesielt angitt. Likeledes vil feltet som innbefatter de liketallsnummererte linjene heretter og i de vedfølgende krav bli omtalt som "bunn"-feltet, med mindre annet er spesielt angitt. De to feltene kan innfelles ("interlace") sammen for å danne en innfelt ramme.

Den generelle tanken bak videokoding er å fjerne data fra det digitale videoinnholdet som anses å være "uvesentlig". Den reduserte datamengden krever da mindre båndbredde for kringkasting eller overføring. Etter at de komprimerte videodata har blitt overført må de dekodes, eller dekomprimeres. I denne prosessen prosesseres de overførte videodata for å fremstille approksimasjonsdata som erstattes i videodataene for å erstatte de "uvesentlige" data som blir fjernet i kodingsprosessen.

Videokoding omformer digitalt videoinnhold til en komprimert form som kan lagres ved bruk av mindre plass og overført ved bruk av mindre båndbredde enn ukomprimert digitalt videoinnhold. Dette gjøres ved å dra fordel av tidsmessig og romlig redundans i videoinnholdets bilder. Det digitale videoinnholdet kan lagres på et lagringsmedium slik som et fastplatelager, en DVD eller en annen ikke-flyktig lagringsenhet.

Det foreligger et stort antall videokodingsmetoder som komprimerer det digitale videoinnholdet. Følgelig har det blitt utviklet videokodingsstandarder for å standardisere de forskjellige videokodingsfremgangsmåtene slik at det komprimerte digitale videoinnholdet gjengis i formater som en majoritet av videokodere og dekodere kan gjenkjenne. For eksempel har "the Motion Pecture Experts Group" (MPEG) og "International Telecommuncation Union (ITU-T) utviklet videokodingsstandarder som anvendes i stort omfang. Eksempler på disse standardene innbefatter standardene MPEG-1, MPEG-2, MPEG-4, ITU-T 7261 og ITU-T H263.

De fleste moderne videokodingsstandardene, slik som de som er utviklet av MPEG og ITU-T, er til dels basert på en algoritme for tidsmessig forutsigelse med bevegelseskompensasjon (MC). Tidsmessig forutsigelse, også kalt tidsmessige prediksjon, med bevegelseskompensasjon anvendes å fjerne tidsmessig redundans mellom påfølgende bilder i en digital videokringkasting.

Algoritmen for tidsmessig prediksjon med bevegelseskompensering benytter typisk et eller to referansebilder for å kode et bestemt bilde. Et referansebilde er et bilde som allerede har blitt kodet. Ved å sammenligne det bestemte bildet som skal kodes med et av referansebildene, kan algoritmen for tidsmessig prediksjon med bevegelseskompensasjon dra fordel av den tidsmessige redundans som eksisterer mellom referansebildet og det bestemte bildet som skal kodes og å kode bildet med en høyere komprimeringsgrad enn om bildet ble kodet uten å gjøre bruk av algoritmen for tidsmessig prediksjon med bevegelseskompensasjon. Et av referansebildene kan være i en reversretningsrelasjon til det bestemte bildet som skal kodes. Det andre referansebildet er i foroverretningsrelasjon til det bestemte bildet som skal kodes. Imidlertid etter som behovet for høyere oppløsninger, mer komplekst grafisk innhold og hurtigere overføringstid øker, øker også behovet for bedre videokomprimeringsmetoder. Til dette formål utvikles det for tiden en ny videokodingsstandard. Denne nye videokodingsstandarden kalles MPEG-4 delt 10 AVC/H.264.

Den nye standarden MPEG-4 del av AVC/H.264 utroper et antall nye fremgangsmåter i videokomprimering. Eksempelvis er en av de nye egenskapene ved den nye standarden MPEG-4 del 10 AVC/H.264 at den tillater multippelreferansebilder, i stedet for kun to referansebilder. Bruken av multiple referansebilder forbedrer ytelsen til algoritmen for tidsmessig prediksjon med bevegelseskompensering ved å sette koderen i stand til å finne det referansebildet som er mest likt det bildet som skal kodes. Ved bruk av referansebildet i kodingsprosessen som er mest sammenfallende med det bildet som skal kodes, muliggjøres den største komprimeringsgrad i koding av bildet. Referansebildene lagres i rammebuffere og/eller feltbuffere.

I publikasjonen: Borgwardt P: "Core Experiment on Interlaced Video Coding VCEG-N85" ITU-Telecommunications Standardization Sector ITU-T Q.6/SG16 Video Coding Expert Group (VCEG) Sep. 24-27, 2001, pp. 1-10, XP002257037 Santa Barbara, CA USA, omtales system og fremgangsmåte for koding av en bildesekvens med mangfold av bilder.

Som tidligere uttalt kan koderen kode et bilde som en ramme eller som to felt. En større komprimeringsgrad kunne blitt oppnådd hvis i en sekvens bilder som skal kodes, vil enkelte av bildene være kodet som rammer og enkelte av bildene er kodet som felt. Foreliggende oppfinnelse tilveiebringer en fremgangsmåte for koding av en bildesekvens med et mangfold av bilder, kjennetegnet ved trekk som er angitt i patentkrav 1.

Trekk ved utførelser av foreliggende oppfinnelses fremgangsmåte ifølge patentkrav 1 er angitt i patentkravene 2-10.

Foreliggende oppfinnelse tilveiebringer et apparat for koding av en bildesekvens med et mangfold av bilder, kjennetegnet ved trekk som er angitt i patentkrav 11.

Trekk ved utførelser av foreliggende oppfinnelses apparat ifølge patentkrav 11 er angitt i patentkravene 12-21.

Foreliggende oppfinnelse tilveiebringer en bitstrøm kjennetegnet ved trekk som er angitt i patentkrav 21, som omfatter en bildesekvens med et mangfold av bilder og kodet i samsvar med oppfinnelsens fremgangsmåte ifølge et av kravene 1-10.

I en av mange mulige legemliggjøringer tilveiebringer foreliggende oppfinnelse en fremgangsmåte for koding, dekoding og bitstrømgenerering av digitalt videoinnhold. Det digitale videoinnholdet innbefatter en strøm av bilder som hver kan være intrabilder, predikterte bilder eller bipredikterte bilder. Hver av bildene innbefatter makroblokker som videre kan deles i mindre blokker. Fremgangsmåten omfatter koding og dekoding av hvert bilde i strømmen av bilder i enten rammemodus eller feltmodus.

De vedfølgende tegninger illustrerer forskjellige legemliggjøringer av foreliggende oppfinnelse og utgjør en del av beskrivelsen. Sammen med den følgende beskrivelse demonstrerer og forklarer tegningene foreliggende oppfinnelses prinsipper. De illustrerte legemliggjøringene er eksempler på foreliggende oppfinnelse og er således ikke begrensende for oppfinnelsen. Figur 1 illustrerer et sekvenseksempel for tre typer av bilder som kan anvendes for å implementere foreliggende oppfinnelse, som definert ved et eksempel på en videokodingsstandard slik som standarden MPEG-4 del 10 AVC/H.264. Figur 2 viser at hvert bilde fortrinnsvis er delt i skiver som rommer makroblokker i samsvar med en legemliggjøring av foreliggende oppfinnelse. Figur 3a viser at en makroblokk videre kan deles i en blokkstørrelse på 16 ganger 8 piksler i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 3b viser at en makroblokk videre kan deles i en blokkstørrelse på 8 ganger 16 piksler i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 3 c viser at en makroblokk videre kan deles i en blokkstørrelse på 8 ganger 8 piksler i samsvar med en legemliggjøring av foreliggende oppfinnelse. Figur 3d viser at en makroblokk videre kan deles i en blokkstørrelse på 8 ganger 4 piksler i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 3e viser at en makroblokk videre kan deles i en blokkstørrelse på 4 ganger 8 piksler i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 3f viser at en makroblokk videre kan deles i en blokkstørrelse på 4 ganger 4 piksler i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 4 viser et bildekonstruksjonseksempel som anvender tidsmessig prediksjon med bevegelseskompensering som illustrerer en legemliggjøring av foreliggende oppfinnelse. Figur 5 viser et eksempel på en strøm av bilder som illustrerer en fordel ved bruk av multiple referansebilder i tidsmessig prediksjon med bevegelseskompensering i samsvar med en legemliggjøring av foreliggende oppfinnelse. Figur 6 illustrerer i henhold til en legemliggjøring av foreliggende oppfinnelse at et unikt referanserammenummer tildeles til hver referanseramme i rammebufferen i samsvar med dens avstand fra det aktuelle bildet som kodes i rammemodus. Figur 7a viser et eksempel på referansefeltnummereringskonfigurasjon hvor referansefeltene med samme feltparitet som det aktuelle feltet gis lavere numre enn deres korresponderende andre felt i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 7b viser et eksempel på referansefeltnummereringskonfigurasjon hvor det aktuelle feltet er det andre feltet i bildet som skal kodes som to felt. Figur 8 viser et alternativ til referansefeltnummereringskonfigurasjonen i feltbuffere i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 9 illustrerer en fremgangsmåte for direkte modusvektorberegning hvor både den aktuelle makroblokken og dens samlokaliserte makroblokk er i rammemodus. Figur 10 illustrerer en fremgangsmåte for direkte modusvektorberegning hvor både den aktuelle makroblokken og dens samlokaliserte makroblokk er i feltmodus. Figur 11 illustrerer en annen fremgangsmåte for direkte modusvektorberegning hvor både den aktuelle makroblokken og dens samlokaliserte makroblokk er i feltmodus. Figur 12 illustrerer en fremgangsmåte for direkte modusvektorberegning hvor den aktuelle blokken er i feltmodus og den samlokaliserte makroblokken er i rammemodus. Figur 13 illustrerer en fremgangsmåte for direkte modusvektorberegning hvor den aktuelle makroblokken er i rammemodus og dens samlokaliserte makroblokk er i feltmodus. Figur 14 viser et B-bilde med dets to referansebilder i tidsmessig foroverretning i samsvar med en legemliggjøring av foreliggende oppfinnelse. Figur 15 viser et B-bilde med dets to referansebilder i tidsmessig reversretning i henhold til en legemliggjøring av foreliggende oppfinnelse. Figur 16 viser et B-bilde med et foroverreferansebilde i tidsmessig foroverretning og et reversreferansebilde i tidsmessig reversretning.

I alle tegningene angir identiske henvisningstall tilsvarende, men ikke nødvendigvis identiske, elementer.

Foreliggende oppfinnelse tilveiebringer en fremgangsmåte for adaptiv ramme/felt (AFF)-koding av digitalt videoinnhold som innbefatter en strøm av bilder på et bildenivå. I AFF-koding på et bildenivå, kodes hvert bilde i en strøm av bilder som skal kodes i enten rammemodus eller feltmodus, uten hensyn til bildets ramme- eller feltkodingsmodus. Hvis et bilde er kodet i et rammemodus, samkodes de to feltene som utgjør en innfelt (interlaced) ramme. På den annen side, hvis et bilde er kodet i feltmodus, kodes de to feltene som utgjør en innfelt ramme på adskilt vis. Koderen bestemmer kodingstypen, rammemoduskoding eller feltmoduskoding, som er mest fordelaktig for hvert bilde og velger denne kodingstypen for bildet. Den nøyaktige fremgangsmåte for valg mellom rammemodus og feltmodus er ikke avgjørende for foreliggende oppfinnelse og vil ikke bli beskrevet her i nærmere detalj.

Som angitt over er standarden MPEG-4 del 10 AVC/H.264 en ny standard for å kode og komprimere digitalt videoinnhold. Dokumentene som etablerer standarden MPEG-4 del 10 AVC/H.264 er herved inkorporert ved henvisningen, og innbefatter "Joint Final Committee Draft (JFCD) of Joint Video Specification" som er utgitt av Joint Video Team (JVT) den 10. august 2002. (ITU-T anbefaling H.264 og ISO/IEC 14496-10 AVC). JVT består av eksperter fra ISO eller MPEG og ITU-T. På grunn av den offentlige karakter av standarden MPEG-4 del 10 AVC/H.264 vil foreliggende oppfinnelse ikke forsøke å dokumentere alle eksisterende aspekter ved videokoding i henhold til MPEG-4 del 10 AVC/H.264, og støtter seg i stedet på standardens inkorporerte spesifikasjoner.

Selv om denne fremgangsmåten med AFF-koding er kompatibel med og blir forklart ved bruk av standardretningslinjene i MPEG-4 del 10 AVC/H.264, kan den modifiseres og anvendes på best mulig måte for en bestemt standard eller anvendelse.

Ved bruk av tegningene vil de foretrukne legemliggjøringer av foreliggende oppfinnelse nå bli forklart.

Figur 1 illustrerer et eksempel på en sekvens med tre bildetyper som kan anvendes for å implementere foreliggende oppfinnelse, som definert av et eksempel på en videokodingsstandard slik som standarden MPEG-4 del AVC/H.264. Som tidligere nevnt koder koderen bildene og dekoderen dekoder bildene. Koderen eller dekoderen kan være prosessor, en applikasjonsbestemt integrert krets (ASIC), en feltprogrammerbar portarray (FPGA), en koder/dekoder (CODEC), en digital signalprosessor (DSP) eller en annen elektronisk innretning som er i stand til å kode en strøm av bilder. Imidlertid som anvendt i det heri etterfølgende og i de vedfølgende krav, med mindre annet er spesielt angitt, vil begrepet "koder" bli anvendt for å omtale i bredt omfang alle elektroniske innretninger som koder digitalt videoinnhold som innbefatter en strøm av bilder. Dessuten, som anvendt i det heri etterfølgende og i de vedfølgende krav, med mindre annet spesielt er angitt, vil begrepet "dekoder" bli anvendt for i bredt omfang å omtale alle elektroniske innretninger som dekoder digitalt videoinnhold som innbefatter en strøm av bilder.

Som vist i figur 1 foreligger fortrinnsvis tre bildetyper som kan anvendes i

videokodingsfremgangsmåten. Tre bildetyper er definert for å gi støtte for slumpaksess til lagret digitalt videoinnhold og å utforske maksimumsredundansreduksjonen ved bruk av tidsmessig forutsigelse med bevegelseskompensering. De tre bildetypene er intra (I)-bilder (100), predikterte bilder (P) (102a, b) og bi-predikterte (B) bilder (101a-d). Et I-bilde (100) tilveiebringer et aksesspunkt for slumptilgang til lagret digitalt videoinnhold og kan bli kodet kun med lett komprimering. Intrabilder (100) er kodet uten å vise til referansebilder.

Et prediktert bilde (102a, b) kodes ved bruk av et I-, P- eller B-bilde som allerede har blitt kodet som et referansebilde. Referansebildet kan være enten i tidsmessig foroverretning eller tidsmessig reversretning i forhold til P-bildet som skal kodes. De predikterte bildene (102a, b) kan kodes med mer komprimering enn intrabildene (100).

Et bi-prediktert bilde (101a-d) kodes ved bruk av to tidsforholdsreferansebilder: et foroverreferansebilde og et reversreferansebilde. Foroverreferansebildet blir noen ganger omtalt som fortidsreferansebildet og reversreferansebildet blir enkelte ganger omtalt som fremtidsreferansebildet. En legemliggjøring av foreliggende oppfinnelse innbefatter at foroverreferansebildet og reversreferansebildet kan være i den samme tidsmessige retning i forhold til B-bildet som skal kodes. Av de tre bildetypene kan de bi-predikterte bildene (101a-d) bli kodet med mest komprimering.

Referanseforholdene (103) mellom de tre bildetypene er illustrert i figur 1. Eksempelvis kan P-bildet (102a) bli kodet ved bruk av det kodede I-bildet (100) som sitt referansebilde. B-bildene (101 a-d) kan kodes ved bruk av det kodede I-bildet (100) eller det kodede P-bildet (102a) som sine referansebilder, slik det er vist i figur 1. Under prinsippene for en legemliggjøring av foreliggende oppfinnelse, kan kodede B-bilder (101a-b) også bli anvendt som referansebilder for andre B-bilder som skal kodes. Eksempelvis er B-bildet (101c) som er vist i figur 1 vist med to andre B-bilder (101b og 101d) som sine referansebilder.

Antallet og den bestemte rekkefølge for I-bildet (100), B-bildet (101 a-d) og P-bildet

(102a, b) som er vist i figur 1 er gitt som et eksempel på konfigurasjon av bilder, men er ikke nødvendig for implementering av foreliggende oppfinnelse. Ethvert antall av I-, B-og P-bilder kan anvendes i en hvilken som helst rekkefølge for best å tjene den bestemte anvendelse. Standarden MPEG-4 del 10 AVC/H.264 pålegger ingen begrensning på

antallet av B-bilder mellom to referansebilder og legger heller ingen grense på bildeantallet mellom to I-bilder. Figur 2 viser at hvert bilde (200) fortrinnsvis er delt i skiver (202). En skive (202) rommer en gruppe med makroblokker (202). En makroblokk (201) er en rektangulær pikselgruppe. Som vist i figur 2, er en foretrukket størrelse for en makroblokk (201) 16 ganger 16 piksler. Figurene 3a-f viser at en makroblokk videre kan deles i blokker av mindre størrelse. For eksempel, som vist i figurene 3a-f, kan en makroblokk videre bli delt i blokkstørrelser med 16 ganger 8 piksler (fig. 3a, 300), 8 ganger 16 piksler (fig. 3b, 301), 8 ganger 8 piksler (fig. 3c, 302), 8 ganger 4 piksler (fig. 3d, 303), 4 ganger 8 piksler (fig. 3e, 304) eller 4 ganger 4 piksler (fig. 3f, 305).

Figur 4 viser et eksempel på en bildekonstruksjon som gjør bruk av tidsmessig prediksjon med bevegelseskompensering som illustrerer en legemliggjøring av foreliggende oppfinnelse. Tidsmessig prediksjon med bevegelseskompensering antar at et aktuelt bilde, bilde N (400), kan bli modellert lokalt som en translasjon av et annet bilde, bilde N-l (401). Bildet N-l (401) er referansebildet for kodingen av bildet N

(400) og kan være i tidsmessig forover- eller reversretning i forhold til bildet N (400).

Som vist i figur 4 er hvert bilde fortrinnsvis delt i skiver som rommer makroblokker (201a, b). Bildet N-l (401) rommer et bilde (403) som skal vises i bildet N (400). Bildet (403) vil være i en annen tidsmessig posisjon (402) i bildet N (400) enn det er i bildet N-l (401), som vist i figur 4. Innholdet til hver makroblokk (201a) for bildet N

(400) predikteres fra bildeinnholdet til hver korresponderende makroblokk (201b) for bildet N-l (401) ved å estimere den nødvendige mengde tidsmessige bevegelse av bildeinnholdet til hver makroblokk (201b) for bildet N-l (401) for at bildet (403) skal bevege seg til sin nye tidsmessige posisjon (402) i bildet N (400). I stedet for originalbildet (402), blir forskjellen (404) mellom bildet (402) og dets prediksjon (403) faktisk kodet og overført.

For hvert bilde (402) i bilde N (400), kan den tidsmessige forutsigelsen ofte bli representert ved bevegelsesvektorer som representerer den mengde av tidsmessige bevegelse som er nødvendig for at bildet (403) skal bevege seg til den nye, tidsmessige posisjonen (402) i bildet N (400). Bevegelsesvektorene (406) som blir anvendt for tidsmessig forutsigelse med bevegelseskompensering må bli kodet og overført. Figur 4 viser at bildet (402) i bildet N (400) kan bli representert ved forskjellen (404) mellom bildet og dets prediksjon og de assosierte bevegelsesvektorene (406). Den eksakte fremgangsmåte for koding ved bruk av bevegelsesvektorer kan variere slik det best tjener i en bestemt anvendelse og kan enkelt implementeres av en fagkyndig på området. Figur 5 viser et eksempel på en strøm av bilder som illustrerer en fordel ved bruk av multippelreferansebilder i tidsmessig prediksjon med bevegelseskompensering i samsvar med en legemliggjøring av foreliggende oppfinnelse. Anvendelsen av multiple referansebilder øker sannsynligheten for at bildet N (400) som blir kodet med mest mulig komprimering. Bildene N-l (401), N-2 (500) og N-3 (501) har allerede blitt kodet i dette eksempelet. Som vist i figur 5 er et bilde (504) i bilde N-3 (501) mer likt bildet (402) i bilde N (400) enn det som er tilfellet for bildene (503, 502) i bildene N-2

(500) henholdsvis N-l (401). Bruken av flere referansebilder muliggjør koding av bildet N (400) ved bruk av bilde N-3 (501) som dets referansebilde i stedet for bilde N-l

(401). AFF koding på bildenivå av en strøm av bilder vil nå bli forklart i nærmere detalj. En ramme i en innfelt sekvens rommer to felt, nemlig toppfeltet og bunnfeltet, som er innfelt og adskilt i tid med en feltperiode. Feltperioden er halvparten av en rammeperiodes tid. I bildenivå-AFF-koding, kan de to feltene i en innfelt ramme bli kodet felles eller adskilt. Hvis de kodes felles anvendes rammemoduskoding. På den annen side, hvis de to feltene kodes adskilt, anvendes feltmoduskoding. Derimot koder fast ramme-/feltkoding alle bildene i en strøm av bilder i kun en modus. Denne modus kan være rammemodus eller den kan være feltmodus. Bildenivånivå-AFF er foretrukket for fast ramme-/feltkoding fordi det setter koden i stand til å velge den modus, rammemodus eller feltmodus, som skal anvendes for å kode hvert bilde i strømmen av bilder på grunnlag av innholdet i det digitale videomaterialet. Rammemoduskoding anvender bilder som allerede har blitt kodet som referanserammer. Referanserammene kan være enhver kodet I-, P- eller B-ramme. Referanserammene lagres i en rammebuffer som er en del av koderen. En legemliggjøring av foreliggende oppfinnelse omfatter et unikt referanserammenummer som blir tildelt til hver referanseramme i rammebufferen i henhold til dens avstand fra det aktuelle bildet som skal kodes i rammemodus, som vist i eksempelkonfigurasjonen i figur 6. Eksempelvis, som vist i figur 6, har et aktuelt bilde som skal kodes som en ramme (600) et antall referanserammer (0-5) i rammebufferen (601). Også vist i figur 6 er de korresponderende feltene (fl, f2) til den aktuelle rammen (600) og referanserammene (0-5). De stiplede linjene merket fl er første felt og de stiplede linjene merket f2 er andre felt. Et første felt er det første feltet som kodes i et tofeltsbilde. Likeledes er et andre felt det andre feltet som kodes i et tofeltsbilde. En legemliggjøring av foreliggende oppfinnelse omfatter at det første feltet kan være enten topp- eller bunnfeltet. I en annen legemliggjøring av foreliggende oppfinnelse kan det andre feltet også være enten topp- eller bunnfeltet. Rammene representeres ved heltrukne linjer. Som vist i figur 6 er referanserammen 0 tidsmessig den nærmeste rammen til den aktuelle rammen (600). Referanserammenummeret øker jo lenger referanserammen tidsmessig er fra den aktuelle rammen (600). Under prinsippene til en legemliggjøring av foreliggende oppfinnelse kan et B-bilde som kodes som en ramme ha flere forover- og reversreferansebilder. Unike numre tilordnes forover- og bakoverreferansebildene. I algoritmen for tidsmessig forutsigelse med bevegelseskompensering utføres sub-pel interpolering på hvert av pikslene i et bilde som kodes som en ramme. Innfylling ("padding") kan også anvendes på referansebilder som blir kodet som rammer ved å gjenta pikslene på rammegrensene. Innfylling er enkelte ganger ønskelig i algoritmen for tidsmessig forutsigelse med bevegelseskompensering. Sløyfefiltrering, eller deblokkeringsplaner, kan anvendes på rammeblokker, for å ta hensyn til pikselverdidiskontinuitet, på tilstøtende blokkers kanter. I henhold til en annen legemliggjøring av foreliggende oppfinnelse, kan en makroblokk i et P-bilde bli utelatt i AFF-koding. Hvis en makroblokk utelates, blir dennes data ikke overført i kodingen av bildet. En utelatt makroblokk i et P-bilde rekonstrueres ved å kopiere den samlokaliserte makroblokken med bevegelseskompensering i det mest nylig kodede I- eller P-referansebildet som har blitt kodet. Feltmoduskoding anvender bilder som allerede har blitt kodet som referansefelter. Referansefeltene kan være ethvert kodet I-felt, P-felt eller B-felt. Referansefeltene lagres i en feltbuffer som utgjør en del av koderen. En legemliggjøring av foreliggende oppfinnelse innbefatter at et unikt referansefeltnummer tilordnes til hvert referansefelt i feltbufferen i samsvar med dets avstand fra det aktuelle bildet som blir kodet som to felt. Figurene 7a og 7b viser eksempler på referansefeltnummereringskonfigurasjoner hvor referansefeltene med samme feltparitet som det aktuelle feltet blir gitt lavere numre enn sin korresponderende andre felt i samsvar med en legemliggjøring av foreliggende oppfinnelse. To felt har samme feltparitet hvis de begge er toppfelt eller hvis de begge er bunnfelt. Eksemplene vist i figurene 7a og 7b er også de første feltene i referansebildene toppfelt hvis det første feltet i det aktuelle bildet som skal kodes er et toppfelt. De andre feltene vil da være bunnfelt. De første feltene kan også alle være bunnfelt og de andre feltene kan også alle være toppfelt. Som vist i figur 7a har det aktuelle bildet som skal kodes i feltmodus et antall referansefelt (0-10) i feltbufferen (701). De stiplede linjene som er merket fl er første felt og de stiplede linjene som er merket f2 er andre felt. Rammene som korresponderer til feltene, er også vist i figur 7a og er representert ved heltrukne linjer. Som vist i figur 7a tilordnes det første feltet i det første bildet i feltbufferen (701) nummeret 0, hvis det aktuelle feltet (700) er det første feltet i bildet som skal kodes, mens det andre feltet i det første bildet i feltbufferen (701) tilordnes nummeret 1. Referansefeltnumrene øker jo lenger referansefeltene tidsmessig er fra det aktuelle feltet (700). De første feltene for bildene i feltbufferen har lavere referansenumre enn deres korresponderende andre felter. Figur 7b viser et eksempel på referansefeltnummereringsfeltkonfigurasjon hvor det aktuelle feltet (702) er andre feltet til bildet som skal kodes som to felt. De stiplede linjene merket fl er første felt og de stiplede linjene merket f2 er andre felt. Bildets første felt er allerede kodet. Som vist i figur 7b tilordnes andre feltet til det første bildet i feltbufferen (701) nummeret 0 fordi det aktuelle feltet (702) er et andre felt. Det aktuelle bildets andre felt tilordnes nummeret 0. Referansefeltnumrene øker desto lenger referansefeltene tidsmessig ligger fra det aktuelle feltet (702). Bildenes andre felt i feltbufferen har lavere referansenumre enn deres korresponderende første felt. Figur 8 viser en alternativ referansefeltnummereringskonfigurasjon i feltbufferen i samsvar med en legemliggjøring av foreliggende oppfinnelse. I denne konfigurasjonen gis ingen særbehandling av felt med samme feltparitet som det aktuelle feltet. Eksempelvis, som vist i figur 8, er det aktuelle feltet (800) et første felt. Det mest nylig kodede feltet til det mest nylig kodede bildet i feltbufferen tilordnes referansenummeret 0. Referansefeltnumrene øker desto lenger unna referansefeltene tidsmessig er fra det aktuelle feltet (800) uten hensyn til deres feltparitet. I henhold til en annen legemliggjøring av foreliggende oppfinnelse kan koderen anvende første feltet som er kodet som et referansefelt for kodingen av andre feltet hvis feltkoding er valgt av koderen for et bestemt P-bilde. Hvis bildet er et B-bilde, kan første feltet som er kodet anvendes som et av to referansefelt for koding av andre feltet. For adaptiv bi-prediksjon (ABP) kan de to referansebildene bli kodet i feltmodus. I dette tilfellet er de tidsmessige avstandene som blir anvendt for beregning av de skalerte bevegelsesvektorene i feltintervallet. I ABP-koding ligger begge referansebildene i samme retning. I algoritmen for tidsmessig forutsigelse med bevegelseskompensering utføres sub-pel interpolasjon på hvert av pikslene i et bilde som kodes i feltmodus. Innfylling ("padding") kan også anvendes på referansebilder som er kodet i feltmodus ved å gjenta pikslene på feltgrensene. Fylling er enkelte ganger ønskelig i algoritmen for tidsmessig forutsigelse med bevegelseskompensering. Sløyfefiltrering eller planer for deblokkering kan anvendes på feltblokker for å ta hensyn til pikselverdidiskontinuiteter ved tilstøtende blokkers kanter. I samsvar med en annen legemliggjøring av foreliggende oppfinnelse, kan en makroblokk i P-bildet utelates i AFF-koding. Hvis en makroblokk utelates, overføres dets data ikke i kodingen av bildet. En utelatt makroblokk i et P-bilde rekonstrueres ved å kopiere den samlokaliserte blokken med bevegelseskompensering i det mest nylig kodede I- eller P-referansefeltet i den samme feltpariteten. En annen legemliggjøring innbefatter at den utelatte makroblokken i P-bildet rekonstrueres ved å kopiere den samlokaliserte makroblokken i det mest nylig kodede referansefeltet, som kan ha en annen feltparitet. En annen legemliggjøring av foreliggende oppfinnelse er direkte moduskoding for B-bilder. I direkte moduskoding utledes foroverbevegelsesvektorene og bakoverbevegelsesvektorene for makroblokkene i et B-bilde fra bevegelsesvektorene som blir anvendt i de korresponderende eller samlokaliserte makroblokkene i et bakoverreferansebilde. Samlokaliserte makroblokker i to bilder opptar den samme geometriske posisjonen i begge bildene. Reversreferansebildet omtales enkelte ganger som et foroverreferansebilde, selv om i samsvar med legemliggjøring av foreliggende oppfinnelse bakoverreferansebildet ikke nødvendigvis tidsmessig ligger foran det aktuelle bildet som skal kodes. Direktemoduskoding er fordelaktig fremfor andre fremgangsmåter for koding fordi en makroblokk kan ha opp til 16 bevegelsesvektorer og opp til 4 referanserammer i intermoduskoding. Intermoduskoding koder en makroblokk ved bruk av tidsmessig forutsigelse med bevegelseskompensering. Hvis en makroblokk kodes ved bruk av interkoding tillater standarden MPEG-4 del 10 AVC/H.264 at hver av de seks mindre blokkstørrelsene vist i figur 3a-f (16 ganger 8 piksler, 8 ganger 16 piksler, 8 ganger 8 piksler, 8 ganger 4 piksler, 4 ganger 8 piksler og 4 ganger 4 piksler) å ha sine egne bevegelsesvektorer. En blokkstørrelse på 16 ganger 16 piksler kan også ha sin egen bevegelsesvektor. Standarden MPEG-4 del 10 AVC/H.264 tillater også at blokkstørrelsene på 16 ganger 16 piksler, 16 ganger 8 piksler, 8 ganger 16 piksler og 8 ganger 8 piksler kan ha sine egne referanserammer. Således kan en makroblokk ha opp til 16 bevegelsesvektorer og opp til 4 referanserammer. Med så mange mulige bevegelsesvektorer er det fordelaktig å utlede bevegelsesvektorene til en makroblokk som skal kodes fra bevegelsesvektorene til bakoverreferansebildets samlokaliserte makroblokk som allerede har blitt beregnet. I direkte moduskoding beregnes forover-og bakoverbevegelsesvektorene til en makroblokk som skal kodes som skalerte versjoner av foroverbevegelsesvektorene til den samlokaliserte makroblokken i bakoverreferansebildet. I AFF-koding på bildenivå kan et B-bilde og dets bakoverreferansebilde hver bli kodet i rammemodus eller i feltmodus. Uttrykt ved ramme- og feltkodingsmodi kan det således være fire forskjellige kombinasjoner for et par makroblokker i B-bildet og bakoverreferansebildets samlokaliserte makroblokk. I tilfelle 1 er både den aktuelle makroblokken og dens samlokaliserte makroblokk i rammemodus. I tilfelle 2 er den aktuelle makroblokken og dens samlokaliserte makroblokk i feltmodus. I tilfelle 3 er den aktuelle makroblokken i feltmodus og den samlokaliserte makroblokk i rammemodus. Avslutningsvis, i tilfelle 4, er den aktuelle makroblokken i rammemodus og dens samlokaliserte makroblokk er i feltmodus. Fremgangsmåten med direkte modusbevegelsesvektorberegning for makroblokkene som skal kodes forskjellig i hvert av de fire tilfellene. De fire fremgangsmåtene for direkte bevegelsesvektorberegning for makroblokker i B-bilde vil under bli beskrevet i nærmere detalj. Fremgangsmåten for direktemodusvektorberegning i tilfelle 1 vil bli beskrevet i sammenheng med figur 9. Som vist i figur 9, skal et aktuelt B-bilde (900) bli kodet i rammemodus ved bruk av et makroreferansebilde (901) som har blitt kodet i rammemodus og et foroverreferansebilde (902) som sine referansebilder. Rammene i figur 9 er representert med heltrukne vertikale linjer og deres korresponderende felt, fl og f2, er representert med stiplede vertikale linjer. I samsvar med en legemliggjøring av foreliggende oppfinnelse kan bakoverreferansebildet (901) være et I-bilde, P-bilde eller B-bilde som har blitt kodet i rammemodus. På tilsvarende måte kan foroverreferansebildet (902) også være et kodet I-bilde, P-bilde eller B-bilde. Som vist i figur 9 foreligger en blokk (903) i det aktuelle B-bildet (900) og dens samlokaliserte blokk (904) i bakoverreferansebildet (901). Blokken (903) og den samlokaliserte blokken (904) har like pikseldimensjoner. Disse dimensjonene kan være 16 ganger 16 piksler, 16 ganger 8 piksler, 8 ganger 16 piksler, 8 ganger 8 piksler, 8 ganger 4 piksler, 4 ganger 8 piksler eller 4 ganger 4 piksler. I samsvar med en legemliggjøring av foreliggende oppfinnelse utleder koderen to bevegelsesvektorer for blokken (903) i det aktuelle B-bildet (900) som blir anvendt i algoritmen for tidsmessig prediksjon med bevegelseskompensering. En av bevegelsesvektorene, MVf, peker til foroverreferansebildet (902). Den andre bevegelsesvektoren, MVbpeker til bakoverreferansebildet (901) som har blitt kodet i rammemodus. De to bevegelsesvektorene beregnes ved:

I ligningene 1 og 2 er TRbden tidsmessige avstanden, approksimering av den tidsmessige avstanden, proporsjonalavstand til den tidsmessige avstanden eller proporsjonalapproksimering til approksimeringen av den tidsmessige avstanden mellom det aktuelle B-bildet (900) som skal kodes i rammemodus og foroverreferansebildet

(902). TRder den tidsmessige avstanden, approksimering av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom foroverreferansebildet (902) og bakoverreferansebildet (901) som har blitt kodet i rammemodus. En foretrukket fremgangsmåte for å beregne de tidsmessige avstandene mellom referansebildene vil bli forklart under. MV er bevegelsesvektoren som allerede har blitt beregnet for den samlokaliserte blokken (904) i bakoverreferansebildet (901) og peker til foroverreferansebildet (902).

Fremgangsmåten for direktemodusvektorberegning i tilfelle 2 vil bli beskrevet i forbindelse med figur 10 og figur 11. Som vist i figur 10 og figur 11 skal et aktuelt B-bilde (900) kodes i feltmodus ved bruk av et bakoverreferansebilde (901) som har blitt kodet i feltmodus og et foroverreferansebilde (902) som sine referansebilder. Rammene i figur 10 og figur 11 er representert med heltrukne vertikale linjer og deres korresponderende felt, fl og f2, er representert med stiplede vertikale linjer. I henhold til en legemliggjøring av foreliggende oppfinnelse kan bakoverreferansebildet (901) være et I-bilde, P-bilde eller B-bilde som har blitt kodet i feltmodus. På tilsvarende måte kan foroverreferansebildet (902) også være et kodet I-bilde, P-bilde eller B-bilde.

Som vist i figur 10 foreligger en blokk (905) i det første feltet hos det aktuelle B-bildet

(900). Dens bevegelsesvektorer er utledet fra foroverbevegelsesvektoren MVifor dens samlokaliserte blokk (906) i bakoverreferansebildet (901). I samsvar med en legemliggjøring som er vist i figur 10, er den samlokaliserte blokken (906) et felt med samme paritet som blokken (905) i det aktuelle B-bildet (900). Blokken (905) og den samlokaliserte blokken (906) har like pikseldimensjoner. Disse dimensjonene kan være 16 ganger 16 piksler, 16 ganger 8 piksler, 8 ganger 16 piksler, 8 ganger 8 piksler, 8 ganger 4 piksler, 4 ganger 8 piksler eller 4 ganger 4 piksler.

I henhold til en legemliggjøring av foreliggende oppfinnelse, utleder koderen to bevegelsesvektorer for blokken (905) i det aktuelle B-bildet (900) som anvendes i algoritmen for tidsmessig prediksjon med bevegelseskompensering. En av bevegelsesvektorene, MVf,i, peker til feltet i foroverreferansebildet (902) som MVipeker til. Den andre bevegelsesvektoren, MVb,i, peker til feltet til den samlokaliserte blokken (906) i bakoverreferansebildet (901). De to bevegelsesvektorene beregnes ved:

I ligningene 3 og 4 er indeksen, /', feltindeksen. Første feltet har en feltindeks 1 og andre feltets feltindeks er 2. Således er i det eksempelscenariet som er vist i figur 10 feltindeksen 1 fordi det første feltet er kodet. MVier foroverbevegelsesvektoren til den samlokaliserte makroblokken i feltet /' til bakoverreferansebildet (901). TRB,ier den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av tidsavstanden mellom det /'-te feltet til det aktuelle B-bildet (900) og referansefeltet som blir pekt til av MVi. TRD,ier den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av tidsmessige avstanden mellom det /'-te feltet til bakoverreferansebildet (901) og referansefeltet pekt til av MVi.

Som vist i figur 10 forekommer en annen blokk (907) i det andre feltet til det aktuelle B-bildet (900). Den har en samlokalisert blokk (908) i bakoverreferansebildets (901) andre felt. Hvis foroverbevegelsesvektoren til den samlokaliserte blokken (908) peker til et tidligere kodet felt i et hvilket som helst annet bilde enn dens eget bilde følger beregningen av forover- og bakoverbevegelsesvektorene ligningene 3 og 4, med feltindeksen lik 2.

Imidlertid i henhold til en legemliggjøring av foreliggende oppfinnelse, kan foroverbevegelsesvektoren til den samlokaliserte blokken (908) gi bakoverreferansebildets (901) andre blokk også peke til det samme bakoverreferansebildets (901) første felt, slik det er vist i figur 11. Figur 11 viser at den samlokaliserte blokken (908) har en foroverbevegelsesvektor, MV2, som peker til bakoverreferansebildets (901) første felt. I dette tilfellet beregnes de to bevegelsesvektorene for den aktuelle blokken (907) som følger:

I ligningene 5 og 6, er TRb,2den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden, eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom det aktuelle B-bildets (900) andre felt og referansefeltet pekt til av MV2. TRD,2er den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom bakoverreferansebildets (901) andre felt og referansefeltet pekt til av MV2. I dette tilfellet som vist i figur 11, peker begge bevegelsesvektorene i reversretningen.

Fremgangsmåten for direktemodusvektorberegning i tilfelle 3 vil bli beskrevet i sammenheng med figur 12. Som vist i figur 12 skal et aktuelt B-bilde (900) kodes i feltmodus ved bruk av et bakoverreferansebilde (901) som har blitt kodet i rammemodus og et foroverreferansebilde (902) som sine referansebilder. Rammene i figur 12 er representert med heltrukne vertikallinjer og deres korresponderende felt, fl og f2, er representert ved stiplede vertikale linjer. I samsvar med en legemliggjøring av foreliggende oppfinnelse, kan bakoverreferansebildet (901) være et I-bilde, P-bilde eller B-bilde som har blitt kodet i rammemodus. På tilsvarende måte kan foroverreferansebildet (902) også være kodet et I-bilde, P-bilde eller B-bilde.

Som vist i figur 12 foreligger en blokk (905) i det aktuelle B-bildets (900) første felt. I samsvar med en legemliggjøring vist i figur 12, kodes den samlokaliserte blokken (904) i rammemodus. I samsvar med en legemliggjøring av foreliggende oppfinnelse utleder koderen to bevegelsesvektorer for blokken (905) i det aktuelle B-bildet (900) som blir anvendt i algoritmen for tidsmessig forutsigelse med bevegelseskompensering. Som vist i figur 12 peker en av bevegelsesvektorene, MVf,i, til feltet i foroverreferansebildet

(902) som har den samme paritet som den aktuelle blokkens (905) feltparitet. I eksempelet vist i figur 12, er den aktuelle blokken (905) i det aktuelle B-bildets (900) første felt. Den andre bevegelsesvektoren, MVd,i, peker til feltet med tilsvarende paritet i bakoverreferansebildet (901). De to bevegelsesvektorene beregnes ved:

I ligningene 7 og 8, utledes MV ved å dividere den samlokaliserte blokkens (904) rammebaserte foroverbevegelsesvektor med to i vertikalretningen. Dette kompenserer for den realitet at den samlokaliserte blokken (904) er i rammemodus mens den aktuelle blokken (905) er i feltmodus. Indeksen, /', er feltindeksen. Første feltet har en feltindeks lik 1 og andre feltets feltindeks er 2. I eksempelscenariet som er vist i figur 12, er således feltindeksen 1 fordi første feltet kodes. TRDer den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom bakoverreferansebildets (901) /'-te felt og foroverreferanserammens (902) /'-te felt. TRB,ier den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom det aktuelle B-bildets (900) /'-te felt og det /'-te feltet til referanserammen til den samlokaliserte blokken (904) i bakoverreferansebildet (901). De samme ligningene anvendes også for å beregne bevegelsesvektorene for blokken

(907) i det aktuelle B-bildets (900) andre felt.

Fremgangsmåten for direktemodusvektorberegning i tilfelle 4 vil bli beskrevet med henvisning til figur 13. Som vist i figur 13, skal et aktuelt B-bilde (900) kodes i rammemodus ved bruk av et bakoverreferansebilde (901) som har blitt kodet i feltmodus og et foroverreferansebilde (901) som sine referansebilder. Rammene i figur 13 er representert med heltrukne vertikale linjer og deres korresponderende felt, fl og f2, er representert ved stiplede vertikale linjer. I samsvar med en legemliggjøring av foreliggende oppfinnelse, kan bakoverreferansebildet (901) være et I-bilde, P-bilde eller B-bilde som har blitt kodet i feltmodus. På tilsvarende måte kan foroverreferansebildet

(902) også være et kodet I-bilde, P-bilde eller B-bilde.

Som vist i figur 13 foreligger en blokk (903) i det aktuelle B-bildet (900) som skal kodes som en ramme. Dens bevegelsesvektorer utledes fra foroverbevegelsesvektoren, MVi, til dens samlokaliserte blokk (906) i reversreferansebildet (901). I samsvar med en legemliggjøring av foreliggende oppfinnelse utleder koderen to bevegelsesvektorer for den aktuelle blokken (903) i det aktuelle B-bildet (900) som blir anvendt i algoritmen for tidsmessig forutsigelse med bevegelseskompensering. De to bevegelsesvektorene beregnes som følger:

I ligningene 9 og 10 utledes Mi ved å doble den feltbaserte bevegelsesvektoren til den samlokaliserte blokken (906) i bakoverreferansebildets (901) første felt i vertikalretningen. TRber den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden, eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom det nåværende B-bildet (900) og referanserammen (902) med ett av sine felt pekt på av foroverbevegelsesvektoren til den samlokaliserte blokken (906). I figur 13 er denne bevegelsesvektoren merket MVi. TRD,ier den tidsmessige avstanden, approksimeringen av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom bakoverreferansebildets (901) første felt og feltet i foroverreferansebildet (902) pekt på av foroverbevegelsesvektoren til den samlokaliserte blokken (906).

En annen legemliggjøring av foreliggende oppfinnelse utvider direkte moduskoding til P-bilder. I AFF-koding på bildenivået kan et P-bilde og dets foroverreferansebilde kodes i rammemodus eller i feltmodus. Uttrykt ved ramme- og feltkodingsmodi, kan det således være fire forskjellige kombinasjoner for et par av makroblokker i P-bildet og dens samlokaliserte makroblokk hos foroverreferansebildet. I tilfelle 1 er både den aktuelle makroblokken og dens samlokaliserte makroblokk i rammemodus. I tilfelle 2 er både den aktuelle makroblokken og dens samlokaliserte makroblokk i feltmodus. I tilfelle 3 er den aktuelle makroblokken i feltmodus og dens samlokaliserte makroblokk er i rammemodus. Til slutt, i tilfelle 4, er den aktuelle makroblokken i rammemodus og dens samlokaliserte makroblokk i feltmodus. Blokker i P-bilder har kun en bevegelsesvektor, en foroverbevegelsesvektor. Fremgangsmåten for direktemodusbevegelsesvektorberegning for makroblokkene som skal kodes er forskjellig i hvert av de fire tilfellene. De fire fremgangsmåtene for direktebevegelsesvektorberegning for makroblokker i et B-bilde vil bli beskrevet i nærmere detalj under.

I tilfelle 1 kodes både det aktuelle P-bildet og dets foroverreferansebilde i rammemodus. Foroverreferansebildet for en blokk i det aktuelle P-bildet har det samme bildet som er anvendt av dets samlokaliserte blokk i foroverreferansebildet. Den aktuelle blokkens foroverbevegelsesvektor, MVf, er den samme som dens samlokaliserte blokks foroverbevegelsesvektor.

I tilfelle 2 kodes både det aktuelle P-bildet og dets foroverreferansebilde i feltmodus. Bevegelsesvektoren i direktemoduskoding av en blokk i et felt hos det aktuelle P-bildet beregnes fra foroverbevegelsesvektoren til den samlokaliserte blokken i feltet med den samme paritet i foroverreferansebildet. Foroverbevegelsesvektoren, MVF,i, for blokken i det /'-te feltet til det aktuelle P-bildet er den samme som foroverbevegelsesvektoren til dens samlokaliserte blokk i foroverreferansebildets /'-te felt.

I tilfelle 3 er det aktuelle P-bildet i feltmodus og bakoverreferansebildet er i rammemodus. Etter som den samlokaliserte blokken til en blokk i et av feltene hos det aktuelle P-bildet er rammekodet, utledes foroverbevegelsesvektoren til en blokk i et av feltene hos det aktuelle P-Bildet ved å dividere den samlokaliserte blokkens bevegelsesvektor med to i vertikalretningen.

I tilfelle 4 er det aktuelle P-bildet i rammemodus og foroverreferansebildet er i feltmodus. Den samlokaliserte blokken i det første feltet hos foroverreferansebildet anvendes til beregning av foroverbevegelsesvektoren for blokken i det aktuelle P-bildet som er i rammemodus. Foroverbevegelsesvektoren, MVf, til en blokk i det aktuelle P-bildet i rammemodus utledes ved å doble den feltbaserte bevegelsesvektoren til den samlokaliserte blokken i det første feltet hos foroverreferansebildet i vertikalretningen.

En annen legemliggjøring av foreliggende oppfinnelse er multirammeinterpolerende prediksjonsmodus (MFIP). MFIP er et generelt rammeinterpolerende prediksjonsrammeverk. Som tidligere forklart har et B-bilde som kodes i rammemodus eller feltmodus to referansebilder som er kodet i rammemodus eller feltmodus. De to referansebildene kan begge være foroverreferansebilder, slik det er vist i figur 14. Figur 14 viser et B-bilde (140) som skal kodes som har to referansebilder. Et av referansebildene er et foroverreferansebilde (141) og de andre er et reversreferansebilde

(142). Som vist i figur 14, er de begge i den samme tidsmessige foroverretningen. De to referansebildene kan også begge være i tidsmessig reversretning, slik det er vist i figur 15.1 figur 15 har B-bildet (140) både sitt foroverreferansebilde (141) og sitt bakoverreferansebilde (142) i tidsmessig foroverretning. Figur 16 viser en annen legemliggjøring av foreliggende oppfinnelse. Som vist i figur 16 kan B-bildet (140) ha foroverreferansebildet (141) i tidsmessig foroverretning og bakoverreferansebildet (142) i tidsmessig bakoverretning.

I MFIP er et prediksjonssignal en lineærinterpolasjon av bevegelseskompenserte signaler. Prediksjonssignalet ( pred) i MFIP for et B-bilde beregnes som:

I ligning 11 er variablene ref og ref de to referansebildene. Variablene wjog w2er vektingsfaktorer. Variabelen d stilles til null som standard.

Lineærinterpolasjonskoeffisientenew;, w2, d kan bestemmes eksplisitt for hver makroblokk. Referansebildet, ref, er det referansebildet som ligger nærmere B-bildet uttrykt ved tidsmessig avstand hvis ref og ref2er forover- og bakoverreferansebilder. For bidireksjonale referansebilder er ref og ref2foroverreferansebilde henholdsvis bakoverreferansebilde.

Bevegelsesvektorene til en MFIP-makroblokk kodes relativt til hverandre. Bevegelsesvektoren til ref2, MV2, genereres ved å addere en forskyvning (offset) DMV til den skalerte bevegelsesvektoren til ref, MVived bruk av følgende ligning:

I ligning 12 er variabelen DMFdeltabevegelsesvektoren og er en forskyvning. Variablene TRi og TR2er tidsmessige avstander, approksimering av den tidsmessige avstanden, proporsjonalavstanden til den tidsmessige avstanden eller proporsjonalapproksimeringen til approksimeringen av den tidsmessige avstanden mellom det aktuelle bildet og det nærmeste referansebildet, ref, henholdsvis det mest fjerntliggende referansebilde, ref2.

I bildenivå-AFF kan et B-bilde bli kodet som et B-rammebilde eller to B-feltbilder. Regler for å håndtere MFIP i feltmodus, med det aktuelle B-bildet som skal kodes i feltstruktur er gitt under: Ligning 11 blir anvendt for å fremstille prediksjonssignal. Imidlertid er ref og ref feltene som indekseres ved referansefeltnumrene, refidxfwd og refidxbwd. Feltene refiog ref kan være topp- eller bunnfelt. Vektingsfaktorene wjog w2er (0,5, 0,5, 0) henholdsvis (2,-1, 0).

Ligning 12 anvendes for å fremstille MV2. Etter som begge referansebildene er i feltstruktur, bestemmes TRjog TR2på grunnlag av den tidsmessige avstanden mellom referansefeltene og de aktuelle feltene.

Kodenumrene for referansefeltnumrene, ref idx fwd og ref idx bwd, i MFIP-modus følger de kjente og normale konvensjonene for feltbilde.

Den tidsmessige avstanden mellom bilder i AFF-koding kan beregnes ved bruk av en variabel, tidsmessig referanse (TR) eller ved å telle bildenumrene og å beregne deres forskjeller. En legemliggjøring av foreliggende oppfinnelse innbefatter at TR inkrementeres med 1 pr. felt, og blir omslått ("wrapped") med en konstant (for eksempel 256) for bildenivå-AFF. TR er i feltintervall. La n være rammeindeksen eller rammenummeret. Variabelen n inkrementeres med 1 pr. ramme. Hvis en ramme med rammeindeks n kodes i rammemodus, er denne rammens TR lik 2n. Hvis en ramme med rammeindeks n kodes i feltmodus, er denne rammens første felt TR 2n og andre feltets TR er 2n+l.

Den forutgående beskrivelse er presentert kun for å illustrere og å beskrive legemliggjøringen for oppfinnelsen, og er ikke uttømmende eller begrensende for oppfinnelsen med hensyn til de spesielle former som her er beskrevet. Det er således mulig å utføre mange modifikasjoner og variasjoner på grunnlag av den beskrivelse som er gitt over.

Claims

1. Fremgangsmåte for koding av en bildesekvens med et mangfold av bilder,karakterisert vedat den omfatter å kode selektivt minst ett bilde i mangfoldet av bilder i en rammekodingsmodus, og å kode selektivt minst et annet bilde i mangfoldet av bilder i en feltkodingsmodus, hvori trinnene å kode i rammekodingsmodusen og å kode i feltkodingsmodusen hver inkluderer enten koding eller dekoding, hvori et gjeldende bilde i rammekodingen har minst én referanseramme, hvor hver av nevnte minst én referanseramme tilordnes et unikt referanserammenummer, og hvori et gjeldende felt til et gjeldende bilde i feltkodingsmodusen har minst ett referansefelt, hvor hvert av nevnte minst ett referansefelt tilordnes et unikt referansefeltnummer.

2. Fremgangsmåte ifølge krav 1,karakterisert vedat nevnte unike referanserammenummer tilordnet nevnte minst én referanseramme baseres på en tidsmessig avstand mellom nevnte minst én referanseramme og nevnte gjeldende bilde som blir kodet.

3. Fremgangsmåte ifølge krav 1,karakterisert vedat nevnte gjeldende bilde har flere fram- og tilbakereferansebilder, hvor hver av de nevnte referansebilder tilordnes et unikt referansenummer.

4. Fremgangsmåte ifølge krav 1,karakterisert vedat nevnte gjeldende felt har flere fram- og tilbakereferansefelt, hvor hver av nevnte referansefelt tilordnes et unikt referansenummer.

5. Fremgangsmåte ifølge krav 1,karakterisert vedat nevnte unike referansefeltnummer tilordnet nevnte minst ett referansefelt baseres på en tidsmessig avstand mellom nevnte minst ett referansefelt og nevnte gjeldende felt og en feltparitet til nevnte gjeldende felt, hvori nevnte gjeldende felt er enten et første felt eller et andre felt til nevnte gjeldende bilde.

6. Fremgangsmåte ifølge krav 5,karakterisert vedat gitt nevnte gjeldende felt, gis et referansefelt som er av samme feltparitet som den for nevnte gjeldende felt et mindre, unikt referansefeltnummer relativt sitt korresponderende andre referansefelt til et samme referansebilde.

7. Fremgangsmåte ifølge krav 6,karakterisert vedat hvis et første felt til nevnte gjeldende bilde skal kodes, så tilordnes et første referansebildes første felt et referansefeltnummer 0, mens et andre felt til nevnte første referansebilde som har blitt kodet tilordnes et referansefeltnummer 1.

8. Fremgangsmåte ifølge krav 6,karakterisert vedat hvis et andre felt til nevnte gjeldende bilde skal kodes, så tilordnes et første referansebildes andre felt et referansefeltnummer 0, mens et første felt til nevnte gjeldende bilde som er blitt kodet som et referansefelt tilordnes et referansefeltnummer 1.

9. Fremgangsmåte ifølge krav 6,karakterisert vedat nevnte unike referansefeltnummer tilordnet nevnte referansefelt baseres på en tidsmessig avstand mellom nevnte referansefelt og nevnte gjeldende felt, hvor nevnte gjeldende felt er et første felt eller et andre felt til nevnte gjeldende bilde.

10. Fremgangsmåte ifølge krav 9,karakterisert vedat et referansefelt som er tidsmessig nærmest nevnte gjeldende felt tilordnes et referansefeltnummer 0, mens et referansefelt som er tidsmessig nest nærmest nevnte gjeldende felt tilordnes et referansefeltnummer 1.

11. Apparat for å kode en bildesekvens med et mangfold av bilder,karakterisert vedat den omfatter en kodingsenhet konfigurert til å kode minst ett bilde i mangfoldet av bilder i en rammekodingsmodus, og minst ett bilde i mangfoldet av bilder i en feltkodingsmodus, hvori kodingsenheten er konfigurert til å utføre enten en av koding eller dekoding eller både koding og dekoding, og hvori et gjeldende bilde i rammekodingsmodusen har minst én referanseramme, hvor hver av nevnte minst én referanseramme tilordnes et unikt referanserammenummer, og hvori et gjeldende felt til et gjeldende bilde i feltkodingsmodusen har minst ett referansefelt, hvor hvert av nevnte minst ett referansefelt tilordnes et unikt referansefeltnummer.

12. Apparat ifølge krav 11,karakterisert vedat nevnte unike referansefeltnummer tilordnet nevnte minst én referanseramme er basert på en tidsmessig avstand mellom nevnte minst én referanseramme og nevnte gjeldende bilde som blir kodet.

13. Apparat ifølge krav 11,karakterisert vedat nevnte gjeldende bilde har flere fram- og tilbakereferansebilder, hvor hvert av nevnte referansebilder tilordnes et unikt referansenummer.

14. Apparat ifølge krav 11,karakterisert vedat nevnte gjeldende felt har flere fram- og tilbakereferansefelt, hvor hvert av nevnte referansefelt tilordnes et unikt referansenummer.

15. Apparat ifølge krav 11,karakterisert vedat nevnte unike referansefeltnummer tilordnet nevnte minst ett referansefelt er basert på en tidsmessig avstand mellom nevnte minst ett referansefelt og nevnte gjeldende felt og en feltparitet til nevnte gjeldende felt, hvori nevnte gjeldende felt er enten et første felt eller et andre felt til nevnte gjeldende bilde.

16. Apparat ifølge krav 15,karakterisert vedat gitt nevnte gjeldende felt, er et referansefelt som er av samme feltparitet som den for nevnte gjeldende felt gitt et mindre, unikt referansefeltnummer relativt sitt korresponderende andre referansefelt til et samme referansebilde.

17. Apparat ifølge krav 16,karakterisert vedat hvis en første felt av nevnte strøm bilde som skal kodes, er et første referansebildes første felt tilordnet et referansefeltnummer 0, mens et andre felt til nevnte første referansebilde som har blitt kodet er tilordnet et referansefeltnummer 1.

18. Apparat ifølge krav 16,karakterisert vedat hvis et andre felt til nevnte gjeldende bilde skal kodes, så er et første referansebildes andre felt tilordnet et referansefeltnummer 0, mens et første felt til nevnte gjeldende bilde som er blitt kodet som et referansefelt er tilordnet et referansefeltnummer 1.

19. Apparat ifølge krav 11,karakterisert vedat nevnte unike referansefeltnummer tilordnet nevnte referansefelt er basert på en tidsmessig avstand mellom nevnte referansefelt og nevnte gjeldende felt, hvor nevnte gjeldende felt er et første felt eller et andre felt til nevnte gjeldende bilde.

20. Apparat ifølge krav 19,karakterisert vedat et referansefelt som er tidsmessig nærmest nevnte gjeldende felt er tilordnet et referansefeltnummer 0, mens et referansefelt som er tidsmessig nest nærmest nevnte gjeldende felt er tilordnet et referansefeltnummer 1.

21. Bitstrøm,karakterisert vedat den omfatter en bildesekvens med et mangfold av bilder og kodet i samsvar med fremgangsmåten angitt i et av kravene 1 til 10, hvori minst ett bilde i mangfoldet av bilder er kodet i en rammekodingsmodus, og hvori minst ett bilde i mangfoldet av bilder er kodet i en feltkodingsmodus.