NO321642B1

NO321642B1 - Fremgangsmate for koding av bildeutsnitt

Info

Publication number: NO321642B1
Application number: NO20044085A
Authority: NO
Inventors: Tom-Ivar Johansen
Original assignee: Tandberg Telecom As
Priority date: 2004-09-27
Filing date: 2004-09-27
Publication date: 2006-06-12
Also published as: CN101027905A; NO20044085L; US20060139466A1; US7679648B2; NO20044085D0; WO2006036066A1; EP1800477A4; EP1800477B1; JP2008515273A; CN101027905B; EP1800477A1

Description

O ppfinnelsens område

Oppfinnelsen relaterer seg til videokonferansesysterner og spesielt til fremgangsmåter ved videokomprimering og brukerkontroll av bildeutsnitt.

O ppfinnelsens bakgrunn

Sending av levende bilder i sanntid brukes innenfor flere applikasjoner, for eksempel videokonferanser, nettmøter, TV-kringkasting og videotelefoni.

Et konvensjonelt videokonferanseendepunkt inkluderer et ka-meralinse sys tem forbundet til en kamerabase og som kan ro-teres i forhold til kamerabasen for å innfange en interes-sant scene, slik som omgivelsene rundt et bord så vel som konferansedeltakerne selv. Kameralinsesysternet er typisk forbundet til kamerabasen på en slik måte at kameralinsesystemet er i stand til å beveges som respons på en eller flere kontrollsignaler. Ved å bevege kameralinsesystemet vil bildet av scenen som presenteres til fjernkonferanse-deltakerne {remote conference participants) endres i henhold til styresignalene.

Videre vil kameralinsesystemet kunne panorere, tilte og zoome inn og ut. "Panorering" refererer til en horisontal kamerabevegelse langs en akse {i.e.. X-aksen) enten fra høyre til venstre eller fra venstre til høyre. "Tilt" refererer seg til en vertikal kamerabevegelse langs en akse enten opp eller ned (i.e., Y-aksen). "Zoom" styrer bildeut-snittet (i.e., Z-aksen) for videobildet ved å variere brennvidden.

En linsemotor er koblet til linsemekanismen for mekanisk å endre bildefeltet ved å "zoome inn" og "zoome ut". Linsemotoren utfører zoomfunksjonen ved styring fra en linsekont-roller. Linsemotoren og andre motorer assosiert med kameraet (i.e., tiltemotor- og panoreringsmotor-driwerket) er elektromekaniske anordninger som bruker elektrisk energi for mekanisk å manipulere bildet som ses for eksempel av deltakere som befinner seg på et annet geografisk sted. Tiltmotoren og drivverket er inkludert i linsesystemet og frembringer et mekanisk middel for vertikalt å kunne bevege bildet som ses av fjerndeltakerne.

Videobildet innhentet av kameraet blir fremvist på vis-ningsorgan som drives på en fremvisningsmonitor enten lo-kalt og/eller ved fjernenden av konferansen. Fremvisnings-monitoren kan være et fjernsyn, datamaskin, et frittstående fremvisningsorgan (stand alone display e.g., en flytende-krystallskjerm, "LCD") eller lignende, og kan bli konfigu-rert for å motta brukerinnganger for å manipulere bilder som fremvises på fremvisningsorganet.

Det foreligger mange ulemper iboende i konvensjonelle kameraer som brukes i tradisjonelle telekonferanseapplikasjo-ner. Elektromekanisk panorerings-, tiltings- og zoomingsan-ordninger tilfører vesentlige kostnader til produksjonen av kameraene. Videre vil disse anordningene også gjøre den generelle påliteligheten til kameraet dårligere. Siden hvert element har sin egen feilrate, vil den generelle påliteligheten til kameraet bli ugunstig påvirket ved hver nye ekstra elektromekaniske anordning som legges til. Dette skyldes hovedsakelig at mekaniske anordninger er mer utsatt for bevegelsesinduserte feil enn ikke-bevegelige elektro-niske ekvivalenter.

Videre, på skiftet mellom forhåndsbilder assosiert ved for-håndsbestemte zoom- og størrelsessettinger for innfanging og fremvisning av bilder tar noe tid å justere inn. Dette skyldes primært tidsforsinkelse assosiert med mekaniske an-ordningers justering som er laget for å muliggjøre en svit-sjing mellom forhåndsbilder. For eksempel kan et maksimalt zoom-out bli forhåndsvist når en slår på et datakonferanse-system. En neste forhåndsvalgt knapp kan inkludere en for-håndsbestemt "panorering" til høyre ved "normal zoom<*->funk-sjon når den blir trykket inn. I et konvensjonelt kamera vil de mekaniske anordninger assosiert med endring av horisontal kamera- og zoomlinseposisjoneringer ta tid å justere til sine nye forhåndsvalgte nivåer, til ubeleilighet for fjerndeltakerne.

En annen ulempe ved konvensjonelle kameraer brukt i video-konferanseapplikasjoner er at kameraet primært er designet for å frembringe et bilde til en fjerndeltaker. Om en fremvisning med to bilder for eksempel var ønsket hos en fjerndeltaker, for eksempel et oversiktsbilde og et innzoomet bilde, så vil to uavhengige kameraer i drift være nødven-dig.

En deltaker i et ansikt-til-ansikts-møte vil vanligvis endre synsfelt. Typisk ved å fokusere på taleren, en av lytterne eller ved å forsøke å holde overblikk over alle/flere deltakere. Videokonferansesystemer i henhold til teknikkens stilling vil vanligvis bringe et bilde fra fjernsiden. Dette bildet er ofte en skalert versjon av ka-merainngangen. Ulempen er sølvfølgelig at et raskt skifte av synsfelt ikke er mulig.

US patentsøknad 10/358,758 fremviser en fremgangsmåte og et apparat for digital zoom, panorering og tilt innenfor en synlig vinkel av kameralinsen ved å begrense/øke antallet innfangede og overførte bilder som respons på et styrings-signal fra fjern- eller nærende. På denne måten vil brukeren kunne ha en følelse av å kontrollere kameraet uten at noen mekaniske endringer kreves. Imidlertid vil oppløs-ningen av bildedelene innenfor synsfeltet vil fremdeles være begrenset til mekanisk zoom av kameraet, og det er ingen skalering bortsett fra innfanging av flere eller færre av pikslene som er tilgjengelige fra sensoren i kameraet. I realiteten fremviser applikasjonen digital zoom i henhold til hvilken stilling brukt innenfor videokonferan-seapplikasj oner.

Sammendrag for oppfinnelsen

De ovenfor nevnte ulemper søkes avhjulpet i henhold til den foreliggende oppfinnelse ved en fremgangsmåte for å skaffe til veie et seksjonsinndelt videoutsnitt med en kontrollerbar zoom, panorering og tilting definert ved en grense innenfor et generelt videoutsnitt innfanget av et første kamera for et endepunkt ved å påfølgende innfange videobilder av oversiktsbildet som blir prosessert av en kodingsprosess for derved å skape et første kodet videosignal som representerer oversiktsbildet, som i det minste genererer et beregnet videobilde av et første nåværende videobilde og trekke det beregnede bildet fra det første nåværende videobilde der kodingsprosessen videre inkluderer trinnene å: motta et styresignal som definerer grensene innenfor oversiktsvideobildet,

ekstrahere et første sett av pikselverdier som ligger innenfor grensene i det første nåværende videobildet eller i et andre nåværende videobilde innfanget av et andre kamera,

skape en restverdi av det seksjonsinndelte videobilde ved å trekke fra et andre sett av pikselverdier fra nevnte første sett pikselverdier, og

skape et andre kodet videosignal som representerer det seksjonsinndelte videobildet ved videre å komprimere restverdien i henhold til kodingsprosessen.

Kort beskrivelse av te<g>ningene

For å gjøre oppfinnelsen enklere forståelig vil en i disku-sjonen som følger referere seg til de vedlagte tegninger. Figur 1 viser et eksempel på et oversiktsbilde med en in-teressant del indikert med et rektangel,

figur 2 viser et videokonferanseendepunkt som fremviser et oversiktsbilde og den interessante delen i forskjellige visninger,

figur 3 viser en illustrasjon av et første aspekt av en foretrukket utførelsesform ved den foreliggende oppfinnelsen,

figur 4 er en illustrasjon av det andre aspekt av en foretrukket utførelsesform av den foreliggende oppfinnelsen,

figur 5 er en prinsipiell illustrasjon av et eksempel av en kodek som utnytter foreliggende oppfinnelse.

Detaljert beskrivelse av den foreliggende oppfinnelse.

I det etterfølgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive en foretrukket utførelsesform og ved å referere til de vedlagte tegninger, men en fagmann på området vil innse at det finnes andre løsninger og modifi-kasjoner innenfor omfanget av oppfinnelsen som definert i de vedlagte selvstendige kravene. Gjennom beskrivelsen er ett utvalgt utsnitt behandlet. Oppfinnelsen er imidlertid tilsvarende anvendelig på flere valgte utsnitt.

Å representere bevegelige bilder krever en stor mengde informasjon da digital video typisk blir beskrevet ved hvert piksel i et bilde med 8 bits (1 Byte). Slike ukomprimerte videodata resulterer i store bitvolum og kan ikke overføres over konvensjonelle kommunikasjonsnettverk og transmisjons-linjer i sann tid som følge av begrenset båndbredde.

Således, å muliggjøre sanntidsvideotransmisjon krever en stor grad av datakomprimering. Vanlig videokodingsfrem-gangsmåte er beskrevet i standarder slik som MPEG2, MPEG4, ITO-T/H.261 til H.264. Videodata gjennomgår fire hovedpro-sesser før transmisjon, nemlig prediksjon, transformasjon, kvantisering og entropikoding.

Prediksjonsprosessen reduserer vesentlig mengden av bit som er nødvendig for at hvert bilde i en videosekvens skal kunne overføres. Den drar fordel av likheten av deler av sekvensen med andre deler av sekvensen. Siden predikajons-delen er kjent både for koder og dekoder vil kun forskjellen måtte overføres. Denne forskjellen krever typisk mye mindre kapasitet ved sin representasjon. Prediksjon blir vanligvis basert på bildeinnhold fra foregående rekonstru-erte bilder der lokasjonen av innholdet blir definert ved bevegeIsesvektorer.

Den foreliggende oppfinnelse utnytter karakteristikken for disse kodingsteknikker for å skape til veie en dual eller flere visninger av fjernendesiden ved nærendesiden, uten å kreve mer enn ett kamera ved fjernendesiden. For enkelt-hets skyld vil utføreIsesformen beskrevet heri anvende to visninger, selv om oppfinnelsen kan anvendes for flere visninger. Dualvisningen (the dual display) kan bli presen-tert ved nærendesiden ved enten to skjermer eller en splittskjerm. Den foreliggende oppfinnelse søker å bedre seerens fleksibilitet i forhold til hvilken del av kamera-inngangen han ønsker å ha en nærmere titt på.

I henhold til en foretrukket utførelsesform av oppfinnelsen viser et bilde et oversiktsbilde av en scene ved fjernendesiden (hovedbilde), for eksempel et møterom, mens et andre bilde viser et utsnitt av oversiktsbildet (valgt bilde). Figur l illustrerer en seksjon av en scene ved fjernendesiden som kameraet har innfanget. Innenfor hovedbildet er det valgte bildet indikert med et rektangel. Figur 2 viser et endepunkt ved nærendesiden med to monitorer der den ene viser hovedbildet og den andre viser det valgte utsnittet indikert ved rektangelet i figur 2.

I henhold til en foretrukket utførelsesform for den foreliggende oppfinnelse vil det valgte bildet kunne bli kodet basert på prediksjon av hovedbildet. Som nevnt over er et av trinnene for videokoding å anslå nåværende videobilde fra tidligere bilder som beskrevet, for eksempel innenfor ITU-T. Anbefaling H.264. Konvensjonelt er de beregnede verdier av alle piksler i et bilde trukket fra alle de vir-kelige pikselverdier for nåværende bilde. Den foretrukne utførelsesform for den foreliggende oppfinnelse skaffer til veie en separat ekstrahering av de anslåtte data for den forespurte delen av hovedbildet og trekker dette fra korresponderende rådata. Dette vil skape en restdatarepresentasjon for delutsnittet av interesse uten behov for en separat beregningsprosess (prediction process) for det valgte bildet. Prinsippet er illustrert i figur 3.

For at et utvalgt utsnitt skal representeres i stor stør-relse ved nærenden vil noen data eller prosessering måtte tilføyes til restdataene for å bedre lesbarheten, eller en skalering av prediksjonsdata i det korresponderende felt i hovedbildet skal fordelaktig utføres.

Som et eksempel på et første aspekt av den foretrukne utfø-relsesform av den foreliggende oppfinnelse, om hovedbildet har et CIF-format som er et standardisert videoformat på 352x288 piksler, vil det utvalgte bildet kunne bli ekstrahert som QCIF (176x144). For å kompensere for redusert oppløsning vil i det minste to mulige trinn for å tilveie-bringe tilleggsdata kunne bli utført. Et trinn er å øke rammeraten for utsnittet av interesse relativt til rammeraten for hovedbildet. Om rammeraten for hovedbildet er 15 rammer per sekund vil rammeraten for det valgte bildet kunne økes til 30 rammer per sekund. Idet delutsnittet normalt vil være et nærbilde av noe i hovedbildet, vil dette normalt inneholde mer bevegelse, og derfor vil en glattere utlesning være ønskelig. Et annet trinn er å endre kvantiseringsraten i kodingsprosessen. Som tidligere nevnt gjennomgår videodata kvantisering etter å ha trans-formert restdataene. Hensikten ved transformasjon er å re-dusere antallet ikke-null-verdier (non-zero values) som skal sendes uten å miste vesentlig informasjon, og hensikten ved kvantisering av de gjenværende verdier er å redu-sere antallet bit for å representere hver verdi. Noe informasjon blir derimot tapt i kvantiseringsprosessen, og jo større kvantiseringsintervall jo mer går tapt. Dette vil fremstå hos mottakeren som kvantiseringsstøy. For et "for-størret" bilde som for det utvalgte utsnittet i den foreliggende oppfinnelse vil kvantiseringsstøy til og med være enda mer forstyrrende. For å kompensere for dette vil transformerte restdata for delutsnittet kunne bli kvantifi-sert med en høyere oppløsning, dvs. med et mindre kvantifi-seringsintervall enn for hovedbildet. Dette vil kreve et datatillegg med et høyere antall bit per verdi, men delutsnittet kan på den annen side bli kodet i et format ved en lavere oppløsning, for eksempel i QCIF.

I et andre aspekt av den foretrukne utførelsesform av den foreliggende oppfinnelse har det utvalgte bildet en høyere oppløsning enn hovedbildet utnytter. Som et eksempel kan kameraet som innhenter bildet bli representert i et format med en høyere oppløsning enn det ene som brukes av koderen. Bilder innfanget av kameraet kan bli skaffet til veie i et VGA-format (640x480) og skaleres ned til CIF før koding, for eksempel ved respektivt å midle et sett pikselverdier i VGA-formatet til en verdi som representerer en piksel i CIF-format. Figur 4 illustrerer hvordan dette kan utnyttes ved den foreliggende oppfinnelse. På venstre side er det antydet et bilde i VGA format av hovedbildet innfanget av kameraet. Et rektangulært felt av piksler korresponderende til CIF-formatet er ekstrahert rundt det valgte utsnitt. Et korresponderende rektangulært felt innenfor hovedbildet av prediksjonsdata i CIF-format blir ekstrahert. Det ekst-raherte feltet blir så skalert for å matche CIF-formatet for ekstraheringen av VGA-bildet, fra hvilket det er fra-trukket. Skaleringsmekanismen kan være en hvilken som helst kjent type inkludert noen typer av interpolasjon. De resulterende restdata blir så videre kodet, sendt og til slutt dekodet av mottakeren i henhold til standarden som blir brukt.

I et tredje aspekt av den foreliggende oppfinnelse vil prediksjonsdata bli generert fra tidligere bilder av det valgte utsnitt i stedet for å ekstrahere data fra prediksjonen av hovedbildet. Prediksjonen kan bli oppnådd ved konvensjonell prediksjonsteknikk ved å bruke blant annet bevegelsesvektor, men blir separat utført for det valgte utsnitt. Om nødvendig vil prediksjonsdata bli skalert og deretter trukket fra de korresponderende råpikseldata i hovedbildet for således å skape restverdidata. En kombina-sjon av fremgangsmåten vil gi en enda bedre mulighet å håndtere forskjellige situasjoner slik som oppstart og men-nesker som beveger seg inn og ut av et utsnitt.

En alternativ utførelsesform ved den foreliggende oppfinnelse inkluderer et andre kamera som innfanger det samme bildet eller vesentlig det samme bildet som hovedbildet innfanget ved det første kameraet. Rådata for det utvalgte bildet blir så ekstrahert fra bildet innfanget fra det andre kameraet, mens korresponderende prediksjonsdata blir ekstrahert fra et utvalgt utsnitt i hovedbildet innfanget fra det første kameraet. Restverdidata for det valgte bildet blir så generert ved å trekke fra prediksjonsdata ekstrahert fra prediksjonen av hovedbildet innfanget av det første kameraet fra rådata ekstrahert fra utsnittet innfanget ved det andre kameraet. Dette vil også skape en restdatarepresentasjon for delutsnittet av interesse uten behovet for en separat prediksjonsprosess for det valgte utsnitt.

Valg av selektert utsnitt kan oppnås på samme måte som når en skaffer til veie zoom, tilting og panorering ved mekanisk å kontrollere kameraet, enten fra nærende- eller fjernendesiden. Zoom-, tilt- og panoreringsposisjoner kan bli styrt av en fjern- eller sporingsmekanisme på kameraet installert ved endepunktet. I tilfelle for den foreliggende oppfinnelse vil imidlertid utvalget ikke påvirke utsnittet som innfanges av kameraet, men posisjonen for gren-severdiene innenfor hovedutsnittet som definerer det utvalgte utsnitt. Når for eksempel en bruker trykker zoom-knappen på sin fjernkontroll vil vertikale og horisontale pikseladresser innenfor hovedbildet som representerer grensene for utsnittet av piksler som blir ekstrahert fra hovedbildet eller tilsvarende endres. En annen forbedring av denne oppfinnelsen er at når det valgte utsnittet beveger seg mot grensene for hovedbildet vil kameraet kunne fortel-les om å utføre en fysisk panorering og zoom, for bedre å vise omgivelsene for det valgte utsnitt i hovedbildet og å gi brukeren muligheten til å bevege seg videre. Posisjons-data for det valgt utsnittet vil så måtte rekalkuleres i henhold til den fysiske kamerabevegelsen.

Figur 5 viser hovedarkitekturen for et eksempel på en utfø-relsesform av den foreliggende oppfinnelsen. Her er råpikseldata for hovedbildet skaffet til veie fra den optiske inngangen (401). Pikseldata for nåværende videobilde blir lagret i en første minnekrets (403). Prediksjonsdata for det nåværende bildet blir lagret i en andre minnekrets

(404), og blir samtidig skaffet til veie fra kodingsproses-soren (406) basert på pikseldata for nåværende og foregående videobilde. Som indikert i figuren vil data for minnekrets ene være adresserbare for å tillate en kontroller

(402) å styre hvilke pikseldata som skal legges ut til koderprosessoren (406). Kontrolleren (402) er derfor i stand til å ekstrahere de nåværende pikseldata og de korresponderende prediksjonsdata for det valgte utsnitt kun fra respektive minnekretser basert på eksternt styresignal, for eksempel fra en fjernkontroll. Koderprosessoren er konfigu-rert for henholdsvis å skaffe til veie en subtraksjon av råpikseldata med korresponderende prediksjonsdata, og å frembringe nødvendig datatilføyelse eller skalering for de to aspektene ved foreliggende oppfinnelse. Fordelaktig vil koderprosessoren også utføre alle andre nødvendige kodings-trinn i henhold til standarden som brukes, og så sende ut valgte utsnitt (subsection) for hovedbildet i et kodet format.

Endepunktene i konferanseanropet vil utveksle videostrømmer og styresignaler. Styresignalene kan bli sendt innenbånds (in-band) slik at videostrømmer kan bestå av kommandoer, informasjon og videodata for tilgjengelige bilder. Kommando kan også bli sendt utenfor båndet (out of band) med videodata i én videostrøm, eller flere videostrømmer som dekker ett eller flere bilder.

Claims

1. En fremgangsmåte for å skaffe til veie et seksjonsinndelt videoutsnitt med en kontrollerbar zoom, panorering og tilting definert ved en grense innenfor et generelt videoutsnitt innfanget av et første kamera for et endepunkt ved å påfølgende innfange videobilder av oversiktsbildet som blir prosessert av en kodingsprosess for derved å skape et første kodet videosignal som representerer oversiktsbildet, som i det minste genererer et beregnet videobilde av et første nåværende videobilde og trekke det beregnede bildet fra det første nåværende videobilde; karakterisert ved at kodingsprosessen videre inkluderer trinnene å motta et styresignal som definerer grensene innenfor oversiktsvideobildet; ekstrahere et første sett av pikselverdier som ligger innenfor grensene i det første nåværende videobildet eller i et andre nåværende videobilde innfanget av et andre kamera; skape en restverdi av det seksjonsinndelte videobilde ved å trekke fra et andre sett av pikselverdier fra nevnte første sett pikselverdier og skape et andre kodet videosignal som representerer det seksjons inndelte videobildet ved videre å komprimere restverdien i henhold til kodingsprosessen.

2. Fremgangsmåte i henhold til krav 1, karakterisert ved at nevnte andre sett av pikselverdier er pikselverdier ekstrahert fra det predikerte videobilde som ligger innenfor nevnte grense.

3. Fremgangsmåte i henhold til krav 1, karakterisert ved at den videre inkluderer trinnene å: • sende det første og det andre kodede videosignal til et mottakerendepunkt, • dekode det første og andre kodede videosignal med en dekodingsprosess korresponderende til kodingsprosessen, resulterende i det vanlige videobildet og det seksjonsinndelte videobildet.

4. Fremgangsmåte i henhold til krav 3, karakterisert ved at den videre inkluderer trinnet: å fremvise det vanlige videobildet og det seksjonsinndelte videobildet på nevnte mottakerendepunkt.

5. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at kodingsprosessen videre inkluderer i det minste ett av de etterfølgende trinn: • skalere nevnte første sett av pikselverdier for å sam-menfalle med nevnte andre sett av pikselverdier, • skalere nevnte andre sett av pikselverdier for å sam-menfalle med nevnte første sett av pikselverdier.

6. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at kodingsprosessen videre inkluderer i det minste ett av de etterfølgende trinn: • å tilpasse en andre rammerate assosiert med nevnte andre kodede videosignal relativt til en første rammerate assosiert med første kodede videosignal, • å justere et andre antall av kvantiseringsintervaller assosiert med andre kodede videosignal relativt til et første antall av kvantiseringsintervaller assosiert med nevnte første kodede videosignal.

7. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at nevnte styresignal kommer fra en første utvalgt anordning forbundet til avsen-derendepunktet.

8. Fremgangsmåte i henhold til et av kravene 1-6, karakterisert ved at nevnte styresignal kommer fra en andre utvalgt anordning forbundet til nevnte mottakende endepunkt.

9. Fremgangsmåte i henhold til et av kravene 1-6, karakterisert ved at nevnte styresignal skaffes til veie ved en kamerasporingsmekanisme i avsender-endepunktet.

10. Fremgangsmåte i henhold til krav 7 eller 8, karakterisert ved at utvalgsanordningen er en fjernkontroll.