NO321642B1 - Fremgangsmate for koding av bildeutsnitt - Google Patents

Fremgangsmate for koding av bildeutsnitt Download PDF

Info

Publication number
NO321642B1
NO321642B1 NO20044085A NO20044085A NO321642B1 NO 321642 B1 NO321642 B1 NO 321642B1 NO 20044085 A NO20044085 A NO 20044085A NO 20044085 A NO20044085 A NO 20044085A NO 321642 B1 NO321642 B1 NO 321642B1
Authority
NO
Norway
Prior art keywords
image
video
video image
pixel values
camera
Prior art date
Application number
NO20044085A
Other languages
English (en)
Other versions
NO20044085L (no
NO20044085D0 (no
Inventor
Tom-Ivar Johansen
Original Assignee
Tandberg Telecom As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tandberg Telecom As filed Critical Tandberg Telecom As
Priority to NO20044085A priority Critical patent/NO321642B1/no
Publication of NO20044085D0 publication Critical patent/NO20044085D0/no
Priority to US11/233,498 priority patent/US7679648B2/en
Priority to JP2007533417A priority patent/JP2008515273A/ja
Priority to CN2005800326626A priority patent/CN101027905B/zh
Priority to EP05791830.2A priority patent/EP1800477B1/en
Priority to PCT/NO2005/000355 priority patent/WO2006036066A1/en
Publication of NO20044085L publication Critical patent/NO20044085L/no
Publication of NO321642B1 publication Critical patent/NO321642B1/no

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)

Description

O ppfinnelsens område
Oppfinnelsen relaterer seg til videokonferansesysterner og spesielt til fremgangsmåter ved videokomprimering og brukerkontroll av bildeutsnitt.
O ppfinnelsens bakgrunn
Sending av levende bilder i sanntid brukes innenfor flere applikasjoner, for eksempel videokonferanser, nettmøter, TV-kringkasting og videotelefoni.
Et konvensjonelt videokonferanseendepunkt inkluderer et ka-meralinse sys tem forbundet til en kamerabase og som kan ro-teres i forhold til kamerabasen for å innfange en interes-sant scene, slik som omgivelsene rundt et bord så vel som konferansedeltakerne selv. Kameralinsesysternet er typisk forbundet til kamerabasen på en slik måte at kameralinsesystemet er i stand til å beveges som respons på en eller flere kontrollsignaler. Ved å bevege kameralinsesystemet vil bildet av scenen som presenteres til fjernkonferanse-deltakerne {remote conference participants) endres i henhold til styresignalene.
Videre vil kameralinsesystemet kunne panorere, tilte og zoome inn og ut. "Panorering" refererer til en horisontal kamerabevegelse langs en akse {i.e.. X-aksen) enten fra høyre til venstre eller fra venstre til høyre. "Tilt" refererer seg til en vertikal kamerabevegelse langs en akse enten opp eller ned (i.e., Y-aksen). "Zoom" styrer bildeut-snittet (i.e., Z-aksen) for videobildet ved å variere brennvidden.
En linsemotor er koblet til linsemekanismen for mekanisk å endre bildefeltet ved å "zoome inn" og "zoome ut". Linsemotoren utfører zoomfunksjonen ved styring fra en linsekont-roller. Linsemotoren og andre motorer assosiert med kameraet (i.e., tiltemotor- og panoreringsmotor-driwerket) er elektromekaniske anordninger som bruker elektrisk energi for mekanisk å manipulere bildet som ses for eksempel av deltakere som befinner seg på et annet geografisk sted. Tiltmotoren og drivverket er inkludert i linsesystemet og frembringer et mekanisk middel for vertikalt å kunne bevege bildet som ses av fjerndeltakerne.
Videobildet innhentet av kameraet blir fremvist på vis-ningsorgan som drives på en fremvisningsmonitor enten lo-kalt og/eller ved fjernenden av konferansen. Fremvisnings-monitoren kan være et fjernsyn, datamaskin, et frittstående fremvisningsorgan (stand alone display e.g., en flytende-krystallskjerm, "LCD") eller lignende, og kan bli konfigu-rert for å motta brukerinnganger for å manipulere bilder som fremvises på fremvisningsorganet.
Det foreligger mange ulemper iboende i konvensjonelle kameraer som brukes i tradisjonelle telekonferanseapplikasjo-ner. Elektromekanisk panorerings-, tiltings- og zoomingsan-ordninger tilfører vesentlige kostnader til produksjonen av kameraene. Videre vil disse anordningene også gjøre den generelle påliteligheten til kameraet dårligere. Siden hvert element har sin egen feilrate, vil den generelle påliteligheten til kameraet bli ugunstig påvirket ved hver nye ekstra elektromekaniske anordning som legges til. Dette skyldes hovedsakelig at mekaniske anordninger er mer utsatt for bevegelsesinduserte feil enn ikke-bevegelige elektro-niske ekvivalenter.
Videre, på skiftet mellom forhåndsbilder assosiert ved for-håndsbestemte zoom- og størrelsessettinger for innfanging og fremvisning av bilder tar noe tid å justere inn. Dette skyldes primært tidsforsinkelse assosiert med mekaniske an-ordningers justering som er laget for å muliggjøre en svit-sjing mellom forhåndsbilder. For eksempel kan et maksimalt zoom-out bli forhåndsvist når en slår på et datakonferanse-system. En neste forhåndsvalgt knapp kan inkludere en for-håndsbestemt "panorering" til høyre ved "normal zoom<*->funk-sjon når den blir trykket inn. I et konvensjonelt kamera vil de mekaniske anordninger assosiert med endring av horisontal kamera- og zoomlinseposisjoneringer ta tid å justere til sine nye forhåndsvalgte nivåer, til ubeleilighet for fjerndeltakerne.
En annen ulempe ved konvensjonelle kameraer brukt i video-konferanseapplikasjoner er at kameraet primært er designet for å frembringe et bilde til en fjerndeltaker. Om en fremvisning med to bilder for eksempel var ønsket hos en fjerndeltaker, for eksempel et oversiktsbilde og et innzoomet bilde, så vil to uavhengige kameraer i drift være nødven-dig.
En deltaker i et ansikt-til-ansikts-møte vil vanligvis endre synsfelt. Typisk ved å fokusere på taleren, en av lytterne eller ved å forsøke å holde overblikk over alle/flere deltakere. Videokonferansesystemer i henhold til teknikkens stilling vil vanligvis bringe et bilde fra fjernsiden. Dette bildet er ofte en skalert versjon av ka-merainngangen. Ulempen er sølvfølgelig at et raskt skifte av synsfelt ikke er mulig.
US patentsøknad 10/358,758 fremviser en fremgangsmåte og et apparat for digital zoom, panorering og tilt innenfor en synlig vinkel av kameralinsen ved å begrense/øke antallet innfangede og overførte bilder som respons på et styrings-signal fra fjern- eller nærende. På denne måten vil brukeren kunne ha en følelse av å kontrollere kameraet uten at noen mekaniske endringer kreves. Imidlertid vil oppløs-ningen av bildedelene innenfor synsfeltet vil fremdeles være begrenset til mekanisk zoom av kameraet, og det er ingen skalering bortsett fra innfanging av flere eller færre av pikslene som er tilgjengelige fra sensoren i kameraet. I realiteten fremviser applikasjonen digital zoom i henhold til hvilken stilling brukt innenfor videokonferan-seapplikasj oner.
Sammendrag for oppfinnelsen
De ovenfor nevnte ulemper søkes avhjulpet i henhold til den foreliggende oppfinnelse ved en fremgangsmåte for å skaffe til veie et seksjonsinndelt videoutsnitt med en kontrollerbar zoom, panorering og tilting definert ved en grense innenfor et generelt videoutsnitt innfanget av et første kamera for et endepunkt ved å påfølgende innfange videobilder av oversiktsbildet som blir prosessert av en kodingsprosess for derved å skape et første kodet videosignal som representerer oversiktsbildet, som i det minste genererer et beregnet videobilde av et første nåværende videobilde og trekke det beregnede bildet fra det første nåværende videobilde der kodingsprosessen videre inkluderer trinnene å: motta et styresignal som definerer grensene innenfor oversiktsvideobildet,
ekstrahere et første sett av pikselverdier som ligger innenfor grensene i det første nåværende videobildet eller i et andre nåværende videobilde innfanget av et andre kamera,
skape en restverdi av det seksjonsinndelte videobilde ved å trekke fra et andre sett av pikselverdier fra nevnte første sett pikselverdier, og
skape et andre kodet videosignal som representerer det seksjonsinndelte videobildet ved videre å komprimere restverdien i henhold til kodingsprosessen.
Kort beskrivelse av te<g>ningene
For å gjøre oppfinnelsen enklere forståelig vil en i disku-sjonen som følger referere seg til de vedlagte tegninger. Figur 1 viser et eksempel på et oversiktsbilde med en in-teressant del indikert med et rektangel,
figur 2 viser et videokonferanseendepunkt som fremviser et oversiktsbilde og den interessante delen i forskjellige visninger,
figur 3 viser en illustrasjon av et første aspekt av en foretrukket utførelsesform ved den foreliggende oppfinnelsen,
figur 4 er en illustrasjon av det andre aspekt av en foretrukket utførelsesform av den foreliggende oppfinnelsen,
figur 5 er en prinsipiell illustrasjon av et eksempel av en kodek som utnytter foreliggende oppfinnelse.
Detaljert beskrivelse av den foreliggende oppfinnelse.
I det etterfølgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive en foretrukket utførelsesform og ved å referere til de vedlagte tegninger, men en fagmann på området vil innse at det finnes andre løsninger og modifi-kasjoner innenfor omfanget av oppfinnelsen som definert i de vedlagte selvstendige kravene. Gjennom beskrivelsen er ett utvalgt utsnitt behandlet. Oppfinnelsen er imidlertid tilsvarende anvendelig på flere valgte utsnitt.
Å representere bevegelige bilder krever en stor mengde informasjon da digital video typisk blir beskrevet ved hvert piksel i et bilde med 8 bits (1 Byte). Slike ukomprimerte videodata resulterer i store bitvolum og kan ikke overføres over konvensjonelle kommunikasjonsnettverk og transmisjons-linjer i sann tid som følge av begrenset båndbredde.
Således, å muliggjøre sanntidsvideotransmisjon krever en stor grad av datakomprimering. Vanlig videokodingsfrem-gangsmåte er beskrevet i standarder slik som MPEG2, MPEG4, ITO-T/H.261 til H.264. Videodata gjennomgår fire hovedpro-sesser før transmisjon, nemlig prediksjon, transformasjon, kvantisering og entropikoding.
Prediksjonsprosessen reduserer vesentlig mengden av bit som er nødvendig for at hvert bilde i en videosekvens skal kunne overføres. Den drar fordel av likheten av deler av sekvensen med andre deler av sekvensen. Siden predikajons-delen er kjent både for koder og dekoder vil kun forskjellen måtte overføres. Denne forskjellen krever typisk mye mindre kapasitet ved sin representasjon. Prediksjon blir vanligvis basert på bildeinnhold fra foregående rekonstru-erte bilder der lokasjonen av innholdet blir definert ved bevegeIsesvektorer.
Den foreliggende oppfinnelse utnytter karakteristikken for disse kodingsteknikker for å skape til veie en dual eller flere visninger av fjernendesiden ved nærendesiden, uten å kreve mer enn ett kamera ved fjernendesiden. For enkelt-hets skyld vil utføreIsesformen beskrevet heri anvende to visninger, selv om oppfinnelsen kan anvendes for flere visninger. Dualvisningen (the dual display) kan bli presen-tert ved nærendesiden ved enten to skjermer eller en splittskjerm. Den foreliggende oppfinnelse søker å bedre seerens fleksibilitet i forhold til hvilken del av kamera-inngangen han ønsker å ha en nærmere titt på.
I henhold til en foretrukket utførelsesform av oppfinnelsen viser et bilde et oversiktsbilde av en scene ved fjernendesiden (hovedbilde), for eksempel et møterom, mens et andre bilde viser et utsnitt av oversiktsbildet (valgt bilde). Figur l illustrerer en seksjon av en scene ved fjernendesiden som kameraet har innfanget. Innenfor hovedbildet er det valgte bildet indikert med et rektangel. Figur 2 viser et endepunkt ved nærendesiden med to monitorer der den ene viser hovedbildet og den andre viser det valgte utsnittet indikert ved rektangelet i figur 2.
I henhold til en foretrukket utførelsesform for den foreliggende oppfinnelse vil det valgte bildet kunne bli kodet basert på prediksjon av hovedbildet. Som nevnt over er et av trinnene for videokoding å anslå nåværende videobilde fra tidligere bilder som beskrevet, for eksempel innenfor ITU-T. Anbefaling H.264. Konvensjonelt er de beregnede verdier av alle piksler i et bilde trukket fra alle de vir-kelige pikselverdier for nåværende bilde. Den foretrukne utførelsesform for den foreliggende oppfinnelse skaffer til veie en separat ekstrahering av de anslåtte data for den forespurte delen av hovedbildet og trekker dette fra korresponderende rådata. Dette vil skape en restdatarepresentasjon for delutsnittet av interesse uten behov for en separat beregningsprosess (prediction process) for det valgte bildet. Prinsippet er illustrert i figur 3.
For at et utvalgt utsnitt skal representeres i stor stør-relse ved nærenden vil noen data eller prosessering måtte tilføyes til restdataene for å bedre lesbarheten, eller en skalering av prediksjonsdata i det korresponderende felt i hovedbildet skal fordelaktig utføres.
Som et eksempel på et første aspekt av den foretrukne utfø-relsesform av den foreliggende oppfinnelse, om hovedbildet har et CIF-format som er et standardisert videoformat på 352x288 piksler, vil det utvalgte bildet kunne bli ekstrahert som QCIF (176x144). For å kompensere for redusert oppløsning vil i det minste to mulige trinn for å tilveie-bringe tilleggsdata kunne bli utført. Et trinn er å øke rammeraten for utsnittet av interesse relativt til rammeraten for hovedbildet. Om rammeraten for hovedbildet er 15 rammer per sekund vil rammeraten for det valgte bildet kunne økes til 30 rammer per sekund. Idet delutsnittet normalt vil være et nærbilde av noe i hovedbildet, vil dette normalt inneholde mer bevegelse, og derfor vil en glattere utlesning være ønskelig. Et annet trinn er å endre kvantiseringsraten i kodingsprosessen. Som tidligere nevnt gjennomgår videodata kvantisering etter å ha trans-formert restdataene. Hensikten ved transformasjon er å re-dusere antallet ikke-null-verdier (non-zero values) som skal sendes uten å miste vesentlig informasjon, og hensikten ved kvantisering av de gjenværende verdier er å redu-sere antallet bit for å representere hver verdi. Noe informasjon blir derimot tapt i kvantiseringsprosessen, og jo større kvantiseringsintervall jo mer går tapt. Dette vil fremstå hos mottakeren som kvantiseringsstøy. For et "for-størret" bilde som for det utvalgte utsnittet i den foreliggende oppfinnelse vil kvantiseringsstøy til og med være enda mer forstyrrende. For å kompensere for dette vil transformerte restdata for delutsnittet kunne bli kvantifi-sert med en høyere oppløsning, dvs. med et mindre kvantifi-seringsintervall enn for hovedbildet. Dette vil kreve et datatillegg med et høyere antall bit per verdi, men delutsnittet kan på den annen side bli kodet i et format ved en lavere oppløsning, for eksempel i QCIF.
I et andre aspekt av den foretrukne utførelsesform av den foreliggende oppfinnelse har det utvalgte bildet en høyere oppløsning enn hovedbildet utnytter. Som et eksempel kan kameraet som innhenter bildet bli representert i et format med en høyere oppløsning enn det ene som brukes av koderen. Bilder innfanget av kameraet kan bli skaffet til veie i et VGA-format (640x480) og skaleres ned til CIF før koding, for eksempel ved respektivt å midle et sett pikselverdier i VGA-formatet til en verdi som representerer en piksel i CIF-format. Figur 4 illustrerer hvordan dette kan utnyttes ved den foreliggende oppfinnelse. På venstre side er det antydet et bilde i VGA format av hovedbildet innfanget av kameraet. Et rektangulært felt av piksler korresponderende til CIF-formatet er ekstrahert rundt det valgte utsnitt. Et korresponderende rektangulært felt innenfor hovedbildet av prediksjonsdata i CIF-format blir ekstrahert. Det ekst-raherte feltet blir så skalert for å matche CIF-formatet for ekstraheringen av VGA-bildet, fra hvilket det er fra-trukket. Skaleringsmekanismen kan være en hvilken som helst kjent type inkludert noen typer av interpolasjon. De resulterende restdata blir så videre kodet, sendt og til slutt dekodet av mottakeren i henhold til standarden som blir brukt.
I et tredje aspekt av den foreliggende oppfinnelse vil prediksjonsdata bli generert fra tidligere bilder av det valgte utsnitt i stedet for å ekstrahere data fra prediksjonen av hovedbildet. Prediksjonen kan bli oppnådd ved konvensjonell prediksjonsteknikk ved å bruke blant annet bevegelsesvektor, men blir separat utført for det valgte utsnitt. Om nødvendig vil prediksjonsdata bli skalert og deretter trukket fra de korresponderende råpikseldata i hovedbildet for således å skape restverdidata. En kombina-sjon av fremgangsmåten vil gi en enda bedre mulighet å håndtere forskjellige situasjoner slik som oppstart og men-nesker som beveger seg inn og ut av et utsnitt.
En alternativ utførelsesform ved den foreliggende oppfinnelse inkluderer et andre kamera som innfanger det samme bildet eller vesentlig det samme bildet som hovedbildet innfanget ved det første kameraet. Rådata for det utvalgte bildet blir så ekstrahert fra bildet innfanget fra det andre kameraet, mens korresponderende prediksjonsdata blir ekstrahert fra et utvalgt utsnitt i hovedbildet innfanget fra det første kameraet. Restverdidata for det valgte bildet blir så generert ved å trekke fra prediksjonsdata ekstrahert fra prediksjonen av hovedbildet innfanget av det første kameraet fra rådata ekstrahert fra utsnittet innfanget ved det andre kameraet. Dette vil også skape en restdatarepresentasjon for delutsnittet av interesse uten behovet for en separat prediksjonsprosess for det valgte utsnitt.
Valg av selektert utsnitt kan oppnås på samme måte som når en skaffer til veie zoom, tilting og panorering ved mekanisk å kontrollere kameraet, enten fra nærende- eller fjernendesiden. Zoom-, tilt- og panoreringsposisjoner kan bli styrt av en fjern- eller sporingsmekanisme på kameraet installert ved endepunktet. I tilfelle for den foreliggende oppfinnelse vil imidlertid utvalget ikke påvirke utsnittet som innfanges av kameraet, men posisjonen for gren-severdiene innenfor hovedutsnittet som definerer det utvalgte utsnitt. Når for eksempel en bruker trykker zoom-knappen på sin fjernkontroll vil vertikale og horisontale pikseladresser innenfor hovedbildet som representerer grensene for utsnittet av piksler som blir ekstrahert fra hovedbildet eller tilsvarende endres. En annen forbedring av denne oppfinnelsen er at når det valgte utsnittet beveger seg mot grensene for hovedbildet vil kameraet kunne fortel-les om å utføre en fysisk panorering og zoom, for bedre å vise omgivelsene for det valgte utsnitt i hovedbildet og å gi brukeren muligheten til å bevege seg videre. Posisjons-data for det valgt utsnittet vil så måtte rekalkuleres i henhold til den fysiske kamerabevegelsen.
Figur 5 viser hovedarkitekturen for et eksempel på en utfø-relsesform av den foreliggende oppfinnelsen. Her er råpikseldata for hovedbildet skaffet til veie fra den optiske inngangen (401). Pikseldata for nåværende videobilde blir lagret i en første minnekrets (403). Prediksjonsdata for det nåværende bildet blir lagret i en andre minnekrets
(404), og blir samtidig skaffet til veie fra kodingsproses-soren (406) basert på pikseldata for nåværende og foregående videobilde. Som indikert i figuren vil data for minnekrets ene være adresserbare for å tillate en kontroller
(402) å styre hvilke pikseldata som skal legges ut til koderprosessoren (406). Kontrolleren (402) er derfor i stand til å ekstrahere de nåværende pikseldata og de korresponderende prediksjonsdata for det valgte utsnitt kun fra respektive minnekretser basert på eksternt styresignal, for eksempel fra en fjernkontroll. Koderprosessoren er konfigu-rert for henholdsvis å skaffe til veie en subtraksjon av råpikseldata med korresponderende prediksjonsdata, og å frembringe nødvendig datatilføyelse eller skalering for de to aspektene ved foreliggende oppfinnelse. Fordelaktig vil koderprosessoren også utføre alle andre nødvendige kodings-trinn i henhold til standarden som brukes, og så sende ut valgte utsnitt (subsection) for hovedbildet i et kodet format.
Endepunktene i konferanseanropet vil utveksle videostrømmer og styresignaler. Styresignalene kan bli sendt innenbånds (in-band) slik at videostrømmer kan bestå av kommandoer, informasjon og videodata for tilgjengelige bilder. Kommando kan også bli sendt utenfor båndet (out of band) med videodata i én videostrøm, eller flere videostrømmer som dekker ett eller flere bilder.

Claims (10)

1. En fremgangsmåte for å skaffe til veie et seksjonsinndelt videoutsnitt med en kontrollerbar zoom, panorering og tilting definert ved en grense innenfor et generelt videoutsnitt innfanget av et første kamera for et endepunkt ved å påfølgende innfange videobilder av oversiktsbildet som blir prosessert av en kodingsprosess for derved å skape et første kodet videosignal som representerer oversiktsbildet, som i det minste genererer et beregnet videobilde av et første nåværende videobilde og trekke det beregnede bildet fra det første nåværende videobilde; karakterisert ved at kodingsprosessen videre inkluderer trinnene å motta et styresignal som definerer grensene innenfor oversiktsvideobildet; ekstrahere et første sett av pikselverdier som ligger innenfor grensene i det første nåværende videobildet eller i et andre nåværende videobilde innfanget av et andre kamera; skape en restverdi av det seksjonsinndelte videobilde ved å trekke fra et andre sett av pikselverdier fra nevnte første sett pikselverdier og skape et andre kodet videosignal som representerer det seksjons inndelte videobildet ved videre å komprimere restverdien i henhold til kodingsprosessen.
2. Fremgangsmåte i henhold til krav 1, karakterisert ved at nevnte andre sett av pikselverdier er pikselverdier ekstrahert fra det predikerte videobilde som ligger innenfor nevnte grense.
3. Fremgangsmåte i henhold til krav 1, karakterisert ved at den videre inkluderer trinnene å: • sende det første og det andre kodede videosignal til et mottakerendepunkt, • dekode det første og andre kodede videosignal med en dekodingsprosess korresponderende til kodingsprosessen, resulterende i det vanlige videobildet og det seksjonsinndelte videobildet.
4. Fremgangsmåte i henhold til krav 3, karakterisert ved at den videre inkluderer trinnet: å fremvise det vanlige videobildet og det seksjonsinndelte videobildet på nevnte mottakerendepunkt.
5. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at kodingsprosessen videre inkluderer i det minste ett av de etterfølgende trinn: • skalere nevnte første sett av pikselverdier for å sam-menfalle med nevnte andre sett av pikselverdier, • skalere nevnte andre sett av pikselverdier for å sam-menfalle med nevnte første sett av pikselverdier.
6. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at kodingsprosessen videre inkluderer i det minste ett av de etterfølgende trinn: • å tilpasse en andre rammerate assosiert med nevnte andre kodede videosignal relativt til en første rammerate assosiert med første kodede videosignal, • å justere et andre antall av kvantiseringsintervaller assosiert med andre kodede videosignal relativt til et første antall av kvantiseringsintervaller assosiert med nevnte første kodede videosignal.
7. Fremgangsmåte i henhold til et av de foregående kravene, karakterisert ved at nevnte styresignal kommer fra en første utvalgt anordning forbundet til avsen-derendepunktet.
8. Fremgangsmåte i henhold til et av kravene 1-6, karakterisert ved at nevnte styresignal kommer fra en andre utvalgt anordning forbundet til nevnte mottakende endepunkt.
9. Fremgangsmåte i henhold til et av kravene 1-6, karakterisert ved at nevnte styresignal skaffes til veie ved en kamerasporingsmekanisme i avsender-endepunktet.
10. Fremgangsmåte i henhold til krav 7 eller 8, karakterisert ved at utvalgsanordningen er en fjernkontroll.
NO20044085A 2004-09-27 2004-09-27 Fremgangsmate for koding av bildeutsnitt NO321642B1 (no)

Priority Applications (6)

Application Number Priority Date Filing Date Title
NO20044085A NO321642B1 (no) 2004-09-27 2004-09-27 Fremgangsmate for koding av bildeutsnitt
US11/233,498 US7679648B2 (en) 2004-09-27 2005-09-22 Method and apparatus for coding a sectional video view captured by a camera at an end-point
JP2007533417A JP2008515273A (ja) 2004-09-27 2005-09-26 部分的ビデオ画像を符号化する方法
CN2005800326626A CN101027905B (zh) 2004-09-27 2005-09-26 编码区域视频图像的方法
EP05791830.2A EP1800477B1 (en) 2004-09-27 2005-09-26 Method for coding a sectional video image
PCT/NO2005/000355 WO2006036066A1 (en) 2004-09-27 2005-09-26 Method for coding a sectional video image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20044085A NO321642B1 (no) 2004-09-27 2004-09-27 Fremgangsmate for koding av bildeutsnitt

Publications (3)

Publication Number Publication Date
NO20044085D0 NO20044085D0 (no) 2004-09-27
NO20044085L NO20044085L (no) 2006-03-28
NO321642B1 true NO321642B1 (no) 2006-06-12

Family

ID=35057655

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20044085A NO321642B1 (no) 2004-09-27 2004-09-27 Fremgangsmate for koding av bildeutsnitt

Country Status (6)

Country Link
US (1) US7679648B2 (no)
EP (1) EP1800477B1 (no)
JP (1) JP2008515273A (no)
CN (1) CN101027905B (no)
NO (1) NO321642B1 (no)
WO (1) WO2006036066A1 (no)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080100731A1 (en) * 2006-10-30 2008-05-01 Jerry Moscovitch System and Method for Producing and Displaying Images
US8362895B2 (en) * 2007-02-22 2013-01-29 Honeywell International Inc. Systems and methods of information distribution
US20080297304A1 (en) * 2007-06-01 2008-12-04 Jerry Moscovitch System and Method for Recording a Person in a Region of Interest
KR100939917B1 (ko) 2008-03-07 2010-02-03 에스케이 텔레콤주식회사 움직임 예측을 통한 부호화 시스템 및 움직임 예측을 통한부호화 방법
CN101276471B (zh) * 2008-05-12 2010-06-02 北京中星微电子有限公司 一种adpcm图像压缩方法和装置
CA2727569C (en) 2008-06-09 2017-09-26 Vidyo, Inc. Improved view layout management in scalable video and audio communication systems
US9083844B2 (en) * 2012-06-01 2015-07-14 Nintendo Co., Ltd. Computer-readable medium, information processing apparatus, information processing system and information processing method
US20150146078A1 (en) * 2013-11-27 2015-05-28 Cisco Technology, Inc. Shift camera focus based on speaker position

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08130733A (ja) * 1994-10-31 1996-05-21 Sanyo Electric Co Ltd 動画像処理装置及び方法
US5821986A (en) * 1994-11-03 1998-10-13 Picturetel Corporation Method and apparatus for visual communications in a scalable network environment
JPH09261522A (ja) * 1996-03-27 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 可変領域を得うる映像配信方法、ならびにシステム
US6184926B1 (en) * 1996-11-26 2001-02-06 Ncr Corporation System and method for detecting a human face in uncontrolled environments
JP2000253402A (ja) * 1999-03-03 2000-09-14 Nec Corp 映像データ送信装置及びその映像信号符号化方法並びに映像信号符号化プログラムを格納した記憶媒体
US6792148B1 (en) * 1999-10-18 2004-09-14 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for providing a camera accessory with compression
GB2357650A (en) * 1999-12-23 2001-06-27 Mitsubishi Electric Inf Tech Method for tracking an area of interest in a video image, and for transmitting said area
US20020036780A1 (en) * 2000-09-27 2002-03-28 Hiroaki Nakamura Image processing apparatus
JP4581210B2 (ja) * 2000-09-29 2010-11-17 日本電気株式会社 テレビ会議システム
JP2002330440A (ja) * 2001-05-01 2002-11-15 Sony Corp 画像伝送方法、画像伝送方法のプログラム、画像伝送方法のプログラムを記録した記録媒体及び画像伝送装置
US6738534B2 (en) * 2002-01-31 2004-05-18 Nokia Corporation Apparatus, and associated method, for altering the resolution of a digital image
WO2003067517A2 (en) 2002-02-04 2003-08-14 Polycom, Inc. Apparatus and method for providing electronic image manipulation in video conferencing applications
EP1353516A1 (en) * 2002-04-08 2003-10-15 Mitsubishi Electric Information Technology Centre Europe B.V. A method and apparatus for detecting and/or tracking one or more colour regions in an image or sequence of images
US20040234143A1 (en) * 2002-07-02 2004-11-25 Makoto Hagai Image encoding method and picture decoding method
US6757434B2 (en) * 2002-11-12 2004-06-29 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
WO2004075553A1 (ja) * 2003-02-18 2004-09-02 Matsushita Electric Industrial Co., Ltd. 撮像システム

Also Published As

Publication number Publication date
NO20044085L (no) 2006-03-28
CN101027905A (zh) 2007-08-29
EP1800477A1 (en) 2007-06-27
US7679648B2 (en) 2010-03-16
EP1800477B1 (en) 2018-11-07
CN101027905B (zh) 2010-05-12
JP2008515273A (ja) 2008-05-08
EP1800477A4 (en) 2014-04-30
NO20044085D0 (no) 2004-09-27
US20060139466A1 (en) 2006-06-29
WO2006036066A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
CA2283266C (en) Method and apparatus for still picture transmission and display
KR102343700B1 (ko) 독립적으로 인코딩된 배경 업데이트들에 기초한 비디오 송신
US7679648B2 (en) Method and apparatus for coding a sectional video view captured by a camera at an end-point
JP2004023373A (ja) 画像処理装置及びその方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US20180077385A1 (en) Data, multimedia &amp; video transmission updating system
CN107211081B (zh) 基于独立编码的背景更新的视频传输
US9602794B2 (en) Video processing system and video processing method
US11539909B2 (en) Controlling a pan-tilt-zoom camera
US20120044422A1 (en) Video Signal Processing
US11997428B2 (en) Control system and method
US8208555B2 (en) Image capturing and transmission device and image receiving and reconstruction device
JP2003284051A (ja) 映像伝送システム及び映像伝送制御方法
JP2019501584A (ja) 遠隔制御されるメディアスタジオ
KR20100094181A (ko) 영상처리시스템 및 영상처리방법
Woo et al. Fully digital view-window control for intelligent video communication systems

Legal Events

Date Code Title Description
CREP Change of representative

Representative=s name: ONSAGERS AS, POSTBOKS 6963 ST OLAVS PLASS, 0130 OS

MM1K Lapsed by not paying the annual fees