NO333282B1

NO333282B1 - Metode og endepunkt for a endre komposisjonen av et sammensatt videosignal

Info

Publication number: NO333282B1
Application number: NO20111075A
Authority: NO
Inventors: Hakon Skramstad
Original assignee: Cisco Systems Int Sarl
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2013-04-29
Also published as: NO20111075A1

Abstract

Fremgangsmåte for å modifisere et sammensatt videosignal generert av en videogenererende server, hvor nevnte videosignal innbefatter en romlig blanding av to eller flere videokonferansestrømmer, omfattende å tilveiebringe, på en skjerm, et objekt som for en bruker er flyttbart langs en akse, å assosiere et flertall (N) av forhåndsdefinerte layout med (N) respektive intervaller ZN langs nevnte akse, å detektere en brukerhandling på nevnte objekt som indikerer en posisjon YU på nevnte akse, og i respons til detektering av nevnte brukerhandling, å generere det sammensatte videosignalet ved å bruke layouten assosiert med et intervall ZU blant nevnte intervaller som YU ligger innenfor.

Description

Introduksjon

Oppfinnelsen omhandler det å generere et sammensatt videosignal for å bli fremvist på skjermen eller displayet til en videokonferanseterminal, og mer spesifikt til en fremgangsmåte og en innretning for å modifisere layout brukt av en videogenererende innretning for å generere et sammensatt videosignal.

Bakgrunn

Konvensjonelle videokonferansesystemer omfatter et antall endepunkter som kommuniserer sanntidsvideo, audio- og/eller datastrømmer (ofte referert til som duo video) over og mellom ulike nettverk slik som WAN, LAN og pakkesvitsjede nettverk.

Et antall videokonferansesystemer ved ulike siter eler lokasjoner kan delta i den samme konferansen, vanligvis gjennom en eller flere MCU'er (Multipoint Control Unit) som utfører f.eks. svitsjings- og miksingsfunksjoner for å tillate at audiovisuelle terminaler kan kommunisere korrekt sammen.

En MCU kan være en frittstående innretning som opererer som en sentral nettverks-ressurs, eller den kan være integrert i kodeken til et videokonferansesystem. En MCU linker sitene sammen ved å motta rammer (frames) til konferanse signalene fra sitene, prosessere mottatte signaler, og sende på nytt de prosesserte signalene til aktuelle siter.

I en kontinuerlig tilstedeværelseskonferanse (continous presence conference) blir video signaler og/eller datasignaler fra to eller flere siter romlig mikset for å danne et sammensatt (composite) videosignal som sees av konferansedeltakere. Det sammensatte videosignalet er et kombinert videosignal som kan innbefatte live videostrømmer, stillbilder, menyer eller andre visuelle bilder fra deltakere i konferansen. Det er ubegrenset antall muligheter for hvordan de ulike video-og/eller datasignalene blir romlig mikset, f.eks. størrelse og posisjon til ulike video og datarammer i det sammensatte bildet. En kodek og/eller MCU har typisk et sett med forhåndskonfigurerte sammensatte videosignalmaler lagret på MCU'en eller videokonferansekodek som tillater en eller flere regioner (rammer) innen et sammensatt videosignal for en eller flere video og/eller datastrømmer mottatt av MCU'en eller kodeken. Disse malene blir vanligvis betegnet som layout.

Typisk mottar alle konferansedeltakerne den samme layouten. Imidlertid tillater noen MCU'er at deltakere velger deres eget personlige layout. Konferanseeieren velger layout før konferansen starter. Layouten kan endres under videokonferansen av konferanseeieren.

Kjente videokonferansesystemer tillater generelt eierne å velge layout på to måter. En måte er å velge layout i et videokonferansehåndteringssystem (VCMS- Video

Conferencing Management System). Et VCMS er en nettverksinnretning konfigurert til å planlegge konferansesamtaler og håndtere/konfigurere

videokonferanseinnretninger. Et VCMS tilveiebringer typisk et web-basert brukergrensesnitt hvor en bruker kan velge en foretrukket layout for en planlagt konferanse eller pågående konferanse. Den andre måten er å velge layout ved å bruke en standard input-innretning slik som et tastatur på en fjernkontroll eller en mus. Det sistnevnte er typisk for videokonferansesystemer med innebygde MCU'er. Imidlertid er det felles for begge fremgangsmåtene at brukeren kan velge en av et sett med forhåndskonfigurerte typer av layout, f.eks. kontinuerlig tilstedeværelse (alle deltakere er tilstede på skjermen) eller stemmesvitsjet (den som snakker dekker hele skjermen). Videre krever kjente fremgangsmåter for å endre layout under en samtale at en bruker er kjent med videokonferansesystemets skjermmeny og krever ofte flere iterasjoner gjennom menyene ved å trykke knapper på en fjernkontroll, noe som gjør det tungvint og distraherende.

EP-1975917 A2 omhandler som et eksempel et reproduksjons system for innhold, hvor brukeren kan velge ett av flere visningslayout fra en liste for å velge et foretrukket layout.

US-2010333004 Al omhandler som et annet eksempel en fremgangsmåte for å endre layout i videokonferansesammenheng ved bruk av en trykkfølsom skjerm.

I dag er brukere av tekniske installasjoner vandt til og krever systemer som er enkle å bruke og tilveiebringer fleksibilitet når det gjelder tilpasning av grafiske omgivelser og samarbeid mellom innretninger. Tradisjonelt er ikke videokonferansesystemer spesielt fleksible. For eksempel vil, uavhengig av layout valgt av en bruker ved initiering av en kontinuerlig tilstedeværelse og/eller en Duo Video samtale, posisjonene og størrelsene til de ulike video- og/eller datastrømmene i det sammensatte signalet vøre utenfor brukerens kontroll. Videre blir tradisjonelle videokonferansesystemer operert ved å bruke skjermmeny systemer som er styrt av et tastatur på en IR fjernkontrollinnretning, som tillater begrenset fleksibilitet og tungvint brukeropplevelse.

Sammendrag av oppfinnelsen

Det er en hensikt med den foreliggende oppfinnelsen å tilveiebringe en innretning og fremgangsmåte som eliminerer ulempene beskrevet over. Trekkene definert i det vedlagte selvstendige kravet karakteriserer denne innretningen og fremgangsmåten.

Kort beskrivelse av figurer

De nevnte og andre hensikter, trekk og fordeler ved oppfinnelsen vil forstås fra den følgende beskrivelsen med foretrukne utførelser av oppfinnelsen, som illustrert i tilhørende figurer hvor like referansenumre refererer til samme deler i de ulike fremvisningene. Figurene er ikke nødvendigvis i skala. Disse skal betraktes for å illustrere prinsippene til oppfinnelsen. Fig. 1 er et skjematisk flytskjema som illustrerer prinsippene til fremgangsmåten for å generere et sammensatt videosignal som skal fremvises på skjermen til et endepunkt; Fig. 2 er en skjematisk illustrasjon av prinsippet til oppfinnelsen; Fig. 3 er et skjematisk blokkdiagram som illustrerer prinsippene til et endepunkt som implementerer oppfinnelsen. Fig. 4 er en skjematisk oversikt over en eksempelvis omgivelse/bruksmiljø for den foreliggende oppfinnelsen; Fig. 5 er en skjematisk oversikt over en annen eksempelvis omgivelse for den foreliggende oppfinnelsen; Fig. 6 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår; Fig. 7 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår; Fig. 8 er et skjematisk blokkdiagram som illustrerer prinsippene for resultatet av oppfinnelsen; Fig. 9 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår, og Fig. 10 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår.

Detaljert beskrivelse

I det følgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive ulike utførelser, og ved å referere til de tilhørende figurene. Fagpersoner på området vil imidlertid innse andre anvendelser og modifikasjoner innenfor omfanget av oppfinnelsen slik denne er definert i de vedlagte selvstendige kravene.

Den foreliggende oppfinnelsen assosierer et sett med layout (eller bilde-komposisjonstyper) som støtter viktige scenarioer for lokasjoner/posisjoner, og muliggjør at en bruker kan gå mellom disse sømløst ved å manipulere et objekt langs en sammenhengende bane.

Uttrykket «endepunkt» blir brukt for å referere kollektivt til et videoendepunkt eller terminal (slik som et personlig endepunkt, et endepunkt i et møterom, et endepunkt i et auditorium, etc), eller en software applikasjon som kjører på en personlig datamaskin som muliggjør audiovisuell kommunikasjon med andre endepunkter.

Uttrykket «site» blir brukt for å referere kollektivt til en lokasjon som har et audiovisuelt endepunkt og en konferansedeltaker eller bruker, eller kun et endepunkt.

Uttrykket «videokonferansestrømmer» blir brukt for å referere kollektivt til multimediastrømmer som kommer fra et endepunkt, f.eks. videostrømmer, audiostrømmer, bilder, multimedia fra en sekundær innretning forbundet til et endepunkt (slik som en datamaskin eller DVD-spiller).

Uttrykket «sammensatt videosignal» (composite video signal) blir brukt for å referere kollektivt til et videosignal som er en romlig miks av en eller flere konferansestrømmer.

Uttrykket «videogenerererde innretning» (video composing unit) blir brukt for kollektiv referering til en innretning eller software som kjører på en prosesseringsinnretning, konfigurert for å motta et antall, P, av videokonferanse-strømmer og mikse strømmene sammen til en eller flere sammensatte strømmer og mate ut en eller flere sammensatte strømmer til ett eller flere endepunkter. Posisjonen og størrelsen til en videokonferansestrøm i det sammensatte signalet avhenger av layouten brukt av den videokomponerende innretningen.

Uttrykket «layout» blir brukt for å kollektivt referere til en mal (template), eller hva som helst som bestemmer eller tjener som en plattform, for å definere sammensetningen av et sammensatt videosignal.

I henhold til en utførelse er en layout en konfigureringsfil, f.eks. et XML dokument, som definerer posisjonen og størrelsen til alle videokonferansestrømmer i det sammensatte videosignalet. En eksempelvis layout eller konfigureringsfil i henhold til en utførelse av den foreliggende oppfinnelsen kan se ut som følger: Videokonferansestrømmer fra to eller flere siter blir romlig mikset for å danne et sammensatt videosignal. Området som brukes av videokonferansestrømmen blir referert til som en ramme. Når den videokomponerende enheten mikser videokonferansesignalene må den kjenne til den nøyaktige posisjonen og størrelsen til hver ramme. Derfor definerer layouten eller konfigureringsfilen i det minste posisjonen, størrelsen og en ID som identifiserer videokonferansestrømkilden for hver ramme. Ved referering til eksempelvis layout eller konfigurasjonsfil over, er

<Position> til de ulike rammene i det sammensatte videosignalet gitt i topp venstre koordinater. <Width> og <Heigth> definerer størrelsen til rammen i pikselverdier.

<VideoSourceID> angår videokonferansestrømkilder som skal fremvises i en ramme.

Den foreliggende oppfinnelsen omhandler en fremgangsmåte og et endepunkt for å modifisere layout brukt av en videogenererende innretning for å generere et sammensatt videosignal (f.eks. duo video eller kontinuerlig tilstedeværelse videokonferanse). Fremgangsmåten og endepunktet i henhold til den foreliggende oppfinnelsen tilveiebringer et objekt på en skjerm for en bruker, hvor det nevnte objektet er bevegelig langs en akse eller kontinuerlig linje, og hvor dette er styrt av en bruker. Fremgangsmåten og endepunktet assosierer layout (eller komposisjoner) som støtter viktige scenarioer til intervaller til intervaller langs den kontinuerlige linjen, og muliggjør at en bruker kan flytte mellom dem sømløst ved å manipulere objektet langs den kontinuerlige linjen. En ende av den kontinuerlige linjen er assosiert med en valgt layout, f.eks. kun den som snakker høyest blir vist på hele skjermen. Den andre enden av den kontinuerlige linjen er assosiert med et annet layout, f.eks. alle videokonferansestrømmer blir fordelt i omtrent lik størrelse over en eller flere skjermer. Det kan også være andre layout som er assosiert med mellomliggende intervaller. Det bevegelige objektet kan bli fremvist på endepunktets hovedskjerm sammen med det sammensatte videosignalet, eller objektet kan bli fremvist på en separat kontrollinnretning (slik som en trykkfølsom fjernkontroll) sammen med en replika av den foreliggende videosammensetting (layout).

Siden den foreliggende oppfinnelsen omfatter det å manipulere en enkelt kontroll-akse er oppfinnelsen egnet for ulike brukerinputmekanismer, slik som en tradisjonell fjernkontroll (vil kreve en brukervalgt modus for å kontrollere layoutsammensetning), mus og trykkfølsomme skjermer.

Fig. 1 er et skjematisk flytskjema som illustrerer prinsippene til fremgangsmåten for å generere et sammensatt videosignal som skal fremvises på skjermen til et endepunkt.

Fremgangsmåten starter ved initieringstrinn 100.

Et objekt som kan beveges av en bruker langs en akse eller kontinuerlig linje er tilveiebrakt på en skjerm i det tilveiebringende trinnet 110.

Fig. 2 er en skjematisk illustrasjon av prinsippet til oppfinnelsen, og viser et skjermområde eller området til en skjerm for fremvisning av det sammensatte videosignalet 210. Et eksempelvis objekt 220 er fremvist, hvori objektet 220 er bevegelig langs en akse 230. Denne aksen er ikke synlig for brukeren.

I et aspekt er objektet 220 tilveiebrakt på en hovedskjerm assosiert med endepunktet, hvori nevnte skjerm blir brukt for å fremvise

videokonferansestrømmer, slik som et sammensatt videosignal, til en lokal bruker. Objektet kan bli fremvist sammen med nevnte sammensatte videosignal. I en utførelse blir objektet fremvist som overlappende over nevnte sammensatte videosignal. I et annet utførelse kan objektet ble fremvist i et område separert fra det sammensatte videosignalet.

I en annen utførelse er objektet 220 tilveiebrakt på skjermen til en styringsinnretning assosiert med endepunktet. Styringsinnretningen er en innretning som i det minste omfatter en skjerm, en inputinnretning, minne og en prosessor. Skjermen kan være en dedikert fjernkontrollinnretning, en mobil enhet (slik som en mobiltelefon, nettbrett (tablet), etc.) eller en personlig datamaskin. Skjerminnretningen er forbundet til nevnte endepunkt via en kablet (f.eks. LAN eller ledning til endepunkt) eller trådløst kommunikasjonsnettverk (f.eks. WiFi, Bluetooth, etc). En klientapplikasjon som kjører på skjerminnretningen er konfigurert til å kommunisere med endepunktet for å sende og motta kontrollsignaler til og fra endepunktet. I henhold til en utførelse mottar klientapplikasjonen kontrollsignaler i form av layoutinformasjon fra endepunktet, og basert på denne layoutinformasjonen gjengir og fremviser styringsenheten en replika av det foreliggende sammensatte videosignalet fremvist på hovedskjermen som er assosiert med endepunktet. Layoutinformasjonen kan f.eks. være layouten som for tiden brukes, navn på deltakere og/eller endepunkt og i hvilken ramme deres videokonferansestrømmer blir fremvist, etc. Objektet kan bli fremvist sammen med nevnte replika. I en utførelse blir objektet fremvist som overlappende over nevnte replika. I en annen utførelse kan objektet bli fremvist i et område avdelt fra replikaen.

Objektet 220 kan være et heldekkende grafisk objekt, eller objektet 220 kan være delvis eller helt transparent. Objektet 220 kan ha enhver form eller størrelse. I ett aspekt er objektet 220 en linje eller stolpe som strekker seg delvis eller helt over skjermområdet eller det fremviste sammensatte videosignalet. Objektet 220 kan opptre i respons til en brukers handling, f.eks. ved å aktivere en layoutkontroll- funksjon via et menysystem eller ved å trykke en knapp på en fjernkontroll, eller at en bruker berører en trykkfølsom skjerm.

Uttrykket «akse» blir brukt kollektivt for å beskrive en kontinuerlig linje, som har en startverdi, en sluttverdi, og et antall mellomliggende verdier. Linjen er fortrinnsvis lineær, men kan ha enhver form. Aksen eller den kontinuerlige linjen er fortrinnsvis posisjonert innrettet med vertikale eller horisontale deler av skjermen eller det fremviste sammensatte videosignalet. Det skal imidlertid forstås at aksen eller kontinuerlig linje kan plasseres på mange måter.

I en utførelse har aksen 230 en startposisjon Yopå en kant av skjermen eller et fremvist sammensatt videosignal, og en endeposisjon YEpå en motstående kant av skjermen eller fremviste sammensatte videosignal. I et annet aspekt, har aksen en start- og sluttposisjon som er forskjellig fra kantene til skjermen eller fremvist sammensatt videosignal.

I en utførelse, er nevnte objekt 220 og akse 230 representert ved hjelp av en sporingsspake eller gildebryter. En sporingsspake eller glidebryter er en kontroll som brukes for å skyve en liten glider eller peker, også kalt en tommel «a thumb», langs en kontinuerlig linje. For å bruke sporingsspaken kan en bruker dra tommelen i en av to retninger ved å bruke en inputinnretning. Denne endrer posisjonen til tommelen. Brukeren kan også klikke på en posisjon langs kontroll-linjen for å plassere tommelen på en ønsket posisjon. Alternativt, når sporingsspaken er valgt, kan brukeren bruke piltastene for å bevege tommelen. En sporingsspake blir konfigurert med et sett med verdier fra minimum til et maksimum. Brukeren kan derfor gjøre et valg innbefattet i utvalget.

Deretter, i assosiasjonstrinnet 120 (fig. 1), blir et flertall (N) av forhåndsdefinerte typer layout assosiert med (N) respektive intervaller Zn langs nevnte akse eller kontinuerlige linje 230. For eksempel, «vis kun én deltaker i fullskjerm (FOCUS)» layout kan bli assosiert med et første intervall Zi, en «vis én deltaker i fullskjerm og et antall andre deltakere i små rammer (FOCUS + PRESENCE)» layout kan bli assosiert med et andre intervall Z2, og en «vis alle videokonferansestrømmer i lik størrelse (OVERVIEW)» layout type kan bli assosiert med et tredje intervall Z3.

I en utførelse har aksen eller den kontinuerlige linjen 230 (som har en start posisjon Yoog en sluttposisjon Ye) et flertall (N) av intervaller Za. En forhåndsdefinert layout er assosiert med et respektivt intervall Za. I en utførelse kan intervallene Zn være adskilt av et sett med terskelposisjoner Yn på aksen eller den kontinuerlige linjen, hvori n=N-l og 0<n<N og Yo<Yn<YE. Terskelposisjonene tilveiebringer N antall intervaller Zo=[Y0,Yi], Zn=[Yn,Yn+]]... ZN=[YN_i,YE]. Hvert intervall er assosiert med en respektiv av N antall av forhåndsdefinerte layout.

I en utførelse er nevnte terskelposisjoner Ynkonfigurerbar av brukeren via et grafisk brukergrensesnitt eller oppsettsmeny.

I henhold til en utførelse av den foreliggende oppfinnelsen, for ett eller flere av intervallene ZN, er det tilveiebrakt et forhold mellom posisjonene Y innenfor et intervall Zn og størrelsen av de respektive rammene innen et layout assosiert med intervallet Zn. Med andre ord er størrelsen og/eller posisjonen til en eller flere rammer i en layout type en funksjon av den brukervalgte posisjonen Yu. I henhold til denne utførelsen blir, i respons til å detektere en brukerhandling som indikerer en layout posisjon Yu, størrelsen og posisjonen til hver ramme til layouten beregnet basert på nevnte forhold og layout posisjon Yu. For eksempel, dersom en brukervalgt posisjon Yu er innen et intervall assosiert med en FOCUS + PRESENCE layout (som eksempelvis er vist i figur 7B-D), er størrelse og/eller posisjon til rammene som omfatter videokonferansestrømmer fra sitene som ikke er i FOCUS avhengig av posisjonen Yu.

I henhold til en annen utførelse, omfatter nevnte assosieringstrinn et flertall (M) av variasjoner av layout med M antall av underintervaller (Xm). Nevnte flertall av variasjoner av en type layout kan bli assosiert inne ett eller flere av nevnte intervaller ZN. Variasjonene av type layout er variasjoner av type layout assosiert med et intervall Zn. En «vis alle videokonferansestrømmer i lik størrelse (OVERVIEW) type layout kan for eksempel bli assosiert med et intervall Z3. En 2X2 ramme variasjon av et OVERVIEW layout kan f.eks. bli assosiert med et første underintervall Xi av intervall Z3. En 3X3 ramme variasjon av OVERVIEW layout kan f.eks. bli assosiert med et andre underintervall X2til intervall Z3, og en 4X4 ramme variasjon av OVERVIEW layout kan for eksempel bli assosiert med et tredje underintervall X3(hvilket eksempel er vist i figur 7E-F).

Deretter, ved detektering av et brukerhandlingstrinn 130 (fig. 1), blir en brukerhandling på nevnte objekt som indikerer en posisjon Yu på nevnte akse detektert.

I en utførelse er brukerhandlingen at en bruker beveger nevnte objekt langs nevnte akse. Brukeren kan bevege nevnte objekt ved å bruke en inputinnretning, slik som en mus, et tastatur, knapper på en fjernkontroll, trykkfølsom skjerm etc.

I en annen utførelse er brukerhandlingen at en bruker velger en posisjon langs nevnte akse. Brukeren kan velge en posisjon langs aksen ved å bruke en inputinnretning, slik som en mus, et tastatur, knapper på en fjernkontroll, trykkfølsom skjerm, etc. Objektet vil bevege seg til den ønskede posisjon.

Deretter i genereringstrinn 140, blir det sammensatte signalet laget ved å bruke layout assosiert med et intervall Zu blant nevnte intervaller hvori Yu ligger.

I en utførelse av oppfinnelsen omfatter det genererende trinnet et videre trinn, i respons til å detektere nevnte brukerhandling, med å identifisere et intervall ZU blant nevnte intervaller Zn innen hvilket Yu ligger og velge en layouttype assosiert med intervallet Zu. Det sammensatte videosignalet blir laget ved å bruke den valgte layouttypen.

I en utførelse omfatter det genererende trinnet å velge en forhåndsdefinert layout som representerer nevnte valgte layout, og sende nevnte standard layout til en videogenererende innretning.

I en annen utførelse omfatter det genererende trinnet generering eller beregning av en layout, hvori layout parameterne som definerer størrelsen og posisjonen til hver ramme i layouten er en funksjon av den valgte posisjonen Yy.

En layout kan omfatte en eller flere rammer som fremviser, til enhver tid, deltakeren som prater høyest (også referert til som VOICE SWITHCED). Når en ramme er VOICE SWITHCED blir lydstrømmer fra alle sitene monitorert og analysert. Videokonferansestrømmen som kommer fra en site som har det høyeste lydnivået blir valgt til å bli fremvist i VOICE SWITHCED rammen. Andre parametere kan influere valget, f.eks. om lyd fra en site har det høyeste nivået i mer enn en forhåndsbestemt tidsperiode.

I en utførelse omfatter nevnte fremgangsmåte videre trinnet med å bestemme taleren som snakker høyest, og om den valgte layouttypen omfatter en VOICE SWITHCED ramme, å generere et layout hver gang en ny site blir «taleren som snakker høyest», hvori den identifiserte videokonferansestrømmen blir posisjonert i VOICE SWITHCED rammen. Dette trinnet kan f.eks. innbefatte å motta et input fra et passende kretssystem slik som en lydanalyserende innretning innbefattet i et videokonferanseendepunkt. Nevnte input identifiserer videokonferansestrømmen identifisert som «taleren som snakker høyest». Layouten blir sendt til den videogenererende innretningen.

I en annen utførelse, dersom det valgte layout omfatter VOICE SWITHCED ramme, omfatter fremgangsmåten videre trinnet med å generere en layout som spesifiserer hvilken ramme som er stemmesvitsjet. I denne utførelsen analyserer videogenereringsenheten, eller passende kretssystem slik som en lydanalyserende innretning innbefattet i en innretning som er vert for nevnte videogenererende enhet, lyden fra alle sitene og bestemmer hvilken videokonferansestrøm som skal fremvises i den stemme svitsjede rammen.

Fremgangsmåten som er beskrevet i den foreliggende detaljerte beskrivelsen kan utføres av en prosesseringsinnretning innbefattet i et endepunkt.

Mer spesifikt kan fremgangsmåte bli implementert som et sett med prosesseringsinstruksjoner eller datamaskinprograminstruksjoner, som kan være lagret i et minne, på en lagringsmedium, eller på et utbredelsessignal. Settet med prosesseringsinstruksjoner er konfigurert for å gjøre at en passende innretning, spesielt et endepunkt (eller videokonferanseinnretning), i stand til å utføre den beskrevne fremgangsmåten når instruksjonene blir eksekvert av en prosesseringsinnretning innbefattet i innretningen.

Fig. 3 er et skjematisk blokkdiagram som illustrerer et endepunkt 300, spesielt et videokonferanseendepunkt, som er konfigurert for å operere i henhold til fremgangsmåten nevnt over. Videokonferanseendepunktet 300 omfatter en prosesseringsinnretning 320, et minne 330, en skjem-adapter, som alle er forbundet til hverandre via en intern buss 350, og en skjerminnretning 360. Skjerminnretningen 360 kan innbefatte et sett med skjermer, slik som to eller tre tilliggende skjermer.

Endepunktet 300 er forbundet til en videogenererende innretning 370 via en kommunikasjons link 380. Den videogenererende enheten 370 mottar en eller flere videokonferansestrømmer fra hver av et flertall av endepunkter forbundet til en konferanse, og basert på en valgt layout, genererer den videogenerende innretningen 370 et sammensatt videosignal.

I henhold til en utførelse av oppfinnelsen er videogenereringsinnretningen 370 en del av en nettverksinnretning, slik som en sentralisert MCU (Multipoint Control Unit), som vist i figur 4. Den videokomponerende innretningen kan også være en del av en MCU innlemmet i endepunktet (ikke vist). I henhold til denne utførelsen mottar MCU'en videokonferansestrømmer fra tre eller flere endepunkter 300a-c forbundet i en konferanse over kommunikasjonslinker 420a-c. Videokonferansestrømmene fra endepunktene 300a-c blir sendt til en Videoprosesserende enhet VPU (ikke vist) hvor videokonferansestrømmene blir dekomprimert, og de dekomprimerte videokonferansestrømmene blir gjort tilgjengelig for den videogenererende innretningen 370, f.eks. via en intern buss eller et minne. Den videogenererende innretningen 370 utfører en romlig miksing av en eller flere av de dekomprimerte videokonferansestrømmene til ett sammensatt videosignal, og det sammensatte videosignalet blir gjort tilgjengelig for VPU, f.eks. via en intern buss eller et minne. VPU'en komprimerer den sammensatte videokonferansestrømmen og en enkelt videokonferansestrøm blir sendt tilbake til en eller flere av endepunktene 300a-c over kommunikasjonslinker 420a-c, hvor den sammensatte videokonferansestrømmen blir dekodet og fremvist på en skjerm 360. En layout blir brukt av den videogenererende innretningen for å generere det sammensatte videosignalet.

I henhold til en annen utførelse av oppfinnelsen, som vist i figur 5, er den

videogenererende innretningen 370 en del av et endepunkt 300a, hvori endepunktet 300a mottar videokonferansestrømmer fra to eller flere fjerntliggende siter 300b-c i en videokonferanse over kommunikasjonslinker 520a-c. Videokonferansestrømmen kan bli sendt til/fra endepunktene 300a-c via en eller flere nettverksenheter, slik som en videokonferansesvitsj, eller endepunktene 300a-c kan etablere separate punkt til punkt sesjoner mellom hverandre. I henhold til denne utførelsen mottar

endepunktet 300a en eller flere videokonferansestrømmer fra hvert av de to eller flere endepunktene 300b-c forbundet i en konferanse. Videokonferansestrømmer fra endepunktene 300b-c blir sendt til den prosesserende innretningen 320 hvor videokonferansestrømmer blir gjort tilgjengelig for den videogenererende enheten 370, f.eks. via en ekstern buss eller et minne. Den videogenererende innretningen 370 utfører en romlig miksing av en eller flere av de dekomprimerte videokonferansestrømmene til en sammensatt videokonferansestrøm, og den sammensatte videokonferansestrømmen blir fremvist på en skjerm assosier med et endepunkt. En layout blir brukt av den videogenererende enheten for å generere den sammensatte videokonferansestrømmen.

I denne utførelsen kan prosesseringsinnretningen sende valgte eller beregnet layout til den videogenererende innretningen via den interne bussen 350.

De illustrerte elementene til videokonferanseinnretningen 300 er vist for det formål å forklare prinsippene til oppfinnelsen. Det vil dermed forstås at ytterligere elementer kan bli innbefattet i en faktisk implementering av en videokonferanseinnretning.

Minnet 330 omfatter prosesseringsinstruksjoner som muliggjør at innretningen opptrer som forventet, for regulære videokonferansefunksjoner og operasjoner.

I tillegg omfatter minnet 330 et sett med prosesseringsinstruksjoner som beskrevet over med henvisning til fremgangsmåten illustrert i fig. 1, som resulterer i at prosesseringsinnretningen 320 gjør at videokonferanseinnretningen 300 utfører den fremførte fremgangsmåten for å fremvise et bilde når prosesseringsinstruksjoner blir eksekvert av prosesseringsinnretningen 320.

Fig. 6 er en skjematisk illustrasjon som illustrerer prinsippene til resultatet av oppfinnelsen.

En fremvisningsskjerm 360 innbefattet i eller forbundet til et endepunkt, eller på en skjermstyringsinnretning 380 forbundet til endepunktet, er arrangert foran en eller flere konferansedeltakere. Den lokale deltakeren utfører en videokonferansesamtale (slik som en multi-site samtale) med et flertall fjerntliggende siter. For illustrasjonens del er kun seks konferansedeltakere blitt illustrert. For enkelthetsskyld er kun en skjerm 360 blitt illustrert, mens oppfinnelsen kan operere med endepunkter som har to eller flere skjermer.

I figur 6A, mottar den lokale brukeren et sammensatt videosignal. Objektet 220 er i en posisjon Yu inne et første intervall Zi, som i dette eksempelet er assosiert med FOCUS layout, og dermed er det sammensatte signalet generert basert på FOCUS layout, som betyr at deltakeren som snakker er vist på hele skjermområdet. Når en bruker ønsker å endre layout til det sammensatte bildet, kan brukeren bevege objektet 220 langs en akse 230. Aksen i seg selv er ikke synlig, men formen til objektet 220 kan formes for å gjøre det klart for en bruker hvilken retning det kan beveges i. For illustreringsformål er skjermen 360 en trykkfølsom skjerm, slik at en bruker kan bevege objektet 220 direkte med en finger som vist i figur 6A-6C. Andre inputinnretninger kan bli brukt for å bevege objektet 220. Som vist i figur 6B, når objektet flyttes til posisjon Yu innen et andre intervall Z2, som i dette eksempelet er assosiert med en FOCUS + PRESENCE layout, endres det sammensatte videosignalet til et generert sammensatt videosignal basert på FOCUS + PRESENCE layout. Som vist i figur 6C, når objektet flyttes til posisjon Yu innen et tredje intervall Z$ t som i dette eksempelet er assosiert med en OVERVIEW layout, endres det sammensatte videosignalet til et generert sammensatt videosignal basert på OVERVIEW layout.

I henhold til en annen utførelse av oppfinnelsen vist i figur 7A, er den lokale brukeren i en konferansesamtale med et flertall (her 8) fjerntliggende siter og mottar et sammensatt videosignal. Objektet 220 er i en posisjon Yu innen intervallet Z\, som er assosiert med et FOCUS layout, som beskrevet over. Som vist i figur 7B, når objektet beveges til posisjon Yu innen et andre intervall Z2, som er assosiert med f.eks. en FOCUS + PRESENCE layout, endrer det sammensatte videosignalet seg til et sammensatt videosignal som blir generert basert på FOCUS + PRESENCE layout. Som vist i figur 7C, når objektet blir flyttet videre langs aksen innen nevnte andre intervall Z2, endres tilsvarende størrelsen til rammene 730. Størrelsen og posisjonen til rammene 730 er en funksjon av posisjonen Yu innen intervallet Zn. Når størrelsen til rammene 730 øker, vil færre rammer bli tilpasset på bunnen av skjermen. Dermed vil ikke deltaker 740A og 740F lenger bli fremvist i det sammensatte signalet. Hvilken av deltakerne 740A-F som blir fremvist i rammene 730 kan f.eks. bli bestemt av stemmesvitsjing (de fem siste snakkende deltakerne blir fremvist). Som vist i figur 7D, når objektet flyttes videre langs aksen innen nevnte andre intervall Z2, endres tilsvarende størrelsen til rammene 730. Når objektet 220 flyttes til en posisjon Yu innen et tredje intervall Z3, som er assosiert med en 2x2 OVERRVIEW layout, endres det sammensatte videosignalet til et sammensatt generert videosignal basert 2x2 OVERRVIEW layout, som vist i fig. 7E. Til slutt, når objektet 220 flyttes til en posisjon Yu innen et fjerde intervall Z4, som er assosiert med en 3x3 OVERRVIEW layout, endres tilsvarende det sammensatte videosignalet, som vist i figur 7F. Det tredje og fjerde intervallet kan også bli referert til som underintervaller XMeller et intervall ZN, siden layoutene i de tredje og fjerde intervallene er variasjoner av en layout.

I en utførelse kan en terskelverdi, Pth, bli tilveiebrakt på aksen. Når objektet flyttes langs terskelverdien endres layout fra bilde-i-bilde (PIP) mode til en bilde-

på utsiden av-bilde (POP) mode eller visa versa. Alternativt endrer en brukerhandling layout mellom PIP og POP (som illustrert i fig. 8). Brukerhandlingen kan være et dobbelttrykk eller klikk med en inputinnretning, eller en knapp i GUI eller på en fjernkontroll som blir trykket. PIP blir som vist i figur 7B-D, når videokonferansestrømmene i rammene 730 blir fremvist på toppen av en

annen videokonferansestrøm, fremvist over en annen videokonferansestrøm mens PIP blir det når en eller flere videokonferansestrømmer ligger over hverandre.

Oppfinnelsen har blitt beskrevet for et endepunkt med en hovedskjerm 360. Det skal imidlertid bemerkes at oppfinnelsen kan bli fremvist på endepunkter som har et flertall av skjermer. Figurene 9 og 10 illustrerer eksempler hvor endepunkter har 2 skjermer, og hvor layout på to skjermer kan styres avhengig av hverandre (fig. 9) eller uavhengig av hverandre (fig. 10) ved å bruke fremgangsmåten til den foreliggende oppfinnelsen.

Et utall modifikasjoner og variasjoner av den foreliggende oppfinnelsen er mulig i lys av lærdommen over. Det skal derfor forstås at det innenfor omfanget av de vedlagte kravene kan oppfinnelsen bli utført på andre måter enn eksemplene i beskrivelsen.

Claims

1. Fremgangsmåte for å generere et sammensatt videosignal som skal fremvises på skjermen (340) til en videokonferanseterminal, hvor nevnte sammensatte videosignal innbefatter en romlig blanding av en eller flere videokonferansestrømmer,karakterisert ved: å tilveiebringe, på en skjerm (340), et objekt (220) som for en bruker er flyttbart langs en akse (230); å assosiere et flertall (N) av forhåndsdefinerte layout med (N) respektive intervaller Zn langs nevnte akse (230); å detektere en brukerhandling på nevnte objekt (220) som indikerer en posisjon Yu på nevnte akse (230), og i respons til detektering av nevnte brukerhandling å generere det sammensatte videosignalet ved å bruke layouten assosiert med et intervall Zu blant nevnte intervaller som Yu ligger innenfor.

2. Fremgangsmåte i henhold til krav 1, hvor det sammensatte signalet blir generert ved hjelp av en videogenererende innretning (370) som er konfigurert for å motta et flertall videokonferansestrømmer og mate ut et sammensatt videosignal som omfatter en eller flere av nevnte mottatte videokonferansestrømmer basert på en layout; å tilveiebringe det valgte layouten til den videogenererende innretningen (370).

3. Fremgangsmåte i henhold til krav 1, hvor nevnte layout definerer en eller flere rammer (730) for å inneholde nevnte videokonferansestrømmer, og hvor fremgangsmåten videre omfatter å tilveiebringe, for i det minste ett av intervallene Zn, et forhold mellom posisjonene Y innenfor et intervall Zn og størrelsen og posisjonen til en eller flere av rammene (730) til en layout assosiert med intervallet Zn, og i respons til å detektere nevnte brukerhandling, å beregne en layout hvori størrelsen og posisjonen til hver ramme (730) til layouten er basert på nevnte forhold og posisjon Yu.

4. Fremgangsmåte i henhold til krav 1, hvor fremgangsmåten videre omfatter: å fremvise objektet på en skjerm (340) til en styringsinnretning (390), forbundet til videokonferanseterminalen, sammen med en replika til det sammensatte videosignalet som for tiden fremvises på skjermen (340) til videokonferanseterminalen.

5. Fremgangsmåte i henhold til krav 1, hvor fremgangsmåten videre omfatter: å fremvise objektet på skjermen (340) til videokonferanseterminalen.

6. Fremgangsmåte i henhold til krav 4 eller 5, hvor fremgangsmåten videre omfatter: å oppdatere det sammensatte videosignalet og/eller replikaen i sanntid ettersom objektet (220) beveges av brukeren.

7. Fremgangsmåte i henhold til krav 1, hvor fremgangsmåten videre omfatter: å assosiere M antall variasjoner av det forhåndsdefinerte layout med M antall underintervaller Xminnen en eller flere av nevnte intervaller Zn; å identifisere, i respons til nevnte detektere brukerhandling, et underintervall XMblant nevnte underintervall som Yu ligger innenfor; å velge layouten assosiert med underintervallet Xm, og generere det sammensatte videosignalet ved å bruke den valgte layouten.

8. Et sett med prosesseringsinstruksjoner, lagret i et minne, på et lagringsmedium, eller på et utbredelsessignal, som får en videokonferanseinnretning til å utføre fremgangsmåten fremsatt i ett av kravene 1-7 når disse eksekveres på en prosesseringsinnretting innbefattet i nevnte videokonferanseinnretning.

9. Videokonferanseinnretning (300) som omfatter en prosesseringsinnretning (320), et minne (330) og en skjerm (340), hvor nevnte minne omfatter et sett med prosesseringsinstruksjoner som fremsatt i krav 8.