NO333282B1

NO333282B1 - Method and end point for changing the composition of a composite video signal

Info

Publication number: NO333282B1
Application number: NO20111075A
Authority: NO
Inventors: Hakon Skramstad
Original assignee: Cisco Systems Int Sarl
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2013-04-29
Also published as: NO20111075A1

Abstract

Fremgangsmåte for å modifisere et sammensatt videosignal generert av en videogenererende server, hvor nevnte videosignal innbefatter en romlig blanding av to eller flere videokonferansestrømmer, omfattende å tilveiebringe, på en skjerm, et objekt som for en bruker er flyttbart langs en akse, å assosiere et flertall (N) av forhåndsdefinerte layout med (N) respektive intervaller ZN langs nevnte akse, å detektere en brukerhandling på nevnte objekt som indikerer en posisjon YU på nevnte akse, og i respons til detektering av nevnte brukerhandling, å generere det sammensatte videosignalet ved å bruke layouten assosiert med et intervall ZU blant nevnte intervaller som YU ligger innenfor.A method of modifying a composite video signal generated by a video generating server, wherein said video signal includes a spatial mixture of two or more video conferencing streams, comprising providing, on a screen, an object movable along an axis for a user, to associate a plurality (N) of predefined layout at (N) respective intervals ZN along said axis, detecting a user action on said object indicating a position YU on said axis, and in response to detecting said user action, generating the composite video signal using the layout associated with an interval ZU among said intervals within which YU is within.

Description

Introduksjon Introduction

Oppfinnelsen omhandler det å generere et sammensatt videosignal for å bli fremvist på skjermen eller displayet til en videokonferanseterminal, og mer spesifikt til en fremgangsmåte og en innretning for å modifisere layout brukt av en videogenererende innretning for å generere et sammensatt videosignal. The invention relates to generating a composite video signal to be displayed on the screen or display of a video conference terminal, and more specifically to a method and a device for modifying the layout used by a video generating device to generate a composite video signal.

Bakgrunn Background

Konvensjonelle videokonferansesystemer omfatter et antall endepunkter som kommuniserer sanntidsvideo, audio- og/eller datastrømmer (ofte referert til som duo video) over og mellom ulike nettverk slik som WAN, LAN og pakkesvitsjede nettverk. Conventional video conferencing systems comprise a number of endpoints that communicate real-time video, audio and/or data streams (often referred to as duo video) over and between different networks such as WAN, LAN and packet switched networks.

Et antall videokonferansesystemer ved ulike siter eler lokasjoner kan delta i den samme konferansen, vanligvis gjennom en eller flere MCU'er (Multipoint Control Unit) som utfører f.eks. svitsjings- og miksingsfunksjoner for å tillate at audiovisuelle terminaler kan kommunisere korrekt sammen. A number of video conference systems at different sites or locations can participate in the same conference, usually through one or more MCUs (Multipoint Control Unit) which perform e.g. switching and mixing functions to allow audiovisual terminals to communicate correctly with each other.

En MCU kan være en frittstående innretning som opererer som en sentral nettverks-ressurs, eller den kan være integrert i kodeken til et videokonferansesystem. En MCU linker sitene sammen ved å motta rammer (frames) til konferanse signalene fra sitene, prosessere mottatte signaler, og sende på nytt de prosesserte signalene til aktuelle siter. An MCU can be a stand-alone device that operates as a central network resource, or it can be integrated into the codec of a video conferencing system. An MCU links the sites together by receiving frames for the conference signals from the sites, processing the received signals, and resending the processed signals to the relevant sites.

I en kontinuerlig tilstedeværelseskonferanse (continous presence conference) blir video signaler og/eller datasignaler fra to eller flere siter romlig mikset for å danne et sammensatt (composite) videosignal som sees av konferansedeltakere. Det sammensatte videosignalet er et kombinert videosignal som kan innbefatte live videostrømmer, stillbilder, menyer eller andre visuelle bilder fra deltakere i konferansen. Det er ubegrenset antall muligheter for hvordan de ulike video-og/eller datasignalene blir romlig mikset, f.eks. størrelse og posisjon til ulike video og datarammer i det sammensatte bildet. En kodek og/eller MCU har typisk et sett med forhåndskonfigurerte sammensatte videosignalmaler lagret på MCU'en eller videokonferansekodek som tillater en eller flere regioner (rammer) innen et sammensatt videosignal for en eller flere video og/eller datastrømmer mottatt av MCU'en eller kodeken. Disse malene blir vanligvis betegnet som layout. In a continuous presence conference, video signals and/or data signals from two or more sites are spatially mixed to form a composite video signal that is seen by conference participants. The composite video signal is a combined video signal that may include live video streams, still images, menus or other visual images from participants in the conference. There is an unlimited number of possibilities for how the various video and/or data signals are spatially mixed, e.g. size and position of various video and data frames in the composite image. A codec and/or MCU typically has a set of preconfigured composite video signal templates stored on the MCU or video conferencing codec that allow one or more regions (frames) within a composite video signal for one or more video and/or data streams received by the MCU or codec . These templates are usually referred to as layouts.

Typisk mottar alle konferansedeltakerne den samme layouten. Imidlertid tillater noen MCU'er at deltakere velger deres eget personlige layout. Konferanseeieren velger layout før konferansen starter. Layouten kan endres under videokonferansen av konferanseeieren. Typically, all conference participants receive the same layout. However, some MCUs allow participants to choose their own personal layout. The conference owner chooses the layout before the conference starts. The layout can be changed during the video conference by the conference owner.

Kjente videokonferansesystemer tillater generelt eierne å velge layout på to måter. En måte er å velge layout i et videokonferansehåndteringssystem (VCMS- Video Known video conferencing systems generally allow the owners to choose the layout in two ways. One way is to choose the layout in a video conference management system (VCMS- Video

Conferencing Management System). Et VCMS er en nettverksinnretning konfigurert til å planlegge konferansesamtaler og håndtere/konfigurere Conferencing Management System). A VCMS is a network device configured to schedule conference calls and manage/configure

videokonferanseinnretninger. Et VCMS tilveiebringer typisk et web-basert brukergrensesnitt hvor en bruker kan velge en foretrukket layout for en planlagt konferanse eller pågående konferanse. Den andre måten er å velge layout ved å bruke en standard input-innretning slik som et tastatur på en fjernkontroll eller en mus. Det sistnevnte er typisk for videokonferansesystemer med innebygde MCU'er. Imidlertid er det felles for begge fremgangsmåtene at brukeren kan velge en av et sett med forhåndskonfigurerte typer av layout, f.eks. kontinuerlig tilstedeværelse (alle deltakere er tilstede på skjermen) eller stemmesvitsjet (den som snakker dekker hele skjermen). Videre krever kjente fremgangsmåter for å endre layout under en samtale at en bruker er kjent med videokonferansesystemets skjermmeny og krever ofte flere iterasjoner gjennom menyene ved å trykke knapper på en fjernkontroll, noe som gjør det tungvint og distraherende. video conferencing devices. A VCMS typically provides a web-based user interface where a user can select a preferred layout for a planned conference or ongoing conference. The other way is to select the layout using a standard input device such as a keyboard on a remote control or a mouse. The latter is typical for video conferencing systems with built-in MCUs. However, both methods have in common that the user can choose one of a set of pre-configured types of layout, e.g. continuous presence (all participants are present on the screen) or the voice switch (the speaker covers the entire screen). Furthermore, known methods for changing the layout during a call require a user to be familiar with the video conferencing system's on-screen menu and often require multiple iterations through the menus by pressing buttons on a remote control, making it cumbersome and distracting.

EP-1975917 A2 omhandler som et eksempel et reproduksjons system for innhold, hvor brukeren kan velge ett av flere visningslayout fra en liste for å velge et foretrukket layout. EP-1975917 A2 deals as an example with a reproduction system for content, where the user can select one of several display layouts from a list to select a preferred layout.

US-2010333004 Al omhandler som et annet eksempel en fremgangsmåte for å endre layout i videokonferansesammenheng ved bruk av en trykkfølsom skjerm. US-2010333004 Al deals, as another example, with a method for changing the layout in a video conference context using a pressure-sensitive screen.

I dag er brukere av tekniske installasjoner vandt til og krever systemer som er enkle å bruke og tilveiebringer fleksibilitet når det gjelder tilpasning av grafiske omgivelser og samarbeid mellom innretninger. Tradisjonelt er ikke videokonferansesystemer spesielt fleksible. For eksempel vil, uavhengig av layout valgt av en bruker ved initiering av en kontinuerlig tilstedeværelse og/eller en Duo Video samtale, posisjonene og størrelsene til de ulike video- og/eller datastrømmene i det sammensatte signalet vøre utenfor brukerens kontroll. Videre blir tradisjonelle videokonferansesystemer operert ved å bruke skjermmeny systemer som er styrt av et tastatur på en IR fjernkontrollinnretning, som tillater begrenset fleksibilitet og tungvint brukeropplevelse. Today, users of technical installations are used to and demand systems that are easy to use and provide flexibility when it comes to adapting graphic environments and collaboration between devices. Traditionally, video conferencing systems are not particularly flexible. For example, regardless of the layout chosen by a user when initiating a continuous presence and/or a Duo Video call, the positions and sizes of the various video and/or data streams in the composite signal will be beyond the user's control. Furthermore, traditional video conferencing systems are operated using on-screen menu systems that are controlled by a keyboard on an IR remote control device, which allows limited flexibility and cumbersome user experience.

Sammendrag av oppfinnelsen Summary of the invention

Det er en hensikt med den foreliggende oppfinnelsen å tilveiebringe en innretning og fremgangsmåte som eliminerer ulempene beskrevet over. Trekkene definert i det vedlagte selvstendige kravet karakteriserer denne innretningen og fremgangsmåten. It is an aim of the present invention to provide a device and method which eliminates the disadvantages described above. The features defined in the attached independent claim characterize this device and method.

Kort beskrivelse av figurer Brief description of figures

De nevnte og andre hensikter, trekk og fordeler ved oppfinnelsen vil forstås fra den følgende beskrivelsen med foretrukne utførelser av oppfinnelsen, som illustrert i tilhørende figurer hvor like referansenumre refererer til samme deler i de ulike fremvisningene. Figurene er ikke nødvendigvis i skala. Disse skal betraktes for å illustrere prinsippene til oppfinnelsen. Fig. 1 er et skjematisk flytskjema som illustrerer prinsippene til fremgangsmåten for å generere et sammensatt videosignal som skal fremvises på skjermen til et endepunkt; Fig. 2 er en skjematisk illustrasjon av prinsippet til oppfinnelsen; Fig. 3 er et skjematisk blokkdiagram som illustrerer prinsippene til et endepunkt som implementerer oppfinnelsen. Fig. 4 er en skjematisk oversikt over en eksempelvis omgivelse/bruksmiljø for den foreliggende oppfinnelsen; Fig. 5 er en skjematisk oversikt over en annen eksempelvis omgivelse for den foreliggende oppfinnelsen; Fig. 6 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår; Fig. 7 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår; Fig. 8 er et skjematisk blokkdiagram som illustrerer prinsippene for resultatet av oppfinnelsen; Fig. 9 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår, og Fig. 10 er et skjematisk blokkdiagram som illustrerer prinsippene for hva oppfinnelsen oppnår. The aforementioned and other purposes, features and advantages of the invention will be understood from the following description with preferred embodiments of the invention, as illustrated in accompanying figures where like reference numbers refer to the same parts in the various displays. The figures are not necessarily to scale. These are to be considered to illustrate the principles of the invention. Fig. 1 is a schematic flow diagram illustrating the principles of the method of generating a composite video signal to be displayed on the screen of an endpoint; Fig. 2 is a schematic illustration of the principle of the invention; Fig. 3 is a schematic block diagram illustrating the principles of an endpoint implementing the invention. Fig. 4 is a schematic overview of an exemplary environment/use environment for the present invention; Fig. 5 is a schematic overview of another exemplary environment for the present invention; Fig. 6 is a schematic block diagram illustrating the principles of what the invention achieves; Fig. 7 is a schematic block diagram illustrating the principles of what the invention achieves; Fig. 8 is a schematic block diagram illustrating the principles of the result of the invention; Fig. 9 is a schematic block diagram illustrating the principles of what the invention achieves, and Fig. 10 is a schematic block diagram illustrating the principles of what the invention achieves.

Detaljert beskrivelse Detailed description

I det følgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive ulike utførelser, og ved å referere til de tilhørende figurene. Fagpersoner på området vil imidlertid innse andre anvendelser og modifikasjoner innenfor omfanget av oppfinnelsen slik denne er definert i de vedlagte selvstendige kravene. In the following, the present invention will be discussed by describing various embodiments, and by referring to the associated figures. Professionals in the field will, however, realize other applications and modifications within the scope of the invention as defined in the attached independent claims.

Den foreliggende oppfinnelsen assosierer et sett med layout (eller bilde-komposisjonstyper) som støtter viktige scenarioer for lokasjoner/posisjoner, og muliggjør at en bruker kan gå mellom disse sømløst ved å manipulere et objekt langs en sammenhengende bane. The present invention associates a set of layouts (or image composition types) that support important scenarios for locations/positions, and enables a user to move between them seamlessly by manipulating an object along a continuous path.

Uttrykket «endepunkt» blir brukt for å referere kollektivt til et videoendepunkt eller terminal (slik som et personlig endepunkt, et endepunkt i et møterom, et endepunkt i et auditorium, etc), eller en software applikasjon som kjører på en personlig datamaskin som muliggjør audiovisuell kommunikasjon med andre endepunkter. The term "endpoint" is used to refer collectively to a video endpoint or terminal (such as a personal endpoint, a meeting room endpoint, an auditorium endpoint, etc), or a software application running on a personal computer that enables audiovisual communication with other endpoints.

Uttrykket «site» blir brukt for å referere kollektivt til en lokasjon som har et audiovisuelt endepunkt og en konferansedeltaker eller bruker, eller kun et endepunkt. The term "site" is used to refer collectively to a location that has an audiovisual endpoint and a conference participant or user, or only an endpoint.

Uttrykket «videokonferansestrømmer» blir brukt for å referere kollektivt til multimediastrømmer som kommer fra et endepunkt, f.eks. videostrømmer, audiostrømmer, bilder, multimedia fra en sekundær innretning forbundet til et endepunkt (slik som en datamaskin eller DVD-spiller). The term "video conference streams" is used to refer collectively to multimedia streams originating from an endpoint, e.g. video streams, audio streams, images, multimedia from a secondary device connected to an endpoint (such as a computer or DVD player).

Uttrykket «sammensatt videosignal» (composite video signal) blir brukt for å referere kollektivt til et videosignal som er en romlig miks av en eller flere konferansestrømmer. The term "composite video signal" is used to refer collectively to a video signal that is a spatial mix of one or more conference streams.

Uttrykket «videogenerererde innretning» (video composing unit) blir brukt for kollektiv referering til en innretning eller software som kjører på en prosesseringsinnretning, konfigurert for å motta et antall, P, av videokonferanse-strømmer og mikse strømmene sammen til en eller flere sammensatte strømmer og mate ut en eller flere sammensatte strømmer til ett eller flere endepunkter. Posisjonen og størrelsen til en videokonferansestrøm i det sammensatte signalet avhenger av layouten brukt av den videokomponerende innretningen. The term "video composing unit" is used to collectively refer to a device or software running on a processing device, configured to receive a number, P, of video conference streams and mix the streams together into one or more composite streams and output one or more composite streams to one or more endpoints. The position and size of a video conference stream in the composite signal depends on the layout used by the video compositing device.

Uttrykket «layout» blir brukt for å kollektivt referere til en mal (template), eller hva som helst som bestemmer eller tjener som en plattform, for å definere sammensetningen av et sammensatt videosignal. The term "layout" is used to refer collectively to a template, or anything that determines or serves as a platform, to define the composition of a composite video signal.

I henhold til en utførelse er en layout en konfigureringsfil, f.eks. et XML dokument, som definerer posisjonen og størrelsen til alle videokonferansestrømmer i det sammensatte videosignalet. En eksempelvis layout eller konfigureringsfil i henhold til en utførelse av den foreliggende oppfinnelsen kan se ut som følger: Videokonferansestrømmer fra to eller flere siter blir romlig mikset for å danne et sammensatt videosignal. Området som brukes av videokonferansestrømmen blir referert til som en ramme. Når den videokomponerende enheten mikser videokonferansesignalene må den kjenne til den nøyaktige posisjonen og størrelsen til hver ramme. Derfor definerer layouten eller konfigureringsfilen i det minste posisjonen, størrelsen og en ID som identifiserer videokonferansestrømkilden for hver ramme. Ved referering til eksempelvis layout eller konfigurasjonsfil over, er According to one embodiment, a layout is a configuration file, e.g. an XML document, which defines the position and size of all video conference streams in the composite video signal. An exemplary layout or configuration file according to an embodiment of the present invention may look as follows: Video conference streams from two or more sites are spatially mixed to form a composite video signal. The area used by the video conference stream is referred to as a frame. When the video compositor mixes the video conference signals, it needs to know the exact position and size of each frame. Therefore, at a minimum, the layout or configuration file defines the position, size, and an ID identifying the video conference stream source for each frame. When referring to, for example, the layout or configuration file above, is

<Position> til de ulike rammene i det sammensatte videosignalet gitt i topp venstre koordinater. <Width> og <Heigth> definerer størrelsen til rammen i pikselverdier. <Position> of the various frames in the composite video signal given in top left coordinates. <Width> and <Heigth> define the size of the frame in pixel values.

<VideoSourceID> angår videokonferansestrømkilder som skal fremvises i en ramme. <VideoSourceID> refers to video conference stream sources to be displayed in a frame.

Den foreliggende oppfinnelsen omhandler en fremgangsmåte og et endepunkt for å modifisere layout brukt av en videogenererende innretning for å generere et sammensatt videosignal (f.eks. duo video eller kontinuerlig tilstedeværelse videokonferanse). Fremgangsmåten og endepunktet i henhold til den foreliggende oppfinnelsen tilveiebringer et objekt på en skjerm for en bruker, hvor det nevnte objektet er bevegelig langs en akse eller kontinuerlig linje, og hvor dette er styrt av en bruker. Fremgangsmåten og endepunktet assosierer layout (eller komposisjoner) som støtter viktige scenarioer til intervaller til intervaller langs den kontinuerlige linjen, og muliggjør at en bruker kan flytte mellom dem sømløst ved å manipulere objektet langs den kontinuerlige linjen. En ende av den kontinuerlige linjen er assosiert med en valgt layout, f.eks. kun den som snakker høyest blir vist på hele skjermen. Den andre enden av den kontinuerlige linjen er assosiert med et annet layout, f.eks. alle videokonferansestrømmer blir fordelt i omtrent lik størrelse over en eller flere skjermer. Det kan også være andre layout som er assosiert med mellomliggende intervaller. Det bevegelige objektet kan bli fremvist på endepunktets hovedskjerm sammen med det sammensatte videosignalet, eller objektet kan bli fremvist på en separat kontrollinnretning (slik som en trykkfølsom fjernkontroll) sammen med en replika av den foreliggende videosammensetting (layout). The present invention relates to a method and an endpoint for modifying the layout used by a video generating device to generate a composite video signal (eg duo video or continuous presence video conference). The method and endpoint according to the present invention provides an object on a screen for a user, where said object is movable along an axis or continuous line, and where this is controlled by a user. The method and endpoint associate layouts (or compositions) that support important scenarios to intervals to intervals along the continuous line, and enable a user to move between them seamlessly by manipulating the object along the continuous line. One end of the continuous line is associated with a selected layout, e.g. only the loudest speaker is shown on the full screen. The other end of the continuous line is associated with another layout, e.g. all video conference streams are distributed in approximately equal size across one or more screens. There may also be other layouts associated with intermediate intervals. The moving object may be displayed on the endpoint's main screen along with the composite video signal, or the object may be displayed on a separate control device (such as a pressure sensitive remote control) along with a replica of the present video composite (layout).

Siden den foreliggende oppfinnelsen omfatter det å manipulere en enkelt kontroll-akse er oppfinnelsen egnet for ulike brukerinputmekanismer, slik som en tradisjonell fjernkontroll (vil kreve en brukervalgt modus for å kontrollere layoutsammensetning), mus og trykkfølsomme skjermer. Since the present invention involves manipulating a single control axis, the invention is suitable for various user input mechanisms, such as a traditional remote control (will require a user-selected mode to control layout composition), mice and pressure-sensitive screens.

Fig. 1 er et skjematisk flytskjema som illustrerer prinsippene til fremgangsmåten for å generere et sammensatt videosignal som skal fremvises på skjermen til et endepunkt. Fig. 1 is a schematic flow diagram illustrating the principles of the method of generating a composite video signal to be displayed on the screen of an endpoint.

Fremgangsmåten starter ved initieringstrinn 100. The procedure starts at initiation step 100.

Et objekt som kan beveges av en bruker langs en akse eller kontinuerlig linje er tilveiebrakt på en skjerm i det tilveiebringende trinnet 110. An object that can be moved by a user along an axis or continuous line is provided on a screen in the providing step 110.

Fig. 2 er en skjematisk illustrasjon av prinsippet til oppfinnelsen, og viser et skjermområde eller området til en skjerm for fremvisning av det sammensatte videosignalet 210. Et eksempelvis objekt 220 er fremvist, hvori objektet 220 er bevegelig langs en akse 230. Denne aksen er ikke synlig for brukeren. Fig. 2 is a schematic illustration of the principle of the invention, and shows a screen area or the area of a screen for displaying the composite video signal 210. An exemplary object 220 is shown, in which the object 220 is movable along an axis 230. This axis is not visible to the user.

I et aspekt er objektet 220 tilveiebrakt på en hovedskjerm assosiert med endepunktet, hvori nevnte skjerm blir brukt for å fremvise In one aspect, object 220 is provided on a main screen associated with the endpoint, wherein said screen is used to display

videokonferansestrømmer, slik som et sammensatt videosignal, til en lokal bruker. Objektet kan bli fremvist sammen med nevnte sammensatte videosignal. I en utførelse blir objektet fremvist som overlappende over nevnte sammensatte videosignal. I et annet utførelse kan objektet ble fremvist i et område separert fra det sammensatte videosignalet. video conference streams, such as a composite video signal, to a local user. The object can be displayed together with said composite video signal. In one embodiment, the object is displayed as overlapping over said composite video signal. In another embodiment, the object can be displayed in an area separated from the composite video signal.

I en annen utførelse er objektet 220 tilveiebrakt på skjermen til en styringsinnretning assosiert med endepunktet. Styringsinnretningen er en innretning som i det minste omfatter en skjerm, en inputinnretning, minne og en prosessor. Skjermen kan være en dedikert fjernkontrollinnretning, en mobil enhet (slik som en mobiltelefon, nettbrett (tablet), etc.) eller en personlig datamaskin. Skjerminnretningen er forbundet til nevnte endepunkt via en kablet (f.eks. LAN eller ledning til endepunkt) eller trådløst kommunikasjonsnettverk (f.eks. WiFi, Bluetooth, etc). En klientapplikasjon som kjører på skjerminnretningen er konfigurert til å kommunisere med endepunktet for å sende og motta kontrollsignaler til og fra endepunktet. I henhold til en utførelse mottar klientapplikasjonen kontrollsignaler i form av layoutinformasjon fra endepunktet, og basert på denne layoutinformasjonen gjengir og fremviser styringsenheten en replika av det foreliggende sammensatte videosignalet fremvist på hovedskjermen som er assosiert med endepunktet. Layoutinformasjonen kan f.eks. være layouten som for tiden brukes, navn på deltakere og/eller endepunkt og i hvilken ramme deres videokonferansestrømmer blir fremvist, etc. Objektet kan bli fremvist sammen med nevnte replika. I en utførelse blir objektet fremvist som overlappende over nevnte replika. I en annen utførelse kan objektet bli fremvist i et område avdelt fra replikaen. In another embodiment, the object 220 is provided on the screen of a control device associated with the endpoint. The control device is a device which at least comprises a screen, an input device, memory and a processor. The display can be a dedicated remote control device, a mobile device (such as a mobile phone, tablet, etc.) or a personal computer. The display device is connected to said endpoint via a wired (e.g. LAN or wire to endpoint) or wireless communication network (e.g. WiFi, Bluetooth, etc). A client application running on the display device is configured to communicate with the endpoint to send and receive control signals to and from the endpoint. According to one embodiment, the client application receives control signals in the form of layout information from the endpoint, and based on this layout information, the control unit renders and displays a replica of the present composite video signal displayed on the main screen associated with the endpoint. The layout information can e.g. be the layout currently used, name of participants and/or endpoint and in which frame their video conference streams are displayed, etc. The object may be displayed together with said replica. In one embodiment, the object is presented as overlapping said replica. In another embodiment, the object may be displayed in an area separated from the replica.

Objektet 220 kan være et heldekkende grafisk objekt, eller objektet 220 kan være delvis eller helt transparent. Objektet 220 kan ha enhver form eller størrelse. I ett aspekt er objektet 220 en linje eller stolpe som strekker seg delvis eller helt over skjermområdet eller det fremviste sammensatte videosignalet. Objektet 220 kan opptre i respons til en brukers handling, f.eks. ved å aktivere en layoutkontroll- funksjon via et menysystem eller ved å trykke en knapp på en fjernkontroll, eller at en bruker berører en trykkfølsom skjerm. The object 220 can be an all-over graphic object, or the object 220 can be partially or completely transparent. The object 220 can have any shape or size. In one aspect, the object 220 is a line or bar that extends partially or completely across the screen area or the displayed composite video signal. The object 220 can act in response to a user's action, e.g. by activating a layout control function via a menu system or by pressing a button on a remote control, or by a user touching a pressure-sensitive screen.

Uttrykket «akse» blir brukt kollektivt for å beskrive en kontinuerlig linje, som har en startverdi, en sluttverdi, og et antall mellomliggende verdier. Linjen er fortrinnsvis lineær, men kan ha enhver form. Aksen eller den kontinuerlige linjen er fortrinnsvis posisjonert innrettet med vertikale eller horisontale deler av skjermen eller det fremviste sammensatte videosignalet. Det skal imidlertid forstås at aksen eller kontinuerlig linje kan plasseres på mange måter. The term "axis" is used collectively to describe a continuous line, which has a start value, an end value, and a number of intermediate values. The line is preferably linear, but can have any shape. The axis or continuous line is preferably positioned aligned with vertical or horizontal portions of the screen or the displayed composite video signal. However, it should be understood that the axis or continuous line can be placed in many ways.

I en utførelse har aksen 230 en startposisjon Yopå en kant av skjermen eller et fremvist sammensatt videosignal, og en endeposisjon YEpå en motstående kant av skjermen eller fremviste sammensatte videosignal. I et annet aspekt, har aksen en start- og sluttposisjon som er forskjellig fra kantene til skjermen eller fremvist sammensatt videosignal. In one embodiment, the axis 230 has a start position Yo on one edge of the screen or a displayed composite video signal, and an end position YE on an opposite edge of the screen or displayed composite video signal. In another aspect, the axis has a start and end position that is different from the edges of the screen or displayed composite video signal.

I en utførelse, er nevnte objekt 220 og akse 230 representert ved hjelp av en sporingsspake eller gildebryter. En sporingsspake eller glidebryter er en kontroll som brukes for å skyve en liten glider eller peker, også kalt en tommel «a thumb», langs en kontinuerlig linje. For å bruke sporingsspaken kan en bruker dra tommelen i en av to retninger ved å bruke en inputinnretning. Denne endrer posisjonen til tommelen. Brukeren kan også klikke på en posisjon langs kontroll-linjen for å plassere tommelen på en ønsket posisjon. Alternativt, når sporingsspaken er valgt, kan brukeren bruke piltastene for å bevege tommelen. En sporingsspake blir konfigurert med et sett med verdier fra minimum til et maksimum. Brukeren kan derfor gjøre et valg innbefattet i utvalget. In one embodiment, said object 220 and axis 230 are represented by means of a tracking lever or toggle switch. A tracking lever or slider is a control used to push a small slider or pointer, also called a thumb, along a continuous line. To use the tracking stick, a user can drag the thumb in one of two directions using an input device. This changes the position of the thumb. The user can also click on a position along the control line to place the thumb in a desired position. Alternatively, when the tracking stick is selected, the user can use the arrow keys to move the thumb. A tracking lever is configured with a set of values from a minimum to a maximum. The user can therefore make a choice included in the selection.

Deretter, i assosiasjonstrinnet 120 (fig. 1), blir et flertall (N) av forhåndsdefinerte typer layout assosiert med (N) respektive intervaller Zn langs nevnte akse eller kontinuerlige linje 230. For eksempel, «vis kun én deltaker i fullskjerm (FOCUS)» layout kan bli assosiert med et første intervall Zi, en «vis én deltaker i fullskjerm og et antall andre deltakere i små rammer (FOCUS + PRESENCE)» layout kan bli assosiert med et andre intervall Z2, og en «vis alle videokonferansestrømmer i lik størrelse (OVERVIEW)» layout type kan bli assosiert med et tredje intervall Z3. Then, in the association step 120 (Fig. 1), a plurality (N) of predefined types of layout are associated with (N) respective intervals Zn along said axis or continuous line 230. For example, “show only one participant in full screen (FOCUS) » layout can be associated with a first interval Zi, a "show one participant in full screen and a number of other participants in small frames (FOCUS + PRESENCE)" layout can be associated with a second interval Z2, and a "show all video conference streams in equal size (OVERVIEW)» layout type can be associated with a third interval Z3.

I en utførelse har aksen eller den kontinuerlige linjen 230 (som har en start posisjon Yoog en sluttposisjon Ye) et flertall (N) av intervaller Za. En forhåndsdefinert layout er assosiert med et respektivt intervall Za. I en utførelse kan intervallene Zn være adskilt av et sett med terskelposisjoner Yn på aksen eller den kontinuerlige linjen, hvori n=N-l og 0<n<N og Yo<Yn<YE. Terskelposisjonene tilveiebringer N antall intervaller Zo=[Y0,Yi], Zn=[Yn,Yn+]]... ZN=[YN_i,YE]. Hvert intervall er assosiert med en respektiv av N antall av forhåndsdefinerte layout. In one embodiment, the axis or continuous line 230 (having a start position Yo and an end position Ye) has a plurality (N) of intervals Za. A predefined layout is associated with a respective interval Za. In one embodiment, the intervals Zn may be separated by a set of threshold positions Yn on the axis or continuous line, where n=N-1 and 0<n<N and Yo<Yn<YE. The threshold positions provide N number of intervals Zo=[Y0,Yi], Zn=[Yn,Yn+]]... ZN=[YN_i,YE]. Each interval is associated with a respective one of N number of predefined layouts.

I en utførelse er nevnte terskelposisjoner Ynkonfigurerbar av brukeren via et grafisk brukergrensesnitt eller oppsettsmeny. In one embodiment, said threshold positions are Ynconfigurable by the user via a graphical user interface or setup menu.

I henhold til en utførelse av den foreliggende oppfinnelsen, for ett eller flere av intervallene ZN, er det tilveiebrakt et forhold mellom posisjonene Y innenfor et intervall Zn og størrelsen av de respektive rammene innen et layout assosiert med intervallet Zn. Med andre ord er størrelsen og/eller posisjonen til en eller flere rammer i en layout type en funksjon av den brukervalgte posisjonen Yu. I henhold til denne utførelsen blir, i respons til å detektere en brukerhandling som indikerer en layout posisjon Yu, størrelsen og posisjonen til hver ramme til layouten beregnet basert på nevnte forhold og layout posisjon Yu. For eksempel, dersom en brukervalgt posisjon Yu er innen et intervall assosiert med en FOCUS + PRESENCE layout (som eksempelvis er vist i figur 7B-D), er størrelse og/eller posisjon til rammene som omfatter videokonferansestrømmer fra sitene som ikke er i FOCUS avhengig av posisjonen Yu. According to an embodiment of the present invention, for one or more of the intervals ZN, a relationship is provided between the positions Y within an interval Zn and the size of the respective frames within a layout associated with the interval Zn. In other words, the size and/or position of one or more frames in a layout type is a function of the user-selected position Yu. According to this embodiment, in response to detecting a user action indicating a layout position Yu, the size and position of each frame of the layout is calculated based on said conditions and layout position Yu. For example, if a user-selected position Yu is within an interval associated with a FOCUS + PRESENCE layout (as shown, for example, in Figure 7B-D), the size and/or position of the frames that include video conference streams from the sites not in FOCUS depend of the position Yu.

I henhold til en annen utførelse, omfatter nevnte assosieringstrinn et flertall (M) av variasjoner av layout med M antall av underintervaller (Xm). Nevnte flertall av variasjoner av en type layout kan bli assosiert inne ett eller flere av nevnte intervaller ZN. Variasjonene av type layout er variasjoner av type layout assosiert med et intervall Zn. En «vis alle videokonferansestrømmer i lik størrelse (OVERVIEW) type layout kan for eksempel bli assosiert med et intervall Z3. En 2X2 ramme variasjon av et OVERVIEW layout kan f.eks. bli assosiert med et første underintervall Xi av intervall Z3. En 3X3 ramme variasjon av OVERVIEW layout kan f.eks. bli assosiert med et andre underintervall X2til intervall Z3, og en 4X4 ramme variasjon av OVERVIEW layout kan for eksempel bli assosiert med et tredje underintervall X3(hvilket eksempel er vist i figur 7E-F). According to another embodiment, said association step comprises a plurality (M) of variations of layout with M number of sub-intervals (Xm). Said plurality of variations of a type of layout can be associated within one or more of said intervals ZN. The variations of type layout are variations of type layout associated with an interval Zn. A "show all video conference streams in equal size (OVERVIEW)" type of layout can for example be associated with an interval Z3. A 2X2 frame variation of an OVERVIEW layout can e.g. be associated with a first subinterval Xi of interval Z3. A 3X3 frame variation of the OVERVIEW layout can e.g. be associated with a second subinterval X2 to interval Z3, and a 4X4 frame variation of the OVERVIEW layout can for example be associated with a third subinterval X3 (an example of which is shown in Figure 7E-F).

Deretter, ved detektering av et brukerhandlingstrinn 130 (fig. 1), blir en brukerhandling på nevnte objekt som indikerer en posisjon Yu på nevnte akse detektert. Then, upon detection of a user action step 130 (Fig. 1), a user action on said object indicating a position Yu on said axis is detected.

I en utførelse er brukerhandlingen at en bruker beveger nevnte objekt langs nevnte akse. Brukeren kan bevege nevnte objekt ved å bruke en inputinnretning, slik som en mus, et tastatur, knapper på en fjernkontroll, trykkfølsom skjerm etc. In one embodiment, the user action is that a user moves said object along said axis. The user can move said object by using an input device, such as a mouse, a keyboard, buttons on a remote control, pressure-sensitive screen, etc.

I en annen utførelse er brukerhandlingen at en bruker velger en posisjon langs nevnte akse. Brukeren kan velge en posisjon langs aksen ved å bruke en inputinnretning, slik som en mus, et tastatur, knapper på en fjernkontroll, trykkfølsom skjerm, etc. Objektet vil bevege seg til den ønskede posisjon. In another embodiment, the user action is that a user selects a position along said axis. The user can select a position along the axis by using an input device, such as a mouse, a keyboard, buttons on a remote control, pressure sensitive screen, etc. The object will move to the desired position.

Deretter i genereringstrinn 140, blir det sammensatte signalet laget ved å bruke layout assosiert med et intervall Zu blant nevnte intervaller hvori Yu ligger. Then in generation step 140, the composite signal is created using layout associated with an interval Zu among said intervals in which Yu lies.

I en utførelse av oppfinnelsen omfatter det genererende trinnet et videre trinn, i respons til å detektere nevnte brukerhandling, med å identifisere et intervall ZU blant nevnte intervaller Zn innen hvilket Yu ligger og velge en layouttype assosiert med intervallet Zu. Det sammensatte videosignalet blir laget ved å bruke den valgte layouttypen. In an embodiment of the invention, the generating step comprises a further step, in response to detecting said user action, of identifying an interval ZU among said intervals Zn within which Yu lies and selecting a layout type associated with the interval Zu. The composite video signal is created using the selected layout type.

I en utførelse omfatter det genererende trinnet å velge en forhåndsdefinert layout som representerer nevnte valgte layout, og sende nevnte standard layout til en videogenererende innretning. In one embodiment, the generating step comprises selecting a predefined layout representing said selected layout, and sending said default layout to a video generating device.

I en annen utførelse omfatter det genererende trinnet generering eller beregning av en layout, hvori layout parameterne som definerer størrelsen og posisjonen til hver ramme i layouten er en funksjon av den valgte posisjonen Yy. In another embodiment, the generating step comprises generating or calculating a layout, wherein the layout parameters defining the size and position of each frame in the layout are a function of the selected position Yy.

En layout kan omfatte en eller flere rammer som fremviser, til enhver tid, deltakeren som prater høyest (også referert til som VOICE SWITHCED). Når en ramme er VOICE SWITHCED blir lydstrømmer fra alle sitene monitorert og analysert. Videokonferansestrømmen som kommer fra en site som har det høyeste lydnivået blir valgt til å bli fremvist i VOICE SWITHCED rammen. Andre parametere kan influere valget, f.eks. om lyd fra en site har det høyeste nivået i mer enn en forhåndsbestemt tidsperiode. A layout may include one or more frames that display, at any given time, the participant who is speaking the loudest (also referred to as VOICE SWITHCED). When a frame is VOICE SWITHCED, audio streams from all sites are monitored and analyzed. The video conference stream coming from a site that has the highest sound level is selected to be displayed in the VOICE SWITHCED frame. Other parameters can influence the choice, e.g. if sound from a site has the highest level for more than a predetermined period of time.

I en utførelse omfatter nevnte fremgangsmåte videre trinnet med å bestemme taleren som snakker høyest, og om den valgte layouttypen omfatter en VOICE SWITHCED ramme, å generere et layout hver gang en ny site blir «taleren som snakker høyest», hvori den identifiserte videokonferansestrømmen blir posisjonert i VOICE SWITHCED rammen. Dette trinnet kan f.eks. innbefatte å motta et input fra et passende kretssystem slik som en lydanalyserende innretning innbefattet i et videokonferanseendepunkt. Nevnte input identifiserer videokonferansestrømmen identifisert som «taleren som snakker høyest». Layouten blir sendt til den videogenererende innretningen. In one embodiment, said method further comprises the step of determining the speaker who speaks the loudest, and if the selected layout type includes a VOICE SWITHCED frame, generating a layout each time a new site becomes the "speaker who speaks the loudest", in which the identified video conference stream is positioned in the VOICE SWITHCED frame. This step can e.g. including receiving an input from a suitable circuitry such as an audio analyzing device included in a video conferencing endpoint. Said input identifies the video conference stream identified as the "loudest speaker". The layout is sent to the video generating device.

I en annen utførelse, dersom det valgte layout omfatter VOICE SWITHCED ramme, omfatter fremgangsmåten videre trinnet med å generere en layout som spesifiserer hvilken ramme som er stemmesvitsjet. I denne utførelsen analyserer videogenereringsenheten, eller passende kretssystem slik som en lydanalyserende innretning innbefattet i en innretning som er vert for nevnte videogenererende enhet, lyden fra alle sitene og bestemmer hvilken videokonferansestrøm som skal fremvises i den stemme svitsjede rammen. In another embodiment, if the selected layout comprises VOICE SWITHCED frame, the method further comprises the step of generating a layout specifying which frame is voice switched. In this embodiment, the video generating unit, or suitable circuitry such as an audio analyzing device included in a device that hosts said video generating unit, analyzes the audio from all the sites and determines which video conference stream is to be displayed in the voice switched frame.

Fremgangsmåten som er beskrevet i den foreliggende detaljerte beskrivelsen kan utføres av en prosesseringsinnretning innbefattet i et endepunkt. The method described in the present detailed description can be performed by a processing device included in an end point.

Mer spesifikt kan fremgangsmåte bli implementert som et sett med prosesseringsinstruksjoner eller datamaskinprograminstruksjoner, som kan være lagret i et minne, på en lagringsmedium, eller på et utbredelsessignal. Settet med prosesseringsinstruksjoner er konfigurert for å gjøre at en passende innretning, spesielt et endepunkt (eller videokonferanseinnretning), i stand til å utføre den beskrevne fremgangsmåten når instruksjonene blir eksekvert av en prosesseringsinnretning innbefattet i innretningen. More specifically, the method may be implemented as a set of processing instructions or computer program instructions, which may be stored in a memory, on a storage medium, or on a propagation signal. The set of processing instructions is configured to enable a suitable device, in particular an endpoint (or video conferencing device), to perform the described method when the instructions are executed by a processing device included in the device.

Fig. 3 er et skjematisk blokkdiagram som illustrerer et endepunkt 300, spesielt et videokonferanseendepunkt, som er konfigurert for å operere i henhold til fremgangsmåten nevnt over. Videokonferanseendepunktet 300 omfatter en prosesseringsinnretning 320, et minne 330, en skjem-adapter, som alle er forbundet til hverandre via en intern buss 350, og en skjerminnretning 360. Skjerminnretningen 360 kan innbefatte et sett med skjermer, slik som to eller tre tilliggende skjermer. Fig. 3 is a schematic block diagram illustrating an endpoint 300, particularly a video conferencing endpoint, which is configured to operate according to the method mentioned above. The video conference endpoint 300 comprises a processing device 320, a memory 330, a display adapter, all of which are connected to each other via an internal bus 350, and a display device 360. The display device 360 may include a set of displays, such as two or three adjacent displays.

Endepunktet 300 er forbundet til en videogenererende innretning 370 via en kommunikasjons link 380. Den videogenererende enheten 370 mottar en eller flere videokonferansestrømmer fra hver av et flertall av endepunkter forbundet til en konferanse, og basert på en valgt layout, genererer den videogenerende innretningen 370 et sammensatt videosignal. The endpoint 300 is connected to a video generating device 370 via a communication link 380. The video generating device 370 receives one or more video conference streams from each of a plurality of endpoints connected to a conference, and based on a selected layout, the video generating device 370 generates a composite video signal.

I henhold til en utførelse av oppfinnelsen er videogenereringsinnretningen 370 en del av en nettverksinnretning, slik som en sentralisert MCU (Multipoint Control Unit), som vist i figur 4. Den videokomponerende innretningen kan også være en del av en MCU innlemmet i endepunktet (ikke vist). I henhold til denne utførelsen mottar MCU'en videokonferansestrømmer fra tre eller flere endepunkter 300a-c forbundet i en konferanse over kommunikasjonslinker 420a-c. Videokonferansestrømmene fra endepunktene 300a-c blir sendt til en Videoprosesserende enhet VPU (ikke vist) hvor videokonferansestrømmene blir dekomprimert, og de dekomprimerte videokonferansestrømmene blir gjort tilgjengelig for den videogenererende innretningen 370, f.eks. via en intern buss eller et minne. Den videogenererende innretningen 370 utfører en romlig miksing av en eller flere av de dekomprimerte videokonferansestrømmene til ett sammensatt videosignal, og det sammensatte videosignalet blir gjort tilgjengelig for VPU, f.eks. via en intern buss eller et minne. VPU'en komprimerer den sammensatte videokonferansestrømmen og en enkelt videokonferansestrøm blir sendt tilbake til en eller flere av endepunktene 300a-c over kommunikasjonslinker 420a-c, hvor den sammensatte videokonferansestrømmen blir dekodet og fremvist på en skjerm 360. En layout blir brukt av den videogenererende innretningen for å generere det sammensatte videosignalet. According to an embodiment of the invention, the video generating device 370 is part of a network device, such as a centralized MCU (Multipoint Control Unit), as shown in figure 4. The video composing device can also be part of an MCU incorporated in the end point (not shown ). According to this embodiment, the MCU receives video conference streams from three or more endpoints 300a-c connected in a conference over communication links 420a-c. The video conference streams from the endpoints 300a-c are sent to a Video Processing Unit VPU (not shown) where the video conference streams are decompressed, and the decompressed video conference streams are made available to the video generating device 370, e.g. via an internal bus or a memory. The video generating device 370 performs a spatial mixing of one or more of the decompressed video conference streams into one composite video signal, and the composite video signal is made available to the VPU, e.g. via an internal bus or a memory. The VPU compresses the composite video conference stream and a single video conference stream is sent back to one or more of the endpoints 300a-c over communication links 420a-c, where the composite video conference stream is decoded and displayed on a display 360. A layout is used by the video generating device to generate the composite video signal.

I henhold til en annen utførelse av oppfinnelsen, som vist i figur 5, er den According to another embodiment of the invention, as shown in figure 5, it is

videogenererende innretningen 370 en del av et endepunkt 300a, hvori endepunktet 300a mottar videokonferansestrømmer fra to eller flere fjerntliggende siter 300b-c i en videokonferanse over kommunikasjonslinker 520a-c. Videokonferansestrømmen kan bli sendt til/fra endepunktene 300a-c via en eller flere nettverksenheter, slik som en videokonferansesvitsj, eller endepunktene 300a-c kan etablere separate punkt til punkt sesjoner mellom hverandre. I henhold til denne utførelsen mottar the video generating device 370 part of an endpoint 300a, wherein the endpoint 300a receives video conference streams from two or more remote sites 300b-c in a video conference over communication links 520a-c. The video conference stream may be sent to/from the endpoints 300a-c via one or more network devices, such as a videoconferencing switch, or the endpoints 300a-c may establish separate point-to-point sessions between each other. According to this embodiment receives

endepunktet 300a en eller flere videokonferansestrømmer fra hvert av de to eller flere endepunktene 300b-c forbundet i en konferanse. Videokonferansestrømmer fra endepunktene 300b-c blir sendt til den prosesserende innretningen 320 hvor videokonferansestrømmer blir gjort tilgjengelig for den videogenererende enheten 370, f.eks. via en ekstern buss eller et minne. Den videogenererende innretningen 370 utfører en romlig miksing av en eller flere av de dekomprimerte videokonferansestrømmene til en sammensatt videokonferansestrøm, og den sammensatte videokonferansestrømmen blir fremvist på en skjerm assosier med et endepunkt. En layout blir brukt av den videogenererende enheten for å generere den sammensatte videokonferansestrømmen. the endpoint 300a one or more video conference streams from each of the two or more endpoints 300b-c connected in a conference. Video conference streams from endpoints 300b-c are sent to the processing device 320 where video conference streams are made available to the video generating unit 370, e.g. via an external bus or memory. The video generating device 370 performs a spatial mixing of one or more of the decompressed video conference streams into a composite video conference stream, and the composite video conference stream is displayed on a screen associated with an endpoint. A layout is used by the video generating device to generate the composite video conference stream.

I denne utførelsen kan prosesseringsinnretningen sende valgte eller beregnet layout til den videogenererende innretningen via den interne bussen 350. In this embodiment, the processing device may send selected or calculated layout to the video generating device via the internal bus 350.

De illustrerte elementene til videokonferanseinnretningen 300 er vist for det formål å forklare prinsippene til oppfinnelsen. Det vil dermed forstås at ytterligere elementer kan bli innbefattet i en faktisk implementering av en videokonferanseinnretning. The illustrated elements of the video conferencing device 300 are shown for the purpose of explaining the principles of the invention. It will thus be understood that further elements can be included in an actual implementation of a video conference device.

Minnet 330 omfatter prosesseringsinstruksjoner som muliggjør at innretningen opptrer som forventet, for regulære videokonferansefunksjoner og operasjoner. Memory 330 includes processing instructions that enable the device to perform as expected for regular video conferencing functions and operations.

I tillegg omfatter minnet 330 et sett med prosesseringsinstruksjoner som beskrevet over med henvisning til fremgangsmåten illustrert i fig. 1, som resulterer i at prosesseringsinnretningen 320 gjør at videokonferanseinnretningen 300 utfører den fremførte fremgangsmåten for å fremvise et bilde når prosesseringsinstruksjoner blir eksekvert av prosesseringsinnretningen 320. In addition, the memory 330 comprises a set of processing instructions as described above with reference to the method illustrated in FIG. 1, which results in the processing device 320 causing the video conferencing device 300 to perform the presented method of displaying an image when processing instructions are executed by the processing device 320.

Fig. 6 er en skjematisk illustrasjon som illustrerer prinsippene til resultatet av oppfinnelsen. Fig. 6 is a schematic illustration illustrating the principles of the result of the invention.

En fremvisningsskjerm 360 innbefattet i eller forbundet til et endepunkt, eller på en skjermstyringsinnretning 380 forbundet til endepunktet, er arrangert foran en eller flere konferansedeltakere. Den lokale deltakeren utfører en videokonferansesamtale (slik som en multi-site samtale) med et flertall fjerntliggende siter. For illustrasjonens del er kun seks konferansedeltakere blitt illustrert. For enkelthetsskyld er kun en skjerm 360 blitt illustrert, mens oppfinnelsen kan operere med endepunkter som har to eller flere skjermer. A display screen 360 included in or connected to an endpoint, or on a screen control device 380 connected to the endpoint, is arranged in front of one or more conference participants. The local participant conducts a video conference call (such as a multi-site call) with a plurality of remote sites. For the purpose of the illustration, only six conference participants have been illustrated. For the sake of simplicity, only one screen 360 has been illustrated, while the invention can operate with endpoints that have two or more screens.

I figur 6A, mottar den lokale brukeren et sammensatt videosignal. Objektet 220 er i en posisjon Yu inne et første intervall Zi, som i dette eksempelet er assosiert med FOCUS layout, og dermed er det sammensatte signalet generert basert på FOCUS layout, som betyr at deltakeren som snakker er vist på hele skjermområdet. Når en bruker ønsker å endre layout til det sammensatte bildet, kan brukeren bevege objektet 220 langs en akse 230. Aksen i seg selv er ikke synlig, men formen til objektet 220 kan formes for å gjøre det klart for en bruker hvilken retning det kan beveges i. For illustreringsformål er skjermen 360 en trykkfølsom skjerm, slik at en bruker kan bevege objektet 220 direkte med en finger som vist i figur 6A-6C. Andre inputinnretninger kan bli brukt for å bevege objektet 220. Som vist i figur 6B, når objektet flyttes til posisjon Yu innen et andre intervall Z2, som i dette eksempelet er assosiert med en FOCUS + PRESENCE layout, endres det sammensatte videosignalet til et generert sammensatt videosignal basert på FOCUS + PRESENCE layout. Som vist i figur 6C, når objektet flyttes til posisjon Yu innen et tredje intervall Z$ t som i dette eksempelet er assosiert med en OVERVIEW layout, endres det sammensatte videosignalet til et generert sammensatt videosignal basert på OVERVIEW layout. In Figure 6A, the local user receives a composite video signal. The object 220 is in a position Yu within a first interval Zi, which in this example is associated with FOCUS layout, and thus the composite signal is generated based on FOCUS layout, which means that the participant speaking is shown on the entire screen area. When a user wants to change the layout of the composite image, the user can move the object 220 along an axis 230. The axis itself is not visible, but the shape of the object 220 can be shaped to make it clear to a user which direction it can be moved i. For illustrative purposes, the screen 360 is a pressure-sensitive screen, so that a user can move the object 220 directly with a finger as shown in Figures 6A-6C. Other input devices may be used to move the object 220. As shown in Figure 6B, when the object is moved to position Yu within a second interval Z2, which in this example is associated with a FOCUS + PRESENCE layout, the composite video signal is changed to a generated composite video signal based on FOCUS + PRESENCE layout. As shown in Figure 6C, when the object is moved to position Yu within a third interval Z $ t which in this example is associated with an OVERVIEW layout, the composite video signal is changed to a generated composite video signal based on the OVERVIEW layout.

I henhold til en annen utførelse av oppfinnelsen vist i figur 7A, er den lokale brukeren i en konferansesamtale med et flertall (her 8) fjerntliggende siter og mottar et sammensatt videosignal. Objektet 220 er i en posisjon Yu innen intervallet Z\, som er assosiert med et FOCUS layout, som beskrevet over. Som vist i figur 7B, når objektet beveges til posisjon Yu innen et andre intervall Z2, som er assosiert med f.eks. en FOCUS + PRESENCE layout, endrer det sammensatte videosignalet seg til et sammensatt videosignal som blir generert basert på FOCUS + PRESENCE layout. Som vist i figur 7C, når objektet blir flyttet videre langs aksen innen nevnte andre intervall Z2, endres tilsvarende størrelsen til rammene 730. Størrelsen og posisjonen til rammene 730 er en funksjon av posisjonen Yu innen intervallet Zn. Når størrelsen til rammene 730 øker, vil færre rammer bli tilpasset på bunnen av skjermen. Dermed vil ikke deltaker 740A og 740F lenger bli fremvist i det sammensatte signalet. Hvilken av deltakerne 740A-F som blir fremvist i rammene 730 kan f.eks. bli bestemt av stemmesvitsjing (de fem siste snakkende deltakerne blir fremvist). Som vist i figur 7D, når objektet flyttes videre langs aksen innen nevnte andre intervall Z2, endres tilsvarende størrelsen til rammene 730. Når objektet 220 flyttes til en posisjon Yu innen et tredje intervall Z3, som er assosiert med en 2x2 OVERRVIEW layout, endres det sammensatte videosignalet til et sammensatt generert videosignal basert 2x2 OVERRVIEW layout, som vist i fig. 7E. Til slutt, når objektet 220 flyttes til en posisjon Yu innen et fjerde intervall Z4, som er assosiert med en 3x3 OVERRVIEW layout, endres tilsvarende det sammensatte videosignalet, som vist i figur 7F. Det tredje og fjerde intervallet kan også bli referert til som underintervaller XMeller et intervall ZN, siden layoutene i de tredje og fjerde intervallene er variasjoner av en layout. According to another embodiment of the invention shown in Figure 7A, the local user is in a conference call with a plurality (here 8) of remote sites and receives a composite video signal. The object 220 is in a position Yu within the interval Z\, which is associated with a FOCUS layout, as described above. As shown in Figure 7B, when the object is moved to position Yu within a second interval Z2, which is associated with e.g. a FOCUS + PRESENCE layout, the composite video signal changes to a composite video signal that is generated based on the FOCUS + PRESENCE layout. As shown in Figure 7C, when the object is moved further along the axis within said second interval Z2, the size of the frames 730 changes accordingly. The size and position of the frames 730 is a function of the position Yu within the interval Zn. As the size of the frames 730 increases, fewer frames will fit on the bottom of the screen. Thus, participants 740A and 740F will no longer be displayed in the composite signal. Which of the participants 740A-F that is displayed in the frames 730 can e.g. be determined by voice switching (the last five speaking contestants are shown). As shown in Figure 7D, when the object is moved further along the axis within said second interval Z2, the size of the frames 730 is correspondingly changed. When the object 220 is moved to a position Yu within a third interval Z3, which is associated with a 2x2 OVERRVIEW layout, it is changed composited the video signal into a composite generated video signal based 2x2 OVERRVIEW layout, as shown in fig. 7E. Finally, when the object 220 is moved to a position Yu within a fourth interval Z4, which is associated with a 3x3 OVERRVIEW layout, the composite video signal changes accordingly, as shown in Figure 7F. The third and fourth intervals may also be referred to as subintervals X, or an interval ZN, since the layouts in the third and fourth intervals are variations of a layout.

I en utførelse kan en terskelverdi, Pth, bli tilveiebrakt på aksen. Når objektet flyttes langs terskelverdien endres layout fra bilde-i-bilde (PIP) mode til en bilde- In one embodiment, a threshold value, Pth, may be provided on the axis. When the object is moved along the threshold value, the layout changes from picture-in-picture (PIP) mode to a picture-

på utsiden av-bilde (POP) mode eller visa versa. Alternativt endrer en brukerhandling layout mellom PIP og POP (som illustrert i fig. 8). Brukerhandlingen kan være et dobbelttrykk eller klikk med en inputinnretning, eller en knapp i GUI eller på en fjernkontroll som blir trykket. PIP blir som vist i figur 7B-D, når videokonferansestrømmene i rammene 730 blir fremvist på toppen av en on the outside of picture (POP) mode or visa versa. Alternatively, a user action changes the layout between PIP and POP (as illustrated in Fig. 8). The user action can be a double tap or click with an input device, or a button in the GUI or on a remote control that is pressed. As shown in Figures 7B-D, the PIP becomes when the video conference streams in the frames 730 are displayed on top of a

annen videokonferansestrøm, fremvist over en annen videokonferansestrøm mens PIP blir det når en eller flere videokonferansestrømmer ligger over hverandre. another video conference stream, displayed over another video conference stream while PIP becomes when one or more video conference streams are superimposed.

Oppfinnelsen har blitt beskrevet for et endepunkt med en hovedskjerm 360. Det skal imidlertid bemerkes at oppfinnelsen kan bli fremvist på endepunkter som har et flertall av skjermer. Figurene 9 og 10 illustrerer eksempler hvor endepunkter har 2 skjermer, og hvor layout på to skjermer kan styres avhengig av hverandre (fig. 9) eller uavhengig av hverandre (fig. 10) ved å bruke fremgangsmåten til den foreliggende oppfinnelsen. The invention has been described for an endpoint with a main screen 360. However, it should be noted that the invention can be displayed on endpoints having a plurality of screens. Figures 9 and 10 illustrate examples where endpoints have 2 screens, and where the layout of two screens can be controlled depending on each other (fig. 9) or independently of each other (fig. 10) by using the method of the present invention.

Et utall modifikasjoner og variasjoner av den foreliggende oppfinnelsen er mulig i lys av lærdommen over. Det skal derfor forstås at det innenfor omfanget av de vedlagte kravene kan oppfinnelsen bli utført på andre måter enn eksemplene i beskrivelsen. A number of modifications and variations of the present invention are possible in light of the teachings above. It should therefore be understood that within the scope of the appended claims, the invention can be carried out in other ways than the examples in the description.

Claims

1. Method for generating a composite video signal to be displayed on the screen (340) of a video conference terminal, where said composite video signal includes a spatial mixture of one or more video conference streams, characterized by: providing, on a screen (340), an object (220) which for a user is movable along an axis (230); associating a plurality (N) of predefined layouts with (N) respective intervals Zn along said axis (230); detecting a user action on said object (220) indicating a position Yu on said axis (230), and in response to detecting said user action generating the composite video signal using the layout associated with an interval Zu among said intervals that Yu lies within.

2. Method according to claim 1, where the composite signal is generated using a video generating device (370) configured to receive a plurality of video conference streams and output a composite video signal comprising one or more of said received video conference streams based on a layout; providing the selected layout to the video generating device (370).

3. Method according to claim 1, wherein said layout defines one or more frames (730) to contain said video conference streams, and wherein the method further comprises providing, for at least one of the intervals Zn, a relationship between the positions Y within a interval Zn and the size and position of one or more of the frames (730) of a layout associated with the interval Zn, and in response to detecting said user action, calculating a layout in which the size and position of each frame (730) of the layout is based on said ratio and position Yu.

4. Method according to claim 1, wherein the method further comprises: displaying the object on a screen (340) of a control device (390), connected to the video conference terminal, together with a replica of the composite video signal currently displayed on the screen (340 ) to the video conference terminal.

5. Method according to claim 1, wherein the method further comprises: displaying the object on the screen (340) of the video conference terminal.

6. Method according to claim 4 or 5, wherein the method further comprises: updating the composite video signal and/or replica in real time as the object (220) is moved by the user.

7. Method according to claim 1, where the method further comprises: associating M number of variations of the predefined layout with M number of sub-intervals X or one or more of said intervals Zn; identifying, in response to said detecting user action, a subinterval X among said subinterval within which Yu lies; selecting the layout associated with the subinterval Xm, and generating the composite video signal using the selected layout.

8. A set of processing instructions, stored in a memory, on a storage medium, or on a propagation signal, which causes a video conferencing device to perform the method set forth in one of claims 1-7 when these are executed on a processing device included in said video conferencing device.

9. Video conferencing device (300) comprising a processing device (320), a memory (330) and a screen (340), where said memory comprises a set of processing instructions as stated in claim 8.