NO336217B1

NO336217B1 - Fremgangsmåte, datamaskinprogram og system for håndtering av mediestrømmer i videokonferanser.

Info

Publication number: NO336217B1
Application number: NO20121568A
Authority: NO
Inventors: Giles Russel Chamberlin; Hani Mustafa Eisayed Abdelkader Hashim; Nicolas Jean Michel Cormier; John-Mark Bell; Eoin Stuart Mcleod; Benjamin John Hockley
Original assignee: Pexip AS
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2015-06-15
Also published as: GB2528172A; CN105191295B; GB201510946D0; US8976225B2; GB2528172B; WO2014095499A1; NO20121568A1; CN105191295A; US20140176666A1

Description

Fremgangsmåte, datamaskinprogram og system for håndtering av mediestrømmer i videokonferanser.

Teknikkens område

Den foreliggende oppfinnelse angår en fremgangsmåte, datamaskinprogram og system for kontinuerlig å gi en oversikt over den høyeste taler eller talere i en videokonferanse.

Oppfinnelsens bakgrunn

Overføring av levende bilder i sanntid benyttes i flere anvendelser som eksempelvis videokonferanser, nettmøter og videotelefoni.

Videokonferansesystemer tillater simultan utveksling av lyd, video og data mellom flere konferanselokasjoner. Systemer kjent som multilokasjonskontrollenheter (MCU) utfører svitsjefunksjoner for å tillate endepunkter på flere lokasjoner å kommunisere seg i mellom i en konferanse. MCU knytter lokasjonene sammen ved å motta enkeltbilder av konferansesignaler fra lokasjonene, behandle de mottatte signaler, og på nytt sende de bearbeidede signaler til de aktuelle lokasjonene. Konferansesignaler inkluderer lyd, video, data og kontrollinformasjon. I en "svitsjet" (switched) konferanse, blir videosignalet fra en av konferansens lokasjoner, vanligvis til den som snakker høyest, kringkastet til hver av de andre deltakerne. I en "kontinuerlig tilstedeværende" (continuous presence) konferanse, er videosignaler fra to eller flere lokasjoner romlig mikset for å danne et samlet videosignal til visning for konferansedeltakerne. Når de ulike videostrømmene har blitt mikset sammen til en enkelt videostrøm, blir den sammensatte videostrømmen transmittert til de forskjellige deltakerne i videokonferansen, hvor hver transmitterte videostrøm helst følger et satt system som indikerer hvem som skal motta hvilken videostrøm. Generelt vil de ulike brukerne foretrekke å motta ulike videostrømmer. Det kontinuerlig tilstedeværende - eller sammensatte bildet, er et kombinert bilde som kan inkludere direktetransmittert videostrøm, stillbilder, menyer eller andre visuelle bilder fra de deltakende i konferansen.

Som antydet ovenfor, et antall endepunkter som bruker en flerstrøms (multi-stream) tilnærming kan hver sende lyd til alle de andre endepunktene, og hvis de er nominert som den "høyeste taler" (loudest speaker), sender de også sin video. Videoen av den høyeste taleren blir enten vist alene, eller som den største visningen på skjermen.

"Stemmesvitsjet" (voice switched) brukes vanligvis til å beskrive en konferanse hvor bare én taler er synlig til enhver tid. Kontinuerlig tilstedeværelse refererer til de konferanser hvor mange talere er synlige, noen ganger med den aktive taleren uthevet. "Aktiv tilstedeværelse" (active presence) er alltid det siste tilfellet.

En lignende situasjon vil oppstå i en distribuert MCU med flere virtuelle endepunkter som mikser lyd og video transmittert over bakplanet. MCUen er i dette tilfellet fordelt på flere fysiske kabinett. Programvarearkitekturen er anordnet slik at det i stedet for å bruke bakplanet til å kommunisere mellom komponentene, blir Ethernet nettverk, enten LAN eller WAN, brukt. I den følgende beskrivelse, er endepunktene referert til som både reelle endepunkter og virtuelle endepunkter.

I visse tilfeller, når en ny taler starter, kan et endepunkt svitsje meget raskt slik at den første stavelsen går tapt.

US 20080165245 Al er relater til integrasjon av lydkonferansebro med videomultipunkt-kontrollenhet. Et system inkluderer en videomultipunkt-kontrollenhet (Multipoint Control Unit (MCU))og en lydkonferansebro, lydkonferansebroen kan opereres til å motta lydstrømmer fra kun lyd- og videoendepunkter, og å forhandle videosesjoner mellom hvert av videoendepunktene og video-MCU'en. I respons på deteksjon av når en av videoendepunktene er en aktiv høyttaler sender lydkonferansebroen en dummy-lydstrøm over en dummy-lydkanal fra lydkonferansebroen til video-MCU. Dummy-lydstrømmen fører til at video-MCU'en skifter et bilde i en video-outputstrøm.

US 20120300017 Al er relater til en forstyrret resurshåndtering for et flertall lokale mediaporter for å tilveiebringe videokonferanse. Mediaporter (Media Gateway (MG)), gruppert i et hierarki er i stand til å tilveiebringe en multideltakerkonferanse blant klientanordninger. Portresurser slik som prosessorer, codec'er og nettverksgrensesnitt er aggregert ved hver MG for å etablere distribuerte koblingssesjoner basert på resurshåndteringsmatriser slik som å minimerer totalt nettverk. De distribuerte koblingssesjonene er brukt til å tilveiebringe multideltakerkonferansen. Hver MG kan aggregere portresursene, som kan være bestemt ved å bruke en oppslagstabell, fra andre MG'er for deling blant MG'ene. Hver MG kan være aktivert for å tilveiebringe mediaportkontrolleren (Media Gateway Controller (MGC)) som prosesserer ved å bruke de delte aggregerte portresursene. En MG kan bli deaktivert fra MGC-prosesseringen når det er nødvendig, og de assosierte koblingssesjonene kan deretter bli frigjort. Portresurser er håndtert ved hver MG basert på resurshåndteringsmatriser for å etablere distribuerte koblingssesjoner for å støtte multideltakerkonferansen blant klientanordningene.

US 7007098 Bl redegjør for en framgangsmåte for å kontrollere videosignaler i en multideltakervideokonferanse som involverer å fastsette nivået til videosignaler påkrevd fra hver deltaker for å blande de ønskede kringkastingsvideosignalene, og å bruke resultatene av denne fastsettelsen til å dynamisk kontrollere videooutput fra konferansedeltakernes endepunkter. Fastsettelsen av det påkrevde nivået av videosignaler bruker fortrinnsvis en lydmiksealgoritme, slik at videooutput fra de deltakerne hvis lydsignaler for øyeblikket er forkastet i lydmikseprosessen er skrudd av ved endepunktene, eller er sendt i et lavere båndbreddeformat, dermed reduseres konferansens totale båndbreddekrav og reduserer prosessorresurser for å blande kringkastingsvideosignalene.

US 20090167841 Al er relater til en framgangsmåte for

multideltakervideokonferanse uten en multipunktkonferanseenhet som inkluderer de følgende stegene: å generere en multicastskog; justere videooppløsningen for å senke strømningsraten; og å begrense antallet lydmedlemmer av medlemmene. Multicastskogen inkluderer et flertall multicasttrær og måter å koble nodene i trærne er alle forskjellige fra hverandre.

Oppsummering av oppfinnelsen

Et formål i anvendelse av den foreliggende oppfinnelse beskrevet heri, er å overvinne eller i det minste å redusere ulempene nevnt ovenfor. Dette og andre formål er oppnådd av de uavhengig fremlagte kravene presentert her.

Ifølge ett aspekt, er det tilveiebrakt en fremgangsmåte for administrasjon av mediestrømmer som omfatter i det minste videodata og lyddata i en videokonferanse med flere deltagere. Videokonferansen involverer én eller flere grupper av én eller flere noder som respektivt mottar én mediestrøm fra hver av en flerhet av tilknyttede endepunkter. Som et eksempel kan endepunktet være assosiert med én respektiv node. I hver av de én eller flere noder i hver av de én eller flere grupper, blir den høyeste lyden i mediestrømmen som mottas fra den respektive flerhet av tilknyttede endepunkter bestemt. Videre; hver av de én eller flere noder av de respektive én eller flere grupper sender en indikasjon av den bestemte høyeste lyds volum og en identifikasjon på noden som er tilknyttet den høyeste lyden fra hver av de én eller flere noder i de respektive én eller flere grupper med en respektiv beslutningstaker tilknyttet hver av de én eller flere grupper. I hver av de én eller flere beslutningstakere, er det høyeste mottatte volumet og den tilknyttet identifikasjon bestemt. Deretter; en beslutningstaker instruerer noden med identifikasjonen som tilhører det høyeste bestemte volumet å transmittere den mottatte mediestrøm fra endepunktet assosiert med den bestemte høyeste lyd til alle noder i én eller flere grupper, eller til en respektiv proxy som er tilknyttet hver av de én eller flere grupper.

Hver beslutningstaker kan respektivt være assosiert med de én eller flere grupper som blir tilordnet ett nivå av et antall nivåer i en hierarkisk trestruktur hvor beslutningstakerne er organisert.

I noen anvendelser av oppfinnelsen her beskrevet vil fremgangsmåten videre innbefatte og transmittere fra hver av de én eller flere beslutningstakere som ikke er tilordnet det høyeste nivået av et antall nivåer en indikasjon av det respektive høyeste bestemte volum og den respektivt assosierte identifikasjonen til beslutningstakeren på neste nivået i den hierarkiske trestrukturen.

Beslutningstakeren, i trinnet for å instruere, kan bli tilordnet til det høyeste nivået av et antall nivåer i den benyttede hierarkiske trestrukturen.

En node, eksempelvis noen av de én eller flere noder, kan være et virtuelt endepunkt, en multimedia server, en MCU, eller en underenheter i en distribuert

MCU.

En node, eksempelvis noen av de én eller flere noder, kan være en underenhet i en distribuert MCU som videre transmitterer den mottatte mediestrømmen fra endepunktet assosiert med den høyeste bestemte lyden til alle dens tilhørende flerhet av endepunkter.

I samsvar med et annet aspekt, er det tilveiebrakt en datamaskinimplementert beslutningstaker for administrasjon av mediestrømmer som omfatter i det minste videodata og lyddata i en videokonferanse med flere deltakere som involverer én eller flere grupper av én eller flere noder som respektivt mottar en mediestrøm fra hver enkelt av en flerhet tilknyttede endepunkter. Beslutningstakeren omfatter et mottakelsesmiddel, konfigurert til å motta, fra hver av de én eller flere noder i de respektive én eller flere grupper, en indikasjon på den respektivt bestemte høyeste lyds volum og en identifikasjon på den respektive noden som er assosiert med den høyeste lyden i de én eller flere noder i de respektive én eller flere grupper. Videre; et bestemmelsesmiddel konfigurert til å bestemme det høyest mottatte volum og den assosierte identifikasjon. Videre; beslutningstakeren omfatter et instruksjonsmiddel konfigurert til å instruere noden til identifikasjonen som tilhører det høyest bestemte volumet til å transmittere den mottatte mediestrømmen fra endepunktet assosiert med den bestemte høyeste lyden til alle noder i én eller flere grupper, eller til en respektiv proxy assosiert med hver av de én eller flere grupper.

Beslutningstakeren kan bli tilordnet, eksempelvis konfigurert til å bli tilordnet, til et nivå av et antall nivåer i en hierarkisk trestruktur hvor en flerhet av de respektive beslutningstakere assosiert med én eller flere grupper er organisert.

I noen anvendelser av oppfinnelsen beskrevet her, omfatter beslutningstakeren videre et transmisjonsmiddel konfigurert til å transmittere en indikasjon på det respektivt høyest bestemte volum og den respektive identifikasjonen assosiert med dette til en annen beslutningstaker på det neste nivå i den hierarkiske trestrukturen.

Beslutningstakeren kan tildeles det høyeste nivået i den hierarkiske trestrukturen.

En node, eksempelvis noen av de én eller flere nodene, kan være et virtuelt endepunkt, en multimedia server, en MCU, eller en underenhet i et distribuert MCU.

En node, eksempelvis noen av de én eller flere noder, kan være en underenhet i en distribuert MCU som videre er konfigurert til å transmittere den mottatte mediestrømmen fra endepunktet assosiert med den høyeste bestemte lyden til alle dens tilhørende flerhet av endepunkter.

Kort beskrivelse av tegningene

Figur 1 viser en illustrasjon av dataflyten mellom noder i samsvar med en modell med en lokal beslutningstaker, Figur 2 viser en illustrasjon av dataflyten mellom noder i samsvar med en modell med en sentral beslutningstaker, Figur 3 viser en illustrasjon av dataflyten mellom noder som i samsvar med anvendelse av et logikktre, Figur 4 viser et sekvensdiagram som illustrerer dataflyten mellom noder på en tidslinje i samsvar med en eksempelvis anvendelse av oppfinnelsen her presentert.

Detaljert beskrivelse av en eksempelutførelsesform

I samsvar med anvendelser av den foreliggende oppfinnelsen beskrevet heri er det ønskelig at, etter som en ny taler starter, et endepunkt kan svitsje mellom talere meget raskt slik at den første stavelsen ikke går tapt. Det er derfor ønskelig at alle endepunkter transmitterer lyd til alle de andre endepunktene til enhver tid, slik at hvis de skulle bli en aktiv taler kan de bli mikset inn med minst mulig forsinkelse. Hva angår MCUen, kan en forenkling gjøres med en lokal beslutning på hver enkel node om hvilke mediestrømmer som er mulige kandidater til å mikses og dermed skal videresendes.

En beslutning må tas i relasjon til hvilke mediestrømmer som bør legges til i et endepunkts miks som den høyest taler.

Oppfinnerne har innsett to mulige løsninger på problemet diskutert ovenfor - lokal eller sentral beslutningstaker. I tilfellet med lokal beslutning, mottar hvert endepunkt lyd fra hver av de andre endepunktene. En lokal beslutning blir deretter tatt for hvilke som er de N høyeste lydstrømmene og bør legges til i miksen. En forenkling kan gjøres i tilfellet med MCUen hvor hver enkelt node transmitterer sine N høyest strømmer til alle andre noder, men ikke alle de andre strømmene. Betegnelsene "node" og "undernoder" som brukt heri, omfatter alle enheter som kan delta i en videokonferanse som endepunkter, virtuelle endepunkter, multimedia servere, MCUer, underenheter i en distribuert MCU og så videre. Imidlertid vil en node som presentert i de følgende diskusjonene håndtere en rekke undernoder eller endepunkter på et lokalt område.

Modellen for lokal beslutningstaking er illustrert i figur 1. Node 1 og 2 får videodata og lyddata fra sine respektive undernoder. En beslutning om hvilke av de innkommende lydstrømmene som er høyest i volum, blir kontinuerlig tatt. Node 1 og 2 sender deretter den respektive videoen assosiert med den høyest taler til alle de andre nodene. Dette er også tilfelle for alle de andre nodene, men av hensyn for å klargjøre, er kun videresendinger fra node 1 og 2 vist med piler. Hver node kan videre videresende videoen fra den høyeste mottatte taler til sine endepunkter.

Ved nettverksfeil er denne modellen robust. Noder som ikke kan transmittere lyd til mottakeren blir rett og slett ikke lagt til listen over kandidater som kan mikses. Ingen restrukturering er nødvendig ettersom noder blir på- og frakoblet, kun å legge til eller fjerne datastrømmer er nødvendig. På den annen side, kan dette være meget krevende med tanke på båndbredde, da det kreves en totalt masket forbindelse mellom alle nodene. Dette betyr at antallet tilkoblinger øker med kvadratet av antall noder, som vil sterkt begrense løsningens skalerbarhet.

En alternativ modell benytter en sentral beslutningstaker der alle datastrømmene sendes til en sentral node som kun videresender den N høyeste. En beslutningstaker kan være en datamaskinprosess implementert i en datamaskin på et lokalt område som tar beslutninger basert på data fra målinger og forhåndsprogrammerte algoritmer. En naturlig forenkling av dette er å transmittere kun lydens effektnivåer til det sentrale punktet, der den sentrale noden deretter instruerer noden med den høyeste rapporterte taler til å transmittere video til de andre nodene. Mottakernodene mottar så én datastrøm som de videresender til det tilknyttede endepunktet. Denne modellen er illustrert i figur 2. Node 1 og 2 får video og lyd fra sine respektive undernoder. Node 1 og 2 sender deretter volumet til de respektivt høyest talende til en sentral beslutningstaker. I realiteten vil den respektivt høyeste talers volum bli sendt fra alle nodene, men for enkelhets skyld er kun volumet fra 1 og 2 vist på figuren. Beslutningstakeren sammenligner volumene og bestemmer hvilket som er høyest. I dette eksempelet, er det rapporterte volumet fra node 1 høyest, og dermed instruerer beslutningstakeren node 1 til å videresende video fra sin høyeste taler til node 3, 4 og 5. Hver node kan videre videresende video av den mottatte høyeste taler til endepunktene.

Samtidig som den skalerer bedre enn modellen med lokal beslutningstaker, har modellen med sentral beslutningstaker en ulempe ved at den er ekstremt skjør med tanke på nettverks brudd.

I samsvar med anvendelser av den foreliggende oppfinnelsen beskrevet heri, er en hybridmodell av den lokale beslutningstakermodellen og den sentrale beslutningstakermodellen benyttet. Innenfor et enkelt område, der nettverket er robust, gjøres beslutningstaking og distribusjon av media i henhold til den lokale beslutningstakermodellen. I tillegg blir den høyeste talers volum for hver enkel node på én lokasjon rapportert til en sentral beslutningstaker på denne plasseringen, som bestemmer hvilken node som er assosiert med den høyeste taler. De sentrale beslutningstakerne fra flere lokasjoner er videre satt inn i et logikktre.

De høyeste taleres volumer rapporteres respektivt oppover i den logiske trestrukturen, og den høyeste av nodene instrueres å sende video til alle andre noder som deltar i konferansen.

Figur 3 er en illustrasjon av et eksempel i henhold til én anvendelse av den foreliggende oppfinnelsen. I dette eksempelet er det tre lokasjoner som deltar i konferansen: Oslo, London og New York. I New York (NY), håndterer node 1 og 2 en rekke respektive endepunkter, hvorfra media (lyd og video) blir mottatt. Volumet og den høyeste talers identitet blant de respektive nodene blir rapportert til en beslutningstaker i NY. Beslutningstakeren i NY bestemmer videre den høyeste taleren av de innrapporterte, og rapporterer resultatet, som i dette eksempel er volumet til node 1, til beslutningstakeren plassert på det neste nivået i den logiske trestrukturen, hvilket i dette tilfellet er lokasjonen i Oslo. London er definert på samme nivå i logikktreet som lokasjonen i NY, og rapporterer følgelig på samme måte den høyeste talers volum til beslutningstakeren, som i dette eksempelet er node 5. En beslutningstaker i Oslo avgjør volumet rapportert fra NY til å være høyest, og sender derfor en tilbakemelding til beslutningstakeren i NY at høyest taler for tiden befinner seg i NY, administrert av node 1. Som svar på det, instruerer beslutningstakeren i NY node 1 å transmittere video av den høyeste taleren til alle nodene som deltar i konferansen, dvs. til node 3, 4 og 5. Hver node kan videre videresende den mottatte videoen til sine endepunkter.

Figur 4 viser et sekvensdiagram som illustrerer dataflyten mellom nodene i samsvar med den eksempelvise anvendelsen av den foreliggende oppfinnelse her diskutert med henvisning til figur 3.

Det er totalt fem noder som deltar i konferansen; node 1 og 2 er i New York, node 3 er i Oslo, og node 4 og 5 er i London. Volumene til de høyeste talerne til hver node er slik at 1 > 2> 3> 4 > 5.

Ved t = 0, sender alle nodene den høyeste talers volum til deres respektive beslutningstakere, vist med symbolet o. Ved tiden 1 rapporterer alle beslutningstakerne den høyest av de respektivt tidligere rapporterte høyest talerne tilbake til de lokale nodene. I NY, er dette node 1, i Oslo er dette node 3, og i London, er dette node 4. Samtidig vil beslutningstakerne i NY og London respektivt rapportere node 1 og node 4 som den høyest taler i sine lokasjoner til beslutningstakeren i Oslo, som er ett nivå over i logikktreet.

Ved t = 2, melder beslutningstakeren i Oslo til beslutningstakerne i NY og London at node 1 har den høyeste taleren av alle nodene som inngår i konferansen. Dette blir videre rapportert internt ved lokasjonen i London ved t = 3.

Informasjonen om den høyest taler er nå spredt til alle nodene, og node 1 begynner å sende video fra den høyeste taleren til alle de andre nodene.

Ved å benytte et logisk beslutningstre som beskrevet ovenfor, trenger kun video fra noden som håndterer den høyest talende person å bli transmittert, mens det samtidig opprettholdes robusthet mot nettverksfeil. En svikt i nettverket mellom to av lokasjonene vil ikke umiddelbart påvirke overføring av videoen fra den høyeste taler ved den tredje lokasjonen. Et nettverksbrudd mellom lokasjonene vil fjerne en beslutningsnode fra treet, som stopper media fra sin lokasjon. Ingen spesialtilpasset gjenoppretningsprosess er nødvendig. Imidlertid må en nettverksfeil mellom to lokasjoner medføre en omorganisering av logikktreet basert på forhåndsdefinerte prioriteringer fra de ulike lokasjonene. Eksempelvis kan London bli flyttet opp i logikktreet hvis Oslo faller ut.

I ytterligere forbedringer av anvendelse av den foreliggende oppfinnelse diskutert ovenfor, er en proxy innført ved hver node. Video fra lokasjonen som administrer den høyeste taleren blir deretter kun transmittert til de respektive proxiene ved hver lokasjon, slik at man unngår flere overføringer av den samme videoen til hver enkelt lokasjon. En proxy vil da motta og gjenskape videoen til hver node på samme lokasjon, noe som reduserer antall dataoverføringer intern mellom lokasjonene betraktelig.

Mens de anvendelser av den foreliggende oppfinnelsen beskrevet ovenfor skalerer med O (N2) innenfor en lokasjon, er N i så tilfelle relativt liten, og dermed er kostnadene akseptable. Treet skaler med O (log N), som drastisk reduserer antall strømmer som kreves mellom lokasjoner. Nettverksbrudd på en gitt lokasjon antas å være sjeldent, gitt at et godt nettverk i utgangspunktet er tilstede.

Claims

1. En fremgangsmåte for administrasjon av mediestrømmer som omfatter i det minste videodata og lyddata i en videokonferanse med flere deltakere som involverer én eller flere grupper av én eller flere noder som respektivt mottar én mediestrøm fra hver av en flerhet tilknyttede endepunkter, karakterisert ved å bestemme i hver av de én eller flere nodene i hver av de én eller flere grupper den høyeste lyden til mediestrømmene som mottas fra den respektive flerhet av tilknyttede endepunkter, å respektivt sende en indikasjon på den bestemte høyeste lyds volum og en identifikasjon på noden som er tilknyttet den høyeste lyden fra hver av de én eller flere noder i de respektive én eller flere grupper med en respektiv beslutningstaker tilknyttet hver av de én eller flere grupper, å bestemme hos hver én eller flere beslutningstaker det høyest mottatte volum og den tilknyttede identifikasjon, å instruere, fra en beslutningstaker, noden tilhørende identifikasjonen med det høyest bestemte volum å transmittere den mottatte mediestrøm fra endepunktet assosiert med den bestemte høyeste lyd til alle noder i én eller flere grupper, eller til en respektiv proxy tilknyttet hver av de én eller flere grupper.

2. En fremgangsmåte i henhold til krav 1,karakterisert vedat hver beslutningstaker som respektivt er assosiert med én eller flere grupper blir tilordnet ett nivå av et antall nivåer i en hierarkisk trestruktur hvor beslutningstakerne er organisert.

3. En fremgangsmåte i henhold til krav 2, som videre omfatter: å transmittere fra hver av de én eller flere beslutningstakere som ikke er tilordnet det høyeste nivået av antallet nivåer en indikasjon på det respektive høyest bestemte volum og den respektivt assosierte identifikasjon til beslutningstakeren på neste nivå i den hierarkiske trestrukturen.

4. En fremgangsmåte i henhold til krav 3, der beslutningstakeren, i trinnet for å instruere, er tilordnet det høyeste nivået av et antall nivåer i den benyttede hierarkiske trestrukturen.

5. En fremgangsmåte i henhold til ett av kravene 1-4, der en node er et virtuelt endepunkt, en multimedia server, en MCU, eller en underenhet i en distribuert MCU.

6. Fremgangsmåte i henhold til ett av kravene 1-4, der en node er en underenhet i en distribuert MCU som videre transmitterer den mottatte mediestrømmen fra endepunktet assosiert med den høyest bestemte lyden til alle dens tilhørende flerhet av endepunkter.

7. En datamaskinimplementert beslutningstaker for administrasjon av mediestrømmer som omfatter i det minste videodata og lyddata i en videokonferanse med flere deltakere som involverer én eller flere grupper av én eller flere noder som respektivt mottar en mediestrøm fra hver enkelt av en flerhet tilknyttede endepunkter, karakterisert ved et mottakelsesmiddel, konfigurert til å motta, fra hver av de én eller flere noder i de respektive én eller flere grupper, en indikasjon på den respektivt bestemte høyeste lyds volum og en identifikasjon på den respektive noden som er assosiert med den høyeste lyden i de én eller flere noder i de respektive én eller flere grupper, et bestemmelsesmiddel konfigurert til å bestemme det høyest mottatte volum og den assosierte identifikasjon, et instruksjonsmiddel konfigurert til å instruere noden til identifikasjonen som tilhører det høyest bestemte volumet til å transmittere den mottatte mediestrømmen fra endepunktet assosiert med den bestemte høyeste lyden til alle noder i én eller flere grupper, eller til en respektiv proxy assosiert med hver av de én eller flere grupper.

8. En beslutningstaker i henhold til krav 7, som blir tilordnet et nivå av et antall nivåer i en hierarkisk trestruktur hvor en flerhet av de respektive beslutningstakere assosiert med én eller flere grupper er organisert.

9. En beslutningstaker i henhold til krav 8, som videre omfatter: et transmisjonsmiddel konfigurert til å transmittere en indikasjon på det respektivt høyest bestemte volum og den respektive identifikasjonen assosiert med dette til en annen beslutningstaker på det neste nivå i den hierarkiske trestrukturen.

10. En beslutningstaker i henhold til krav 8, som blir tilordnet det høyeste nivået i den hierarkiske trestrukturen.

11. En beslutningstaker i henhold til krav 7-10, der en node er et virtuelt endepunkt, en multimedia server, en MCU, eller en underenhet i et distribuert MCU.

12. En beslutningstaker i henhold til krav 7-10, der en node er en underenhet i en distribuert MCU som videre er konfigurert til å transmittere den mottatte mediestrømmen fra endepunktet assosiert med den høyeste bestemte lyden til alle dens tilhørende flerhet av endepunkter.