NO341316B1

NO341316B1 - Fremgangsmåte og system for å assosiere en ekstern enhet til en videokonferansesesjon.

Info

Publication number: NO341316B1
Application number: NO20130761A
Authority: NO
Inventors: Håvard Graff
Original assignee: Pexip AS
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2017-10-09
Also published as: US20140354761A1; WO2014191440A1; EP3005690A1; EP3005690B1; CN105247854A; NO20130761A1

Description

Fremgangsmåte og system for å assosiere en ekstern enhet til en videokonferansesesjon.

Teknikkens område

Den foreliggende oppfinnelse omhandler en fremgangsmåte og et system for å assosiere en ekstern enhet til en videokonferansesesjon ved å gjenkjenne akustiske fingeravtrykk.

Oppfinnelsens bakgrunn

Overføring av levende bilder i sanntid benyttes i flere anvendelser, som for eksempel i videokonferanser, nettmøter og videotelefoni.

Videokonferansesystemer tillater simultan utveksling av lyd, video og data mellom flere konferanselokasjoner. Systemer kjent som multilokasjonskontrollenheter (Multipoint Control Units - MCU) utfører svitsjefunksjoner for å tillate endepunkter på flere lokasjoner å kommunisere seg i mellom i en konferanse. Oppgavene til en MCU kan vanligvis utføres av generelle videokonferanseadministrasjonsarrangement (VCMA) slik som distribuerte MCUer, konferanse broer, rutere eller konferanseadministrasjonsservere, som til hvilke begrepet MCU vil referere til heri.

MCUen linker lokasjonene sammen ved å motta enkeltbilder av konferansesignaler fra lokasjonene, behandle de mottatte signalene, og på nytt transmittere de bearbeidede signalene til de aktuelle lokasjonene. Konferansesignaler inkluderer lyd, video, data og kontrollinformasjon. I en "svitsjet" (switched) konferanse, blir videosignalet fra en av konferansens lokasjoner, vanligvis av den som snakker høyest, kringkastet til hver av de andre deltakerne. I en "kontinuerlig tilstedeværende" (continuous presence) konferanse, er videosignaler fra to eller flere lokasjoner romlig mikset sammen for å danne et samlet videosignal til visning for konferansedeltakerne. Når de ulike videostrømmene har blitt mikset sammen til en enkelt videostrøm, blir den sammensatte videostrømmen transmittert til de forskjellige deltakerne i videokonferansen, hvor hver transmitterte videostrøm helst følger et satt system som indikerer hvem som skal motta hvilken videostrøm.

I konvensjonelle videokonferanser hvor en videostrøm, ofte referert til som "duo-video", er anvendt og MCUen er involvert, er den ekstra video-/grafikkanalen koblet fra senderen av duo-videoen til MCUen, som igjen transmitterer videre til alle andre deltakere. MCUen kan fortløpende distribuere duo-videoinnholdet ettersom det er mottatt fra ett av endepunktene til de personlige enhetene med autorisert tilgang til konferansen. Konferanseapplikasjonene på de personlige enhetene er tilpasset til å motta og vise innholdet transmittert fra MCUen.

I tillegg til tradisjonelle stasjonære videokonferanseendepunkter, eksterne enheter, slik som mobiltelefoner og dataenheter, smarttelefoner, tabletter, personlige enheter og PC-er, har nylig kommet inn i det visuelle kommunikasjonsmarkedet.

En bruker kan være lokalisert foran en skjerm som ikke er stor nok til å vise alle deltakerne i en videokonferanse. Dette problemet forsterkes hvis en av deltakerne begynner å dele en presentasjon. Å dele skjermen mellom deltakernes ansikter og presentasjonen vil gjøre presentasjonen uleselig. Vises kun presentasjonen medfører dette at brukeren ikke lenger kan se den som presenterer.

Dermed er det ofte behov for å koble datamaskiner og andre personlige enheter til en videokonferanse, for eksempel for å vise en presentasjon og deling av dokumenter i en videokonferansesesjon. Tilkobling er tradisjonelt gjort av en ledning, for eksempel en analog skjermkabel. Problemer tilknyttet skjerminnstillinger, interoperabilitet og tilkoblinger kan da forekomme.

Det er også tungvint å finne ut hvordan man bruker en av disse enhetene for å delta i videokonferansesesjonen selv om brukeren allerede er en del av sesjonen. Brukeren må finne identifikasjonen av konferansen, for eksempel en URI (Uniform Resource Identifier), som kan være vanskelig å spore opp, og i tilfeller med ad hoc-møter, umulig. Ad hoc-møter kan i denne sammenheng bety punkt-til-punkt-oppringinger som er eskalert til en konferanse med flere deltakere holdt på en MCU. I opptrappingen, får samtalen en ny URI som bare er adresserbar til folk som allerede deltar i samtalen.

I 'US 2012148037 Al' kan en pågående samtale manipuleres slik at brukerenheter i nærhet til den pågående samtalen, men ikke i utgangspunktet en del av samtalen, er i stand til å ta del i den pågående samtalen. Bestemmelse av at en brukerenhet er i nærhet til en pågående samtale kan inkludere deteksjon fra brukerenheten, av en pågående samtale. Alternativt, eller i tillegg, kan en kommunikasjonsenhet involvert i den pågående samtalen oppdage en brukerenhet og spørre brukerenheten om den har tillatelse til å ta del i den pågående samtalen, og hvis så, om den ønsker å slutte seg til den pågående samtalen.

US 2007206759 Al beskriver systemer, metoder og apparater til å ta opp konferansesamtaleaktivitet. En metode beskrevet omfatter å overvåke en konferansesamtale for en handlingselementtalekommando, som oppdager handlingselementtalekommandoer, og lagrer et signal representativt av handlingselementtalekommando i et minne.

US 8060366 Bl beskriver et system, en metode og datamaskinlesbart medium som legger til rette for verbal styring av konferanseanropsfunksjoner. Automatisk talegjenkjenningsfunksjonaliteten er anvendt i en konferanseplattform. Spesifikke ord er konfigurert i konferanseplattformen som kan identifiseres under tale levert til en konferansesamtale. Ved gjenkjennelse av et spesifikt ord, kan en tilsvarende funksjon initieres. En taler kan identifiseres ved hjelp av taleidentifikasjonsteknologier. Identifikasjon av taleren kan benyttes for å oppfylle talerens anmodning som respons på gjenkjennelse av spesifikke ord og taleren. Bestemte deltakere kan være gitt konferansekontrollprivilegier som ikke er gitt andre deltakere. Ved gjenkjennelse av spesifikke ord, kan taleren identifiseres for å avgjøre om taleren er autorisert til å initiere konferansefunksjonen forbundet med det spesifikke ordet.

WO 2006128171 A2 beskriver en fremgangsmåte og system for å autentisere en bruker. Fremgangsmåten kan omfatte å motta en eller flere taleytringer fra en bruker, å gjenkjenne en frase som svarer til en eller flere taleytringer, identifisere et biometrisk stemmeavtrykk av brukeren fra en eller flere taleytringer av frasen, å bestemme en enhetsidentifikator assosiert med enheten, og autentisere brukeren basert på frasen, det biometriske stemmeavtrykk, og enhetsidentifikatoren. En lokasjon av håndsettet eller brukeren kan benyttes som kriterier for å gi tilgang til én eller flere ressurser.

US 2004186724 Al beskriver et talerverifiseringssystem for bruk med et sikkerhetssystem som inkludert et datalager som inneholder en talestemmeavtrykksmodell utviklet fra en talers ytring av en passfrase. Det omhandler også en lydinngang mottakelig for en lydinngangsstrøm. Det omhandler videre en verifikasjonsmodul tilpasset til å samsvare en undermodellsdel av taleavtrykksmodellen til en understrømsdel av inngangsstrømmen og gi en talerverifisering. Systemet treffer en balanse mellom nøyaktighetsrisiko og brukervennlighet ved hjelp av kontinuerlig talegjenkjenning, en lang passfrase, og samsvar relativt til varigheten av understrømsdelen og relativt til den mengden tilleggsopplæring til hvilke de korresponderende tilstandene av modellen har blitt sendt. Dermed kan systemet oppnå nøyaktige talerverifikasjoner, mens talerne kan melde seg inn med reduserte repetisjoner, bruke systemet «hands-free», og oppleve reduserte krav til å ytre det meste eller hele passfrasen over tid.

Fortsatt er det et behov for en metode for å tilkoble enheter til en videokonferanse som ikke krever noen, eller begrenset, brukerinteraksjon.

Oppsummering av oppfinnelsen

Et formål ved anvendelser av oppfinnelsen presenterte heri, er å eliminere eller i det minste forminske ulempene nevnt ovenfor. Dette formålet og andre formål oppnås ved de uavhengige kravene presentert i det følgende.

I henhold til et aspekt, kan formålet oppnås ved en fremgangsmåte for å assosiere en ekstern enhet, som i det minste omfatter en mikrofon i auditiv nærhet til et endepunkt som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur som har sanntidslyd av konferansesesjonen tilgjengelig. Den eksterne enheten oppfanger, med mikrofonen, lyd fra endepunktet, og oppretter et eller flere endepunktlydsfingeravtrykk av den oppfangede lyden. Videre transmitterer den eksterne enheten det ene eller de flere endepunktlydsfingeravtrykkene fra den eksterne enheten til

konferanseinfrastrukturen. Konferanseinfrastrukturen sammenligner det ene eller de flere endepunktlydsfingeravtrykk med en eller flere

konferanselydsfingeravtrykkene opprettet korresponderende av konferanseinfrastrukturen fra sanntidslyd av konferansesesjonen, og når et samsvar blir identifisert så assosieres den eksterne enheten til konferansesesjonen. Opprettelsen av det ene eller de flere endepunktlydsfingeravtrykk omfatter å opprette et mønster av vekslende taleaktivitet og stillhet.

I noen utførelsesformer omfatter opprettelsen av en eller flere endepunktlydsfingeravtrykk å splitte lyden i mindre prøver som inneholder distinkte stemmeaktivitetsmønstre.

I noen utførelsesformer er den eksterne enheten en datamaskin, et elektronisk nettbrett eller en mobiltelefon.

I noen utførelsesformer er den eksterne enheten tilveiebrakt med en applikasjon, og metoden blir initiert når programmet starter, og/eller når assosieringsalternativet i applikasjonen er valgt.

I noen utførelsesformer, omfatter fremgangsmåten videre: når man assosierer den eksterne enheten til konferansesesjon, å strømme en presentasjonsstrøm, assosiert med konferansesesjonen, til den eksterne enheten.

I noen utførelsesformer, omfatter fremgangsmåten videre: når man assosierer den eksterne enheten til konferansesesjon, å assosiere den eksterne enheten som en deltaker i konferansesesjonen.

I noen utførelsesformer er konferansesesjonen en videokonferansesesjon eller en telefonkonferansesesjon.

I henhold til et annet aspekt, kan formålet oppnås med et system som inkluderer en ekstern enhet, i auditiv nærhet til et endepunkt som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur som har sanntidslyd av konferansesesjonen tilgjengelig. Systemet, slik som den eksterne enheten, omfatter en mikrofon som er koblet til den eksterne enheten tilpasset til å oppfange lyd som avgis fra endepunktet ved mikrofonen. Videre, systemet, slik som den eksterne enheten, omfatter opprettelsesmidler, slik som en prosesseringskrets, for å opprette en eller flere endepunktlydsfingeravtrykk fra den oppfangede lyden. Opprettelsesmiddelet er videre tilpasset til å opprette et mønster av vekslende taleaktivitet og stillhet for å opprette det ene eller de flere endepunktlydsfingeravtrykk.

I tillegg omfatter systemet, slik som den eksterne enheten, transmitteringsmidler, slik som en transmittør eller lignende, tilpasset til å transmittere en eller flere endepunktlydsfingeravtrykk fra den eksterne enheten til konferanseinfrastrukturen. Videre, systemet, slik som konferanseinfrastrukturen, omfatter sammenlignings- og identifikasjonsmidler, slik som en prosesseringskrets som inngår i konferanseinfrastrukturen, tilpasset til å sammenligne en eller flere endepunktlydsfingeravtrykk med en eller flere konferanselydsfingeravtrykk opprettet korresponderende av konferanseinfrastrukturen av sanntidslyd av konferansesesjonen, og å identifisere et samsvar mellom en eller flere endepunktlydsfingeravtrykk og en eller flere konferanselydsfingeravtrykk. Systemet, slik som konferanseinfrastrukturen, omfatter også assosieringsmidler, slik som prosessenngskretsen omfattet i konferanseinfrastrukturen, tilpasset til å assosiere den eksterne enheten til konferansesesjon når et samsvar blir identifisert av sammenlignings- og identifikasjonsmiddelet.

I noen utførelser, er opprettelsesmiddelet videre tilpasset til å splitte lyden i mindre prøver som inneholder distinkte stemmeaktivitetsmønstre for å opprette det ene eller de flere endepunktlydsfingeravtrykk.

I noen utførelsesformer er den eksterne enheten tilveiebrakt med en applikasjon, og metoden blir initiert når programmet blir startet, og/eller når assosieringsalternativet i applikasjonen er valgt.

I noen utførelsesformer er den eksterne enheten tilveiebrakt med en applikasjon, og systemet blir initiert når applikasjonen blir startet.

I noen utførelsesformer er den eksterne enheten tilveiebrakt med en applikasjon, og systemet blir initiert når assosieringsalternativet i applikasjonen er valgt.

I noen utførelsesformer, omfatter fremgangsmåten videre: når man assosierer den eksterne enheten til konferansesesjonen, å strømme en presentasjonsstrøm, assosiert med konferansesesjonen, til den eksterne enheten.

I noen utførelsesformer, omfatter fremgangsmåten videre: når man assosierer den eksterne enheten til konferansesesjonen, å assosiere den eksterne enheten som en deltaker i konferansesesjonen.

En fordel med fremgangsmåten og systemet i henhold til utførelsesformene heri, er at ingen eller begrenset brukerinteraksjon er nødvendig for å assosiere den eksterne enheten til konferansesesjonen, som drives av konferanseinfrastrukturen.

I henhold til et ytterligere aspekt, kan formålet oppnås ved en fremgangsmåte som utføres av den eksterne enheten, for å tilveiebringe assosiasjon av den eksterne enheten, som i det minste omfatter en mikrofon i auditiv nærhet til et endepunkt som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur som har sanntidslyd av konferansesesjonen tilgjengelig. Den eksterne enheten oppfanger, med mikrofonen, lyd fra endepunktet, og oppretter et eller flere endepunktlydsfingeravtrykk fra den oppfangede lyden. Deretter transmitterer den eksterne enheten det ene eller de flere endepunktlydsfingeravtrykkene til konferanseinfrastrukturen. Opprettelsen av det ene eller de flere endepunktlydsfingeravtrykkene inkluderer å opprette et mønster av vekslende taleaktivitet og stillhet.

I henhold til enda et annet aspekt, kan formålet oppnås ved en fremgangsmåte, som utføres av en konferanseinfrastruktur for å assosiere en ekstern enhet, som i det minste omfatter en mikrofon i auditiv nærhet til et endepunkt som deltar i en konferansesesjon, til konferansesesjonen som administreres av konferanseinfrastrukturen som har sanntidslyd av konferansesesjonen tilgjengelig. Konferanseinfrastrukturen mottar en eller flere endepunktlydsfingeravtrykk fra den eksterne enheten. Endepunktlydsfingeravtrykkene omfatter et mønster av vekslende taleaktivitet og stillhet.

Konferanseinfrastrukturen sammenligner det ene eller de flere endepunktlydsfingeravtrykkene med det ene eller de flere

konferanselydsfingeravtrykkene opprettet korresponderende ved konferanseinfrastrukturen av sanntidslyd av konferansesesjonen. Deretter tilknytter konferanseinfrastruktur den eksterne enheten til konferansesesjonen når et samsvar blir identifisert.

Kort beskrivelse av te<g>nin<g>ene

Figur 1 er en skjematisk oversikt over utførelsesformene av systemet.

Figur 2 er et skjematisk flytskjema som illustrerer utførelsesformene av fremgangsmåten utført i systemet i henhold til figur 1. Figur 3 er et skjematisk blokkdiagram som illustrerer utførelsesformene av den eksterne enheten. Figur 4 er et skjematisk blokkdiagram som illustrerer utførelsesformene av konferanseinfrastrukturen.

Detaljert beskrivelse av eksem pel utførelsesform

Figur 1 er et eksemplifiserende system 100 der utførelsesformene heri kan bli implementert. Systemet 100 illustrerer ulike enheter, infrastruktur og enheter som kan være involvert i en videokonferanse, eller videokonferansesesjon.

Systemet 100 omfatter en konferanseinfrastruktur 110, som kan omfatte en eller flere endepunkter 120, som for eksempel videoendepunkter eller audioendepunkter. Et videoendepunkt kan typisk være videokonferanseutstyr lokalisert i for eksempel et konferanserom. Tilsvarende kan et audioendepunkt være konferansetelefonutstyr lokalisert i et konferanserom.

Videre, konferanseinfrastrukturen 110 kan omfatte en MCU 140 som administrerer hvilken som helst konferansesesjon satt opp i konferanseinfrastrukturen 110. Konferanseinfrastrukturen vil bli beskrevet mer detaljert med henvisning til figur 4.

Videre, systemet 100 omfatter en eller flere eksterne enheter 130. Som det er brukt heri, kan begrepet "ekstern enhet" referere til en mobiltelefon, en personlig digital assistent (PDA) utstyrt med radiokommunikasjonsmuligheter, en smarttelefon, en bærbar eller stasjonær datamaskin (PC) utstyrt med et internt eller eksternt mobilt bredbåndsmodem, en nettbrett-PC med radiokommunikasjonsmuligheter, en bærbar elektronisk radiokommunikasjonsenhet eller lignende. Den eksterne enheten 130 vil bli beskrevet mer detaljert med henvisning til figur 3.

I figur 1 er et IP-nettverk 150 vist. IP-nettverket 150 er tilpasset til å tilkoble, med kabel eller trådløst, det ene eller de flere endepunktene 120 til MCUen 140 og den eksterne enheten 130 til konferanseinfrastrukturen, inkludert MCUen 140.

I henhold til en generell utførelsesform av den foreliggende oppfinnelse, er en datamaskin-, nettbrett- eller smarttelefonutførbar applikasjon tilgjengeliggjort, som tillater en bruker av programmet å aktivere sammenkobling av enheten og en videokonferansesesjon som tillater for eksempel strømming av duo-videoinnhold eller andre former for presentasjonsstrømmer av videokonferansesesjonen fra videokonferanseinfrastruktur som MCUer, konferansebroer eller servere.

I det følgende er begrepet videokonferansesesjon referert til som den aktive videokonferansen som brukeren ønsker å sammenkoble sin enhet til. Videre refererer videokonferanseinfrastruktur til infrastrukturenheter som brukes til å være vert for disse konferansene for å få en en-til-mange-konferanse, inkludert, men ikke begrenset til, MCUer.

Figur 2 er et flytskjema som illustrerer utførelsesformene beskrevet heri. For å, for eksempel, tilveiebringe en trådløs fremgangsmåte for å assosiere og tilkoble en ekstern enhet til en videokonferanse, kan de følgende handlinger utføres i enhver egnet rekkefølge.

Handling 101

I henhold til utførelsesformene heri, antas det at en bruker som allerede deltar i en videokonferansesesjon ønsker å bruke en ekstern enhet til - for eksempel - å motta presentasjonsstrømmen på, det vil si mottak og/eller transmittering av presentasjonsstrømmen eller annet samarbeids- eller mediestrømmer innlemmet i videokonferansesesjonen til/fra den eksterne enheten. Dermed fanger den eksterne enheten opp lyd fra endepunktet av en ekstern enhet. Som et eksempel, utløst av en hendelse, starter den eksterne enheten å lytte på én eller flere av sine mikrofoner for å identifisere lyd i nærheten.

Handling 102

Følgelig, for å identifisere lyden, oppretter den eksterne enheten en eller flere endepunktlydsfingeravtrykk, slik som et akustisk fingeravtrykk, av den oppfangede lyden.

Handling 103

Deretter transmitterer den eksterne enheten, for eksempel ved hjelp av en transmitter eller lignende, den ene eller de flere endepunktslydfingeravtrykkene til konferanseinfrastrukturen. Den akustiske identifikasjonen, eller lydidentifikasjonen blir tilgjengeliggjort for videokonferanseinfrastrukturen som er vert for den spesifikke videokonferansesesjonen, eventuelt blant en rekke andre. Det akustiske fingeravtrykket er en kondensert digital oppsummering, deterministisk generert fra et lydsignal som kan brukes til å identifisere en lydprøve eller raskt finne lignende elementer i en lyddatabase. I noen eksempler, kan den kondenserte digitale oppsummeringen overføres til konferanseinfrastrukturen via IP-nettverket 150.

Handling 104

Videokonferanseinfrastrukturen i utførelsesformene heri identifiserer kontinuerlig, eller blir utløst av en hendelse, lyden av alle konferansesesjonene som blir avholdt på denne. Den sammenligner det mottatte fingeravtrykket med fingeravtrykkene av videokonferansene som avholdes.

Handling 105

Hvis en samsvarende sesjon blir funnet, assosierer videokonferanseinfrastrukturen den eksterne enheten til konferansesesjonen. Uttrykt på en annen måte, videokonferanseinfrastrukturen kan umiddelbart tilkoble den eksterne enheten til denne, eller eventuelt etter en autentisering.

Som allerede antydet trenger ikke alle konferansene nødvendigvis å identifisere lyden kontinuerlig. Bare når en sammenkoblingn («pairing») er initiert, må konferansene begynne å lytte etter fingeravtrykket, siden denne prosessen med lytting kan være beregningsmessig kostbart. En enkel eliminering vil også være en svært effektiv fremgangsmåte. En rask filtrering av alle konferansene det ikke kan være (basert på det mottatte signal), slik at algoritmen står igjen med å velge mellom et mye mindre datasett. Å ha kunnskapen om at et mottatt fingeravtrykk har et samsvar i det gjeldende sett, er veldig effektivt i forhold til ikke å vite om "den skyldige", det vil si det mottatte fingeravtrykket, er i databasen. Sammenlignings- eller elimineringsteknikker kan med stor suksess brukes i dette tilfellet. Faktisk er det mye enklere å bestemme at fingeravtrykket ikke kom fra en spesifikk konferanse, enn å gjøre en eksakt sammenligning. Å gjøre dette iterativt vil oppnå riktig «match», og vil kunne stoppe deteksjon av de som har blitt utelukket.

Grunnen til at dette fungerer er at lyd, slik det blir plukket opp av den eksterne enheten, også er til stede i konferanseinfrastrukturen, selv om lyden ikke vil være identisk på grunn av ventetid som oppstår mellom den eksterne enheten og videokonferanseinfrastrukturen.

Et eksempelbrukertilfelle i henhold til en utførelsesform følger. En bruker er til stede i et stort konferanserom som har et første videokonferanseendepunkt som allerede deltar i en videokonferansesesjon. En presentasjon inkludert som presentasjonsstrøm i videokonferanseøkten er tilveiebragt fra et andre endepunkt som også deltar i konferansen. Brukeren ønsker å studere presentasjonen mer detaljert enn hva visning på det første endepunktet tillater.

Han/hun aktiverer derfor en videokonferanseapplikasjon, for eksempel en såkalt "app", på hans personlige elektroniske nettbrett som han har tatt med inn i møterommet. Applikasjonen er på forhånd konfigurert med adressen til back end- servere som er en del av videokonferanseinfrastrukturen, og en brukerassosiasjon. Når applikasjonen startes fra nettbrettet, vil brukeren ha mulighet til å tilkoble enheten til videokonferansesesjonen. Etter å ha valgt dette, begynner den å fange opp lyddata fra omgivelsene ved hjelp av en mikrofon som er koblet til eller integrert i nettbrettet. Den oppfangede lyddata vil da omfatte lyd som sendes ut fra det første endepunktets høyttalere, det vil si lyd fra videokonferansesesjonen.

Den oppfangede lyddata blir så brukt som "fingeravtrykk", for eksempel som intervaller av lydsignalmønstre som fortløpende blir transmittert, via IP-nettverket 150, til en MCU, eller en annen server (back end), som er en del av videokonferanseinfrastrukturen involvert i videokonferansesesjonen.

Back end mottar fingeravtrykkene og finner en pågående konferanse med samsvarende fingeravtrykk. Applikasjonen tilkobles deretter umiddelbart til konferansen og er i stand til å motta den pågående presentasjonsstrømmen, eller øyeblikksbilder av strømmen. Alternativt kan konferansen ha en høy sikkerhetsinnstilling og applikasjonen ber brukeren om påloggingsautentisering, slik som en PIN-kode.

Generelt må en robust akustisk fingeravtrykksalgoritme ta hensyn til de perseptuelle egenskapene til lyd. Hvis to lyder høres likt ut for det menneskelige øret, bør deres akustiske fingeravtrykk normalt bli identifisert som et samsvar selv om de binære representasjonene kan være noe annerledes. Akustiske fingeravtrykk er ikke nødvendigvis bitvise fingeravtrykk, som er følsomme for små endringer i dataene. Akustiske fingeravtrykk er mer sammenlignbare med menneskelige fingeravtrykk der små variasjoner som er ubetydelig for karakteristikkene fingeravtrykk benytter blir tolerert. Man kan forestille seg et tilfelle hvor et menneskelig fingeravtrykk er gnidd, men som nøyaktig kan sammenlignes med en annen fingeravtrykksprøve i en referansedata base; akustiske fingeravtrykk fungerer på en lignende måte.

Perseptuelle egenskaper som ofte utnyttes av lydfingeravtrykk kan inkludere gjennomsnittlig nullkrysningsrate, estimert tempo, gjennomsnittlig spekter, spektral flathet, fremtredende toner over et sett av bånd, og båndbredde.

De fleste lydkomprimeringsteknikker vil gjøre radikale endringer i den binære kodingen av en lydsekvens, uten at det påvirker måten den oppfattes av det menneskelige øret. Et robust akustisk fingeravtrykk vil tillate at en lydsekvens identifiseres etter at det har gått gjennom en slik komprimering, selv om lydkvaliteten har blitt redusert i betydelig grad.

Selve den akustiske fingeravtrykksordningen av lyd kan gjøres på flere måter, men i den hensikt som beskrevet heri, er den nødvendige kompleksiteten av ordningen begrenset til å være i stand til å gjenkjenne den riktige

videokonferansesesjonslyden, som typisk kun omfatter tale.

I én utførelsesform, blir lydaktivitetsfunksjonene benyttet. Lydaktiviteten er delt inn i mindre prøver («samples») som inneholder distinkte stemmeaktivitetsmønstre. Disse mønstrene blir så matchet til mønstre i infrastrukturenhetens eksisterende database over alle konferansesesjoner. Sesjonen som er mest korrelert vil bli identifisert som den ene den eksterne enheten skal kobles til.

I en annen utførelsesform, blir en mer forenklet ordning benyttet. Kun et mønster av vekslende taleaktivitet og stillhet anvendes som det akustiske fingeravtrykket, som blir sammenlignet med korresponderende mønstre til de ulike videokonferansesesjonene i back end.

Selv om eksempelutførelsesformene heri kun henviser til videokonferansesesjoner, ville en person med kunnskap på området innse at utførelsene også kan benyttes i generelle konferanser som for eksempel telefonkonferanser mellom deltakerne som bare leveres med lydfunksjoner.

Fremgangsmåten for å assosiere en ekstern enhet til en konferansesesjon kan også benyttes til andre formål enn bare å dirigere presentasjonsstrømmen til den eksterne enheten. Den eksterne enheten kan også introduseres i konferansesesjonen som et helt nytt endepunkt som deltar i den på samme måte som de andre endepunktene i konferansesesjonen.

Som anvendt heri, kan uttrykket "prosesseringskrets" bety en prosesseringsenhet, en prosessor, en applikasjonsspesifikk integrert krets (ASIC), feltprogrammerbare "gate array" (FPGA) eller lignende. Som et eksempel, kan en prosessor, en ASIC, en FPGA eller liknende omfatte én eller flere prosessorkjerner. I noen eksempler kan prosesseringskretsen være utformet av en programvare- eller maskinvaremodul. En hver slik modul kan være ett bestemmelsesmiddel, estimeringsmiddel, oppfangingsmiddel, assosieringsmiddel, sammenlikningsmiddel, identifikasjonsmiddel, selekteringsmiddel, mottaksmiddel, transmitteringsmiddel eller lignende som beskrevet heri.

Figur 3 viser en skjematisk, eksemplifisert ekstern enhet 130 i henhold til utførelsesformene heri. Den eksterne enheten 130 er konfigurert til å tilveiebringe assosiasjon av den eksterne enheten 130 til konferansesesjonen, som blir administrert av konferanseinfrastrukturen 110 som har sanntidslyd fra konferansesesjonen tilgjengelig.

Den eksterne enhet 130 omfatter en mikrofon 330. I fremgangsmåtene beskrevet heri, kan mikrofonen 330 være i auditiv nærhet til minst ett endepunkt 120 som deltar i en konferansesesjon.

Videre, den eksterne enheten 130 omfatteren prosesseringskrets 310 konfigurert til å fange opp, ved hjelp av mikrofonen 330, lyd som emitteres fra endepunktet

(120). Prosesseringskretsen 310 er videre konfigurert til å opprette en eller flere endepunktlydsfingeravtrykk fra den oppfangede lyden. Videre er prosesseringskretsen 310 konfigurert til å transmittere, for eksempel via IP-nettverket 150, den ene eller de flere endepunktlydsfingeravtrykkene til konferanseinfrastrukturen 110. Den eksterne enheten kan omfatte et minne 340. Minnet 340 kan være en harddisk, et magnetisk lagringsmedium, en bærbar data maski ndiskett eller plate, flash-minne, "random access memory" (RAM) eller lignende. Videre kan minnet være et internt register i en hukommelsesprosessor. Figur 4 viser en skjematisk, eksemplifisert konferanseinfrastruktur 110 i henhold til utførelsesformene heri. Konferanseinfrastrukturen 110 er konfigurert til å assosiere den eksterne enheten 130, som i det minste omfatter en mikrofon i auditiv nærhet til minst ett endepunkt 120 som deltar i en konferansesesjon, til konferansesesjonen administrert av konferanseinfrastrukturen 110 som har sanntidslyd av konferansesesjonen tilgjengelig. Konferanseinfrastrukturen kan være tilkoblet til, for eksempel via IP-nettverket, en eller flere mikrofoner, som for eksempel kan omfattes i ett av endepunktene 120. Konferanseinfrastrukturen kan være tilkoblet til, for eksempel via IP-nettverket, en eller flere høyttalere, som for eksempel kan omfattes i ett av endepunktene 120. Konferanseinfrastrukturen 110 omfatter videre en prosesseringskrets 410. Prosesseringskretsen 410 er konfigurert til å motta, for eksempel via IP-nettverket 150, det ene eller de flere endepunktlydsfingeravtrykkene fra den eksterne enheten 130. Videre er prosesseringskretsen 410 konfigurert til å sammenligne en eller flere endepunktlydsfingeravtrykk med en eller flere konferanselydsfingeravtrykk som er opprettet tilsvarende ved konferanseinfrastrukturen 110 fra sanntidslyd av ko nfe ra n sesesj o n en. Videre er prosesseringskretsen 410 konfigurert til å assosiere den eksterne enheten 130 til konferansesesjonen, når et samsvar er funnet. Konferanseinfrastrukturen kan omfatte et minne 420. Minnet 420 kan være en harddisk, et magnetisk lagringsmedium, en bærbar data maski ndiskett eller -plate, flashminne, «random access memory» (RAM) eller lignende. Videre kan minnet være et internt register i en hukommelsesprosessor. Som anvendt her, kan uttrykket "tilpasset til" være at en prosesseringskrets er konfigurert til, eller innrettet til, ved hjelp av programvare- eller maskinvarekonfigurasjon, å utføre ett eller flere av de handlinger som er beskrevet heri.

Claims

1. En fremgangsmåte for å assosiere en ekstern enhet (130), som i det minste omfatter en mikrofon (330) som er i auditiv nærhet til et endepunkt (120) som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur (110) som har sanntidslyd av konferansesesjonen tilgjengelig, fremgangsmåten omfatter: - å fange opp (101), ved mikrofonen (330) lyd som avgis fra endepunktet (120), - å opprette (102) ett eller flere endepunktslydfingeravtrykk fra den oppfangede lyden, - å transmittere (103) den ene eller de flere endepunktslydfingeravtrykk fra den eksterne enheten (130) til konferanseinfrastrukturen (110), - å sammenligne (104) de ett eller flere endepunktslydfingeravtrykkene med en eller flere konferanselydfingeravtrykk opprettet korresponderende av konferanseinfrastrukturen fra sanntidslyd av konferansesesjonen, og når et samsvar blir identifisert da,karakterisert ved å assosiere (105) den eksterne enheten (130) til konferansesesjonen, hvori opprettelsen av den ene eller de flere endepunktlydsfingeravtrykk omfatter å opprette et mønster av vekslende taleaktivitet og stillhet.

2. Fremgangsmåten i henhold til krav 1, hvori opprettelsen av den ene eller de flere endepunktslydfingeravtrykk omfatter å splitte lyden i mindre prøver («samples») som inneholder distinkte stemmeaktivitetsmønstre.

3. Fremgangsmåten i henhold til et av kravene 1-2, hvori den eksterne enheten (130) er en datamaskin, et elektronisk nettbrett eller en mobiltelefon.

4. Fremgangsmåten i henhold til et av kravene 1-3, hvori den eksterne enheten (130) er tilveiebrakt med en applikasjon, og fremgangsmåten blir initiert når applikasjonen blir startet, og/eller når et assosieringsalternativ i applikasjonen blir valgt.

5. Fremgangsmåten i henhold til et av kravene 1-3, hvori den eksterne enheten (130) er tilveiebrakt med en applikasjon, og fremgangsmåten blir initiert når applikasjonen blir startet.

6. Fremgangsmåten i henhold til et av kravene 1-3, hvori den eksterne enheten (130) er tilveiebrakt med en applikasjon, og fremgangsmåten blir initiert når et assosieringsalternativ i applikasjonen blir valgt.

7. Fremgangsmåten i henhold til et av kravene 1-6,karakterisert vedat fremgangsmåten videre omfatter: når den eksterne enheten assosieres til konferansesesjonen, å strømme en presentasjonsstrøm, assosiert med konferansesesjonen, til den eksterne enheten.

8. Fremgangsmåten i henhold til ett av kravene 1-6, hvori fremgangsmåten videre omfatter: når den eksterne enheten assosieres til konferansesesjonen, kobles den eksterne enheten (130) til som en deltaker i konferansesesjonen.

9. Fremgangsmåten i henhold til et av kravene 1-7, hvori konferansesesjonen er en videokonferansesesjon eller en telefonkonferansesesjon.

10. Et system (100), inkludere en ekstern enhet (130), som er i auditiv nærhet til et endepunkt (120) som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur (110) med sanntidslyd av konferansesesjon tilgjengelig, omfatter: - en mikrofon (330) som er koblet til den eksterne enheten (130) tilpasset til å fange opp lyd som avgis fra endepunktet (120) av mikrofonen - opprettingsmidler (310) for å opprette en eller flere endepunktslydfingeravtrykk fra den oppfangede lyden, - transmitteringsmidler (320) tilpasset til å transmittere en eller flere endepunktslydfingeravtrykk fra den eksterne enheten (130) til konferanseinfrastrukturen (110), - sammenlignings- og identifikasjonsmidler (410) tilpasset til å sammenligne en eller flere endepunktslydfingeravtrykk med en eller flere konferanselydfingeravtrykk som er opprettet korresponderende ved konferanseinfrastrukturen fra sanntidslyd av konferansesesjonen, og for å identifisere et samsvar mellom en eller flere endepunktslydfingeravtrykk og ett eller flere konferanselydfingeravtrykk,karakterisert ved- assosieringsmidler (410) tilpasset til å assosiere den eksterne enheten til konferansesesjonen når et samsvar blir identifisert av sammenlignings- og identifikasjonsmiddelet, hvori opprettingsmiddelet (310) videre er tilpasset til å opprette et mønster av vekslende stemmeaktivitet og stillhet for å opprette den ene eller de flere endepunktlydsfingeravtrykkene.

11. Systemet i henhold til krav 10, hvori opprettingsmiddelet (310) videre er tilpasset til å splitte lyden i mindre prøver som inneholder forskjellige stemmeaktivitetsmønster for å opprette den ene eller de flere endepunktlydsfingeravtrykkene.

12. Systemet i henhold til et av kravene 10-11, hvori den eksterne enheten (130) er en datamaskin, et elektronisk nettbrett eller en mobiltelefon.

13. Systemet i henhold til et av kravene 10-12, hvori den eksterne enheten (130) er tilveiebrakt med en applikasjon, og systemet er konfigurert til å bli aktivert når applikasjonen startes, og når et assosieringsalternativ i applikasjonen velges.

14. Systemet i henhold til et av kravene 10-12, hvori den eksterne enheten (130) er forsynt med en applikasjon, og systemet er konfigurert til å bli aktivert når applikasjonen blir startet.

15. Systemet i henhold til et av kravene 8-10, hvori den eksterne enheten (130) er forsynt med en applikasjon, og systemet er konfigurert til å bli aktivert når et assosieringsalternativ i applikasjonen velges.

16. Systemet i henhold til et av kravene 10-15, hvori assosieringsmiddelet videre er tilpasset til å strømme en presentasjonsstrøm til den eksterne enheten når den assosierer den eksterne enheten til konferansesesjonen.

17. Systemet i henhold til et av kravene 10-16, hvori assosieringsmiddelet videre er tilpasset til å tilkoble den eksterne enheten som en deltaker i konferansesesjonen.

18. Systemet i henhold til et av kravene 10-17, hvori konferansesesjonen er en videokonferansesesjon eller en telefonkonferansesesjon.

19. En fremgangsmåte, utført av en ekstern enhet (130) for å muliggjøre assosiering av den eksterne enheten (130), som i det minste omfatter en mikrofon i auditiv nærhet til et endepunkt (120) som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av en konferanseinfrastruktur (110) som har sanntidslyd av konferansesesjonen tilgjengelig, fremgangsmåten omfatter: - å fange opp (101), av mikrofonen (330) lyd som avgis fra endepunktet (120), - å opprette (102) ett eller flere endepunktslydfingeravtrykk av den oppfangede lyden, ogkarakterisert ved- å transmittere (103) det ene eller de flere endepunktslydfingeravtrykkene til konferanseinfrastrukturen (110), hvori opprettelsen av den ene eller de flere endepunktlydsfingeravtrykk omfatter å opprette et mønster av vekslende taleaktivitet og stillhet.

20. En fremgangsmåte, utført av en konferanseinfrastruktur (110) for å assosiere en ekstern enhet (130), som i det minste omfatter en mikrofon i auditiv nærhet til et endepunkt (120) som deltar i en konferansesesjon, til konferansesesjonen som blir administrert av konferanseinfrastrukturen (110) som har sanntidslyd av konferansesesjonen tilgjengelig,karakterisert vedfremgangsmåten omfatter: - å motta (103) det ene eller de flere endepunktslydfingeravtrykk fra den eksterne enheten (130), endepunktslydfingeravtrykkene omfatter et mønster av vekslende taleaktivitet og stillhet. - å sammenligne (104) det ene eller de flere endepunktslydfingeravtrykkene med en eller flere konferanselydfingeravtrykk opprettet korresponderende ved konferanseinfrastrukturen (110) av sanntidslyd fra konferansesesjonen, og - når et samsvar blir identifisert, å assosiere (105) den eksterne enheten (130) til konferansesesjonen.