NO327899B1 - Fremgangsmate og system for automatisk kamerakontroll - Google Patents
Fremgangsmate og system for automatisk kamerakontroll Download PDFInfo
- Publication number
- NO327899B1 NO327899B1 NO20073621A NO20073621A NO327899B1 NO 327899 B1 NO327899 B1 NO 327899B1 NO 20073621 A NO20073621 A NO 20073621A NO 20073621 A NO20073621 A NO 20073621A NO 327899 B1 NO327899 B1 NO 327899B1
- Authority
- NO
- Norway
- Prior art keywords
- image
- interest
- area
- acquisition device
- image acquisition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 15
- 230000033001 locomotion Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
Abstract
Den foreliggende oppfinnelse anvender videodetekteringsteknikker til å detektere deltakere og deres respektive lokasjoner i videorammer oppfanget av kameraet, og basert på lokasjonen og størrelsene av de detekterte deltakere, automatisk å bestemme og bruke optimal kameraorientering og zoom for å. innfange den beste visningen av alle deltakerne.
Description
OMRÅDE FOR OPPFINNELSEN
Den foreliggende oppfinnelsen er relatert til video-konferanser og automatisk innstilling av kameraorientering og zoom.
BAKGRUNN FOR OPPFINNELSEN
I de fleste avanserte videokonferansesystemer blir høy kvalitetskameraer med pan-, tilt- og zoomkapabiliteter brukt til å innramme en visning av møterommet og deltakerne i konferansen. Kameraene vanligvis har et bredt synsfelt (eng.: field-of-view, FOV), og høy mekanisk zoomkapabilitet. Dette gir både god oversikt over et møterom, og mulighet for å innfange nærbilde bilder av deltakerne. Videostrømmen (eng.: the video stream) fra kameraet blir komprimert og sendt til en eller flere mottakssteder (eng.: receiving sites) i videokonferansen. Alle steder (eng.: sites) i konferansen mottar levende video og audio fra andre steder i konferansen, og muliggjør dermed kommunikasjon i sanntid med både visuell og akustisk informasjon.
Videokonferanser varierer en god del når det gjelder formål, antall deltakere, utforming av konferanserom, osv. Hver møtekonfigurasjon krever vanligvis en individuell innstilling av kameraet for å presentere en optimal visning. Innstillinger av kameraet kan være nødvendig både før og under videokonferansen. I et videokonferanserom med plass til opptil 16 personer er det for eksempel naturlig at kameraet er forhåndsinnstilt til å innramme alle de 16 tilgjengelige setelokasjonene. Men hvis bare 2 eller 3 deltakere er til stede, vil det brede synsfeltet for kamerainnstillingen gi mottakersiden en svært dårlig visuell representasjon.
Innstillinger av kameraet gjøres vanligvis via en fjernkontroll, enten ved manuelt å styre kamerapanorering, -tilt og -zoom, eller ved å velge mellom et sett av forhåndsdefinerte kameraposisjoner. Disse forhåndsdefinerte posisjoner er manuelt programmert. Ofte, før eller under en konferanse, ønsker brukerne ikke å være opptatt med manuell styring av kameraet. De mindre erfarne brukerne er kanskje ikke engang klar over muligheten til å endre kameraets synsfelt, eller hvordan det skal gjøres. Derfor er kameraet er ofte etterlatt med en sub-optimal innstilling i en videokonferanse, noe som resulterer i en degradert videoopplevelse.
For derfor å sikre en god kameraorientering for hver situasjon i et videokonferanserom, er det ønskelig med et system for automatisk innstilling av synsfeltet.
Det finnes noen videokonferansesystemer med kamerasporingskapabilitet. Men hensikten med disse systemene er å fokusere kameraet automatisk på en aktiv taler. Disse systemene er vanligvis basert på talerlokalisering ved audiosignalbehandling med en mikrofongruppe (eng.: a microphone array), og/eller i kombinasjon med bildebehandling.
Noen digitale videokameraer (for eksempel web-kameraer) bruker videoanalyse til å oppdage, sentrere og følge ansikt til en person innenfor et begrenset utvalg av digital panorering, tilt og zoom. Men disse systemene er bare egnet for én person, og krever at kameraet i utgangspunktet er riktig posisjonert og har en svært begrenset digital arbeidsrekkevidde.
Derfor beskriver ingen av de tidligere kjente løsningene nevnt ovenfor, et system for automatisk konfigurasjon av kameraet i en videokonferansesammenheng.
US-7 057 636 viser et videokonferansesystem og -fremgangsmåte som automatisk bestemmer passende forhåndssatte kameraparametere korresponderende med deltakere i konferansen. Et kamera zoomer ut eller panorerer videokonferanseområdet og ser etter deltakere, basert på deres ansikter. Ved deteksjon av en deltaker beregnes de forhåndssatte kameraparametrene for denne deltaker idet senteret for deltakeren sammenfaller med senteret for kameraets synsvinkel. Dette gjentas for de øvrige konferansedeltakere.
SAMMENFATNING AV OPPFINNELSEN
Det er en hensikt ved den foreliggende oppfinnelsen å tilveiebringe en fremgangsmåte og et system som løser minst ett av de ovennevnte problemene i den tidligere kjente teknikk.
Trekkene definert i de vedføyde, selvstendige krav kjennetegner denne fremgangsmåten og dette systemet.
KORT BESKRIVELSE AV TEGNINGENE
For å gjøre oppfinnelsen lettere å forstå, vil den etterfølgende diskusjonen referere til den medfølgende tegninger.
Figur 1 illustrerer et typisk videokonferanserom,
Figur 2 viser skjematisk komponenter i en "beste visning"-lokator i henhold til foreliggende oppfinnelse,
Figur 3 er et flytdiagram av drift av "beste visning"-lokatoren,
Figur 4 viser skjematisk en typisk videokonferansesituasjon, og eksempelvise innledende orienteringer av bildeinnhentingsinnretningen,
Figur 5 illustrerer ansiktsgjenkjenning i et bilde med to deltakere,
Figur 6 illustrerer som eksempel et definert område av interesse ("beste visning"), Figur 7 illustrerer som eksempel et annet definert område av interesse ("beste visning"), Figur 8 illustrerer en kamerainnramming for nevnte definerte område i figur 6, Figur 9 illustrerer en audiokilde detektert utenfor det nåværende innrammede bildet, Figur 10 illustrerer en kamerainnramming som innbefatter blant annet en deltaker som representerer nevnte lydkilde i figur 9,
Figur 11 illustrerer en deltaker som forlater kamerasynsfeltet, idet
Fig. 1 IA illustrerer at en person går ut av konferansen; Fig. 1 lb illustrerer at en person er nær kanten av rammen;
Fig. lic illustrerer de to gjenværende personer, og
Fig. Ild illustrerer optimal fremvisning for de gjenværende personer.
DETALJERT BESKRIVELSE AV OPPFINNELSEN
I det følgende vil den foreliggende oppfinnelsen bli drøftet ved å beskrive en foretrukket utførelsesform, og ved å henvise til den medfølgende tegninger. Men fagfolk på området vil innse andre anvendelser og modifikasjoner innenfor rekkevidden av oppfinnelsen som definert i vedlagte selvstendige krav.
Figur 1 illustrerer et typisk videokonferanserom 10, med et eksempel på et videokonferansesystem 20. Videokonferansesystemer 20 består vanligvis av følgende komponenter; en kodek 11 (for koding og dekoding av audio- og video-informasjon), en bruker-inndatainnretning 8 (dvs. fjernkontroll eller tastatur), en bildeinnhentingsinnretning 6 (kamera), en audioinnhentingsinnretning 4; 7 (mikrofon), et videodisplay 9 (skjerm) og en lydgjengivelsesenhet 5 (høyttalere). Ofte bruker avanserte videokonferansesystemer (VCS) høykvalitetskameraer 6 med motoriserte pan-, tilt- og zoom-kapabiliteter.
Den foreliggende oppfinnelse bruker videodeteksjonsteknikker for å detektere deltakerne og deres respektive lokasjoner i videorammer innhentet med kameraet 6, og basert på lokasjon og størrelser på de nevnte oppdagede deltakere, automatisk å bestemme og bruke den optimale kameraorientering og zoom for å innfange den beste visningen over alle deltakerne.
Det kan være mange meninger om hva den "beste visning" av et sett av deltakere i en konferanse er. Men i det følgende er "beste visning" er referert til som et nærbilde av en gruppe deltakere, hvor videorammesenteret i det vesentlige sammenfaller med midten av gruppen, og hvor graden av zoom gir et stramt tilpasset bilde rundt nevnte gruppe. Men bildet må ikke være for stramt, det må i det minste vise deltakernes overkropp, og det må gi rom for deltakerne til å flytte seg noe uten å forlate videorammen.
Figur 2 viser skjematisk modulene i "beste visning"-lokator 52 i henhold til den foreliggende oppfinnelsen. En videodeteksjonsenhet 30 er konfigurert til løpende å detektere objekter, for eksempel ansikter og/eller hoder, i rammer i et innhentet videosignal. Ved forhåndsdefinerte hendelser (f.eks når VCS er slått på, når initiert gjennom brukerinndatainnretningen 8, etc.) zoomer kameraet ut til sitt maksimale synsfelt og flyttes til en forhåndsdefinert pan- og tilt-orientering (asimut- og høydevinkel), og fanger så mye som mulig av rom 10, der systemet befinner seg.. Videodetekteringsenheten 30 analyserer rammene i videosignalet og registrerer alle ansikter/hoder og deres lokasjon i videorammen relativt til et forhåndsbestemt og statisk referansepunkt (f.eks. midt i rammen). Ansikts-/hodelokasjonen og størrelsen (eller arealet) i videobildet transformeres til kamerakoordinater (asimut- og høydevinkler og zoomfaktorer). Informasjon om hvert detekterte ansikt/hode (f.eks. posisjon størrelse, osv.) blir sendt til en bildeprosesseringsenhet 50 via ansiktssporeenheten 35. Basert på nevnte ansikts-Zhodeinformasjon definerer bildeprosesseringsenheten et rektangulært område som minst omfatter alle de detekterte ansikter/hoder. En forhåndsdefinert sett med regler dikterer hvordan området skal defineres, og området representerer den beste visning av personer i rammen (eller videokonferanserommet 10). Kamerakoordinater (asimut- og høydevinkler og zoomfaktorer) for det definerte området og dets lokasjon blir sendt til en kontrollenhet 45. Kontrollenheten instruerer en kamerakontrollenhet 12 til å flytte kameraet til nevnte kamerakoordinater, og kameraets 6 pan, tilt og zoom innstilles for å innramme et bilde samsvarende med det definerte området.
Bildeinnhentingsinnretningen (eller kameraet) 6 inneholder en kamerakontrollenhet 12 for posisjonering av bildeinnhentingsinnretningen. Kamerakontrollenheten 12 er styremekanismen, herunder motorer, og kontrollerer pan- og tilt-orientering og graden av zoom i bildetinnhentingsinnetningen 6. Kamerakontrollsenheten 12 kan også rapportere tilbake sine nåværende asimut- og høydevinkler og zoom-faktorer på forespørsel. Bildeprosesseringsenheten 50 og kontrollenheten 45 kan levere kontrollsignaler til kamerakontrollenheten 12. Kamerakontrollenheten 12 bruker et kamerakoordinatsystem som indikerer en lokasjon basert på asimut- og høydevinkler og zoom-faktorer som beskriver retningen for den innfangede rammen relativt til kameraet 6 og zoomgraden. Videodeteksjonenheten 30 er konfigurert til å konvertere koordinatmålinger uttrykt i et video- (eller bilde-) koordinatsystem til koordinatmålinger uttrykt i kamerakoordinatsystemet ved bruk av asimut- og høydevinkler og zoomfaktorer for kameraet 6 når bildet var innfanget med kameraet 6 .
Figur 3 er et flytdiagram for operasjonen av "beste visning"-lokatoren 52. Kameraet 6 leverer et videosignal som omfatter en serie av rammer (bilder). Rammene analyseres av videodeteksjonsenheten 30. Ved forhåndsdefinerte hendelser blir kamerakontrollenheten 12 instruert til å flytte kameraet til en initialorientering (trinn 60). Hensikten med den initialorienteringen er å sørge for at kameraet kan "se" alle personer i møterommet. Det finnes flere måter å bestemme en slik initialorientering på.
Med henvisning til figur 4, ifølge en eksempelutførelsesform av oppfinnelsen, zoomer kameraet ut til sitt maksimale synsfelt og går over til en forhåndsdefinert pan- og tilt- orientering 13, innfanger så mye som mulig av rommet 10a og/eller innfanger den del av rommet som har den største sannsynlighet for å finne møtedeltakere. Den forhåndsdefinerte pan- og tilt-orientering (eller initialorientering) er vanligvis manuelt inngitt til systemet gjennom en oppsettsfunksjon (f.eks. ved flytting av kameraet manuelt til en optimal utgangsposisjon og deretter lagre posisjonen), eller den er en standard fabrikkverdi.
Ifølge en annen eksempelutførelsesform av oppfinnelsen er kameraet konfigurert til å innfange hele rommet ved å undersøke et sett av initialorienteringer (14, 15) med en maksimalt synsfelt, og der feltenes synsfelt overlapper. I de fleste tilfeller er det tilstrekkelig med et sett av to orienteringer. Imidlertid vil antall retninger avhenge av kameraene maksimale synsfelt, og kan være 3, 4, 5, 6, osv. For hver orientering (14, 15) analyseres den ene eller de flere videorammer er analysert ved video detekteringsenheten 30 til å detektere ansikter og/eller hoder samt deres respektive lokasjoner. Etter at alle retninger er analysert, beregner bildeprosesseringsenheten 50 den pan- og tilt-orientering som innbefatter alle detekterte deltakere, og definerer nevnte beregnede orientering som initialorienteringen.
En videodetekteringsenhet 30 analyserer videosignalene 25 fra kameraet 6 til å detektere og lokalisere ansikter og/eller hoder (trinn 70) i en video ramme. Videodetekteringsenheten 30 måler offset for lokasjonen av de detekterte ansikter/hoder fra et forhåndsbestemt og statiske referansepunkt (for eksempel senter av videobildet).
Ulike algoritmer kan brukes for objektdeteksjon. Gitt en vilkårlig videoramme, er målet for ansiktsgjenkjenningsalgoritmer å fastslå hvorvidt det er noen ansikter i bildet eller ikke, og hvis slike finnes, å returnere bildelokasjon og areal (størrelse) av hvert enkelt bilde av et ansikt. Med henvisning til figur 5, ifølge en eksempelutførelsesform av foreliggende oppfinnelsen, flyttes eller scannes et analysevindu 33 over bildet. For hver posisjon av analysevinduet 33 blir bildeinformasjonen innenfor analysevinduet 33 analysert minst med hensyn til forekomst av typiske ansiktstrekk. Det skal imidlertid forstås at den foreliggende oppfinnelse ikke er begrenset til bruken av denne typen ansiktsdeteksjon. Videre kan også hodedetekteringsalgoritmer brukes til å detektere deltakere hvis hode ikke er orientert imot kameraet.
Når et bilde av et ansikt/hode er detektert, definerer videodetekteringsenheten 30 et rektangulært segment (eller boks) som omgir nevnte bildet av et ansikt/hode. Ifølge en utførelsesform av oppfinnelsen er nevnte rektangulære segment nevnte analysevindu 33. Lokasjonen av nevnte segment som inneholder et bilde av et ansikt/hode, måles relativt til et videokoordinatsystem som er basert på videorammen. Videokoordinatsystemet anvendes på hver ramme innfanget av kameraet 6. Videokoordinatsystemet har en horisontal akse eller x-akse, og en vertikal akse eller y-akse. Ved bestemmelse av en posisjon for en piksel eller et bilde, bestemmer videodetekteringsenheten 30 denne posisjonen relativt til x-aksen og y-aksen for denne pixel eller dette bildets videoramme. I en eksempelutførelsesform av oppfinnelsen er senterpunktet 31 for analysevinduet 33 (piksel i midten av vinduet) lokasjonsreferansepunkt, og analysevinduets lokasjon er definert av koordinatene x og y i nevnte video koordinatsystem. Når videodetekteringsenhet 30 har beregnet lokasjonen (x, y) og størrelsen (f.eks. dx=20, dy= 24 piksler) av alle ansikter/hoder i en ramme, bruker videodetekteringsenheten 30 kunnskap om videorammen, optikk og mekanikk til å beregne (trinn 80) den tilsvarende lokasjon (a, cp,) og størrelse (Aa, Acp) i asimut-og høydevinkler i kamerakoordinatsystemet for hvert bilde av et ansikt/hode. Kamerakoordinater for hvert ansikt/hode blir deretter sendt til en ansiktssporingsenhet 35.
Ansiktssporingsenheten 35 korrelerer de detekterte ansikter fra den gjeldende videorammen til de detekterte ansikter i de tidligere videorammer og sporer dermed det detekterte ansikt gjennom en serie av rammer. Bare hvis et ansikt/hode er oppdaget på i det vesentlige samme lokasjon gjennom en serie av rammer, valideres deteksjonen som en positiv deteksjon. Først og fremst forhindrer dette falske ansiktsdeteksjoner, med mindre den samme deteksjonen skjer i flere påfølgende videorammer. Også, hvis ansiktsdeteksjonsenheten ikke klarer å detektere et ansikt i ved de i det vesentlig samme koordinater som et ansikt har blitt detektert ved før, anser bildesporingsenheten ikke ansiktet som fraværende fra bildet, med mindre deteksjon har sviktet i flere påfølgende rammer. Dette gjøres for å unngå falske negative deteksjoner. Videre muliggjør sporingen å oppnå en riktig posisjon for en deltaker som kan flytte seg i en videoramme. For å utføre denne sporingen, oppretter og vedlikeholder ansiktssporingsenheten 35 en sporingsfil for hvert detekterte ansikt. Sporingsfilen kan for eksempel være lagret i et minneinnretning.
I trinn 90 definerer bildeprosesseringsenheten 50 et område av interesse 34 (beste visning). Området av interesse 34 er vist i figur 6, der nevnte område 34 i det minste omfatter alle de detekterte bilder av ansikter i denne rammen.
Ifølge en utførelsesform av oppfinnelsen, basert på lokasjonen (a, cp) av hvert ansikt og det korresponderende størrelse (A a, A cp), kan bildprosesseringsenheten 50 beregne et første område er begrenset av et sett av marginer (Ml , M2, M3 og M4), idet nevnte marginer er avledet fra venstre side av ansiktssegmentet helt til venstre (Ml), øvre side av de øverste ansiktssegmentet (M3), høyre side av ansiktssegmentet helt til høyre (M2), og nederste side av det nederste ansiktssegmentet (M4). Lokasjonen av senteret (ara, cpra) for det nevnte første området kan nå beregnes i kamerakoordinater basert på nevnte marginer. Lokasjonen av det nevnte første området er relativt til et referansepunkt (oto, <po)> vanligvis retningen av kameraet når asimut- og høydevinkelen er null. Videre er bredden og høyden for det første området transformert til en zoom-faktor (Zfa).
Det første området er svært nær deltakernes ansikter, og kan ikke representere den mest bekvemme visning (beste visning) av deltakerne, spesielt når det bare er to deltakere til stede, slik det er vist i denne eksempelutførelsesformen. Derfor, når nevnte marginer (Ml, M2, M3 og M4) er blitt beregnet, blir et annet område (beste visning-ramme 34) definert ved å utvide nevnte marginer av et sett av offsetverdier a, b, c og d. Disse offsetverdier kan være like, eller de kan være forskjellige, for eksempel for å innfange mer av bordet foran deltakerne enn det som er ovenfor en deltakers hode. Offsetverdiene kan være forhåndssatte og statiske, eller de kan være beregnet for å passe enhver situasjon.
Ifølge en annen eksempelutførelsesform defineres beste visning-rammen 34 ved bare å subtrahere en kompensasjonsverdi Zc fra den beregnede zoomfaktoren Zfa, hvilket fører til at kameraet zoomer ut en tilleggsdistanse. Kompensasjonsverdien Zc kan være statisk, eller variere lineært, avhengig av størrelsen på den første områdezoomfaktoren Zfa.
Figur 7 viser skjematisk en eksempelvideoramme tatt fra en første kameraorientering. Tre ansikter har blitt detektert i videorammen, og bildet prosesseringsenheten 50 har definert en best visning-ramme 34, og beregnet lokasjonen (ara, <q>)fa) for best visning-rammen.
De fleste bildeinnhentingsinnretninger 6 for videokonferansesystemer opererer med standard TV-bilde-aspektforhold, f.eks. 4:3 (1,33:1) eller 16:9 (1,78:1). Siden de fleste beregnede best visning-rammer 34 som beskrevet ovenfor har aspektforhold som avviker fra standarder, for eksempel 4:3 eller 16:9, må noen betraktninger gjøres ved bestemmelsen av zoom-koordinaten. Siden Acp er den korteste kant av området 34, vil, dersom kameraet zoomer inn for å innfange den nøyaktige høyden Acp, store deler av området bomme på det lyssensitive området (for eksempel bildesensoren) i kameraet, fordi aspektforholdet er annerledes enn det definerte området. Hvis kameraet zoomer inn for å innfange den nøyaktige bredden Aa for det definerte området 34, går ingen informasjon tapt.
Derfor, ifølge en eksempelutførelsesform av den foreliggende oppfinnelsen, sammenliknes de to sidene A<p og Aa for den beste visning-rammen. Hver av de to sidene definerer en zoomfaktor er nødvendig for å tilpasse området av interesse inn i bilderammen, i horisontal hhv. vertikal retning. Dermed vil zoom-graden være definert ved den minste av de to beregnede zoom-faktorer, noe som sikrer at området av interesse er ikke blir skåret bort ved zooming til området av interesse.
I trinn 100 forsyner bildeprosesseringsenheten 50 kamerakontrollenheten 12 med kameraposisjoneringsdirektiver (afa, <pfa, Z) utledet i trinn 90, via kontrollenheten 45. Så snart kameraposisjoneringsdirektivene er mottatt, kameraet beveger seg, og zoomer til instruert koordinater, for å få den beste utsikten over deltakere i konferanse. Figur 8 viser den beste måten å vise deltaker 1 og 2 fra møterommet 10a i figur 6.
Når kameraet har flyttet til den nye orienteringen, vil den forbli i denne orienteringen til en hendelse er detektert (trinn 110). Som nevnt tidligere, er kameraet bare instruert til å flytte kameraet til en initialorientering (trinn 60) ved visse forhåndsdefinerte hendelser. Slike forhåndsdefinerte hendelser kan innbefatte når videokonferanse systemet blir startet, når det vekkes fra en dvale-modus (eng.: sleep mode), når det mottar eller sender en konferansesamtaleinitieringsforespørsel, når initiert av en bruker via f.eks. fjernkontroll eller tastatur, osv. Når en optimal visning av deltakerne har blitt funnet, er det vanligvis lite behov for å endre orienteringen av kameraet. Men situasjoner kan oppstå under en videokonferanse som skaper et behov for å rekonfigurere orienteringen, f.eks. kan en av deltakerne forlate, en ny deltaker kan ankomme, en av deltakerne endrer sin plass, osv. Ved slike situasjoner kan en av brukerne selvsagt initiere reposisjonering (trinn 60) ved å trykke på en knapp på fjernkontrollen. Men en automatisk registrering av slike hendelser er å foretrekke.
Derfor, ifølge en utførelsesform av foreliggende oppfinnelsen, brukes lydkildelokalisering som en hendelsestrigger i trinn 110. Som nevnt ovenfor, viser figur 8 en optimal visning av 2 deltakere 1 og 2 i det store møterommet 10a. Slik det kan sees i figur 8, har kameraet i denne visningen zoomet inn i nokså stor utstrekning, og dersom en person ankom konferansen sent og satte seg ned i en av stolene 12, ville han hun ikke blitt innfanget av kameraet. Ved ankomst til et møte er det naturlig å unnskylde seg og/eller introdusere seg selv. Dette er et spørsmål om høflighet, og gjøres for å varsle de andre deltakerne (som kan være med bare på lyd) om at en ny deltaker har ankommet konferansen. Ved bruk av kjente lydkildelokaliseringsanordninger 7; 40, kan videokonferansesystemet oppdage at en audiokilde (deltaker) 200 er lokalisert utenfor det gjeldende feltet for av kameraets visning. Audiokildelokatoren 40 opererer i kamerakoordinater. Når en audiokilde har blitt detektert og lokalisert ved audiokildelokatoren 40, sender den audiokildekoordinatene til kontrollenheten 45. Ingenting gjøres dersom audiokildekoordinatene er innenfor gjeldende kamerasynsfelt. Men hvis audiokildekoordinatene er utenfor gjeldende kamerasynsfelt, indikerer dette at det foreliggende synsfelt ikke innfanger alle deltakerne, og detekteringsprosessen i henhold til trinnene 60-100 gjentas. Resultatet kan sees i figur 10. Derfor, ifølge en utførelsesform av oppfinnelsen, blir slik deteksjon av minst en audiokilde utenfor gjeldende kamerasynsvinkel er ansett som en hendelse i trinn 110, som utløser gjentakelse av trinnene 60-100.
Audiokildelokaliseringsanordninger er kjent, og vil ikke bli omtalt her i detalj. De omfatter generelt et flertall av romlig atskilte mikrofoner 7, og er ofte basert på bestemmelse av en forsinkelsesforskjell mellom signalene på utgangene av mikrofonene. Hvis posisjonene av mikrofoner og forsinkelsesforskjell mellom lydforplantningsveiene mellom kilde og de ulike mikrofonene er kjent, kan posisjonen til kilden beregnes. Et eksempel på en audikildelokator er vist i US-5,778,082.
Ifølge en annen utførelsesform av foreliggende oppfinnelse, er en annen forhåndsdefinert hendelse når en deltaker detekteres å forlate rommet (eller synsfeltet). Slik påvisning avhenger av sporingsfunksjon som er nevnt tidligere. Som vist i figur 1 IA, når en deltaker går ut av rommet, vil sporingsfilen eller sporingshistorien vise at posisjonen/lokasjonen (cp, a) for et detektert ansikt endres fra en posisjon (93, 0:3) til en posisjon (94, 0:4) nær kanten av rammen over en sekvens av rammer (figur 1 la-1 lb). Hvis den samme ansiktsdeteksjon plutselig forsvinner (ikke lenger detekterer et ansikt), og ikke kommer tilbake innen en viss tidsramme (figur lic), vil ansiktsdeteksjonen være å betrakte som at en deltaker forlater konferansen. Ved deteksjon av en slik hendelse, gjentas trinn 60-100 for å innstille kameraets synsvinkel til en ny optimal visning, som vist i figur lid.
Ifølge enda en utførelsesform av foreliggende oppfinnelsen, er en annen forhåndsdefinert hendelse når bevegelse detekteres nær kanten av videorammen. Ikke alle som ankommer et videokonferanserom vil begynner å snakke med det samme. Dette vil avhenge av situasjonen, deltakerens rang (eng.: seniority), osv. Derfor kan det ta litt tid før systemet oppdager den nye ankomsten og handler deretter. Med henvisning tilbake til figur 9, kan deler 38 av en deltaker kan være innfanget i videorammen, selv om mesteparten av personen er utenfor kameraets synsvinkel. Siden folk sjelden sitter helt stille, relativt til de statiske møbler, kan delene 38 lett bli oppdaget som bevegelse i bildet ved hjelp av videodetekteringsenheten 35. Ved deteksjon av en slik hendelse (bevegelsen er oppdaget i nærheten av bildet/rammekanten), gjentas trinn 60-100 for å justere kameraets synsfelt til en ny optimal visning.
Systemene i henhold til den foreliggende oppfinnelsen tilveiebringer en ny måte for automatisk å skaffe den beste visuelle presentasjon av alle deltakerne i et videokonferanserom. Videre vil systemet automatisk tilpasse seg nye situasjoner, for eksempel når deltakere forlater eller går inn i møterommet, og den visuell representasjon endres tilsvarende. Den foreliggende oppfinnelse gir en mer brukervennlig tilnærming til en overlegen visuell opplevelse.
Claims (22)
1. Fremgangsmåte for automatisk styring av orientering og zoom for en bildeinnhentingsinnretning assosiert med et videokonferansesystem, der fremgangsmåten omfatter trinnene: å generere, ved nevnte bildeinnhentingsinnretning, et bildesignal som er representativt for et bilde innrammet av nevnte bildeinnhentingsinnretning, og å prosessere bildesignalet for å identifisere objekter i nevnte bilde, og hvis forhåndsbestemte hendelser opptrer, å styre bildeinnhentingsinnretningen til en initialorientering, å bestemme lokasjonen for alle identifiserte objekter relativt til et referansepunkt, og å bestemme de respektive størrelser for de identifiserte objektene, å definere et område av interesse i nevnte bilde, der nevnte område av interesse minst omfatter alle de identifiserte objekter, og å styre bildeinnhentingsinnretningen til å innramme nevnte definerte område av interesse,karakterisert ved at et senter i en ramme som innrammer området av interesse i det vesentlige sammenfaller med et senter dannet av en gruppe av alle de identifiserte objektene.
2. Fremgangsmåte i henhold til krav 1, der nevnte trinn med å styre bildeinnhentingsinnretningen omfatter subtrinnene
å variere asimutvinkelen og høydevinkelen for bildeinnhentingsinnretningen, og
å variere zoom for bildeinnhentingsinnretningen.
3. Fremgangsmåte i henhold til krav 1, der nevnte trinn med å styre bildeinnhentingsinnretningen til en initialorientering videre omfatter subtrinnene: å zoome bildeinnhentingsinnretningen ut til et maksimalt synsfelt og å bevege bildeinnhentingsinnretningen i henhold til en forhåndsdefinert pan- og tilt-sekvens, hvilket innrammer så mye som mulig av et rom som bildeinnhentingsinnretningen befinner seg i.
4. Fremgangsmåte i henhold til krav 1, hvor bildesignalene representerer rammer av videobilder, og hvor trinnet med å identifisere objekter videre omfatter subtrinnene
å oppdage bilder av ansikter og/eller hoder i nevnte rammer av videobilder, å spore de detekterte ansikter/hoder gjennom en serie av rammer,
å identifisere en deteksjon som et ansikt/hode bare dersom nevnte deteksjon skjer i alle av et forhåndsdefinert antall påfølgende rammer.
5. Fremgangsmåte i henhold til krav 4, hvor trinnet med å definere et område av interesse ytterligere omfatter subtrinnene: å definere et sett av marginer for en første område, der nevnte første område er det minste definerbare område som omslutter alle nevnte detekterte bilder av ansikter og/eller hodet, og å definere nevnte område av interesse ved å utvide nevnte marginer med et sett off set-verdier.
6. Fremgangsmåte i henhold til krav 5, hvor området av interesse ytterligere utvides til å passe inn i et standard bilde-aspektforhold.
7. Fremgangsmåte i henhold til krav 1, der nevnte område av interesse representerer en nærbildevisning av et objekt eller en gruppe av objekter.
8. Fremgangsmåte i henhold til krav 1, der nevnte forhåndsdefinerte hendelser omfatter
å igangsette videokonferansesystemet, å motta eller sende en konferansesamtale-initieringsforespørsel, og/eller å motta en kommando fra en bruker.
9. Fremgangsmåte i henhold til krav 1, der nevnte fremgangsmåten ytterligere omfatter
å prosessere et audiosignal fra et sett av audioinnhentingsenheter, for å bestemme lokasjonen av en audiokilde relativt til et referansepunkt.
10. Fremgangsmåte i henhold til krav 8, hvor de nevnte forhåndsdefinerte hendelser omfatter
å detektere tilstedeværelse av en audiokilde utenfor det innrammede området av interesse.
11. Fremgangsmåte i henhold til krav 1, hvor de nevnte forhåndsdefinerte hendelser omfatter
å detektere bortfall av en eller flere av deltakerne fra det innrammede området av interesse.
12. Fremgangsmåte i samsvar med krav 1, hvor nevnte forhåndsdefinerte hendelse omfatter
å detektere bevegelse nær kanten av det innrammede området av interesse.
13. System for automatisk styring av orientering og zoom for en bildeinnhentingsinnretning assosiert med et videokonferansesystem, der nevnte bildeinnhentingsinnretning genererer bildesignaler som er representative for et bilde innrammet av nevnte bildeinnhentingsinnretning, der systemet omfatter en videodetekteringsenhet konfigurert til å prosessere bildesignalet for å identifisere objekter i nevnte bildet, og å bestemme lokasjonen for alle identifiserte objekter relativt til et referansepunkt og deres respektive størrelser,
karakterisert ved at systemet videre omfatter
en bildeprosesseringsenhet konfigurert til å definere et område av interesse i nevnte bilde, der nevnte område minst omfatter alle de identifiserte objekter, og en styringsenhet konfigurert til, ved forhåndsdefinerte hendelser,
å styre bildeinnhentingsinnretningen til en initialorientering,
å motta kamerakoordinater fra nevnte bildeprosesseringsinnretning korresponderende med nevnte område av interesse,
å styre bildeinnhentingsinnretningen til å innramme nevnte område av interesse,
karakterisert ved at et senter i en ramme som innrammer området av interesse i det vesentlige sammenfaller med et senter dannet av en gruppe av alle de identifiserte objektene.
14. System i henhold til krav 13, der bildesignalene representerer rammer av videobilder, og der de identifiserte objektene er detekterte bilder av ansikter og/eller hoder i nevnte rammer av videobilder.
15. System i henhold til krav 14, videre omfattende
en ansiktssporingsenhet konfigurert til å spore de detekterte ansikter/hoder gjennom en serie av rammer, og til å identifisere en deteksjon som et ansikt/hode bare hvis nevnte deteksjon skjer i alle av et forhåndsdefinert antall påfølgende rammer.
16. System i henhold til krav 14, hvor nevnte bildeprosesseringsenhet er videre konfigurert til
å definere et sett av marginer for et første rektangulært område, der nevnte første område er det minste definerbare område som omslutter alle nevnte detekterte bilder av ansikter og/eller hoder, og
å definere nevnte område av interesse ved å utvide nevnte marginer med et sett offset-verdier.
17. System i henhold til krav 16, hvor området av interesse ytterligere utvides til å passe inn i et standard bilde-aspektforhold.
18. System i henhold til et hvilket som helst av kravene 13-17, der systemet videre omfatter
en audiokildelokator konfigurert til å prosessere et audiosignal fra et sett av audioinnhentingsenheter, for å bestemme lokasjonen av en audiokilde i kamerakoordinater.
19. System i henhold til et hvilket som helst av kravene 13-18, hvor nevnte kontrollenhet er videre konfigurert til
å motta audiokildekoordinater fra nevnte audiokildelokator, og å sammenlikne nevnte audiokildekoordinater med det nåværende synsfelt.
20. System i henhold til et hvilket som helst av kravene 13-19, hvor nevnte bildeinnhentingsinnretning omfatter en kamerakontrollenhet for posisjonering av nevnte bildeinnhentingsinnretning, hvor kontrollenheten leverer kontrollsignaler til nevnte kamerakontrollenhet for orientering og zoom for bildeinnhentingsinnretningen, idet kontrollsignalet er generert basert på nevnte område av interesse.
21. System i henhold til et hvilket som helst av kravene 13-20,
hvor nevnte forhåndsdefinerte hendelser omfatter
å detektere tilstedeværelse av en audiokilde utenfor det innrammede området av interesse.
22. System i henhold til et hvilket som helst av kravene 13-21, hvor de nevnte forhåndsdefinerte hendelser omfatter
å detektere bortfall av en eller flere av deltakerne fra det innrammede området av interesse.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20073621A NO327899B1 (no) | 2007-07-13 | 2007-07-13 | Fremgangsmate og system for automatisk kamerakontroll |
EP08779096.0A EP2179586B1 (en) | 2007-07-13 | 2008-06-30 | Method and system for automatic camera control |
PCT/NO2008/000249 WO2009011592A1 (en) | 2007-07-13 | 2008-06-30 | Method and system for automatic camera control |
CN2008801042875A CN101785306B (zh) | 2007-07-13 | 2008-06-30 | 用于自动摄像机控制的方法和系统 |
JP2010515993A JP2010533416A (ja) | 2007-07-13 | 2008-06-30 | 自動的カメラ制御方法とシステム |
US12/171,938 US8169463B2 (en) | 2007-07-13 | 2008-07-11 | Method and system for automatic camera control |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20073621A NO327899B1 (no) | 2007-07-13 | 2007-07-13 | Fremgangsmate og system for automatisk kamerakontroll |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20073621L NO20073621L (no) | 2009-01-14 |
NO327899B1 true NO327899B1 (no) | 2009-10-19 |
Family
ID=40252752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20073621A NO327899B1 (no) | 2007-07-13 | 2007-07-13 | Fremgangsmate og system for automatisk kamerakontroll |
Country Status (6)
Country | Link |
---|---|
US (1) | US8169463B2 (no) |
EP (1) | EP2179586B1 (no) |
JP (1) | JP2010533416A (no) |
CN (1) | CN101785306B (no) |
NO (1) | NO327899B1 (no) |
WO (1) | WO2009011592A1 (no) |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7794396B2 (en) * | 2006-11-03 | 2010-09-14 | Stryker Corporation | System and method for the automated zooming of a surgical camera |
CA2719504A1 (en) * | 2008-04-14 | 2009-10-22 | Thomson Licensing | Technique for automatically tracking an object |
CN101442654B (zh) * | 2008-12-26 | 2012-05-23 | 华为终端有限公司 | 视频通信中视频对象切换的方法、装置及系统 |
KR20100081049A (ko) * | 2009-01-05 | 2010-07-14 | 삼성전자주식회사 | 휴대용 단말기에서 영상 촬영 방법 및 장치 |
US8274544B2 (en) * | 2009-03-23 | 2012-09-25 | Eastman Kodak Company | Automated videography systems |
JP5446546B2 (ja) * | 2009-07-28 | 2014-03-19 | ソニー株式会社 | 撮像制御装置、撮像制御方法、プログラム、撮像システム |
NO332170B1 (no) * | 2009-10-14 | 2012-07-16 | Cisco Systems Int Sarl | Anordning og fremgangsmate for kamerakontroll |
US8970663B2 (en) * | 2009-12-07 | 2015-03-03 | Hewlett-Packard Development Company, L.P. | 3D video conference |
US8395653B2 (en) * | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
CN102404584B (zh) * | 2010-09-13 | 2014-05-07 | 腾讯科技(成都)有限公司 | 调整场景左右摄像机的方法及装置、3d眼镜、客户端 |
US8553934B2 (en) | 2010-12-08 | 2013-10-08 | Microsoft Corporation | Orienting the position of a sensor |
CN102611872B (zh) * | 2011-01-19 | 2014-07-02 | 株式会社理光 | 基于感兴趣区域动态检测的场景影像转换系统和方法 |
US9191616B2 (en) | 2011-05-26 | 2015-11-17 | Microsoft Technology Licensing, Llc | Local participant identification in a web conferencing system |
US9030520B2 (en) * | 2011-06-20 | 2015-05-12 | Polycom, Inc. | Automatic camera selection for videoconferencing |
KR101811717B1 (ko) * | 2011-11-14 | 2018-01-25 | 삼성전자주식회사 | 줌 제어 방법 및 장치와, 디지털 촬영 장치 |
US8892123B2 (en) | 2012-03-07 | 2014-11-18 | Microsoft Corporation | Identifying meeting attendees using information from devices |
US9591418B2 (en) | 2012-04-13 | 2017-03-07 | Nokia Technologies Oy | Method, apparatus and computer program for generating an spatial audio output based on an spatial audio input |
CN103384319B (zh) * | 2012-05-04 | 2018-06-15 | 中兴通讯股份有限公司 | 双流视频会议终端的图像缩放方法和系统 |
WO2014006832A1 (ja) * | 2012-07-02 | 2014-01-09 | パナソニック株式会社 | サイズ測定装置及びサイズ測定方法 |
CN103581603B (zh) * | 2012-07-24 | 2017-06-27 | 联想(北京)有限公司 | 一种多媒体数据的传输方法及电子设备 |
US9424859B2 (en) * | 2012-11-21 | 2016-08-23 | Harman International Industries Canada Ltd. | System to control audio effect parameters of vocal signals |
US9485459B2 (en) * | 2012-12-14 | 2016-11-01 | Biscotti Inc. | Virtual window |
US9654563B2 (en) | 2012-12-14 | 2017-05-16 | Biscotti Inc. | Virtual remote functionality |
GB2511730A (en) * | 2013-01-28 | 2014-09-17 | Microsoft Corp | Spatially adaptive video coding |
US8957940B2 (en) | 2013-03-11 | 2015-02-17 | Cisco Technology, Inc. | Utilizing a smart camera system for immersive telepresence |
US10750132B2 (en) * | 2013-03-14 | 2020-08-18 | Pelco, Inc. | System and method for audio source localization using multiple audio sensors |
CN103197491B (zh) * | 2013-03-28 | 2016-03-30 | 华为技术有限公司 | 快速自动聚焦的方法和图像采集装置 |
CN103248824A (zh) * | 2013-04-27 | 2013-08-14 | 天脉聚源(北京)传媒科技有限公司 | 一种摄像头拍摄角度的确定方法、装置及摄像系统 |
JP6201440B2 (ja) * | 2013-06-11 | 2017-09-27 | 株式会社リコー | 配置算出方法、及びプログラム |
US9088689B2 (en) * | 2013-06-26 | 2015-07-21 | Avaya, Inc. | Automated field of view adjustment based on screen size |
US9165182B2 (en) | 2013-08-19 | 2015-10-20 | Cisco Technology, Inc. | Method and apparatus for using face detection information to improve speaker segmentation |
CN103458219A (zh) * | 2013-09-02 | 2013-12-18 | 小米科技有限责任公司 | 一种视频通话面部调整方法、装置及终端设备 |
CN103491397B (zh) * | 2013-09-25 | 2017-04-26 | 歌尔股份有限公司 | 一种实现自适应环绕声的方法和系统 |
GB201318658D0 (en) * | 2013-10-22 | 2013-12-04 | Microsoft Corp | Controlling resolution of encoded video |
JP2017508351A (ja) * | 2014-01-10 | 2017-03-23 | リボルブ ロボティクス インク | ロボットスタンドをビデオ会議進行中に制御するシステム及び方法 |
US9215411B2 (en) * | 2014-02-03 | 2015-12-15 | Google Inc. | Enhancing video conferences |
JP6642420B2 (ja) * | 2014-02-26 | 2020-02-05 | 株式会社ニコン | 撮像装置 |
US9307200B2 (en) * | 2014-04-10 | 2016-04-05 | Cisco Technology, Inc. | Use of face and motion detection for best view framing in video conference endpoint |
US9338544B2 (en) | 2014-06-03 | 2016-05-10 | Cisco Technology, Inc. | Determination, display, and adjustment of best sound source placement region relative to microphone |
TW201601118A (zh) * | 2014-06-26 | 2016-01-01 | 群光電子股份有限公司 | 畫面重心追蹤系統及其方法 |
US9197856B1 (en) | 2014-06-26 | 2015-11-24 | Cisco Technology Inc. | Video conferencing framing preview |
US10609273B2 (en) * | 2014-07-31 | 2020-03-31 | Maxell, Ltd. | Image pickup device and method of tracking subject thereof |
US10291597B2 (en) | 2014-08-14 | 2019-05-14 | Cisco Technology, Inc. | Sharing resources across multiple devices in online meetings |
US9584763B2 (en) | 2014-11-06 | 2017-02-28 | Cisco Technology, Inc. | Automatic switching between dynamic and preset camera views in a video conference endpoint |
CN105592288B (zh) * | 2014-11-07 | 2021-01-26 | 中兴通讯股份有限公司 | 实现会场画面自动调整的方法和多点控制单元 |
CA2874715C (en) | 2014-12-15 | 2022-03-15 | Ibm Canada Limited - Ibm Canada Limitee | Dynamic video and sound adjustment in a video conference |
US10542126B2 (en) | 2014-12-22 | 2020-01-21 | Cisco Technology, Inc. | Offline virtual participation in an online conference meeting |
US10244175B2 (en) * | 2015-03-09 | 2019-03-26 | Apple Inc. | Automatic cropping of video content |
US9398258B1 (en) * | 2015-03-26 | 2016-07-19 | Cisco Technology, Inc. | Method and system for video conferencing units |
US9948786B2 (en) | 2015-04-17 | 2018-04-17 | Cisco Technology, Inc. | Handling conferences using highly-distributed agents |
JP6504899B2 (ja) * | 2015-04-21 | 2019-04-24 | キヤノン株式会社 | 制御装置、光学機器、撮像装置および制御方法 |
CN104835359A (zh) * | 2015-05-14 | 2015-08-12 | 韩凤英 | 远程教学辅助装置 |
CN105204269B (zh) * | 2015-07-04 | 2018-11-13 | 魅族科技(中国)有限公司 | 一种激光辅助对焦方法及拍摄装置 |
JP6547496B2 (ja) * | 2015-08-03 | 2019-07-24 | 株式会社リコー | 通信装置、通信方法、プログラムおよび通信システム |
US10397484B2 (en) * | 2015-08-14 | 2019-08-27 | Qualcomm Incorporated | Camera zoom based on sensor data |
CN105357442A (zh) * | 2015-11-27 | 2016-02-24 | 小米科技有限责任公司 | 摄像头拍摄角度调整方法及装置 |
US9946259B2 (en) | 2015-12-18 | 2018-04-17 | Raytheon Company | Negative obstacle detector |
CN105701466A (zh) * | 2016-01-13 | 2016-06-22 | 杭州奇客科技有限公司 | 快速的全角度人脸跟踪方法 |
US10602070B2 (en) * | 2016-01-27 | 2020-03-24 | Raytheon Company | Variable magnification active imaging system |
US10382701B2 (en) | 2016-01-27 | 2019-08-13 | Raytheon Company | Active imaging systems and method |
US9743042B1 (en) | 2016-02-19 | 2017-08-22 | Microsoft Technology Licensing, Llc | Communication event |
US9633270B1 (en) | 2016-04-05 | 2017-04-25 | Cisco Technology, Inc. | Using speaker clustering to switch between different camera views in a video conference system |
US9756286B1 (en) | 2016-08-05 | 2017-09-05 | Microsoft Technology Licensing, Llc | Communication event |
CN106210606A (zh) * | 2016-08-10 | 2016-12-07 | 张北江 | 安防视频会议的头像追踪方法及系统 |
WO2018027698A1 (zh) * | 2016-08-10 | 2018-02-15 | 张北江 | 安防视频会议的头像追踪方法及系统 |
EP3287947A1 (en) | 2016-08-25 | 2018-02-28 | Dolby Laboratories Licensing Corp. | Automatic video framing of conference participants |
US10592867B2 (en) | 2016-11-11 | 2020-03-17 | Cisco Technology, Inc. | In-meeting graphical user interface display using calendar information and system |
CN106603912B (zh) * | 2016-12-05 | 2020-09-11 | 科大讯飞股份有限公司 | 一种视频直播控制方法及装置 |
US10516707B2 (en) | 2016-12-15 | 2019-12-24 | Cisco Technology, Inc. | Initiating a conferencing meeting using a conference room device |
US9942518B1 (en) | 2017-02-28 | 2018-04-10 | Cisco Technology, Inc. | Group and conversational framing for speaker tracking in a video conference system |
US10440073B2 (en) | 2017-04-11 | 2019-10-08 | Cisco Technology, Inc. | User interface for proximity based teleconference transfer |
US10375125B2 (en) | 2017-04-27 | 2019-08-06 | Cisco Technology, Inc. | Automatically joining devices to a video conference |
US10375474B2 (en) | 2017-06-12 | 2019-08-06 | Cisco Technology, Inc. | Hybrid horn microphone |
US10157476B1 (en) * | 2017-06-15 | 2018-12-18 | Satori Worldwide, Llc | Self-learning spatial recognition system |
CN109151295B (zh) * | 2017-06-16 | 2020-04-03 | 杭州海康威视数字技术股份有限公司 | 一种目标对象抓拍方法、装置及视频监控设备 |
US10477148B2 (en) | 2017-06-23 | 2019-11-12 | Cisco Technology, Inc. | Speaker anticipation |
US10516709B2 (en) | 2017-06-29 | 2019-12-24 | Cisco Technology, Inc. | Files automatically shared at conference initiation |
US10706391B2 (en) | 2017-07-13 | 2020-07-07 | Cisco Technology, Inc. | Protecting scheduled meeting in physical room |
US10091348B1 (en) | 2017-07-25 | 2018-10-02 | Cisco Technology, Inc. | Predictive model for voice/video over IP calls |
JP2019029998A (ja) * | 2017-07-28 | 2019-02-21 | キヤノン株式会社 | 撮像装置、撮像装置の制御方法、および制御プログラム |
CN107317994B (zh) * | 2017-08-24 | 2020-08-11 | 维沃移动通信有限公司 | 一种视频通话方法及电子设备 |
US10372298B2 (en) | 2017-09-29 | 2019-08-06 | Apple Inc. | User interface for multi-user communication session |
CN109981967B (zh) * | 2017-12-27 | 2021-06-29 | 深圳市优必选科技有限公司 | 用于智能机器人的拍摄方法、装置、终端设备及介质 |
WO2019136636A1 (zh) * | 2018-01-10 | 2019-07-18 | 深圳前海达闼云端智能科技有限公司 | 图像识别方法、系统、电子设备和计算机程序产品 |
EP3553629B1 (en) | 2018-04-12 | 2024-04-10 | Nokia Technologies Oy | Rendering a message within a volumetric data |
DK201870364A1 (en) | 2018-05-07 | 2019-12-03 | Apple Inc. | MULTI-PARTICIPANT LIVE COMMUNICATION USER INTERFACE |
GB201811301D0 (en) * | 2018-07-10 | 2018-08-29 | Emotech Ltd | Robotic system |
US10965873B1 (en) * | 2018-09-24 | 2021-03-30 | Facebook, Inc. | Systems and methods for updating camera displays |
US11128792B2 (en) | 2018-09-28 | 2021-09-21 | Apple Inc. | Capturing and displaying images with multiple focal planes |
US11438549B2 (en) | 2018-11-22 | 2022-09-06 | Poly, Inc. | Joint use of face, motion, and upper-body detection in group framing |
CN111461104B (zh) * | 2019-01-22 | 2024-04-09 | 北京京东乾石科技有限公司 | 视觉识别方法、装置、设备及存储介质 |
NO344836B1 (en) * | 2019-04-08 | 2020-05-18 | Huddly As | Interpolation based camera motion for transitioning between best overview frames in live video |
CN111918018B (zh) * | 2019-05-08 | 2022-05-06 | 奥图码股份有限公司 | 视频会议系统、视频会议设备以及视频会议方法 |
US10951858B1 (en) * | 2020-03-30 | 2021-03-16 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
US10965908B1 (en) | 2020-03-30 | 2021-03-30 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
US10904446B1 (en) | 2020-03-30 | 2021-01-26 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
US10972655B1 (en) | 2020-03-30 | 2021-04-06 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
US11079913B1 (en) | 2020-05-11 | 2021-08-03 | Apple Inc. | User interface for status indicators |
CN111931564A (zh) * | 2020-06-29 | 2020-11-13 | 北京大学 | 一种基于人脸识别的目标跟踪方法及装置 |
CN112211526B (zh) * | 2020-09-11 | 2022-07-08 | 深圳英狮科技有限公司 | 一种基于会议室移动的智能服务方法及其系统 |
US11431891B2 (en) | 2021-01-31 | 2022-08-30 | Apple Inc. | User interfaces for wide angle video conference |
US11350029B1 (en) | 2021-03-29 | 2022-05-31 | Logitech Europe S.A. | Apparatus and method of detecting and displaying video conferencing groups |
US11893214B2 (en) | 2021-05-15 | 2024-02-06 | Apple Inc. | Real-time communication user interface |
US11907605B2 (en) | 2021-05-15 | 2024-02-20 | Apple Inc. | Shared-content session user interfaces |
US11449188B1 (en) | 2021-05-15 | 2022-09-20 | Apple Inc. | Shared-content session user interfaces |
US11558209B1 (en) | 2021-07-30 | 2023-01-17 | Zoom Video Communications, Inc. | Automatic spotlight in video conferencing |
US11770600B2 (en) | 2021-09-24 | 2023-09-26 | Apple Inc. | Wide angle video conference |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62150341A (ja) * | 1985-12-25 | 1987-07-04 | Canon Inc | カメラの自動構図決定装置 |
JPH0376385A (ja) * | 1989-08-17 | 1991-04-02 | Nec Eng Ltd | 会議場撮影装置 |
JPH05219421A (ja) * | 1992-01-31 | 1993-08-27 | Nippon Hoso Kyokai <Nhk> | テレビジョンカメラの制御装置 |
JPH09506217A (ja) | 1993-10-20 | 1997-06-17 | ヴィデオコンファレンスィング システムズ インコーポレイテッド | 適応型テレビ会議システム |
US5512939A (en) * | 1994-04-06 | 1996-04-30 | At&T Corp. | Low bit rate audio-visual communication system having integrated perceptual speech and video coding |
US5852669A (en) * | 1994-04-06 | 1998-12-22 | Lucent Technologies Inc. | Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video |
US5778082A (en) | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US6188777B1 (en) * | 1997-08-01 | 2001-02-13 | Interval Research Corporation | Method and apparatus for personnel detection and tracking |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
US7057636B1 (en) | 1998-12-22 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications |
JP3733258B2 (ja) * | 1999-02-23 | 2006-01-11 | キヤノン株式会社 | 画像撮影装置、画像撮影方法、記憶媒体、テレビ会議システム |
JP2001148843A (ja) * | 1999-11-18 | 2001-05-29 | Mega Chips Corp | 撮影装置及びこの撮影装置を用いた防犯システム |
US6766035B1 (en) | 2000-05-03 | 2004-07-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for adaptive position determination video conferencing and other applications |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
US6611281B2 (en) | 2001-11-13 | 2003-08-26 | Koninklijke Philips Electronics N.V. | System and method for providing an awareness of remote people in the room during a videoconference |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP2004193933A (ja) * | 2002-12-11 | 2004-07-08 | Canon Inc | 画像拡大表示方法・装置・メディア・プログラム |
US7559026B2 (en) * | 2003-06-20 | 2009-07-07 | Apple Inc. | Video conferencing system having focus control |
US8948468B2 (en) | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
US20050080849A1 (en) | 2003-10-09 | 2005-04-14 | Wee Susie J. | Management system for rich media environments |
JP2007067963A (ja) * | 2005-08-31 | 2007-03-15 | Canon Inc | 撮像装置の制御システム |
-
2007
- 2007-07-13 NO NO20073621A patent/NO327899B1/no not_active IP Right Cessation
-
2008
- 2008-06-30 EP EP08779096.0A patent/EP2179586B1/en active Active
- 2008-06-30 CN CN2008801042875A patent/CN101785306B/zh active Active
- 2008-06-30 WO PCT/NO2008/000249 patent/WO2009011592A1/en active Application Filing
- 2008-06-30 JP JP2010515993A patent/JP2010533416A/ja active Pending
- 2008-07-11 US US12/171,938 patent/US8169463B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2179586A1 (en) | 2010-04-28 |
US20090015658A1 (en) | 2009-01-15 |
NO20073621L (no) | 2009-01-14 |
CN101785306B (zh) | 2012-07-18 |
EP2179586B1 (en) | 2017-03-15 |
CN101785306A (zh) | 2010-07-21 |
EP2179586A4 (en) | 2012-06-13 |
JP2010533416A (ja) | 2010-10-21 |
US8169463B2 (en) | 2012-05-01 |
WO2009011592A1 (en) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO327899B1 (no) | Fremgangsmate og system for automatisk kamerakontroll | |
EP3130138B1 (en) | Use of face and motion detection for best view framing in video conference endpoint | |
US9883143B2 (en) | Automatic switching between dynamic and preset camera views in a video conference endpoint | |
US9843770B2 (en) | Panoramic image placement to minimize full image interference | |
US7460150B1 (en) | Using gaze detection to determine an area of interest within a scene | |
JP6303270B2 (ja) | ビデオ会議端末装置、ビデオ会議システム、映像の歪み補正方法および映像の歪み補正プログラム | |
US20100118112A1 (en) | Group table top videoconferencing device | |
WO2018209879A1 (zh) | 自动选择摄像头画面的方法、装置及音视频系统 | |
JP2008545331A (ja) | カメラ用の正規化画像 | |
US9417433B2 (en) | Camera arrangement | |
KR20100121086A (ko) | 음원인식을 이용한 촬영영상 추적 ptz 카메라 운용시스템 및 그 방법 | |
CN113905204A (zh) | 图像显示方法、装置、设备及存储介质 | |
US9832372B1 (en) | Dynamic vediotelphony systems and methods of using the same | |
EP3884461B1 (en) | Selective distortion or deformation correction in images from a camera with a wide angle lens | |
EP4075794A1 (en) | Region of interest based adjustment of camera parameters in a teleconferencing environment | |
US20220400244A1 (en) | Multi-camera automatic framing | |
US11838634B2 (en) | Method of generating a digital video image using a wide-angle field of view lens | |
US20160353059A1 (en) | Remote Conference System and Method of Performing Remote Conference | |
KR100264035B1 (ko) | 화상회의 시스템의 카메라 방향 조정 장치와 제어 방법 | |
CN102223517A (zh) | 监控系统及方法 | |
WO2023080099A1 (ja) | 会議システムの処理方法および会議システムの制御装置 | |
WO2022051920A1 (en) | Tracking with multiple cameras | |
US11563783B2 (en) | Distance-based framing for an online conference session | |
NO326793B1 (no) | Fremgangsmate og anordning for visning av naerbilder i videokonferanse | |
KR20100058119A (ko) | 프리셋 정보 보정 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Lapsed by not paying the annual fees |