NO324450B1 - System and method for enhanced teleconferencing security - Google Patents

System and method for enhanced teleconferencing security Download PDF

Info

Publication number
NO324450B1
NO324450B1 NO20061463A NO20061463A NO324450B1 NO 324450 B1 NO324450 B1 NO 324450B1 NO 20061463 A NO20061463 A NO 20061463A NO 20061463 A NO20061463 A NO 20061463A NO 324450 B1 NO324450 B1 NO 324450B1
Authority
NO
Norway
Prior art keywords
signal
deterministic
conference system
microphone
conference
Prior art date
Application number
NO20061463A
Other languages
English (en)
Other versions
NO20061463L (no
Inventor
Trygve Fredrik Marton
Bjorn Winsvold
Espen Holmbakken
Original Assignee
Tandberg Telecom As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tandberg Telecom As filed Critical Tandberg Telecom As
Priority to NO20061463A priority Critical patent/NO324450B1/no
Priority to EP07747579.6A priority patent/EP2005705B1/en
Priority to PCT/NO2007/000118 priority patent/WO2007114708A2/en
Priority to US11/729,935 priority patent/US8212854B2/en
Publication of NO20061463L publication Critical patent/NO20061463L/no
Publication of NO324450B1 publication Critical patent/NO324450B1/no

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

Metode og system med midler for å forhindre uautorisert monitorering av et lokalt konferanserom (1) hvor et lokalt konferansesystem (2) er lokalisert omfattende generering av et deterministisk lydsignal (300), og laste det deterministiske lydsignalet på en første høyttaler (5) forbundet til dette, eller integrert i konferansesystemet (2), å detektere det deterministiske signalet (600) ved å analysere mikrofonsignalet plukket opp av mikrofonen (4) forbundet til dette, eller integrert med konferansesystemet (2), og sette konferansesystemet (2) over til en sikkerhetsmodus (1100), dersom det deterministiske signalet ikke blir detektert.

Description

Introduksjon
Den foreliggende oppfinnelsen omhandler videokonferansesystemer, og mer spesifikt til sikkerhetsforanstaltninger for videokonferansesystemer.
Bakgrunn for oppfinnelsen
Videokonferansesystemer er interaktiv toveis visuell og audiokommunikasjon mellom to eller flere deltagere som er geografisk separert.
Fig. 1 viser et konvensjonelt konferansesystemoppsett. For enkelhets skyld viser fig. 1 konferanse systemoppsettet fordelt ved to siter (lokasjoner), A og B. De to lokasjonene er forbundet gjennom en transraisjonskanal 1300 og hver lokasjon har en høyttaler 5A og 5B respektivt, og en mikrofon 4A og 4B respektivt. Pilene i fig. 1 indikerer retningen til utbredelsen for det akustiske signalet, vanligvis fra en mikrofon til en høyttaler.
Fig. 2 illustrerer et typisk videokonferanserom 1, med et videokonferansesystem 2. Videokonferansesystemene 2 består vanligvis av følgende komponenter; en kodek 10 (for å kode og dekode audio- og videoinformasjon) omfattende en intern høyttaler (ikke vist), en brukerinputinnretning 8 (dvs. fjernkontroll eller tastatur), en videoinnfangingsinnretning 6 (kamera), en lydinnfangingsinnretning 4 (mikrofon) en videoskjerm 9 (skjerm) og en lyd^eproduksjonsinnretning 5 (høyttalere). Imidlertid er ikke alle systemene liké, og integrasjonsnivået til disse komponentene kan variere svært mellom ulike modeller.
Graden av integrasjon spenner fra fullt integrerbare systemer hvor alle disse
. komponentene blir kombinert inn i én enhet, til såkalte set-top-systemer, hvor en boks som inneholder kun kamera 6 og kodek 10 blir plassert på toppen av et fjernsynssett. Et fjernsynssett består vanligvis både av høyttalere 5 og en skjerm 9, som så blir brukt for å spille av lyd og fremvise video fra kodeken 10 i set-top-systemet. I det siste tilfellet, er audiotilbakespillingsinnretningen 5 vanligvis kontrollert av kanalvalget, og spiller derfor alltid av lydsignalet assosiert med valgte kanal eller videosignal.
Nyere plasma- og LCD-skjermer er tynnere enn tradisjonelle CRT-fjernsynssett, med liten eller ingen plass til set-top systemer. Kodeken 10 må derfor bli plassert et annet sted, hvor kameraer 6 fremdeles typisk plasseres på toppen av den kombinerte audio- og videotilbakespillingsinnretningen.
Industriell spionasje er et økende problem i mange land, og raskt tempo av teknologi gjør at spionasje, slik som tyvlytting er et økende potensielt problem for mange selskaper i dag. Konfidensiell informasjon og/eller prototyper er ønskelige objekter både for forretningskonkurrenter, og ansatte som søkei å ramme deres egne med selskapets harde arbeid, forretningshemmeligheter og andre immaterielle rettigheter som deres personlige oppstartskapital. Konfidensiell informasjon blir vanligvis tilegnet av mennesker som er på betalingslisten og som blir bestukket, eller mennesker som får ansettelse, eller blir plassert på lønningslisten av konkurrenter kun med det formål tilegnet sensitive data.
Videokonferansesystemer 2 blir typisk plassert i møterom 1 hvor konfidensiell informasjon en eller annen gang blir diskutert og hvor prototyper blir fremvist. På grunn av det faktum at kodeken 10 ikke kontrollerer fjernsynet/monitoren, kan den ikke pålitelig verifisere at fjernsynet/monitoren faktisk er skrudd på, eller har den riktige inputen eller kanalvalget for tilbakespilling av lyd (og fremvisning av video) som kommer fra kodeken 10. Derfor trenger ikke menneskene i et møterom 1 å være klar over at videokonferanseutstyret 1 faktisk er i en samtale og sender sensitiv lyd og video til en fjerntliggende bruker. Følgelig kan en uautorisert fjerntliggende deltaker lytte på møtet uten at møtets deltakere detekterer denne tyvlyttingen. Dette er et seriøst sikkerhetsproblem.
Videokonferansesystemer 2 med separate video/audiosystemer (fjernsynssett, prosjektorer, etc.), eller fullt integrerte systemer hvor skjermen kan skrus av, har vist seg å være en sikkerhetsrisiko. Moderne videokonferansesystemer 2 blir typisk konfigurert til "autosvar", som betyr at systemene automatisk aksepterer enhver innkommende samtale. I slike tilfeller blir fjernsynet/monitoren slått av eller viser bilder fira en annen kilde (DVD, kabel-TV, datamaskin etc), og en fjerntliggende bruker taster seg inn i møterommet 1, og oppkallssignalet vil ikke høres fordi fjernsynet er skrudd av, og derav også høyttalerne 5.
Selv om videokonferanseutstyret 2 ikke er satt til autosvar, er det måter å forbinde seg til en samtale uten å bli merket. Som allerede nevnt, kan ansatte være interessert i informasjon som blir diskutert i et møterom 1, enten for den ansattes egen fordel eller for å spionere for en konkurrent Ansatte har vanligvis tilgang til møterommene 1 og utstyret i dem. Ved å sette opp konferansesamtalen og slå av skjermenheten 9 før møtet starter, kan den fjerntliggende deltakeren lytte på møtet uten å bli merket, som diskutert over.
I moderne kontorbygninger, er ofte møteromsvegger 3 lagd av glass eller annet transparent eller delvis transparent materiale, gjennom hvilket infrarød stråling kan bli sendt. Ansatte eller personer med tilgang til bygningen (besøkende, håndverkere, etc.) kan derfor svare eller initiere en samtale fra utsiden av møterommet ved å bruke en fjernkontroll 8.
Tidligere kjent teknikk
En typisk tilnærmelse for å overvinne de ovenfor nevnte problemene har opptil nå vært visuell indikasjon 7 om at en samtale er aktiv på et set-top-system eller på kameraet i seg selv, f.eks. en lysemitterende diode (LED) eller noen annen type av lyskilde som er skrudd på når videokonferanseutstyret 2 er i en samtale. Imidlertid vil ikke mennesker alltid merke denne visuelle indikasjonen 7, enten fordi de er mindre kjent med utstyret eller kanskje bare er vant til å se lyset, grunnet regulær bruk av utstyret. Et annet problem kan være at kodeken 10 i seg selv er plassert et annet sted, og at den visuelle indikatoren 7 av denne grunn er utenfor synsvidde.
Sikkerhetssystemer har blitt beskrevet for å forhindre tyvlytting gjennom videokonferansesystemer. US 5 959 662 beskriver et sikkerhetssystem innenfor et lokalt videokonferansesystem som monitorerer aktivitet i møterommet hvor den lokale videokonferansen er stasjonert, og automatisk frakobler konferansesamtalen dersom ingen aktivitet blir detektert etter en forhåndsbestemt tidsperiode. Dersom aktivitet blir detektert etter en tidsperiode uten aktivitet, blir brukeren av det lokale konferansesystemet varslet om at en samtale er i gang. Imidlertid vil dette sikkerhetssystemet ikke være tilfredsstillende i systemer hvor audio/videotilbakespillingsinnretningen kan være slått av eller fremvise bilder fra en annen kilde.
De fleste regulære videokonferanser starter med enten en varslingstone eller summetoner. Disse tonene blir generert av kodeken, og kan bli brukt for å bestemme om lydtilbakespillingsenheten er skrudd på og spiller lyd fra kodeken. Dette garanterer imidlertid ikke at høyttalerne forblir skrudd av under hele konferansen, og tonene må bli repetert med et visst intervall for å tilveiebringe den nødvendige sikkerheten til konferansen. Den repeterende lyden vil imidlertid være svært forstyrrende for deltakerne på møtet.
Et tilfredsstillende deteksjonssystem for å tilveiebringe sikkerhet i et konferanserom bør være i stand til å verifisere at det er en kontinuerlig forbindelse mellom høyttaleren og mikrofonen, uavhengig av om høyttalervolumsettingen eller fjerntliggende demping av mikrofonene. Det er også viktig at den ikke tilveiebringer noen forstyrrelse til menneskene i konferanserommet ved å sende ut lydsignaler.
Sammendrag av oppfinnelsen
Det er en hensikt med den foreliggende oppfinnelsen å tilveiebringe et system og metode for å verifisere forbindelsen mellom høyttaler og mikrofon i et videokonferansesystem uten å forstyrre brukerne med hørbare lyder, og for å terminere pågående samtaler og/eller varsle lokale brukere dersom systemet feiler i å verifisere en forbindelse.
Trekkene definert i de vedlagte selvstendige kravene karakteriserer dette systemet. Den foreliggende oppfinnelsen fremlegger en metode og system for å forhindre uautorisert monitorering av et lokalt videokonferanserom l hvor et lokalt videokonferansesystem 2 er lokalisert, ved å generere et deterministisk lydsignal, og laste det deterministiske lydsignalet på en høyttaler 4 forbundet til, eller integrert i videokonferansesystemet 2, og detektere det deterministiske signalet ved å analysere et mikrofonsignal plukket opp av mikrofonen 4 forbundet til, eller integrert i videokonferansesystemet 2, og overføre videokonferansesystemet 2 til en sikkerhetsmodus, dersom det deterministiske signalet ikke blir detektert.
Kort beskrivelse av tegningene
For å gjøre oppfinnelsen mer forståelig, vil diskusjonen som følger referere til de vedlagte tegningene.
Fig. 1 er et blokkskjema av et konvensjonelt konferansesystemoppsett,
Fig. 2 illustrerer et typisk konferanserom,
Fig. 3 er et funksjonelt flytskjema som illustrerer operasjonen til videokonferansesystemet i henhold til én utførelse av den foreliggende oppfinnelsen for å forhindre uautorisert monitorering av et lokalt møterom, og
Fig. 4 viser en typisk impulsrespons.
Beste mode for å utføre oppfinnelsen
I det følgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive foretrukne utførelser, og ved å referere til de vedlagte tegningene. Imidlertid vil, selv om spesifikke utførelser er beskrevet i forbindelse med videokonferanse, fagfolk på området innse andre applikasjoner og modifikasjoner innenfor omfanget til oppfinnelsens slik den er definert i de vedlagte selvstendige kravene.
Spesielt fremlegger den foreliggende oppfinnelsen et videokonferansesystem som utnytter et sikkerhetssystem og metode for å hindre en uautorisert inntrengning på et videokonferanserom. Mer presist omhandler oppfinnelsen et videokonferansesystem med audio/videoreproduksjonssystemer, hvor audio- og videokanalene er samtidig kontrollerbare, uavhengig av kodek. Som det vil beskrives i detalj under, verifiserer videokonferansesystemet i henhold til den foreliggende oppfinnelsen konstant forbindelsen mellom høyttaleren og mikrofonen, for å kunne være sikker på at lyd og videosignalet fra kodeken blir spilt tilbake på audio/videoreproduksjonssystemet.
Fig. 3 viser et flytskjema som illustrerer trinnene utført av den foreliggende oppfinnelsen for å forhindre uautorisert monitorering av et videokonferanserom. Når det lokale videokonferansesystemet er skrudd på 100, blir et passende sikkerhetsnivå 200 satt for systemet. Dersom ingen aktive valg utføres av brukeren, blir et default sikkerhetsnivå brukt. Sikkerhetsnivåene vil typisk spenne fra "ingen sikkerhet" til "maksimum sikkerhet", med flere mellomliggende nivåer. Flere typer av fjernsynssett og andre audio/videoreproduksjonssystemer eksisterer i dag på markedet, og noen av dem kan ha løsninger hvor audio- og videotilbakespillings-innretningene ikke kontrolleres samtidig. I dette tilfellet kan systemet verifisere forbindelsen mellom høyttaleren og mikrofonen, men skjermen kan fremdeles være skrudd av eller fremvise bilder fra en annen kilde. Derfor vil, dersom det høyeste, sikkerhetsnivå blir valgt videokonferansesystemet periodisk varsle brukeren om at konferansesamtalen er aktiv. Det høyeste sikkerhetsnivået kan forårsake forstyrrelse til deltakerne av konferansesamtalen, og bør ikke være default innstillingen. For å forhindre spioner fra å forandre sikkerhetsinnstillingene, må alle sikkerhetsinnstillingene være passordbeskyttet.
Straks et sikkerhetsnivå er satt, vil videokonferansesystemet initiere en verifiseringsfase. Ved å verifisere en forbindelse mellom høyttaleren og mikrofonen, verifiserer systemet at brukeren vil motta systeminformasjon fra kodek på skjermen, og at samtalesignalet vil bli hørt på høyttaleren. For å kunne verifisere forbindelsen, genererer kodeken et testsignal. Testsignalet kan være enhver lyd. Imidlertid, for å ikke forstyrre menneskene som er tilstede i rommet er det foretrukket å bruke et testsignal utenfor det hørbare området til det menneskelige øret. Lyden kan være et frekvensområde på utsiden av persepsjonsområdet, eller lydfrekvenser skjult i bakgrunnsstøy til rommet ved psykoakustisk effekt. Det bør være en initieringsfase i verifikasjonsprosessen, hvor systemet automatisk finner nødvendig nivå av testsignalet. Volumnivået av testsignalet blir initielt satt relativt lavt 400, og blir så sendt 500 på systemhøyttalerne. Dersom signalet ikke blir detektert 800, blir volumnivået øket 900 i tilfelle signalet var begravd i bakgrunnsstøy fra rommet, og testsignalet blir sendt på nytt 500. Systemet bør fortsette sin deteksjonsfase, og inntil en forbindelse blir verifisert bør den fortsette å øke volumet til signalet opp til en viss terskelverdi. Etter deteksjon 600 har blitt verifisert, bør systemet fortsette å monitorere forbindelsen mellom høyttaler og mikrofon.
Dersom signalet ikke blir detektert innenfor en viss tidsgrense, eller volumnivåterskelen har blitt nådd 1000, feiler deteksjonen. Dersom deteksjonen feiler, blir konferansesystemet satt over i en sikkerhetsmodus 1100. Avhengig av valgt sikkerhetsnivå, kan overføringen til sikkerhetsmoden resultere i ulike sikkerhetsforanstaltninger. Et sikkerhetsnivå kan blokkere konferansesystemet fra å utføre eller akseptere enhver konferansesamtale. Dersom den allerede er i en konferanse, bør systemet gå inn i en "advarseltilstand". Et annet sikkerhetsnivå kan tillate konferansesystemet å akseptere samtaler, men tvinge systemet inn i en "varslingstilstand" dersom samtalen er forbundet. Dersom den allerede er i en konferanse, bør systemet gå inn i en "varslingstilstand". Dersom systemet går inn i "varslingstilstanden", bør lydtransmisj.onen bli avsluttet, og enten blir en varslingslyd sendt ut, eller noen annen form for prosedyre kan bli foretatt for å varsle menneskene om at fortrolighet ikke er garantert. Siden deteksjonen mest sannsynlig feilet fordi høyttaleren var skrudd av, må varslingslyden bli sendt fra en uavhengig lydproduserende innretning, f.eks. kodekens interne høyttaler. Transmittert video trenger eller trenger ikke også å bli stoppet når en går inn i "varslingstiltanden".
Videokonferanseutstyr inneholder allerede avanserte algoritmer for å vurdere eller modifisere signalet som blir plukket opp fra mikrofonene eller blir spilt på høyttalerne.
I én utførelse av den foreliggende oppfinnelsen er den eksisterende forbindelsen mellom høyttalerne og mikrofonen utnyttet for å verifisere at lyd som blir spilt tilbake fra kodeken faktisk blir hørt i rommet.
Som nevnt over kan testsignalet teoretisk være generert i frekvensene på utsiden av det menneskelige persepsjonsområdet for å unngå forstyrrelse. Det å jobbe med signaler i dette frekvensområdet vil selvfølgelig være en stor fordel, siden signalet ikke vil være hørbart for det menneskelige øret uten videre signalbehandling. Imidlertid kan ikke frekvenser i dette området blir reprodusert av alle fjernsynssystemene, kan derfor ikke bli vurdert å være en pålitelig løsning. Derfor, ved å bruke signalprosessering og kunnskap om det menneskelige hørselssystem, blir et lydsignal som kan bli spilt på enhver høyttaler generert, og bli trukket ut fra mikrdfonsignalet men er ikke hørbart for det menneskelige øret.
For å være i stand til å verifisere forbindelsen mellom høyttaleren og mikrofonen, må høyttaleren sende et deterministisk signal som blir sammenlignet med signalet som blir plukket opp fra mikrofonen. En korrelasjonsberegning mellom det utsendte og mottatte lydsignalet blir utført og dersom korrelasjonen er over en satt terskelverdi, blir en forbindelse verifisert. Siden videokonferanseutstyret vanligvis er stasjonert i møterom med store grupper av mennesker og bevegelige objekter, er det nødvendig at det utsendte signalet er robust mot støy og andre forstyrrelser.
Maksimum lengdesekvensmetode er vanligvis brukt for impulsresponsmåling, og siden den er basert på krysskorrelasjonsteknikk er den svært immun mot støy utenfra av alle typer. Hosting, klikk, fottrinn, etc. vil alle bli transformert inntil en mild støy fordelt jevnt over hele impulsresponsen. Maksimum lengdesekvens (eng: Maximum Length Sequence - MLS) signal er en pseudotilfeldig binærsekvens, repetert ved +1 og -1. En viktig egenskap til enhver MLS, er at dens autokorrelasjonsfunksjon essensielt er en impuls, og kan bli representert av Dirac deltafunksjonen. Resultatet av konvolusjonen av en sekvens med en Dirac deltafunksjon er sekvensen i seg selv. Derav kan impulsresponsen bli funnet ved å krysskorrelere det utsendte signalet (MLS) med det motsatte signalet. Det har også sykliske egenskaper, som reduserer problemet med synkronisering, og muliggjør at målinger kan bli midlet over tid. Sekvensen har en flat frekvensrespons og derav høres den ut som hvit støy, men med en periodisitet på grunn av sine sykliske egenskaper.
Det menneskelige hørselssystemet (eng: human auditory system - HAS) er svært følsomt for tilleggshvitstøy, selv ved svært lave signalnivåer. Et MLS-signal introdusert over hele frekvensspekteret vil derfor måtte bli holdt på et ekstremt lavt signalnivå for å ikke forstyrre konferansen, som i sin tur vil gjøre deteksjonen av signalet svært vanskelig.
For å bedre simulere HAS, splitter videokonferanseutstyret vanligvis hørselsfrekvensbåndet i underbånd. I tillegg reduseres denne underbåndsraodellen drastisk og fordeler beregningslasten.
Siden MLS-signalet har lignende spektrale egenskaper som sann tilfeldig hvit støy og HAS er følsom for slik støy, må MLS-signalet på én eller annen måte bli skjult i bakgrunnsstøyen. En måte å gjøre dette på er å utnytte lydmaskingsfenomenet.
Maskeringseffekten i lyd er velkjent innenfor lydteknologi. Spektral maskering har en evne til å opptre i lyd med like frekvenser, f.eks. vil en kraftig topp (maksimum) ved 1 kHz ha en tendens til å maskere ut en lavere nivåtone ved 1,1 kHz. En lyd nær i frekvens til den høyere lyden blir lettere maskert enn dersom den er lengre fra i frekvens.
Tonaliteten til lyd bestemmer delvis dens evne til å maskere andre lyder. En sinusformet maskerer krever en høyere intensitet til å maskere et støylignende signal enn en høyere støylignende maskerer gjør til å maskere et sinusformet signal.
For å gjøre eksiteringssignalet uhørbart, bør et smalbåndssignal bli brukt, basert på maskering av bredbåndssignalet videokonferansesystemet monitorerer konstant gjennomsnittsbakgrunnsstøynivå i rommet. Bakgrunnsstøyen er et bredbåndssignal, og ved å generere MLS-signalet i kun visse frekvensunderbånd, er det mulig å generere et smalbåndssignal, som er tilstrekkelig maskert av bakgrunnsstøyen i rommet.
Maskeringsterskelverdien til rommet blir derfor beregnet for hvert frekvensunderbånd, og det mest passende frekvensbåndet blir brukt. Det er viktig at disse båndene ikke er for nær hverandre for å kunne beholde deres smalbåndsfremtoning. Disse underbåndene blir så konvertert til fullbåndsignal, og blir lagt til det opprinnelige høyttalersignalet før de blir lastet til høyttaleren. Signalet blir lagt til etter voluminnstillingsforsterkning, og nivået blir derfor uavhengig av brukerkontrollert volumsetting eller demping.
For å være sikker på at møterommets sikkerhet ikke ved noe punkt blir kompromittert, blir transmisjonen av MLS-signalet fortsatt på ubegrenset tid. MLS-sekvensen blir vanligvis brukt for å identifisere impulsresponsen til et rom og hver gang MLS-sekvensen med lengde L blir transmittert og mottatt, blir et mål på korrelasjon, eller impulsrespons beregnet. Impulsresponsen kan bli funnet ved å utføre konvolusjon på det mottatte signalet med den tidsreverserte versjonen av det opprinnelige MLS-signalet.
Kun underbåndene hvor eksiteringssignalet eksisterer blir evaluert. I disse underbåndene blir det utført en konvolusjon på det mottatte signalet ved den tidsreverserte versjonen av den opprinnelige MLS-sekvensen for å oppnå en impulsrespons for hver av de gitte underbåndene. Prosessen med å utføre konvolusjon av mottatt signal med den tidsreverserte versjonen av det korresponderte utsendte signalet blir kalt matchet filtrering. Den matchede filtreringen prøver å maksimere utgangssignalets signal-til-støy forhold (SNR) mellom det filtrerte deterministiske signalet i en stokkastisk additiv støy. Dersom utgangen til filteret blir normalisert til å variere mellom 0 og 1, så vil 1 indikere at det er en høy sannsynlighet for at signalet ble transmittert, og 0 indikerer en lav sannsynlighet for at signalet ble transmittert. Utgangen til det matchede filteret blir også referert til som en korrelasjon mellom mottatt og transmittert signal.
Ettersom det eksiterte signalnivået er basert på gjennomsnittsbakgrunnsstøynivået i rommet, er det en risiko for at ikke det detekteres en korrelasjon i tilstedeværelsen av høyenergiforstyrrelser i underbåndene som brukes. For å gjøre deteksjonssystemet mer robust, blir teknikker med å ta gjennomsnittet brukt. I stedet for diskret verifisering av en forbindelse hver gang det deterministiske signalet blir utsendt, blir hver oddetallsmåling lagt til et gjennomsnitt for oddetallsmålinger, mens hver partallsmåling blir lagt til et gjennomsnitt for partallsmålinger. Resultatet er to tidsgjennomsnittelige impulsresponsmålinger for hvert av de evaluerte underbåndene. Det å ta tidsgjennomsnittet av impulsresponsmålinger forbedrer i stor grad signal-til-støy forholdet (SNR), og reduserer følgelig feildetekteringer.
Et annet støyproblem kan oppstå når bakgrunnsstøyen er periodisk. Dersom periodisiteten til støysignalet matcher periodisiteten til testsignalet, kan målingen av korrelasjonen av to etterfølgende målinger opptre som like, selv om ikke testsignalet faktisk blir sendt på høyttaleren. Dersom kun en måling av korrelasjonen mellom to målinger blir brukt for å bestemme en forbindelse mellom høyttaleren og mikrofonen, kan en ukorrekt verifisering opptre. Derfor, for å maksimere sannsynligheten for korrekt impulsresponsmåling, blir kjennskap om impulsresponsegenskapene brukt for å verifisere at målingene er faktiske impulsresponser. Som det ses fra fig. 4, har en typisk romimpulsrespons initielt lav energi Ti, på grunn av forsinkelsen mellom høyttaleren og mikrofonen (og andre forsinkelser i systemet), etterfulgt av en sterk topp (maksimum) T2 som indikerer den direkte lyden mellom høyttaleren og mikrofonen, hvoretter amplituden avtar logaritmisk i området Ts på grunn av gjenlyden i rommet. Ved å analysere målingene og beregne visse karakteristiske verdier (posisjonen T4 til den sterkeste toppen T2, forskjellen i amplitude A mellom den sterkeste toppen T2 og gjennomsnittsarealet T3, etc), kan det bestemmes om målingen ligner en impulsresponsmåling. Dersom målingen mangler impulsresponsegenskaper, bør målingen fra dette underbåndet bli forkastet.
Videre, for å kunne maksimere sannsynligheten for korrekt impulsresponsmåling, blir målingene fra hver av de evaluerte underbåndene vektet med den inverse av mikrofonenergien før den blir lagt til gjennomsnittet. Med andre ord, dersom sterk mikxofonenergi blir detektert i noen av de evaluerte underbåndene, kan impulsresponsmålinger i disse underbåndene bli ødelagt og derfor vektet ned. Den energivektede impulsresponsmålingen blir deretter sammenlignet ved å korrelere to tidsgjennomsnittelige impulsresponser fra hvert underhånd, ved å vekte toppdelene T2 til impulsresponsen sterkere. Den sterke toppen T2 bærer signifikant mer energi, og er mindre sannsynlig til å variere sammenlignet med de lavere energidelene T3 i impulsresponsen. Korrelasjonsresultatet av alle evaluerte underbånd blir så lagt sammen, og normalisert med hensyn til energien til impulsresponsene. Dersom de målte variablene er nær til én, indikerer det at de to impulsmålingene er like, som igjen indikerer at det er en sterk korrelasjon mellom utsendt og mottatt signal. Prosedyren kan selvfølgelig også bli brukt med flere enn to tidssnittede impulsresponsmålinger.
F.eks. når en bruker fire tidsgjennomsnittede impulsresponsmålinger (TA|, TA2, TA3 og TA4), blir korrelasjonsmålinger så utført på alle de seks mulige kombinasjonene av målinger (TA1TA2, TAi ■ TA3, TAi • TA4, TA2 • TA3, etc), og korrelasjonsmålingene med lavest verdi blir valgt. Dersom denne målingsvariabelen er lik til én, indikerer det at impulsmålingene er like, som igjen indikerer at det er en stérk korrelasjon mellom utsendt og mottatt signal.
Nummer fire blir brukt for illustrative formål, og det er opplagt for en person på fagområdet at et hvilket som helst antall tidsgjennomsnittede målinger kan bli brukt.
Metoden beskrevet over kan bli prosessert i underbånd eller fulle bånd, men bruken av underbånd reduserer i stor grad beregningskompleksiteten.
Denne metoden har fordelen med at den aktivt detekterer sikkerhetsproblem-tilstanden og sørger for at sensitiv lyd og video aldri blir sendt uten at menneskene i rommet er klar over at dette skjer.
Videre detekterer systemet sikkerhetsproblem uten unødig å forstyrre konferanserommet med irriterende lyder.

Claims (18)

1. Metode for å forhindre uautorisert monitorering av et lokalt konferanserom (1) hvor et lokalt konferansesystem (2) er lokalisert, karakterisert vedi. å generere et deterministisk lydsignal (300), og laste det deterministiske lydsignalet på en første høyttaler (5) forbundet til, eller integrert i konferansesystemet (2), ii. å detektere det deterministiske signalet (600) ved å analysere et mikrofonsignal fanget opp av en mikrofon (4) forbundet til, eller integrert i konferansesystemet (2), iii. å overføre konferansesystemet (2) til en sikkerhetsmodus (1100), dersom det deterministiske signalet ikke blir detektert.
2. Metode i henhold til krav 1, karakterisert ved at nevnte genererte signal (300) er et lydsignal, uhørbart til det menneskelige hørselssystemet.
3. Metode i henhold til krav 1 eller 2, karakterisert vedii a å øke volumnivået (900) til nevnte deterministiske signal (300) og repetere trinn i og ii dersom deteksjonen feiler (800), ii b å fortsette trinn iii dersom nevnte deterministiske signal (300) ikke har blitt detektert (700) innenfor en forhåndsdefinert tidsperiode eller etter at en volumterskelverdi har blitt nådd (1000).
4. Metode i henhold til et av de foregående kravene, karakterisert ved at trinnet med å overføre konferansesystemet (2) til en sikkerhetsmodus videre innbefatter å blokkere og/eller terminere alle samtaler til og fra konferansesystemet (2), eller blokkere og/eller terminere lydtransmisjoner.
5. Metode i henhold til et av de foregående kravene, karakterisert ved at trinnet med overføring av konferansesystemet (2) til en sikkerhetsmodus (1100) videre innbefatter å laste et alarmsignal på en andre høyttaler forbundet til, eller integrert i en kodek (10) i konferansesystemet (2).
6. Metode i henhold til et av kravene 2-5, karakterisert ved at det deterministiske lydsignalet blir generert av iv. å splitte det hørbare frekvensbåndet fra mikrofonen (4) inn i flere underbånd, v. å bestemme konferanserommets (1) maskeringsterskelverdi for hvert underbånd, vi. å velge de mest passende frekvensene for maskering av nevnte deterministiske signal i bakgrunnsstøyen til konferanserommet (1), vii. å konvertere nevnte passende frekvensbånd til et bredbåndssignal, og legge til nevnte bredbåndssignal til nevnte deterministiske lydsignal.
7. Metode i henhold til et av de foregående kravene, karakterisert ved at det deterministiske lydsignalet er et maksimums lengdesekvens (MLS) signal.
8. Metode i henhold til et av de foregående kravene, karakterisert ved at det deterministiske signalet blir detektert ved viii. å utføre konvolusjon av det mottatte signalet med en tidsreversert versjon av det opprinnelige utsendte signalet for å tilegne en impulsresponsmåling, ix. å legge til hver oddetallsmåling til et gjennomsnitt av oddetallsmålinger, og legge til hver partallsmåling til et gjennomsnitt av paTtallsmålinger, x. å korrelere to tidsgjennomsnittede impulsresponser, å vekte maksimumsdelene av impulsresponsene sterkere, xi. å verifisere deteksjonen dersom utgangen fra nevnte korrelasjon overstiger et sett terskelverdier.
9. Metode i henhold til et av kravene 1-7, karakterisert vedviii. å dele det mottatte signalet inn i underbånd, ix. å utføre en konvolusjon av det mottatte signalet med en tidsreversert versjon av det opprinnelig utsendte signalet for å oppnå en impulsresponsmåling for hvert underbånd som inneholder det utsendte signalet, x. å måle mikrofonenergien i hvert underbånd som inneholder det utsendte signalet, xi. å legge til hver oddetallsmåling til et gjennomsnitt av oddetallsmålinger, og legge til hver partallsraåling til et gjennomsnitt av partallsmålinger, for hvert underbånd som inneholder det utsendte signalet, å vekte impulsresponsmålingene med den inverse av mikrofonenergien før de blir lagt til gjennomsnittet, xii. å korrelere to tidsgjennomsnittede impulsresponser for hvert underbånd som inneholder det utsendte signalet, å vekte maksimumsdelene av impulsresponsen sterkere, xiii. å legge til korrelasjonsresultatet av alle vurderte underbånd, og normalisere med hensyn til energien til impulsresponsene, xiv. å verifisere en deteksjon dersom nevnte normaliserte korrelasjonsresultat overstiger en satt terskelverdi.
10. Et sikkerhetssystem for å hindre uautorisert monitorering av et lokalt konferanserom (1) hvor et lokalt konferansesystem (2) er lokalisert, hvor konferansesystemet (2) omfatter i det minste en kodek (10) for å kode og dekode i det minste lydinformasjon, en mikrofon (4) og en høyttaler (5), karakterisert ved at konferansesystemet videre omfatter en signalgenerator konfigurert til å generere et deterministisk signal, og laste nevnte deterministiske signal på en første høyttaler (5) forbundet til, eller integrert i konferansesystemet (2), en signaldeteksjonsinnretning konfigurert til å detektere nevnte deterministiske signal ved å analysere et lydsignal plukket opp av mikrofonen (4) forbundet til, eller integrert i konferansesystemet (2), en kontrollenhet konfigurert til å sette konferansesystemet (2) over i en sikkerhetsmodus, dersom nevnte deterministiske signal ikke blir detektert i nevnte signaldeteksjonsinnretning.
11. System i henhold til krav 10, karakterisert ved at nevnte signalgenerator videre er konfigurert til å generere et lydsignal som er uhørbart for det menneskelige hørselssystemet.
12. System i henhold til krav 10 eller 11, karakterisert ved at nevnte signalgenerator videre er konfigurert til å øke volumnivået av nevnte deterministiske signal og laste på nytt nevnte deterministiske signal på den første høyttaleren (5), dersom nevnte signaldeteksjonsinnretning ikke er i stand til å detektere nevnte deterministiske signal, og at nevnte kontrollenhet er konfigurert til å sette videokonferansesystemet (2) over i en sikkerhetsmodus, dersom nevnte sikkerhetssignal ikke har blitt detektert innenfor en forhåndsdefinert tidsperiode eller etter at en volumterskelverdi har blitt nådd.
13. System i henhold til et av kravene 10-12, karakterisert ved at nevnte sikkerhetssystem er konfigurert for å blokkere og/eller terminere alle samtaler til og fra videokonferansesystemet (2) når videokonferansesystemet blir satt over i en sikkerhetsmodus.
14. System i henhold til et av kravene 10-13, karakterisert ved at nevnte kontrollenhet videre er konfigurert til å laste et alarmsignal på en andre høyttaler forbundet til dette, eller integrert i videokonferansesystemets kodek (10) når videokonferansesystemet (2) blir satt over i en sikkerhetsmodus.
15. System i henhold til et av kravene 10-14, karakterisert ved at nevnte signalgenerator videre er konfigurert til å: splitte det hørbare frekvensbåndet fra lydinnfangingsinnretningen (4) inn i flere, underbånd, bestemme konferansebåndets (1) maskeringsterskelverdi for hvert underbånd, velge de mest passende frekvensene for å maskere nevnte deterministiske signal i bakgrunnsstøyen til konferanserommet (1), konvertere nevnte passende frekvensbånd til et bredbåndssignal, og legge til nevnte bredbåndssignal til nevnte deterministiske lydsignal.
16. Sy stem i henhold til et av kravene 10-15, karakterisert ved at nevnte deterministiske signal er en maksimumslengdesekvens (MLS) signal.
17. System i henhold til et av kravene 10-16, karakterisert ved at signaldeteksjonsirmretningen videre er konfigurert til å: utføre en konvolusjon av det mottatte signalet med en tidsreversert versjon av det opprinnelige utsendte signalet, legge til hver oddetallsmåling til gjennomsnittet av oddetallsmålinger, og legge til hver partallsmåling til et gjennomsnitt av partallsmålinger, korrelere de to tidsgjennomsnittede impulsresponsene, å vekte maksimumsdelene av impulsresponsene sterkere, verifisere en deteksjon dersom utgangen fra nevnte konvolusjon overstiger en satt terskelverdi.
18. System i henhold til et av kravene 10-16, karakterisert ved at signaldeteksjonsinnretningen videre er konfigurert til: å dele det mottatte signalet inn i underbånd, å utføre en konvolusjon av det mottatte signalet med en tidsreversert versjon av det opprinnelig utsendte signalet for å oppnå en impulsresponsmåling for hvert underbånd inneholdende det utsendte signalet, å måle mikrofonenergien i hvert underbånd som inneholder det utsendte signalet, å legge til hver oddetallsmåling til et gjennomsnitt av oddetallsmålinger, og legge til hver partallsmåling til et gjennomsnitt av partallsmålinger, for hvert underbånd som inneholder det utsendte signalet, å vekte impulsresponsmålingene med den inverse av mikrofonenergien før de blir lagt til gjennomsnittet, å korrelere de to tidsgjennomsnittede impulsresponsene for hvert underbånd som inneholder det utsendte signalet, å vekte maksimumsdelene av impulsresponsen sterkere, å legge til korrelasjonsresultatet av alle evaluerte underbånd, og normalisere med hensyn til energien til impulsresponsene, å verifisere en deteksjon dersom nevnte normaliserte korrelasjonsresultat overstiger en satt terskelverdi.
NO20061463A 2006-03-31 2006-03-31 System and method for enhanced teleconferencing security NO324450B1 (no)

Priority Applications (4)

Application Number Priority Date Filing Date Title
NO20061463A NO324450B1 (no) 2006-03-31 2006-03-31 System and method for enhanced teleconferencing security
EP07747579.6A EP2005705B1 (en) 2006-03-31 2007-03-28 System and method for enhanced teleconferencing security
PCT/NO2007/000118 WO2007114708A2 (en) 2006-03-31 2007-03-28 System and method for enhanced teleconferencing security
US11/729,935 US8212854B2 (en) 2006-03-31 2007-03-30 System and method for enhanced teleconferencing security

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20061463A NO324450B1 (no) 2006-03-31 2006-03-31 System and method for enhanced teleconferencing security

Publications (2)

Publication Number Publication Date
NO20061463L NO20061463L (no) 2007-10-01
NO324450B1 true NO324450B1 (no) 2007-10-22

Family

ID=38564093

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20061463A NO324450B1 (no) 2006-03-31 2006-03-31 System and method for enhanced teleconferencing security

Country Status (4)

Country Link
US (1) US8212854B2 (no)
EP (1) EP2005705B1 (no)
NO (1) NO324450B1 (no)
WO (1) WO2007114708A2 (no)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8243904B2 (en) * 2009-12-04 2012-08-14 International Business Machines Corporation Methods to improve security of conference calls by observation of attendees' order and time of joining the call
US20110183629A1 (en) * 2010-01-26 2011-07-28 Broadcom Corporation Mobile Communication Devices Having Adaptable Features and Methods for Implementation
EP2563027A1 (de) * 2011-08-22 2013-02-27 Siemens AG Österreich Verfahren zum Schützen von Dateninhalten
US9319221B1 (en) * 2013-05-20 2016-04-19 Amazon Technologies, Inc. Controlling access based on recognition of a user
US9591148B2 (en) 2015-04-07 2017-03-07 Cisco Technology, Inc. Detecting proximity of devices based on transmission of inaudible sound signatures in the speech band
WO2016183662A1 (en) 2015-05-15 2016-11-24 Nureva Inc. System and method for embedding additional information in a sound mask noise signal
US9554091B1 (en) 2015-12-15 2017-01-24 Cisco Technology, Inc. Identifying conference participants and active talkers at a video conference endpoint using user devices
US9837064B1 (en) 2016-07-08 2017-12-05 Cisco Technology, Inc. Generating spectrally shaped sound signal based on sensitivity of human hearing and background noise level
US10003377B1 (en) 2016-12-19 2018-06-19 Cisco Technology, Inc. Spread spectrum acoustic communication techniques
JP6720132B2 (ja) * 2017-12-27 2020-07-08 任天堂株式会社 情報処理システム、情報処理方法、情報処理装置、および、情報処理プログラム
US10404319B1 (en) 2018-07-09 2019-09-03 Cisco Technology, Inc. Fast correlation of prometheus orthonormal sets (PONS) for communications
US10396846B1 (en) 2018-10-12 2019-08-27 Cisco Technology, Inc. Adaptive decoding of spread spectrum signals using multiple correlator peaks
US10601459B1 (en) 2018-11-02 2020-03-24 Cisco Technology, Inc. Efficient handling of clock offset in spread spectrum decoders
US11336863B2 (en) * 2019-11-04 2022-05-17 Meta Platforms, Inc. Systems, methods, and devices for managing a call on a communication system with an external display device
US11019219B1 (en) * 2019-11-25 2021-05-25 Google Llc Detecting and flagging acoustic problems in video conferencing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745161A (en) * 1993-08-30 1998-04-28 Canon Kabushiki Kaisha Video conference system
JPH07170505A (ja) 1993-12-13 1995-07-04 Sony Corp 画像通信装置
JP3258474B2 (ja) 1993-12-14 2002-02-18 株式会社リコー 遠隔会議通信端末の制御方法
JPH08149430A (ja) 1994-11-17 1996-06-07 Canon Inc 通信端末装置
JP3310485B2 (ja) 1994-12-27 2002-08-05 シャープ株式会社 画像入力装置
JPH10171886A (ja) 1996-12-13 1998-06-26 Matsushita Electric Ind Co Ltd 電子会議装置
JPH11146372A (ja) 1997-11-06 1999-05-28 Nec Corp 多地点テレビ会議システムおよび多地点テレビ会議制御プログラムを記録した記録媒体
JPH1169330A (ja) * 1997-08-19 1999-03-09 Fujitsu Ltd 留守録機能を備えた画像通信装置
US5959662A (en) * 1998-05-04 1999-09-28 Siemens Information And Communication Networks, Inc. System and method for enhanced video conferencing security
US7085243B2 (en) * 2000-03-01 2006-08-01 Polycom Israel Ltd. System and method for providing reservationless conferencing
US7525928B2 (en) 2003-06-16 2009-04-28 Microsoft Corporation System and process for discovery of network-connected devices at remote sites using audio-based discovery techniques

Also Published As

Publication number Publication date
US20070263085A1 (en) 2007-11-15
EP2005705A2 (en) 2008-12-24
US8212854B2 (en) 2012-07-03
EP2005705B1 (en) 2021-05-05
WO2007114708A2 (en) 2007-10-11
WO2007114708A3 (en) 2008-02-14
NO20061463L (no) 2007-10-01

Similar Documents

Publication Publication Date Title
NO324450B1 (no) System and method for enhanced teleconferencing security
CA1230666A (en) Acoustic direction identification system
US7881460B2 (en) Configuration of echo cancellation
CN1741686B (zh) 拾音器装置和回声消除处理方法
US9451360B2 (en) Muting a sound source with an array of microphones
US20200184991A1 (en) Sound class identification using a neural network
CN103561367B (zh) 通过麦克风阵列对不期望噪音进行自动麦克风静音的系统和方法
Kondo et al. Effects of self-motion on auditory scene analysis
US10978085B2 (en) Doppler microphone processing for conference calls
JP2004343262A (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
US20070147625A1 (en) System and method of detecting speech intelligibility of audio announcement systems in noisy and reverberant spaces
JP2006251676A (ja) 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
EP2973559B1 (en) Audio transmission channel quality assessment
US8098833B2 (en) System and method for dynamic modification of speech intelligibility scoring
JP4411959B2 (ja) 音声集音・映像撮像装置
WO2022118072A1 (en) Pervasive acoustic mapping
US9225937B2 (en) Ultrasound pairing signal control in a teleconferencing system
Rennies et al. Measurement and prediction of binaural-temporal integration of speech reflections
JP4708960B2 (ja) 情報伝達システム及び音声可視化装置
JP4225129B2 (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
US20230232174A1 (en) Non-intrusive transducer health detection
Begault et al. Early reflection thresholds for virtual sound sources
KOCIŃSKI et al. Logatome and sentence recognition related to acoustic parameters of enclosures
Yost et al. Loudness of an auditory scene composed of multiple talkers
US20240107252A1 (en) Insertion of forced gaps for pervasive listening

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees