NO326770B1 - Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon - Google Patents
Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon Download PDFInfo
- Publication number
- NO326770B1 NO326770B1 NO20062418A NO20062418A NO326770B1 NO 326770 B1 NO326770 B1 NO 326770B1 NO 20062418 A NO20062418 A NO 20062418A NO 20062418 A NO20062418 A NO 20062418A NO 326770 B1 NO326770 B1 NO 326770B1
- Authority
- NO
- Norway
- Prior art keywords
- participants
- conference
- keywords
- name
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000002131 composite material Substances 0.000 claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 239000000945 filler Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Spesielt fremviser den foreliggende oppfinnelse en fremgangsmåte og et system for konferanser inkludert trinnene å sammenkoble i det minste to steder til en konferanse og motta i det minste to videosignaler og to audiosignaler fra de sammenkoblede stedene, påfølgende analysere audiodata fra i det minste to steder sammenkoblet i konferansen ved å konvertere i det minste en del av audiodata til akustiske trekk og ekstrahere nøkkelord og taleparametere fra de akustiske trekk ved bruk av talegjenkjenning, og sammenligne nevnte ekstraherte nøkkelord med forhåndsdefinerte ord for så å bestemme om nevnte ekstraherte forhåndsdefinerte nøkkelord skal betraktes som et rop om oppmerksomhet basert på nevnte taleparameter, og videre definere en bildelayout basert på nevnte avgjørelse, og prosessere de mottatte videosignaler for å tilveiebringe et videosignal i henhold til den definerte bildelayout, og sende komposittvideosignaler til i det minste én av de i det minste to forbundne stedene.
Description
OPPFINNELSENS OMRÅDE
Oppfinnelsen er relatert til styring av bildeutlegg i et
flerpartsvideokonferanseanrop, der fokus er basert på stemmeanalyse.
BAKGRUNN
Videokonferansesystemer muliggjør samtidig utveksling av audio-, video- og datainformasjon blant flere konferansesteder. Systemer kjent som multipoint control units (MCUer) utfører svitsjefunksjoner for å muliggjøre at flere steder kan kommunisere sammen i en konferanse. MCUen kobler stedene sammen ved å motta rammer av konferansesignaler fra stedene, og prosesserer de mottatte signaler og videresender de prosesserte signalene til passende steder. Konferansesignalet inkluderer audio-, video-, data- og styringsinformasjon. I en linjesvitsjet konferanse vil videosignalene fra et av konferansestedene, typisk den som taler høyest, blir sendt til hver av deltakerne. I en "continuous presence"-konferanse blir videosignaler fra to eller flere steder rommelig mikset for å danne et komposittvideosignal for å bli sett av konferansedeltakerne. Når de forskjellige videostrømmer har blitt mikset sammen til en enkelt videostrøm, vil den komponerte videostrømmen bli sendt til de forskjellige deltakere på videokonferansen, der hver sendte videostrøm fordelaktig følger et gitt skjema som indikerer hvem som vil motta hvilke videostrøm. Generelt vil de forskjellige brukere foretrekke å motta forskjellige videostrømmer. "Continuous presence" eller komposittbildet er et kombinert bilde som kan inkludere levende videostrømmer, stillbilder, menyer eller andre synlige bilder fra deltakerkonferansen.
I et visuelt kommunikasjonssystem er det ofte ønskelig å gjenskape egenskapene for et ansikt-til-ansikt (face-to-face)-møte så nær som mulig. En fordel med et ansikt-til-ansikt-møte er at deltakerne kan rette sin oppmerksomhet mot personen han taler til for å se reaksjoner og ansiktsuttrykt klart, og tilpasse seg sitt uttrykk tilsvarende. I visuelt kommunikasjonsmøte med flere deltakere, er det muligheten for slik fokus for oppmerksomhet ofte begrenset, for eksempel som følge av skjermplass eller begrenset bildeoppløsning når en ser flere deltakere, eller fordi antallet deltakere er høyere enn antallet deltakere som kan vises samtidig. Dette kan redusere mengden av visuell tilbakemelding som en taler får fra de tenkte mottakere for en melding.
De fleste eksisterende flerparts visuelle kommunikasjonssystemer har muligheten til å tilegne mer skjermplass til bestemte deltakere ved å bruke forskjellige skjermutlegg. To vanlige muligheter er å vise bilde av en deltaker om gangen på hele skjermen (stemmesvitsjet utlegg) (Voice switched layout), eller å vise et større bilde av en deltaker og mindre bilder av de andre deltakerne på den samme skjermen (N+l utlegg). Det finnes mange varianter av disse to grunnleggende valgene og noen systemer kan også bruke flere skjermer for å omgå mangelen på fysisk plass på en enkelt skjerm. Fokus for oppmerksomheten kan derfor bli realisert ved å velge et passende skjermutlegg der én deltaker er fremhevet og metoden for hvordan en deltaker blir gitt oppmerksomhetsfokus kan variere.
En alminnelig fremgangsmåte er å måle stemmeaktiviteten for å bestemme den nåværende aktive taler i konferansen, og endre hovedbildet basert på dette. Mange systemer vil så vise et bilde av den aktive taler til alle de ikke-aktive talere, mens den aktive taler vil motta et bilde av den foregående aktive taler. Denne fremgangsmåten kan fungere om det er en dialog mellom to personer, men den slår feil om nåværende taler adresserer én deltaker forskjellig fra foregående taler. Det kan hende at nåværende taler i dette tilfellet ikke vil motta tilstrekkelige synlighet hint fra den adresserte deltaker inntil han eller hun gir en verbal respons. Fremgangsmåten vil også feile om det er to eller flere samtidige dialoger i en konferanse med overlappende talere.
Noen systemer lar hver deltaker styre sitt fokus for oppmerksomheten ved bruk av en inngangsanordning som en mus eller fjernkontroll. Dette har færre restriksjoner sammenlignet med en stemmeaktivitetsmetode, men kan lett bli distraherende for brukeren og avbryte den naturlige flyten av samtaler i et ansikt-til-ansikt-møte.
Andre systemer tillater at en administrator som er ekstern for konferansen styrer bildeutlegget. Dette vil imidlertid være avhengig av mulighetene for administratoren og er arbeidskrevende. Det kan også være at dette ikke er ønskelig om tema for samtalen er konfidensiell eller privat.
US 2005/0062844 beskriver et videotelekonferansesystem som kombinerer et antall av trekk for å fremme en realistisk "samme rom"-opplevelse for møtedeltakerne. Disse trekkene inkluderer en autoregissør (autodirector) for automatisk å velge, fra ett eller flere videokameraer som mater og andre videoinnganger, et videosignal for sending til fjernvideokonferansesteder. Denne autoregissør analyserer konferanselyd, og i henhold til én utførelsesform vil autoregissøren favorisere et bilde av en deltaker når hans eller hennes navn blir detektert på lyden. Men dette vil medføre at bildet svitsjer hver gang navnet på en deltaker blir nevnt. Det er ganske vanlig at navnet på deltakere blir brakt opp i en samtale uten i realiteten å adressere dem for en respons. Konstant svitsjing mellom deltakere kan både være irriterende for deltakerne og gi gal tilbakemelding til taleren.
Derfor er det et formål med foreliggende oppfinnelse å overkomme disse problemene som beskrevet ovenfor.
SAMMENFATNING AV OPPFINNELSEN
Det er et formål med foreliggende oppfinnelse å skaffe tilveie et system og en fremgangsmåte som eliminerer ulempene beskrevet ovenfor. Trekkene definert i de selvstendige kravene vedlagt karakteriserer dette systemet og denne fremgangsmåten.
Spesielt presenterer den foreliggende oppfinnelsen en fremgangsmåte for konferanser, inkludert trinnene å forbinde i det minste to steder til en konferanse, motta i det minste to videosignaler og to audiosignaler fra de sammenkoblede stedene, og deretter analysere audiodata fra i det minste to steder forbundet i en konferanse ved å konvertere i det minste en del av audiodataen til akustiske trekk og ekstrahere nøkkelord og taleparametre fra de akustiske trekkene ved bruk av talegjenkjenning, og sammenligne nevnte ekstraherte nøkkelord til forhåndsdefinerte ord, og så bestemme om nevnte ekstraherte nøkkelord skal betraktes som et rop om oppmerksomhet basert på nevnte taleparametre, og videre, definere et bildeutlegg basert på nevnte avgjørelse, og prosessere de mottatte videosignaler for å fremskaffe et videosignal i henhold til det definerte bildeutlegget, og sende de prosesserte videosignalene til i det minste én av de i det minste to sammenkoblede stedene.
Videre fremviser den foreliggende oppfinnelsen et system for konferanser omfattende: En grensesnittenhet for å motta i det minste audio-, og videosignaler fra i det minste to steder som er forbundet i en konferanse.
En talegjenkjennelsesenhet for å analysere audiodata fra i det minste to steder forbundet i konferansen ved å konvertere i det minste en del av audiodata til akustiske trekk og ekstrahere nøkkelord og taleparametre fra akustiske trekk ved bruk av talegjenkjennelse.
En prosesseringsenhet konfigurert for å sammenligne nevnte ekstraherte nøkkelord med forhåndsdefinerte ord og bestemme om nevnte ekstraherte nøkkelord skal betraktes som et rop om oppmerksomhet basert på nevnte taleparametre.
En styringsprosessor for dynamisk å definere et bildeutlegg basert på nevnte avgjørelse og en videoprosessor for å prosessere de mottatte videosignaler for å fremskaffe et komposittvideosignal i henhold til det definerte bildeutlegg.
KORT BESKRIVELSE AV TEGNINGENE
Det foregående og andre formål, trekk og fordeler ved oppfinnelsen vil bli tydelig fra den etterfølgende, mer detaljerte beskrivelsen for foretrukne utførelsesformer for oppfinnelsen som illustrert i de vedlagte tegninger, der identiske referansetegn refererer til samme deler gjennom de forskjellige bilder. Tegningene er ikke nødvendigvis riktig skalert, men det er i stedet lagt vekt på å illustrere prinsippene ved oppfinnelsen. Fig. 1 er en illustrasjon for videokonferanseendepunkter forbundet til en MCU.
Fig. 2 er et skjematisk bilde av den foreliggende oppfinnelsen.
Fig. 3 illustrerer et tilstandsdiagram for Markov-modellering.
Fig. 4 illustrerer nettverksstrukturer for ordgjenkjenneren
Fig. 5 illustrerer utgangsstrømmen fra ordgjenkjenneren.
Fig. 6 er et skjematisk bilde av ordmodellgeneratoren.
DETALJERT BESKRIVELSE
I det etterfølgende vil foreliggende oppfinnelse bli diskutert ved å beskrive en foretrukket utførelsesform og ved å referere til vedlagte tegninger. Men en fagmann på området vil innse at det finnes andre anvendelser og modifikasjoner innenfor omfanget av oppfinnelsen som definert i de vedlagte selvstendige krav.
Den foreliggende oppfinnelsen bestemmer det ønskede oppmerksomhetsfokus for hver deltaker i en flerpartskonferanse ved å vurdere den tiltenkte mottaker for hver talers ytring, ved bruk av talegjenkjenning på audiosignaler fra hver deltaker for å detektere og gjenkjenne ytringer av navn eller andre deltakere, eller grupper av deltakere. Videre er det et formål med den foreliggende oppfinnelse å skaffe til veie et system og en fremgangsmåte for skille mellom riktige rop om oppmerksomhet og situasjoner der deltakere eller grupper bare blir referert til i en samtale. Fokus for oppmerksomheten blir gjennomført ved å skifte bildeutlegg eller lydmiks presentert til hver enkelt bruker.
Gjennomgående i beskrivelsen vil begrepet "sted" (site) bli brukt for å referere kollektivt til et sted som har en audiovisuell endepunktsterminal og en konferansedeltaker eller -bruker. Med referanse til figur 1 blir det vist en utførelsesform for et typisk videokonferanseoppsett med flere steder (Sl-SN) sammenkoblet gjennom en kommunikasjonskanal (1) og en MCU (2). MCUen kobler stedene sammen ved å motta rammer av konferansesignalet fra stedene, prosessere de mottatte signaler og videresende de prosesserte signaler til passende steder.
Figur 2 er et skjematisk bilde av systemet i henhold til den foreliggende oppfinnelse. Akustiske data fra alle steder (Sl-SN) blir sendt til en talegjenkjenningsmaskin, der den kontinuerlige tale blir analysert. Talegjenkjenningsalgoritmen vil matche strømmen av akustiske data fra hver taler mot ordmodeller for å produsere en strøm av detekterte navn-nøkkelord. I den samme prosessen vil taleaktivitetsinformasjon bli funnet. Hvert navn-nøkkelord angir enten en deltaker eller en gruppe av deltakere. Denne strømmen av navn-nøkkelord vil så gå inn i en sentral talemodell og styringsanordning. Ved bruk av sannsynlighetsmodeller og strømmen av detekterte nøkkelord og annen informasjon, så som taleaktivitet og forbrukt tid, vil talemodellen og styringsanordningen bestemme oppmerksomhetsfokus for hver deltaker. Det bestemte oppmerksomhetsfokus bestemmer lydmiksen og videobildelayouten for hver deltaker.
For å implementere den foreliggende oppfinnelsen kreves en robust og effektiv talegjenkjennelsesmetode for bruk i talegjenkjenningsmaskinen. Talegjenkjenning er i sin enkleste definisjon den automatiserte prosessen av å gjenkjenne uttalte ord, dvs. tale, og så konvertere denne talen til tekst som blir brukt av en ordprosessor eller en annen applikasjon, eller sendt til en kommandotolker (command interpretor) for styringssystemet. Denne gjenkjennelsesprosessen består av å splitte (parsing) digitaliserte audiodata inntil meningsfylte segmenter. Segmentene blir så tilordnet mot en database av kjente fonemer og fonetiske sekvenser blir tilordnet mot et kjent vokabular eller ordbok.
I talegjenkjenning blir ofte skjulte Markov-modeller (hidden Markov models)
(HMMer) brukt. Når et HMM-talegjenkjenningssystem blir bygget, blir hvert ord i gjenkjenningsvokabularet definert som en sekvens av lyder eller et fragment av tale som forestiller uttalelsen av ordet. En Markov-modell for hvert fragment av tale blir opprettet. Markov-modeller for hver av lydene blir så slått sammen for å danne sekvenser av Markov-modeller som viser en akustisk definering av ordet i vokabularet. For eksempel, som vist i figur 3, blir det vist et fonetisk ord 100 for ordet "TETEN" som en sekvens av tre fonetiske Markov-modeller 101-103. En av de fonetiske Markov-modellene representerer det fonetiske elementet "T" (101), som har to transisjonsbuer 101A og 101B. En andre av de fonetiske Markov-modellene representerer det fonetiske elementet "EH", vist som modell 102 som har transisjonsbuene 102A og 102B. Den tredje av de fonetiske Markov-modellene 103 representerer det fonetiske elementet "N" med transisjonsbuene 103A og 103B.
Hver av de tre Markov-modellene vist i fig. 3 har en begynnelsestilstand og en slutt-tilstand. "T"- modellen 101 starter i tilstand 104 og slutter i tilstand 105. "EH"-modellen 102 starter i tilstand 105 og slutter i tilstand 106. "N"-modellen starter i tilstand 106 og slutter i tilstand 107. Selv om det ikke er vist, har hver av modellene faktisk tilstander mellom sine respektive start- og sluttilstander på samme måte som buen 101A blir vist idet den kobler tilstand 104 og 105. Flere buer strekker seg mellom og sammenkobler tilstandene. Ved gjenkjenning blir en ytring sammenlignet med sekvensen av fonetiske Markov-modeller der en starter fra tilstanden lengst til venstre, så som tilstand 104, og prosesserer i henhold til pilene gjennom de mellomliggende tilstander til tilstanden lengst til høyre, så som tilstand 107, der modellen 100 avslutter på en måte som er velkjent innenfor teknikkens stand. Transisjonstiden fra tilstanden lengst til venstre 104 til tilstanden lengst til høyre 107 reflekterer varigheten av ordet. Å ta en overgang fra tilstanden lengst til venstre 104 til tilstanden lengst til høyre 107 blir derfor tiden som blir brukt i "T"-tilstanden, "EH"-tilstanden og "N"-tilstanden resulterer i en konklusjon om at ytringen er ordet "tETEN". Således blir en skjult Markov-modell for et ord omfattet av en sekvens av modeller korresponderende til de forskjellige lyder som blir utført under uttalen av ordet.
For å bygge en Markov-modell, så som beskrevet i fig. 3, vil en uttaleordbok ofte bli brukt for å indikere komponentlydene. Forskjellige ordbøker eksisterer og kan bli brukt. Informasjonskilden til disse ordbøkene er vanligvis en fonetiker. Det finnes også andre måter for å implementere talegjenkjenning, for eksempel ved å bruke nevrale nettverk alene eller i kombinasjon med Markov-modeller som blir brukt med den foreliggende oppfinnelse.
I henhold til en utførelsesform ved den foreliggende oppfinnelse vil kun enkelte ord være av spesiell interesse. Teknikken for å gjenkjenne spesifikke ord i kontinuerlig tale blir referert til som "ordgjenkjenning" (word spotting) eller "nøkkelordgjenkjenning" (keyword spotting). En ordgjenkjennelsesapplikasjon krever vesentlig mindre beregning enn kontinuerlig talegjenkjenning, for eksempel for dikteringsformål, siden ordboken er vesentlig mindre. Når en bruker et ordgjenkjennelsessystem, vil en bruker uttale bestemte nøkkelord inneklemt i en setting og systemet vil detektere tilstedeværelsen av disse nøkkelord. Systemet vil oppdage nøkkelord selv om nøkkelordet er inneklemt i fremmede ord som ikke er en del av systemets liste av gjenkjennbare ord. Når brukeren snakker spontant, vil det være mange grammatiske feil, pauser og innartikuleringer som et kontinuerlig talegjenkjennelsessystem ikke kan være i stand til å håndtere. For disse situasjonene vil et talegjenkjennelsessystem konsentrere seg om å oppdage bestemte nøkkelord og ignorere den fremmede tale. Som vist i fig. 4 blir hvert nøkkelord som skal oppdages modellert av en distinkt HMM, men talebakgrunnen og stillhet blir moderert av henholdsvis et generelt fyllstoff og stillhetsmodeller.
En tilnærming er å modellere hele bakgrunnsmiljøet, inkludert stillheten, sende støy og fremmed tale. Dette kan bli gjort ved å bruke virkelig tale for å skape én eller flere HMMer kalt fyllstoffer eller søppelmodeller (garbage models), som representerer fremmed tale. Når den går forover, vil gjenkjennelsessystemet skape en kontinuerlig strøm av stillhet, nøkkelord og fyllstoff, og tilstedeværelsen av nøkkelord i denne utgangsstrømmen blir betraktet som et tenkt treff (putative hit). Fig. 5 viser en typisk utgangsstrøm for talegjenkjennelsesmaskinen der To angir starten av en ytring.
For at talegjenkjenningsmaskinen skal gjenkjenne navn i en audiostrøm, kreves en ordbokmodell for hver deltaker eller gruppe av deltakere i et format passende for gitte talegjenkjennelsesmaskin. Fig. 6 viser et skjematisk bilde av en talemodellgenerator i henhold til en utførelse ved den foreliggende oppfinnelse. Talemodeller blir generert fra tekstuelle navn på deltakerne ved bruk av navnuttaleanordningen. Navnuttaleanordningen kan generere ordmodeller ved bruk av enten uttaleregler eller en uttaleordbok for vanlige navn. Tilsvarende ordmodeller kan videre bli generert for andre ord av interesse.
Siden hver deltaker kan bli angitt ved flere forskjellige aliaser på sine fulle navn i en konferanse, vil navnuttaleanordningen bli forutgått ved en aliasgenerator som vil generere aliaser for et fullt navn. På samme måte som for uttale, vil aliaser vil kunne bli konstruert enten ved bruk av regler eller en database med vanlige aliaser. Aliaser for "William Gates" kan for eksempel "Bill", "Bill Gates", "Gates", "William", "Will" eller "WG".
Ved å bruke uttaleregler eller ordbøker for alminnelige uttaler vil resultere i et språkavhengig system, og krever en korrekt uttale for at gjenkjennelsesmaskinen skal ha en positiv deteksjon. En annen mulighet er å generere ordmodeller i en øvingssamling. I dette tilfellet vil hver bruker kunne bli gitt navn og/eller aliaser, og bli spurt om å lese navn/aliaser høyt. Basert på brukernes uttale, vil systemet generere ordmodeller for hvert navn/alias. Dette er en velkjent prosess i små språkuavhengige talergjenkjennelsessystemer og kan bli brukt sammen med den foreliggende oppfinnelse.
De tekstuelle navnene for deltakerne kan bli skaffet tilveie ved eksisterende kommunikasjonsprotokollmekanismer i henhold til en utførelsesform ved den foreliggende oppfinnelsen, noe som gjør manuell datainnsetting (entry) av navn unødvendig i de fleste tilfeller. H.323-protokollen og Session Initiation Protocol (SIP) er telekommunikasjonsstandarder for sanntidsmultimediakommunikasjon og konferanse over pakkebaserte nettverk og er allment brukt for videokonferanser i dag. I et lokalt nettverk med flere steder der hvert sted har sin egen unike H.323 ID eller SIP Uniform Resource Identifier (URI). I mange organisasjoner er H.323 IDer og SIP URIer for personlige systemer samme som navnet på systembrukeren ved konvensjon. Derfor vil et personlig system unikt identifisere med en adresse som ser ut omtrent som dette:
navn.etternavn@organisasjon.com
Ved å innhente systemets ID eller URI, vil det tekstuelle navnet vil kunne bli ekstrahert ved filtrering slik at dette er passende for en ordmodellgenerering. Filtreringsprosessen kan for eksempel være å eliminere ikke-alfanumeriske tegn/bokstaver og navn som ikke er lesbare for mennesker (com, net, gov, info, etc).
Hvis de personlige systemene kun er identifiserbare ved et nummer (telefonnummer, ansattnummer, etc.) vil en oppslagstabell kunne bli konstruert der alle ID-numrene blir assosiert med de respektive brukernavn.
For konferanseromsystemer brukt av flere deltakere samtidig, vil navnene på deltakerne kunne bli samlet fra styringssystemet hvis enheten har blitt bestilt som en del av en bestillingstjeneste. I tillegg til deltakernavnene som blir automatisk innhentet, vil systemet kunne blir forhåndskonfigurert med et sett av navn som antyder gruppen av deltakere, for eksempel "Oslo", "Houston", "TANDBERG", "Styret", "menneskelige ressurser", "alle", "menneske", "gutter", etc.
I en hvilken som helst gitt konferanse er det mulig at to eller flere deltakere har det samme fulle navn eller det samme alias. En kan likevel anta at deltakerne i en konferanse velger å bruke aliaser som har en unik assosiasjon til en person. For å gjøre entydig aliaser som ikke har unike assosiasjoner til en person, kan systemet i henhold til oppfinnelsen opprettholde en statistisk modell for assosiasjonen mellom alias og deltaker. Modellen er konstruert før konferansen starter, og er basert på nevnte antatte unikhet og er oppdatert under konferansen med data fra dialoganalysen.
Som diskutert ovenfor er ikke alle ytringer av navn rop om oppmerksomhet. Under en konferanse med flere deltakere, vil referanser ofte bli gjort til et flertall personer, for eksempel referere til tidligere arbeid på en oppgave, rapporter, tilegne oppgaver, osv. For å redusere antallet falske positiver, anvender oppfinnelsen en dialogmodell som gir sannsynligheten for at et navne-nøkkelord er et ordentlig rop om oppmerksomhet. Modellen er basert på tilstedeværelse av navn-nøkkelord i relasjon til ytringen og dialog. I tillegg til den forbedrede gjenkjennelsen av navn-nøkkelord, vil dialoganalyse kunne skaffe til veie andre egenskaper for dialogen, slik som fragmentering inntil underdialoger.
For å kunne differensiere mellom et riktig rop om oppmerksomhet og referanser, vil en dialogmodell i henhold til den foreliggende oppfinnelse derfor betrakte forskjellige tale- og dialogparamtere. Viktige parametere inkluderer plassering av nøkkelord innenfor en ytring, volumnivå for nøkkelordet, pauser/stillhet før og/eller etter et nøkkelord, osv.
Plasseringen av navne-nøkkelordet innenfor ytringen er en viktig parameter for å bestemme sannsynligheten for positiv deteksjon. Det er ganske vanlig i en setting med mer enn 2 personer å starte en ytring ved å antyde navnet på personen du ønsker å adressere, for eksempel "John, jeg har sett på.." eller "Så, Jenny. Jeg trenger en rapport på.." Dette er selvfølgelig fordi du ønsker å sikre at du har full oppmerksomhet fra personen du adresserer. Derfor vil rop om oppmerksomhet sannsynligvis oppstå tidlig i en ytring. Forekomsten av navne-nøkkelord tidlig i en ytring øker således sannsynligheten for et navneanrop.
Videre er et navneanrop ofte etterfulgt av et kort avbrudd eller pause i ytringen. Når vi ser på de to eksemplene over der en taler utvilsomt søker Johns og Jennys oppmerksomhet,
"John, jeg har sett på.." og
"Så, Jenny. Jeg trenger en rapport på.."
og sammenligner dem med en situasjon hvor taleren kun refererer til John og Jenny,
"I går så John og jeg på.." og
"Jeg fortalte Jenny at jeg trengte.."
vi ser at taleren tar en pause kort etter navnene i de to første eksemplene og at ikke noen slik pause er til stede i de to siste eksemplene. Avbrudd og pauser, før, etter, eller både før og etter en talers ytring øker derfor sannsynligheten for at det er et navneopprop. På samme måte vil fravær av slike avbrudd og pauser senke sannsynligheten for at det er et navneanrop.
Dialogmodellen kan også vurdere bestemte ord som "trigge"- nøkkelord. Detekterte triggernøkkelord foran eller etter navnenøkkelord øker sannsynligheten for et navneanorop. Slike ord kan for eksempel være "OK", "Vel", "Nå", "Så", "Uuhhm", "her", etc.
På en tilsvarende måte senker bestemte triggernøkkelord detektert før et navnenøkkelord skal sannsynligheten for et navneanrop. Slike nøkkelord kan for eksempel være "dette er", "det er", "hvor", etc.
En annen mulighet er å vurdere prosodien for ytringen. I det minste i noen språk vil navneanrop ha en større sannsynlighet for å ha en bestemt prosodi (uttale). Når en taler søker oppmerksomhet fra en annen deltaker, er det sannsynlig at navnet blir ytret med et noe høyere volum. Taleren kan også vektlegge en første stavelse for navnet eller søke eller senke tonen og/eller hastigheten for den siste stavelsen avhengig av henholdsvis positiv eller negativ tilbakekobling.
Dette er bare noen eksempler på tale og dialogparametere betraktet av dialogmodellen. Tale- og dialogparametere blir samlet og evaluert i dialogmodellen der hver parameter bidrar positivt eller negativt når en bestemmer om navnenøkkelord er et rop om oppmerksomhet eller ikke. For å optimalisere parameterne og bygge et fullstendig sett av parametere og regler, vil vesentlige mengder av virkelige dialogopptak måtte bli analysert.
Systemet omfatter videre en dialogstyringsenhet. Dialogstyringsenheten kontrollerer fokus for oppmerksomheten hver deltaker er presentert med. For eksempel om et detektert navnenøkkelord X blir betraktet som et rop om oppmerksomhet av dialogmodellen, vil dialogmodellen sende et styringssignal til dialogstyringsanordningen, informere dialogstyringsanordningen om at et navneanrop til bruker X ved stedet Sl har blitt detektert i audiosignalet fra stedet S2. Dialogstyringsenheten vi så mikse videosignal for hver bruker på en slik måte at i det minste stedet S2 mottar et bildeutlegg som fokuserer på stedet Sl. Fokus på stedet Sl betyr at enten all tilgjengelig skjermplass blir tilegnet Sl, eller dersom et komposittutlegg blir brukt, vil en større del av skjermen blir tilegnet Sl sammenlignet med de andre deltakerne.
Dialogstyringsanordningen vil videre fordelaktig omfatte et sett av svitsj ekriterier for å unngå forstyrrende svitsj eeffekter, så som rask fokusendringer forårsaket av stadige navneanrop, avbrudd, feilaktige ytringer av navn, osv.
Steder med flere deltakere plassert i samme rom kan forårsake uønskede deteksjoner og derav svitsjing. Dersom én av deltakerne ganske kort avbryter taleren ved å ytre et navn eller nevne et navn i bakgrunnen, kan dette bli tolket som et navneanrop av dialogmodellen. For å unngå dette vil systemet måtte være i stand til å skille mellom deltakerstemmer og se bort ifra ytringer fra stemmer som ikke er den mest høylytte taler.
De forskjellige anordningene i henhold til oppfinnelsen trenger ikke være sentralisert i en MCU, men kan bli distribuert til endepunktene. Fordelen med distribuert prosessering er ikke bare begrenset til redusert ressursbruk i sentralenheten, men kan i tilfeller av personlige systemer også forenkle prosessen av talertilpasning siden det ikke er noe behov for sentral lagring og styring av taleegenskaper.
Sammenlignet med systemer basert på enkel taleaktivitetsdeteksjon, vil den beskrevne oppfinnelsen ha evnen til å vise de ønskede bilder for hver deltaker, også i komplekse talemønstre. Den er ikke begrenset til konsepter med aktive eller inaktive talere når den bestemmer bildet for hver deltaker. Den skiller også mellom riktige anrop om oppmerksomhet og bruk av talereferanser i talerens ytring.
Sammenlignet med systemer som lar brukerne velge sine bilder ved bruk av enkle inngangsmetoder, gir den en mer sømløs opplevelse tilsvarende et ansikt-til-ansikt-møte, siden det ikke er noe behov for pause i dialogen med distraherende anordningsstyring. Siden nøkkelordene brukt for å detektere tenkte deltakere ofte er tilstede i en normal dialog, vil systemet kunne føles naturlig å bruke, og vil gi brukeren mye av fordelene med mekanismen uten å kjenne til trekkene på forhånd og uten å kreve spesiell øvelse.
Den har også store fordeler med hensyn til kostnader og personvern, sammenlignet med visningsstyring av en operatør som er ekstern for konferansen.
Claims (14)
1. Fremgangsmåte for konferanse omfattende: å forbinde i det minste to steder til en konferanse,
å motta i det minste ett videosignal og ett audiosignal fra hvert av de sammenkoblede stedene,
karakterisert ved
deretter å analysere audiodata fra i det minste to steder forbundet i en konferanse ved å konvertere i det minste en del av audiodataene til akustiske trekk og ekstrahere nøkkelord og taleparametre fra de akustiske trekkene ved bruk av talegj enkj enning,
å sammenligne nevnte ekstraherte nøkkelord til forhåndsdefinerte ord, og så bestemme om nevnte ekstraherte nøkkelord skal betraktes som et rop om oppmerksomhet basert på nevnte taleparametre,
å definere et bildelayout basert på nevnte avgjørelse,
å prosessere de mottatte videosignaler for å fremskaffe et videosignal i henhold til det definerte bildelayoutet,
å sende de prosesserte videosignalene til i det minste én av de i det minste to sammenkoblede stedene.
2. Fremgangsmåten i henhold til krav 1, hvor fremgangsmåten videre omfatter trinnene å: forhåndsdefinere ord der ordene er definert som å være ett eller flere av de følgende: navn på deltakere i konferansen, grupper av deltakere i konferansen, aliaser for nevnte navn, andre predefinerte nøkkelord, der nevnte nøkkelord er taleparametere.
3. Fremgangsmåte i henhold til krav 2, som videre omfatter detektering av et navn,
innhenting av taleparametere relatert til nevnte detekterte navn der hvert parameter veier positivt eller negativt når en bestemmer sannsynligheten for at nevnte navn er et rop om oppmerksomhet.
4. Fremgangsmåte i henhold til ett av kravene 2-3 som videre omfatter ved et positivt rop om oppmerksomhetavgjørelse,
å omdefinere bildelayoutfokus på videosignalet assosiert med nevnte detekterte forhåndsdefinerte navn eller alias, prosessere det mottatte videosignalet for å fremskaffe et andre komposittvideosignal i henhold til den redefinerte bildelayouten, og sende det andre komposittvideosignalet til i det minste én av de tilkoblede stedene.
5. Fremgangsmåte i henhold til ett av kravene 2-4, som videre omfatter trinnene å: ekstrahere nevnte navn på deltakere og/eller navn på grupper av deltakere, fra et konferansestyringssystem om nevnte konferanse har blitt bestilt gjennom en bestillingstjeneste.
6. Fremgangsmåte i henhold til ett av kravene 2-4, som videre omfatter trinnene å: innhente hvert steds unike ID eller URI, og prosessere nevnte unike IR eller URI for automatisk å ekstrahere nevnte navn på deltakere, og/eller gruppe av deltakere.
7. Fremgangsmåte i henhold til kravene 2-3, videre omfattende trinnene å: å utlede et sett av aliaser for hvert nevnte navn ved hjelp av en algoritme og/eller en database av vanlig brukte aliaser.
8. Konferansesystem omfattende: en grensesnittenhet for å motta i det minste audio-, og videosignaler fra i det minste to steder som er forbundet i en konferanse, karakterisert ved en talegjenkjennelsesenhet for å analysere audiodata fra i det minste to steder forbundet i konferansen ved å konvertere i det minste en del av audiodata til akustiske trekk og ekstrahere nøkkelord og taleparametre fra akustiske trekk ved bruk av talegjenkjennelse,
en prosesseringsenhet konfigurert for å sammenligne nevnte ekstraherte nøkkelord med forhåndsdefinerte ord og bestemme om nevnte ekstraherte nøkkelord skal betraktes som et rop om oppmerksomhet basert på nevnte taleparametre,
en styringsprosessor for dynamisk å definere en bildelayout basert på nevnte avgjørelse og en videoprosessor for å prosessere de mottatte videosignaler for å fremskaffe et komposittvideosignal i henhold til den definerte bildelayout.
9. System i henhold til krav 8, hvori systemet videre er konfigurert for å: omdefinere bildelayouten basert på nevnte avgjørelse,
fokusere på videosignaler tilsvarende nevnte ekstraherte forhåndsdefinerte nøkkelord, prosessere mottatte vidosignaler for å tilveiebringe et andre komposittvideosignal i henhold til den redefinerte bildelayout, og sende andre videosignaler til i det minste et av de tilkoblede steder.
10. System i henhold til krav 8, hvori nevnte forhåndsdefinerte ord er kategoriset som et eller flere av de følgende: - navn på deltakere i konferansen, - grupper av deltakere i konferansen, - aliaser for nevnte navn, - andre forhåndsdefinerte nøkkelord, hvori nevnte nøkkelord er taleparamtere.
11. System i henhold til krav 8, hvori talegjenkjenningsenheten ved deteksjon av et navn videre er konfigurert for å innhente nevnte taleparametere relatert til nevnte detekterte navn og bestemme sannsynligheten for at nevnte detekterte navn er et rop om oppmerksomhet basert på nevnte taleparametere, der nevnte taleparametere veier positivt og negativt i avgjørelsesprosessen.
12. System i henhold til et av de foregående kravene 8-11, hvori talegjenkjenningsenheten videre omfatter,
midler for å ekstrahere nevnte navn på deltakere,
og/eller navn på grupper av deltakere, fra et konferansestyringssystem, dersom nevne konferanse ble bestilt gjennom en bestillingstjeneste.
13. System i henhold til et av kravene 8-12, hvori talegjenkjenningsenheten omfatter
midler for å innhente hvert steds unike ID eller URI, og
midler for prosessere nevnte unike IR eller URI for automatisk å ekstraher nevnte navn på deltakere og/eller grupper av deltakere.
14. System i henhold til et av kravene 8-13, hvori talegjenkjenningsenheten videre omfatter,
midler for å utlede et sett av aliaser for hvert sett av deltakere eller gruppe av deltakere basert på algoritme og/eller en database av normalt brukte aliaser.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20062418A NO326770B1 (no) | 2006-05-26 | 2006-05-26 | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
PCT/NO2007/000180 WO2007142533A1 (en) | 2006-05-26 | 2007-05-25 | Method and apparatus for video conferencing having dynamic layout based on keyword detection |
US11/754,651 US20070285505A1 (en) | 2006-05-26 | 2007-05-29 | Method and apparatus for video conferencing having dynamic layout based on keyword detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20062418A NO326770B1 (no) | 2006-05-26 | 2006-05-26 | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20062418L NO20062418L (no) | 2007-11-27 |
NO326770B1 true NO326770B1 (no) | 2009-02-16 |
Family
ID=38801694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20062418A NO326770B1 (no) | 2006-05-26 | 2006-05-26 | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070285505A1 (no) |
NO (1) | NO326770B1 (no) |
WO (1) | WO2007142533A1 (no) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8797377B2 (en) | 2008-02-14 | 2014-08-05 | Cisco Technology, Inc. | Method and system for videoconference configuration |
US8694658B2 (en) | 2008-09-19 | 2014-04-08 | Cisco Technology, Inc. | System and method for enabling communication sessions in a network environment |
JP5495572B2 (ja) * | 2009-01-07 | 2014-05-21 | キヤノン株式会社 | プロジェクタ・システム及びこれを含むビデオ会議システム |
US8659637B2 (en) | 2009-03-09 | 2014-02-25 | Cisco Technology, Inc. | System and method for providing three dimensional video conferencing in a network environment |
US8659639B2 (en) | 2009-05-29 | 2014-02-25 | Cisco Technology, Inc. | System and method for extending communications between participants in a conferencing environment |
US9082297B2 (en) | 2009-08-11 | 2015-07-14 | Cisco Technology, Inc. | System and method for verifying parameters in an audiovisual environment |
US9225916B2 (en) | 2010-03-18 | 2015-12-29 | Cisco Technology, Inc. | System and method for enhancing video images in a conferencing environment |
US9516272B2 (en) * | 2010-03-31 | 2016-12-06 | Polycom, Inc. | Adapting a continuous presence layout to a discussion situation |
US9313452B2 (en) | 2010-05-17 | 2016-04-12 | Cisco Technology, Inc. | System and method for providing retracting optics in a video conferencing environment |
US8477921B2 (en) | 2010-06-30 | 2013-07-02 | International Business Machines Corporation | Managing participation in a teleconference by monitoring for use of an unrelated term used by a participant |
US8896655B2 (en) | 2010-08-31 | 2014-11-25 | Cisco Technology, Inc. | System and method for providing depth adaptive video conferencing |
US8599934B2 (en) | 2010-09-08 | 2013-12-03 | Cisco Technology, Inc. | System and method for skip coding during video conferencing in a network environment |
US8599865B2 (en) | 2010-10-26 | 2013-12-03 | Cisco Technology, Inc. | System and method for provisioning flows in a mobile network environment |
US8699457B2 (en) | 2010-11-03 | 2014-04-15 | Cisco Technology, Inc. | System and method for managing flows in a mobile network environment |
US8730297B2 (en) | 2010-11-15 | 2014-05-20 | Cisco Technology, Inc. | System and method for providing camera functions in a video environment |
US8902244B2 (en) | 2010-11-15 | 2014-12-02 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US9143725B2 (en) | 2010-11-15 | 2015-09-22 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US9338394B2 (en) | 2010-11-15 | 2016-05-10 | Cisco Technology, Inc. | System and method for providing enhanced audio in a video environment |
US8723914B2 (en) | 2010-11-19 | 2014-05-13 | Cisco Technology, Inc. | System and method for providing enhanced video processing in a network environment |
US9111138B2 (en) | 2010-11-30 | 2015-08-18 | Cisco Technology, Inc. | System and method for gesture interface control |
US9626651B2 (en) * | 2011-02-04 | 2017-04-18 | International Business Machines Corporation | Automated social network introductions for e-meetings |
US8838680B1 (en) | 2011-02-08 | 2014-09-16 | Google Inc. | Buffer objects for web-based configurable pipeline media processing |
US8692862B2 (en) * | 2011-02-28 | 2014-04-08 | Cisco Technology, Inc. | System and method for selection of video data in a video conference environment |
US8681866B1 (en) | 2011-04-28 | 2014-03-25 | Google Inc. | Method and apparatus for encoding video by downsampling frame resolution |
US8670019B2 (en) | 2011-04-28 | 2014-03-11 | Cisco Technology, Inc. | System and method for providing enhanced eye gaze in a video conferencing environment |
US8786631B1 (en) | 2011-04-30 | 2014-07-22 | Cisco Technology, Inc. | System and method for transferring transparency information in a video environment |
US9106787B1 (en) | 2011-05-09 | 2015-08-11 | Google Inc. | Apparatus and method for media transmission bandwidth control using bandwidth estimation |
US8934026B2 (en) | 2011-05-12 | 2015-01-13 | Cisco Technology, Inc. | System and method for video coding in a dynamic environment |
CN103050124B (zh) * | 2011-10-13 | 2016-03-30 | 华为终端有限公司 | 混音方法、装置及系统 |
US8947493B2 (en) | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
US8682087B2 (en) | 2011-12-19 | 2014-03-25 | Cisco Technology, Inc. | System and method for depth-guided image filtering in a video conference environment |
US8913103B1 (en) | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
US9569594B2 (en) * | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
JP6171263B2 (ja) * | 2012-03-19 | 2017-08-02 | 株式会社リコー | 遠隔会議システム及び遠隔会議端末 |
US8782271B1 (en) | 2012-03-19 | 2014-07-15 | Google, Inc. | Video mixing using video speech detection |
US9185429B1 (en) | 2012-04-30 | 2015-11-10 | Google Inc. | Video encoding and decoding using un-equal error protection |
US20130325483A1 (en) * | 2012-05-29 | 2013-12-05 | GM Global Technology Operations LLC | Dialogue models for vehicle occupants |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9798799B2 (en) * | 2012-11-15 | 2017-10-24 | Sri International | Vehicle personal assistant that interprets spoken natural language input based upon vehicle context |
US9172740B1 (en) | 2013-01-15 | 2015-10-27 | Google Inc. | Adjustable buffer remote access |
US9311692B1 (en) | 2013-01-25 | 2016-04-12 | Google Inc. | Scalable buffer remote access |
US9225979B1 (en) | 2013-01-30 | 2015-12-29 | Google Inc. | Remote access encoding |
US9843621B2 (en) | 2013-05-17 | 2017-12-12 | Cisco Technology, Inc. | Calendaring activities based on communication processing |
US8856000B1 (en) * | 2013-12-09 | 2014-10-07 | Hirevue, Inc. | Model-driven candidate sorting based on audio cues |
US9009045B1 (en) | 2013-12-09 | 2015-04-14 | Hirevue, Inc. | Model-driven candidate sorting |
US10720153B2 (en) * | 2013-12-13 | 2020-07-21 | Harman International Industries, Incorporated | Name-sensitive listening device |
GB201406789D0 (en) | 2014-04-15 | 2014-05-28 | Microsoft Corp | Displaying video call data |
JP2017059902A (ja) * | 2015-09-14 | 2017-03-23 | 株式会社リコー | 情報処理装置、プログラム、画像処理システム |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) * | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
CN108076238A (zh) * | 2016-11-16 | 2018-05-25 | 艾丽西亚(天津)文化交流有限公司 | 一种科学技术服务分组混音通话装置 |
US20180174574A1 (en) * | 2016-12-19 | 2018-06-21 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US10235990B2 (en) | 2017-01-04 | 2019-03-19 | International Business Machines Corporation | System and method for cognitive intervention on human interactions |
US10373515B2 (en) | 2017-01-04 | 2019-08-06 | International Business Machines Corporation | System and method for cognitive intervention on human interactions |
US10318639B2 (en) | 2017-02-03 | 2019-06-11 | International Business Machines Corporation | Intelligent action recommendation |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN109040643B (zh) * | 2018-07-18 | 2021-04-20 | 奇酷互联网络科技(深圳)有限公司 | 移动终端及远程合影的方法、装置 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US11271762B2 (en) * | 2019-05-10 | 2022-03-08 | Citrix Systems, Inc. | Systems and methods for virtual meetings |
US11765213B2 (en) * | 2019-06-11 | 2023-09-19 | Nextiva, Inc. | Mixing and transmitting multiplex audiovisual information |
CN110290345B (zh) * | 2019-06-20 | 2022-01-04 | 浙江华创视讯科技有限公司 | 跨级会议点名发言方法、装置、计算机设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04339484A (ja) * | 1991-04-12 | 1992-11-26 | Fuji Xerox Co Ltd | 遠隔会議装置 |
JP3070497B2 (ja) * | 1996-11-15 | 2000-07-31 | 日本電気株式会社 | テレビ会議システム |
JP2000184345A (ja) * | 1998-12-14 | 2000-06-30 | Nec Corp | マルチモーダルコミュニケーション支援装置 |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
JP2002218424A (ja) * | 2001-01-12 | 2002-08-02 | Mitsubishi Electric Corp | 映像表示制御装置 |
US20030231746A1 (en) * | 2002-06-14 | 2003-12-18 | Hunter Karla Rae | Teleconference speaker identification |
US7698141B2 (en) * | 2003-02-28 | 2010-04-13 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications |
EP1453287B1 (en) * | 2003-02-28 | 2007-02-21 | Xerox Corporation | Automatic management of conversational groups |
US7034860B2 (en) * | 2003-06-20 | 2006-04-25 | Tandberg Telecom As | Method and apparatus for video conferencing having dynamic picture layout |
US7092002B2 (en) * | 2003-09-19 | 2006-08-15 | Applied Minds, Inc. | Systems and method for enhancing teleconferencing collaboration |
JP2005274680A (ja) * | 2004-03-23 | 2005-10-06 | National Institute Of Information & Communication Technology | 会話分析方法、会話分析装置、および会話分析プログラム |
US7477281B2 (en) * | 2004-11-09 | 2009-01-13 | Nokia Corporation | Transmission control in multiparty conference |
-
2006
- 2006-05-26 NO NO20062418A patent/NO326770B1/no not_active IP Right Cessation
-
2007
- 2007-05-25 WO PCT/NO2007/000180 patent/WO2007142533A1/en active Application Filing
- 2007-05-29 US US11/754,651 patent/US20070285505A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20070285505A1 (en) | 2007-12-13 |
NO20062418L (no) | 2007-11-27 |
WO2007142533A1 (en) | 2007-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO326770B1 (no) | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon | |
US10614173B2 (en) | Auto-translation for multi user audio and video | |
CN110300001B (zh) | 会议音频控制方法、系统、设备及计算机可读存储介质 | |
JP5564459B2 (ja) | ビデオ会議に翻訳を追加するための方法及びシステム | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
US7617094B2 (en) | Methods, apparatus, and products for identifying a conversation | |
US8370142B2 (en) | Real-time transcription of conference calls | |
US7698141B2 (en) | Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications | |
US20050226398A1 (en) | Closed Captioned Telephone and Computer System | |
US20040064322A1 (en) | Automatic consolidation of voice enabled multi-user meeting minutes | |
US20080201142A1 (en) | Method and apparatus for automication creation of an interactive log based on real-time content | |
US20150154960A1 (en) | System and associated methodology for selecting meeting users based on speech | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
JP2018173752A (ja) | 会議システム、会議システム制御方法、およびプログラム | |
KR102462219B1 (ko) | 화자 분리 기술을 이용한 회의록 자동 생성 방법 | |
JP2018174439A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
KR20200000215A (ko) | 스피치 코칭 서비스 제공 시스템 및 방법 | |
US20100142683A1 (en) | Method and apparatus for providing video relay service assisted calls with reduced bandwidth | |
JPH10136327A (ja) | ディスクトップ会議システム | |
CN111554280A (zh) | 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统 | |
US20210312143A1 (en) | Real-time call translation system and method | |
JP2001268078A (ja) | 通信制御装置、その方法およびその提供媒体と通信装置 | |
KR102464674B1 (ko) | 웹rtc·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 ai 회의록 생성장치 및 방법 | |
EP1453287B1 (en) | Automatic management of conversational groups | |
KR20090081046A (ko) | 인터넷을 이용한 언어 학습 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CREP | Change of representative |
Representative=s name: ONSAGERS AS, POSTBOKS 6963 ST OLAVS PLASS, 0130 OS |
|
MM1K | Lapsed by not paying the annual fees |