NO328622B1 - Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr - Google Patents

Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr Download PDF

Info

Publication number
NO328622B1
NO328622B1 NO20082933A NO20082933A NO328622B1 NO 328622 B1 NO328622 B1 NO 328622B1 NO 20082933 A NO20082933 A NO 20082933A NO 20082933 A NO20082933 A NO 20082933A NO 328622 B1 NO328622 B1 NO 328622B1
Authority
NO
Norway
Prior art keywords
noise
keyboard
signal
audio signal
audio
Prior art date
Application number
NO20082933A
Other languages
English (en)
Other versions
NO20082933L (no
Inventor
Trygve Frederik Marton
Original Assignee
Tandberg Telecom As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tandberg Telecom As filed Critical Tandberg Telecom As
Priority to NO20082933A priority Critical patent/NO328622B1/no
Priority to PCT/NO2009/000237 priority patent/WO2010002266A1/en
Priority to EP09773799.3A priority patent/EP2294697A4/en
Priority to US12/495,270 priority patent/US8295502B2/en
Publication of NO20082933L publication Critical patent/NO20082933L/no
Publication of NO328622B1 publication Critical patent/NO328622B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

Fremgangsmåte og innretning for å redusere tastaturstøy i et konferanse utstyr som innbefatter en mikrofon og et tastatur. Fremgangsmåten omfatter trinn for å tilveiebringe et audiosignal som stammer fra nevnte mikrofon; å detektere en operasjon av nevnte tastatur; å tilveiebringe et estimat av en tastaturaudiostøy som resulterer fra nevnte operasjon av nevnte tastatur; og å beregne et støyredusert utgangssignal basert på nevnte estimat av nevnte tastaturaudiostøy og nevnte audiosignal. Beregningen av det støyreduserte utgangssignal kan innbefatte spektralsubtraksjonsteknikker. Komfortstøy kan også genereres og adderes.

Description

Område for oppfinnelsen
Den foreliggende oppfinnelsen vedrører audiostøyreduksjon i konferanseutstyr. Mer spesifikt vedrører oppfinnelsen en fremgangsmåte og en innretning for å redusere tastaturstøy i et konferanseutstyr som innbefatter en mikrofon og et tastatur, slik som et videokonferanseendepunkt, spesielt et videokonferanseendepunkt av desktop-type, eller en konferansetelefon.
Bakgrunn for oppfinnelsen
Mange kommunikasjonsapparater, så vel som opptaksutstyr, har tastaturer for kontroll, og en mikrofon som innhenter lyd, inneholdt i den samme fysiske innkapslingen. Eksempler på slike apparater er desktop-videokonferanseutstyr, audiokonferansetelefoner, mobiltelefoner, andre typer telefoner, MP3-opptakere, båndopptakere og lignende.
Når man trykker en tast på tastaturet, dannes en akustisk lyd (tastaturstøy). Normalt er denne lyden uønsket. I det lokale rommet er tastaturstøyen vanligvis på et så lavt nivå at den ikke forstyrrer brukeren i særlig grad, men når audio innhentes ved en mikrofon, for kommunikasjon eller arkivering, kan tastaturstøy være forstyrrende. Støy fra tastaturet kan overføres til mikrofonen både som lyd som propagerer gjennom luften, og som lyd som propagerer gjennom den fysiske strukturen for en utstyrsinnkapsling.
Tastaturstøy varer vanligvis i en svært kort tid, men plukkes ofte opp relativt sterkt ved mikrofonen, og den er vanligvis bredbåndet støy.
Slik tastaturstøy har tidligere blitt håndtert på ulike måter. Den enkleste er å akseptere støyen. En annen tidligere tilnærming er kjent som maskering, hvor en maskerende tone tilføyes samtidig met at tastaturstøyen forekommer. Slik maskering kan gjøre tastaturstøyen uhørbar eller neglisjerbar, eller den kan få brukeren til å rette oppmerksomheten om noe annet, eller i det minste gjøre brukeren oppmerksom på at noe skjer, slik at brukeren i større grad aksepterer den hørbare støyen. En annen foreslått tilnærming er å dempe hele audiosignalet (innbefattet både tastaturstøyen og det ønskede signalet) når en tast presses på tastaturet.
Spektralsubtraksjon er en utbredt anvendt tilnærming for fjerning av stasjonær bredbåndsstøy med relativt lavt nivå. Basert på en antagelse om at støyen er stasjonær, beregnes her et estimat av støyen, hvorfra det defineres et lineært tidsinvariantfilter, som anvendes på det ønskede signalet, innbefattet den uønskede støyen. Resultatet er et utgangssignal med et størrelsesspektrum (eng.: magnitude spectrum) som er nokså likt størrelsesspekteret for det ønskede signalet, men med en fase som er lik det ønskede signalet pluss uønsket støyfase. Så lenge støynivået er moderat, er fasefeilen liten, og dette gir et vellydende resultat. Når støynivået øker, blir artefakter mer og mer hørbare og forstyrrende. Fagfolk vil betrakte spektral subtraksjon som nyttig for stasjonær støy, men ikke for transient støy, slik som tastaturstøy.
Sammenfatning av oppfinnelsen
En grunnleggende hensikt ved oppfinnelsen er å tilveiebringe en fremgangsmåte og en innretning for å redusere tastaturstøy i et konferanseutstyr.
Oppfinnelsen tilveiebringer en fremgangsmåte og en innretning som fremsatt i de vedføyde krav.
Kort beskrivelse av tegningene
For å gjøre oppfinnelsen enklere å forstå, vil den etterfølgende drøftingen henvise til de etterfølgende tegninger, hvor: Fig. 1 er et skjematisk blokkdiagram som illustrerer grunnleggende prinsipper ved en innretning for å redusere tastaturstøy i et konferanseutstyr, Fig. 2 er et skjematisk blokkdiagram som illustrerer ytterligere mulige prinsipper ved en innretning for å redusere tastaturstøy i et konferanseutstyr, Fig. 3 er et skjematisk flytskjema som illustrerer prinsippene ved en fremgangsmåte for å redusere tastaturstøy i et konferanseutstyr.
Detaljert beskrivelse av oppfinnelsen
I det følgende vil den foreliggende oppfinnelsen bli drøftet ved beskrivelse av ulike utførelsesformer, og med henvisning til de vedføyde tegninger. Fagfolk vil imidlertid innse andre anvendelser og modifikasjoner innenfor rekkevidden av oppfinnelsen slik den er definert i de etterfølgende selvstendige krav.
Fig. 1 er et skjematisk blokkdiagram som illustrerer grunnleggende prinsipper ved en innretning for å redusere tastaturstøy i et konferanseutstyr.
Konferanseutstyret innbefatter en mikrofon 110 og et tastatur 160. Mikrofonen og tastaturet 160 er anordnet på en slik måte at mikrofonen plukker opp både ønsket audio, typisk tale fra en taler (en konferansedeltaker), og uønsket audiostøy, som kan genereres ved manuell operasjon av tastaturet 160.1 tillegg kan mikrofonen plukke opp bakgrunnsstøy fra omgivelsene, spesielt konferanserommet.
Mikrofonen 110 er forbundet til en forsterker 120, som også med fordel kan innbefatte et lavpassfilter. Forsterkeren er videre forbundet til en kvantiserer/digitaliserer 130, som innbefatter kretser for sampling og analog til digital konvertering, hvilket resulterer i et digitalt audiosignal ved utgangen av elementet 130.
Dette digitale audiosignal mates til en frekvensbånddeler 140, eller frekvensbånddemultiplekser, som er videre forklart i detalj nedenfor med henvisning til fig. 2. For enkelthets skyld har bare én utgang fra frekvensbånddeleren 140 blitt vist i fig. 1. Utgangen fra frekvensbånddeleren 140 representerer en tidsvarierende del av audiosignalet i et frekvenssubbånd definert av karakteristikker ved frekvensbånddeleren.
Frekvenssubbåndene, spesielt fordelingen av frekvensgrenser som bestemmer frekvenssubbåndene, kan konfigureres på ulike måter. I et mulig aspekt konfigureres fordelingen av frekvensgrenser i samsvar med en uniform skala (dvs. en lineær måte). I andre mulige aspekter konfigureres frekvensgrensene i samsvar med en logaritmisk skala, eller med en spesiell skala av psykoakustisk type, slik som en Mel-skala eller Bark-skala.
Utgangen fra frekvensbånddeleren 140 er forbundet til effektberegningskretsen 150, som beregner effekten av signalet tilveiebrakt av frekvensbånddeleren 140. I alternative aspekter kan amplituden eller et hvilket som helst annet mål som angir størrelsen av signalet beregnes i beregningskretsen 150.
Tastaturet 160 er forbundet til en tastaturoperasjonsdetekterings- og støyestimeringskrets 170. I denne kretsen 170 detekteres og eventuelt identifiseres operasjonen av tastaturet. Ved deteksjon av en tastaturoperasjon forårsaker kretsen at det tilveiebringes et estimat av en tastaturaudiostøy, dvs. et estimat av støyen som resulterer fra operasjonen av tastaturet.
I et aspekt kan støyestimeringskretsen 170 tilveiebringe estimatet av tastaturstøyen som et forhåndslagret estimat av støyeffekt i et frekvenssubbånd med hensyn til tiden. Det forhåndslagrede estimatet kan velges som et effektsignalsampel som er lest fra en forhåndslagret oppslagstabell. Valget av effektsignalsamplet kan baseres på en identifikasjon av tasten som faktisk har blitt operert på nevnte tastatur. Denne identifikasjonen kan avledes av tastaturoperasjonsdetekterings- og støyestimeringskretsen 170, som er forbundet til tastaturet og som således kan innhente en identifikasjon av pressede taster i tillegg til den rene deteksjon av tastaturaktivitet.
En slik forhåndslagret tabell kan forhåndsgenereres én gang, på statisk måte, eller den kan etableres ved opplæring, f.eks. under operasjon av tastaturet i en støyfri eller lavstøysomgivelse.
Tabellen kan også være adaptiv, slik det videre er forklart nedenfor med henvisning til fig. 2.
Utgangen av effektberegningskretsen 150 og utgangen av
tastaturoperasjonsdetekterings- og støyestimeringskretsen 170 mates til forsterkningsberegningskretsen 180. En mulig operasjon av
forsterkningsberegningskretsen er forklart i nærmere detalj nedenfor med henvisning til fig. 2.
Forsterkningsverdien tilveiebrakt av forsterkningskalkulatoren mates til en forsterkningskontrollinngang for den forsterkningskontrollerte forsterkeren 190. Signalinngangen for forsterkeren 190 er forbundet til utgangen av frekvensbånddeleren 140. Dette resulterer i at utgangssignalet for forsterkeren 190 er betraktelig dempet i tilfelle av en rådende estimert tastaturstøy i frekvenssubbåndet som er valgt av frekvensbånddeleren, mens utgangssignalet er mindre dempet, eller ikke dempet i det hele tatt, i tilfelle av en liten eller null estimert tastaturstøy i det valgte frekvenssubbåndet.
Utgangen av forsterkeren 190 mates til en frekvensbåndkombineringskrets 200 som kombinerer nevnte inngang med korresponderende inngangssignaler som vedrører andre frekvenssubbånd. Dette resulterer i at et kombinert digitalt audiosignal genereres ved utgangen av kretsen 200.
I et aspekt blir utgangssignalet generert av kretsen 200 ytterligere modifisert av kretser og midler, som ikke er vist i fig. 1.1 stedet har slike ytterligere kretser og midler blitt illustrert og forklart med henvisning til fig. 2. Mer spesifikt, i dette aspektet, genereres og adderes et komfortstøysignal til det støyreduserte utgangssignalet. Adderingen av et komfortstøysignal kan omfatte å beregne en komfortstøyforsterkning som er basert på audiosignalet i frekvenssubbåndet, dvs. utgangen av kretsen 140, og det genererte estimat av tastaturaudiostøyen, dvs. utgangen av kretsen 170.
Fig. 2 er et skjematisk blokkdiagram som illustrerer ytterligere mulige prinsipper ved en innretning for å redusere tastaturstøy i et konferanseutstyr.
Mange av elementene illustrert i fig. 2 korresponderer med lignende elementer med lignende henvisningstall på fig. 1. Der ytterligere valgfrie detaljer er presentert i den detaljerte beskrivelsen i fig. 2, skal det forstås at slike valgfrie detaljer kan kombineres individuelt eller i hvilke som helst kombinasjoner, med innretningen som er beskrevet ovenfor med henvisning til fig. 1.
Mikrofonen 110 og tastaturet 160 er innbefattet i et konferanseutstyr på samme måte som forklart med henvisning til fig. 1. Brukeren (taler, konferansedeltaker) 102 tilveiebringer et ønsket akustisk talesignal til mikrofonen, mens uønsket audiostøy generert ved operasjon av tastaturet 160 også plukkes opp av mikrofonen 110.
Mikrofonen 110 er forbundet til en forsterker 120, som også fordelaktig kan innbefatte et lavpassfilter. Forsterkeren er videre forbundet til kvantisereren/digitalisereren 130, som innbefatter kretser for sampling og analog-digital-konvertering, hvilket resulterer i et digitalt audiosignal ved utgangen av elementet 130.
Det digitale audiosignal mates til en frekvensbånddeler 140, eller frekvensbånddemultiplekser.
Slik det er illustrert i fig. 2, har et flertall av utganger av frekvensbånddeleren 140 blitt vist, men en ytterligere håndtering av bare ett av utgangssignalene har blitt vist for enkelhets skyld. Utgangen fra frekvensbånddeleren 140 representerer en tidsvarierende del av audiosignalet i et frekvenssubbånd definert ved karakteristikker av frekvensbånddeleren.
Hvert frekvenssubbånd representerer en liten fraksjon av det komplette frekvensspekteret for fullbåndssignalet.
Frekvenssubbåndene, spesielt fordelingen av frekvensgrenser som bestemmer frekvenssubbånd, og bredden av hvert bånd, kan konfigureres på ulike måter. I et mulig aspekt er fordelingen av frekvensgrenser konfigurert i samsvar med en uniform skala (dvs. på lineær måte). I andre mulige aspekter er frekvensgrensene konfigurert i samsvar med en logaritmisk skala, eller med en spesiell skala av psykoakustisk type, slik som en Mel-skala eller Bark-skala. Videre gjennomgår hvert frekvenssubbånd en prosessering før alle subbånd samles sammen til et tastaturstøyredusert fullbåndssignal.
En subbåndtype-realisering kan være fordelaktig, siden filterbanker, dvs. frekvensbånddeler og frekvensbåndkombinerer, allerede kan være tilstede for andre formål, ekkokansellering, stasjonær støyreduksjon, osv. I et slikt tilfelle vil subbåndtyperealiseringen av oppfinnelsen ikke representere særlig stor ytterligere kompleksitet til systemet.
I tillegg medfører subbåndrealiseringen at alle nødvendige spekterberegninger og filterberegninger/-operasjoner blir redusert til enkle henholdsvis effektberegninger og forsterkninger.
I et alternativt aspekt kan all prosessering utføres direkte på fullbåndssignalet. I dette tilfellet er frekvensbånddeleren 140 og frekvensbåndkombinereren 200 ikke nødvendige. Imidlertid vil høyere beregningskapabiliteter være nødvendig for den ytterligere signalprosessering i dette tilfellet.
Utgangen av frekvensbånddeleren 140 er forbundet til effektberegningskretsen 150, som beregner effekten av signalet tilveiebrakt av frekvensbånddeleren 140.1 alternative aspekter kan amplituden eller et hvilket som helst annet mål som angir størrelsen på signalet beregnes i beregningskretsen 150.
Effektberegningskretsen 150 kan konfigureres til å beregne effekten av signalet i hvert frekvenssubbånd, f.eks. ved å følge ligningen
der k er subbåndindeks, n er tidsindeks, sigsample er signalsampelverdien for subbåndsignalet, og siglev angir et glattet estimat av middelabsoluttverdien (for k=1) eller middelkvadrat (for k=2) av påfølgende signalsampler. I den følgende drøftingen og parametersettingen antas k=1, men hvilken som helst verdi for k e [1,2] gir tilfredsstillende resultater.
r er en verdi som definerer en tidskonstant, og dens verdi vil avhenge av samplingsraten i frekvenssubbåndet. En T som gir en tidskonstant (standard analog
definisjon, siglev faller fra l/e « 37 % av sin originale verdi i én tidskonstant dersom inngangssignal ikke anvendes, dvs. sigsampler er lik null) på 30 ms, er et foretrukket valg. Siglev innbefatter både ønsket audio og uønsket tastaturstøy.
Tilsvarende, dersom implisitt kjent, kan et tastaturstøynivå estimeres:
I denne ligningen er k, n, T og k det samme som i den foregående ligning, og keylev er glattet estimat av middelabsoluttverdien av tastaturstøyen.
I samsvar med ligningen ovenfor må tastaturstøysamplet, angitt keysample, i ligningen ovenfor, være kjent eller estimert for å kunne beregne den estimerte tastaturstøyen. Siden tastaturstøysampel keylev(k,n) generelt ikke er kjent, estimeres den i støyestimeringskretsen 170.1 et eksempelaspekt er tastaturstøyestimeringskretsen 170 en tastaturstøynivåoppslagstabell, og tastaturstøysampel key1ev(k,n) tabuleres i tastaturstøynivåoppslagstabellen 170, i fig. 2 også angitt KNL. Ideen bak bruken av en tastaturstøyestimeringskrets 170, spesielt en tastaturstøynivåoppslagstabell, er at selv om sampelverdier for tastaturstøy vil ha svært tilfeldige karakteristikker, og derfor ikke er enkelt å tabulere, har tastaturstøyen nivåer som funksjon av frekvens (dvs. subbåndindeks k) og tid (dvs. tidsindeks n) ha en adekvat repeterbarhet mellom ulike operasjoner av en tast.
Tastaturstøynivåoppslagstabellen opplæres enten én gang, under utforming av produktet, eller under produksjon, eller den kan til og med adaptivt trenes under bruk av produktet ved middelverdi-keylev-beregninger gjort av multiple instanser av sampler registrert ved bruk av tastaturet/apparatet i en støyfri omgivelse. Hvilken læringsstrategi som bær brukes, kan f.eks. avhenge av kvaliteten på tastaturet. For høykvalitetsapparater vil tastaturstøy være om lag den samme mellom ulike enheter i produksjon, og således kan en utformingsfaseestimering benyttes. For apparater av lavere kvalitet kan det være nødvendig å estimere keylev for mål etter hver separate enhet. Slike forhåndsdefinisjoner kan erstattes eller kombineres med en adaptiv læring under bruk, ved å oppdatere oppslagstabellen for tastaturoperasjoner som gjøres uten eller med neglisjerbar tilleggsstøy.
På grunn av ulik fysikk (f.eks. taster), avstand fra tastatur til mikrofon, eller lignende, kan det være nødvendig å tabulere ulike keylev for ulike taster eller sett av taster. Videre, dersom samplingsraten i subbåndene er svært lav, dvs. tiden mellom samplene sammenlignbar med tidskonstanten for signalnivået, kan det være nødvendig å tabulere interpolerte versjoner av keylevs, eller å interpolere nivåene under kjøring.
Slik det vil forstås fra den ovenstående forklaringen, er tastaturet 160 forbundet til tastaturoperasjonsdeteksjons- og støyestimeringskretsen 170.1 denne kretsen 170 blir operasjon av tastaturet detektert og eventuelt identifisert. Ved deteksjon av en tastaturoperasjon, forårsaker kretsen 170 at det tilveiebringes et estimat av en tastaturaudiostøy, dvs. et estimat av støyen som resulterer fra operasjonen av tastaturet.
I et aspekt kan støyestimeringskretsen 170 tilveiebringe estimatet av tastaturstøyen som et forhåndslagret estimat av støyeffekt i et frekvenssubbånd med hensyn til tiden. Det forhåndslagrede estimatet kan velges som et effektsignalsampel som leses fra en forhåndslagret oppsiagstabell. Valget av effektsignalsamplet kan baseres på en identifikasjon av tasten som faktisk har blitt operert på nevnte tastatur. Denne identifikasjonen kan avledes fra tastaturoperasjonsdetekterings- og støyestimeringskretsen 170, som er forbundet til tastaturet og som således kan innhente en identifikasjon av de trykkede taster i tillegg til den rene deteksjon av tastaturaktivitet.
En slik forhåndslagret tabell kan pregenereres én gang på statisk måte, eller den kan etableres ved opplæring, f.eks. under operasjon av tastaturet i en støyfri eller lavstøyomgivelse. Tabellen kan også være adaptiv.
Utgangen av effektberegningskretsen 150 og utgangen av
tastaturoperasjonsdetekterings- og støyestimeringskretsen 170 mates til forsterkningsberegningskretsen 180. Den virkelige støyfjemingsprosessen beskrevet her kan i noen tilfeller være relativt ettergivende overfor avvik i tastaturstøynivå, dvs. keylev. Derfor, for et gitt tidspunkt, kan tastenivåoppslagstabellen avgi tastestøynivåestimatet keylev for en gitt tast og tid, basert på en kontrollinngang fra tastaturet, angi tidspunkt for operasjon og hvilken tast som er presset. Dersom ingen tast har blitt operert, kan keylev være null.
Forsterkningsverdien tilveiebrakt av forsterkningsberegningskretsen 180 mates til en forsterkningskontrollinngang for den forsterkningskontrollerte forsterkeren 190. Signalinngangen for forsterkeren 190 er forbundet til utgangen av frekvensbånddeleren 140.
Forsterkningsberegningskretsen 180, i fig. 2 også betegnet GNC, er konfigurert til å beregne en signalforsterkning for subbåndet, basert på den følgende ligning:
I denne ligningen er 8 en tastestøynivåoverestimeringsfaktor. Den kan velges i samsvar med mulig avvik i tastatur støynivået fra det virkelige nivå. Den kan settes høyere for lavere kvalitets apparater/tastaturer enn for høykvalitetsapparater/tastaturer. Normalt er det foretrukket å overestimere tastestøyen heller enn å underestimere den.
Konstanten q> definerer den ønskede dempning av tastaturstøy, og er foretrukket satt til null.
Konstanten A, er vanligvis lik 1/k. Dersom k=2, å=1/k og 8=0, er formelen svært lik formelen som benyttes i spektralsubtraksjon for stasjonær støyfjerning, omtalt ovenfor. Imidlertid kan k=2, X=l og 8=0 velges, og da er formelen svært lik Wienerfiltrering.
I en særlig utførelsesform er k=1. I en annen særlig utførelsesform er Å=l. 1 en annen særlig utførelsesform er 8=1/3.1 enda en særlig utførelsesform er k=1, å=1 og 8=1/3. Dette gir et særlig godt resultat for et høykvalitetstastatur, og representerer en modifisert spektralsubtraksjonsformel.
Dette fører til at utgangssignalet for forsterkeren 190 blir betraktelig dempet i tilfelle av en rådende estimert tastaturstøy i frekvenssubbåndet valgt av frekvensbånddelen, mens utgangssignalet er mindre dempet, eller ikke dempet i det hele tatt, i tilfelle av en liten eller null estimert tastaturstøy i det valgte frekvenssubbåndet.
Utgangen av forsterkeren 190 mates til en inngang for en
frekvensbåndkombineringskrets 200 som kombinerer nevnte inngang med korresponderende inngangssignaler som vedrører andre frekvenssubbånd. Dette resulterer i at et kombinert digitalt audiosignal genereres ved utgangen av kretsen 200.
Forsterkeren 190 kan ha en forsterkning Gn, og anvender keynoisegain til signalsamplene innbefattet tastaturstøy.
Dette virker svært godt ved fjerning av støy som er tilstede i tale. Talesignalet passerer forsterkningen uten vesentlig hørbar dempning av noe av talesignalet.
Dersom inngangssignalet utelukkende er lavnivåbakgrunnsstøy, kan algoritmen imidlertid redusere forsterkningen så mye at det lyder fullstendig dempet. Dette er ikke viktig fra et informasjonsteoriperspektiv, siden bakgrunnsstøy vanligvis er uønsket, men i praktisk bruk kan tap av støy oppfattes som et tap av forbindelse i en konferanse eller lignende.
Lignende effekter er også tilstede i halvduplekskommunikasjonssystemer, og kompenseres ofte for ved å tillegge såkalt komfortstøy. Det kan være fordelaktig å benytte den samme teknikken etter fjerning av tastaturstøy også. Svært ofte finnes en komfortstøy generator allerede i apparatet.
Bakgrunnsstøy estimeres ved bakgrunnsstøyestimatoren BNE. Mange ulike teknikker er mulig, men den mest velkjente er minimumstatistikk:
Konstanten au kan velges liten, og representerer en langtidskonstant (typisk sekunder, f.eks. 10 sekunder), mens konstanten ao representerer en kortere tidskonstant (typisk en liten del av et sekund, f.eks. 0,01 sekunder). Resultatet er at støynivåestimatet faller raskt til det virkelige støynivå i tid med bare støy tilstede, mens støynivået øker langsomt, og unngår at støyestimatet øker i perioder med tale.
Selvsagt finnes mange andre typer støyestimeringsteknikker. Valget av teknikk kan velges av fagfolk i samsvar med omstendighetene.
En tilfeldighetsgenerator RND genererer et tilfeldig, hvitt signal med enhetsnivå. Dette signalet skaleres med forsterkningsfaktoren Gr, hvilket gir noilev, for å generere et støy sampel estimat
Nivået for støyestimatet er lik nivået for bakgrunnsstøyen. Støyestimatsamplene brukes til å fylle inn tapt støy forårsaket av Gn. Estimerte støysampler er ukorrelerte med den faktiske støy, og tilfeldig støy vil derfor tillegges til den gjenværende bakgrunnsstøy på effektbasis. Støyfyllingsforsterkningskalkulatoren NFC beregner den passende forsterkning:
Endelig skaleres den tilfeldige støy ved støyfyllingsforsterkningsfunksjonen Gf og adderes til utgangssamplet:
I frekvensbåndkombineringskretsen 200 samles alle subbånd, f.eks. ved bruk av et syntesefilter. Dette resulterer virtuelt i et tastaturstøyfritt audiosignal, som lar talesignal passere, uten oppfattbart tap av bakgrunnsstøy. De valgfrie, ytterligere kretser på fig. 2, innbefattet i boksen "komfortstøyadderingssubsystem", har den effekt at et komfortstøysignal genereres og adderes til det støyreduserte utgangssignalet. Adderingen av et komfortstøysignal kan omfatte beregning av en komfortstøyforsterkning som er basert på audiosignalet i frekvenssubbåndet, dvs. utgangen av kretsen 140, og det genererte estimat av tastaturaudiostøyen, dvs. utgangen av kretsen 170.
Fig. 3 er et skjematisk flytskjema som illustrerer prinsippene ved en fremgangsmåte for å redusere tastaturstøy i et konferanseutstyr som innbefatter en mikrofon og et tastatur.
Fremgangsmåten starter ved initieringstrinnet 300.
Først, i trinn 310, tilveiebringes et audiosignal, som stammer fra mikrofonen.
Tilveiebringelsestrinnet 310 kan omfatte trinn for forsterkning, filtrering, sampling og digitalisering, hvorved audiosignalet tilveiebringes som et digitalt audiosignal. Det digitale audiosignal kan videre splittes i frekvenssubbånd ved hjelp av en frekvensbåndvelger/frekvensdemultiplekser. De følgende prosesseringstrinn kan utføres på hvert av frekvensbåndene. Frekvenssubbåndene kan konfigureres i samsvar med en skala valgt fra settet bestående av en uniform skala, en logaritmisk skala, og en psykoakustisk type skala slik som en Mel-skala eller Bark-skala.
Videre, i deteksjonstrinnet 320, detekteres en operasjon av tastaturet. Ved deteksjon av tastaturaktivitet/tastaturoperasjon, fortsetter prosessen ved trinn 330.
Videre, i tastaturstøyestimattilveiebringelsestrinnet 330, tilveiebringes et estimat av tastaturaudiostøyen, som resulterer fra den detekterte operasjon av nevnte tastatur.
Estimatet av tastaturstøy kan tilveiebringes som et forhåndslagret estimat, hvilket kan velges fra forhåndslagrede data slik som en oppslagstabell. Valget av forhåndslagrede estimat blant de forhåndslagrede data kan være basert på en identifikasjon av en tast operert på tastaturet. De forhåndslagrede data kan være pregenerert ved opplæring.
Videre, i utgangssignalberegningstrinnet 340, beregnes et støyredusert utgangssignal basert på estimatet av tastaturaudiostøy og audiosignaler.
Beregningstrinnet 340 kan omfatte spektral subtraksjon.
Beregningstrinnet 340 kan omfatte, for hvert frekvenssubbånd, å beregne en forsterkningsverdi som er basert på audiosignalet, eller mer spesielt dets effekt i det aktuelle frekvenssubbåndet, og det tilveiebrakte estimat av tastaturaudiostøyen. Videre forsterkes audiosignalet ved bruk av forsterkningsverdien som forsterkningsfaktor.
Videre, i det valgfrie komfortstøyberegningstrinnet 350, kan et komfortstøysignal genereres.
Videre, i det valgfrie støyadderingstrinnet 360, kan komfortstøysignalet adderes til det støyreduserte utgangssignalet. Trinnet å addere nevnte komfortstøysignal kan omfatte beregning av en komfortstøyforsterkningsverdi, hvor beregningen er basert på audiosignalet, spesielt dets effekt i det aktuelle frekvenssubbånd, og det genererte estimat av tastaturaudiostøyen.
Det skal forstås at trinnene i fremgangsmåten illustrert i fig. 3 kan spesifiseres i ytterligere detalj ved det som fremlegges i fig. 1 og 2 og deres korresponderende detaljerte beskrivelser ovenfor, siden den illustrerte fremgangsmåten og den korresponderende innretningen samsvarer med hverandre. Mer spesifikt kan innretningen for å redusere tastaturstøy i et konferanseutstyr omfatte prosesseringsmidler som er konfigurert til å utføre den beskrevne fremgangsmåten. Slike prosesseringsmidler kan være distribuert, f.eks. som separate prosesseringsinnretninger i hvert element i innretningen, eller alternativt kan prosesseringsmidlerie være implementert som en sentral prosesseringsenhet som utfører beregningsoperasjonene for alle elementene i innretningen eller en kombinasjon av elementene innbefattet i innretningen.
Selv om den detaljerte beskrivelsen spesifiserer at et digitalt audiosignal som stammer fra mikrofonen kan tilveiebringes med et digitalt audiosignal, skal det bemerkes at det også er mulig å tilveiebringe audiosignalet som et analogt signal.

Claims (12)

1. Fremgangsmåte for å redusere tastaturstøy i et konferanseutstyr som innbefatter en mikrofon og et tastatur, idet fremgangsmåten omfatter: - å tilveiebringe et audiosignal som stammer fra nevnte mikrofon; - å detektere en operasjon av nevnte tastatur; og - å beregne et støyredusert utgangssignal; karakterisert ved- å tilveiebringe et forhåndslagret estimat av en tastaturaudiostøy som resulterer fra nevnte operasjon av nevnte tastatur; og at nevnte støyreduserte utgangssignal beregnes basert på nevnte estimat av nevnte tastaturaudiostøy og nevnte audiosignal.
2. Fremgangsmåte i samsvar med krav 1, hvor nevnte beregning av nevnte støyreduserte utgangssignal omfatter spektralsubtraksjon.
3. Fremgangsmåte i samsvar med krav 1 eller 2, hvor nevnte beregning av et støyredusert utgangssignal omfatter - beregning av en forsterkning, basert på nevnte audiosignal og nevnte estimat av nevnte tastaturaudiostøy, og - å multiplisere nevnte audiosignal med nevnte forsterkning.
4. Fremgangsmåte i samsvar med krav 1, hvor nevnte forhåndslagrede estimat er valgt fra forhåndslagrede data, idet valget gjøres basert på en identifikasjon av en tast operert på nevnte tastatur.
5. Fremgangsmåte i samsvar med krav 4, hvor nevnte forhåndslagrede tabell er forhåndsgenerert ved opplæring.
6. Fremgangsmåte i samsvar med et av kravene 1-5, hvor nevnte trinn med å tilveiebringe et audiosignal som stammer fra nevnte mikrofon omfatter forsterkning, filtrering, sampling og digitalisering, hvorved nevnte audiosignal blir tilveiebrakt som et digitalt audiosignal.
7. Fremgangsmåte i samsvar med et av kravene 1-6, hvor nevnte trinn med å tilveiebringe et audiosignal følges av et trinn med å splitte audiosignalet inn i frekvenssubbånd.
8. Fremgangsmåte i samsvar med krav 7, hvor nevnte frekvenssubbånd er konfigurert i samsvar med en skala valgt fra settet bestående av: - en uniform skala, - en logaritmisk skala, og - en psykoakustisk type skala slik som en Mel-skala eller Bark-skala.
9. Fremgangsmåte i samsvar med et av kravene 1-8, hvor nevnte beregning av et støyredusert utgangssignal videre omfatter å generere et komfortstøysignal, og å addere nevnte komfortstøysignal til nevnte støyreduserte utgangssignal.
10. Fremgangsmåte i samsvar med krav 9, hvor nevnte trinn med å addere nevnte komfortstøysignal omfatter - å beregne en komfortstøyforsterkning, basert på nevnte audiosiganl og nevnte estimat av nevnte tastaturaudiostøy, og - å forsterke nevnte komfortstøysignal med nevnte komfortstøyforsterkning.
11. Innretning for å redusere tastaturstøy i et konferanseutstyr som innbefatter en mikrofon og et tastatur, idet innretningen omfatter prosesseirngsmidler konfigurert til å utføre en fremgangsmåte som fremsatt i et av kravene 1-10.
12. Konferanseutstyr, omfattende en mikrofon, et tastatur og en innretning for å redusere tastaturstøy i nevnte konferanseutstyr som fremsatt i krav 11.
NO20082933A 2008-06-30 2008-06-30 Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr NO328622B1 (no)

Priority Applications (4)

Application Number Priority Date Filing Date Title
NO20082933A NO328622B1 (no) 2008-06-30 2008-06-30 Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
PCT/NO2009/000237 WO2010002266A1 (en) 2008-06-30 2009-06-25 Method and device for typing noise removal
EP09773799.3A EP2294697A4 (en) 2008-06-30 2009-06-25 METHOD AND DEVICE FOR NOISE REDUCTION
US12/495,270 US8295502B2 (en) 2008-06-30 2009-06-30 Method and device for typing noise removal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20082933A NO328622B1 (no) 2008-06-30 2008-06-30 Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr

Publications (2)

Publication Number Publication Date
NO20082933L NO20082933L (no) 2010-01-04
NO328622B1 true NO328622B1 (no) 2010-04-06

Family

ID=40452237

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20082933A NO328622B1 (no) 2008-06-30 2008-06-30 Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr

Country Status (4)

Country Link
US (1) US8295502B2 (no)
EP (1) EP2294697A4 (no)
NO (1) NO328622B1 (no)
WO (1) WO2010002266A1 (no)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7326864B2 (en) * 2006-06-07 2008-02-05 International Business Machines Corporation Method and apparatus for masking keystroke sounds from computer keyboards
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US9628517B2 (en) * 2010-03-30 2017-04-18 Lenovo (Singapore) Pte. Ltd. Noise reduction during voice over IP sessions
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法
KR101115559B1 (ko) * 2010-11-17 2012-03-06 연세대학교 산학협력단 통화 품질 향상 방법 및 장치
US9477350B2 (en) 2011-04-26 2016-10-25 Sentons Inc. Method and apparatus for active ultrasonic touch devices
US10198097B2 (en) 2011-04-26 2019-02-05 Sentons Inc. Detecting touch input force
US11327599B2 (en) 2011-04-26 2022-05-10 Sentons Inc. Identifying a contact type
US9639213B2 (en) 2011-04-26 2017-05-02 Sentons Inc. Using multiple signals to detect touch input
US9189109B2 (en) 2012-07-18 2015-11-17 Sentons Inc. Detection of type of object used to provide a touch contact input
GB2491173A (en) * 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
GB2493327B (en) 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
KR101850680B1 (ko) 2011-11-18 2018-04-20 센톤스 아이엔씨. 터치 입력 힘 검출
US10235004B1 (en) 2011-11-18 2019-03-19 Sentons Inc. Touch input detector with an integrated antenna
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
KR101652744B1 (ko) 2011-11-18 2016-09-09 센톤스 아이엔씨. 국소형 햅틱 피드백
US11262253B2 (en) 2017-08-14 2022-03-01 Sentons Inc. Touch input detection using a piezoresistive sensor
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9786275B2 (en) 2012-03-16 2017-10-10 Yale University System and method for anomaly detection and extraction
US9078066B2 (en) 2012-07-18 2015-07-07 Sentons Inc. Touch input surface speaker
US9348468B2 (en) 2013-06-07 2016-05-24 Sentons Inc. Detecting multi-touch inputs
US20140072143A1 (en) * 2012-09-10 2014-03-13 Polycom, Inc. Automatic microphone muting of undesired noises
US8750461B2 (en) 2012-09-28 2014-06-10 International Business Machines Corporation Elimination of typing noise from conference calls
CN103854653B (zh) 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
US9459715B1 (en) 2013-09-20 2016-10-04 Sentons Inc. Using spectral control in detecting touch input
US20180277134A1 (en) * 2014-06-30 2018-09-27 Knowles Electronics, Llc Key Click Suppression
US10755726B2 (en) * 2015-01-07 2020-08-25 Google Llc Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone
US10048811B2 (en) 2015-09-18 2018-08-14 Sentons Inc. Detecting touch input provided by signal transmitting stylus
US10908741B2 (en) 2016-11-10 2021-02-02 Sentons Inc. Touch input detection along device sidewall
US10296144B2 (en) 2016-12-12 2019-05-21 Sentons Inc. Touch input detection with shared receivers
US10126877B1 (en) 2017-02-01 2018-11-13 Sentons Inc. Update of reference data for touch input detection
US10585522B2 (en) 2017-02-27 2020-03-10 Sentons Inc. Detection of non-touch inputs using a signature
US20180293995A1 (en) * 2017-04-05 2018-10-11 Microsoft Technology Licensing, Llc Ambient noise suppression
JP6570577B2 (ja) * 2017-05-19 2019-09-04 キヤノン株式会社 音声処理装置、音声処理方法、およびプログラム
JP6878137B2 (ja) 2017-05-19 2021-05-26 キヤノン株式会社 音声処理装置、音声処理方法およびプログラム
US11580829B2 (en) 2017-08-14 2023-02-14 Sentons Inc. Dynamic feedback for haptics
CN111813243A (zh) * 2019-04-11 2020-10-23 群光电子股份有限公司 鼠标装置及其噪音消除方法
WO2021100436A1 (ja) * 2019-11-19 2021-05-27 株式会社ソニー・インタラクティブエンタテインメント 操作デバイス
US11776555B2 (en) 2020-09-22 2023-10-03 Apple Inc. Audio modification using interconnected electronic devices
GB2607950B (en) * 2021-06-18 2024-02-07 Sony Interactive Entertainment Inc Audio cancellation system and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060167995A1 (en) * 2005-01-12 2006-07-27 Microsoft Corporation System and process for muting audio transmission during a computer network-based, multi-party teleconferencing session
EP1703471A1 (en) * 2005-03-14 2006-09-20 Harman Becker Automotive Systems GmbH Automatic recognition of vehicle operation noises

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567677B1 (en) * 1998-12-18 2009-07-28 Gateway, Inc. Noise reduction scheme for a computer system
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
US20070078645A1 (en) * 2005-09-30 2007-04-05 Nokia Corporation Filterbank-based processing of speech signals
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060167995A1 (en) * 2005-01-12 2006-07-27 Microsoft Corporation System and process for muting audio transmission during a computer network-based, multi-party teleconferencing session
EP1703471A1 (en) * 2005-03-14 2006-09-20 Harman Becker Automotive Systems GmbH Automatic recognition of vehicle operation noises

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TEIXEIRA C J ET AL: "Spectral Substraction for Front-end Noise Reduction in a Speech Recognizer", INTERNET CITATION, 24 September 1991 (1991-09-24), pages 499 - 502, XP007907290, Retrieved from the Internet <URL:http://homepages.di.fc.ul.pt/~cjct/CT_pubs/EuroSpeech91.pdf> [retrieved on 20090218] *
VARGA A P ET AL: "Hidden Markov model decomposition of speech and noise", 19900403; 19900403 - 19900406, 3 April 1990 (1990-04-03), pages 845 - 848, XP010641868 *

Also Published As

Publication number Publication date
EP2294697A4 (en) 2016-07-20
NO20082933L (no) 2010-01-04
WO2010002266A1 (en) 2010-01-07
US20100027810A1 (en) 2010-02-04
US8295502B2 (en) 2012-10-23
EP2294697A1 (en) 2011-03-16

Similar Documents

Publication Publication Date Title
NO328622B1 (no) Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
US11127414B2 (en) System and method for reducing distortion and echo leakage in hands-free communication
US9870783B2 (en) Audio signal processing
NO332437B1 (no) Apparat og fremgangsmate for a supprimere et akustisk ekko
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
US20150003606A1 (en) Detecting and quantifying non-linear characteristics of audio signals
EP2700161B1 (en) Processing audio signals
WO2005125272A1 (ja) ハウリング抑圧装置、プログラム、集積回路、およびハウリング抑圧方法
CN111213359A9 (zh) 回声消除器和用于回声消除器的方法
JP2011166484A (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
EP3671740B1 (en) Method of compensating a processed audio signal
Akhtar et al. Acoustic feedback cancellation in hearing aids using dual adaptive filtering and gain-controlled probe signal
JP2008259032A (ja) 情報処理装置、およびプログラム
US20120207327A1 (en) Processing Audio Signals
KR20110007394A (ko) 실시간 하울링 신호 제거 시스템 및 그 방법
CN111370017B (zh) 一种语音增强方法、装置、系统
KR20220157475A (ko) 반향 잔류 억제
JP5359744B2 (ja) 音処理装置及びプログラム
CN114175606B (zh) 模块化回波消除单元
JP4247203B2 (ja) 自動音量制御方法、自動音量制御装置、プログラム、記録媒体
CA2840730A1 (en) Maintaining spatial stability utilizing common gain coefficient
JP6398470B2 (ja) ステレオエコー抑圧装置、エコー抑圧装置、ステレオエコー抑圧方法及びステレオエコー抑圧プログラム
WO2024093536A1 (zh) 音频信号处理方法及装置、音频播放设备、存储介质
CN115713942A (zh) 音频处理方法、装置、计算设备及介质
CN115881080A (zh) 一种语音通信系统中的声反馈处理方法及装置

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees