NO339834B1 - Flersensorisk taleforbedring ved bruk av sannsynligheten for ren tale - Google Patents
Flersensorisk taleforbedring ved bruk av sannsynligheten for ren tale Download PDFInfo
- Publication number
- NO339834B1 NO339834B1 NO20075732A NO20075732A NO339834B1 NO 339834 B1 NO339834 B1 NO 339834B1 NO 20075732 A NO20075732 A NO 20075732A NO 20075732 A NO20075732 A NO 20075732A NO 339834 B1 NO339834 B1 NO 339834B1
- Authority
- NO
- Norway
- Prior art keywords
- variance
- signal
- speech
- noise
- alternative sensor
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000004891 communication Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Time-Division Multiplex Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Meter Arrangements (AREA)
- Mobile Radio Communication Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
Bakgrunn
Et vanlig problem i talegjenkjenning og taleoverføring er forringelse av talesignalet på grunn av tilleggsstøy. Særlig har forringelse på grunn av tale til en annen taler vist seg å være vanskelig å detektere og/eller korrigere.
Nylig har det blitt utviklet et system som forsøker å fjerne støy ved bruk av en kombinasjon av en alternativ sensor, så som en benledningsmikrofon, og en luftledningsmikrofon. Dette system læres opp ved bruk av tre opplæringskanaler: et støyende alternativ sensor opplæringssignal, et støyende luftledningsmikrofon opplæringssignal og et ren luftledningsmikron opplæringssignal. Hvert av signalene konverteres til en særtrekks domene. Trekkene for det støyende alternative sensorsignal og det støyende luftledningsmikrofonsignal kombineres til en enkelt vektor som representerer et støyende signal. Særtrekkene for ren luftledningsmikrofonsignalet danner en enkelt ren vektor. Disse vektorer brukes deretter til å lære opp en avbildning mellom de støyende vektorer og de rene vektorer. Så snart de er opplært, anvendes avbildningene på en støyende vektor som er dannet av en kombinasjon av et støyende alternativ testsignal og et støyende luftlednings-mikrofontestsignal. Denne avbildningen produserer en ren signalvektor.
Dette system er dårligere enn optimalt når støybetingelsene for testsignalene ikke stemmer overens med støybetingelsene for opplæringssignalene, fordi avbildningene er designet for støybetingelsene for opplæringssignalene.
US 2002/0057810 A1 vedrører en datamaskin- og talekommunikasjonsenhet med en håndfri-innretning.
US 2004/0028154 A1 omhandler en kanalestimator basert på verdiene for mottatte data og på "a priori"-sannsynligheter kun for mottatte symboler.
Sammenfatning
Hovedtrekkene ved oppfinnelsen fremgår av de selvstendige patentkrav. Ytterligere trekk ved oppfinnelsen er angitt i de uselvstendige krav.
En fremgangsmåte og en anordning fastlegger en kanalrespons for en alternativ sensor ved bruk av et alternativ sensorsignal, et luftledningsmikrofonsignal. Kanalresponsen og en forutgående sannsynlighetsfordeling for ren taleverdier brukes deretter til å estimere en ren taleverdi.
Kort beskrivelse av tegningene
Figur 1 er et blokkdiagram for en databehandlingsomgivelse hvor utførelser av den foreliggende oppfinnelse kan praktiseres. Figur 2 er et blokkdiagram for en alternativ databehandlingsomgivelse hvor utførelser av den foreliggende oppfinnelse kan praktiseres. Figur 3 er et blokkdiagram for et system for taleprosessering ifølge en utførelse av den foreliggende oppfinnelse. Figur 4 er et blokkdiagram for et system for forbedret tale under en utførelse av den foreliggende oppfinnelse. Figur 5 er et flytdiagram for forbedring av tale under en utførelse av den foreliggende oppfinnelse. Figur 6 er et flytdiagram for forbedring av tale under en annen utførelse av den foreliggende oppfinnelse.
Detaljert beskrivelse av illustrerte utførelser
Figur 1 illustrerer et eksempel på en passende databehandlingssystemom-givelse 100 hvor utførelser av oppfinnelsen kan implementeres. Databehandlings-systemomgivelsen 100 er kun ett eksempel på en passende databehandlingsomgivelse, og det er ikke meningen å foreslå noen begrensning når det gjelder omfanget av bruk eller funksjonalitet av oppfinnelsen. Heller ikke skal databehandlings-omgivelsen 100 tolkes slik at den har noen avhengighet eller krav som er relatert til noen av eller en kombinasjon av komponenter som er illustrert i den eksemplifiserende operasjonelle omgivelse 100.
Oppfinnelsen er operasjonell med tallrike andre databehandlingsomgivelser eller -konfigurasjoner for generelt formål eller spesielt formål. Eksempler på velkjente databehandlingssystemer, omgivelser og/eller konfigurasjoner som kan være egnet til bruk sammen med oppfinnelsen inkluderer, men er ikke begrenset til, personlige datamaskiner, serverdatamaskiner, håndholdte eller bærbare innretninger, multiprosessorsystemer, mikroprosessorbaserte systemer, digital-til-analog TV-bokser, programmerbar forbrukerelektronikk, nettverks PCer, minidatamaskiner, stordatamaskiner, telefonisystemer, distribuerte databehandlingsomgivelser som inkluderer et hvilket som helst av de ovennevnte systemer eller innretninger, og lignende.
Oppfinnelsen kan beskrives i den generelle kontekst med datamaskinutførbare instruksjoner, så som programmoduler, som utføres av en datamaskin. Generelt inkluderer programmoduler rutiner, programmer, objekter, komponenter, datastrukturer, osv, som gjennomfører bestemte oppgaver eller implementerer bestemte abstrakte datatyper. Oppfinnelsen er designet til å praktiseres i distribuerte databehandlingsomgivelser hvor oppgaver iverksettes ved hjelp av fjerntliggende prosesseringsinnretninger som er forbundet gjennom et kommunikasjonsnettverk. I en distribuert databehandlingsomgivelse er programmoduler lokalisert i både lokale og fjerntliggende datamaskinlagringsmedia, inkludert minnelagringsinnretninger.
Med henvisning til figur 1, et eksemplifiserende system for implementering for utførelser av oppfinnelsen inkluderer en databehandlingsinnretning for generelt formål i form av en datamaskin 110. Komponenter i datamaskinen 110 kan inkludere, men er ikke begrenset til, en prosesseringsenhet 120, et systemminne 130 og en systembuss 121 som kopler forskjellige systemkomponenter inkludert systemminnet til prosesseringsenheten 120. Systembussen 121 kan være en hvilken som helst av flere typer av busstrukturer, inkludert en minnebuss eller minnekontroller, en perifer buss og en lokal buss som bruker en hvilken som helst av et mangfold av bussarkitekturer. Som eksempel, og ikke begrensning, inkluderer slike arkitekturer Industry Standard Architecture (ISA) buss, Micro Channel Architecture (MCA) buss, Enhanced ISA (EISA) buss, Video Electronics Standards Association (VESA) lokal buss og Peripheral Component Interconnect (PCI) buss også kjent som Mezzanine buss.
Datamaskinen 110 inkluderer typisk et mangfold av datamaskinlesbare media. Datamaskinlesbare media kan være hvilke som helst tilgjengelige media som kan aksesseres av datamaskinen 110, og inkluderer både flyktige og ikke-flyktige media, uttakbare og ikke-uttakbare media. Som eksempel, og ikke begrensning, kan datamaskinlesbare media omfatte datamaskinlagringsmedia og kommunikasjonsmedia. Datamaskinlagringsmedia inkluderer både flyktige og ikke-flyktige, uttakbare og ikke-uttakbare media som er implementert i en hvilken som helst metode eller teknologi for lagring av informasjon, så som datamaskinlesbare instruksjoner, datastrukturer, programmoduler eller andre data. Datamaskinlagrings media inkluderer, men er ikke begrenset til, RAM, ROM, EEPROM, flash-minne eller annen minneteknologi, CD-ROM, digitale allsidige disker (digital versatile disks, DVD) eller annen optisk disklagring, magnetiske kassetter, magnetisk bånd, magnetisk disklagring eller andre magnetiske lagringsinnretninger, eller et hvilket som helst annet medium som kan brukes til å lagre den ønskede informasjon og som kan aksesseres av datamaskinen 110. Kommunikasjonsmedia gir typisk konkret form til datamaskinlesbare instruksjoner, datastrukturer, programmoduler eller andre data i et modulert datasignal så som en bærebølge eller en annen transportmekanisme, og inkluderer et hvilket som helst informasjonsleveringsmedia. Uttrykket "modulert datasignal" betyr et signal som har en eller flere av sine karakteristika satt eller forandret på en slik måte at informasjon kodes i signalet. Som eksempel, og ikke begrensning, inkluderer kommunikasjonsmedia ledningsførte media, så som et ledningsført nettverk eller en direkte-ledningsført forbindelse, og trådløse media, så som akustiske, RF, infrarøde og andre trådløse media. Kombinasjoner av hva som helst av det ovenstående skal også inkluderes innenfor omfanget av datamaskinlesbare media.
Systemminnet 130 inkluderer datamaskinlagringsmedia i form av flyktig og/eller ikke-flyktig minne, så som leselager (read only memory, ROM) 131 og direkte minne (random access memory, RAM) 132. Et grunnleggende inngangs/utgangs-system (basic input/output system, BIOS) 133 inneholdende de grunnleggende rutiner som hjelper til med å overføre informasjon mellom elementer inne i datamaskinen 110, så som under igangkjøring, er typisk lagret i ROM 131. RAM 132 inneholder typisk data og/eller programmoduler som er umiddelbart aksesserbare for og/eller som for det inneværende opereres på av prosesseringsenheten 120. Som eksempel, og ikke begrensning, illustrerer figur 1 operativsystem 134, applikasjonsprogrammer 135, andre programmoduler 136 og programdata 137.
Datamaskinen 110 kan også inkludere andre uttakbare, ikke/uttakbare, flyktige/ikke-flyktige datamaskinlagringsmedia. Kun som eksempel illustrerer figur 1 en harddiskstasjon 141 som leser fra eller skriver til ikke-uttakbare, ikke-flyktige magnetiske media, en magnetisk diskstasjon 151 som leser fra eller skriver til en uttakbar, ikke-flyktig magnetisk disk 152, og en optisk diskstasjon 155 som leser fra eller skriver til en uttakbar, ikke-flyktig optisk disk 156, så som en CD-ROM eller annet optisk media. Andre uttakbare/ikke-uttakbare, flyktige/ikke-flyktige datamaskinlagringsmedia som kan brukes i den eksemplifiserende operasjonelle omgivelse inkluderer, men er ikke begrenset til, magnetbåndkassetter, flash-minne kort, digitale allsidige disker, digitale videobånd, faststoff RAM, faststoff ROM og lignende. Harddiskstasjonen 141 er typisk forbundet til systembussen 121 gjennom et ikke-uttakbart minnegrensesnitt, så som grensesnitt 140, og den magnetiske diskstasjon 151 og den optiske diskstasjon 155 er typisk forbundet til systembussen 121 ved hjelp av et uttakbart minnegrensesnitt, så som grensesnitt 150.
Stasjonene og deres tilknyttede datamaskinlagringsmedia som er omtalt ovenfor og illustrert på figur 1, tilveiebringer lagring av datamaskinlesbare instruksjoner, datastrukturer, programmoduler og andre data for datamaskinen 110. For eksempel er harddiskstasjonen 141 på figur 1 illustrert idet den lagrer operativsystem 144, applikasjonsprogrammer 145, andre programmoduler 146 og programdata 147. Merk at disse komponenter enten kan være de samme som eller forskjellige fra operativsystem 134, applikasjonsprogrammer 135, andre programmoduler 136 og programdata 137. Operativsystem 144, applikasjonsprogrammer 145, andre programmoduler 146 og programdata 147 er her gitt forskjellige nummer for å illustrere at, som et minimum, de er forskjellige kopier.
En bruker kan legge inn kommandoer og informasjon i datamaskinen 110 gjennom innmatingsinnretninger, så som et tastatur 162, en mikrofon 163 og en pekeinnretning 161, så som en mus, en styrekule eller en styrematte. Andre innmatingsinnretninger (ikke vist) kan inkludere en styrespak, spillkontroll, parabol-antenne, skanner eller lignende. Disse og andre innmatingsinnretninger er ofte forbundet til prosesseringsenheten 120 gjennom et brukerinnmatingsgrensesnitt 160 som er koplet til systembussen, men kan være forbundet ved hjelp av andre grensesnitt og busstrukturer, så som en parallellport, spillport eller en universell seriell buss (universal serial bus, USB). En monitor 191 eller en annen type av visningsinnretning er også forbundet til systembussen 121 via et grensesnitt, så som et videogrensesnitt 190. I tillegg til monitoren kan datamaskiner også inkludere andre periferiutgangsinnretninger, så som høyttalere 197 og skriver 196, som kan være forbundet gjennom et utgangsperiferigrensesnitt 195.
Datamaskinen 110 opereres i en nettverksomgivelse ved bruk av logiske forbindelser til en eller flere fjerntliggende datamaskiner, så som en fjerntliggende datamaskin 180. Den fjerntliggende datamaskin 180 kan være en personlig data maskin, en håndholdt innretning, en server, en ruter, en nettverks PC, en peer-innretning eller annen vanlig nettverksnode, og inkluderer typisk mange av eller alle de elementer som er beskrevet ovenfor i forhold til datamaskinen 110. De logiske forbindelser som er vist på figur 1 inkluderer et lokalnett (local area network, LAN) 171 og et regionnett (wide area network, WAN) 173, men kan også inkludere andre nettverk. Slike nettverksomgivelser er alminnelig i kontorer, datamaskinnettverk for hele virksomheter, intranett og Internett.
Når den brukes i en LAN nettverksomgivelse er datamaskinen 110 forbundet til LANet 171 gjennom et nettverksgrensesnitt eller en adapter 170. Når den brukes i en LAN nettverksomgivelse, inkluderer datamaskinen 110 typisk et modem 172 eller andre midler for etablering av kommunikasjoner over WANet 173, så som Internett. Modemet 172, som kan være internt eller eksternt, kan være forbundet til systembussen 121 via brukerinnmatingsgrensesnittet 160, eller annen passende mekanisme. I en nettverksomgivelse kan programmoduler som er vist i forhold til datamaskinen 110, eller deler av denne, være lagret i den fjerntliggende minnelagringsinnretning. Som et eksempel, og ikke begrensning, illustrerer figur 1 fjerntliggende applikasjonsprogrammer 185 som befinner seg på den fjerntliggende datamaskin 180. Det vil forstås at de nettverksomgivelser som er vist er eksemplifiserende og at andre midler til etablering av en kommunikasjonslink mellom datamaskinene kan brukes.
Figur 2 er et blokkdiagram over en mobil innretning 200, som er en eksemplifiserende databehandlingsomgivelse. Den mobile innretning 200 inkluderer en mikroprosessor 202, minne 204, inngangs/utgangs (input/output, l/O) komponenter 206 og et kommunikasjonsgrensesnitt 208 for kommunisering med fjerntliggende datamaskiner eller andre mobile innretninger. I en utførelse er de ovenfor nevnte komponenter koplet til kommunikasjon med hverandre over en passende buss 210.
Minnet 204 er implementert som et ikke-flyktig elektronisk minne, så som direkte adgang minne (random access memory, RAM) med en batterireservemodul (ikke vist), slik at informasjon som er lagret i minne 204 ikke forsvinner når den vanlige elektriske kraft til den mobile innretning er avstengt. En del av minnet 204 er fortrinnsvis allokert som adresserbart minne for programutførelse, mens en annen del av minnet 204 fortrinnsvis brukes til lagring, så som for å simulere lagring på en diskstasjon.
Minnet 204 inkluderer et operativsystem 212, applikasjonsprogrammer 214 så vel som et objektlager 216. Under operasjon blir operativsystemet 212 fortrinnsvis utført av prosessor 202 fra minne 204. Operativsystemet 212 er i en foretrukket
utførelse et WINDOWS<®>CE varemerke operativsystem som er kommersielt tilgjenge-lig fra Microsoft Corporation. Operativsystemet 212 er fortrinnsvis designet for mobile innretninger, og implementerer databasetrekk som kan benyttes av applikasjoner 214 gjennom et sett av åpne applikasjonsprogrammeringsgrensesnitt og -metoder.
Objektene i objektlageret 216 forvaltes av applikasjonene 214 og operativsystemet 212, i det minste delvis som respons på kall til de åpne
applikasjonsprogrammeringsgrensesnitt og -metoder.
Kommunikasjonsgrensesnittet 208 representerer tallrike innretninger og teknologier som tillater den mobile innretning 200 å sende og motta informasjon. Innretningene inkluderer ledningsførte og trådløse modemer, satellitt mottakere og kringkastingstunere, for å nevne noen få. Den mobile innretning 200 kan også være direkte forbundet til en datamaskin for å utveksle data med denne. I slike tilfeller kan kommunikasjonsgrensesnittet 208 være en infrarød transceiver eller en seriell eller parallell kommunikasjonsforbindelse, som alle er i stand til sanntidsoverføring av informasjon.
Inngangs/utgangskomponenter206 inkluderer et mangfold av innmatingsinnretninger, så som en berøringssensitiv skjerm, knapper, ruller og en mikrofon, så vel som et mangfold av utgangsinnretninger, inkludert en lydgenerator, en vibrerende innretning og et display. De innretninger som er opplistet ovenfor er gitt som eksempel, og behøver ikke alle å være tilstede på den mobile innretning 200. I tillegg kan andre inngangs/utgangsinnretninger være tilknyttet eller de kan finnes sammen med den mobile innretning 200 innenfor omfanget av den foreliggende oppfinnelse.
Figur 3 tilveiebringer et grunnleggende blokkdiagram for utførelser av den foreliggende oppfinnelse. På figur 3 genererer en høyttaler 300 et talesignal 302 (X) som detekteres av en luftledningsmikrofon 304 og en alternativ sensor 306. Eksempler på alternative sensorer inkluderer en strupemikrofon som måler brukerens strupevibrasjoner, en benledningssensor som er lokalisert på eller i umiddelbart nærhet av et ansikts- eller hodeskalleben til brukeren (så som kjevebenet) eller i øret til brukeren, og som sanser vibrasjoner i hodeskallen og kjeven som korresponderer til tale som genereres av brukeren. Luftledningsmikrofonen 304 er den type av mikrofon som er i alminnelig bruk for å konvertere audioluftbølger til elektriske signaler.
Luftledningsmikrofonen 304 mottar også omgivelsesstøy 308 (Z) som genereres av en eller flere støykilder 310. Avhengig av typen av omgivelsesstøy og nivået av omgivelsesstøyen, kan omgivelsesstøyen 308 også detekteres av den alternative sensor 306. Imidlertid, under utførelser av den foreliggende oppfinnelse, er den alternative sensor 306 typisk mindre sensitiv for omgivelsesstøy enn luftledningsmikrofonen 304. Alternativ sensorsignalet 316 (B), som genereres av den alternative sensor 306, inkluderer således generelt mindre støy enn luftledningsmikrofonsignalet 318 (Y) som genereres av luftledningsmikrofonen 304. Selv om den alternative sensor 306 er mindre sensitiv for omgivelsesstøy, genererer den noe sensorstøy 320 (W).
Stien fra høyttaler 300 til alternativ sensorsignalet 316 kan modelleres som en kanal som har en kanalrespons H. Stien fra omgivelsesstøy 308 til alternativ sensorsignalet 316 kan modelleres som en kanal som har en kanalrespons G.
Alternativ sensorsignalet 316 (B) og luftledningsmikrofonsignalet 318 (Y) tilveiebringes til en ren signalestimator 322, som estimerer et rent signal 324. Ren signalestimatet 324 tilveiebringes til en taleprosess 328. Ren signalestimatet 324 kan enten være et filtrert tidsdomenesignal eller en Fourier-transformasjonsvektor. Hvis ren signalestimatet 324 er et tidsdomenesignal, kan taleprosessen 328 ta form av en lytter, et talekodingssystem eller et talegjenkjenningssystem. Hvis ren signalestimatet 324 er en Fourier-transformasjonsvektor, vil taleprosessen 328 typisk være et talegjenkjenningssystem, eller inneholde en invers Fourier-transformasjon for å konvertere Fourier-transformasjonsvektoren til bølgeformer.
Innenfor direkte filtreringsforbedring 322, blir alternativ sensorsignalet 316 og mikrofonsignalet 318 konvertert til den frekvensdomene som brukes til å estimere den rene tale. Som vist på figur 4 blir alternativ sensorsignalet 316 og luftledningsmikrofonsignalet 318 levert til analog-til-digital konverterer 404 henholdsvis 414, for å generere en sekvens av digitale verdier, hvilke grupperes i rammer av verdier ved hjelp av rammekonstruktører 406 henholdsvis 416. I en utførelse sampler A-til-D konverterne 404 og 416 de analoge signaler ved 16 kHz og 16 bits per sampel, hvilket frembringer 32 kilobyte taledata per sekund, og rammekonstruktørene 406 og 416 frembringer en ny respektiv ramme for hver 10 millisekunder som inkluderer 20 millisekunder verdi med data.
Hver respektive ramme eller data som tilveiebringes av rammekonstruktørene 406 og 416 konverteres til frekvensdomenen ved bruk av hurtige Fourier-transformasjoner (Fast Fourier Transforms, FFT) 408 henholdsvis 418.
Frekvensdomeneverdiene for alternativ sensorsignalet og luftledningsmikrofonsignalet tilveiebringes til ren signalestimatoren 420, som bruker frekvensdomeneverdiene til å estimere ren talesignalet 324.
Under enkelte utførelser blir ren talesignalet 324 konvertert tilbake til tids-domenen ved bruk av inverse hurtige Fourier-transformasjoner 422. Dette frembringer en tidsdomeneversjon av ren talesignalet 324.
Utførelser av den foreliggende oppfinnelse tilveiebringer direkte filtrerings-teknikkerfor estimering av ren talesignalet 324. Under direkte filtrering blir et maksimum trolighetsestimat for kanalresponsen(e) for alternativ sensoren 306 fastlagt ved minimering av en funksjon i forhold til kanalresponsen(e). Disse estimater brukes deretter til å fastlegge et maksimum trolighetsestimat for ren talesignalet ved minimering av en funksjon i forhold til ren talesignalet.
Under en utførelse av den foreliggende oppfinnelse blir kanalresponsen G, som korresponderer til bakgrunnstale som blir detektert av alternativ sensoren, ansett for å være null. Dette resulterer i en modell mellom ren talesignalet og luftledningsmikrofonsignalet og alternativ sensorsignalet på:
hvory(t) er luftledningsmikrofonsignalet, b(t) er alternativ sensorsignalet, x(t) er ren talesignalet, z(t) er omgivelsesstøyen, w(t) er alternativ sensorstøyen og h(t) er kanalresponsen for ren talesignalet som er tilknyttet alternativ sensoren. I ligning 2 er alternativ sensorsignalet således modellert som en filtrert versjon av den rene tale, hvor filteret har en impulsrespons på h(t).
I frekvensdomenen kan ligningene 1 og 2 uttrykkes som:
hvor notasjonen i Yt(k) representerer den k-te frekvenskomponent av en ramme for et signal som er sentrert rundt tiden t. Denne notasjon gjelder for Kt(k), Zt(k), Ht(k), Wt(k) og Bt(k). I drøftelsen nedenfor er referansen til frekvenskomponent k for klarhets skyld utelatt. De som har fagkunnskap innen teknikken vil imidlertid medgi at de beregninger som gjennomføres nedenfor gjennomføres på en per frekvens komponentbasis.
Under denne utførelse blir de reelle og imaginære deler av støyen Ztog Wtmodellert som uavhengige null-midlere gaussiske, slik at:
tr1 re2
hvor * er variansen for støy Ztog °* er variansen for støy Wt.
Htmodelleres også som en gaussisk, slik at
hvor H0er det midlere av kanalresponsen og - H 2 er variansen av kanalresponsen.
Gitt disse modellparametere beskrives sannsynligheten for en ren taleverdi Xtog en kanalresponsverdi Htved hjelp av den betingede sannsynlighet:
som er proporsjonal til: som er lik:
I en utførelse blir den forutgående sannsynlighet for kanalresponsen,
' a» h) jgnorert0g nver av ,je gjenværende sannsynligheter behandles som en
gaussisk fordeling, idet den forutgående sannsynlighet for ren tale, p(Xt), blir behandlet som en null-midlere gaussisk med en varians °** , slik at
Ved bruk av denne forenkling og ligning 10, bestemmes maksimum trolighetsestimatet for Xtfor rammen ved t ved minimering: Siden ligning 12 minimeres i forhold til Xt, kan den partiellderiverte med hensyn på Xttas for å bestemme den verdi av Xtsom minimerer funksjonen. Spesifikt gir ^
hvor* f3 f' * representerer den komplekskonjugerte av Htog |Ht| representerer størrelsen av den komplekse verdi Ht.
Kanalresponsen Htestimeres fra hele ytringen ved minimering av:
Innsetting av uttrykket for Xtsom beregnes i ligning 13 i ligning 14, setting av -<2.>-0.
den partiellderiverte<dH>* og deretter antagelse av at H er konstant over alle tidsrammer T, gir en løsning for H på:
I ligning 15 krever estimeringen av H beregning av flere summasjoner over de siste T rammer i form av:
hvorster ^'^^-^l^l^eller ^
Med denne formulering er den første ramme (t = 1) like viktig som den siste ramme (t = T). I andre utførelser er det imidlertid foretrukket at de seneste rammer bidrar mer til estimeringen av H enn de eldre rammer. En teknikk for å oppnå dette er "eksponentiell aldring", hvor summasjonene i ligning 16 er erstattet med:
hvor c<1. Hvis c = 1, så er ligning 17 ekvivalent til ligning 16. Hvis c < 1, så er den siste ramme vektet med 1, rammen før den siste ramme er vektet med c (dvs. at den bidrar mindre enn den siste ramme), og den første ramme er vektet med c<1-1>(dvs. at den bidrar betydelig mindre enn den siste ramme). La oss ta et eksempel. La c = 0,99 og T = 100, da er vekten for den første ramme kun 0,99" = 0,37.
Under en utførelse estimeres ligning 17 rekursivt som
Siden ligning 18 automatisk vekter gamle data mindre, er det ikke nødvendig å bruke en fast vinduslengde, og data for de siste T rammer behøver ikke å lagres i minnet. Isteden er det kun nødvendig å lagre verdien for S(T-1) ved den foregående ramme.
Ved anvendelse av ligning 18, blir ligning 15:
hvor:
Verdien av c i ligningene 20 og 21 tilveiebringer en effektiv lengde for det antall av tidligere rammer som brukes til å beregne den inneværende verdi av J(T) og K(T). Spesifikt er den effektive lengde gitt av:
Den asymptotiske effektive lengde er gitt av: eller ekvivalent:
Ved bruk av ligning 24 kan c således settes til å oppnå forskjellige effektive lengder i ligning 19. For eksempel, for å oppnå en effektiv lengde på 200 rammer, settes ctil:
Så snart H har blitt estimert ved bruk av ligning 15 kan den brukes istedenfor alle Hti ligning 13 for å bestemme en separat verdi for Xtved hver tidsramme t. Alternativt kan ligning 19 brukes til å estimere Htved hver tidsramme t. Verdien av Htved hver ramme brukes da i ligning 13 for å bestemme Xt.
Figur 5 tilveiebringer et flytdiagram over en fremgangsmåte ifølge den foreliggende oppfinnelse som bruker ligninger 13 og 15 til å estimere en ren taleverdi for en ytring.
I trinn 500 blir frekvenskomponenter av rammene for luftledningsmikrofonsignalet og alternativ sensorsignalet fanget opp over hele ytringen.
tr2
I trinn 502 blir variansen for omgivelsesstøy * og alternativ sensorstøyen °» bestemt fra rammer for luftledningsmikrofonsignalet henholdsvis alternativ sensorsignalet som er fanget opp tidlig i ytringen under perioder når taleren ikke snakker.
Fremgangsmåten fastlegger når taleren ikke snakker ved identifisering av lavenergipartier av alternativ sensorsignalet, siden energien i alternativ sensorstøyen er mye mindre enn det talesignal som fanges opp av alternativ sensorsignalet. I andre utførelser kan kjente teknikker for taledeteksjon anvendes på luftledningstalesignalet for å identifisere når taleren snakker. Under perioder når taleren ikke anses å være snakkende, antas Xtå være null og ethvert signal fra luftledningsmikrofonen eller alternativ sensoren anses for å være støy. Sampler av disse støyverdiene samles inn fra rammene for ikke-tale, og brukes til å estimere variansen av støyen i luftledningssignalet og alternativ sensorsignalet.
I trinn 504 blir variansen av sannsynlighetsfordelingen for forutgående ren tale, 2
, bestemt. Under en utførelse beregnes denne variansen som:
hvor |Yd|<2>er energien i luftledningsmikrofonsignalet og summasjonen gjennomføres over et sett av talerammer som inkluderer de k talerammer før den inneværende taleramme og de m talerammer etter den inneværende taleramme. For å unngå en
negativ verdi eller en verdi på null for variansen, , bruker enkelte utførelser av den foreliggende oppfinnelse ' v som den laveste mulige verdi for alf *
I en alternativ utførelse realiseres en sanntids implementering ved bruk av glattingsteknikk som kun er avhengig av variansen til ren talesignalet i den forangående ramme for tale, slik at:
2
hvor er variansen av sannsynlighetsfordelingen for forutgående ren tale fra den siste ramme som inneholdt tale, p er en glattingsfaktor med et verdiområde mellom 0
og 1, a er en liten konstant og maxf ^' -°v»atIrf<I2>). angjr at det største av
\ Y*<I2>-o-» og<«>tirf<I2>ve|ges for å sørge for positive verdier av for alf * Under en spesifikk utførelse har glattingsfaktoren en verdi på 0,08 og a = 0,01.
I trinn 506 brukes verdiene for alternativ sensorsignalet og luftledningsmikrofonsignalet over alle rammene for ytringen til å fastlegge en verdi av H ved bruk av ligning 15 ovenfor. I trinn 508 brukes denne verdien av H sammen med de individuelle verdier av luftledningsmikrofonsignalet og alternativ sensorsignalet ved hver tidsramme for å bestemme en forbedret eller støyredusert taleverdi for hver tidsramme ved bruk av ligning 13 ovenfor.
I andre utførelser, istedenfor å bruke alle rammene i ytringen til å fastlegge en enkelt verdi av H ved bruk av ligning 15, fastlegges Htfor hver ramme ved bruk av ligning 19. Verdien av Htbrukes deretter til å beregne Xtfor rammen ved bruk av ligning 13 ovenfor.
I en annen utførelse av den foreliggende oppfinnelse anses kanalresponsen for alternativ sensoren for omgivelsesstøy å være ikke-null. I denne utførelse modelleres luftledningsmikrofonsignalet og alternativ sensorsignalet som:
hvor alternativ sensorenes kanalrespons for omgivelsesstøy er en ikke-null verdi av Gt(k).
Den maksimale trolighet for den rene tale Xtkan finnes ved minimering av en objektiv funksjon, hvilket resulterer i en ligning for den rene tale på:
For å løse ligning 30 må variansene 2 ' <rw 2 og ff* 2 så vel som kanalrespons-verdiene H og G være kjent. Figur 6 tilveiebringer et flytdiagram for identifisering av disse verdier og for fastleggelse av forbedrede taleverdier for hver ramme.
I trinn 600 blir rammer for ytringen identifisert der hvor brukeren ikke snakker.
<T2fr1
Disse rammer brukes deretter til a fastlegge variansen w og °* for alternativ sensoren henholdsvis omgivelsesstøyen.
For å identifisere rammer hvor brukeren ikke snakker kan alternativ sensorsignalet undersøkes. Siden alternativ sensorsignalet vil produsere mye mindre signalverdier for bakgrunnstale enn for støy, hvis energien til alternativ sensorsignalet er lav, kan det antas at taleren ikke snakker.
Etter at variansene for omgivelsesstøyen og alternativ sensorstøyen har blitt fastlagt, fortsetter fremgangsmåten på figur 6 i trinn 602<2>' hvor den fastlegger variansen av sannsynligheten for forutgående ren tale, ved bruk av ligningene 26 eller 27 ovenfor. Som omtalt ovenfor brukes kun disse rammer som inneholder tale til å fastlegge variansen av den forutgående rene tale.
I trinn 604 brukes de rammer som er identifisert der hvor brukeren ikke snakker til å estimere alternativ sensorens kanalrespons G for omgivelsesstøy. Spesifikt fastlegges G som:
Hvor D er det antall av rammer hvor brukeren ikke snakker. I ligning 31 antas det at G forblir konstant gjennom alle rammer for ytringen, og således ikke lengre er avhengig av tidsrammen t. I ligning 31 kan summasjonen over t erstattes med den eksponentielle svekkingsberegning som er omtalt ovenfor i forbindelse med ligningene 16-25.
I trinn 606 brukes verdien av alternativ sensorens kanalrespons G for bakgrunnstale til å fastlegge alternativ sensorens kanalrespons for ren talesignalet. Spesifikt beregnes H som:
I ligning 32 kan summasjonen over T erstattes med den rekursive eksponentielle svekkingsbergning som er omtalt ovenfor i forbindelse med ligningene 16-25.
Etter at H har blitt fastlagt i trinn 606, kan ligning 30 brukes til å fastlegge en ren taleverdi for alle rammene. Ved bruk av ligning 30 blir uttrykket Bt-GYt, under 1 '1 vanskelig nøyaktig å fastlegge fasedifferansen mellom bakgrunnstalen og dens lekkasje inn i alternativ sensoren.
Hvis den rekursive eksponentielle svekkingsberegning brukes istedenfor summasjonene i ligning 32, kan en separat verdi av Htfastlegges for hver tidsramme, og den kan brukes som H i ligning 30.
Claims (10)
1. Fremgangsmåte for fastleggelse av et estimat for en støyredusert verdi som representerer en del av et støyredusert talesignal, hvilken fremgangsmåte erkarakterisert vedat den omfatter: - generering (500) av et alternativ sensorsignal ved bruk av en annen alternativ sensor enn en luftledningsmikrofon, - generering (500) av et luftledningsmikrofonsignal; - anvendelse (506) av det alternative sensorsignalet og luftledningsmikrofonsignalet til å estimere en verdi for en kanalrespons for det alternative sensorsignal; og - anvendelse (508) av den estimerte verdi for kanalresponsen og en forutgående sannsynlighet for den støyreduserte verdi for å estimere den støy-reduserte verdi.
2. Fremgangsmåte som angitt i krav 1,
karakterisert vedat den forutgående sannsynlighet for den støy-reduserte verdi har en fordeling som er definert av en varians.
3. Fremgangsmåte som angitt i krav 2,
karakterisert vedat den videre omfatter fastleggelse (502) av variansen for fordelingen basert på luftledningsmikrofonsignalet.
4. Fremgangsmåte som angitt i krav 3,
karakterisert vedat fastleggelse (502) av variansen basert på luftledningsmikrofonsignalet omfatter dannelse av en sum av energiverdier for rammer for luftledningsmikrofonsignalet.
5. Fremgangsmåte som angitt i krav 4,
karakterisert vedat alle rammene for luftledningsmikrofonsignalet inneholder tale.
6. Fremgangsmåte som angitt i krav 3,
karakterisert vedat fastleggelse (502) av variansen av fordelingen videre omfatter fastleggelse av variansen basert på en varians av omgivelsesstøy.
7. Fremgangsmåte som angitt i krav 6,
karakterisert vedat fastleggelse (502) av variansen av fordelingen videre omfatter fastleggelse av en varians som er tilknyttet en inneværende ramme for det støyreduserte talesignal basert på en inneværende ramme for luftledningsmikrofonsignalet og en varians av fordelingen som er tilknyttet en forangående ramme for det støyreduserte talesignal.
8. Fremgangsmåte som angitt i krav 7,
karakterisert vedat fastleggelse (502) av variansen av fordelingen videre omfatter begrensning av verdiene av variansen slik at variansen alltid overstiger en minimumsverdi.
9. Fremgangsmåte som angitt i krav 8,
karakterisert vedat minimumsverdien er en prosentandel av variansen av omgivelsesstøyen.
10. Datamaskinlesbart medium som har datamaskinutførbare instruksjoner til-passet for gjennomføring av fremgangsmåtetrinnene i henhold til ethvert av krav 1-9.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/156,434 US7346504B2 (en) | 2005-06-20 | 2005-06-20 | Multi-sensory speech enhancement using a clean speech prior |
PCT/US2006/022058 WO2007001768A2 (en) | 2005-06-20 | 2006-06-06 | Multi-sensory speech enhancement using a clean speech prior |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20075732L NO20075732L (no) | 2008-03-17 |
NO339834B1 true NO339834B1 (no) | 2017-02-06 |
Family
ID=37574502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20075732A NO339834B1 (no) | 2005-06-20 | 2007-11-09 | Flersensorisk taleforbedring ved bruk av sannsynligheten for ren tale |
Country Status (14)
Country | Link |
---|---|
US (1) | US7346504B2 (no) |
EP (1) | EP1891627B1 (no) |
JP (1) | JP4975025B2 (no) |
KR (1) | KR101422844B1 (no) |
CN (1) | CN101199006B (no) |
AT (1) | ATE476734T1 (no) |
AU (1) | AU2006262706B2 (no) |
BR (1) | BRPI0611649B1 (no) |
CA (1) | CA2607981C (no) |
DE (1) | DE602006015954D1 (no) |
MX (1) | MX2007014562A (no) |
NO (1) | NO339834B1 (no) |
RU (1) | RU2407074C2 (no) |
WO (1) | WO2007001768A2 (no) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7115093B2 (en) | 2001-11-21 | 2006-10-03 | Ge Medical Systems Global Technology Company, Llc | Method and system for PDA-based ultrasound system |
WO2006033104A1 (en) * | 2004-09-22 | 2006-03-30 | Shalon Ventures Research, Llc | Systems and methods for monitoring and modifying behavior |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
CN102405463B (zh) * | 2009-04-30 | 2015-07-29 | 三星电子株式会社 | 利用多模态信息的用户意图推理装置及方法 |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
CN102340719B (zh) * | 2010-07-19 | 2014-07-23 | 深圳市宇恒互动科技开发有限公司 | 一种基于传感器获取声音信号的方法及装置 |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN105611061A (zh) * | 2015-12-31 | 2016-05-25 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音传输的方法、装置及移动终端 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US20040028154A1 (en) * | 1999-11-12 | 2004-02-12 | Intel Corporaton | Channel estimator |
Family Cites Families (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US629278A (en) * | 1898-07-23 | 1899-07-18 | Stickerei Feldmuehle | Shuttle for embroidering-machines. |
US636176A (en) * | 1899-01-10 | 1899-10-31 | Theodore Mundorff | Eyeglass-case. |
US785768A (en) * | 1904-06-27 | 1905-03-28 | Charles B Sippel | Collar-button. |
US3383466A (en) | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) * | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
US4382164A (en) * | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) * | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03160851A (ja) * | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) * | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) * | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5295193A (en) * | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) * | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) * | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
DE69527731T2 (de) * | 1994-05-18 | 2003-04-03 | Nippon Telegraph & Telephone Co., Tokio/Tokyo | Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) * | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) * | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) * | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
US5647834A (en) | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) * | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6243596B1 (en) * | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
US5943627A (en) * | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) * | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) * | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) * | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) * | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
US6434239B1 (en) * | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
DE69936476T2 (de) | 1998-03-18 | 2007-11-08 | Nippon Telegraph And Telephone Corp. | Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen |
CA2332833A1 (en) * | 1998-05-19 | 1999-11-25 | Spectrx, Inc. | Apparatus and method for determining tissue characteristics |
US6717991B1 (en) * | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) * | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) * | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) * | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) * | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US6760600B2 (en) * | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US6094492A (en) * | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US6738485B1 (en) * | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6542721B2 (en) * | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6258734B1 (en) * | 1999-07-16 | 2001-07-10 | Vanguard International Semiconductor Corporation | Method for patterning semiconductor devices on a silicon substrate using oxynitride film |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6339706B1 (en) * | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
GB2357400A (en) * | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) * | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) * | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6985858B2 (en) | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
US6701390B2 (en) * | 2001-06-06 | 2004-03-02 | Koninklijke Philips Electronics N.V. | FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle |
US6987986B2 (en) * | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
US7054423B2 (en) * | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) * | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) * | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) * | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7190797B1 (en) * | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
US7047047B2 (en) | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
WO2004068464A2 (en) * | 2003-01-30 | 2004-08-12 | Aliphcom, Inc. | Acoustic vibration sensor |
US7593851B2 (en) * | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) * | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2005
- 2005-06-20 US US11/156,434 patent/US7346504B2/en active Active
-
2006
- 2006-06-06 WO PCT/US2006/022058 patent/WO2007001768A2/en active Application Filing
- 2006-06-06 AU AU2006262706A patent/AU2006262706B2/en active Active
- 2006-06-06 AT AT06772389T patent/ATE476734T1/de not_active IP Right Cessation
- 2006-06-06 MX MX2007014562A patent/MX2007014562A/es active IP Right Grant
- 2006-06-06 DE DE602006015954T patent/DE602006015954D1/de active Active
- 2006-06-06 KR KR1020077026297A patent/KR101422844B1/ko active IP Right Grant
- 2006-06-06 JP JP2008518201A patent/JP4975025B2/ja active Active
- 2006-06-06 CN CN2006800195287A patent/CN101199006B/zh active Active
- 2006-06-06 RU RU2007147463/09A patent/RU2407074C2/ru active
- 2006-06-06 BR BRPI0611649-3A patent/BRPI0611649B1/pt active Search and Examination
- 2006-06-06 EP EP06772389A patent/EP1891627B1/en active Active
- 2006-06-06 CA CA2607981A patent/CA2607981C/en active Active
-
2007
- 2007-11-09 NO NO20075732A patent/NO339834B1/no unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US20040028154A1 (en) * | 1999-11-12 | 2004-02-12 | Intel Corporaton | Channel estimator |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
Non-Patent Citations (1)
Title |
---|
Yanli Zheng et al.: "Air- and bone-conductive integrated microphones for robust speech detection and enhancement", IEEE Workshop on Automatic Speech Recognitionon and Understanding, ASRU, pages 249-254., Dated: 01.01.0001 * |
Also Published As
Publication number | Publication date |
---|---|
BRPI0611649A2 (pt) | 2010-09-28 |
WO2007001768A3 (en) | 2007-12-13 |
DE602006015954D1 (de) | 2010-09-16 |
KR20080018163A (ko) | 2008-02-27 |
RU2407074C2 (ru) | 2010-12-20 |
EP1891627A4 (en) | 2009-07-22 |
BRPI0611649B1 (pt) | 2019-09-24 |
WO2007001768A2 (en) | 2007-01-04 |
CA2607981A1 (en) | 2007-01-04 |
RU2007147463A (ru) | 2009-06-27 |
US7346504B2 (en) | 2008-03-18 |
JP2008544328A (ja) | 2008-12-04 |
NO20075732L (no) | 2008-03-17 |
EP1891627A2 (en) | 2008-02-27 |
CN101199006B (zh) | 2011-08-24 |
EP1891627B1 (en) | 2010-08-04 |
CA2607981C (en) | 2014-08-19 |
AU2006262706B2 (en) | 2010-11-25 |
ATE476734T1 (de) | 2010-08-15 |
KR101422844B1 (ko) | 2014-07-30 |
MX2007014562A (es) | 2008-01-16 |
AU2006262706A1 (en) | 2007-01-04 |
CN101199006A (zh) | 2008-06-11 |
US20060287852A1 (en) | 2006-12-21 |
JP4975025B2 (ja) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO339834B1 (no) | Flersensorisk taleforbedring ved bruk av sannsynligheten for ren tale | |
CA2513195C (en) | Method and apparatus for multi-sensory speech enhancement | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
US7406303B2 (en) | Multi-sensory speech enhancement using synthesized sensor signal | |
NO332636B1 (no) | Fremgangsmate og apparat for flersensorisk taleopptaksforbering pa mobilanordning | |
KR20050020949A (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대잡음비를 사용하는 잡음 감소 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CHAD | Change of the owner's name or address (par. 44 patent law, par. patentforskriften) |
Owner name: MICROSOFT TECHNOLOGY LICENSING, US |