NO306800B1

NO306800B1 - Signalbehandlingsanordning

Info

Publication number: NO306800B1
Application number: NO910220A
Authority: NO
Inventors: Joji Kane; Akira Nohara
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1990-01-18
Filing date: 1991-01-18
Publication date: 1999-12-20
Also published as: NO910220D0; EP0637012A2; AU6868791A; FI104663B; NO910220L; FI910292A0; CA2034354A1; DE69105760D1; FI910292A; KR910015109A; HK184895A; EP0637012B1; EP0438174A2; EP0637012A3; EP0438174B1; DE69131883T2; CA2034354C; DE69131883D1; HK1010009A1; EP0438174A3

Description

Foreliggende oppfinnelse vedrører en talesignalbehandlingsanordning som angitt i ingressen av vedlagte krav 1.

En slik talesignalbehandlingsanordning er kjent fra SIGNAL PROCESSING, vol. 15. nr. 1, juli 1988, sidene 43-56, Amsterdam, NL; N. DAL DEGAN et al.: "Acoustic noise analysis and speech enhancement techniques for mobil radio applications".

Til ytterligere belysning av kjent teknikk kan det vises til EP-A1-0076687 (Kates); "Frequenz", vol. 42, nr. 2-3, 1988, sidene 79-84, Berlin, DE, K. Kroschel: "Umgebungsgeråuschreduktion bei Sprachkommnnikationssystemen"; og International Conference on Acoustics, Speech and Signal processing, Dallas, Texas, US, april 1987, sidene 205-208, J.A. Naylor et al.: "Techniques for Suppression of an Interfering Talker in Co-channel speech".

Fig. 1 er et skjema som viser skissemessig et tidligere kjent system for undertrykkelse av støy (Japansk patentsøknad, publikasjon nr. 63-500543).

På fig. 1 blir et tale-pluss-støysignal ved en inngang delt opp av en kanaldeler 19 i mange valgte kanaler. Deretter blir forsterkningene i disse forhåndsbehandlende talekanaler justert ved hjelp av en modifiseringsenhet 21 for kanalforsterkning som reaksjon på et modifisert signal som blir beskrevet senere, slik at forsterkningen i kanalene som har et lavt tale-til-støyforhold blir redusert. De enkelte kanaler som omfatter den etterbehandlede tale blir så satt sammen på nytt i en kanalkombinerings-enhet 26 for å danne et støyundertrykket talesignal som står til rådighet ved utgangen.

Dessuten blir de enkelte kanaler som omfatter den forhåndsbehandlede tale påtrykt en kanalenergiestimator 20 som tjener til å frembringe energiomhylningskurveverdier for hver kanal. Den etterbehandlede tale blir innmatet til en kanalenergiestimator 22. Den etterbehandlede, estimerte kanalenergi anvendes av en bakgrunnsstøyestimator 23 for å bestemme tale-/støyforholdet.

En kanal SNR estimator 24 (SNR= signal-/støyforhold) sammenligner bakgrunnsstøy-estimatet fra estimatoren 23 med kanalenergiestimatet fra estimatoren 20 for å danne et SNR-estimat. Det SNR-estimatet benyttes til å velge ut en bestemt forsterkningsverdi fra en kanalforsterkningstabell som omfatter forsterkningsverdier som er bestemt ved eksperimenter på forhånd. En kanalforsterkningsstyreenhet 25 frembringer forsterkningsverdiene for de enkelte kanaler når det gjelder det modifiserte signalet som reaksjon på SNR-estimatet.

Slikt tidligere kjent støyundertrykkende system justerer forsterkningen for å undertrykke støy uten å eliminere støyen, slik at det ikke blir mulig å oppnå et tilstrekkelig støyeliminert signal.

Den ovenfor nevnte artikkel av DAL DEAGAN et al omhandler en talesignalbehandlingsanordning som omfatter frekvensanalyseinnretning for innmatning deri av et signal bestående av en sammenblanding av støy og tale, og for frekvensanalysering av nevnte signal ved hjelp av en frekvens-analysemetode for å utmate et frekvens-analysert signal, signaldeteksjonsinnretning for å detektere en første tidsperiode som inneholder nevnte tale og støy og en andre tidsperiode som inneholder kun støy, støy-forutsigelseinnretning for innmatning deri av nevnte frekvens-analyserte signal for å forutsi støy i nevnte signal fra nevnte første tidsperiode som inneholder nevnte tale og støy på basis av en tidligere støy informasjon, og kanselleringsinnretning for å subtrahere nevnte forutsagte støy fra nevnte frekvensanalyserte signal.

Det er et formål med den foreliggende oppfinnelse å tilveiebringe en signalbehandlingsanordning for å frembringe et sikkert støyeliminert signal ved å løse problemet knyttet til et slikt tidligere kjent støyundertrykkelsesystem.

Dette formål oppnås med en talesignal-behandlingsanordning som angitt i krav 1.

Underkravene er rettet på trekk knyttet til foretrukne utførelsesformer av oppfinnelsen. Fig. 1 er et blokkskjema som viser et tidligere kjent støyundertrykkelsesystem; Fig. 2 er et blokkskjema som viser en utførelsesform av signalbehandlingsanordning ifølge oppfinnelsen; Fig. 3 er en grafisk fremstilling av spektrum og kepstrum i denne utførelsesform; Fig. 4 er en grafisk fremstilling over en støyforutsigelsemetode i denne utførelsesform; Fig. 5 er en grafisk fremstilling som viser en kanselleringsmetode basert på tid i denne utførelsesform; Fig. 6 er en grafisk fremstilling som viser en kanselleringsmetode med frekvensen som basis i denne utførelsesform; Fig. 7 er et blokkskjema som viser en utførelsesform av signalbehandlingsanordningen ifølge en annen utførelsesform av oppfinnelsen; Fig. 8 er et blokkskjema som viser en utførelsesform av en signalbehandlingsanordning ifølge en annen utførelsesform av oppfinnelsen; Fig. 9p er en grafisk fremstilling som viser en kanselleringskoeffisient i denne utførelsesform; Fig. 10 er et blokkskjema som viser en utførelsesform av en signalbehandlingsanordning ifølge en annen utførelsesform av oppfinnelsen; Fig. 11 er et blokkskjema som viser en utførelsesform av en signalbehandlingsanordning ifølge en annen utførelsesform av oppfinnelsen; og Fig. 12 er et blokkskjema som viser en utførelsesform av en signalbehandlingsanordning ifølge en annen utførelsesform av oppfinnelsen.

Med henvisning til tegningene skal utførelsesformen av den foreliggende oppfinnelse nå bli forklart i det etterfølgende.

Fig. 2 er et blokkskjema som viser en utførelsesform av en signalbehandlingsanordning ifølge den foreliggende oppfinnelse.

Inn i en mikroforn 1 vil en støy, slik som motorstøy, i tillegg til tale S bli innført. Mikrofonen 1 vil følgelig utmate et talesignal med en innblanding av støy (S+N).

En A/D (analog-til-digital) omformerinnretning 2 omdanner talesignalet med innblandet støy i form av et analogt signal til et digitalt signal.

En FFT (hurtig Fourier-transformasjon) innretning 3 som er et eksempel på en frekvensanalyseinnretning, utfører hurtig Fourier-transformasjon av stemmesignalet med en iblandet støy som dermed omdannes til det digitale signal.

En signaldeteksjonsinnretning 45 detekterer en signal del fra signalet med en iblanding av støy når dette er Fourier-transformert på denne måte. F.eks. er innretningen 45 forsynt med en kepstrum-analyseinnretning 4 for kepstrum-analyse av det Fourier-transformerte signal og signaldetekteringsinnretning 5 for deteksjon av en signaldel som utnytter det kepstrum som blir analysert. Uttrykket kepstrum (engelsk: "cepstrum" som er avledet fra uttrykket "spektrum" er i denne beskrivelse symbolisert med c(x) og fås ved invers Fourier-transformering av logaritmen for et korttids spektrum S(oo).

Dimensjonen for x er tid og t (tid) er betegnet som "kvefrens" som er avledet fra ordet "frekvens".

Et eksempel på bølgeformen er vist på fig. 3. Fig. 3(a) er et korttidsspektrum og fig.

3(b) er et kepstrum av dette. Signaldeteksjonsinnretningen 5 detekterer en signaldel fra støy delen ved hjelp av kepstrumet. Som en fremgangsmåte til diskriminering av signal - delen som benytter kepstrumet er det kjent en fremgangsmåte som f.eks. detekterer toppen i kepstrumet. Dette betyr at fremgangsmåten gjør bruk av en toppverdideteksjonsinnretning 51 til deteksjon av toppen i det analyserte cepstrum og en signal/støydeteksjonsinnretning 52 for diskriminering av signalet på grunnlag av den toppverdiinformasjon som er detektert på denne måte. P på fig. 3 (b) viser toppen, og den del som toppen finnes i er bestemt til å være en talesignaldel. Toppen blir detekert f.eks. på en slik måte at en angitt terskelverdi er stilt inn tidligere og slik at toppverdien blir sammenlignet med terskelverdien.

En støyforutsigende innretning 6 får som innmatning det Fourier-transformerte signal med iblandet støy og forutsier støyen i signaldelen på grunnlag av en tidligere støyinformasjon. F.eks. som vist på fig. 4 der aksen X representerer frekvens of aksen Y representerer talenivået, mens aksen Z representerer tid. Data for pl og p2 til pi er ved en frekvens fl tatt ut for å forutsi den foregående pj. F.eks. kan middelverdien for støy delen pl til pi forutsies å bli pj. Som et alternativ, når talesignaldel en fortsetter videre kan pj videre multipliseres med en dempningskoeffisient. I den foreliggende utførelsesform vil støyforutsigelsesinnretningen 6 for støy forutsi støyen i signaldelen under anvendelse av den signalinformasjon som er detektert av

signaldeteksjonsinnretningen 45. Når f.eks. signaldelen er detektert vil innretningen 45 forutsi støyen i signaldelen på grunnlag av data for støydelen i den nærmeste fortid sett

fra det punkt som begynner med signaldelen. Det er også fordelaktig at støydeteksjonsinnretningen 6 benytter signaldel (støydel) informasjon som detekteres av signaldeteksjonsinnretningen 45 for å samle den tidligere støy informasjon.

Kanselleringsinnretningen 7 subtraherer støyen som forutsies av støyforutsigelses-innretningen 6 på grunnlag av det Fourier-transformerte signal med innblanding av støy. F.eks. kan kanselleringen med tid som basis utføres på en måte der den forutsagte støybølgeform (b) subtraheres fra det støyholdige talesignal (a) som vist på fig. 5 for derved å gjøre det mulig bare å ta ut signalet (c). Dessuten kan som vist på fig. 6, kanselleringen med frekvens som grunnlag foregå på en slik måte at det støyholdige talesignalet (ab) blir Fourier-transformert (b), og deretter blir det forutsagte støy-spektrum (c) subtrahert (d) fra signalet som er transformert på denne måte og resten blir invers-Fourier transformert for å danne et talesignal uten støy (e). Naturligvis kan delen uten signal bestemmes til å være bare støy, slik at et signal fremkommer ved invers behandling av utmatningen fra FFT innretningen 3, og i denne del uten signal blir det inverse signalet tilføyet direkte til utgangen fra FFT innretningen 3 for fullstendig å eliminere støyen.

IFFT innretningen 8 som et eksempel på sammensetningsinnretning, vil invers-Fourier transformere det støyeliminerte signal som fås fra kanselleringsinnretningen 7. D/A omformerinnretningen 9 omformer det støyeliminerte talesignal som er et digitalt signal fra IFFT innretningen 8 til et analogt signal, f på fig. 2 angir at det støyeliminerte signal er et analogt signal.

En stemmegjenkjenner 10 gjenkjenner hvilket ord det støyeliminerte talesignal nå er.

Virkemåten for den ovenfor beskrevne utførelsesform vil bli forklart i det følgende.

Mikrofonen 1 innmates med en tale med iblandet støy og utmater talesignalet blandet med støy (S + N) (se fig. 2, a). Analog-/digitalomformerinnretningen 2 omdanner talesignalet med innblandet støy fra å være et analogt signal til et digitalt signal. FFT innretningen 3 utfører en hurtig Fourier-transformasjon på talesignalet med iblandet støy, slik at signalet dermed omdannes til det digitale signal (se fig. 2, b).

Signaldeteksjonsinnretningen 45 detekterer en signaldel i signalet der støy er blandet inn og som således er Fourier-transformert. F.eks. kan kepstrum-analyseinnretningen 4 foreta en kepstrumanalyse av det Fourier-transformerte signal. Videre vil signaldeteksjonsinnretningen 5 detektere den signaldel som utnytter det kepstrum som er analysert (se fig. 2, c). F.eks. vil innretningen 5 detektere toppen av kepstrumet for å påvise et signal.

Støyforutsigelsesinnretningen 6 innmates med det Fourier-transformerte signal med støy innblandet, og tar data for pl og p2 til og med pi ved en frekvens fl, og beregner middelverdien for støy delen pl til og med pi til å bli pj. Ved foreliggende oppfinnelse vil dessuten støyforutsigelsesinnretningen 6 forutsi støyen i signaldelen (se fig. 2, d) på grunnlag av data fra støydelen i den nærmeste fortid sett fra punktet som begynner med signaldelen når signalet blir detektert under anvendelse av signaldelinformasjonen som detekteres av signaldeteksjonsinnretningen 45.

Kanselleringsinnretningen 7 subtraherer den støy som er forutsagt av støyforut-sigelsesinnretningen 6 på grunnlag av det Fourier-transformerte signal der støy er innblandet (se fig. 2, e).

IFFT innretningen 8 invers-Fourier transformerer det støyeliminerte signal som fås fra kanselleringsinnretningen 7. D/A omformningsinnretningen 9 omdanner det støyeliminerte talesignal som er et digitalt signal man får fra IFFT innretningen 8 til et analogt signal (se fig. 2, f). Talegjenkjenneren 10 gjenkjenner hvilket ord det støyeliminerte talesignal som nå fremkommer er. Ettersom signalet ikke inneholder noe støy, vil gjenkjennelsesmulig-heten bli høy.

Støydeteksjonsinnretningen 6 ifølge oppfinnelsen kan være av en slik art at den forutsier støykomponenten i signaldelen ganske enkelt på grunnlag av tidligere støyinformasjon uten å benytte det detekterte signal fra signaldeteksjonsinnretningen 45. F.eks. kan innretningen 6 ganske enkelt forutsi at den tidligere støy fortsetter også i signaldelen.

Foreliggende oppfinnelse kan også anvendes til behandling av andre signaler der støy er innblandet og ikke være begrenset til det som gjelder for et talesignal.

Selv om foreliggende oppfinnelse kan bringes til utførelse ved hjelp av programvare som gjør bruk av en datamaskin, kan den også realiseres ved anvendelse av en dedikert maskinvarekrets.

Som beskrevet ovenfor, vil signalbehandlingsanordningen ifølge foreliggende oppfinnelse detektere en signaldel fra et frekvensanalysert signal der støy er innblandet, forutsi støyen i signaldelen på grunnlag av tidligere støyinformasjon, og subtrahere den forutsagte støy fra signalet som har innblanding av støy, slik at det derved frembringes et fullstendig støyeliminert signal.

Der støyforutsigelsesinnretningen 6 benytter et signal som er detektert av signaldeteksjonsinnretningen 45 som et utløsersignal til å forutsi en støy i signaldelen, kan støyen forutsies mer nøyaktig, hvorved det kan frembringes et signal hvorfra støy er eliminert på sikrere måte.

Med henvisning til tegningene vil andre utførelser av oppfinnelsen bli forklart i det følgende.

Fig. 7 er et blokkskjema for en signalbehandlingsanordning ifølge en annen utførelses-form for oppfinnelsen. På fig. 7 angir henvisningstallet 71 en bånddeleinnretning for deling av et talesignal som inneholder støy for hvert frekvensbånd som et eksempel på en frekvensanalyseinnretning for frekvensanalysering av et signal, mens henvisningstallet 72 viser til en støyforutsigelsesinnretning som innmates med utmatningen fra bånddeleinnretningen 71 for å forutsi en støykomponent. Henvisningstallet 73 angir en kanselleringsinnretning som skal eliminere støyen på den måte som blir beskrevet senere, og henvisningstallet 74 viser til en innretning som setter båndene sammen til dannelse av en tale som eksempel på en innretning til sammensetning av et signal.

De ovenfor beskrevne innretninger vil bli forklart mer i detalj i det følgende. Bånddeleinnretningen 71 tilføres en innmatning bestående av støyholdig tale/støy, utfører bånd-deling i m-kanal frekvensbånd, og leverer disse til støyforutsigelsesinnretningen 72 og kanselleringsinnretningen 73. Den støyforutsigende innretning 72 forutsier støykompo-nenten for hver kanal på grunnlag av tale-/støyinnmatningen som er delt i m-kanaler, og fører disse til kanselleringsinnretningen 73. F.eks. kan støyforutsigelsen foregå som beskrevet tidligere og vist på fig. 4. Kanselleringsinnretningen 73 tilføres et m-kanal-signal fra bånddeleinnretningen 71 og støyforutsigelsesinnretningen 72, kansellerer støy slik at støyen for hver kanal subtraheres som reaksjon på en innmatning i form av en kanselleringskoeffisient, og fører disse til innretningen 74 for bandsammensetning. Dette betyr at kanselleringen utføres ved å multiplisere den forutsagte støykomponent med kanselleringskoeffisienten. Vanligvis blir kanselleringen med tidsaksen som et eksempel på kanselleringsmetode utført som beskrevet tidligere og vist på fig. 5. Videre er det tidligere beskrevet og vist på fig. 6 hvorledes kanselleringen kan utføres med frekvensen som utgangspunkt. Innretningen 74 for bandsammensetning setter sammen m-kanalsignalet som fås fra kanselleringsinnretningen 73, slik at man får en taleutmatning.

Virkemåten for signalbehandlingsanordningen som er bygget opp ifølge utførelses-formene av oppfinnelsen, vil bli forklart i det følgende.

En støy holdig tale/støy innmatning blir bånddelt i m-kanal signaler ved hjelp av bånddeleinnretningen 71, og en støykomponent er av blir forutsagt for her kanal av støy-forutsigelsesinnretningen 72. Fra signalet som er bånddelt i m-kanaler av bånddeleinnretningen 71 blir støykomponenten tilført for hver kanal fra støyforutsigelsesinnretningen 72 eliminert. Støyelimineringsforholdet på det tidspunktet blir riktig satt for å forbedre artikulering for hver kanal ved hjelp av kanselleringskoeffisienten som innmatning. F.eks. blir artikuleringen forbedret på en slik måte at når et talesignal eksisterer, er kanselleringskoeffisienten lav også når det ikke eksisterer noe støy for derved ikke å eliminere for meget av støyen.

Deretter blir det støyeliminerte m-kanal signal man får fra kanselleringsinnretningen 72 satt sammen av innretningen 73 for bandsammensetning, slik at man får en taleutmatning.

Som beskrevet ovenfor, vil støyelimineringsforholdet ved foreliggende oppfinnelse når det gjelder kanselleringsinnretningen 73 kunne stilles riktig for hvert bånd ved hjelp av kansellerilngskoeffisientinnmatningen, og kanselleringskoeffisienten blir valgt nøyaktig ifølge en tale, slik at en artikulerings støy-undertrykket taleutmatning oppnås.

Fig. 8 er et blokkskjema for en signalbehandlingsanordning i henhold til en annen ut-førelsesform av oppfinnelsen.

På fig. 8 er de samme henvisningstall som fig. 7 benyttet for de samme komponenter. Dette betyr at henvisningstallet 71 viser til en bånddeleinnretning, tallet 72 viser til en støyforutsigelsesinnretning, tallet 73 viser til en kanselleringsinnretning, og tallet 74 viser til en innretning for bandsammensetning. En deteksjonsinnretning 87 for tone-høydefrekvens detekterer en slik tonehøydefrekvens i talen i den innmatede tale/støyinnmatning og fører denne til en kansellerings-koeffisient innstillingsinnretning 88. Tonehøydefrekvensen for talen blir bestemt med forskjellige fremgangsmåter som vist på tabell 1 og uttrykker tilstedeværelse/fravær av en tale og dennes egenskaper.

I stedet for deteksjonsinnretning 87 for tonehøydefrekvens kan en annen innretning for å detektere taledelen også tilveiebringes. Innstillingsinnretningen 88 for kanselleringskoeffisienten er bygget opp på en slik måte at den stiller inn et antall m av kanselleringskoeffisienter på grunnlag av den tonehøydefrekvens som tilføres fra deteksjonsinnretningen 87 for en tonehøydefrekvens og tilfører dem til kanselleringsinnretningen 73.

Virkemåten for signalbehandlingsanordningen som er bygget opp i henhold til denne utførelse vil bli forklart i det følgende.

En taleholdig støy/støy innmatning blir bånddelt i m-kanal signaler av bånddelerinnretningen 71 og en støykomponent av signalene forutsies for hver kanal av støyforutsigelsesinnretningen 72. Fra det signal som er bånddelt i m-kanaler av bånddelerinnretningen 71, blir støykomponenten som tilføres for hver enkelt kanal fra støyforutsigelsesinnretningen 72 eliminert. Støyelimineringsforholdet på dette tidspunkt stilles inn for hver kanal av den kanselleringskoeffisient som tilføres fra innstillingsinnretningen 88 for kanselleringskoeffisienter. Dette betyr at når den forutsagte støykomponent representerer as, signalet som inneholder støy bjog kanselleringskoeffisienten er av blir innmatningerCjfor kanselleringsinnretningen 73 lik (b; - ajx aj). Kanselleringskoeffisienten derav blir da bestemt på grunnlag av informasjonen fra deteksjonsinnretning 87 for tonehøyderfekvens.

Det betyr at deteksjonsinnretningen 87 for tonehøyderfekvensen innmates med en tale-/støyinnmatning og detekterer tonehøyderfekvensen i talen. Innstillingsinnretningen 88 for kanselleringskoeffisienten stiller inn disse koeffisienter som er vist på fig. 9. Fig. 9(a) viser således kanselleringskoeffisientene for hvert bånd, der f0-f3angir hele båndet for tale-/støyinnmatningen. f0- f3blir delt opp i m-kanaler for å stille inn kanselleringskoeffisienten. fj- f2angir særlig et bånd som inneholder tale som fås ved å anvende tonehøydefrekvensen. Derved blir i talebåndet kanselleringskoeffisienten holdt lav (nær null) for å eliminere støy så lite som mulig, og derved bevirke at artikuleringen blir forbedret. Dette skyldes at den menneskelige høresans kan høre en tale også om talen er blandet med noe støy. I båndene f0- f, og f2 - f3, som ikke inneholder tale er kanselleringskoeffisienten satt til 1 for å fjerne tilstrekkelig støy. Kanselleringskoeffisienten på fig. 9(b) benyttes når det er fastslått at signalet ikke inneholder noen tale og man anser at kun støy finnes i signalet, og av den grunn er kanselleringskoeffisienten satt til 1 for å fjerne i tilstrekkelig grad støy. Hvis det f.eks. fortsetter ikke å være noen vokal tilstede, sett med hensyn til frekvenstopp, kan signalet ikke betraktes som et talesignal, slik at det blir bestemt til å være støy. Det er fordelaktig om kanselleringskoeffisienten på fig. 9(a) og 9(b) kan omstilles riktig.

Foreliggende oppfinnelse kan anvendes ikke bare på talesignal, men også på andre former for signalbehandling.

Videre kan oppfinnelsen, selv om den virkeliggjøres som programvare som anvendes i en datamaskin, også virkeliggjøres ved å anvende en dedikert maskinvarekrets.

Som det skulle fremgå av beskrivelsen ovenfor, omfatter signalbehandlingsanordningen ifølge oppfinnelsen en støyforutsigelsesinnretning til forutsigelse av en støykomponent, kanselleringsinnretninger som innmates med en støyforutsagt utmatning fra støyforutsigelseinnretningen, en frekvensanalyseutmatning fra

frekvensanalyseinnretninger og en kanselleringskoeffisientsignal, og som kansellerer støykomponenten på grunnlag av kanselleringsforholdet fra

frekvensanalyseutmatningen, og sammensetningsinnretninger for signaler til sammensetning av den kansellerte utmatning fra kanselleringsinnretninger, slik at når støykomponenten elimineres fra en støyholdig tale, blir elimineringsgraden bestemt riktig slik at støy kan elimineres mest mulig og artikuleringen blir forbedret.

En annen utførelsesform blir nå beskrevet under henvisning til fig. 10 som er et blokkskjema for en signalbehandlingsanordning ifølge oppfinnelsen. På fig. 10 er anordningen bygget opp med en støyforutsigelsesenhet 101 som forutsier en støy i en tale-/støyutmatning og med styresignal som tilføres a en taledeteksjonsenhet 103, og fører en forutsagt støy til en kanselleringsenhet 102. Kanselleringsenheten 102 eliminerer støyen fra tale-/støyinnmatningen som reaksjon på den forutsagte støy som tilføres fra støyforutsigelsesenheten 102 for dermed å avgi en taleutmatning og føre denne til taledeteksjonsenheten 103. Taledeteksjonsenheten 103 detekterer tilstedeværelse /fravær av en virkelig tale i taleutmatningen for å oppnå en taledetektert utmatning, og fører denne taledetekterte utmatning som et styresignal til støyforutsigelsesenheten 101.

Virkemåten for denne oppbygning av anordningen vil nå bli forklart. En tale som overlapper med støy/støyinnmatning tilføres kanselleringsenheten 102 der støyen elimineres som reaksjon på den forutsagte støy som er tilført fra støyforutsigelsesenheten 101, slik at man får en taleutmatning. Tale-/støyinnmatningen som støyen elimineres fra i støykanselleringsenheten 102 tilføres taledeteksjonsenheten 103 der tilstedeværelse/fravær av tale detekteres for å oppnå en taledetektert utmatning. På denne måte vil støyforutsigelseenheten 102 arbeide slik at enheten som styresignal benytter den taledetekterte utmatning som angir tilstedeværelse/fravær av en tale som tilføres fra taledeteksjonsenheten 103 til å forutsi støy fra tale/støyinngangssignalet og viderefører det talegj enkj ente signal til kanselleringsenheten 102.

Dermed vil ifølge denne form for signalbehandlingsanordning taledeteksjon bli utført av det signal hvorfra støy tidligere er eliminert fra en tale/støyinnmatning, slik at tilstedeværelse/fravær av en tale kan detekteres nøyaktig uansett støy. Med en slik deteksjon kan støyforutsigelse utføres nøyaktig og støyen elimineres på en effektiv måte fra tale-/støyinnmatningen, slik at man får en klar og tydelig tale som utmatning.

Ennå en utførelsesform for oppfinnelsen er vist på fig. 11 som gjengir et blokkskjema for en signalbehandlingsanordning, der oppbygningen har en første kanselleringsenhet 105 som eliminerer en støy forutsagt av en første støyforutsigelsesenhet 104 fra en tale-/støyinnmatning, og fører dette støyeliminerte signal til en taledeteksjonsenhet 106, en andre støyforutsigelsesenhet 107 og en andre kanselleirngsenhet 108. Taledeteksjonsenheten 106 detekterer tilstedeværelse/fravær av det signal som ble tilført fra den første kanselleirngsenhet 105 for å gi en taledetektert utmatning, og føre denne taledetekterte utmatning som et styresignal til den første støyforutsigelsesenhet 104 og den andre støyforutsigelsesenhet 107. Den andre kanselleirngsenhet 108 eliminerer den støy som ble forutsagt av den andre støyforutsigelsesenhet 107 fra det signal som ble tilført fra den første kanselleirngsenhet 102, slik at man får en taleutmatning. Den første støyforutsigelsesenhet 104 og den andre støyforutsigelsesenhet 107 benytter begge styresignalet fra taledeteksjonsenheten 106 til henholdsvis å forutsi støyen i tale-/støy-innmatningen og forutsi støyen i signalet som kommer fra den første kanselleirngsenhet 105. Deretter vil den andre støyforutsigelsesenhet 107 føre resultatet av forutsigelsen til den andre kanselleringsenhet 108, som på sin side danner en taleutmatning av kanselleringsresultatet.

Virkemåten for denne utførelse vil bli forklart. En tale som overlapper med støy/støyinnmatningen tilføres en første kanselleirngsenhet 105, der støyen blir eliminert som reaksjon på en forutsagt støy tilført fra den første støyforutsigelsesenhet 104. En første taleutmatning som støyen allerede er blitt eliminert fra i den første kanselleirngsenhet 105 tilføres den andre kanselleirngsenhet 108 der støy blir videre og nøyaktig eliminert som reaksjon på en andre forutsagt støy tilført fra den andre støyforutsigelsesenhet 107 for å gi en taleutmatning. Også den første taleutmatning som støy allerede er blitt eliminert fra i den første kanselleringsenhet 105 tilføres taledeteksjonsenheten 106, der tilstedeværelse/fravær detekteres, slik at det avgis en taledetektert utmatning (styresignal). Nå vil den første støyforutsigelsesenhet 104 bruke styresignalet som angir tilstedeværelse/fravær av talen og som kommer fra taledeteksjonsenheten 106 til å forutsi støyen i tale-/støyinnmatningen, og fører et første støyforutsigelsesignal til den første kanselleirngsenhet 105. Videre vil den andre støyforutsigelsesenhet 107 virke slik at denne enhet 107 på tilsvarende måte benytter styresignalet som angir tilstedeværelse/fravær av en tale og som ble tilført fra taledeteksjonsenheten 106 for ytterligere å forutsi nøyaktig støyen fra det første taleutgangssignal hvorfra støy allerede er eliminert i den første kanselleirngsenhet 105 og den andre forutsagte støy føres til den andre kanselleringsenhet 108. Dermed kan med denne signalbehandlingsanordning tilstedeværelse/fravær av en tale detekteres nøyaktig uansett støy, og støyen blir videre forutsagt nøyaktig og eliminert fra den første taleinnmatning hvorfra søyen tidligere er blitt eliminert, slik at man muliggjør at en støy med et meget lavere nivå og som er hurtig varierende og ustabil elimineres.

Fig. 12 viser et blokkskjema for en annen utførelse av signalbehandlingsanordningen. Et FET behandlingsenhet 121 omdanner et inngangssignal til et frekvensregionsignal, og fører det omdannede signal til deteksjonsenheten 122 for en kepstrumtopp, en støyforutsigelsesenhet 125 og en kanselleringsenhet 126. Deteksjonsenheten 122 for kepstrumtoppen detekterer denne topp i frekvensregionsignalet som fas fra FET behandlingsenheten 121 og sender videre den detekterte kepstrumtopp til en estimeringsenhet 123 for tonehøyderfekvens. Estimeringsenheten 123 for tonehøydefrekvens estimerer en tonehøydefrekvens på grunnlag av kepstrumtoppen og fører tonehøyderfekvensen til en vindusdannende enhet 124 som på sin side frembringer et vindu som reaksjon på tonehøyderfekvensen og fører vinduet til en vektleggende enhet 127 for tonehøyderfekvensen. Støyforutsigelsesenheten 125 utfører støyforutsigelse for det signal som ble tilført fra FET behandlingsenheten 121 og viderefører det støyforutsagte signal til kanselleringsenheten 126 som på sin side behandler det signal som kommer fra FET behandlingsenheten 121 i henhold til den forutsagte støy, og avgir det behandlede signal til den vektleggende enhet 127 for tonehøydefrekvensen. Den vektleggende enhet 127 for tonehøyderfekvensen foretar en vektleggende behandling av denne frekvens på grunnlag av signalene som ble tilført fra den vindusfrembringende enhet 124 og kanselleringsenheten 126, og leverer det behandlede resultat til en IFFT enhet 128 som på sin side omdanner signalet til et tidsregionsignal for utmatning.

Virkemåten for en utførelsesform med denne oppbygning vil bli forklart. For det første blir et inngangssignal til den foreliggende anordning omdannet til et frekvensregionsignal av FET behandlingsenheten 121. Inngangssignalet som er omdannet til et frekvensområde blir underkastet deteksjon for å finne kepstrumtoppen i dette ved hjelp av deteksjonsenheten 122 for kepstrumtoppen, og videre bestemmes tonehøydefrekvens av den vektleggende enhet 123 for denne tonehøydefrekvens. På grunnlag av denne bestemte tonehøydefrekvens vil så den vindusfrembringende enhet 124 frembringe et riktig vindu til utførelse av talevektlegging som frekvensregiondata, og leverer vindu til den vektleggende enhet 127 for tonehøydefrekvensen. Støyforutsigelsesenheten 125 forutsier støyen i inngangssignalet som er omdannet til frekvensregion, bestemmer støykomponenten i frekvensregionen, og fører støykomponenten til kanselleringsenheten 126. Deretter vil kanselleringsenheten 126 nøyaktig eliminere for hver frekvenskomponent støykomponenten i frekvensregionen, oppnådd fra støyforutsigelsesenheten 125, fra inngangssignalet som er omdannet til frekvensregionsignalet fra FET behandlingsenheten 121, og det støyeliminerte signal føres til den vektleggende enhet 127 for tonehøydefrekvensen. Ven vektleggende enhet 127 for tonehøydefrekvensen styrer det støyeliminerte frekvenssignal som fas fra kanselleringsenheten 126 som reaksjon på vinduet for å utføre vektlegging av tale som fås fra den vindusfrembringende enhet 124, og utfører vektlegging av tale, og leverer talevektlagt signal til den IFFT behandlende enhet 128. Da vil den IFFT behandlende enhet 128 omdanne signalet fra den vektleggende enhet 127 for tonehøydefrekvensen til et tidsregionsignal for utmatning.

Ved denne utførelsesform av oppfinnelsen blir således støy eliminert fra det signal der en tale overlapper støyen, og der det finnes en vektleggende enhet for tonehøydefrekvens for vektleggelse av talekomponenten, slik at man far et talesignal med en utmerket artikulering.

Selv om det tilsynelatende er fordelaktig at vinduet som er frembragt i vindusfrembringelseenheten 124 i den ovenfor beskrevne utførelsesform representerer oppbygningen av en harmonisk bølge for tale, kan vinduet være et kamfilter og et lavpassfilter. Det er også klart at den vektleggende enhet 127 for tonehøyderfekvensen kan virkeliggjøres på en enkel måte i en multiplikasjonskrets.

Det er videre klart fra de ovenfor beskrevne utførelsesformer at en anordning som eliminerer støy ved omdannelse av et signal til et frekvensregionsignal omfatter forutsigelsesinnretninger for tonehøydefrekvens til forutsigelse av en slik frekvens, vindusfrembringende innretninger til frembringelse av et vindu på grunnlag av tonehøydefrekvensen, støyforusigelsesinnretninger, kanselleringsinnretninger for eliminering av støy på grunnlag av utmatningen fra støyforutsigelsesinnretningen, og vektleggende innretninger for tonehøydefrekvens for å vektlegge tonehøyden i den kansellerte utmatning fra kanselleringsinnretningen under anvendelse av vinduet fra den vindusfrembringende innretning, slik at støy kan elimineres fra signalet der en tale overlapper støyen og der videre støykomponenten kan vektlegges slik at man får et talesignal med høy artikulering.

Claims

1. Talesignalbehandlingsanordning omfattende: frekvensanalyseinnretning (3) for å innmate der et signal bestående av en blanding av støy og tale, og for frekvensanalysering av nevnte signal ved hjelp av en frekvensanalysemetode for å utmate et frekvensanalysert signal, signaldeteksjonsinnretning (20) for å detektere talesignaldeler somførste tidsperiode som inneholder nevnte tale og støy og støydeler som andre tidsperioder som inneholder kun støy, støyforutsigelseinnretning (6) for å innmate deri nevnte frekvensanalyserte signal for å forutsi støy i nevnte signal i nevnte første tidsperiode som inneholder nevnte tale og støy på basis av en tidligere støyinformasjon, og kanselleringsinnretning (7) for å subtrahere nevnte forutsagte støy fra nevnte frekvensanalyserte signal,karakterisert ved: kepstrum-analyseinnretning (4) for å utføre en kepstrumanalyse på nevnte frekvensanalyserte signal for å bestemme nevnte talesignaldeler.

2. Talesignalbehandlingsanordning som angitt i krav 1,karakterisert vedat nevnte støyforutsigelseinnretning (6) forutsier støyen ved å anvende som en trigger den første tidsperioden som detekteres av nevnte signaldeteksjonsinnretning.

3. Talesignalbehandlingsanordning som angitt i krav 2,karakterisert vedat nevnte signaldetekteringsinnretning (5) innbefatter toppverdideteksjonsinnretning (51) for å detektere en toppverdi i nevnte analyserte kepstrum, og signal-støydeteksjonsinnretning (52) for å diskriminere den første tidsperioden på basis av den toppverdi som er detektert av toppverdideteksjonsmidlet.

4. Talesignalbehandlingsanordning som angitt i krav 1 eller 2,karakterisert vedat nevnte støyforutsigelseinnretning (6) akkumulerer støyen under den andre tidsperioden.

5. Talesignalbehandlingsanordning som angitt i krav 1,karakterisert vedat nevnte kanselleringsinnretning (73) innmater deri dessuten et kanselleringskoeffisientsignal, og utfører subtraheringen med hensyn til kanselleringskoeffisienten.

6. Talesignalbehandlingsanordning som angitt i krav 1, omfattende: bånddelingsinnretning (71) for å dele et frekvensbånd i et innmatet signal bestående av en blanding av støy og tale, støyforutsigelseinnretning (72) for å innmate deri nevnte bånd-delte utmatning fra nevnte bånddelingsinnretning (71) for å forutsi en støykomponent, kanselleringsinnretning (73) for å innmate deri nevnte forutsagte støyutmatning fra nevnte støyforutsigelseinnretning (72), nevnte bånddelte utmatning fra nevnte bånddelingsinnretning (71) og et kanselleringskoeffisientsignal for å kansellere nevnte støykomponent i betraktning av kanselleringskoeffisienten fra nevnte bånddelte utmatning, og båndsammensetningsinnretning (74) for å sammensette nevnte kansellerte utmatning fra kanselleringsinnretningen,karakterisert ved: tonehøydefrekvensdeteksjonsinnretning (87) for å detektere en tonehøydefrekvens hos nevnte innmatede signal ved å anvende kepstruminformasjon, og kansellerings-koeffisient-innstillingsinnretning (88) for å innstille nevnte kanselleringskoeffisientsignal som reaksjon på nevnte tonehøydefrekvensutmatning fra nevnte tonehøyde-frekvensdeteksjonsinnretning (87).

7. Talesignalbehandlingsanordning som angitt i krav 1,karakterisert ved: en støyforutsigelsesenhet (101) for å utmate en forutsagt støy i et utmatet signal fra en blanding av støy og tale, en kanselleringsenhet (102) for å innmate deri nevnte innmatede signal og nevnte forutsagte støy for å oppnå en støy-eliminert taleutmatning, en taledeteksjonsenhet (103) for å detektere et nærvær/fravær av en tale fra nevnte støy-eliminerte taleutmatning for å utmate et styresignal som svarer til nevnte nærvær/fravær av talen, og idet nevnte støyforutsigelseenhet (101) utfører støyforutsigelse ved å anvende nevnte styresignal som nevnte taledeteksjonsenhet.

8. Talesignalbehandlingsanordning som angitt i krav 1,karakterisert ved: en første støyforutsigelseenhet (104) for å utmate en første forutsagt støy i et innmatet signal som har en blanding av støy og tale, en første kanselleirngsenhet (105) inn i hvilken nevnte innmatede signal og nevnte første forutsagte støy innmates, for å oppnå en første støy-eliminert taleutmatning, en taledeteksjonsenhet (106) for å detektere et nærvær/fravær av en tale fra nevnte støy-eliminerte taleutmatning for å utmate et styresignal som svarer til nærværet/fraværet av talen, idet nevnte første taleforutsigelseenhet (104) utfører støyforutsigelse under anvendelse av nevnte styresignal fra nevnte taledeteksjonsenhet, og at nevnte anordning dessuten er forsynt med: en andre taleforutsigelseenhet (107) for å utmate en andre forutsagt støy ved å anvende nevnte første støyeliminerte taleutmatning og nevnte styresignal, og en andre kanselleirngsenhet (108) inn i hvilken nevnte første støyeliminert taleutmatning og nevnte andre forutsagte støy innmates for å oppnå en andre støyeliminert taleutmatning.