NO306489B1

NO306489B1 - Talesignalbehandlingsanordning

Info

Publication number: NO306489B1
Application number: NO910221A
Authority: NO
Inventors: Joji Kane; Akira Nohara
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1990-01-18
Filing date: 1991-01-18
Publication date: 1999-11-08
Also published as: EP0614170B1; FI115569B; FI910293A0; DE69132148D1; DE69130294T2; NO308337B1; DE69132148T2; NO992256D0; AU6868891A; HK1010007A1; EP0614170A1; NO992258D0; FI20030087A; AU644124B2; NO992258L; DE69132147T2; FI116594B; HK184795A; EP0439073A1; KR960005739B1

Description

Den foreliggende oppfinnelse vedrører en talesignaldeteksjonsanordning og en talesignaldeteksjonsfremgangsmåte, særlig i forbindelse med stemmegjenkjennings-teknikker.

Nylig er tale- (eller stemme-) deteksjonsanordninger for å detektere nærværet/fraværet av en tale blitt anvendt i stort omfang for anvendelser slik som talegjenkjennelse, talergjenkjennelse, utstyrsoperasjon ved tale og innmatning til datamaskin ved hjelp av tale.

Fig. 1 er et blokkskjema som viser en tidligere kjent taledeteksjonsanordning, hvis utformning og virkemåte vil bli forklart i det etterfølgende. En effektdeteksjonsseksjon 19 detekterer en effektverdi i et inngangssignal for å bevirke verdien til å bli sammenlignet ved hjelp av en komparator 21, og komparatoren 21 sammenligner så verdien med en forut bestemt satt verdi i en terskelinnstillingsseksjon 20 for å utmate et stemmedetektert signal når verdien er større enn den forutbestemte satte verdien.

Ifølge den tidligere kjente stemmedeteksjonsanordningen som er beskrevet ovenfor, selv om en stemmeinnmatning er liten, når det innmatede signal inneholder en støy som er annet enn stemmen, vil imidlertid en effekt som detekteres av effektdeteksjons-seksjonen større enn den satte verdi i terskelinnstillingsseksjonen 20 bevirke det stemmedetekterte signalet til å bli utmatet, hvorved det frembringes ubehaget ved hyppige, feilaktige deteksjoner.

Bruk av kepstrale teknikker er kjent i forbindelse med stemmebaserte/ikke-stemmebaserte beslutninger i talesignaler.

Artikkelen "Cepstrum pitch determination", A. Michael Noll, The Journal of the Acoustical Society of America, Vol. 41, No. 2, 197, sidene 293-309, angir eksempelvis å fastslå nevnte kepstrum i et innmatet talesignal og finne ut hvor dette kepstrum har en topp.

Artikkelen "Auswertung von Echtzeit-Ceptra zur schnellen Detektion von stimmhafter Laute" av M. Timme, H. Idler og T. Lay, Nachrichtentechnische Zeitschrift, 1973, Vol. 7, side 112 og de etterfølgende angir bruken av et kepstrum i et talesignal for stemmebasert/ikke-stemmebasert beslutning i forbindelse med talegjenkjenning.

Det er formålet med den foreliggende oppfinnelse å tilveiebringe en forbedret fremgangsmåte for gjenkjenning av talesignaler. Dette formål løses i henhold til trekkene knyttet til det selvstendige patentkrav, idet de underordnede krav er rettet på foretrukne utførelsesformer av oppfinnelsen.

Med en konfigurasjon ifølge den foreliggende oppfinnelse beregner kepstrumberegningsmidlet en kepstrumverdi av et inngangssignal for å oppnå det beregnede signal og et kepstrummiddelverdisignal ved det beregnede signal. En stemmedeteksjon blir så utført på basis av et signal som overskrider nevnte kepstrummiddelverdisignal, og styres av et terskelsignal beregnet og satt av nevnte kepstrummiddelverdisignal. Fig. 1 er et blokkskjema over en stemmedeteksjonsanordning ifølge en kjent teknikk. Fig. 2 er et blokkskjema over en stemmedeteksjonsanordning i en utførelsesform av

den foreliggende oppfinnelse.

Fig. 3 er et blokkskjema for en taledeteksjonsanordning ifølge en annen utførelsesform

av foreliggende oppfinnelse.

Fig. 4 er et kepstrumkarakteristisk diagram.

Fig. 5 er et blokkskjema over en taledeteksjonsanordning ifølge en annen

utførelsesform av foreliggende oppfinnelse.

Fig. 6 er et tidsavhengig kepstrumkarakteristisk diagram.

Idet det vises til tegningene vil en utførelsesform av den foreliggende oppfinnelse bli forklart i det etterfølgende.

Fig. 2 viser et blokkskjema over en taledeteksjonsanordning i en utførelsesform ifølge den foreliggende oppfinnelse. Med henvisning til fig. 2 vil utformningen og virkemåten for anordningen bli forklart. Et talesignal innmates inn i en kepstrumberegningsseksjon 1 som kepstrumberegningsmiddel som i sin tur oppnår et kepstrum av signalet.

Uttrykket "kepstrum" som er utledet fra uttrykket "spektrum" er i denne søknad symbolisert ved c(x) og oppnådd ved invers-Fourier-transformasjon av logaritmen av et korttidsspektrum S(co).

Dimensjonen av x er tid og x(tid) benevnes "kvefrens" som er utledet fra ordet "frekvens".

Del av nevnte kepstrum blir så levert til en middelverdiberegningsseksjon 2 som et middelverdiberegningsmiddel som i sin tur oppnår en kepstrummiddelverdi. En taledeteksjonsseksjon 3 som taledeteksjonsmiddel blir tilført nevnte kepstrum fra kepstrumberegningsseksjonen 1 og kepstrummiddelverdien fra middelverdiberegningsseksjonen 2. Stemmedeteksjonsseksjonen 3 detekterer så en topp i et kepstrum som er lik eller mer enn kepstrummiddelverdien, detekterer nærværet/fraværet av en stemme ved toppverdien, og når et kepstrum som overskrider kepstrummiddelverdien er større enn en terskelsatt verdi, genereres et stemmedetektert signal. Ved det tidspunktet genererer en terskelsettingsseksjon 4 som terskelsettingsmiddel et toppverdistyresignal som har en verdi beregnet i henhold til en bestemt ligning på basis av kepstrummiddelverdien fra middelverdiberegningsseksjonen 2, og angir minimumsnivået for stemmedeteksjon i stemmedeteksjonsseksjonen 3 ifølge kepstrummiddelverdien.

Ifølge den foreliggende utførelsesform som beskrevet ovenfor kan anordningen detektere nøyaktig toppen av et kepstrum selv når det utsettes for en støy, hvorved tillates en stemmedeteksjon å bli utført med en høy nøyaktighet. Dette betyr at den foreliggende oppfinnelse har en utformning som omfatter en kepstrumberegningsseksjon for å beregne en kepstrumverdi fra et stemmesignal, en middelverdiberegningsseksjon for beregning av en middelverdi av nevnte kepstrum ved et satt kvefrensintervall, en stemmedeteksjonsseksjon for å bestemme toppen i nevnte kepstrum og sammenligne den bestemte verdien med en referanseverdi for å diskriminere nærværet/fraværet av en stemme, og en terskelinnstillingsseksjon for å innstille referanseverdien for taledeteksjonsseksjonen ved å anvende kepstrumets middelverdi, med en virkning slik at kepstrumtoppen kan nøyaktig detekteres selv under et miljø som har støy, hvorved tillates at en stemmedeteksjon kan utføres med en høy nøyaktighet.

Idet det vises til tegningene, vil en utførelsesform av en annen foreliggende oppfinnelse bli forklart i det etterfølgende. Fig. 3 viser et blokkskjema over en taledeteksjonsanordning i utførelsesformen ifølge foreliggende oppfinnelse. Fig. 4 viser et kepstrum fra kepstrumberegningsseksjonen 1 i fig. 3, hvilket er uttrykt med en omhylning, selv om det er en diskret verdi. Utformningen og virkemåten av stemmedeteksjonsanordningen ifølge den foreliggende utførelsesform som er vist på fig. 3 sammen med fig. 4 vil bli forklart. Først blir et talesignal innmatet i en kepstrumberegningsseksjon 5 som i sin tur oppnår et kepstrum. Så blir del av nevnte kepstrum tilført en middelverdiberegningsseksjon 7 som i sin tur oppnår et kepstrummiddelverdi-nivå m ved kvefrensintervallet a-b vist på fig. 3. En kepstrumtilleggsseksjon 8 forsynes med nevnte kepstrum fra kepstrumberegningsseksjonen 5 og kepstrummiddelverdien fra middelverdiberegningsseksjonen 7. Kepstrumtilleggsseksjonen 8 tilføyer en kepstrumverdi som er lik eller mer enn kepstrummiddelverdinivået m ved en kvefrensbredde w med omfanget av kvefrensintervallet a-b, og leverer det kepstrumtilføyde resultat til en komparator 9. Komparatoren 9 forsynes med det kepstrumtilførte resultat fra kepstrumtilleggsseksjonen 8 og en satt utmatning fra en terskelinnstillingsseksjon 10, og når det kepstrumtillagte resultat er større enn den terskelsatte verdi, blir det utmatet et stemmedetektert signal. Ved det tidspunktet beregner terskelinnstillingsseksjonen 10 en terskel ifølge en bestemt ligning på basis av kepstrummiddelverdinivået m som er vist på fig. 4, og leverer den terskelsatte verdien som skal sammenlignes med det kepstrumtilføyde resultatet til komparatoren 9.

Ifølge den foreliggende oppfinnelse som beskrevet ovenfor kan kepstrumtoppen nøyaktig detekteres og avhengigheten av kepstrumformen nær kepstrumtoppen blir mindre, slik at evnen til kepstrumtoppdeteksjon blir stor, hvorved det tillates en taledeteksjon å bli utført med en stor nøyaktighet. Dessuten vil innstilling av en terskel ifølge kepstrummiddelverdien tillate en stemmedeteksjon å bli utført uten å være avhengig av størrelsen av et innmatet signal.

Dette betyr at taledeteksjonsseksjonen tillates å ha en utformning som omfatter en kepstrumtilleggsseksjon for tilføyelse av kepstrum når den er større enn kepstrummiddelverdien, og en komparator for å sammenligne den satte verdien fra terskelinnstillingsseksjonen med det tilføyde resultatet fra kepstrumtilleggsseksjonen for å utføre en stemmedeteksjon, med en virkning at avhengigheten av toppdeteksjonen for formen av kepstrumtoppen blir mindre, hvorved det tillates en stemmedeteksjon å bli utført med en stor nøyaktighet. En virkning oppnås dessuten ved at bestemmelsen av en terskelsatt verdi ifølge kepstrummiddelverdien tillater en stemmedeteksjon å bli utført uten avhengighet av størrelsen av et innmatet signal.

Idet det vises til tegningene, vil en utførelsesform av en annen foreliggende oppfinnelse bli forklart i det etterfølgende.

Fig. 5 viser et blokkskjema over en taledeteksjonsanordning i en utførelsesform ifølge den foreliggende oppfinnelse, og fig. 6 viser en kepstrumutmatning fra en kepstrumberegningsseksjon 11. På fig. 6 indikerer nevnte a-b et kvefrensintervall, nevnte m, og mner kepstrummiddelverdier ved intervallet a-b ved tidspunktet t]og t„, og w er en toppdeteksjonsbredde. Ved å anvende fig. 6 vil utformningen og virkemåten av utførelsesformen som er vist på fig. 5 bli forklart. Først blir et stemmesignal innmatet inn i kepstrumberegningsseksjonen 11 som i sin tur oppnår en kepstrumutmatning. Del av nevnte kepstrumutmatning blir så tilført en middelverdiberegningsseksjon 13 som i sin tur oppnår en kepstrummiddelverdi ved kvefrensintervallet a-b vist på fig. 6. En hukommelsesgruppe 17 som har et flertall av n lagerplasser tilføres med kepstrummiddelverdien fra middelverdiberegningsseksjonen 13, lagrer verdien fra kepstrummiddelverdien mjved tidspunktet ^ til kepstrummiddelverdien mnved tidspunktet t„ vist på fig. 6, og leverer de lagrede verdier til en kepstrumtilleggsseksjon 14. En hukommelsegruppe 16 som har n-satte lagringsplasser forsynes med kepstrumutmatningen fra kepstrumberegningsseksjonen 11, lagrer nevnte kepstrum fra verdien ved tidspunktet tjtil verdien ved tidspunktet tn, og leverer de lagrede verdier til kepstrumtilleggsseksjonen 14. Kepstrumtilleggsseksjonen 14 forsynes med nevnte kepstrum fra hukommelsen 16 og kepstrummiddelverdien fra hukommelsen 17, tilføyer kepstrumverdier som er større enn kepstrummiddelverdien ved hvert tidspunkt under tiden tj-t,,, og ved bredden w av kvefrensintervallet a-b vist å fig. 6, og leverer det kepstrumtilføyde resultat til en komparator 15. Komparatoren 15 forsynes med det kepstrumtilføyde resultat fra kepstrumtilføyelsesseksjonen 14 og en terskelsatt verdi beregnet av terskelinnstillingsseksjonen 18, og når det kepstrumtilføyde resultat er større enn den terskelsatte verdien, blir det utmatet et stemmedetektert signal. Ved det tidspunktet, i henhold til kepstrummiddelverdien ved tiden fra tjtil t„ vist på fig. 6, leverer terskelinnstillingsseksjonen 18 den terskelsatte verdien som skal sammenlignes med det kepstrumtilføyde resultat til komparatoren 15. Hukommelsesgruppene 16 og 17 er i en tilstand der, når en ny innmatning innmates til hukommelsesgruppene, gamle data forskyves til det neste lagersted, slik at et flertall av data alltid kan refereres til parallelt. Ifølge den foreliggende oppfinnelse, slik som beskrevet ovenfor, vil referering av de tidsavhengige endringer i nevnte kepstrumtopp tillate en mer nøyaktig stemmedeteksjon å bli utført.

Slik det vil være åpenbart fra ovenstående forklaring har den foreliggende oppfinnelse en utformning som omfatter en kepstrumberegningsseksjon for beregning av en kepstrumverdi fra et talesignal, en middelverdiberegningsseksjon for å beregne en middelverdi for nevnte kepstrum på et satt kvefrensintervall, en taledeteksjonsseksjon for å bestemme toppen av nevnte spektrum og sammenligne den bestemte verdien med en referanseverdi for å diskriminere nærværet/fraværet av en stemme, og en terskelinnstillingsseksjon for å innstille referanseverdien for taledeteksjonsseksjonen ved å anvende middelverdien av nevnte kepstrum, med den virkning at kepstrumtoppen nøyaktig kan detekteres selv under et miljø som har støy, hvorved det tillates en stemmedeteksjon å bli utført med en høy nøyaktighet.

Dette betyr at taledeteksjonsseksjonen tillates å ha en utformning som omfatter en første hukommelsesgruppe som består av n sett for lagring av kepstrum, en andre hukommelsesgruppe som består av n sett for lagring av kepstrummiddelverdien, en kepstrumtilleggsseksjon for tilføyelse av kepstrumer når den er større enn kepstrummiddelverdien, og en komparator for å sammenligne den satte verdien fra terskelinnstillingsseksjonen med det tilføyde resultat fra kepstrumtilleggsseksjonen for å gjennomføre en stemmedeteksjon, med en virkning at akkumuleringen av data i tidsrekker på hukommelsesgruppene tillater de tidsavhengige endringer av kepstrum å bli detektert og en mer nøyaktig taledeteksjon å bli utført.

Claims

1. Talesignaldeteksjonsanordning,karakterisert vedat den består av: kepstrumberegningsmiddel (1, 5, 11) for å oppnå et kepstrum av et innmatet signal, middelverdiberegningsmiddel (2, 7, 13) for å oppnå fra kepstrumutmatningen fra nevnte kepstrumberegningsmiddel (1, 5, 11) en kepstrummiddelverdi på et gitt kvefrensintervall, terskelinnstillingsmiddel (4, 10, 18) for å sette et stemmedeteksjonsterskelnivå på basis av kepstrummiddelverdiutmatningen fra nevnte middelverdiberegningsmiddel (2, 7, 13), og stemmedeteksjonsmiddel (3, 8, 9, 14-17) til hvilket kepstrummiddelverdiutmatningen fra nevnte middelverdiberegningsmiddel (2, 7, 113), kepstrumutmatningen fra nevnte kepstrumberegningsmiddel (1, 5, 11) og terskelutgangssignalet fra nevnte terskelsettingsmiddel (4, 10, 18) tilføres og som sammenligner en kepstrumutmatning som overskrider nevnte kepstrummiddelverdiutmatning med nevnte terskelutgangssignal for å detektere nærværet/fraværet av et talesignal i det innmatede signalet.

2. Signaldeteksjonsanordning som angitt i krav 1,karakterisertved at nevnte taledeteksjonsmiddel (3, 8, 9, 14-17) har en kepstrumtilleggsseksjon (8, 14) for tilføyelse av kepstrumverdi som overskrider nevnte kepstrummiddelverdi og en komparator (9, 15) for å sammenligne nevnte kepstrum-tilføyd utmatning fra nevnte kepstrumtilleggsseksjon (8, 14) med nevnte terskelutgangssignal.

3. Signaldeteksjonsanordning som angitt i krav 1,karakterisertved at nevnte stemmedeteksjonsmiddel (3, 8, 9, 14-17) har: en n-sett første hukommelsesgruppe (16) for lagring av nevnte kepstrum, et flertall av n andre hukommelsesgrupper (17) for lagring av nevnte kepstrummiddelverdi, en kepstrumtilleggsseksjon (14) for å tilføye den første hukommelsesutmatning som overskrider utmatningen fra den andre hukommelsens (17) sett som svarer til nevnte første hukommelse (16), og en komparator (15) for å sammenligne den kepstrumtilføyde utmatning fra nevnte kepstrumtilleggsseksjon (14) med terskelutgangssignalet fra nevnte terskelsettingsmiddel (18).

4. Fremgangsmåte for talesignaldeteksjon,karakterisertv e d at den omfatter trinnene: å beregne et kepstrum for oppnåelse av et kepstrum av et innmatet signal, å beregne en middelverdi på et gitt kvefrensintervall av kepstrumutmatningen fra nevnte kepstrumberegningstrinn, å sette en terskel for setting av et stemmedeteksjonsterskelnivå på basis av kepstrummiddelverdiutmatningen fra nevnte middelverdiberegningstrinn, og å detektere nærværet/fraværet av talesignal i det innmatede signal ved å sammenligne en kepstrumutmatning som overskrider nevnte kepstrummiddelverdiutmatning fra nevnte middelverdiberegningstrinn med nevnte terskelutgangssignal fra nevnte terskelsettingstrinn.