NO304858B1 - Deteksjon av stemme-aktivitet - Google Patents

Deteksjon av stemme-aktivitet Download PDF

Info

Publication number
NO304858B1
NO304858B1 NO903936A NO903936A NO304858B1 NO 304858 B1 NO304858 B1 NO 304858B1 NO 903936 A NO903936 A NO 903936A NO 903936 A NO903936 A NO 903936A NO 304858 B1 NO304858 B1 NO 304858B1
Authority
NO
Norway
Prior art keywords
signal
speech
coefficients
filter
measure
Prior art date
Application number
NO903936A
Other languages
English (en)
Other versions
NO903936L (no
NO903936D0 (no
Inventor
Daniel Kenneth Freeman
Ivan Boyd
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by British Telecomm filed Critical British Telecomm
Publication of NO903936D0 publication Critical patent/NO903936D0/no
Publication of NO903936L publication Critical patent/NO903936L/no
Publication of NO304858B1 publication Critical patent/NO304858B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

En detektor for stemmeaktivitet er en innretning som forsynes med et signal med det formål å detektere taleperioder eller perioder som inneholder bare støy. Selvom foreliggende oppfinnelse ikke er begrenset til dette, er det en spesielt interessant anvendelse av slike detektorer i mobile radiotelefon-systemer hvor kjennskapet til nærvær eller ikke av tale kan brukes av en talekoder til å forbedre effektiv utnyttelse av radiospekteret, og hvor også støy-nivået (fra en kjøretøymontert enhet) vanligvis er høyt.
Formålet med deteksjon av stemmeaktivitet er å finne frem til et mål som skjelner godt mellom tale- og ikke-taleperioder. I apparater som omfatter en talekoder, er antall parametre lett tilgjengelig fra et eller annet trinn i koderen, og det er derfor ønskelig å økonomisere den nødvendige behandling ved å utnytte en eller annet slik parameter. I mange omgivelser opptrer hovedstøy-kilden i kjente, avgrensede områder av sekvensspekteret. I et kjøretøy i bevegelse er f.eks. meget av støyen (f.eks. motorstøy) konsentrert i de lavere frekvensområder av spekteret. Der hvor slik kjennskap til støyens spektrale posisjon er tilgjengelig, er det ønskelig å basere beslutningen på om tale er tilstede eller er fraværende på målinger tatt fra den del av spekteret som inneholder forholdsvis lite støy. Det ville i praksis selvsagt være mulig å forfiltrere signalet før analyse for å detektere taleaktivitet, men der hvor stemme-aktivitetsdetektoren følger utgangen fra en talekoder, ville forfiltrering forvrenge stemmesignalet som skal kodes.
Fra US patent nr. 4,358,738 er kjent en stemmeaktivi-tetsdetektor som sammenligner inngangssignalet med forut-bestemte støy-egenskaper, ved å filtrere inngangssignalet gjennom et par manuelt balanserte båndpassfiltere (med anvendelse av analoge komponenter) for å danne to frekvens-avhengige energi-segmenter. Denne fremgangsmåten har begrenset brukbarhet, av mange grunner. For det første ser et slikt uraffinert arrangement bort fra det faktum at mange typer støy kunne ha en energibalanse mellom de to båndene som ligner på et talesignal, og for det andre er balanseringen av filtrene arbeidskrevende, og krever manuell deteksjon av støyperioder for balanseringen. For det tredje er en slik anordning ute av stand til å tilpasse seg til foranderlig støy eller spektrale forandringer i omgivelsene (eller i kommunikasjonskanalen).
Ifølge et aspekt av foreliggende oppfinnelse er det derfor tilveiebrakt et apparat for deteksjon av stemme-aktivitet omfattende: (i) en anordning for å motta et første inngangssignal; (ii) en anordning for periodisk adaptiv generering av et andre signal som representerer en estimert støysignal-komponent i det første signalet; (iii) en anordning for periodisk dannelse, ut fra det første og det andre signal, av et mål for den spektrale likhet mellom en del av inngangssignalet og den estimerte støysignal-komponenten; og (iv) en anordning for å sammenligne målet med en terskelverdi for å frembringe et utgangssignal som indikerer forekomst eller fravær av tale. Apparatet kjennetegnes ved at (v) apparatet innbefatter en analyseanordning for frembringelse av koeffisienter for et filter med spektral respons som er det inverse av frekvensspekteret for et av de to signalene; og (vi) den måldannende anordningen fungerer for å frembringe et mål som er proporsjonalt med den nullte-ordens autokorrelasjon for et signal som oppnås ved filtrering av det andre av de to signalene med et filter med de nevnte koeffisienter.
I et annet aspekt tilveiebringer oppfinnelsen en fremgangsmåte for å detektere stemmeaktivitet i et første inngangssignal, omfattende de følgende trinn: (a) et andre signal genereres periodisk og adaptivt for å representere en estimert støysignal-komponent i det første signalet; (b) fra det første og annet signal dannes periodisk et mål for den spektrale likhet mellom en del av inngangssignalet og den estimerte støysignal-komponenten; og (c) målet sammenlignes med en terskelverdi for å frembringe et utgangssignal som indikerer nærvær eller fravær av tale. Fremgangsmåten ifølge oppfinnelsen kjennetegnes ved (d) det trinn å frembringe koeffisientene for et filter med spektral respons som er det inverse av frekvensspekteret for et av de nevnte to signaler; og ved at (e) målet er proporsjonalt med den nullte-ordens autokorrelasjon for et signal som oppnås ved filtrering av det andre av de to signalene med et filter som har de nevnte koeffisienter.
Oppfinnelsen omfatter også i ytterligere aspekter et apparat for koding av talesignaler, som kjennetegnes ved at det innbefatter et apparat som definert ovenfor, og endelig et mobiltelefonapparat som også kjennetegnes ved at det innbefatter et slikt apparat.
Utførelsesformer av oppfinnelsens første aspekt fremgår av de vedføyde uselvstendige patentkravene 2-14.
Noen utførelsesformer av oppfinnelsen vil nå bli beskrevet som et eksempel og under henvisning til de ved-føyde tegninger, hvor: Fig. 1 er et blokkskjema over en første utførelsesform av oppfinnelsen;
fig. 2 viser en annen utførelsesform av oppfinnelsen;
fig. 3 viser en tredje, foretrukket utførelsesform av oppfinnelsen.
Det generelle prinsipp som ligger til grunn for en første stemme-aktivitetsdetektor ifølge en første utførel-sesf orm av oppfinnelsen, er som følger:
En ramme med n signalsampler
(s0, s1#s2, s3, s4...<S>jj^) vil, når de føres gjennom et begrepsmessig eller imaginært (engelsk: notional) fjerde ordens ikke-rekursivt (finite impulse response - FIR) digitalfilter med impulsrespons (1, h0, h1#h2, h3) ,
resultere i et filtrert signal (når det sees bort fra sampler fra tidligere rammer) Den nullte ordens autokorrelasjonskoeffisient er summen av hvert ledd kvadrert, som kan være normalisert, dvs. dividert med det totale antall ledd (for konstante rammelengder er det lettere å utelate divisjonen); den for det filtrerte signalet er således
og dette er derfor et mål på effekten til det begrepsmessig filtrerte signalet s ', med andre ord av den del av signalet s som faller innenfor passbåndet til det imaginære filteret.
Utledning når det sees bort fra de fire første ledd, gir
Slik kan R'0oppnås fra en kombinasjon av autokorrelasjonskoeffisientene R^, veiet med konstantene i parentes som bestemmer det frekvensbånd som verdien av R'0reagerer på.
I virkeligheten er leddene i parentes autokorrelasjonskoeffisientene til pulsresponsen til det imaginære filteret, slik at uttrykket ovenfor kan forenkles til
hvor N er filterets orden og H-^er (de ikke-normaliserte) autokorrelasjonskoeffisientene til filterets pulsrespons.
Virkningen på signal-autokorrelasjonskoeffisientene ved filtrering av et signal kan med andre ord simuleres ved å frembringe en veiet sum av autokorrelasjonskoeffisientene til (det ufUtrerte) signalet, ved å bruke den pulsresponsen som det nødvendige filteret ville ha hatt.
Således kan en forholdsvis enkel algoritme som medfører et lite antall multiplikasjonsoperasjoner, simulere virkningen av et digitalt filter som typisk krever hundre ganger dette antall multiplikasjonsoperasjoner.
Denne filtreringsoperasjonen kan alternativt betraktes som en form for spektrumsammenligning, hvor signalespekteret blir tilpasset et referansespektrum (det inverse av responsen til det imaginære filteret). Siden det imaginære filteret i denne anvendelsen velges slik at det nærmer seg det inverse av støyspekteret, kan denne operasjonen betraktes som en spektral sammenligning mellom tale- og støy-spekteret, og den nullte autokorrellasjonskoeffisien-ten som således genereres (dvs. energien til det inverse filtrerte signalet), som et mål på ulikheten mellom spektrene. Itakura-Saito-forvrengningsmålet blir brukt i
LPC til å fastslå tilpasningen mellom prediktorfilteret og inngangsspekteret, og uttrykkes i en form som
hvor A0osv. er autokorrelasjonskoeffisientene til LPC-parametersettet. Man vil se at dette er nesten lik det forholdet som er utledet ovenfor, og når man husker at LPC-koeffisientene er uttakene på et FIR-filter med den inverse spektralrespons på inngangssignalet slik at LPC-koeffisient-settet er pulsresponsen til det inverse LPC-filteret, er det klart at Itakura-Saito-forvrengningsmålet i virkeligheten bare er en form av ligning 1, hvor filterresponsen H er det inverse av spektralformen til en allpol-modell av inngangssignalet .
I virkeligheten er det også mulig å transponere spektrene ved å bruke LPC-koeffisientene til testspekteret og autokorrelasjonskoeffisientene til referansespekteret til å oppnå et annet mål på den spektrale likhet.
Itakura-Saito-forvrengningsmålet er ytterligere diskutert i "Speech Coding based upon Vector Quantisation" av A. Buzo, A.H. Gray, R.M. Gray og J.D. Markel, IEEE Trans on ASSP, vol. ASSP-28, nr. 5, oktober 1980.
Siden rammene til signalet har bare en endelig lengde, og et antall uttrykk (N, hvor N er filterets orden) blir oversett, er resultatet ovenfor bare en tilnærmelse. Den gir imidlertid en overraskende god indikator på forekomst eller fravær av tale og kan således brukes som et mål M i taledeteksjon. I en omgivelse hvor støyspekteret er velkjent og stasjonært, er det godt mulig å ganske enkelt benytte faste h0, hxosv. koeffisienter til å modellere det inverse støyfilteret.
Et apparat som kan tilpasses forskjellige støy-omgivelser er imidlertid meget mer anvendelig.
Det vises til fig. 1 hvor et signal fra en mikrofon (ikke vist) i en første utførelsesform blir mottatt ved en inngang 1 og omdannet til digitale sampler s ved en passende samplingshastighet ved hjelp av en analog/digital-omformer 2. En LPC-analysekrets 3 (i en LPC-koder av kjent type) utleder så for suksessive rammer av liten n (f.eks. 160) sampler, et sett med N (f.eks. 8 eller 12) LPC-filterkoeffisienter 1^som blir overført for å representere inngangstalen. Talesignalet s tilføres også en korrelator-krets 4, (vanligvis en del av LPC-koderen 3 siden autokorrelas jonsvektoren R-l til talen også vanligvis henbringes som et trinn i LPC-analysen selv om man vil forstå at en separat korrelator kan være benyttet). Korrelatoren 4 frembringer autokorrelasjonsvektoren Rif innbefattet den nullte ordens korrelasjonskoeffisient R0og minst 2 ytterligere autokorrelasjonskoeffisienter RltR2, R3 . Disse blir så tilført en multipliseringsenhet 5.
En annen inngang 11 er koblet til en annen mikrofon anbragt i avstand fra taleren slik at den mottar bare bak-grunnsstøy. Inngangen fra denne mikrofonen blir omformet til et digitalt inngangs-sampletog ved hjelp av en analog/ditigal-omformer 12 og LPC-analysert ved hjelp av en annen LPC-analysator 13. LPC-"støykoeffisientene" som frembringes fra analysatoren 13 blir ført til en korrelatorenhet 14, og autokorrelasjonsvektoren som frembringes på denne måten, blir multiplisert ledd for ledd med autokorrelasjonskoeffisientene R^til inngangssignalet fra talemikrofonen i multipliseringskretsen 5, og de veide koeffisientene som frembringes på denne måten, blir kombinert i en adderer 6 ifølge ligning 1, for å være anvendelig som et filter som har den inverse formen av støyspekteret fra bare "støy"-mikrofonen (som i praksis er den samme som formen av støyspekteret i signal-pluss-støy-mikrofonen), og dermed filtrerer ut mesteparten av støyen. Det resulterende mål M blir sammenlignet med en terskel i en terskelkrets 7 for å frembringe en logisk utgang 8 som indikerer forekomsten eller fraværet av tale; hvis stor M er høy, blir tale bestemt å være tilstede.
Denne utførelsesformen krever imidlertid to mikrofoner og to LPC-analysatorer, noe som øker kostnadene og komplek-
siteten til det nødvendige utstyr.
Alternativt benytter en annen utførelsesform et tilsvarende mål utformet ved å bruke autokorrelasjonene fra støymikrofonen 11 og LPC-koeffisientene fra hovedmikrofonen1, slik at en ekstra autokorrelator i stedenfor en LPC-analysator er nødvendig.
Disse utførelsesformene er derfor i stand til å arbeide innenfor forskjellige omgivelser som har støy ved forskjellige frekvenser, eller innenfor et foranderlig støyspektrum i en gitt omgivelse.
Det vises til fig. 2 hvor det i den foretrukne utførel-sesf orm av oppfinnelsen er tilveiebragt et buffer 15 som lagrer et sett med LPC-koeffisienter (eller autokorrela-sjonsvektorene til settet) utledet fra mikrofoninngangen 1 i en periode identifisert som en "ikke-tale"-periode (dvs. bare støy). Disse koeffisientene blir så brukt til å utlede et mål ved å bruke ligning 1, som også selvsagt svarer til Itakura-Saito-forvrengningsmåler, bortsett fra at en enkelt lagret ramme med LPC-koeffisienter som svarer til en tilnærmelse av det inverse støyspektrum, blir brukt i stedenfor den foreliggende ramme med LPC-koeffisienter.
LPC-koeffisientvektoren L±som mates ut fra analysatoren 3, blir også tilført en korrelator 14 som frembringer autokorrelasjonsvektoren til LPC-koeffisientvektoren. Bufferlageret 15 blir styrt av tale/ikke-tale-utgangen fra terskelkretsen 7, på en slik måte at under "tale"-rammer tilbakeholder buffere "støy"-autokorrelasjonskoeffisientene, men under "støy"-rammer kan et nytt sett med LPC-koef f isienter brukes til å oppdatere buffere, f.eks. ved hjelp av en multippelsvitsj 16, via hvilken utganger fra korrelatoren 14 som inneholder hver autokorrelasjons-koef f isient, blir forbundet til buffere 15. Man vil forstå at korrelatoren 14 kan være anordnet etter buffere 15. Videre behøver tale/ikke-tale-beslutningen for koeffisient-oppdatering ikke skje fra utgangen 8, men kan utledes (og utledes fortrinnsvis) på annen måte.
Siden hyppige perioder uten tale inntreffer, blir LPC- koeffisientene som er lagret i buffere, oppdatert fra tid til annen, slik at apparatet således er i stand til å spore endringer i støyspekteret. Man vil forstå at slik oppdatering av buffere kan være nødvendig bare av og til, eller kan skje bare en gang ved begynnelsen av detektorens drift, hvis (noe som ofte er tilfelle) støyspekteret er forholdsvis stasjonært over tid, men i et mobilradio-system er hyppig oppdatering å foretrekke.
I en modifikasjon av denne utførelsesformen anvender systemet innledningsvis ligning 1 med koeffisient-uttrykk som svarer til et enkelt, fast høypassfilter, og begynner deretter så å adaptere ved å koble over til å bruke LPC-koef f isienter for "støyperioden". Hvis taledeteksjonen av en eller annen grunn svikter, kan systemet vende tilbake til å bruke det enkle høypassfilteret.
Det er mulig å normalisere målet ovenfor ved dividering med R0, slik at uttrykket som skal vurderes i terskelkretsen, har formen
Dette målet er uavhengig av den totale signalenergi i en ramme og er således kompensert for store signalnivå-endringer, men gir heller mindre markert kontrast mellom"støy"- og "tale"-nivåer og blir dermed fortrinnsvis ikke anvendt i omgivelser med høy støy.
I stedenfor å anvende LPC-analyse til å utlede de inverse filterkoeffisientene til støysignalet (fra enten støymikrofonen eller bare støyperiodene, som i de forskjellige utførelsesformer som er beskrevet ovenfor), er det mulig å modellere det inverse støyspektrum ved å bruke et adaptivt filter av kjent type; ettersom støyspekteret endres bare langsomt (som diskutert nedenfor) er en forholdsvis langsom koeffisient-adapteringshastighet som er felles for slike filtere, akseptabel. I en utførelsesform som svarer til fig. 1, er LPC-analysekretsen13 ganske enkelt erstattet av et adaptivt filter (f.eks. et trans- versalt FIR- eller gitter-filter), koblet for å lage støyinngangen hvitere ved å modelere det inverse filteret, og dets koeffisienter blir levert som før til autokorrelatoren 14.
I en annen utførelsesform som svarer til den på fig. 2, erLPC-analyseanordningen 3 erstattet av et slikt adaptivt filter, og bufferanordningen 15 er utelatt, men'svitsjen 16 virker til å forhindre det adaptive filteret fra å adaptere sine koeffisienter under taleperioder.
En annen stemme-aktivitetsdetektor for anvendelse med en annen utførelsesform av oppfinnelsen, vil nå bli beskrevet.
Fra det foregående vil det være klart at LPC-koef f isientvektoren ganske enkelt er pulsresponsen til etFIR-filter som har en respons i nærheten av den inverse spektrale formen til inngangssignalet. Når Itakura-Saito-forvrengningsmålet mellom tilstøtende rammer er utformet, er dette i virkeligheten lik energien til signalet, filtrert ved hjelp av LPC-filteret i den tidligere ramme. Hvis derfor spekteret for tilstøtende rammer adskiller seg litt fra hverandr, vil en tilsvarende liten mengde av spektralenergien til en ramme unnslippe filtrering og målet vil være lite. En stor spektraldifferanse mellom rammer frembringer tilsvarende et høyt Itakura-Saito-forvrengningsmål, slik at målet avspeiler den spektrale likhet mellom tilstøtende rammer. I en talekoder er det ønskelig å minimalisere datahastigheten, derfor gjøres rammelengden som lang som mulig; hvis m.a.o. rammelengden er lang nok, så bør et talesignal oppvise en signifikant spektralforandring fra ramme til ramme (hvis det ikke er tilfelle, er kodingen redundant). Støy har derimot en langsomt varierende spektral form fra ramme til ramme, og i en periode hvor tale er fraværende fra signalet, vil derforItakura-Saito-forvrengningsmålet tilsvarende være lavt, siden anvendelse av det inverse LPC-filteret fra foregående ramme "filtrerer ut" mesteparten av støyeffekten. Itakura-Saito-forvrengningsmålet mellom tilstøtende rammer av et støyfylt signal som inneholder intermitterende tale, er typisk høyere under taleperioder enn støyperioder. Graden av variasjon (som illustrert ved hjelp av standardavviket) er også høyere, og mindre intermittent variabel.
Det skal bemerkes at standardavviket for standardavviket av M også er et pålitelig mål; virkningen av å ta hvert standardavvik er hovedsakelig å glatte målet.
I denne annen form av stemme-aktivitetsdetektoren er den målte parameter som brukes til å bestemme om tale er tilstede, fortrinnsvis standard avviket av Itakura-Saito-forvrengningsmålet, men andre mål for varians og andre spektrale forvrengningsmål (basert f.eks. på FFT-analyse) kan anvendes.
Det har vist seg fordelaktig å anvende en adaptiv terskel ved stemme-aktivitetsdeteksjon. Slike terskler må ikke justeres under taleperioder, ellers vil talesignalet forsvinne i terskelkretsen. Det er følgelig nødvendig å styre terskeladaptoren ved å bruke et tale/ikke-tale-styresignal, og det foretrekkes at dette signalet er uavhengig av utgangen fra terskeladaptoren.
Terskelen T blir regulert adaptivt for å holde terskel-nivået like over nivået til målet M når bare støy er tilstede. Siden målet generelt vil variere tilfeldig når støy er tilstede, blir terskelen variert ved å bestemme et middelnivå over et antall blokker, og innstille terskelen ved et nivå som er proporsjonalt med denne middelverdien. I en støyfylt omgivelse er imidlertid dette vanligvis ikke tilstrekkelig, og en bestemmelse av graden av variasjonen av parameteren over flere blokker blir også tatt i betraktning.
Terskelverdien T blir derfor fortrinnsvis beregnet ifølge
T = M' + K.d
hvor M' er middelverdien av målet over et antall påfølgende rammer, d er standardavviket til målet over disse rammene, og K er en konstant (som typisk kan være 2) .
I praksis blir det foretrukket ikke å gjenoppta adap-tering umiddelbart etter at tale er indikert å være fraværende, men å vente for å sikre at fallet er stabilt (for å unngå hurtig gjentatt svitsjing mellom adapterings-og ikke-adapterings-tilstandene.
Det vises til fig. 3 hvor oppfinnelsen ifølge en foretrukket utførelsesform innbefatter de ovennevnte aspekter, og hvor en inngang 1 mottar et signal som blir samplet og digitalisert ved hjelp av analog/digital-omformer (ADC) 2, og levert til inngangen på en invers filteranalysator 3, som i praksis er en del av en talekoder med hvilken stemme-aktivitetsdetektoren skal funksjonere, og som genererer koeffisienter L^(typisk 8) for et filter svarende til det inverse av spekteret til inngangssignalet. Det digitali-serte signalet blir også levert til en autokorrelator 4 (som er en del av analysatoren 3), som genererer autokorrelasjonsvektoren R±til inngangssignalet (eller i det minste så mange lave ordensuttrykk som hver er LPC-koeffisienter). Virkemåten til disse deler av apparaturen er som beskrevet på fig. 1 og 2. Autokorrelasjonskoeffisientene R i blir så fortrinnsvis midlet over flere påfølgende talerammer (typisk5-20ms lange) for å forbedre deres pålitelighet. Dette kan oppnås ved å lagre hvert sett med autokorrelasjons-koef f isienter som mates ut av autokorrelatoren 4 i et bufferlager 4a, og anvende en midlingskrets 4b til å frembringe en veiet sum av de løpende autokorrelasjons-koef f isienter R±og de fra tidligere rammer som er lagret i og levert fra bufferlageret 4a. De midlede autokorrelasjonskoeffisienter hvor Ra±som utledes på denne måten, blir levert til en veie- og adderings-anordning 5, 6 som også mottar autokorrelas jonsvektoren A.^ for lagrede inverse filterkoeffisienter h±fra støyperioder fra en autokorrelator 14 via et bufferlager 15, og fra Ra±og A±danner et mål M fortrinnsvis definert som:
Dette målet blir så sammenlignet med en terskel i terskelkretsen 7, og det logiske resultat frembringer en indikasjon på nærværet eller fraværet av tale ved utgangen 8 .
For at de inverse f ilterkoef f isientene L ± skal svare til et rimelig estimat av det inverse av støyspekteret, er det ønskelig å oppdatere disse koeffisientene under perioder med støy (og selvsagt ikke å oppdatere dem under perioder med tale). Det blir imidlertid foretrukket at tale/ikke-tale-bestemmelsen på hvilken oppdateringen er basert, ikke avhenger av resultatet av oppdateringen, ellers kan en enkelt galt identifisert ramme i signalet resultere i at stemme-aktivitetsdetektoren deretter går "ut av lås" og feilaktig identifiserer de følgende rammer. Derfor blir det fortrinnsvis tilveiebragt en styresignal-genererende krets 20, i virkeligheten en separat stemme-aktivitetsdetektor, som danner et uavhengig styresignal som indikerer forekomsten av eller fraværet av tale for å styre den inverse filteranalysatoren 3 (eller bufferlageret 8) slik at de inverse filter-autokorrelasjonskoeffisientene A±som brukes til å danne målet M, bare blir oppdatert under "støy"-perioder. Styresignal-generatorkretsen 20 omfatter en LPC-analysator 21 (som igjen kan være en del av en talekoder og som spesielt kan utgjøres av analysatoren 3) som frembringer et sett med LPC-koeffisienter M^_ svarende til inngangssignalet, og en autokorrelator 21a (som kan utgjøres av autokorrelatoren 3a) som utleder autokorrelasjonskoeffisientene B±til . Hvis analysatoren 21 utgjøres av analysatoren 3, så er Mi=Liog Bi=Ai. Disse autokorrelasjonskoeffisientene blir så levert til veie- og adderings-anordningen 22, 23 (ekvivalent med 5, 6) som også mottar autokorrelasjonsvektoren Ri for inngangssignalet fra autokorrelatoren 4. Et mål på den spektrale likhet mellom inngangs-talerammen og den foregående taleramme blir således beregnet; dette kan være Itakura-Saito-forvrengningsmålet mellom Ri for den aktuelle ramme og Bi for den foregående ramme, som beskrevet ovenfor, eller det kan istedet være utledet ved beregning av Itakura-Saito-forvrengningsmålet for R±og Bi i den aktuelle ramme, og subtrahering (i subtraktoren 25) av det tilsvarende mål for den tidligere ramme som er lagret i bufferlageret 24, for å generere et spektralt differansesignal (i en ramme er målet fortrinnsvis energi-normalisert ved divisjon med R0) . Bufferlageret 24 blir så selvsagt oppdatert. Dette spektrale differanse-signalet er når det sammenlignes i en terskelkrets 26, som diskutert ovenfor, en indikator på forekomsten eller fraværet av tale. Det har imidlertid vist seg at selv om dette målet er utmerket når det gjelder å skjelne støy fra ustemt tale (en oppgave som tidligere kjente systemer vanligvis ikke er i stand til å løse) er det vanligvis mindre i stand til å skjelne støy fra stemt tale. Følgelig er det fortrinnsvis i kretsen 20 også anordnet en deteksjonskrets for stemt tale omfattende en tonehøyde-analysator 27 (som i praksis kan virke som en del av en talekoder, og som spesielt kan måle den langsiktige prediktor-forsinkelsesverdi som frembringes i en multipuls LPC-koder). Tonehøyde-analysatoren 27 frembringer et logisk signal som er "sant" når stemt tale detekteres, og dette signalet sammen med målet som er utledet fra terskelkretsen 26 (som vanligvis vil være "sann" når ustemt tale er tilstede), blir levert til inngangen på en NOR-port 28 for å generere et signal som er "usant" når tale er tilstede og"sant" når støy er tilstede. Dette signalet blir levert til bufferlageret 8 (eller til den inverse filteranalysatoren 3) slik at inverse filterkoeffisienter h±bare blir oppdatert under støyperioder.
Terskeladaptoren 29 er også koblet for å motta ikke-tale-signalstyreutgangen fra styresignal-generatorkretsen 20. Utgangen fra terskeladaptoren 29 blir levert til terskelkretsen 7. Terskeladaptoren virker for å inkremen-tere eller dekrementere terskelen i trinn som er en andel av den øyeblikkelige terskelverdi, inntil terskelen er tilnærmet lik støyenergi-nivået (som hensiktsmessig kan være utledet fra f.eks veie- og adderingskretsene 22, 23). Når inngangssignalet er meget lavt, kan det være ønskelig at terskelen blir automatisk innstilt til et fast, lavt nivå siden virkningen av signalkvantisering blir frembragt ved hjelp av ADC 2 ved lave signalnivåer kan frembringe upålitelige resultater.
Det kan videre være tilveiebragt en "overheng"-genererende anordning 3 0 som virker til å måle varigheten av taleindikasjoner etter terskelkretsen 7, og når forekomsten av tale er blitt indikert over en periode i overkant av en forutbestemt tidskonstant, blir utgangen holdt høy for en kort "overhengs"-periode. På denne måten blir klipping av midten av taleutbrudd ved lavt nivå unngått, og passende valg av tidskonstanten forhindrer utløsning av overheng-generatoren 3 0 av korte støytopper som uriktig indikeres som tale. Man vil selvsagt forstå at alle de ovennevnte funksjoner kan utføres ved hjelp av en enkel og på passende måte programmert digital behandlingsanordning, slik som en digital signalbehandlings-brikke (DSP), som en del av en LPC-kodek som er implementert på denne måten (dette er den foretrukne implementering), eller som en passende programmert mikrodatamaskin eller mikroprosessor-brikke med en tilordnet lageranordning.
Som beskrevet ovenfor kan stemme-deteksjonsapparatet hensiktsmessig implementeres som en del av en LPC-koder/dekoder (kodek). Når autokorrelasjonskoeffisienten til signalet eller beslektede mål (delvis korrelasjon eller"parcor"-koeffisienter) blir overført til en fjerntliggende stasjon, kan stemmedeteksjonen alternativt finne sted i avstand fra kodeken.

Claims (17)

1. Apparat for deteksjon av stemme-aktivitet, omfattende: (i) en anordning (1) for å motta et første inngangssignal ; (ii) en anordning (14, 15) for periodisk adaptiv generering av et andre signal som representerer en estimert støysignal-komponent i det første signalet; (iii) en anordning (4, 5, 6) for periodisk dannelse, ut fra det første og det andre signal, av et mål M for den spektrale likhet mellom en del av inngangssignalet og den estimerte støysignal-komponenten; og (iv) en anordning (7) for å sammenligne målet M med en terskelverdi T for å frembringe et utgangssignal som indikerer forekomst eller fravær av tale,karakterisert vedat (v) apparatet innbefatter en analyseanordning (13, 3) for frembringelse av koeffisienter for et filter med spektral respons som er det inverse av frekvensspekteret for et av de to signalene; og (vi) den måldannende anordningen (4, 5, 6) fungerer for å frembringe et mål M som er proporsjonalt med den nullte-ordens autokorrelasjon R'0for et signal som oppnås ved filtrering av det andre av de to signalene med et filter med de nevnte koeffisienter.
2. Apparat ifølge krav 1, karakterisert vedat analyseanordningen (13, 3) innbefatter et adaptivt filter.
3. Apparat følge krav 1, karakterisert vedat genereringsanordningen (14,15) er innrettet for å beregne autokorrelasjonskoeffisientene A±for koeffisientenes pulsrespons, og den måldannende anordningen (4, 5, 6) omfatter en anordning for å beregne autokorrelas jonskoef f isientene R^^ for det andre signalet, og en anordning (5, 6) koplet for å motta R±og A^^ og for å beregne målet M fra disse.
4. Apparat ifølge krav 2, karakterisert vedat anordningen (4) for å beregne det andre signalets autokorrelas jonskoef f isienter Ri er innrettet (4a, 4b) for å gjøre dette i avhengighet av autokorrelasjonskoeffisientene for flere suksessive deler av signalet.
5. Apparat ifølge krav 3 eller 4,karakterisert vedat
hvor Ai representerer den i-te autokorrelasjonskoeffisient for filterets pulsrespons.
6. Apparat ifølge krav 3 eller 4,karakterisert vedat
hvor Ai representerer den i-te autokorrelasjonskoeffisient for filterets pulsrespons.
7. Apparat ifølge et av kravene 1-6,karakterisert vedat det nevnte ene signal er det annet støy-representerende signal, og det andre signal er det første inngangssignalet.
8. Apparat ifølge krav 7, karakterisert vedat det videre omfatter en inngang (11) innrettet for å motta et andre inngangssignal, som på lignende måte utsettes for støy, og som er uten tale, hvor genereringsanordningen omfatter en LPC-analyseanordning (13) for å utlede verdier av Ai fra det annet inngangssignal .
9. Apparat ifølge et av kravene 1-7,karakterisert vedat det omfatter et bufferlager (15) koblet for å lagre data som autokorrelas jonskoef f isientene A.^ for f ilter-responsen kan oppnås fra, hvor filter-responsen beregnes periodisk fra signalet ved hjelp av en LPC-analyseanordning (3), idet apparatet er koblet og styrt slik at målet M blir beregnet ved bruk av de lagrede data, og de lagrede data oppdateres bare fra perioder hvor tale indikeres å være fraværende.
10. Apparat ifølge krav 9, karakterisert vedat det omfatter en anordning (20) for å indikere fravær av tale for å styre oppdateringen av de lagrede data idet anordningen (20) for indikering av fravær av tale er en andre anordning for deteksjon av stemme-aktivitet.
11. Apparat ifølge et av de foregående krav,karakterisert vedat det omfatter en anordning (2 9) for å justere terskelverdien T i perioder når tale indikeres å være fraværende.
12. Apparat ifølge krav 11, karakterisert vedat det omfatter en andre anordning (20) for deteksjon av stemmeaktivitet, innrettet for å forhindre justering av terskelverdien når tale forekommer.
13. Apparat ifølge krav 10, karakterisert vedat det omfatter en anordning (20) for å justere terskelverdien T i perioder når tale indikeres å være fraværende, idet den annen anordning (20) for deteksjon av stemmeaktivitet er innrettet for å forhindre justering av terskelverdien når tale forekommer.
14. Apparat ifølge krav 11, 12 eller 13,karakterisert vedat terskelverdien T er, når den er justert, justert for å være lik middelverdien av målet pluss et ledd som er en brøkdel av målets standard avvik.
15. Fremgangsmåte for å detektere stemmeaktivitet i et første inngangssignal, omfattende de følgende trinn: (a) et andre signal genereres periodisk og adaptivt for å representere en estimert støysignal-komponent i det første signalet; (b) fra det første og annet signal dannes periodisk et mål M for den spektrale likhet mellom en del av inngangssignalet og den estimerte støysignal-komponenten; og (c) målet M sammenlignes med en terskelverdi T for å frembringe et utgangssignal som indikerer nærvær eller fravær av tale, karakterisert ved(d) det trinn å frembringe koeffisientene for et filter med spektral respons som er det inverse av frekvensspekteret for et av de nevnte to signaler; og ved at (e) målet M er proporsjonalt med den nullte-ordens autokorrelasjon R'0for et signal som oppnås ved filtrering av det andre av de to signalene med et filter som har de nevnte koeffisienter.
16. Apparat for koding av talesignaler,karakterisert vedat det innbefatter et apparat i samsvar med et hvilket som helst av kravene 1 til 14.
17. Mobiltelefonapparat, karakterisert vedat det innbefatter et apparat ifølge et hvilket som helst av kravene 1 til 14.
NO903936A 1988-03-11 1990-09-10 Deteksjon av stemme-aktivitet NO304858B1 (no)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
PCT/GB1989/000247 WO1989008910A1 (en) 1988-03-11 1989-03-10 Voice activity detection

Publications (3)

Publication Number Publication Date
NO903936D0 NO903936D0 (no) 1990-09-10
NO903936L NO903936L (no) 1990-11-09
NO304858B1 true NO304858B1 (no) 1999-02-22

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
NO903936A NO304858B1 (no) 1988-03-11 1990-09-10 Deteksjon av stemme-aktivitet
NO982568A NO316610B1 (no) 1988-03-11 1998-06-04 Deteksjon av stemme-aktivitet

Family Applications After (1)

Application Number Title Priority Date Filing Date
NO982568A NO316610B1 (no) 1988-03-11 1998-06-04 Deteksjon av stemme-aktivitet

Country Status (16)

Country Link
EP (2) EP0335521B1 (no)
JP (2) JP3321156B2 (no)
KR (1) KR0161258B1 (no)
AU (1) AU608432B2 (no)
BR (1) BR8907308A (no)
CA (1) CA1335003C (no)
DE (2) DE68929442T2 (no)
DK (1) DK175478B1 (no)
ES (2) ES2047664T3 (no)
FI (2) FI110726B (no)
HK (1) HK135896A (no)
IE (1) IE61863B1 (no)
NO (2) NO304858B1 (no)
NZ (1) NZ228290A (no)
PT (1) PT89978B (no)
WO (1) WO1989008910A1 (no)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (no) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
NO316610B1 (no) 2004-03-08
EP0335521B1 (en) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (no) 1994-01-12
FI115328B (fi) 2005-04-15
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
PT89978B (pt) 1995-03-01
EP0548054A2 (en) 1993-06-23
DK175478B1 (da) 2004-11-08
NO982568L (no) 1990-11-09
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (en) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
DE68910859T2 (de) 1994-12-08
HK135896A (en) 1996-08-02
EP0548054B1 (en) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
NO304858B1 (no) Deteksjon av stemme-aktivitet
US5276765A (en) Voice activity detection
KR100363309B1 (ko) 음성액티비티검출기
Tanyer et al. Voice activity detection in nonstationary noise
CA1123514A (en) Speech analysis and synthesis apparatus
US5963901A (en) Method and device for voice activity detection and a communication device
Seneff Real-time harmonic pitch detector
US5930747A (en) Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands
US5579435A (en) Discriminating between stationary and non-stationary signals
US6804651B2 (en) Method and device for determining a measure of quality of an audio signal
EP0030724B1 (en) Method and device for carrying out objective measurements on digital speech transmission systems
CA2021508C (en) Digital speech coder having improved long term lag parameter determination
KR100367202B1 (ko) 여기매개변수(excitationparameter)결정을위한디지탈화된음성신호분석방법및그에의한음성부호화시스템
EP1147514A1 (en) Wideband audio transmission system
US5027404A (en) Pattern matching vocoder
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
EP0092612B1 (en) Speech analysis system
CA2225985C (en) Spectrum feature parameter extracting system based on frequency weight estimation function
GB2387753A (en) Vector estimation system, method and associated encoder
Openshaw et al. Reducing the environmental sensitivity of cepstral features for speaker recognition

Legal Events

Date Code Title Description
MK1K Patent expired