NO306360B1 - Anordning og fremgangsmÕte for talesignal-behandling - Google Patents

Anordning og fremgangsmÕte for talesignal-behandling Download PDF

Info

Publication number
NO306360B1
NO306360B1 NO910535A NO910535A NO306360B1 NO 306360 B1 NO306360 B1 NO 306360B1 NO 910535 A NO910535 A NO 910535A NO 910535 A NO910535 A NO 910535A NO 306360 B1 NO306360 B1 NO 306360B1
Authority
NO
Norway
Prior art keywords
cepstrum
vowel
consonant
mean value
signal
Prior art date
Application number
NO910535A
Other languages
English (en)
Other versions
NO910535L (no
NO910535D0 (no
Inventor
Joji Kane
Akira Nohara
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2033211A external-priority patent/JP2959792B2/ja
Priority claimed from JP3321090A external-priority patent/JP2959791B2/ja
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Publication of NO910535D0 publication Critical patent/NO910535D0/no
Publication of NO910535L publication Critical patent/NO910535L/no
Publication of NO306360B1 publication Critical patent/NO306360B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Selective Calling Equipment (AREA)
  • Communication Control (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Den foreliggende oppfinnelse angår en talesignal-behandlingsanordning som er i stand til å detektere en vokal/konsonant i et tale- eller stemmesignal, som angitt i innledningen til krav 1, samt en fremgangsmåte som angitt i innledningen til krav 5.
Fig. 1 viser et blokkskjema over en signal-behandlingsanordning i henhold til kjent teknikk. Henvisningstallet 11 indikerer en f ilterstyreseksjon som et signal som inneholder støy blir matet inn i og som detekterer signalet eller støyen, og henvisningstallet 12 angir en BPF-gruppe bestående av flere båndpassfiltere, og henvisningstallet 13 angir en adderer. Det vil si at filterstyreseksjon 11 styrer en filterkoeffisient til BPF-gruppen som respons på støyen eller signalet til et innmatet signal, og BPF-gruppen 12 er båndpassf ilteret som er utformet på en måte slik at de dividerer inngangssignalet i passende bånd og bestemmer båndpasskarakteristikken ved hjelp av et styresignal fra filterstyreseksjonen 11.
Virkemåten til den kjente signal-behandlingsanordningen som er utformet som beskrevet ovenfor skal forklares i det etterfølgende.
Et innmatet signal hvori et stemme- eller talesignal er overlagret av støy blir matet til filterstyreseksjonen 11. Filterstyreseksjonen 11 bestemmer på bakgrunn av det innmatede signalet en støykomponent som korresponderer med hvert bånd til BPF-gruppen 12, og mater en filterkoeffisient som stopper støykomponenten slik at denne ikke passerer gjennom BPF-gruppen 12 til BPF-gruppen 12.
BPF-gruppen 12 deler det innmatede signalet i passende bånd og tillater det innmatede signalet å passere gjennom etter behov ved anvendelse av filterkoeffisienten som innmates fra filterstyreseksjonen 11 for hvert bånd, og mater signalet til addereren 13. Addereren 13 blander signalene som er delt av BPF-gruppen 12 i passende bånd for å oppnå et utgangssignal.
Med virkemåten som angitt ovenfor minskes passeringsnivået til bånd i inngangssignalet som inneholder støy av BPF-gruppen 12. Som et resultat oppnås et signal som har en støydempet komponent.
Det er imidlertid mye støy som ikke alltid faller sammen med uttalen eller artikulasjonen og følgelig har den kjente signal-behandlingsanordningen et problem idet støy nok kan holdes nede, men uttalen blir ikke forbedret.
En signalbehandlingsanordning og fremgangsmåte ifølge ingressene i henholdsvis krav 1 og 5 er kjent fra A.M. Noll:"Ceptstrum Pitch Determination", J. Acoust. Soc. Am 41
(1966), s. 293-309. Til ytterligere belysning av den kjente teknikk kan det vises til US-A-4630305 og W0-A1 88/07739.
Den foreliggende oppfinnelse har til hensikt å frembringe en tale- eller stemmesignal-behandlingsanordning som er i stand til å detektere en vokal og en konsonant.
Oppfinnelsen tilveiebringes ved hjelp av en anordning av innledningsvis nevnte art hvis karakteristiske trekk fremgår av krav 1, samt en fremgangsmåte av innledningsvis nevnte art hvis karakteristikk fremgår av krav 5. Ytterligere trekk ved anordningen fremgår av de øvrige uselvstendige kravene.
Oppfinnelsen skal nå beskrives under henvisning til tegnin-gene, der
Fig. 1 er et blokkskjema som viser en kjent talesignal-behandlingsanordning; Fig. 2 er et blokkskjema som viser en utførelse av en talesignalbehandlingsanordning i samsvar med den foreliggende oppfinnelse; Fig. 3 er en kurve som viser en cepstrumtopp i utførelsen; Fig. 4 er et blokkskjema som viser en utførelse av en talesignal-behandlingsanordning i samsvar med den foreliggende oppfinnelse; Fig. 5 er et blokkskjema som viser en utførelse av en talesignal-behandlingsanordning i samsvar med den foreliggende oppfinnelse; Fig. 6 er en kurve for å hjelpe til med å forklare en støyforutsigelsesfremgangsmåte i henhold til utførelsen av oppf innelsen; Fig. 7 og 8 er bølgeformkurver for å forklare en kansel-leringsfremgangsmåte i henhold til utførelsen av oppfinnelsen ; Fig. 9 er et blokkskjema som viser en utførelse av en talesignal-behandlingsanordning i samsvar med den foreliggende oppfinnelse; og Fig. 10 er en kurve for å forklare en kanselleringskoeffisient i henhold til utførelsen av oppfinnelsen. Fig. 2 er et blokkskjema som viser en talesignal-behandlingsanordning i en utførelse av den foreliggende oppfinnelse. På fig. 2 angir henvisningstallet 1 bånddeleinnretning som et eksempel på spesielt en frekvensanalyseinnretning for frekvensanalysering av et signal. FFT-innretning for Fourier-transf ormering av et signal, og henvisningstallet 2 er et cepstrumanalyseinnretning for å utføre cepstrumanalyse som et eksempel på tonehøydeuttrekkingsanalyseinnretning. Uttrykket "cepstrum" som er avledet fra uttrykket "spektrum" sym-boliseres i denne patentsøknaden ved c(t) og frembringes ved invers Fourier-transformasjon av logaritmen til et korttids-spektrum S(co).
Dimensjonen til t er tiden ogT(tid) blir benevnt "quefrency"
(som er avledet fra ordet "frekvens". Henvisningstallet 3 er toppdetekteringsinnretning som et eksempel på tonehøydedetek-
teringsinnretning for å detektere en topp i en cepstrumfordeling, og henvisningstallet 4 er middelverdiberegningsinnretning for å beregne middelverdien til cepstrumfordelingen, og henvisningstallet 5 er vokal/konsonantdetekterings-innretning for å detektere en vokal og en konsonant på bakgrunn av innmatede signaler som inneholder støy.
Dette betyr at FFT-innretningen 1 hurtig-Fourier-transformerer et taleinngangssignal og mater det transformerte signalet til cepstrumanalyseinnretningen 2. Cepstrumanalyseinnretningen 2 bestemmer et cepstrum for spektrumsignalet, og mater cepstrumet til toppdetekteringsinnretningen 3 og middelverdiberegningsinnretningen 4. Fig. 3 (a) viser en kurve av et slikt spektrum og (b) viser en kurve over et slikt cepstrum. Toppdetekteringsinnretningen (3) bestemmer en topp i cepstrumet frembragt av cepstrumanalyseinnretningen 2, og mater toppen til vokal/konsonantdetekteringsinnretningen 5.
På den annen side, beregner middelverdiberegningsinnretningen 4 en middelverdi for cepstrumet frembragt av cepstrumanalyseinnretningen 2, og mater middelverdien til vokal/konsonant-detekteringsinnretningen 5. Vokal/konsonantdetekterings-innretningen 5 detekterer en vokal og en konsonant i tale-eller stemmesignaler som blir innmatet ved bruk av cepstrumtoppen matet fra toppdetekteringsinnretningen 3 og cepstrummiddelverdien matet fra middelverdiberegningsinnretningen 4, og sender ut det detekterte resultatet som et detektert utgangssignal.
Virkemåten til tale- eller stemmesignal-behandlingsanordningen i utførelsen av den foreliggende oppfinnelse som er konfigurert som beskrevet ovenfor skal beskrives i det etterfølgende.
Et talesignal som blir innmatet blir hurtig-Fourier-transformert av FFT-innretningen 1, og det blir bestemt et cepstrum av dette av cepstrumanalyseinnretningen 2, og det blir bestemt en topp i cepstrumet av toppdetekteringsinnretningen 3. Det blir også bestemt en middelverdi til cepstrumet av middelverdiberegningsinnretningen 4. Så bestemmer eller avgjør vokal/konsonantdetekteringsinnretningen 5, når et signal som indikerer at toppen er blitt detektert blir innmatet fra toppdetekteringsinnretningen 3, at det innmatede talesignalet er et vokalområde. For detektering av en konsonant vil f.eks. når cepstrummiddelverdien som blir innmatet fra middelverdiberegningsinnretningen 4 er større enn en forutbestemt verdi eller når en økning i cepstrummiddelverdien (differensialkoeffisienten) er større enn en forutbestemt verdi, talesignalet som innmates bli bestemt til å være et konsonantområde. Som et resultat blir et signal som indikerer en vokal/konsonant, eller et signal som indikerer et støyområde innbefattende en vokal og en konsonant utmatet.
I henhold til den foreliggende oppfinnelse, som beskrevet ovenfor, tillater detekteringen av en vokal og en konsonant at taledeldetekteringen blir nøyaktig utført.
En annen utførelse av den foreliggende oppfinnelse vil bli beskrevet i det etterfølgende.
Fig. 4 er et blokkskjema som viser en utførelse av denne. De samme henvisningstall er brukt på de samme innretningene som i utførelsen på fig. 2. Det vil si at henvisningstallet 1 indikerer FFT-innretningen for hurtig-Fourier-transformering av et talesignal, henvisningstallet 2 angir cepstrumanalyseinnretningen for å bestemme et cepstrum i det Fourier-transformerte spektrumsignalet, og henvisningstallet 3 angir toppdetekteringsinnretningen for å bestemme en topp på basis av det cepstrumanalyserte resultatet, og henvisningstallet 4 angir middelverdiberegningsinnretningen for å beregne en middelverdi til cepstrumet.
Vokal/konsonantdetekteringsinnretningen 5 har innretninger som beskrevet nedenfor.
Det er en første komparator 52 som er en krets som sammenligner toppinformasjonen frembragt av toppdetekteringsinnretningen 3 med en spesifisert terskel innstilt av en første terskelinnstillingsseksjon 51, og som sender ut resultatet. Den første terskelinnstillingsseksjonen 51 er en innretning for å innstille en terskel som respons på middelverdien frembragt av middelverdiberegningsinnretningen 4.
En andre komparator 53 er en krets som sammenligner en spesifisert terskel innstilt av en andre terskelinnstillingsseksjon 54 med middelverdien frembragt av middelverdiberegningsinnretningen 4, og sender ut resultatet.
En vokal/konsonantdetekteringsinnretning 55 er en krets som bestemmer hvorvidt et innmatet talesignal er en vokal eller en konsonant på basis av det sammenlignede resultatet frembragt av den første komparatoren 54 og det sammenlignede resultatet frembragt av den andre komparatoren 53.
Virkemåten til den ovenforstående utførelse skal beskrives i det etterfølgende.
FFT-innretningen 1 hurtig-Fourier-transformerer et talesignal. Cepstrumanalyseinnretningen 2 bestemmer et cepstrum av det Fourier-transformerte signalet. Toppdetekteringsinnretningen 3 detekterer en topp i det bestemte cepstrum. På den annen side beregner middelverdiberegningsinnretningen 4 en middelverdi av det bestemte cepstrum.
Så innstiller en første terskelinnstillingsinnretning 51 en terskel som et kriterium ved hjelp av hvilket toppen frembragt av toppdetekteringsinnretningen 3 blir bestemt til å være en vokal eller ei. Samtidig innstiller innretningen 51 terskelen med referanse til middelverdien frembragt av middelverdiberegningsinnretningen 4. Der f.eks. middelverdien er stor, blir terskelen innstilt til å være en høy verdi, slik at en topp som indikerer en vokal kan velges på sikker måte.
Den første komparatoren 52 sammenligner terskelen som er innstilt av den første terskelinnstillingsinnretningen 51 med toppen detektert av toppdetekteringsinnretningen 3, og sender ut det sammenlignede resultatet.
På den annen side innstiller den andre terskelinnstillingsinnretningen 54 en spesifisert terskel. Den spesifiserte terskelen er så som en terskel i selve middelverdien, eller en terskel til en differensialkoeffisient som indikerer en tendens til økt middelverdi. Så sammenligner den andre komparatoren 53 middelverdien frembragt av middelverdiberegningsinnretningen 4 med terskelen innstilt av den andre terskelinnstillingsinnretningen 54 og sender ut det sammenlignede resultatet. Dette skjer ved at komparatoren 53 sammenligner en beregnet middelverdi med en terskelmiddel-verdl, eller sammenligner en økningsverdi til den beregnede middelverdien med en terseldifferensialkoeffisientverdi.
Vokal/konsonantdetekteringskretsen 55 detekterer en vokal og en konsonant på basis av det sammenlignede resultatet fra den første komparatoren 52 og det sammenlignede resultatet fra den andre komparatoren 53. Når en topp er detektert på sikker måte med hensyn til det sammenlignede resultatet fra den første komparatoren 52, blir området bestemt til å være en vokal. Når en middelverdi overskrider verdien til terskelen med hensyn til det sammenlignede resultatet fra den andre komparatoren 53, blir området bestemt til å være en konsonant. Alternativt sammenligner kretsen 55 en økning av middelverdien med en differensialkoeffisient til terskelen, og når middelverdiøkningen overskrider terskeldifferen-sialkoeffisienten, bestemmes området til å være en konsonant. Detekteringen av vokal/konsonantdetekteringsinnretningen 55 kan også utføres på en slik måte at det tas hensyn til et kjennetegn til området av stemmevokal og konsonant, f.eks. et kjennetegn som sier at en konsonant blir fulgt av en vokal, og en konsonant blir bestemt når konsonanten blir fulgt av en vokal. Det vil si at for å kunne utføre mer sikkert diskrimi-neringen av et støysignal fra en konsonant, dersom selv når et signal blir bestemt til å være en konsonant ved en middelverdi av dette, og det ikke etterfølger noe vokalområde, blir signalet bestemt til å være et støysignal.
Den foreliggende oppfinnelse kan selv om den er implementert i programvare som anvender en datamaskin, også implementeres ved bruk av en dedikert maskinkrets.
Det er åpenbart, på bakgrunn av beskrivelsen ovenfor, at den foreliggende oppfinnelse omfatter tonehøydeuttrekkingsana-lyseinnretning for å trekke ut og analysere en tonehøyde til et frekvensanalysert signal, tonehøydevelgeinnretning for å detektere en tonehøyde i det analyserte utgangssignalet, middelverdiberegningsinnretning for å beregne et middelverdinivå i den uttrukne tonehøyde og det analyserte utgangssignal, og en vokal/konsonantdetekteringsinnretning for å detektere eller skille en vokal fra en konsonant, på basis av den tonehøydedetekterte informasjonen fra tone-høydevelgeinnretningen og middelverdiinformasjonen fra middelverdiberegningsinnretningen, ved å bestemme en vokal i samsvar med tonehøyden og bestemme en konsonant i samsvar med middelverdiinformasjonsnivået, hvorved det er en virkning eller et resultat at en vokal og en konsonant kan detekteres på sikker måte for å tillate et talesignal å bli korrekt detektert.
I samsvar med tegningen skal en utførelse av en annen foreliggende oppfinnelse beskrives i det etterfølgende. Fig. 5 er et blokkskjema som viser en talesignalbehandlingsanordning i en utførelse av den foreliggende oppfinnelse. På fig. 5 angir henvisningstallet 518 en bånddeleinnretning for frekvensbånddeling av signalet, som et eksempel på frekvensanalyseinnretning for å utføre en frekvensanalyse av et signal, og spesielt FFT-innretning for Fourier-transformering av signalet, og henvisningstallet 528 angir cepstrumanalyseinnretningen som utfører en cepstrumanalyse, henvisningstallet 538 angir en toppdetekteringsinnretning for å detektere en topp i en cepstrumfordeling, henvisningstallet 548 angir middelverdiberegningsinnretningen for å beregne en middelverdi av cepstrumfordelingen, og henvisningstallet 558 angir vokal/konsonantdetekteringsinnretningen for å detektere en vokal og en konsonant. FFT-innretningen 518 besørger hurtig-Fourier-transf ormering av et innmatet talesignal og mater det transformerte resultatet til cepstrumanalyseinnretningen 528. Cepstrumanalyseinnretningen 528 bestemmer et cepstrum av cepstrumsignalet, og mater cepstrumet til toppdetekteringsinnretningen 538 og middelverdiberegningsinnretningen 548. Fig. 3 (a) og (b) viser kurvene til slikt spektrum og cepstrum. Toppdetekteringsinnretningen 538 bestemmer en topp i cepstrumet frembragt av cepstrumanalyseinnretningen 528 og mater toppen til vokal/konsonantdetekteringsinnretningen 558.
På den annen side, beregner middelverdiberegningsinnretningen 548 en middelverdi av cepstrumet frembragt av cepstrumanalyseinnretningen 528 og mater middelverdien til vokal/konso-nantdetekteringsinnretningen 558. Vokal/konsonantdetek-teringsinnretningen 558 detekterer en vokal og en konsonant i det innmatede talesignalet ved bruk av cepstrumtoppen matet fra toppdetekteringsinnretningen 538 og cepstrummiddelverdien matet av middelverdiberegningsinnretningen 548, og sender ut det diskriminerte resultatet. Henvisningstallet 568 angir en støyforutsigelsesinnretning anordnet for innmating av det utsendte signalet fra FFT 518 og for å forutsi en støykom-ponent, og henvisningstallet 588 angir kanselleringsinnretning for å kansellere støyen på en måte som skal beskrives senere, og henvisningstallet 598 angir en båndsammenset-ningsinnretning som et eksempel på en signalsammensetningsinnretning, og spesielt IFFT-innretning for å utføre en invers Fourier-transformering. Mer spesielt forutsier støyforutsigelsesinnretningen 568 en støykomponent for hver kanal på basis av en innmatet tale/støy som er inndelt i m kanaler, og mater det forutsagte resultatet til kanselleringsinnretningen 588. F.eks. blir støyforutsigelsen utført på en måte som er vist på fig. 6. Det vil si at, ved at x aksen representerer en frekvens, y aksen et støynivå og z aksen representerer tiden, og ved å ta data p^og pg over p^ved frekvensen f ^, blir den påfølgende p-j forutsagt. Ved f.eks. å beregne en middelverdi av støykomponentene p^tilPj, tas middelverdien som p-j. Alternativt blir når en talesignaldel fortsetter etterpå, p-j multiplisert med en dempekoeffisient. Kanselleringsinnretningen 588 er en innretning som mates med et m kanal signal fra FFT 1 og støyforutsigelsesinnretningen 568 og som kansellerer støy ved å trekke fra støyen i hver kanal som respons på en innmatet kanselleringskoeffisient, og mater det støykansellerte signalet til IFFT-innretningen 598. Det vil si at kanselleringsinnretningen 588 kansellerer støy ved å multiplisere den forutsagte støykomponenten med en kanselleringskoeffisient.
Generelt er kanselleringen med hensyn på tidsaksen et eksempel på kanselleringsfremgangsmåten som blir utført ved å fratrekke en forutsagt støybølgeform (b) fra et talesignal (a) som inneholder støy. Ved slik beregning blir bare signalet tatt ut som vist på fig. V(c). Som vist på fig. 8, blir også kanselleringen med en frekvens som en referanse utført ved Fourier-transformering (b) av et talesignal (a) som inneholder støy, og så fratrekking (d) av et forutsagt støyspektrum (c) fra det transformerte resultatet, og så foretas invers Fourier-transformering av resultatet for å frembringe et støykansellert talesignal (e). IFFT-innretningen 598 besørger invers Fourier-transformering av m kanalsig- naiet som mates fra kanselleringslnnretnlngen 588 for å frembringe et taleutgangssignal.
KansellerIngskoeffIsientinnstillIngsinnretningen 578 innstiller på passende måte en kanselleringskoeffisient ved anvendelse av vokal/konsonantområdeinformasjonen detektert av vokal/konsonantdetekteringsinnretningen 558. F.eks. vil i taleområdet for å sikre å frembringe en god uttale eller artikulasjon med intensjonsmessig ikke-kansellerende støykomponent, kanselleringskoeffisienten holdt liten, mens i den andre støydelen, blir for å kansellere støykomponenten fullstendig, kanselleringskoeffisienten holdt stor. Den foreliggende oppfinnelse detekterer ikke bare en vokal, men også en konsonant på sikker måte, og derved tillates at det oppnås en tilstrekkelig god taleartikulasjon.
Virkemåten til talesignalbehandlingsanordningen i utførelsen i henhold til den foreliggende oppfinnelse utformet som beskrevet ovenfor skal forklares i det etterfølgende.
Et innmatet talesignal blir hurtig-Fourier-transformert av FFT-innretningen 518 idet det bestemmes et cepstrum av dette av cepstrumanalyseinnretningen 528, og det bestemmes en topp i cepstrumet av toppdetekteringsinnretningen 538. En middelverdi av cepstrumet blir også bestemt av middelverdiberegningsinnretningen 548. Når et signal som indikerer at toppen har blitt detektert blir innmatet fra toppdetekteringsinnretningen 538, vil så vokal/konsonantdetekterings-innretningen 558 avgjøre at det innmatede talesignalet er et vokalområde. For f.eks. detekteringen av en konsonant, når cepstrummiddelverdien innmatet fra middelverdiberegningsinnretningen 548 er større enn en forutbestemt verdi eller en når en økning i cepstrummiddelverdien (differensialkoeffisient) er større enn forutbestemt verdi, fastslås at det innmatede talesignalet er konsonantområde. Som et resultat, blir et signal som indikerer en vokal/konsonant, eller et signal som indikerer et taleområde som innbefatter en vokal og en konsonant utmatet.
På den annen side, vil innmatet tale/støysignal som inneholder støy bli forutsagt når det gjelder signalets støykom-ponent for hver kanal ved hjelp av støyforutsigelsesinnret-ningen 568. Tale/støysignalet blir kansellert for støykom-ponenten som mates fra støyforutsigelsesinnretningen 568 for hver kanal ved hjelp av kanselleringsinnretningen 588. Støykanselleringsforholdet ved dette tidspunktet blir passende innstilt på en måte for å forbedre uttalen eller artikulasjonen for hver kanal med en kanselleringskoeffisient som innmates fra kanselleringskoeffisientinnstillingsinnretningen 578. Som beskrevet ovenfor, blir f.eks. i taleområdet, for å sikre at det oppnås en god artikulasjon ved intensjonsmessig ikke-kansellerende støykomponent, kanselleringskoeffisienten holdt liten, mens i andre støydeler, for å kansellere støykomponenten fullstendig, blir kanselleringskoeffisienten holdt stor. Den foreliggende oppfinnelse detekterer på sikker måte også en konsonant og er ikke begrenset til en vokal, og derved gjøres det mulig å oppnå en tilstrekkelig god taleartikulasjon. Så besørger IFFT-innretningen 598 invers Fourier-transformering av det støykansellerte m kanalsignalet frembragt fra kanselleringsinnretningen 588, og sender ut det transformerte signalet som et talesignal.
I henhold til utførelsen av den foreliggende oppfinnelse som beskrevet ovenfor er støykanselleringsforholdet til kansel-ler ingsinnretningen 588 på passende måte gitt for hvert bånd av en innmatet kanselleringskoeffisient, og den innmatede kanselleringskoeffisienten som korresponderer med et talesignal er valgt med høy nøyaktighet, og derved gjøres det mulig å oppnå et artikulert og støyundertrykket taleutgangssignal.
En annen utførelse av den foreliggende oppfinnelse skal beskrives i det etterfølgende.
Fig. 9 er et blokkskjema som viser en utførelse av denne. Samme henvisningstall er benyttet for de samme innretninger som i utførelsen på fig. 5. Det vil si at henvisningstallet 518 angir FFT-innretningen for hurtig-Fourier-transformering av et talesignal, henvisningstallet 528 angir cepstrumanalyseinnretningen for å bestemme et cepstrum av det Fourier-transformerte spektrumsignalet, henvisningstallet 538 angir toppdetekteringsinnretningen for å bestemme en topp på basis av det cepstrumanalyserte resultatet, henvisningstallet 548 angir middelverdiberegningsinnretningen for å beregne en middelverdi av cepstrumet, henvisningstallet 568 angir støyforutsigelsesinnretningen, henvisningstallet 588 angir kanselleringsinnretningen, henvisningstallet 598 angir IFFT-innretningen, og henvisningstallet 578 angir kansellerings-koef f isient innstill ingsinnretningen . Vokal/konsonantdetek-ter ingsinnretningen 558 har de følgende innretninger som beskrevet på fig. 4. Det er en første komparator 552 som er en krets som sammenligner toppinformasjonen frembragt av toppdetekteringsinnretningen 53 med en spesifisert terskel innstilt av en første terskelinnstillingsseksjon 551, og sender ut resultatet. Den første terskelinnstillingsseksjonen 551 innstiller terskelen som respons på middelverdien frembragt av middelverdiberegningsinnretningen 548.
En andre komparator 5 53 er også en krets som sammenligner den spesifiserte terskel innstilt av en andre terskelinnstillingsseksjon 554 med middelverdien frembragt av middelverdiberegningsinnretningen 548 og sender ut resultatet.
Det er også en vokal/konsonantdetekteringskrets 555 som bestemmer om et innmatet talesignal er en vokal eller en konsonant på basis av det sammenlignede resultatet frembragt av den første komparatoren 552 og det sammenlignede resultatet frembragt av den andre komparatoren 553.
Virkemåten til utførelsen ovenfor skal beskrives i det etterfølgende.
FFT-innretningen 518 hurtig-Fourier-transformerer et talesignal. Cepstrumanalyseinnretningen 528 bestemmer et cepstrum av det Fourier-transformerte signalet. Toppdetekteringsinnretningen 538 detekterer en topp i det bestemte cepstrum. På den annen side, beregner middelverdiberegningsinnretningen 548 en middelverdi av det bestemte cepstrum.
Så innstiller den første terskelinnstillingsinnretningen 551 en terskel som et kriterium for å bestemme om den frembragte toppen fra toppdetekteringsinnretningen 538 er en vokal eller ei. Ved dette tidspunktet innstiller innretningen 551 terskelverdien med referanse til middelverdien frembragt fra middelverdiberegningsinnretningen 548. Når f.eks. middelverdien er stor, blir terskelen satt til en høy verdi slik at en topp som indikerer en vokal kan velges på sikker måte.
Den første komparatoren 552 sammenligner terskelen innstilt av den første terskelinnstillingsinnretningen 551 med toppen som er detektert av toppdetekteringsinnretningen 538, og sender ut det sammenlignede resultatet.
På den annen side, innstiller den andre terskelinnstil-1ingsinnretningen 554 en spesifisert terskel. Den spesifiserte terskelen er slik som en terskel av selve middelverdien, eller en terskel av en differensialkoeffisient som indikerer en tendens til økt middelverdi. Så sammenligner den andre komparatoren 553 middelverdien frembragt fra middelverdiberegningsinnretningen 548 med terskelen innstilt av den andre terskelinnstillingsinnretningen 554, og sender ut det sammenlignede resultatet. Det vil si, at komparatoren 553 sammenligner en beregnet middelverdi med en terskelmiddel- verdi, eller den sammenligner en økningsverdi i den beregnede middelverdien med en terskeldifferensialkoeffisientverdi.
Vokal/konsonantdetekteringskretsen 555 detekterer en vokal og en konsonant på basis av det sammenlignede resultatet fra den første komparatoren 552 og det sammenlignede resultatet fra den andre komparatoren 553. Når en topp på sikker måte er blitt detektert med hensyn på det sammenlignede resultatet fra den første komparatoren 552, bestemmes området til å være en vokal. Når en middelverdi overskrider verdien til terskelen med hensyn på det sammenlignede resultatet fra den andre komparatoren 553, bestemmes området til å være en konsonant. Alternativt sammenligner kretsen 555 en økning i middelverdien med en differensialkoeffisient til terskelen, og når middelverdien overskrider terskelen, bestemmes området til å være en konsonant.
Detekteringen av vokal/konsonantdetekteringsinnretningen 555 kan også utføres på en slik måte at kjennetegn for området for en talevokal og konsonant vurderes, og f.eks. vil et kjennetegn være at en konsonant følges av en vokal, og en konsonant bestemmes når konsonanten følges av en vokal. Det vil si at for å kunne utføre på mer sikker måte diskrimi-neringen av støy fra en konsonant, selv når et signal blir bestemt til å være en konsonant av dets middelverdi, og det ikke fortsetter med et vokalområde, bestemmes signalet til å være støy.
Kanselleringskoeff isientinnstillingsinnretningen 579 innstiller en passende kanselleringskoeffisient på basis av taleinformasjonen fra vokal/konsonantområdet diskriminert av vokal/konsonantdetekteringsinnretningen 558.
På den annen side blir et tale/støysignal som inneholder støy og som utmates forutsagt når det gjelder dets støykomponent for hver kanal av støyforutsigelsesinnretningen 568. Et talesignal blir også kansellert når det gjelder dets støykomponent matet fra støyforutsigelsesinnretningen 568 på hver kanal av kanselleringsinnretningen 588. Støykansel-leringsforholdet ved dette tidspunktet blir innstilt på hver kanal av en kanalkoeffisient matet fra kansellerings-koef f isientinnstillingsinnretningen 579. Det vil si, at når en forutsagt støykomponent representerer a-^, et signal b-^ som inneholder støy og en kanselleringskoeffisient alfa^, blir et utgangssignal c^fra kanselleringsinnretningen 588 (b^-alfaix a^). Kanselleringskoeffisienten alfajer en koeffisient-verdi som vist på fig. 10. Det vil si, at fig. 10 (a) viser en kanselleringskoeffisient i hvert bånd, hvor fo~^3indikerer det fullstendige båndet til et innmatet tale/støy-signal. En kanselleringskoeffisient blir innstilt ved å dele fG-f3i m kanaler. Spesielt indikerer fi~f2et bånd som inneholder støy, og dette blir på sikker måte bestemt av vokal/konsonantdetekteringsinnretningen 558 som beskrevet ovenfor. I talebåndet blir således en kanselleringskoeffisient holdt liten (nær null) slik at støyen blir kansellert i så liten grad som mulig. Dette medfører at uttalen eller artikulasjonen blir forbedret. Dette skjer siden et mennes-kelig høreorgan kan høre en stemme selv om det er en viss grad av støy tilstede. I ikke-talebåndene fo_f"i°g ^2~^3vil støy kanselleres tilstrekkelig ved at kanselleringskoeffisienten er 1. Kanselleringskoeffisienten på fig. 10 (b) blir brukt når det på sikker måte er fastslått at dets signal anses å ikke ha tale og bare bestå av støy, hvilket anses å være 1 slik at støyen kan kanselleres tilstrekkelig. Dette korresponderer f.eks. til et tilfelle hvor et signal uten vokal fortsetter fra toppefrekvensen, og signalet blir bestemt til ikke å være et talesignal, og følgelig er signalet støy. Det foretrekkes at kanselleringskoeffisientene på fig. 10 (a) og (b) kan veksles etter behov.
Den foreliggende oppfinnelse kan selv om den er implementert i programvare som anvender en datamaskin, også implementeres ved bruk av en dedikert maskinkrets.
Slik det er åpenbart i beskrivelsen foran, detekterer en talesignalbehandlingsanordning i henhold til den foreliggende oppfinnelse vokal/konsonantområdet til et talesignal som inneholder støy, og på basis av det detekterte området innstilles en passende kanselleringskoeffisient av en koeffisientinnstillingsinnretning, og så ved anvendelse av kanselleringskoeffisienten kanselleres på passende måte en forutsagt støykomponent, og derved blir støyen kansellert og artikulasjonen forbedret.

Claims (5)

1. Talesignal-behandlingsanordning omfattende en frekvensanalyseinnretning (1, 518) for frekvensanalysering av et taleinngangssignal; en cepstrum-analyseinnretning (2, 528) for cepstrum-analysering av utgangssignålet fra nevnte frekvensanalyseinnretning (1, 518); en toppdetekteringsinnretning (3, 538) for detektering av en cepstrumtopp til det cepstrum-analyserte utgangssignalet fra cepstrum-analyseringsinnretningen (2, 528); og en vokal/konsonantdetekteringsinnretning (5, 558) for å detektere en vokal fra en konsonant, idet en vokal bestemmes i samsvar med cepstrumstoppen,karakterisertved at middelverdiberegningsinnretninger (4, 548) er anordnet for å beregne et middelverdinivå av det cepstrum-analyserte utgangssignalet fra cepstrum-analyseringsinnretningen (2,
528); og at vokal/konsonantdetekteringsinnretning (5, 558) bestemmer en konsonant i samsvar med middelverdinivået.
2. Talesignal-behandlingsanordning i samsvar med krav 1,karakterisert vedat vokal/konsonantdetek-ter ingsinnretningen omfatter; en første komparator (52) for å sammenligne den detekterte toppen fra nevnte toppdetekteringsinnretning (3, 538) med en terskel innstilt av en første terskelinnstillingsseksjon (51); en andre komparator (53) for å sammenligne den beregnede middelverdien fra nevnte middelverdiberegningsinnretning (4, 548) med en spesifisert terskel innstilt av en andre terskelinnstillingsseksjon (54); og vokal/konsonantdetekteringskrets (55) for å detektere en vokal og en konsonant på basis av de sammenlignede resultater fra nevnte første og andre komparatorer (52, 53), og for å sende ut det detekterte resultatet.
3. Talesignal-behandlingsanordning Ifølge krav 1,karakterisert ved en kanselleringskoeffislentinnstllllngsinnretning (7, 578) for å innstille en kanselleringskoeffisient under anvendelse av det detekterte resultatet fra vokal/konsonantdetekterings-innretningen (5, 558); en støyforutsigelsesinnretning (6, 568) som et Fourier-transformerte talesignal blir innmatet i og som forutsier støykomponenten til dette; kanselleringsinnretning (8, 588) hvori innmates det støy-forutsagte utgangssignalet fra støyforutsigelsesinnretningen (6, 568), nevnte talesignal, og kanselleringskoeffisient-signalet innstilt av nevnte kanselleringskoeffisientinnstil-lingsinnretning (7, 578), og som kansellerer en støykomponent under hensyntagen til kanselleringsforholdet fra talesignalet; og signalsammensetningsinnretning (9, 598) for å sette sammen det kansellerte utgangssignalet fra kanselleringsinnretningen (8, 588).
4. Talesignal-behandlingsanordning ifølge krav 1,karakterisert vedat frekvens-analyseringsinnretningen er bånddeleinnretning (1, 518).
5. Fremgangsmåte for talesignalbehandling, omfattende de følgende trinn: frekvensanalysering av et innmatet talesignal for å oppnå et spektrum, cesptrum-analysering av spektrumet for å oppnå et cepstrum; og detektering av en topp i nevnte cepstrum, og bestemmelse av en vokal ifølge nevnte detekterte topp,karakterisert vedtrinnene å beregne et middelverdi-nivå av nevnte cepstrum, og å bestemme en konsonant i samsvar med nevnte middelverdi-nivå .
NO910535A 1990-02-13 1991-02-11 Anordning og fremgangsmÕte for talesignal-behandling NO306360B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2033211A JP2959792B2 (ja) 1990-02-13 1990-02-13 音声信号処理装置
JP3321090A JP2959791B2 (ja) 1990-02-13 1990-02-13 音声信号処理装置

Publications (3)

Publication Number Publication Date
NO910535D0 NO910535D0 (no) 1991-02-11
NO910535L NO910535L (no) 1991-08-14
NO306360B1 true NO306360B1 (no) 1999-10-25

Family

ID=26371868

Family Applications (1)

Application Number Title Priority Date Filing Date
NO910535A NO306360B1 (no) 1990-02-13 1991-02-11 Anordning og fremgangsmÕte for talesignal-behandling

Country Status (9)

Country Link
US (1) US5204906A (no)
EP (1) EP0442342B1 (no)
KR (1) KR960005740B1 (no)
AU (1) AU635600B2 (no)
CA (1) CA2036199C (no)
DE (1) DE69105154T2 (no)
FI (1) FI103930B1 (no)
HK (1) HK185195A (no)
NO (1) NO306360B1 (no)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104788A (ja) * 1993-10-06 1995-04-21 Technol Res Assoc Of Medical & Welfare Apparatus 音声強調処理装置
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
EP1085504B1 (en) 1996-11-07 2002-05-29 Matsushita Electric Industrial Co., Ltd. CELP-Codec
JPH10247869A (ja) * 1997-03-04 1998-09-14 Nec Corp ダイバーシティ回路
DE19854341A1 (de) 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
US20020150264A1 (en) * 2001-04-11 2002-10-17 Silvia Allegro Method for eliminating spurious signal components in an input signal of an auditory system, application of the method, and a hearing aid
US20040102965A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Determining a pitch period
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8880396B1 (en) * 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
DE102011006515A1 (de) 2011-03-31 2012-10-04 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102011006511B4 (de) 2011-03-31 2016-07-14 Sivantos Pte. Ltd. Hörhilfegerät sowie Verfahren zum Betrieb eines Hörhilfegeräts
DE102011006472B4 (de) 2011-03-31 2013-08-14 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP2015169827A (ja) * 2014-03-07 2015-09-28 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
AU598933B2 (en) * 1987-04-03 1990-07-05 American Telephone And Telegraph Company An adaptive threshold voiced detector

Also Published As

Publication number Publication date
US5204906A (en) 1993-04-20
NO910535L (no) 1991-08-14
EP0442342B1 (en) 1994-11-17
FI103930B (fi) 1999-10-15
KR960005740B1 (ko) 1996-05-01
CA2036199C (en) 1997-09-30
FI103930B1 (fi) 1999-10-15
KR910015962A (ko) 1991-09-30
DE69105154T2 (de) 1995-03-23
CA2036199A1 (en) 1991-08-14
AU6927891A (en) 1991-08-15
NO910535D0 (no) 1991-02-11
EP0442342A1 (en) 1991-08-21
FI910679A0 (fi) 1991-02-12
FI910679A (fi) 1991-08-14
DE69105154D1 (de) 1994-12-22
HK185195A (en) 1995-12-15
AU635600B2 (en) 1993-03-25

Similar Documents

Publication Publication Date Title
NO306360B1 (no) Anordning og fremgangsmÕte for talesignal-behandling
EP0763813B1 (en) Speech signal processing apparatus for detecting a speech signal from a noisy speech signal
KR950013551B1 (ko) 잡음신호예측장치
EP0438174B1 (en) Signal processing device
KR950013554B1 (ko) 음성신호처리장치
KR100929958B1 (ko) 음성 인증 장치, 음성 인증 방법 및 기계 판독가능 매체
NO316610B1 (no) Deteksjon av stemme-aktivitet
JPH0431898A (ja) 音声雑音分離装置
US20070276659A1 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
EP0614169B1 (en) Voice signal processing device
JP3106543B2 (ja) 音声信号処理装置
JPH04227338A (ja) 音声信号処理装置
JPH04230796A (ja) 音声信号処理装置
JPH04230798A (ja) 雑音予測装置
JPH04100099A (ja) 音声検出装置
Barlaskar et al. Study on the varying degree of speaker identity information reflected across the different MFCCs
KR950001071B1 (ko) 음성신호처리장치
KR950013555B1 (ko) 음성신호처리장치
KR960007843B1 (ko) 음성신호처리장치
JPH03236000A (ja) 音声信号処理装置
JPH09127982A (ja) 音声認識装置
JPH01200294A (ja) 音声認識装置
KR20050117887A (ko) 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치
JPH09127971A (ja) 音声区間検出装置及び音声認識装置
JPH03235999A (ja) 音声信号処理装置