NO321125B1 - Stemmegjenkjenningssystem - Google Patents

Stemmegjenkjenningssystem Download PDF

Info

Publication number
NO321125B1
NO321125B1 NO19975475A NO975475A NO321125B1 NO 321125 B1 NO321125 B1 NO 321125B1 NO 19975475 A NO19975475 A NO 19975475A NO 975475 A NO975475 A NO 975475A NO 321125 B1 NO321125 B1 NO 321125B1
Authority
NO
Norway
Prior art keywords
voice
speech
classification
feature
output signals
Prior art date
Application number
NO19975475A
Other languages
English (en)
Other versions
NO975475L (no
NO975475D0 (no
Inventor
Richard J Mammone
Kevin Farrell
Manish Sharma
Naik Devang
Xiaoyu Zhang
Khaled Assaleh
Han-Sheng Liuo
Original Assignee
Univ Rutgers
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Rutgers filed Critical Univ Rutgers
Publication of NO975475D0 publication Critical patent/NO975475D0/no
Publication of NO975475L publication Critical patent/NO975475L/no
Publication of NO321125B1 publication Critical patent/NO321125B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Selective Calling Equipment (AREA)
  • Traffic Control Systems (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Eye Examination Apparatus (AREA)

Description

S TEMMEGJENKJENNINGS SYSTEM
Den herværende oppfinnelse vedrører et mønstergjen-kjenningssystem og særlig et stemmegjenkjenningssystem som benytter datafusjon til å kombinere data fra en flerhet av frasorterte trekk og en flerhet av klassifiseringsenheter til nøyaktig verifisering av en hevdet identitet.
Mønstergjenkjenning innebærer identifisering av et mønster, slik som ytring, stemme eller bilde. Et identifisert stemmemønster kan benyttes i et system til stemmegjenkjenning for ut fra en ytring å bestemme hvilken stemme som er til stede.
Formålet med et stemmegjenkjenningssystem er å verifisere en stemmes hevdede identitet ut fra en ytring. Talte inndata til stemmegjenkjenningssystemet kan være tekstavhengig eller tekstuavhengig. Tekstavhengige stemmegjenkjenningssysterner identifiserer stemmen etter ytringen av en forhåndsbestemt frase eller et passord. Tekstuavhengige stemmegjenkjenningssysterner identifiserer stemmen hva ytringen enn måtte være. Tradisjonelle tekstuavhengige systemer er gunstigere sett fra et bru-kersynspunkt ved at det ikke trengs noe passord.
Trekkfrasorteringer fra stemmeopplysninger er utført med en modulasjonsmodell som benytter tilpasset komponentveiing for hver taleramme, som beskrevet i den ver-serende søknad med tittel "Speaker Identification Verification System"/Gjenkjenningssystem til stemme-identifisering, US serienr. 08/203,988, og innbefattet i denne søknad gjennom henvisning. Fremgangsmåten med tilpasset komponentveiing svekker ikke-vokalorgan-komponenter og normaliserer talekomponenter for forbedret stemmegjenkjenning via en overføringskanal.
Andre tradisjonelle fremgangsmåter til trekkfrasorte-ring innbefatter bestemmelse av cepstralkoeffisienter fra frekvensspektret eller spektralkodekoeffisienter avledet ved lineær prediksjon. Nevrale trenettverk (NTN) er blitt benyttet med stemmeuavhengige data for å bestemme diskriminantbaserte parametere til å skjelne stemmer. NTN er en hierarkisk klassifiseringsenhet som kombinerer egenskapene ved beslutningstrær og nevrale nettverk, som beskrevet i A. Sankar og R.J. Mammone, "Growing and Pruning Neural Tree Networks"/Dyrking og beskjæring av nevrale trenettverk, IEEE Transactions on Computers, C-42:221-229, mars 1993. For stemmegjen-kj enning består opplæringsdata til NTN av data for den øns-kede stemme og data fra andre stemmer. NTN deler trekkfeltet i områder som knyttes til sannsynligheter som avspeiler hvor sannsynlig det er at en stemme har generert en trekkvektor som faller innenfor stemmens om-råde. Tekstuavhengige systemer har den ulempe at de krever en stor mengde data for å danne modell av og evaluere akustiske trekk ved stemmen.
Amerikansk patent nr. 4,957,961 beskriver et nevralt nettverk som greit kan læres opp til pålitelig å kjenne igjen ord i sammenheng. En dynamisk programmeringstek-nikk blir benyttet, hvor nevronenheter innlagt i et innmatingslag blir gruppert i et flerlags nevralt nettverk. Til gjenkjenning av et inndatamønster blir vek-torkomponenter for hver trekkvektor tilført respektive innmatingsnevronenheter i ett av innmatingslagene som blir valgt fra tre fortløpende nummererte innma-tingslagrammer. Et mellomlag forbinder i det minste to innmatingslagrammers inndatanevronenheter. En utdata-nev-ronenhet er forbundet med mellomlaget. En juste-ringsenhet er forbundet med mellomlaget for å justere forbindelsene inn-mellom og mellom-ut for å bevirke at utenheten lager et utsignal. Det nevrale nettverk gjen-kjenner inndatamønsteret som et forhåndsbestemt mønster når justeringsenheten maksimerer utsignalet. Det blir benyttet omtrent førti gangers trening i forbindelse med hvert talemønster for å lære opp det dynamiske nevrale nettverk.
Det er funnet ut at den mengde data som trengs til opplæring og testing av et verifiseringssystem, kan reduseres ved å benytte tekstavhengige stemmeytringer. Ett tradisjonelt tekstavhengig stemmegjenkjenningssystem benytter dynamisk tidsfordreining (dynamic time warping - DTW) til å tidsinnrette trekkdiagnosen basert på forvrengning, se S. Furui, "Cepstral Analysis Technique For Automatic Speaker Verification"/Cepstral-analyse-teknikk til automatisk stemmegjenkjenning, IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-29:254-272, april 1981. En referansemal blir generert fra flere ytringer av et passord under testing. En beslutning om å akseptere eller avvise stemmens hevdede identitet fattes ut fra om forvrengningen av stemmens ytring faller under en forhåndsbestemt terskel. Systemet har den ulempe at det mangler nøyaktighet.
En annen teknikk som benytter skjulte Markov-modeller (Hidden Markov Models - HMM), har tilveiebrakt en forbedret ytelse fremfor DTW-systemer, som beskrevet i J.J. Naik, L.P. Netsch, og G.R. Doddington, "Speaker Verification Over Long Distance Telephone Lines"/ Stemmegjenkjenning over langdistansetelefonlinjer, Proceedings ICASSP (1989). Flere former for HMM er blitt benyttet i tekstavhengig stemmegjenkjenning. For eksempel er det til stemmegjenkjenning vurdert delordmodel-ler som beskrevet i A.E. Rosenberg, C.H. Lee og F.K. Soong, "Subword Unit Talker Verification Using Hidden Markov Models"/Delordbasert stemmegjenkjenning ved bruk av skjulte Markov-modeller, Proceedings ICASSP, side 269-272 (1990) og helordmodeller, A.E. Rosenberg, C.H. Lee og S. Gokeen, "Connected Word Talker Recognition Using Whole Word Hidden Markov Models"/Stemmegjenkjenning gjennom ordsammenheng ved bruk av skjulte Markov-modeller, Proceedings ICASSP, side 381-384 (1991). HMM-teknikker har den begrensning at de generelt krever en stor datamengde for å beregne modellparametrene tilstrekkelig. En generell ulempe med DTW- og HMM-systemer er at de bare danner modell for stemmen og ikke fremstiller modeller av data fra andre stemmer som bruker systemet. Den manglende diskrimin-antopplæring gjør det lettere for en inntrenger å bryte seg inn i disse systemer.
WO 95/05656 beskriver et system og en metode for tale-gjenkjenning og taleverifikasjon. I metoden frasorteres taleegenskaper av en innmatet tale, hvor disse taleegenskaper sammenliknes med lagrede taleegenskaper ved bruk av et antall algoritmer i et nevralnettverk for å verifisere tale.
Det er ønskelig å tilveiebringe et mønstergjenkjenn-ingssystem hvor en flerhet av frasorterte trekk kan kombineres i en flerhet av forhåndsbestemte klassifiseringsenheter til forbedret nøyaktighet i gjenkjenningen av mønsteret.
Kort beskrevet omfatter den herværende oppfinnelse et mønstergjenkjenningssystem som kombinerer en flerhet av frasorterte trekk i en flerhet av klassifiseringsenheter innbefattende klassifiseringsenheter som er opplært med ulike og overlappende substrat av opplærings-dataene, for eksempel en "utelat én"-teknikk beskrevet nedenfor. Fortrinnsvis benyttes mønstergjenkjennings-sys ternet til stemmegjenkjenning hvor trekk blir frasortert fra tale fremført av en stemme. En flerhet av klassifiseringsenheter blir benyttet til å klassifisere de frasorterte trekk. Utdataene fra klassifiseringsenhetene sammenfattes for å gjenkjenne likhetene mellom talen kommet fra stemmen og tale som er forhåndslagret for stemmen. Ut fra de sammenfattede klassifiserte data blir det tatt en beslutning om å akseptere eller avvise stemmen. Fortrinnsvis klassifiseres talen gjennom fu-sjon av en dynamisk-tidsfordreining-klassifiseringsenhet for å tilveiebringe godkjenning av det uttalte passord og en modifisert nevraltrenettverk-klassifiseringsenhet for å tilveiebringe skjelning fra andre stemmer. Bruken av en diskriminantopplært klassifiseringsenhet i et stemmegjenkjenningssystem har den fordel at den nøyaktig skjelner én stemme fra andre stemmer.
Systemet innbefatter en foreløpig beslutning om å god-kjenne eller avvise stemmen, basert på å utføre ordgjenkjenning på et ord ytret av stemmen, dvs. stemmens passord. Dersom stemmens passord blir akseptert, akti-veres klassifiseringsenhetene. Fortrinnsvis er klassifiseringsenhetene opplært gjennom tilføring av en flerhet av ytringer til klassifiseringsenheten idet én av ytringene er utelatt. Den utelatte ytring kan brukes på klassifiseringsenheten for å bestemme en sannsynlighet mellom 0 og 1 til identifisering av stemmen. Sannsynlighetene kan sammenlignes mot en klassifiserings-terskel for å beslutte om stemmen skal aksepteres eller avvises.
Teksten talt av stemmen kan være stemmeavhengig eller stemmeuavhengig. De frasorterte trekk kan også være oppdelt i delord. Fortrinnsvis er delordet et fonem. Hvert av delordene kan modelleres med i det minste én klassifiseringsenhet. Utdata fra de delordbaserte klassifiseringsenheter kan sammenfattes for å tilveiebringe et delordbasert verifiseringssystem.
Fortrinnsvis kan trekkene frasorteres gjennom en fremgangsmåte med polfiltrering for å redusere kanaleffekter på talen. I tillegg kan de frasorterte trekk juste-res med en affin transformasjon for å redusere uoverensstemmelsen mellom opplærings- og testforhold.
Oppfinnelsen vil bli beskrevet mer fullstendig under henvisning til de medfølgende tegninger. Fig. 1 er et skjematisk diagram over et stemmegjenkjenningssystem i overensstemmelse med den herværende oppfinnelses lære. Fig. 2 A er et skjematisk diagram over ordgjenkjenningsmodulen vist på fig. 1, under opplæring av systemet . Fig. 2B er et skjematisk diagram over ordgjenkjenningsmodulen vist på fig. 1, under testing av systemet. Fig. 3 er et skjematisk diagram over en stemmegjenkjenningsmodul som kombinerer en flerhet av frasorterte trekk med en flerhet av klassifiseringsenheter. Fig. 4 er et skjematisk diagram over kombinasjonen av modifisert nevraltrenettverk og dynamiske tidsfordreining-klassifiseringsenheter benyttet i stemmegjenkjenningsmodulen vist på fig. 1. Fig. 5 er et skjematisk diagram over en modifisert-nevraltrenettverk(MNTN)-klassifiseringsenhet benyttet i stemmegjenkjenningsmodulen vist på fig. 1. Fig. 6 er et skjematisk diagram over en dynamisk tidsfordreining(DTW)-klassifiseringsenhet benyttet i stemmegjenkjenningsmodulen vist på fig. 1. Fig. 7A er et skjematisk diagram over en flerhet av ytringer benyttet ved opplæring av stemmegjenkjenningsmodulen . Fig. 7B er et skjematisk diagram over anvendelsen av flerheten av ytringer vist på fig. 7A i stemmegjen-kj enningsmodulen. Fig. 8 er en graf over en stemmes og andre stemmers verdier. Fig. 9 er et skjematisk diagram over et delordbasert stemmegj enkj enningssystem. Fig. 10A er et skjematisk diagram over et delordbasert klassifiseringssystem under opplæring. Fig. 10B er.et skjematisk diagram over ét delordbasert klassifiseringssystem under testing. Fig. 11A er et skjematisk diagram over et kanalnormaliseringssystem ifølge eldre teknikk. Fig. 11B er et skjematisk diagram over et kanalnormaliseringssystem ifølge den herværende oppfinnelse. Fig. 12 er en graf over en kanalnormalisering ved polfiltrering. Fig. 13A er en graf av et spektrum av en taleramme. Fig. 13B er en graf over et spektrum av en taleramme til et normaliseringssystem ifølge den herværende oppfinnelse satt opp imot en ramme fra et normaliseringssystem ifølge eldre teknikk. Fig. 14 er et skjematisk diagram over et affin-transformasjon-system.
I løpet av denne beskrivelse vil like tall bli benyttet til å identifisere like elementer ifølge de forskjellige figurer som illustrerer oppfinnelsen.
Fig. 1 viser et skjematisk diagram over en utførelse av et stemmegjenkjenningssystem 10 ifølge den herværende oppfinnelses lære. En stemme 11 fremsier tale 12. Talen 12 anvendes som tale-innsignal 13 til en trekkfrasorte-ringsmodul 14. Trekkfrasorteringsmodulen 14 bestemmer taletrekkvektorer 15 som er representative for karak-teristiske parametere for tale-innsignalet 13. Fortrinnsvis bestemmes taletrekkvektorene 15 ved lineær-prediksjon(LP)-analyse for å fastsette LP-cepstralkoeffisienter. LP-cepstralkoeffisientene kan bånd-passløftes ved å bruke et opphøyet sinusvindu med tradisjonell teknikk for forbedret gjenkjenning av cepstralkoeffisientene.
Alternativt, eller i kombinasjon med LP-analysen, kan trekkfrasorteringsmodulen 14 frasortere trekk med en flerhet av fremgangsmåter. For eksempel kan en fremgangsmåte med tilpasset komponentveiing som beskrevet i det ovenfor angitte amerikanske serienummer 08/203,988, benyttes til å frasortere taletrekkvektorene 15. Tek-nikken for tilpasset komponentveiing forbedrer frasorterte trekk ved å anvende vektlegginger på forhåndsbestemte komponenter av tale-innsignalet 13 til fremstilling av et normalisert spektrum som forbedrer vokalorgantrekk ved signalet, mens det reduserer ikke-vokal-organeffekter. Trekkfrasorteringsmodulen 14 kan også generere andre trekk avledet ved lineær prediksjon fra lineær-prediksjon(LP)-koeffisienter ved å benytte tradisjonelle fremgangsmåter slik som loggområdefor-hold, linjespektrumpar og refleksjonskoeffisienter. Trekkfrasorteringsmodulen 14 kan også generere spektrale trekk avledet ved Fast-Fourier-transformasjon (FFT) på line-ære skalaer og loggfrekvensskalaer, grunnfrekvens (tonehøyde), lydstyrkekoeffisient og nullpunktrater.
En ordgjenkjenningsmodul 20 mottar taletrekkvektorene 15 og sammenligner taletrekkvektorene 15 med data 16 knyttet til taletrekkvektorene 15. Dataene 16 kan være lagret i en database 50. For eksempel kan stemmen 11 fremsi et passord som tale 12. Taletekkvektorene 15 representerer ytringen av passordet for stemmen 11. Et lukket sett av passord kan være representert ved dataene 16 og lagret i databasen 50. Det lukkede sett av passord tilsvarer et sett av stemmeidentiteter, innbefattende passordet for stemmen 11. Ved ordgjenkjenningsmodulen 20 blir, dersom de mottatte taletrekkvektorer 15 ved ordgjenkjenningsmodulen 20 stemmer overens med dataene 16 lagret i databasen 50, for eksempel en overensstemmelse mellom et passord for en hevdet identitet, en stemmegjenkjenningsmodul 30 aktivert. Dersom de mottatte taletrekkvektorer 15 ikke stemmer overens med dataene 16 lagret i databasen 50, for eksempel er det ikke lagret noe som stemmer med et passord i databasen 50 for den hevdede identitet, kan stemmen 11 få beskjed i modul 21 om å anrope på nytt.
Stemmegjenkjenningsmodulen 30 bruker fortrinnsvis datafusjon for å kombinere en flerhet av klassifiseringsenheter med taletrekkvektorene 15, hvilken teknikk er beskrevet mer detaljert nedenfor. Stemmegjenkjennings-modulens 30 sammenfattede klassifiseringsenhet-utsignaler 35 mottas ved en beslutningsfusjonslogikkmo-dul 40. Beslutningsfusjonslogikkmodulen 40 sørger for den endelige beslutning om å akseptere eller avvise stemmens 11 hevdede identitet og verifiserer således stemmens hevdede identitet.
Fig. 2A og 2B illustrerer ordgjenkjenningsmodulen 20 under henholdsvis registrering av stemmen 11 og testing av stemmen 11. Under registrering av stemmen 11 i stemmegj enkj enningssys ternet 10, fremsies opplæringstale 22 av stemmen 11. For eksempel kan opplæringstalen 22 om-fatte fire gjentakelser av et passord for stemmen 11. Hver av gjentakelsene oppfattes med en ordsammenhol-delse-oppfatningsmodul 28. Fortrinnsvis benyttes en DTW-basert malsammenholdelsesalgoritme i ordsammenhol-delse-oppfatningsmodulen 28 for å fremstille oppfattede ord 23. Oppfattede ord 23 samles som clustere i en stemmeavhengig mal 24. Stemmeuavhengige maler 26 kan også genereres med oppfattede ord 23 og repetisjonsdata for den samme opplæringstale 22 fremsagt av andre stemmer 25 som benytter stemmegjenkjenningssysternet 10. En majoritetsavstemning over oppfattede ord 23 fra ordsam-menholdelse-oppfatningsmodulen 28 kan benyttes til å identifisere en brukers passord 27 for stemmen 11.
Under testing av en stemme 11, fremsies talen 12 av stemmen 11 og sammenlignes med den stemmeavhengige mal 24 og den stemmeuavhengige mal 26 i ordsammenholdelse-oppfatningsmodulen 28. Dersom talen 12 representerer stemmens 11 passord 27 og stemmer overens med enten den stemmeavhengige mal 24 eller den stemmeuavhengige mal 26, sendes et "akseptert"-svar som utsignal til en linje 29. Dersom talen 12 ikke stemmer, verken med den stemmeavhengige mal 24 eller den stemmeuavhengige mal 26, sendes et "awist"-svar som utsignal til linje 29.
Stemmegjenkjenningsmodulen 30 benytter datafusjon til å kombinere en flerhet av frasorterte trekk 60, 61 og 62 med en flerhet av klassifiseringsenheter 70, 71 og 72 som vist på fig. 3. Trekkene 60, 61 og 62 kan representere taletrekkvektorer 15 som er frasortert med forskjellige, forhåndsbestemte fremgangsmåter for frasortering, som beskrevet ovenfor. Klassifiseringsenhetene 70, 71, 72 kan representere forskjellige forhåndsbestemte fremgangsmåter for klassifisering, slik som for eksempel et nevralt trenettverk (NTN), flerlagsper-ceptron (MLP), skjulte Markov-modeller (HMM), dynamisk tidsfordreining (DTW), gaussk blandingsmodell (GMM) og vektorkvantisering (VQ). I en alternativ utførelse kan trekkene 60, 61 og 62 representere frasorterte trekk i et alternativt mønster slik som tale eller bilde, og klassifiseringsenhetene 70, 71 og 72 kan representere forhåndsbestemte fremgangsmåter til klassifisering av tale eller bildemønstrene. Utdata 73, 74 og 75 fra de respektive klassifiseringsenheter 70, 71 og 72 kan kombineres i beslutningsfusjonslogikkmodulen 40 for å for-eta en endelig avgjørelse om å akseptere eller avvise stemmen 11. Beslutningsfusjonslogikkmodulen 40 kan benytte tradisjonelle teknikker som lineær meningssammenfatning, logg-meningssammenfatning, Bayes teorem (Baysian combination rules); en fremgangsmåte med avstemning eller en tilleggsklassifiseringsenhet til kom-binering av klassifiseringsenhetene 70, 71 og 72. Det skal forstås at hvilket som helst antall trekk eller klassifiseringsenheter kan kombineres. Klassifiseringsenhetene kan også innbefatte klassifiseringsenheter opplært med forskjellige og overlappende substrater av opplæringsdata, for eksempel den nedenfor beskrevne teknikk med å utelate én.
Fig. 4 illustrerer en foretrukket stemmegjenkjenningsmodul 30 til bruk i stemmegjenkjenningssysternet ifølge den herværende oppfinnelse. Taletrekkvektorer 102 mates inn i nevraltrenettverk(NTN)-klassifiseringsenheter
104, 106, 108 og 110 og dynamisk-tidsfordreining(DTW)-klassifiseringsenheter 120, 122, 124 og 126. Under klassifiseringen bestemmer hver NTN-klassifiseringsenhet 104, 106, 108 og 110 og 126 om taletrekkvektoren 102 ligger over en forhåndsbestemt respektiv terskel, "T^" i NTN lagret i en database 132. Hver DTW-klassifiseringsenhet 120, 122, 124 og 126 bestemmer om taletrekkvektoren 102 ligger over en forhåndsbestemt respektiv terskel "T^" i DTW lagret i databasen 132. Dersom taletrekkvektorene 102 ligger over de respektive terskler og T,^, sendes et binært utsignal lik "1" til henholdsvis linje 240 og linje 241. Dersom taletrekkvektorene 102 ligger lavere enn de forhåndsbestemte respektive terskler T^ og T,^,, sendes et binært utsignal lik "02 til henholdsvis linje 240 og linje 241.
Under testing av stemmen 11 med stemmegjenkjenningssystemet 10 mottar beslutningsfusjonslogikkmodulen 40 de binære utsignaler fra linje 240 og 241. I en foretrukket utførelse av beslutningsfusjonslogikkmodulen 40 kan det foretas en majoritetsavstemning over de binære utsignaler i en beslutningsmodul 240 for å beslutte om stemmen 11 skal aksepteres eller avvises. I denne utfø-relse blir stemmen, dersom flertallet av de binære utsignaler er "1", akseptert, og dersom flertallet av de binære utsignaler er "0", blir stemmen avvist.
En foretrukket klassifiseringsenhet betegnet som et modifisert nevralt trenettverk (MNTN) 200 kan benyttes som en diskriminantbasert klassifiseringsenhet i stemmegjenkjenningsmodulen 30. MNTN 200 har en flerhet av sammenkoplede noder 202, 204 og 206, som vist på fig.
5. Noden 204 er koplet til bladnode 208 og bladnode 210, og noden 206 er koplet til bladnode 212 og bladnode 214. En sannsynlighetsmåling benyttes ved hver av bladnodene 208, 210, 212 og 214 på grunn av "forlengs beskjæring" av treet ved å skjære bort MNTNs 200 voks-ter ut over et forhåndsbestemt nivå.
MNTN 200 blir lært opp for stemmen 11 ved å anvende data fra andre stemmer 25 som bruker stemmegjenkjenningssystemet 10. Taletrekkvektorer 15 for stemmen 11, identifisert som "S.", tildeles etiketter med "1", og taletrekkvektorer for andre stemmer 25 som bruker stemmegj enkj enningssys ternet 10, tildeles etiketter med "0". Data 220, 230, 240 og 250 blir anvendt på henholdsvis bladnode 208, 210, 212 og 214 for taletrekkvektorene. En avstemning foretas ved hver av bladnodene 208, 210, 212 og 214. Hver av bladnodene 208, 210, 212 og 214 blir tildelt etiketten for flertallet i avstemningen. En "sikkerhet" defineres som forholdet mellom antall etiketter for flertallet og det samlede antall etiketter. For eksempel gis data 220 som omfatter åtte "0"-trekk, en etikett "0" og en sikkerhet på "1,0". Data 230 som omfatter seks "l"-trekk og fire "0"-trekk, gis en etikett "1" og en sikkerhet på "0,6".
Et opplært MNTN 200 kan benyttes i stemmegjenkjenningsmodulen 30 for å bestemme en tilsvarende stemmeverdi ut fra en sekvens av trekkvektorer "X" fra talen 12. Den tilsvarende stemmeverdi P™™ (X/S.) kan bestemmes med følgende ligning:
hvor stemmen 11 er identifisert som Si# c<1> er sikkerhetsverdien for stemmen 11, C° er sikkerhetsverdien for
alle andre stemmer. M og N tilsvarer antall vektorer klassifisert som henholdsvis "1" og "0".
En foretrukket DTW-klassifiseringsenhet baserer seg på forvrengning for å tidsinnrette to bølgeformer eller to trekkmønstre, som vist på fig. 6. Bølgeformene er representert ved et referansemønster for taletrekkvektorene 15 på X-aksen og et testmønster for taletrekkvektorene 15 på Y-aksen, idet N representerer antall referansemønstre, og M representerer antall test-mønstre. Globale skranker 270, 271, 272 og 273 representerer grenser for en dynamisk tidsfordreiningsbane 275. Den dynamiske tidsfordreiningsbane 275 kan bestemmes ved tradisjonelle fremgangsmåter slik som beskrevet i H. Sakoe og S. Chiba, "Dynamic programming algorithm optimization for spoken word recognition"/Optimering av dynamisk pogrammeringsalgoritme til gjenkjennelse av det talte ord, IEEE Trans, on Acoustics, Speech and Signal Processing, utgave ASSP-26, nr. 1, side 43-49, februar 1978.
Det foretrekkes å kombinere en klassifiseringsenhet som er basert på en fremgangsmåte méd forvrengning, dvs. en DTW-klassifiseringsenhet for å tilveiebringe opplys-ninger knyttet til stemmen, og en klassifiseringsenhet basert på en fremgangsmåte med diskriminant, NTN- eller MNTN-klassifiseringsenheter for å tilveiebringe opplys-ninger knyttet til stemmen i forhold til andre stemmer 25 som benytter stemmegjenkjenningssystemet 10. Fusjo-nen av en DTW-klassifiseringsenhet og en MNTN- eller NTN-klassifiseringsenhet har også den fordel at DTW-klassif iseringsenheten tilveiebringer tidsbestemte opp-lysninger som vanligvis ikke er en del av NTN- eller MNTN-klassifiseringsenhetene. NTN-klassifiseringsenhetene 104, 106, 108 og 110 og DTW-klassifiseringsenhetene 120, 122, 124 og 126 kan læres opp med en opplæringsmodul 300, vist på fig. 7A og 7B. Opplæringsmodulen 300 kan også benyttes til å lære opp MNTN-klassifiseringsenheter, DTW-klassifiseringsenheter og andre klassifiseringsenheter som kan benyttes i stemmegjenkjenningsmodulen 30. En teknikk for ny prøvetaking betegnet "utelat én"-teknikk blir fortrinnsvis benyttet i opplæringsmodulen 300. Et forhåndsbestemt antall ytringer med opplæringstale blir mottatt fra stemmen 11. I denne utførelse benyttes fire ytringer, definert som 302, 304, 306 og 308 av tale 22, som stemmens passord. En kombinasjon av tre av de fire ytringer, idet én ytring utelates, blir benyttet på par av NTN-klassifiseringsenheter 104, 106, 108 og 110 og DTW-klassifiseringsenheter 120, 122, 124 og 126. De tre ytringer blir benyttet til opplæring av klassifiseringsenhetene, og den gjenstående ytring benyttes som et uavhengig testelement. For eksempel kan ytringene 302, 304 og 306 anvendes på NTN-klassifiseringsenhet 104 og DTW-klassifiseringsenhet 120; ytringene 304, 306 og 308 kan anvendes på NTN-klassifiseringsenhet 106 og DTW-klassif iseringsenhet 122; ytringene 302, 306 og 308 kan anvendes på NTN-klassifiseringsenhet 108 og DTW-klassif iseringsenhet 124, og ytringene 302, 304 og 308 kan anvendes på NTN-klassifiseringsenhet 110 og DTW-klassif iseringsenhet 126.
Etter anvendelse av de respektive tre ytringer på hvert par av NTN-klassifiseringsenheter 104, 106, 108 og 110 og DTW-klassifiseringsenheter 120, 122, 124 og 126, anvendes den utelatte ytring på hvert respektive par av NTN-klassifiseringsenhetene 104, 106, 108 og 110 og DTW-klassifiseringsenhetene 120, 122, 124 og 126, som vist på fig. 7C. For eksempel anvendes ytring 308 på NTN-klassifiseringsenheten 104 og DTW-klassifiseringsenheten 120, ytring 302 anvendes på NTN 106 og DTW 122, ytring 304 anvendes på NTN 108 og DTW 124, og ytring 306 anvendes på NTN 110 og DTW 126. En sannsynlighet, P, mellom 0 og 1 betegnet som 310, 312, 314 og 316 reg-nes ut. Sannsynlighetene 310, 312, 314 og 316 sammenlignes med en terskel T^ og sannsynligheter 317, 318, 319 og 320 med i en avstemningsmodul 321 i en be-slutningsfusjonslogikkmodul 40.
Fig. 8 er en graf over intrastemmeverdier fra andre stemmer 25 og interstemmeverdier fra stemmen 11 som kan benyttes til å fastsette terskler for klassifiseringsenhetene benyttet i stemmegjenkjenningssystemet 10, for eksempel tersklene T^ og T,^. Interstemmeverdiene for stemmen 11 for talen 12 er representert ved grafen 350 som har en stemmemiddelverdi 351. Intrastemmeverdier for andre stemmer 25 for talen 12 er representert ved grafen 360 som har stemmemiddelverdi 361. Terskler, T, kan fastsettes ut fra følgende ligning:
En mykverdi, S, kan bestemmes av hvor mye talen 12 ligger over eller under terskelen, T. En verdi for hver klassifiseringsenhet, C, er mellom null og én, hvor null er den sikreste avvisning og én er den sikreste aksept. Aksept-sikkerheten, Caccept, er mellom terskelen T og én og kan defineres ut fra følgende ligning:
En awisningssikkerhet, Creject, er mellom 0 og terskelen T og kan defineres som
Fig. 9 viser et skjematisk diagram over et delordbasert stemmegjenkjenningssystem 400. Etter frasortering av taletrekkvektorene 15 i trekkfrasorteringsmodulen 14, blir taletrekkvektorene 15 segmentert som delord 404 i en delordsegmenteringsmodul 402. Fortrinnsvis er delordene 404 fonemer. Delordene 404 kan anvendes på en opplæringsstemmemodul 406 og en teststemmemodul 408. Fig. 10A er et skjematisk diagram over det delordbaserte stemmegjenkjenningssystem 400 under anvendelse av opplæringsstemmemodulen 406. Taletrekkvektorer 15 som avbilder opplæringsytringer fra stemmen 11, og en passordtranskripsjon 410 anvendes på talesegmenteringsmodulen 402 for fonemsegmentering. Passordtranskripsjonen 410 kan være talt av stemmen 11, lagt inn gjennom en datamaskin eller skannet fra et kort eller lignende. Talesegmenteringsmodulen 402 segmenterer taletrekkvektorene 15 i delord 1 til M, for eksempel delord " 1" i modulen 420, delord "m" i modulen 422 og delord "M" i modulen 424, hvor M er antall segmenterte delord. Delordene 420, 422 og 424 kan lagres i en delorddatabase 425. Kontrollert lærevektormerkingsplan 430 bestemmer etiketteringen for opplæringstalevektorene som "0" eller "1" til opplæring av klassifiseringsenhetene 440, 442 og 444. For eksempel kan alle delord for andre stemmer 25 være merket "0", og delord for stemmen 11 kan være merket "1". Alternativt kan de nærmeste fonemer søkes i databasen 425. Delordklassifiseringsenhetene 440, 442 og 444 benyttes på de respektive delord 420, 422 og 424 for å klassifisere hvert av delordene. Fortrinnsvis benytter delordklassifiseringsenhetene 440, 442 og 444 fremgangsmåter med NTN- og MNTN-klas-sif isering. Fig. 10B er en skjematisk utforming av det delordbaserte stemmegjenkjenningssystem 400 under bruk av test-stemmemodulen 408. Taletrekkvektorer 15 som avbilder testytringer fra stemmen 11, anvendes på fonem-talesegmenteringsmodulen 402 med passordtranskripsjon 410. Delordklassifiseringsenhetene 440, 442 og 444 klassifi-serer respektive delord 420, 422 og 424 bestemt ut fra taletrekkvektorene 15 som avbilder testytringer fra stemmen 11. Utdata 445 fra klassifiseringsenhetene 440, 442 og 444 benyttes på beslutningsfusjonslogikkmodulen 40 for beslutning om å akseptere eller avvise stemmen 11 basert på sammenfattede utdata fra klassifiseringsenhetene 440, 442, 444 basert på en utregnet aksept-sikkerhet, C „, som beskrevet ovenfor.
En foretrukket fremgangsmåte som kan beskrives som "polfiltrering" kan benyttes i trekkfrasorteringsmodulen 14 for å gi taletrekkvektorer 15 som er robuste overfor kanalforskjeller. Polfiltrering foretar kanalnormalisering ved å benytte intelligent filtrering for lineær-prediksjon(LP)-filteret for alle poler.
Ren tale Ca blir konvolvert med en kanal med impulsre-aksjon h, deretter kan et kanalcepstrum av det vanlige cepstralgjennomsnitt representeres ved
hvor
tilsvarer cepstralgjennomsnittskomponenten som bare skyldes underliggende ren tale. Komponenten som skyldes ren tale, bør være null-gjennomsnitt for at kanalcep-strumestimatet cs skal tilsvare cepstrålestimatet, h, for den reelle, underliggende konvolusjonsforvrengning.
Det kan vises empirisk at den gjennomsnittlige cepstrumkomponent som skyldes ren tale, aldri er null for korte ytringer, og kan være tilfellet ved opplæring og testing av stemmegjenkjenningssysternet 10.
Et eldre kanalnormaliseringssystem 500 er vist på fig. 11A, hvor tale blir anvendt på intrarammeveiingsmodul 502. Tilpasset komponentveiing (ACW) er et eksempel på en intrarammeveiing til kanalnormalisering. Vektlagt tale 504 mottas ved en intrarammeprosesseringsmodul 506 til fjerning av kanaltilleggseffekter. En tradisjonell fremgangsmåte med intraramme til fjerning av kanaleffekter er benyttelse av cepstralgjennomsnittssubtrak-sjon (CMS). Siden kanalcepstrumet omfatter en grov spektralfordeling som skyldes kanal så vel som tale, tilsvarer den tradisjonelle utelukkelse av et fordreid estimat av kanalcepstrumet fra hver talerammes cepstrum effektiv dekonvoIvering av et upålitelig estimat for kanalen.
Fig. 11B viser et kanalnormaliseringssystem 600 ifølge den herværende oppfinnelse. Tale 12 blir anvendt på kanalestimatpolfiltreringsmodul 602. Polfiltrering leg-ger mindre vekt på betydningen av bidraget fra den invariante komponent som skyldes tale sB. Det raffinerte kanalestimat benyttes til å normalisere kanalen. Fortrinnsvis kan raffineringen av kanalcepstrumet gjøres iterativt.
Estimatet av kanalcepstrumet, c8, avhenger av antall talerammer som er tilgjengelige i ytringen. I det til-felle hvor den tilgjengelige taleytring er lang nok, er det mulig å få et estimat av kanalcepstrumet som nærmer seg det sanne kanalestimat, h. I de fleste praktiske situasjoner er ytringenes varighet til opplæring eller . testing aldri lange nok til å .gi rom for ss - 0.. Cepstrålgjennomsnittsestimatet kan forbedres ved å bestemme polenes dominans i talerammen og deres bidrag til estimatet av kanalcepstrumet.
Virkningen av hver taleorganmodus på cepstralgjennomsnittet bestemmes ved å omdanne cepstralgjennomsnittet til lineær-prediksjon-koeffisienter og studere do-minansen fra respektive komplekse konjugerende polpar. En spektralkomponent for en taleramme er mest dominerende dersom den tilsvarer et komplekst konjugerende polpar nærmest enhentssirkelen (minimumsbåndbredde), og minst dominerende hvis den tilsvarer et komplekst kon-juger-ende polpar lengst borte fra enhetssirkelen (mak-s imums-båndbredde).
Innsnevring av talepolene for å oppnå en jevnere og videre et mer nøyaktig omvendt kanalestimat i cepstral-domenet, tilsvarer et modifisert cepstralgjennomsnitt,
som reduserer den cepstrale tilbøyelighet forbundet med den invariante komponent som skyldes talen. Fjerningen
av det raffinerte cepstralgjennomsnitt, fritt for den grove spektralfordelingskomponent som skyldes tale, gir en forbedret kanalnormaliseringsplan.
Kanalestimatet som bestemmes best ut fra kanalpol-filtreringsmodulen 602, kombineres med tale 12 i en de-konvolveringmodul 730 for dekonvolvering i tidsdomenet for å tilveiebringe normalisert tale 735. Tradisjonell interrammekopling 502 og interferensprosessering 506 kan anvendes på normalisert tale 735 for å fremskaffe kanalnormalisert taletrekkvektor 740. Taletrekkvektoren 740 kan anvendes på en lignende måte som taletrekkvektorene 15 vist på fig. 1. En foretrukket fremgangsmåte til forbedring av kanalens estimat benytter polfiltrerte cepstralkoeffisienter, PFCC, hvor smalbåndpolene blir utvidet i sine båndbredder, mens deres frekvenser får være uendret, som vist på fig. 12. Poler 801, 802, 803, 804, 805, 806 flyttes til modifiserte poler 811, 812, 813, 814, 815 og 816. Effekten er likeverdig med flytting av smalbåndpolene inne i enhetssirkelen langs samme radius, hvorved frekvensen holdes konstant mens båndbreddene utvides.
Polfiltrerte cepstralkoeffisienter, PFCC, bestemmes for tale samtidig med taletrekkvektorene 15. Polfiltrerte cepstralkoeffisienter, PFCC, bestemmes ved å analysere om en pol i en tale 12 har en båndbredde som er mindre enn en forhåndsbestemt terskel, t. Dersom talen 12 ligger lavere enn den forhåndsbestemte terskel og polens båndbredde begrenses til terskelen t, kan de polfiltrerte cepstralkoeffisienter brukes til å evaluere de modifiserte cepstralgjennomsnitt. Et forbedret omvendt filterestimat oppnås ved å benytte gjennomsnitt av polfiltrerte cepstralkoeffisienter, PFCC, som bedre nærmer seg det sanne omvendte kanalfilter. Ved å trekke fra det modifiserte cepstralgjennomsnitt fra cepstralrammer av tale bevares spektralopplysningene, mens det kompenseres mer nøyaktig for kanalens spektrale hel-ning. Fig. 13A illustrerer et prøvespektrum 700 i en taleramme. Fig. 13B illustrerer spektrum 710 i et cepstralgjennomsnitt Cs fra eldre teknikk subtrahert fra spektrum 700. Spektrum 720 er et polfUtrert modifisert cepstralgjennomsnitt cf subtrahert fra spektrum 700. Spektrum 720 viser forbedrede spektralopplysninger fremfor spektrum 710. Fig. 14 illustrerer et affin-transformasjon-system 900 som kan benyttes ved opplæring og testing av stemmegj enkj enningssys ternet 10. Uoverensstemmelsen mellom opplærings- og testforhold kan reduseres ved å utføre en affin transformasjon på cepstralkoeffisientene frasortert med trekkfrasorteringsmodulen 14. En affin transformasjon y av vektoren x defineres som
hvor A er en matrise som representerer en lineær transformasjon, og b en ikke-null-vektor som representerer oversettingen, y er testdataene, og x tilsvarer opplæ-ringsdataene. I taleprosesseringsdomenet modellerer matrisen A den krymping av individuelle cepstralkoeffisienter som skyldes støy, og vektoren b står for den forskyvning av cepstralgjennomsnittet som skyldes kana-leffektene.
Nedbryting til enkeltverdier (SVD) beskriver geometrien i affin transformasjon med følgende ligning:
hvor U og V<T> er enhetsmatriser og S er diagonal. Den geometriske tolkning er at x roteres av V<T>, reskaleres av Z og roteres igjen av U. Det finnes også en over-setting inntrodusert av vektoren b.
Det er funnet ut at hver cepstralkoeffisient i praksis blir skalert med forskjellig verdi, og reskaleringen av cepstralkoeffisienter ledsages av en liten endring av vinklene. En støyfylt cepstralvektor cns kan representeres som multiplisering av den rene cepstrumvektor c med en matrise, dvs.
For samtidig å vise forvrengningene forårsaket av både kanal og støy, kan en affin kartlegging benyttes, vist med Affin-transformasjon-parameteret x defineres ut fra den affine transformasjon
hvor x er likeverdig med x.
Affin-transformasjon-parametere A og b kan finnes ved å bruke de minste kvadraters metode for å løse ovenstå-ende ligning for opplærings- eller kryssjekkingsdata-settet.
Under opplæringen av stemmegjenkjenningssysternet 10 blir taletrekkvektorer 15 forbundet med en affin-transformasjon-modul 902 og blir under testing tilført klas-sif iseringsenheten 904 via klassifiseringsenhet-innlinje 901. Under opplæring blir taletrekkvektorene 15 forbundet med affin-transformasjon-modulen 902 og blir via en klassifiseringsenhet-innlinje 903 tilført klas-sif iseringsenhet 904. Fortrinnsvis er klassifiseringsenheten 804 en vektorkvantisering-klassifiseringsenhet. Klassifiseringsenheten 804 kan tilsvare, for eksempel, klassifiseringsenhetene 70, 71, 72, vist på fig. 3, eller NTN-klassifiseringsenhetene 104, 106, 108, 110 og DTW-klassifiseringsenhetene 120, 122, 124 og 126, vist på fig. 4.
I stemmegjenkjenningssysternet 10 kan de stemmer som hevder sin sanne identitet, kalles sanne stemmer, mens stemmer 11 som hevder falsk identitet, kan kalles inn-trengere. Ved vurdering av stemmer kan stemmegjenkjenningssystemet 10 gjøre to typer feil: (a) feil avvisning (FR) og feil aksept (FA). En feil i form av feil avvisning (FR) skjer når en sann stemme som hevder sann identitet, blir avvist av stemmegjenkjenningssystemet. Når en inntrenger blir akseptert av stemmegjenkjenningssystemet 10, har det skjedd en feil gjennom feil aksept (FA). Beslutningen om å akseptere eller avvise en identitet avhenger av en terskel, T, som beskrevet ovenfor. Avhengig av hva hver feiltype koster, kan systemet utformes til å favorisere én feil på bekostning av den andre. For å vurdere konkurrerende teknologier kan alternativt Equal Error Rate (EER)/Lik feilforekomst i systemer sammenlignes. En lik feilforekomst er oppnådd når begge feiltyper (nemlig FR og FA) forekom-mer med lik sannsynlighet.
Det delordbaserte stemmegjenkjenningssystem ifølge den herværende oppfinnelse ble evaluert på en tradisjonell talekorpus kalt YOHO, som leveres av Linguistic Data Consortium (LDC), Philadelphia. Det delordbaserte stemmegjenkjenningssystem 10 ifølge den herværende oppfinnelse ga en lik feilforekomst (EER) på 0,36 % til sam-menligning med tradisjonelle skjult-Markov-modell(HMM)-baserte systemers EER på 1,66 % under lignende forhold.
Den herværende oppfinnelse har den fordel at den kombinerer en flerhet av attributter fra forskjellige klassifiseringsenheter for å tilveiebringe et kraftig gjen-kjennings sys tem som presist kan gjenkjenne et gitt mønster. I en utførelse til stemmegjenkjenning kan en forvrengningsbasert klassifiseringsenhet kombineres med en diskriminantbasert klassifiseringsenhet for å kombinere attributter forbundet med stemmen og stemmen og andre stemmer. Fortrinnsvis blir et nevralt trenettverk benyttet til å klassifisere data fra stemmer og andre stemmer med redusert prosessering. En ordgjenkjenningsmodul kan gi større nøyaktighet til verifiseringssystemet og redusere prosesseringen for avviste stemmer. Videre kan klassifiseringsenhetene være delordbaserte med tekstavhengige eller tekstuavhengige data. Dessuten kan verifiseringssystemet være opplært med en "utelat én"-fremgangsmåte for å redusere datamengden som er nødvendig til opplæring av systemet. Polfiltrering kan benyttes for å dempe kanalforvrengning i systemet. En affin transformasjon av frasorterte trekk tilveiebringer forbedret overensstemmelse mellom opplærings- og testdata. Systemet kan også oppdatere stemme-modellene etter at en positiv verifisering er gjort, for å oppveie aldringsfenomen.
Selv om oppfinnelsen er blitt beskrevet under henvisning til den foretrukne utførelse, er ikke denne beskrivelse ment å være begrensende. Det vil forstås av vanlige fagfolk på området, at modifiseringer kan foretas uten å fravike oppfinnelsen ramme.

Claims (21)

1. Fremgangsmåte til stemmegjenkjenning omfattende trinnene: frasortering av en flerhet av trekk fra første tale fremsagt av nevnte stemme, klassifisering av nevnte flerhet av trekk med en flerhet av klassifiseringsenheter til dannelse av en flerhet av klassifiserte utsignaler; sammenfatning av nevnte flerhet av klassifiserte utsignaler til dannelse av sammenfattede, klassifiserte utsignaler; gjenkjenning av nevnte sammenfattede, klassifiserte utsignaler ved å bestemme likheten mellom nevnte sammenfattede, klassifiserte utsignaler og andre tale fremsagt av nevnte stemme før nevnte stemmegjenkjenning; og beslutning ut fra nevnte gjenkjente, sammenfattede, klassifiserte utsignal om å akseptere eller avvise nevnte stemme, karakterisert ved at nevnte fremgangsmåte, før trinnet klassifisering av nevnte i det minste ene trekk, videre omfatter trinnene: utførelse av ordgjen-kj enning på nevnte første tale fremsagt av nevnte stemme ved å sammenligne nevnte i det minste ene trekk med data for nevnte stemme lagret før nevnte stemmegj enkj enning til bestemmelse om innledningsvis å akseptere eller innledningsvis å avvise nevnte stemme; og iverksetting av nevnte trinn til å klassifisere nevnte i det minste ene trekk dersom det blir bestemt innledningsvis å akseptere nevnte stemme, eller aktivere en nytt-anrop-modul dersom det blir bestemt innledningsvis å avvise nevnte stemme.
2. Fremgangsmåte ifølge krav 1, karakterisert ved at den videre omfatter trinnet fastsettelse av en sikkerhet ut fra nevnte gjenkjente, sammenfattede, klassifiserte utsignaler.
3. Fremgangsmåte ifølge krav 1, karakterisert ved at den videre omfatter trinnene frasortering av i det minste ett trekk fra første tale fremsagt av nevnte stemme; klassifisering av nevnte i det minste ene trekk med en flerhet av klassifiseringsenheter til dannelse av en flerhet av klassifiserte utsignaler; anvendelse av nevnte flerhet av klassifiserte utsignaler til dannelse av sammenfattede, klassifiserte utsignaler; idet nevnte første tale omfatter i det minste én ytring av et passord for nevnte stemme.
4. Fremgangsmåte ifølge krav 3, karakterisert ved at nevnte data omfatter en stemmeavhengig mal utformet på grunnlag av første tale fremsagt av nevnte stemme på forhånd, og en stemmeuavhengig mal utformet av første tale fremsagt av i det minste én andre stemme på forhånd.
5. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte klassifiseringstrinn utføres med en nevraltrenettverk-klassifiseringsenhet og en dynamisk-tidsfordreining-klassifiseringsenhet.
6. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte klassifiserinstrinn utføres med en modifisert-nevraltrenettverk og en dynamisk-tidsfordreining-klassifiseringsenhet.
7. Fremgangsmåte ifølge krav 6, karakterisert ved at den videre omfatter trinnene: frasortering av i det minste ett trekk fra tale fremsagt av andre stemmer; tildeling av en første etikett til nevnte i det minste ene trekk fra første tale fremsagt av nevnte stemme; tildeling av en andre etikett til nevnte i det minste ene trekk fra nevnte tale fremsagt av andre stemmer; og opplæring av nevnte klassifiseringsenheter med nevnte første og andre etiketter.
8. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte gjenkjenningstrinn omfatter: på et par av nevnte klassifiseringsenheter å anvende en flerhet av første taleytringer for nevnte stemme, og utelate én av nevnte ytringer definert som en utelatt ytring til opplæring av nevnte klassifiseringsenheter; anvendelse av nevnte utelatte ytringer på nevnte klas-sif iseringsenhetspar for uavhengig å teste nevnte klassifiseringsenheter; beregning av en første sannsynlighet for en første av nevnte klassifiseringsenheter i nevnte klassifiseringsenhetspar og en andre sannsynlighet for en andre av nevnte klassifiseringsenheter i nevnte klassifiseringsenhetspar; og fastsettelse av en første terskel for nevnte første av nevnte klassifiseringsenheter i nevnte klassifiseringsenhetspar ut fra nevnte første sannsynlighet og en andre terskel for nevnte andre av nevnte klassifiseringsenheter i nevnte klassifiseringsenhetspar ut fra nevnte andre sannsynlighet, idet nevnte likhet ved nevnte flerhet av klassifiserte utsignaler bestemmes ved å sammenligne nevnte første av nevnte klassifiseringsenheter i nevnte par med nevnte første terskel og nevnte andre av nevnte klassifiseringsenheter i nevnte par med nevnte andre terskel.
9. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte frasorteringstrinn utføres ved å mo-difisere poler i et polfilter for nevnte første og andre tale for å frasortere nevnte flerhet av trekk.
10. Fremgangsmåte ifølge krav 1, karakterisert ved at den videre omfatter trinnene: bestemmelse av en spektralkomponent for nevnte flerhet av trekk; og innskrenkning av den smale båndbredde for å oppnå et kanalestimat; dekonvoIvering av nevnte første tale og nevnte andre tale med nevnte kanalestimat for å oppnå normalisert tale; og databehandling av spektraltrekk for nevnte normaliserte tale for å oppnå normaliserte taletrekkvektorer som blir anvendt på nevnte klassifi-serings tr inn.
11. Fremgangsmåte ifølge krav 10, karakterisert ved at den videre omfatter trinnene: om-forming av nevnte kanalestimat til cepstralkoeffisienter for å oppnå et modifisert kanalestimat i et cep-straldomene; og subtrahering av nevnte modifiserte kanalestimat fra cepstralrammer for nevnte første tale og nevnte andre tale.
12. Fremgangsmåte ifølge krav 1, karakterisert ved at den videre omfatter trinnet segmentering av nevnte flerhet av trekk fra nevnte første tale til en flerhet av første delord etter nevnte frasorteringstrinn.
13. Fremgangsmåte ifølge krav 9, karakterisert ved at nevnte delord er fonemer.
14. Fremgangsmåte ifølge krav 12, karakterisert ved at den videre omfatter trinnene: frasortering av i det minste ett trekk fra tale fremsagt av andre stemmer; segmentering av nevnte i det minste ene trekk fra nevnte tale av andre stemmer til en flerhet av andre delord etter nevnte frasorteringstrinn; lagring av nevnte første flerhet av delord og nevnte andre flerhet av delord i en delorddatabase; fastsettelse, ut fra nevnte lagrede første delord, av første etiketter for nevnte stemme og, fra nevnte andre delord, av andre etiketter for andre stemmer; og opplæring av nevnte klassifiseringsenheter med nevnte første og andre etiketter.
15. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte i det minste ene trekk blir korrigert ved å benytte en affin karttransformasjon, idet nevnte affine transformasjon representeres ved i. y = Ax + b, hvor y er nevnte affine transformasjon av vektor x, A er en matrise som representerer en lineær transformasjon, og vektor b representerer oversettingen.
16. Fremgangsmåte ifølge krav 1, karakterisert ved at nevnte i det minste ene trekk er cepstral-koef f isienter , og nevnte cepstralkoeffisienter blir korrigert ved å bruke en affin karttransformasjon.
17. System til stemmegjenkjenning omfattende: middel (14) til å frasortere en flerhet av trekk (60, 61, 62) fra første tale (12) fremsagt av en stemme (11); middel til å klassifisere nevnte flerhet av trekk (60, 61, 62) med en flerhet av klassifiseringsenheter (70, 71, 72) til dannelse av en flerhet av klassifiserte utsignaler (73, 74, 75); middel til å sammenfatte nevnte flerhet av klassifiserte utsignaler (73, 74, 75) til dannelse av sammenfattede, klassifiserte utsignaler (35); middel til gjenkjenning av nevnte sammenfattede, klassifiserte utsignaler gjennom bestemmelse av likheten mellom nevnte sammenfattede, klassifiserte utsignaler og andre tale fremsagt av nevnte stemme (11) før nevnte stemmegjenkjenning; og middel (40) til ut fra nevnte gjenkjente sammenfattede, klassifiserte utsignaler å beslutte enten å akseptere eller å avvise nevnte stemme (11), karakterisert ved at det videre omfatter middel (20) til å utføre ordgjenkjenning på nevnte første tale (12) fremsagt av nevnte stemme (11) ved å sammenligne nevnte i det minste ene trekk (60, 61, 62) med data (16) for nevnte stemme (11) lagret før nevnte stemmegjenkjenning, til bestemmelse om preliminært å akseptere eller preliminært å avvise nevnte stemme (11); og middel til å aktivere nevnte middel (70, 71, 72) til å klassifisere nevnte i det minste ene trekk, dersom det blir beslut-tet preliminært å akseptere nevnte stemme (11), eller å aktivere en nytt-anrop-modul (21) dersom det blir bestemt preliminært å avvise nevnte stemme (11).
18. System ifølge krav 17, karakterisert ved at nevnte data (16) omfatter en stemmeavhengig mal (24) utformet på grunnlag av en første tale (12) fremsagt av nevnte stemme (11) på forhånd, og en stemmeuavhengig mal (26) utformet etter en første tale fremsagt av i det minste én andre stemme (25) på forhånd.
19. System ifølge krav 18, karakterisert ved at nevnte middel til klassifisering omfatter et modifisert-nevraltrenettverk og en dynamisk-tidsfordreining-klassifiseringsenhet.
20. System ifølge krav 19, karakterisert ved at nevnte middel til frasortering er en begrensning av polene i et all-pol-filter.
21. System ifølge krav 20, karakterisert ved at nevnte i det minste ene trekk (60, 61, 62) er en cepstralkoeffisient, og nevnte cepstralkoeffisient blir korrigert ved å bruke en affin transformasjon.
NO19975475A 1995-06-07 1997-11-28 Stemmegjenkjenningssystem NO321125B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/479,012 US5839103A (en) 1995-06-07 1995-06-07 Speaker verification system using decision fusion logic
PCT/US1996/009260 WO1996041334A1 (en) 1995-06-07 1996-06-06 Speaker verification system

Publications (3)

Publication Number Publication Date
NO975475D0 NO975475D0 (no) 1997-11-28
NO975475L NO975475L (no) 1998-01-21
NO321125B1 true NO321125B1 (no) 2006-03-20

Family

ID=23902297

Family Applications (1)

Application Number Title Priority Date Filing Date
NO19975475A NO321125B1 (no) 1995-06-07 1997-11-28 Stemmegjenkjenningssystem

Country Status (16)

Country Link
US (1) US5839103A (no)
EP (1) EP0870300B1 (no)
JP (1) JPH11507443A (no)
KR (1) KR19990022391A (no)
CN (1) CN1197526A (no)
AT (1) ATE323934T1 (no)
AU (1) AU711496B2 (no)
CA (1) CA2221415A1 (no)
DE (1) DE69636057T2 (no)
FI (1) FI117954B (no)
IL (1) IL122354A (no)
NO (1) NO321125B1 (no)
NZ (1) NZ311289A (no)
RU (1) RU2161336C2 (no)
TR (1) TR199701555T1 (no)
WO (1) WO1996041334A1 (no)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
AU744678B2 (en) * 1997-10-15 2002-02-28 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
AU4135199A (en) * 1998-04-20 1999-11-08 Koninklijke Kpn N.V. Threshold setting and training of a speaker verification system
WO1999059136A1 (en) * 1998-05-08 1999-11-18 T-Netix, Inc. Channel estimation system and method for use in automatic speaker verification systems
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6178400B1 (en) * 1998-07-22 2001-01-23 At&T Corp. Method and apparatus for normalizing speech to facilitate a telephone call
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6728674B1 (en) * 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US20020147694A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Retraining trainable data classifiers
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
ATE426234T1 (de) * 2001-06-19 2009-04-15 Speech Sentinel Ltd Sprecherverifikation
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
WO2003005346A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for fast calculation of observation probabilities in speech recognition
US8793146B2 (en) * 2001-12-31 2014-07-29 Genworth Holdings, Inc. System for rule-based insurance underwriting suitable for use by an automated system
US7630910B2 (en) 2001-12-31 2009-12-08 Genworth Financial, Inc. System for case-based insurance underwriting suitable for use by an automated system
US7844476B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for case-based insurance underwriting suitable for use by an automated system
US8005693B2 (en) 2001-12-31 2011-08-23 Genworth Financial, Inc. Process for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7844477B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for rule-based insurance underwriting suitable for use by an automated system
US7895062B2 (en) 2001-12-31 2011-02-22 Genworth Financial, Inc. System for optimization of insurance underwriting suitable for use by an automated system
US7818186B2 (en) 2001-12-31 2010-10-19 Genworth Financial, Inc. System for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7899688B2 (en) 2001-12-31 2011-03-01 Genworth Financial, Inc. Process for optimization of insurance underwriting suitable for use by an automated system
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US6687672B2 (en) 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7424425B2 (en) * 2002-05-19 2008-09-09 International Business Machines Corporation Optimization of detection systems using a detection error tradeoff analysis criterion
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
US7734025B2 (en) * 2003-02-28 2010-06-08 Grape Technology Group, Inc. Methods and systems for providing on-line bills for use in communications services
US7383239B2 (en) 2003-04-30 2008-06-03 Genworth Financial, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
US7801748B2 (en) 2003-04-30 2010-09-21 Genworth Financial, Inc. System and process for detecting outliers for insurance underwriting suitable for use by an automated system
US7567914B2 (en) 2003-04-30 2009-07-28 Genworth Financial, Inc. System and process for dominance classification for insurance underwriting suitable for use by an automated system
US7813945B2 (en) 2003-04-30 2010-10-12 Genworth Financial, Inc. System and process for multivariate adaptive regression splines classification for insurance underwriting suitable for use by an automated system
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US7698159B2 (en) 2004-02-13 2010-04-13 Genworth Financial Inc. Systems and methods for performing data collection
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
EA023695B1 (ru) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Способ распознавания речевых сообщений и устройство для его осуществления
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10237399B1 (en) 2014-04-01 2019-03-19 Securus Technologies, Inc. Identical conversation detection method and apparatus
US9621713B1 (en) 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
CN109313902A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
KR102125549B1 (ko) * 2017-04-20 2020-06-22 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
US10891318B2 (en) * 2019-02-22 2021-01-12 United States Of America As Represented By The Secretary Of The Navy Temporal logic fusion of real time data
US20220238097A1 (en) * 2019-06-07 2022-07-28 Nec Corporation Speech processing device, speech processing method, and non-transitory computer readable medium storing program
JP7259981B2 (ja) * 2019-10-17 2023-04-18 日本電気株式会社 話者認証システム、方法およびプログラム
CN111081255B (zh) * 2019-12-31 2022-06-03 思必驰科技股份有限公司 说话人确认方法和装置
CN116153336B (zh) * 2023-04-19 2023-07-21 北京中电慧声科技有限公司 一种基于多域信息融合的合成语音检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
EP0435282B1 (en) * 1989-12-28 1997-04-23 Sharp Kabushiki Kaisha Voice recognition apparatus
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Also Published As

Publication number Publication date
DE69636057D1 (de) 2006-05-24
NO975475L (no) 1998-01-21
FI117954B (fi) 2007-04-30
NZ311289A (en) 1998-12-23
JPH11507443A (ja) 1999-06-29
US5839103A (en) 1998-11-17
KR19990022391A (ko) 1999-03-25
EP0870300B1 (en) 2006-04-19
FI974339A (fi) 1998-02-06
EP0870300A1 (en) 1998-10-14
ATE323934T1 (de) 2006-05-15
AU6257696A (en) 1996-12-30
CN1197526A (zh) 1998-10-28
DE69636057T2 (de) 2007-04-12
NO975475D0 (no) 1997-11-28
WO1996041334A1 (en) 1996-12-19
RU2161336C2 (ru) 2000-12-27
IL122354A (en) 2000-10-31
CA2221415A1 (en) 1996-12-19
IL122354A0 (en) 1998-04-05
TR199701555T1 (xx) 1998-04-21
EP0870300A4 (en) 1999-04-21
FI974339A0 (fi) 1997-11-26
AU711496B2 (en) 1999-10-14

Similar Documents

Publication Publication Date Title
NO321125B1 (no) Stemmegjenkjenningssystem
US6519561B1 (en) Model adaptation of neural tree networks and other fused models for speaker verification
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
US6539352B1 (en) Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
Ramachandran et al. Speaker recognition—general classifier approaches and data fusion methods
AU2002311452B2 (en) Speaker recognition system
EP1184840A1 (en) Discriminative utterance verification for connected digits recognition
AU2002311452A1 (en) Speaker recognition system
Dalila et al. Feature level fusion of face and voice biometrics systems using artificial neural network for personal recognition
Shah et al. Novel inter mixture weighted GMM posteriorgram for DNN and GAN-based voice conversion
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
KR100917419B1 (ko) 화자 인식 시스템
Nallagatla et al. Sequential decision fusion for controlled detection errors
Kadhim et al. Enhancement and modification of automatic speaker verification by utilizing hidden Markov model
Tang et al. Deep neural network trained with speaker representation for speaker normalization
Wu et al. Discriminative features by MLP preprocessing for robust speaker recognition in noise
MXPA97009615A (en) High verification system
WO2005038774A1 (en) Adaptive sound and image learning system and method
Farrell Discriminatory measures for speaker recognition
Morris et al. Discriminative Feature Projection for Noise Robust Speaker Identification
Jianping et al. Speaker Recognition Using Radial Basis Function Neural Networks