NO309549B1

NO309549B1 - Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem

Info

Publication number: NO309549B1
Application number: NO972670A
Authority: NO
Inventors: Erik Sundberg; Haakan Melin
Original assignee: Telia Ab
Priority date: 1996-07-01
Filing date: 1997-06-11
Publication date: 2001-02-12
Also published as: EP0817170A2; DE69721395T2; US5960392A; NO972670L; EP0817170A3; NO972670D0; SE505522C2; SE9602622L; SE9602622D0; DE69721395D1; DK0817170T3; EP0817170B1

Description

Foreliggende oppfinnelse vedrører en fremgangsmåte og et arrangement for å adaptere modeller eksempelvis ved taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale. Innsamlede data kan være relatert til personens fysiologi, oppførsel, aldring og lignende. Et nærliggende område er for eksempel tale-adaptiv talegjenkjenning. I system av denne type sammenlignes innsamlede data med en modell for verifisering av talerens identitet eller gjenkjenning av talen, for å styre en hendelse i en prosess eller anordning. For at modellen skal klare sin oppgave må den trenes med taledata. Enklere modeller krever mindre trening men gir mindre pålitelig resultat, mens mer kompliserte modeller krever lengre innlæring og gir mer pålitelig resultat av verifiseringen.

Oppfinnelsen kan tilpasses i alle taleverifiseringssystem som benyttes ved flere tilfeller, dvs. tale fra samme person skal verifiseres ved gjentatte anledninger. Som kjent, benyttes taleverifiseringssystemer for å beskytte informasjon eller økonomiske verdier. Oppfinnelsen er et alternativ til å benytte PIN-koder for å identifisere en bruker. Selve stemmeinnspillingen kan enten gjøres direkte ved utstyret der verifiseringen utføres, eller overføres i ulike medier. Mediet kan være telefon eller andre telekommunikasjonsmedier.

I den tidligere teknikks taleverifiseringssystem er kun en eneste modell benyttet, med tilhørende spesielle problemer. Dersom man har utnyttet en enkel modell, har man altså fått en mindre pålitelig verifisering. Om man derimot benytter en mer komplisert modell, er problemet en lang innlæringsperiode.

Foreliggende oppfinnelse løser dette problem ved å benytte flere ulike modeller i samme taleverifiseringssystem. Verifiseringen settes i drift med den modell som krever minst taledata. Under drift samles kontinuerlig inn mer taledata. Dette materiell benyttes for å ytter-lige trene enten den ene mer kompliserte modell, eller både den enkle modell som allerede er tatt i drift, og den mer kompliserte modell. Ved passende anledninger sammenlignes modellenes prestasjonskapasitet. Når den mer kompliserte modell gir et sikrere verifiseringsresultat får den overta verifiseringen i driftssituasjonen.

Man innser at på grunn av oppfinnelsen oppnås et taleverifiseringssystem som er hurtig å sette i gang, men som etterhvert gir mer pålitelige verifiseringsresultat. Oppfinnelsen gjør det mulig å benytte fordelene hos ulike modeller samtidig som effekten av deres respektive ulemper minimaliseres. Uten å benytte denne teknikk tvinges man ved start til å velge et taleverifiseringssystem med tilhørende fordeler og ulemper. Ved å skifte modell oppnår man at systemet dynamisk tilpasser seg til den taledatamengde som finnes tilgjengelig. Dette inne-bærer en stor fordel i forhold til den tidligere kjente teknikk.

1. På denne måte sørger den foreliggende oppfinnelse for en fremgangsmåte for adaptering av en modell ved eksempelvis taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale. Den foreliggende oppfinnelse er kjennetegnet ved at teledata samles inn og at en første modellenhet (Pi) settes i drift, at den etterfølgende modellenhet (Pn) trenes med taledata som samles inn under drift av den første modellenhet, at modellenhetenes prestasjonskapasiteter testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet har nådd et passende nivå.

Den etterfølgende modellenhet kan settes i drift enten momentant eller gradvis, for eksempel ved å benytte en vektfunksjon.

Oppfinnelsen vedrører også et arrangement slik det er angitt i den karakteriserende del av krav. 1.

Mer spesifiserte utførelser av oppfinnelsen er angitt i underkrav 2-7 og 9-12.

Oppfinnelsen vil nå beskrives i detalj nedenfor, under henvisning til den medfølgende tegning, idet tegningen er en skjematisk illustrasjon av et utførelse-seksempel av oppfinnelsen.

I taleverifiseringssystem, system for automatisk verifisering av en talendes identitet, er den store mengde taledata som må samles inn fra brukeren en av-gjørende begrensning for brukeren. Kompliserte talemodel-ler som krever mye innsamlet taledata kan forventes å gi et bedre resultat enn modeller som krever lite treningsmateriell. For et lite treningsmateriell kan derimot den kompliserte modell gi et dårligere resultat enn den enkle modell.

Kompliserte modeller med mange parametre har bedre ytelse enn enklere modeller, så snart modellens parametre er korrekt estimert. For korrekt estimering av parametre-ne kreves imidlertid en stor mengde med treningsdata. I det tilfelle der kunden sørger for treningsdata til en modell, er mengden treningsdata en ulempefaktor for kunden. Dårlig ytelse i en modell fører også til system-feil, noe som er en annen ulempefaktor for kunden. Et problem som foreliggende oppfinnelse løser er å finne modelltopologier som har god ytelse med et minimum av treningsdata.

Løsningen som her er foreslått på problemet å både maksimere modellytelsen og å minimere behovet for tren ingsdata, er å benytte et modellsystem med en dynamisk topologi. Modellen har en kombinasjon av modellenheter eller deler med varierende grad av kompleksitet. Modellenes effektive topologi endres slik at for en gitt mengde treningsdata benyttes den optimale topologi, basert på den gitte modellenhet. Ved å benytte denne teknikk kommer den effektive modells kompleksitet til å vokse med den tiltagende mengde treningsdata.

I begynnelsen av modellens livssyklus benyttes de enkleste modellenheter, som bare krever en liten data-mengde for pålitelig estimering av modellens parametre. Etterhvert som mengden av tilgjengelige data øker, kan de mer kompliserte deler trenes suksessivt.

Når den mer kompliserte enhets parametre er estimert på en pålitelig måte, er denne enhets ytelse sannsynlig-vis bedre enn den enklere enhets ytelse, og modellens topologi kan endres til fordel for den kompliserte enhet.

I den ene figur illustreres skjematisk et taleverifiseringssystem ifølge den foreliggende oppfinnelse. Systemet omfatter en styreenhet som styrer to omkoblere og et antall modellenheter Pi - Pn. Systemet mottar tale eller taledata på den ene side, og leverer verifiseringsdata som utgangssignal.

De ulike modellenheter Pi - Pni talemodellen har ulike behov for treningsdata. Enhetene som krever minst data kommer til å settes i drift tidligst, mens de mer krevende enheter ikke kommer til å benyttes før etter en lengre treningsperiode. På denne måte kan talemodellens prestasjon forbedres opp mot modellens fulle kapasitet. Under oppbyggningsperioden kan modellen fremdeles benyttes for verifisering ved å benytte talemodellens enklere modeller.

De enklere deler kan tas ut av drift etterhvert som de mer kompliserte enheter oppnår bedre prestasjonskapasitet.

Overflytting til nye modeller kan skje i flere

generasjoner slik at mer og mer avanserte og taledatakre-vende modeller kontinuerlig settes i drift. På denne måte kan taleverifiseringssystemet oppgraderes uten at det tas ut av drift. Hver modell kan dessuten tenkes å bestå av

flere submodeller som på ulike måter kobles sammen for å bygge en modell.

Når taleverifiseringssystemet settes i drift aller første gangen kreves det en kort treningsperiode for å trene den enkleste modellenhet. Den enkleste modellenhet kan trenes fra en taler-uavhengig mal. Deretter settes systemet i drift med økende prestasjonskapasitet som beskrevet ovenfor. Hver enhet i talermodell-hierarkiet har behov for å lagre informasjon om hvor veltrent den er. Denne informasjon kan enten frembringes av selve modellenheten eller ved en prestasjonstestmetode. Informasjonen i det første tilfelle benevnes her treningsnivå, mens informasjonen i det andre tilfelle benevnes prestasjonsnivå. Treningsnivå er basert på en forutbestemt antatt kjennskap til hvor mye treningsdata enheten trenger. Forskjellen mellom de to informasjoner er at prestasjonsnivået er basert på en vurdering av noe testdata (kjøring av en database), mens treningsnivået er basert på lagret informasjon om anvendte treningsdata. Prestasjonsnivået kan være basert på sammenligninger med andre enheter i talemodellen og også med andre talemodel-ler.

Terskler for treninigsnivå og prestasjonsnivå må skaffes til veie og lagres av styreenheten. For den første er terskelen basert på tidligere antagelser. For den siste bør det være mulig å basere tersklenes verdi på et kriterium for prestasjonsbehovet.

For å muliggjøre bruk av et prestasjonsnivå basert på databasesimmuleringer er det nødvendig å inkludere håndtering av en slik database. Talemodellen skal også kunne angi en verdi på sitt totale treningsnivå eller prestasjonsnivå. Denne verdi kan anvendes av en applika-sjon for å estimere signifikansnivået for en beslutning som verifiseringssystemet har tatt.

Modellenhetenes prestasjonskapasitet testes ved passende intervall for å kontrollere om de skal være i drift eller ikke. Dette kan utføres syklisk eller på en spesiell kommando.

Oppfinnelsen er beskrevet med referanse til et tale-verif iseringssystem, men som nevnt ovenfor kan oppfinnelsen likevel tilpasses for andre system som benytter modeller bygd opp av data samlet inn fra en person i et visst tidsrom, for eksempel taleradaptive talegjenkjen-ningssystem.

Claims

1. Fremgangsmåte for adaptering av en modell, eksempelvis ved taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale,karakterisert vedat taledata samles inn og at en første modellenhet (Pi) settes i drift, at den etterfølgende modellenhet (Pn) trenes med taledata som samles inn under drift av den første modellenhet, at modellenhetenes prestasjonskapasiteter testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet har nådd et passende nivå.

2. Fremgangsmåte i samsvar med krav 1,karakterisert vedat den etterfølgende modellenhet settes umiddelbart i drift når dennes prestajonskapasitet overskrider en forutbestemt terskel.

3. Fremgangsmåte i samsvar med krav 1,karakterisert vedat den etterfølgende modellenhet settes gradvis i drift når dennes prestajonskapasitet overskrider respektive terskel i et antall forutbestemte terskler.

4. Fremgangsmåte i samsvar med krav 3,karakterisert vedat den etterfølgende modellenhet settes gradvis i drift ved å vektlegge de ulike modellenheter med en variabel vektfunksjon.

5. Fremgangsmåte i samsvar med et av kravene 1-4,karakterisert vedat en ny modellenhet kobles inn som en etterfølgende modell.

6. Fremgangsmåte i samsvar med et av kravene 1-5,karakterisert vedat samtlige modellenheter trenes med innsamlede taledata.

7. Fremgangsmåte i samsvar med et av kravene 1-6,karakterisert vedat samtlige modellenheter utenom respektive modellenheter som er satt i drift trenes med innsamlede taledata.

8. Arrangement for adaptering av en modell, eksempelvis ved taleverifiseringssystem, omfattende modellenheter for mottak og evaluering av tale, og en styreenhet,karakterisert veden første omkobler for å styre taledata til de ulike modellenheter (Pi - Pn), en andre omkobler for å styre verifiseringsdata fra de ulike modellenheter (Pi - Pn) , idet omkoblerne styres av kontrollenheten, slik at modellenhetene samler inn taledata og at en første modellenhet (Pi) settes i drift, at en etterfølgende modellenhet (Pn) trenes med taledata som samles inn ved drift av den første modellenhet, at modellenhetenes prestasjonskapasitet testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet oppnår et passende nivå.

9. Arrangement i samsvar med krav 8,karakterisert vedat en forutbestemt terskelverdi er lagret i styreenheten for å umiddelbart sette den etterfølgende modellenhet i drift når dennes prestasjonskapasitet overskrider den forutbestemte terskelverdi.

10. Arrangement i samsvar med krav 8,karakterisert vedat et antall forutbestemte terskler er lagret i styreenheten for å sette den etter følgende modellenhet gradvis i drift når dennes prestasjonskapasitet overskrider respektive terskel i den forutbestemte mengde av terskler.

11. Arrangement i samsvar med krav 8,karakterisert vedat styreenheten omfatter en variabel vektfunksjon for å gradvis sette den etterføl-gende modellenhet i drift ved å vekte de ulike modeller med vektfunksjonen.

12. Arrangement i samsvar med krav 8,karakterisert vedat en modellenhet består av submodeller