SE505522C2

SE505522C2 - Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem

Info

Publication number: SE505522C2
Application number: SE9602622A
Authority: SE
Inventors: Erik Sundberg; Haakan Melin
Original assignee: Telia Ab
Priority date: 1996-07-01
Filing date: 1996-07-01
Publication date: 1997-09-08
Also published as: EP0817170A2; EP0817170A3; NO972670D0; US5960392A; DE69721395D1; NO309549B1; EP0817170B1; DK0817170T3; SE9602622D0; SE9602622L; DE69721395T2; NO972670L

Description

5Û5 522 10 15 20 25 30 35 40 2 speciella problem. Om man har utnyttjat en enkel modell har man alltså fått en mindre tillförlitlig verifiering. Om man däremot utnyttjar en mera komplicerad modell är problemet en lång inlärningsperiod.

Föreliggande uppfinning löser detta problem genom att utnyttja flera olika modeller i sama talarverifierings- system. Verifieringen tas i drift med den mindre taldata- krävande modellen. Under användningen samlas kontinuerligt mer taldata in. Detta material används för att ytterligare träna antingen endast den mer komplicerade modellen eller både den enklare redan i drifttagna modellen och den mer komplicerade modellen. Vid lämpliga tillfällen görs jäm- förelse av modellernas prestationsförmåga. När den mer komplicerade modellen ger ett säkrare verifieringsresultat får den överta verifieringen i driftsituationen.

Man inser att tack vare uppfinningen erhålles ett talarverifieringssystem som är snabbt att sätta igång men så småningom ger allt tillförlitligare verifieringsresultat.

Uppfinningen gör det möjligt att utnyttja fördelarna hos olika modeller samtidigt som effekten av deras respektive nackdelar minimeras. Utan att använda denna teknik blir man tvungen att vid start av ett talarverifieringssystem välja en modell med dess för- och nackdelar. Genom att växla modell uppnår man att systemet dynamiskt anpassar sig till den taldatamängd som finns tillgänglig. Detta innebär en stor fördel gentemot den tidigare kända tekniken.

SAMMANFATTNING AV UPPFINNINGEN Således tillhandahåller föreliggande uppfinning ett förfarande för adaptering av en modell vid exempelvis talar- verifiering, innefattande modellenheter för mottagning och evaluering av tal. Enligt uppfinningen insamlas taldata och en första modellenhet sätts i drift medan en efterföljande modellenhet tränas med taldata som insamlas under drift av den första modellenheten. Modellenheternas prestationsför- màgor testas och värderas och den efterföljande modell- enheten sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.

Den efterföljande modellenheten kan sättas i drift antingen momentant eller gradvis, t.ex. genom att använda en 10 15 20 25 30 35 40 505 522 viktsfunktion.

Uppfinningen avser också ett arrangemang för att genom- föra förfarandet.

Uppfinningen är definierad i detalj i åtföljande patentkrav.

KORTFATTAD BESKRIVNING AV RITNINGEN Uppfinningen komer nu att beskrivas i detalj nedan med hänvisning till bifogade ritning, varav den enda figuren är en schematisk illustration av en utföringsform av upp- finningen.

DETALJERAD BESKRIVNING AV EN FÖREDRAGEN UTFÖRINGSFORM I talarverifieringssystem, system för automatisk verifiering av en talares identitet, är den mängd taldata som måste samlas in från användaren en avgörande begränsning för användningen. Komplicerade talarmodeller som kräver mycket insamlat taldata kan förväntas ge bättre resultat än modeller som kräver lite träningsmaterial. För ett litet träningsmaterial kan dock den komplicerade modellen ge ett sämre resultat än den enklare modellen.

Komplicerade modeller med många parametrar har bättre prestanda än enklare modeller, när modellens parametrar en gång har uppskattats korrekt. För korrekt uppskattning av parametrarna krävs emellertid en stor mängd träningsdata. I det fall när träningsdata till en modell tillhandahålles av en kund är mängden träningsdata en olägenhetsfaktor för kunden. Dåliga prestanda inom en modell leder också till systemfel, vilket är en annan olägenhetsfaktor för kunden.

Ett problem som föreliggande uppfinning löser är att hitta modelltopologier som har bra prestanda med ett minimum av träningsdata.

Den härmed föreslagna lösningen på problemet att både maximera modellprestanda och att minimera behovet av träningsdata är att använda ett modellsystem med en dynamisk topologi. Modellen har en kombination av modellenheter eller delar med varierande grad av komplexitet. Modellens verk- sama topologi ändras så att för en given mängd träningsdata används den optimala topologin, baserat pá den givna modell- enheten. Genom att använda denna teknik kommer den verksamma 10 15 20 25 30 35 40 505 522 4 modellens komplexitet att växa med den tillgängliga mängden träningsdata.

I början av modellens livscykel används de enklaste modellenheterna, vilka kräver endast en liten mängd data för tillförlitlig uppskattning av dess parametrar. Allt eftersom mängden tillgängligt data växer kan de mera komplicerade delarna successivt tränas.

När parametrarna till den mera komplicerade enheten har uppskattats på tillförlitligt sätt är dess prestanda antag- ligen bättre än den enklare enheten och modellens topologi kan ändras till förmån för den komplicerade enheten.

I den enda figuren illustreras schematiskt ett talar- verifieringssystem enligt föreliggande uppfinning. Systemet innefattar en styrenhet som styr två omkopplare och ett antal modellenheter P1- Pn. Systemet mottar å ena sidan tal eller taldata och levererar verifikationsdata som utsignal.

De olika modellenheterna P1- Pn i talarmodellen har olika behov av träningsdata. En modellenhet Pi skall endast användas för verifikation när den har mottagit tillräckligt med träningsdata. Enheterna som kräver mindre data kommer att sättas i drift tidigare medan de mera krävande enheterna inte kommer att användas förrän efter en längre tränings- period. På så sätt kan talarmodellens prestanda förbättras mot dess hela kapacitet. Under tillväxtperioden kan modellen ändå användas för verifiering genom att utnyttja talar- modellens enklare modellenheter.

De enklare delarna kan tas ur drift efterhand som de mera komplicerade enheterna uppnår bättre prestations- förmåga. Överflyttning till nya modeller kan ske i flera generationer så att man kontinuerligt tar mer och mer sätt UI' avancerade och taldatakrävande modeller i drift. På så kan talarverifieringssystemet uppgraderas utan att tas drift. Varje modell kan dessutom tänkas bestå av flera submodeller som pá olika sätt sammanvâgs för att bilda en modell.

När talarverifieringssystemet sätts i drift allra första gången kräver det en kort träningsperiod för att träna den enklaste modellenheten. Den enklaste modellenheten kan tränas från en talaroberoende mall. Därefter sätts 10 15 20 25 30 35 505 522 5 systemet i drift med växande prestationsförmåga enligt ovan.

Varje enhet i talarmodellhierarkin kommer att behöva lagra information avseende hur vältränad den är. Denna information kan antingen tillhandahållas av modellenheten själv eller genom någon prestationstestmetod. Informationen i det förra fallet kallas här träningsnivå medan informa- tionen i det andra fallet kallas prestationsnivå. Tränings- nivàn är baserad på en förutbestämd antagen kunskap om hur mycket träningsdata som enheten behöver. Skillnaden mellan de två informationerna är att prestationsniván är baserad på någon värdering av testdata (en databaskörning), medan träningsnivån är baserad på lagrad information om använt träningsdata. Prestandanivån kan vara baserad på jämförelser med andra enheter i talarmodellen och även andra talar- modeller.

Trösklar för träningsnivån och prestationsniván mäste tillhandahållas och lagras i styrenheten. För den förra är tröskeln baserad på tidigare gjorda antaganden. För den senare bör det vara möjligt att basera tröskelns värde på ett kriterium för prestationsbehovet.

För att möjliggöra användning av en prestationsnivà baserad på databassimuleringar är det nödvändigt att inklu- dera hantering av en sådan databas. Talarmodellen ska också kunna ange ett värde på sin totala träningsnivå eller prestationsnivà. Detta värde kan användas av en applikation för att uppskatta signifikansnivån för ett beslut taget av verifieringssystemet.

Modellenheternas prestationsförmâga testas vid lämpliga intervall för att kontrollera om de skall vara i drift eller ej. Detta kan ske cykliskt eller på speciell begäran.

Uppfinningen har beskrivits med avseende på ett talar- verifieringssystem men såsom nämns ovan kan uppfinningen tillämpas likaväl för andra system som använder modeller uppbyggda på data insamlade från en person under viss tid, t.ex. talaradaptiva taligenkänningssystem. Uppfinningen är endast begränsad av patentkraven nedan.

Claims

505 522 10 15 20 25 30 35 40 PATENTKRAV

1. Förfarande för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal, kânnetecknat av att tal- data insamlas och att en första modellenhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) taldata som insamlas under drift av den första modell- enheten, att modellenheternas prestationsförmågor testas och värderas och att den efterföljande modellenheten tränas med sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.

2. Förfarande enligt krav 1, kännetecknat av att den efterföljande modellenheten sätts i drift momentant när dess prestationsförmága överskrider en förutbestämd tröskel.

3. Förfarande enligt krav 1, kånnetecknat av att den efterföljande modellenheten sätts i drift gradvis när dess prestationsförmága överskrider respektive tröskel i en mängd av förutbestämda trösklar.

4. Förfarande enligt krav 3, kännetecknat av att den efterföljande modellenheten sätts i drift gradvis genom att vikta de olika modellenheterna med en variabel viktsfunktion.

5. Förfarande enligt något av föregående krav, kän- netecknat av att en ny modellenhet inkopplas som en efterföljande modell.

6. Förfarande enligt något av föregående krav, kän- netecknat av att samtliga modellenheter tränas med insamlat taldata.

7. Förfarande enligt något av krav 1 till 6, tecknat av att samtliga modellenheter utom respektive driftsatta modellenheter tränas med insamlat taldata. känne-

8. Arrangemang för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal och en styrenhet, känne- tecknat av en första omkopplare för att styra taldata till de olika modellenheterna (Pl - Pn), att styra verifikationsdata från de olika modellenheterna (P1 - Pn), vilka omkopplare styrs av styrenheten sä att en andra omkopplare för 10 15 20 505 522 7 modellenheterna insamlar taldata och att en första modell- enhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) tränas med taldata som insamlas under drift av den första modellenheten, att modellenheternas prestations- förmågor testas och värderas och att den efterföljande modellenheten sätts i drift när dess prestationsförmàga har uppnått en lämplig nivà.

9. Arrangemang enligt krav 8, kännetecknat av att en förutbestämd tröskel är lagrad i styrenheten för att sätta den efterföljande modellenheten i drift momentant när dess prestationsförmàga överskrider den förut- bestämda tröskeln.

10. en mängd förutbestämda trösklar är lagrade i styrenheten Arrangemang enligt krav 8, kännetecknat av att för att sätta den efterföljande modellenheten i drift gradvis när dess prestationsförmàga överskrider respek- tive tröskel i den förutbestämda mängden av trösklar.

11. kännetecknat av att styrenheten innefattar en variabel viktsfunktion för att sätta den efterföljande modellenheten i drift gradvis genom att vikta de olika modellerna med viktsfunktionen.

12. Arrangemang enligt nàgot av krav 8 till 11, kånnetecknat av att en modellenhet består av sub- modeller. Arrangemang enligt krav 10,