SE505522C2 - Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem - Google Patents

Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem

Info

Publication number
SE505522C2
SE505522C2 SE9602622A SE9602622A SE505522C2 SE 505522 C2 SE505522 C2 SE 505522C2 SE 9602622 A SE9602622 A SE 9602622A SE 9602622 A SE9602622 A SE 9602622A SE 505522 C2 SE505522 C2 SE 505522C2
Authority
SE
Sweden
Prior art keywords
model
unit
units
subsequent
speech data
Prior art date
Application number
SE9602622A
Other languages
English (en)
Other versions
SE9602622D0 (sv
SE9602622L (sv
Inventor
Erik Sundberg
Haakan Melin
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9602622A priority Critical patent/SE9602622L/sv
Publication of SE9602622D0 publication Critical patent/SE9602622D0/sv
Priority to DE69721395T priority patent/DE69721395T2/de
Priority to DK97850086T priority patent/DK0817170T3/da
Priority to EP97850086A priority patent/EP0817170B1/en
Priority to NO972670A priority patent/NO309549B1/no
Priority to US08/911,923 priority patent/US5960392A/en
Publication of SE505522C2 publication Critical patent/SE505522C2/sv
Publication of SE9602622L publication Critical patent/SE9602622L/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Description

5Û5 522 10 15 20 25 30 35 40 2 speciella problem. Om man har utnyttjat en enkel modell har man alltså fått en mindre tillförlitlig verifiering. Om man däremot utnyttjar en mera komplicerad modell är problemet en lång inlärningsperiod.
Föreliggande uppfinning löser detta problem genom att utnyttja flera olika modeller i sama talarverifierings- system. Verifieringen tas i drift med den mindre taldata- krävande modellen. Under användningen samlas kontinuerligt mer taldata in. Detta material används för att ytterligare träna antingen endast den mer komplicerade modellen eller både den enklare redan i drifttagna modellen och den mer komplicerade modellen. Vid lämpliga tillfällen görs jäm- förelse av modellernas prestationsförmåga. När den mer komplicerade modellen ger ett säkrare verifieringsresultat får den överta verifieringen i driftsituationen.
Man inser att tack vare uppfinningen erhålles ett talarverifieringssystem som är snabbt att sätta igång men så småningom ger allt tillförlitligare verifieringsresultat.
Uppfinningen gör det möjligt att utnyttja fördelarna hos olika modeller samtidigt som effekten av deras respektive nackdelar minimeras. Utan att använda denna teknik blir man tvungen att vid start av ett talarverifieringssystem välja en modell med dess för- och nackdelar. Genom att växla modell uppnår man att systemet dynamiskt anpassar sig till den taldatamängd som finns tillgänglig. Detta innebär en stor fördel gentemot den tidigare kända tekniken.
SAMMANFATTNING AV UPPFINNINGEN Således tillhandahåller föreliggande uppfinning ett förfarande för adaptering av en modell vid exempelvis talar- verifiering, innefattande modellenheter för mottagning och evaluering av tal. Enligt uppfinningen insamlas taldata och en första modellenhet sätts i drift medan en efterföljande modellenhet tränas med taldata som insamlas under drift av den första modellenheten. Modellenheternas prestationsför- màgor testas och värderas och den efterföljande modell- enheten sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.
Den efterföljande modellenheten kan sättas i drift antingen momentant eller gradvis, t.ex. genom att använda en 10 15 20 25 30 35 40 505 522 viktsfunktion.
Uppfinningen avser också ett arrangemang för att genom- föra förfarandet.
Uppfinningen är definierad i detalj i åtföljande patentkrav.
KORTFATTAD BESKRIVNING AV RITNINGEN Uppfinningen komer nu att beskrivas i detalj nedan med hänvisning till bifogade ritning, varav den enda figuren är en schematisk illustration av en utföringsform av upp- finningen.
DETALJERAD BESKRIVNING AV EN FÖREDRAGEN UTFÖRINGSFORM I talarverifieringssystem, system för automatisk verifiering av en talares identitet, är den mängd taldata som måste samlas in från användaren en avgörande begränsning för användningen. Komplicerade talarmodeller som kräver mycket insamlat taldata kan förväntas ge bättre resultat än modeller som kräver lite träningsmaterial. För ett litet träningsmaterial kan dock den komplicerade modellen ge ett sämre resultat än den enklare modellen.
Komplicerade modeller med många parametrar har bättre prestanda än enklare modeller, när modellens parametrar en gång har uppskattats korrekt. För korrekt uppskattning av parametrarna krävs emellertid en stor mängd träningsdata. I det fall när träningsdata till en modell tillhandahålles av en kund är mängden träningsdata en olägenhetsfaktor för kunden. Dåliga prestanda inom en modell leder också till systemfel, vilket är en annan olägenhetsfaktor för kunden.
Ett problem som föreliggande uppfinning löser är att hitta modelltopologier som har bra prestanda med ett minimum av träningsdata.
Den härmed föreslagna lösningen på problemet att både maximera modellprestanda och att minimera behovet av träningsdata är att använda ett modellsystem med en dynamisk topologi. Modellen har en kombination av modellenheter eller delar med varierande grad av komplexitet. Modellens verk- sama topologi ändras så att för en given mängd träningsdata används den optimala topologin, baserat pá den givna modell- enheten. Genom att använda denna teknik kommer den verksamma 10 15 20 25 30 35 40 505 522 4 modellens komplexitet att växa med den tillgängliga mängden träningsdata.
I början av modellens livscykel används de enklaste modellenheterna, vilka kräver endast en liten mängd data för tillförlitlig uppskattning av dess parametrar. Allt eftersom mängden tillgängligt data växer kan de mera komplicerade delarna successivt tränas.
När parametrarna till den mera komplicerade enheten har uppskattats på tillförlitligt sätt är dess prestanda antag- ligen bättre än den enklare enheten och modellens topologi kan ändras till förmån för den komplicerade enheten.
I den enda figuren illustreras schematiskt ett talar- verifieringssystem enligt föreliggande uppfinning. Systemet innefattar en styrenhet som styr två omkopplare och ett antal modellenheter P1- Pn. Systemet mottar å ena sidan tal eller taldata och levererar verifikationsdata som utsignal.
De olika modellenheterna P1- Pn i talarmodellen har olika behov av träningsdata. En modellenhet Pi skall endast användas för verifikation när den har mottagit tillräckligt med träningsdata. Enheterna som kräver mindre data kommer att sättas i drift tidigare medan de mera krävande enheterna inte kommer att användas förrän efter en längre tränings- period. På så sätt kan talarmodellens prestanda förbättras mot dess hela kapacitet. Under tillväxtperioden kan modellen ändå användas för verifiering genom att utnyttja talar- modellens enklare modellenheter.
De enklare delarna kan tas ur drift efterhand som de mera komplicerade enheterna uppnår bättre prestations- förmåga. Överflyttning till nya modeller kan ske i flera generationer så att man kontinuerligt tar mer och mer sätt UI' avancerade och taldatakrävande modeller i drift. På så kan talarverifieringssystemet uppgraderas utan att tas drift. Varje modell kan dessutom tänkas bestå av flera submodeller som pá olika sätt sammanvâgs för att bilda en modell.
När talarverifieringssystemet sätts i drift allra första gången kräver det en kort träningsperiod för att träna den enklaste modellenheten. Den enklaste modellenheten kan tränas från en talaroberoende mall. Därefter sätts 10 15 20 25 30 35 505 522 5 systemet i drift med växande prestationsförmåga enligt ovan.
Varje enhet i talarmodellhierarkin kommer att behöva lagra information avseende hur vältränad den är. Denna information kan antingen tillhandahållas av modellenheten själv eller genom någon prestationstestmetod. Informationen i det förra fallet kallas här träningsnivå medan informa- tionen i det andra fallet kallas prestationsnivå. Tränings- nivàn är baserad på en förutbestämd antagen kunskap om hur mycket träningsdata som enheten behöver. Skillnaden mellan de två informationerna är att prestationsniván är baserad på någon värdering av testdata (en databaskörning), medan träningsnivån är baserad på lagrad information om använt träningsdata. Prestandanivån kan vara baserad på jämförelser med andra enheter i talarmodellen och även andra talar- modeller.
Trösklar för träningsnivån och prestationsniván mäste tillhandahållas och lagras i styrenheten. För den förra är tröskeln baserad på tidigare gjorda antaganden. För den senare bör det vara möjligt att basera tröskelns värde på ett kriterium för prestationsbehovet.
För att möjliggöra användning av en prestationsnivà baserad på databassimuleringar är det nödvändigt att inklu- dera hantering av en sådan databas. Talarmodellen ska också kunna ange ett värde på sin totala träningsnivå eller prestationsnivà. Detta värde kan användas av en applikation för att uppskatta signifikansnivån för ett beslut taget av verifieringssystemet.
Modellenheternas prestationsförmâga testas vid lämpliga intervall för att kontrollera om de skall vara i drift eller ej. Detta kan ske cykliskt eller på speciell begäran.
Uppfinningen har beskrivits med avseende på ett talar- verifieringssystem men såsom nämns ovan kan uppfinningen tillämpas likaväl för andra system som använder modeller uppbyggda på data insamlade från en person under viss tid, t.ex. talaradaptiva taligenkänningssystem. Uppfinningen är endast begränsad av patentkraven nedan.

Claims (12)

505 522 10 15 20 25 30 35 40 PATENTKRAV
1. Förfarande för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal, kânnetecknat av att tal- data insamlas och att en första modellenhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) taldata som insamlas under drift av den första modell- enheten, att modellenheternas prestationsförmågor testas och värderas och att den efterföljande modellenheten tränas med sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.
2. Förfarande enligt krav 1, kännetecknat av att den efterföljande modellenheten sätts i drift momentant när dess prestationsförmága överskrider en förutbestämd tröskel.
3. Förfarande enligt krav 1, kånnetecknat av att den efterföljande modellenheten sätts i drift gradvis när dess prestationsförmága överskrider respektive tröskel i en mängd av förutbestämda trösklar.
4. Förfarande enligt krav 3, kännetecknat av att den efterföljande modellenheten sätts i drift gradvis genom att vikta de olika modellenheterna med en variabel viktsfunktion.
5. Förfarande enligt något av föregående krav, kän- netecknat av att en ny modellenhet inkopplas som en efterföljande modell.
6. Förfarande enligt något av föregående krav, kän- netecknat av att samtliga modellenheter tränas med insamlat taldata.
7. Förfarande enligt något av krav 1 till 6, tecknat av att samtliga modellenheter utom respektive driftsatta modellenheter tränas med insamlat taldata. känne-
8. Arrangemang för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal och en styrenhet, känne- tecknat av en första omkopplare för att styra taldata till de olika modellenheterna (Pl - Pn), att styra verifikationsdata från de olika modellenheterna (P1 - Pn), vilka omkopplare styrs av styrenheten sä att en andra omkopplare för 10 15 20 505 522 7 modellenheterna insamlar taldata och att en första modell- enhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) tränas med taldata som insamlas under drift av den första modellenheten, att modellenheternas prestations- förmågor testas och värderas och att den efterföljande modellenheten sätts i drift när dess prestationsförmàga har uppnått en lämplig nivà.
9. Arrangemang enligt krav 8, kännetecknat av att en förutbestämd tröskel är lagrad i styrenheten för att sätta den efterföljande modellenheten i drift momentant när dess prestationsförmàga överskrider den förut- bestämda tröskeln.
10. en mängd förutbestämda trösklar är lagrade i styrenheten Arrangemang enligt krav 8, kännetecknat av att för att sätta den efterföljande modellenheten i drift gradvis när dess prestationsförmàga överskrider respek- tive tröskel i den förutbestämda mängden av trösklar.
11. kännetecknat av att styrenheten innefattar en variabel viktsfunktion för att sätta den efterföljande modellenheten i drift gradvis genom att vikta de olika modellerna med viktsfunktionen.
12. Arrangemang enligt nàgot av krav 8 till 11, kånnetecknat av att en modellenhet består av sub- modeller. Arrangemang enligt krav 10,
SE9602622A 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem SE9602622L (sv)

Priority Applications (6)

Application Number Priority Date Filing Date Title
SE9602622A SE9602622L (sv) 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
DE69721395T DE69721395T2 (de) 1996-07-01 1997-06-05 Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation
DK97850086T DK0817170T3 (da) 1996-07-01 1997-06-05 Fremgangsmåde og apparat til at tilpasse modeller for talerverfikation
EP97850086A EP0817170B1 (en) 1996-07-01 1997-06-05 Method and apparatus for adaption of models of speaker verification
NO972670A NO309549B1 (no) 1996-07-01 1997-06-11 Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem
US08/911,923 US5960392A (en) 1996-07-01 1997-08-15 Method and arrangement for adaptation of data models

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9602622A SE9602622L (sv) 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US08/911,923 US5960392A (en) 1996-07-01 1997-08-15 Method and arrangement for adaptation of data models

Publications (3)

Publication Number Publication Date
SE9602622D0 SE9602622D0 (sv) 1996-07-03
SE505522C2 true SE505522C2 (sv) 1997-09-08
SE9602622L SE9602622L (sv) 1997-09-08

Family

ID=26662700

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9602622A SE9602622L (sv) 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem

Country Status (6)

Country Link
US (1) US5960392A (sv)
EP (1) EP0817170B1 (sv)
DE (1) DE69721395T2 (sv)
DK (1) DK0817170T3 (sv)
NO (1) NO309549B1 (sv)
SE (1) SE9602622L (sv)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
US6336084B1 (en) * 1999-05-11 2002-01-01 Ford Global Technologies, Inc. Three-way catalyst model for an engine air-to-fuel ratio control system
AU7901200A (en) * 1999-08-26 2001-03-19 Siemens Aktiengesellschaft Method for training a speaker recognition system
DE10000973A1 (de) * 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem
US7664636B1 (en) * 2000-04-17 2010-02-16 At&T Intellectual Property Ii, L.P. System and method for indexing voice mail messages by speaker
EP1256934B1 (en) * 2001-05-08 2004-07-14 Sony International (Europe) GmbH Method for adapting speaker-identification data using application speech
US7454349B2 (en) * 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
EP1941495A1 (en) * 2005-10-24 2008-07-09 Siemens AG System and method for variable-text speaker recognition
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US10599953B2 (en) * 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0444351A3 (en) * 1990-02-28 1992-05-27 American Telephone And Telegraph Company Voice password-controlled computer security system
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods

Also Published As

Publication number Publication date
EP0817170A2 (en) 1998-01-07
EP0817170A3 (en) 1998-09-30
NO972670D0 (no) 1997-06-11
US5960392A (en) 1999-09-28
DE69721395D1 (de) 2003-06-05
NO309549B1 (no) 2001-02-12
EP0817170B1 (en) 2003-05-02
DK0817170T3 (da) 2003-08-25
SE9602622D0 (sv) 1996-07-03
SE9602622L (sv) 1997-09-08
DE69721395T2 (de) 2004-03-11
NO972670L (no) 1998-01-02

Similar Documents

Publication Publication Date Title
SE505522C2 (sv) Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
CN108320753A (zh) 电器设备的控制方法、装置和系统
EP0518638B1 (en) Apparatus and method for identifying a speech pattern
CN104076904B (zh) 控制移动终端硬件状态的方法及装置
DK1685622T3 (da) Fremgangsmåde til ækvilibreret opladning af et lithium-ion eller lithium-polymer batteri
CN108959889A (zh) 一种智能家电的注册系统及方法
WO2004051773A3 (en) Method and apparatus for monitoring fuel cell voltages
CN109873418B (zh) 一种暂态功角稳定模式的强相关输电断面识别方法及系统
CN110793166A (zh) 空气净化器的配置参数确定方法及装置
CN106969769A (zh) 一种考虑多因素的Dijkstra导航方法
CN110266054A (zh) 一种光储发电系统离网启动方法、光储发电设备及系统
CN108826595A (zh) 一种空气净化器的控制方法及系统
EP1251459A3 (en) Optimization system using genetic algorithm, control apparatus, optimization method, and program and storage medium therefor
CN111524514A (zh) 一种语音控制方法及中控设备
CN105092262B (zh) 车辆启动检测装置和方法
JP2000148223A5 (ja) 曲線補間加減速制御方法および数値制御装置
CN114110721B (zh) 室内加热器及其加热控制方法
CN115077043A (zh) 用于控制新风机的方法及装置、新风机、存储介质
CN113922437B (zh) 可远程控制的锂电池无环流管理方法、装置及电子设备
JP7353825B2 (ja) 画像処理装置及びその方法、画像入力装置、画像処理システム、プログラム
US7984001B2 (en) Neural network-based extension of global position timing
US7085718B2 (en) Method for speaker-identification using application speech
SE515509C2 (sv) Adaptivt luftgränssnitt
CN108347189B (zh) 模块化多电平换流器的子模块的均压方法
CN1783752B (zh) 一种时分双工移动低码率(tdd-lcr)通信系统中获取广播信息位置的方法

Legal Events

Date Code Title Description
NUG Patent has lapsed