SE505522C2 - Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem - Google Patents
Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystemInfo
- Publication number
- SE505522C2 SE505522C2 SE9602622A SE9602622A SE505522C2 SE 505522 C2 SE505522 C2 SE 505522C2 SE 9602622 A SE9602622 A SE 9602622A SE 9602622 A SE9602622 A SE 9602622A SE 505522 C2 SE505522 C2 SE 505522C2
- Authority
- SE
- Sweden
- Prior art keywords
- model
- unit
- units
- subsequent
- speech data
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Description
5Û5 522 10 15 20 25 30 35 40 2 speciella problem. Om man har utnyttjat en enkel modell har man alltså fått en mindre tillförlitlig verifiering. Om man däremot utnyttjar en mera komplicerad modell är problemet en lång inlärningsperiod.
Föreliggande uppfinning löser detta problem genom att utnyttja flera olika modeller i sama talarverifierings- system. Verifieringen tas i drift med den mindre taldata- krävande modellen. Under användningen samlas kontinuerligt mer taldata in. Detta material används för att ytterligare träna antingen endast den mer komplicerade modellen eller både den enklare redan i drifttagna modellen och den mer komplicerade modellen. Vid lämpliga tillfällen görs jäm- förelse av modellernas prestationsförmåga. När den mer komplicerade modellen ger ett säkrare verifieringsresultat får den överta verifieringen i driftsituationen.
Man inser att tack vare uppfinningen erhålles ett talarverifieringssystem som är snabbt att sätta igång men så småningom ger allt tillförlitligare verifieringsresultat.
Uppfinningen gör det möjligt att utnyttja fördelarna hos olika modeller samtidigt som effekten av deras respektive nackdelar minimeras. Utan att använda denna teknik blir man tvungen att vid start av ett talarverifieringssystem välja en modell med dess för- och nackdelar. Genom att växla modell uppnår man att systemet dynamiskt anpassar sig till den taldatamängd som finns tillgänglig. Detta innebär en stor fördel gentemot den tidigare kända tekniken.
SAMMANFATTNING AV UPPFINNINGEN Således tillhandahåller föreliggande uppfinning ett förfarande för adaptering av en modell vid exempelvis talar- verifiering, innefattande modellenheter för mottagning och evaluering av tal. Enligt uppfinningen insamlas taldata och en första modellenhet sätts i drift medan en efterföljande modellenhet tränas med taldata som insamlas under drift av den första modellenheten. Modellenheternas prestationsför- màgor testas och värderas och den efterföljande modell- enheten sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.
Den efterföljande modellenheten kan sättas i drift antingen momentant eller gradvis, t.ex. genom att använda en 10 15 20 25 30 35 40 505 522 viktsfunktion.
Uppfinningen avser också ett arrangemang för att genom- föra förfarandet.
Uppfinningen är definierad i detalj i åtföljande patentkrav.
KORTFATTAD BESKRIVNING AV RITNINGEN Uppfinningen komer nu att beskrivas i detalj nedan med hänvisning till bifogade ritning, varav den enda figuren är en schematisk illustration av en utföringsform av upp- finningen.
DETALJERAD BESKRIVNING AV EN FÖREDRAGEN UTFÖRINGSFORM I talarverifieringssystem, system för automatisk verifiering av en talares identitet, är den mängd taldata som måste samlas in från användaren en avgörande begränsning för användningen. Komplicerade talarmodeller som kräver mycket insamlat taldata kan förväntas ge bättre resultat än modeller som kräver lite träningsmaterial. För ett litet träningsmaterial kan dock den komplicerade modellen ge ett sämre resultat än den enklare modellen.
Komplicerade modeller med många parametrar har bättre prestanda än enklare modeller, när modellens parametrar en gång har uppskattats korrekt. För korrekt uppskattning av parametrarna krävs emellertid en stor mängd träningsdata. I det fall när träningsdata till en modell tillhandahålles av en kund är mängden träningsdata en olägenhetsfaktor för kunden. Dåliga prestanda inom en modell leder också till systemfel, vilket är en annan olägenhetsfaktor för kunden.
Ett problem som föreliggande uppfinning löser är att hitta modelltopologier som har bra prestanda med ett minimum av träningsdata.
Den härmed föreslagna lösningen på problemet att både maximera modellprestanda och att minimera behovet av träningsdata är att använda ett modellsystem med en dynamisk topologi. Modellen har en kombination av modellenheter eller delar med varierande grad av komplexitet. Modellens verk- sama topologi ändras så att för en given mängd träningsdata används den optimala topologin, baserat pá den givna modell- enheten. Genom att använda denna teknik kommer den verksamma 10 15 20 25 30 35 40 505 522 4 modellens komplexitet att växa med den tillgängliga mängden träningsdata.
I början av modellens livscykel används de enklaste modellenheterna, vilka kräver endast en liten mängd data för tillförlitlig uppskattning av dess parametrar. Allt eftersom mängden tillgängligt data växer kan de mera komplicerade delarna successivt tränas.
När parametrarna till den mera komplicerade enheten har uppskattats på tillförlitligt sätt är dess prestanda antag- ligen bättre än den enklare enheten och modellens topologi kan ändras till förmån för den komplicerade enheten.
I den enda figuren illustreras schematiskt ett talar- verifieringssystem enligt föreliggande uppfinning. Systemet innefattar en styrenhet som styr två omkopplare och ett antal modellenheter P1- Pn. Systemet mottar å ena sidan tal eller taldata och levererar verifikationsdata som utsignal.
De olika modellenheterna P1- Pn i talarmodellen har olika behov av träningsdata. En modellenhet Pi skall endast användas för verifikation när den har mottagit tillräckligt med träningsdata. Enheterna som kräver mindre data kommer att sättas i drift tidigare medan de mera krävande enheterna inte kommer att användas förrän efter en längre tränings- period. På så sätt kan talarmodellens prestanda förbättras mot dess hela kapacitet. Under tillväxtperioden kan modellen ändå användas för verifiering genom att utnyttja talar- modellens enklare modellenheter.
De enklare delarna kan tas ur drift efterhand som de mera komplicerade enheterna uppnår bättre prestations- förmåga. Överflyttning till nya modeller kan ske i flera generationer så att man kontinuerligt tar mer och mer sätt UI' avancerade och taldatakrävande modeller i drift. På så kan talarverifieringssystemet uppgraderas utan att tas drift. Varje modell kan dessutom tänkas bestå av flera submodeller som pá olika sätt sammanvâgs för att bilda en modell.
När talarverifieringssystemet sätts i drift allra första gången kräver det en kort träningsperiod för att träna den enklaste modellenheten. Den enklaste modellenheten kan tränas från en talaroberoende mall. Därefter sätts 10 15 20 25 30 35 505 522 5 systemet i drift med växande prestationsförmåga enligt ovan.
Varje enhet i talarmodellhierarkin kommer att behöva lagra information avseende hur vältränad den är. Denna information kan antingen tillhandahållas av modellenheten själv eller genom någon prestationstestmetod. Informationen i det förra fallet kallas här träningsnivå medan informa- tionen i det andra fallet kallas prestationsnivå. Tränings- nivàn är baserad på en förutbestämd antagen kunskap om hur mycket träningsdata som enheten behöver. Skillnaden mellan de två informationerna är att prestationsniván är baserad på någon värdering av testdata (en databaskörning), medan träningsnivån är baserad på lagrad information om använt träningsdata. Prestandanivån kan vara baserad på jämförelser med andra enheter i talarmodellen och även andra talar- modeller.
Trösklar för träningsnivån och prestationsniván mäste tillhandahållas och lagras i styrenheten. För den förra är tröskeln baserad på tidigare gjorda antaganden. För den senare bör det vara möjligt att basera tröskelns värde på ett kriterium för prestationsbehovet.
För att möjliggöra användning av en prestationsnivà baserad på databassimuleringar är det nödvändigt att inklu- dera hantering av en sådan databas. Talarmodellen ska också kunna ange ett värde på sin totala träningsnivå eller prestationsnivà. Detta värde kan användas av en applikation för att uppskatta signifikansnivån för ett beslut taget av verifieringssystemet.
Modellenheternas prestationsförmâga testas vid lämpliga intervall för att kontrollera om de skall vara i drift eller ej. Detta kan ske cykliskt eller på speciell begäran.
Uppfinningen har beskrivits med avseende på ett talar- verifieringssystem men såsom nämns ovan kan uppfinningen tillämpas likaväl för andra system som använder modeller uppbyggda på data insamlade från en person under viss tid, t.ex. talaradaptiva taligenkänningssystem. Uppfinningen är endast begränsad av patentkraven nedan.
Claims (12)
1. Förfarande för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal, kânnetecknat av att tal- data insamlas och att en första modellenhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) taldata som insamlas under drift av den första modell- enheten, att modellenheternas prestationsförmågor testas och värderas och att den efterföljande modellenheten tränas med sätts i drift när dess prestationsförmåga har uppnått en lämplig nivå.
2. Förfarande enligt krav 1, kännetecknat av att den efterföljande modellenheten sätts i drift momentant när dess prestationsförmága överskrider en förutbestämd tröskel.
3. Förfarande enligt krav 1, kånnetecknat av att den efterföljande modellenheten sätts i drift gradvis när dess prestationsförmága överskrider respektive tröskel i en mängd av förutbestämda trösklar.
4. Förfarande enligt krav 3, kännetecknat av att den efterföljande modellenheten sätts i drift gradvis genom att vikta de olika modellenheterna med en variabel viktsfunktion.
5. Förfarande enligt något av föregående krav, kän- netecknat av att en ny modellenhet inkopplas som en efterföljande modell.
6. Förfarande enligt något av föregående krav, kän- netecknat av att samtliga modellenheter tränas med insamlat taldata.
7. Förfarande enligt något av krav 1 till 6, tecknat av att samtliga modellenheter utom respektive driftsatta modellenheter tränas med insamlat taldata. känne-
8. Arrangemang för adaptering av en modell vid exempel- vis talarverfieringssystem, innefattande modellenheter för mottagning och evaluering av tal och en styrenhet, känne- tecknat av en första omkopplare för att styra taldata till de olika modellenheterna (Pl - Pn), att styra verifikationsdata från de olika modellenheterna (P1 - Pn), vilka omkopplare styrs av styrenheten sä att en andra omkopplare för 10 15 20 505 522 7 modellenheterna insamlar taldata och att en första modell- enhet (P1) sätts i drift, att en efterföljande modellenhet (Pn) tränas med taldata som insamlas under drift av den första modellenheten, att modellenheternas prestations- förmågor testas och värderas och att den efterföljande modellenheten sätts i drift när dess prestationsförmàga har uppnått en lämplig nivà.
9. Arrangemang enligt krav 8, kännetecknat av att en förutbestämd tröskel är lagrad i styrenheten för att sätta den efterföljande modellenheten i drift momentant när dess prestationsförmàga överskrider den förut- bestämda tröskeln.
10. en mängd förutbestämda trösklar är lagrade i styrenheten Arrangemang enligt krav 8, kännetecknat av att för att sätta den efterföljande modellenheten i drift gradvis när dess prestationsförmàga överskrider respek- tive tröskel i den förutbestämda mängden av trösklar.
11. kännetecknat av att styrenheten innefattar en variabel viktsfunktion för att sätta den efterföljande modellenheten i drift gradvis genom att vikta de olika modellerna med viktsfunktionen.
12. Arrangemang enligt nàgot av krav 8 till 11, kånnetecknat av att en modellenhet består av sub- modeller. Arrangemang enligt krav 10,
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9602622A SE9602622L (sv) | 1996-07-01 | 1996-07-01 | Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem |
DE69721395T DE69721395T2 (de) | 1996-07-01 | 1997-06-05 | Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation |
DK97850086T DK0817170T3 (da) | 1996-07-01 | 1997-06-05 | Fremgangsmåde og apparat til at tilpasse modeller for talerverfikation |
EP97850086A EP0817170B1 (en) | 1996-07-01 | 1997-06-05 | Method and apparatus for adaption of models of speaker verification |
NO972670A NO309549B1 (no) | 1996-07-01 | 1997-06-11 | Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem |
US08/911,923 US5960392A (en) | 1996-07-01 | 1997-08-15 | Method and arrangement for adaptation of data models |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9602622A SE9602622L (sv) | 1996-07-01 | 1996-07-01 | Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem |
US08/911,923 US5960392A (en) | 1996-07-01 | 1997-08-15 | Method and arrangement for adaptation of data models |
Publications (3)
Publication Number | Publication Date |
---|---|
SE9602622D0 SE9602622D0 (sv) | 1996-07-03 |
SE505522C2 true SE505522C2 (sv) | 1997-09-08 |
SE9602622L SE9602622L (sv) | 1997-09-08 |
Family
ID=26662700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE9602622A SE9602622L (sv) | 1996-07-01 | 1996-07-01 | Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem |
Country Status (6)
Country | Link |
---|---|
US (1) | US5960392A (sv) |
EP (1) | EP0817170B1 (sv) |
DE (1) | DE69721395T2 (sv) |
DK (1) | DK0817170T3 (sv) |
NO (1) | NO309549B1 (sv) |
SE (1) | SE9602622L (sv) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
FI972723A0 (fi) * | 1997-06-24 | 1997-06-24 | Nokia Mobile Phones Ltd | Mobila kommunikationsanordningar |
DE19824353A1 (de) * | 1998-05-30 | 1999-12-02 | Philips Patentverwaltung | Vorrichtung zur Verifizierung von Signalen |
US6519563B1 (en) * | 1999-02-16 | 2003-02-11 | Lucent Technologies Inc. | Background model design for flexible and portable speaker verification systems |
US6336084B1 (en) * | 1999-05-11 | 2002-01-01 | Ford Global Technologies, Inc. | Three-way catalyst model for an engine air-to-fuel ratio control system |
AU7901200A (en) * | 1999-08-26 | 2001-03-19 | Siemens Aktiengesellschaft | Method for training a speaker recognition system |
DE10000973A1 (de) * | 2000-01-06 | 2001-07-12 | Deutsche Telekom Ag | Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem |
US7664636B1 (en) * | 2000-04-17 | 2010-02-16 | At&T Intellectual Property Ii, L.P. | System and method for indexing voice mail messages by speaker |
EP1256934B1 (en) * | 2001-05-08 | 2004-07-14 | Sony International (Europe) GmbH | Method for adapting speaker-identification data using application speech |
US7454349B2 (en) * | 2003-12-15 | 2008-11-18 | Rsa Security Inc. | Virtual voiceprint system and method for generating voiceprints |
EP1941495A1 (en) * | 2005-10-24 | 2008-07-09 | Siemens AG | System and method for variable-text speaker recognition |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
US9711148B1 (en) * | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
US10599953B2 (en) * | 2014-08-27 | 2020-03-24 | Verint Americas Inc. | Method and system for generating and correcting classification models |
CN106971734B (zh) * | 2016-01-14 | 2020-10-23 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0444351A3 (en) * | 1990-02-28 | 1992-05-27 | American Telephone And Telegraph Company | Voice password-controlled computer security system |
US5430827A (en) * | 1993-04-23 | 1995-07-04 | At&T Corp. | Password verification system |
JPH075892A (ja) * | 1993-04-29 | 1995-01-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
JP2980228B2 (ja) * | 1994-10-25 | 1999-11-22 | 日本ビクター株式会社 | 音声認識用音響モデル生成方法 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5778341A (en) * | 1996-01-26 | 1998-07-07 | Lucent Technologies Inc. | Method of speech recognition using decoded state sequences having constrained state likelihoods |
-
1996
- 1996-07-01 SE SE9602622A patent/SE9602622L/sv not_active IP Right Cessation
-
1997
- 1997-06-05 DE DE69721395T patent/DE69721395T2/de not_active Expired - Fee Related
- 1997-06-05 EP EP97850086A patent/EP0817170B1/en not_active Expired - Lifetime
- 1997-06-05 DK DK97850086T patent/DK0817170T3/da active
- 1997-06-11 NO NO972670A patent/NO309549B1/no unknown
- 1997-08-15 US US08/911,923 patent/US5960392A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0817170A2 (en) | 1998-01-07 |
EP0817170A3 (en) | 1998-09-30 |
NO972670D0 (no) | 1997-06-11 |
US5960392A (en) | 1999-09-28 |
DE69721395D1 (de) | 2003-06-05 |
NO309549B1 (no) | 2001-02-12 |
EP0817170B1 (en) | 2003-05-02 |
DK0817170T3 (da) | 2003-08-25 |
SE9602622D0 (sv) | 1996-07-03 |
SE9602622L (sv) | 1997-09-08 |
DE69721395T2 (de) | 2004-03-11 |
NO972670L (no) | 1998-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
SE505522C2 (sv) | Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem | |
CN108320753A (zh) | 电器设备的控制方法、装置和系统 | |
EP0518638B1 (en) | Apparatus and method for identifying a speech pattern | |
CN104076904B (zh) | 控制移动终端硬件状态的方法及装置 | |
DK1685622T3 (da) | Fremgangsmåde til ækvilibreret opladning af et lithium-ion eller lithium-polymer batteri | |
CN108959889A (zh) | 一种智能家电的注册系统及方法 | |
WO2004051773A3 (en) | Method and apparatus for monitoring fuel cell voltages | |
CN109873418B (zh) | 一种暂态功角稳定模式的强相关输电断面识别方法及系统 | |
CN110793166A (zh) | 空气净化器的配置参数确定方法及装置 | |
CN106969769A (zh) | 一种考虑多因素的Dijkstra导航方法 | |
CN110266054A (zh) | 一种光储发电系统离网启动方法、光储发电设备及系统 | |
CN108826595A (zh) | 一种空气净化器的控制方法及系统 | |
EP1251459A3 (en) | Optimization system using genetic algorithm, control apparatus, optimization method, and program and storage medium therefor | |
CN111524514A (zh) | 一种语音控制方法及中控设备 | |
CN105092262B (zh) | 车辆启动检测装置和方法 | |
JP2000148223A5 (ja) | 曲線補間加減速制御方法および数値制御装置 | |
CN114110721B (zh) | 室内加热器及其加热控制方法 | |
CN115077043A (zh) | 用于控制新风机的方法及装置、新风机、存储介质 | |
CN113922437B (zh) | 可远程控制的锂电池无环流管理方法、装置及电子设备 | |
JP7353825B2 (ja) | 画像処理装置及びその方法、画像入力装置、画像処理システム、プログラム | |
US7984001B2 (en) | Neural network-based extension of global position timing | |
US7085718B2 (en) | Method for speaker-identification using application speech | |
SE515509C2 (sv) | Adaptivt luftgränssnitt | |
CN108347189B (zh) | 模块化多电平换流器的子模块的均压方法 | |
CN1783752B (zh) | 一种时分双工移动低码率(tdd-lcr)通信系统中获取广播信息位置的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NUG | Patent has lapsed |