NO309549B1 - Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem - Google Patents

Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem Download PDF

Info

Publication number
NO309549B1
NO309549B1 NO972670A NO972670A NO309549B1 NO 309549 B1 NO309549 B1 NO 309549B1 NO 972670 A NO972670 A NO 972670A NO 972670 A NO972670 A NO 972670A NO 309549 B1 NO309549 B1 NO 309549B1
Authority
NO
Norway
Prior art keywords
model
unit
accordance
units
speech
Prior art date
Application number
NO972670A
Other languages
English (en)
Other versions
NO972670L (no
NO972670D0 (no
Inventor
Erik Sundberg
Haakan Melin
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Publication of NO972670D0 publication Critical patent/NO972670D0/no
Publication of NO972670L publication Critical patent/NO972670L/no
Publication of NO309549B1 publication Critical patent/NO309549B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Description

Foreliggende oppfinnelse vedrører en fremgangsmåte og et arrangement for å adaptere modeller eksempelvis ved taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale. Innsamlede data kan være relatert til personens fysiologi, oppførsel, aldring og lignende. Et nærliggende område er for eksempel tale-adaptiv talegjenkjenning. I system av denne type sammenlignes innsamlede data med en modell for verifisering av talerens identitet eller gjenkjenning av talen, for å styre en hendelse i en prosess eller anordning. For at modellen skal klare sin oppgave må den trenes med taledata. Enklere modeller krever mindre trening men gir mindre pålitelig resultat, mens mer kompliserte modeller krever lengre innlæring og gir mer pålitelig resultat av verifiseringen.
Oppfinnelsen kan tilpasses i alle taleverifiseringssystem som benyttes ved flere tilfeller, dvs. tale fra samme person skal verifiseres ved gjentatte anledninger. Som kjent, benyttes taleverifiseringssystemer for å beskytte informasjon eller økonomiske verdier. Oppfinnelsen er et alternativ til å benytte PIN-koder for å identifisere en bruker. Selve stemmeinnspillingen kan enten gjøres direkte ved utstyret der verifiseringen utføres, eller overføres i ulike medier. Mediet kan være telefon eller andre telekommunikasjonsmedier.
I den tidligere teknikks taleverifiseringssystem er kun en eneste modell benyttet, med tilhørende spesielle problemer. Dersom man har utnyttet en enkel modell, har man altså fått en mindre pålitelig verifisering. Om man derimot benytter en mer komplisert modell, er problemet en lang innlæringsperiode.
Foreliggende oppfinnelse løser dette problem ved å benytte flere ulike modeller i samme taleverifiseringssystem. Verifiseringen settes i drift med den modell som krever minst taledata. Under drift samles kontinuerlig inn mer taledata. Dette materiell benyttes for å ytter-lige trene enten den ene mer kompliserte modell, eller både den enkle modell som allerede er tatt i drift, og den mer kompliserte modell. Ved passende anledninger sammenlignes modellenes prestasjonskapasitet. Når den mer kompliserte modell gir et sikrere verifiseringsresultat får den overta verifiseringen i driftssituasjonen.
Man innser at på grunn av oppfinnelsen oppnås et taleverifiseringssystem som er hurtig å sette i gang, men som etterhvert gir mer pålitelige verifiseringsresultat. Oppfinnelsen gjør det mulig å benytte fordelene hos ulike modeller samtidig som effekten av deres respektive ulemper minimaliseres. Uten å benytte denne teknikk tvinges man ved start til å velge et taleverifiseringssystem med tilhørende fordeler og ulemper. Ved å skifte modell oppnår man at systemet dynamisk tilpasser seg til den taledatamengde som finnes tilgjengelig. Dette inne-bærer en stor fordel i forhold til den tidligere kjente teknikk.
1. På denne måte sørger den foreliggende oppfinnelse for en fremgangsmåte for adaptering av en modell ved eksempelvis taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale. Den foreliggende oppfinnelse er kjennetegnet ved at teledata samles inn og at en første modellenhet (Pi) settes i drift, at den etterfølgende modellenhet (Pn) trenes med taledata som samles inn under drift av den første modellenhet, at modellenhetenes prestasjonskapasiteter testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet har nådd et passende nivå.
Den etterfølgende modellenhet kan settes i drift enten momentant eller gradvis, for eksempel ved å benytte en vektfunksjon.
Oppfinnelsen vedrører også et arrangement slik det er angitt i den karakteriserende del av krav. 1.
Mer spesifiserte utførelser av oppfinnelsen er angitt i underkrav 2-7 og 9-12.
Oppfinnelsen vil nå beskrives i detalj nedenfor, under henvisning til den medfølgende tegning, idet tegningen er en skjematisk illustrasjon av et utførelse-seksempel av oppfinnelsen.
I taleverifiseringssystem, system for automatisk verifisering av en talendes identitet, er den store mengde taledata som må samles inn fra brukeren en av-gjørende begrensning for brukeren. Kompliserte talemodel-ler som krever mye innsamlet taledata kan forventes å gi et bedre resultat enn modeller som krever lite treningsmateriell. For et lite treningsmateriell kan derimot den kompliserte modell gi et dårligere resultat enn den enkle modell.
Kompliserte modeller med mange parametre har bedre ytelse enn enklere modeller, så snart modellens parametre er korrekt estimert. For korrekt estimering av parametre-ne kreves imidlertid en stor mengde med treningsdata. I det tilfelle der kunden sørger for treningsdata til en modell, er mengden treningsdata en ulempefaktor for kunden. Dårlig ytelse i en modell fører også til system-feil, noe som er en annen ulempefaktor for kunden. Et problem som foreliggende oppfinnelse løser er å finne modelltopologier som har god ytelse med et minimum av treningsdata.
Løsningen som her er foreslått på problemet å både maksimere modellytelsen og å minimere behovet for tren ingsdata, er å benytte et modellsystem med en dynamisk topologi. Modellen har en kombinasjon av modellenheter eller deler med varierende grad av kompleksitet. Modellenes effektive topologi endres slik at for en gitt mengde treningsdata benyttes den optimale topologi, basert på den gitte modellenhet. Ved å benytte denne teknikk kommer den effektive modells kompleksitet til å vokse med den tiltagende mengde treningsdata.
I begynnelsen av modellens livssyklus benyttes de enkleste modellenheter, som bare krever en liten data-mengde for pålitelig estimering av modellens parametre. Etterhvert som mengden av tilgjengelige data øker, kan de mer kompliserte deler trenes suksessivt.
Når den mer kompliserte enhets parametre er estimert på en pålitelig måte, er denne enhets ytelse sannsynlig-vis bedre enn den enklere enhets ytelse, og modellens topologi kan endres til fordel for den kompliserte enhet.
I den ene figur illustreres skjematisk et taleverifiseringssystem ifølge den foreliggende oppfinnelse. Systemet omfatter en styreenhet som styrer to omkoblere og et antall modellenheter Pi - Pn. Systemet mottar tale eller taledata på den ene side, og leverer verifiseringsdata som utgangssignal.
De ulike modellenheter Pi - Pni talemodellen har ulike behov for treningsdata. Enhetene som krever minst data kommer til å settes i drift tidligst, mens de mer krevende enheter ikke kommer til å benyttes før etter en lengre treningsperiode. På denne måte kan talemodellens prestasjon forbedres opp mot modellens fulle kapasitet. Under oppbyggningsperioden kan modellen fremdeles benyttes for verifisering ved å benytte talemodellens enklere modeller.
De enklere deler kan tas ut av drift etterhvert som de mer kompliserte enheter oppnår bedre prestasjonskapasitet.
Overflytting til nye modeller kan skje i flere
generasjoner slik at mer og mer avanserte og taledatakre-vende modeller kontinuerlig settes i drift. På denne måte kan taleverifiseringssystemet oppgraderes uten at det tas ut av drift. Hver modell kan dessuten tenkes å bestå av
flere submodeller som på ulike måter kobles sammen for å bygge en modell.
Når taleverifiseringssystemet settes i drift aller første gangen kreves det en kort treningsperiode for å trene den enkleste modellenhet. Den enkleste modellenhet kan trenes fra en taler-uavhengig mal. Deretter settes systemet i drift med økende prestasjonskapasitet som beskrevet ovenfor. Hver enhet i talermodell-hierarkiet har behov for å lagre informasjon om hvor veltrent den er. Denne informasjon kan enten frembringes av selve modellenheten eller ved en prestasjonstestmetode. Informasjonen i det første tilfelle benevnes her treningsnivå, mens informasjonen i det andre tilfelle benevnes prestasjonsnivå. Treningsnivå er basert på en forutbestemt antatt kjennskap til hvor mye treningsdata enheten trenger. Forskjellen mellom de to informasjoner er at prestasjonsnivået er basert på en vurdering av noe testdata (kjøring av en database), mens treningsnivået er basert på lagret informasjon om anvendte treningsdata. Prestasjonsnivået kan være basert på sammenligninger med andre enheter i talemodellen og også med andre talemodel-ler.
Terskler for treninigsnivå og prestasjonsnivå må skaffes til veie og lagres av styreenheten. For den første er terskelen basert på tidligere antagelser. For den siste bør det være mulig å basere tersklenes verdi på et kriterium for prestasjonsbehovet.
For å muliggjøre bruk av et prestasjonsnivå basert på databasesimmuleringer er det nødvendig å inkludere håndtering av en slik database. Talemodellen skal også kunne angi en verdi på sitt totale treningsnivå eller prestasjonsnivå. Denne verdi kan anvendes av en applika-sjon for å estimere signifikansnivået for en beslutning som verifiseringssystemet har tatt.
Modellenhetenes prestasjonskapasitet testes ved passende intervall for å kontrollere om de skal være i drift eller ikke. Dette kan utføres syklisk eller på en spesiell kommando.
Oppfinnelsen er beskrevet med referanse til et tale-verif iseringssystem, men som nevnt ovenfor kan oppfinnelsen likevel tilpasses for andre system som benytter modeller bygd opp av data samlet inn fra en person i et visst tidsrom, for eksempel taleradaptive talegjenkjen-ningssystem.

Claims (12)

1. Fremgangsmåte for adaptering av en modell, eksempelvis ved taleverifiseringssystem, som omfatter modellenheter for mottak og evaluering av tale,karakterisert vedat taledata samles inn og at en første modellenhet (Pi) settes i drift, at den etterfølgende modellenhet (Pn) trenes med taledata som samles inn under drift av den første modellenhet, at modellenhetenes prestasjonskapasiteter testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet har nådd et passende nivå.
2. Fremgangsmåte i samsvar med krav 1,karakterisert vedat den etterfølgende modellenhet settes umiddelbart i drift når dennes prestajonskapasitet overskrider en forutbestemt terskel.
3. Fremgangsmåte i samsvar med krav 1,karakterisert vedat den etterfølgende modellenhet settes gradvis i drift når dennes prestajonskapasitet overskrider respektive terskel i et antall forutbestemte terskler.
4. Fremgangsmåte i samsvar med krav 3,karakterisert vedat den etterfølgende modellenhet settes gradvis i drift ved å vektlegge de ulike modellenheter med en variabel vektfunksjon.
5. Fremgangsmåte i samsvar med et av kravene 1-4,karakterisert vedat en ny modellenhet kobles inn som en etterfølgende modell.
6. Fremgangsmåte i samsvar med et av kravene 1-5,karakterisert vedat samtlige modellenheter trenes med innsamlede taledata.
7. Fremgangsmåte i samsvar med et av kravene 1-6,karakterisert vedat samtlige modellenheter utenom respektive modellenheter som er satt i drift trenes med innsamlede taledata.
8. Arrangement for adaptering av en modell, eksempelvis ved taleverifiseringssystem, omfattende modellenheter for mottak og evaluering av tale, og en styreenhet,karakterisert veden første omkobler for å styre taledata til de ulike modellenheter (Pi - Pn), en andre omkobler for å styre verifiseringsdata fra de ulike modellenheter (Pi - Pn) , idet omkoblerne styres av kontrollenheten, slik at modellenhetene samler inn taledata og at en første modellenhet (Pi) settes i drift, at en etterfølgende modellenhet (Pn) trenes med taledata som samles inn ved drift av den første modellenhet, at modellenhetenes prestasjonskapasitet testes og vurderes, og at den etterfølgende modellenhet settes i drift når dennes prestasjonskapasitet oppnår et passende nivå.
9. Arrangement i samsvar med krav 8,karakterisert vedat en forutbestemt terskelverdi er lagret i styreenheten for å umiddelbart sette den etterfølgende modellenhet i drift når dennes prestasjonskapasitet overskrider den forutbestemte terskelverdi.
10. Arrangement i samsvar med krav 8,karakterisert vedat et antall forutbestemte terskler er lagret i styreenheten for å sette den etter følgende modellenhet gradvis i drift når dennes prestasjonskapasitet overskrider respektive terskel i den forutbestemte mengde av terskler.
11. Arrangement i samsvar med krav 8,karakterisert vedat styreenheten omfatter en variabel vektfunksjon for å gradvis sette den etterføl-gende modellenhet i drift ved å vekte de ulike modeller med vektfunksjonen.
12. Arrangement i samsvar med krav 8,karakterisert vedat en modellenhet består av submodeller
NO972670A 1996-07-01 1997-06-11 Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem NO309549B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9602622A SE9602622L (sv) 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US08/911,923 US5960392A (en) 1996-07-01 1997-08-15 Method and arrangement for adaptation of data models

Publications (3)

Publication Number Publication Date
NO972670D0 NO972670D0 (no) 1997-06-11
NO972670L NO972670L (no) 1998-01-02
NO309549B1 true NO309549B1 (no) 2001-02-12

Family

ID=26662700

Family Applications (1)

Application Number Title Priority Date Filing Date
NO972670A NO309549B1 (no) 1996-07-01 1997-06-11 Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem

Country Status (6)

Country Link
US (1) US5960392A (no)
EP (1) EP0817170B1 (no)
DE (1) DE69721395T2 (no)
DK (1) DK0817170T3 (no)
NO (1) NO309549B1 (no)
SE (1) SE9602622L (no)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
US6336084B1 (en) * 1999-05-11 2002-01-01 Ford Global Technologies, Inc. Three-way catalyst model for an engine air-to-fuel ratio control system
AU7901200A (en) * 1999-08-26 2001-03-19 Siemens Aktiengesellschaft Method for training a speaker recognition system
DE10000973A1 (de) * 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem
US7664636B1 (en) * 2000-04-17 2010-02-16 At&T Intellectual Property Ii, L.P. System and method for indexing voice mail messages by speaker
EP1256934B1 (en) * 2001-05-08 2004-07-14 Sony International (Europe) GmbH Method for adapting speaker-identification data using application speech
US7454349B2 (en) 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
EP1941495A1 (en) * 2005-10-24 2008-07-09 Siemens AG System and method for variable-text speaker recognition
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US10599953B2 (en) * 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0444351A3 (en) * 1990-02-28 1992-05-27 American Telephone And Telegraph Company Voice password-controlled computer security system
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods

Also Published As

Publication number Publication date
EP0817170A2 (en) 1998-01-07
DE69721395T2 (de) 2004-03-11
US5960392A (en) 1999-09-28
NO972670L (no) 1998-01-02
EP0817170A3 (en) 1998-09-30
NO972670D0 (no) 1997-06-11
SE505522C2 (sv) 1997-09-08
SE9602622L (sv) 1997-09-08
SE9602622D0 (sv) 1996-07-03
DE69721395D1 (de) 2003-06-05
DK0817170T3 (da) 2003-08-25
EP0817170B1 (en) 2003-05-02

Similar Documents

Publication Publication Date Title
NO309549B1 (no) Fremgangsmåte og arrangement for adaptering av modeller ved for eksempel et taleverifiseringssystem
CN108320753A (zh) 电器设备的控制方法、装置和系统
CN109579220B (zh) 空调系统故障检测方法、装置、电子设备
US5720003A (en) Method and apparatus for determining the accuracy limit of a learning machine for predicting path performance degradation in a communications network
CN106887864A (zh) 一种动力电池均衡控制方法及相应电池管理系统
DK160453B (da) Digitalt hoereapparat
CN108766439A (zh) 一种基于声纹识别的监控方法及装置
CN107333292A (zh) 一种sim卡状态判断方法及装置
US10977924B2 (en) Intelligent river inundation alarming system and method of controlling the same
CN103957551B (zh) 自动气象站中通信状态实时监控方法
CN106196784A (zh) 变频空调主动控制方法及装置
CN111046942A (zh) 一种道岔故障判断方法及装置
CN108733957A (zh) 一种用于变压器故障诊断的噪声特征提取与判断方法
CN112022141A (zh) 一种心电信号类别检测方法、装置及存储介质
CN109462580A (zh) 训练流量检测模型、检测业务流量异常的方法及装置
JP6906413B2 (ja) プラント機器監視制御システム
Zhang et al. Machine learning based alarm analysis and failure forecast in optical networks
JPH05158910A (ja) ニューラルネットのトレイン方法及びニューラルネットの分類装置
JPH0819008A (ja) トーン検出確認方法
CN109714833B (zh) 一种数据通信方法、装置及系统
JP3624800B2 (ja) 組電池の容量調整方法
CN114423011A (zh) 开放集wifi设备识别方法和装置
CN111489539A (zh) 家电系统故障的预警方法、系统及装置
CN114413409A (zh) 用于空调故障概率的检测方法及装置、智能空调
CN112254274A (zh) 基于机器学习技术的空调故障识别系统