SE511418C2 - Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. - Google Patents
Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.Info
- Publication number
- SE511418C2 SE511418C2 SE9700898A SE9700898A SE511418C2 SE 511418 C2 SE511418 C2 SE 511418C2 SE 9700898 A SE9700898 A SE 9700898A SE 9700898 A SE9700898 A SE 9700898A SE 511418 C2 SE511418 C2 SE 511418C2
- Authority
- SE
- Sweden
- Prior art keywords
- models
- speaker
- customer
- model
- pro
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Description
511418 Föreliggande uppfinning har fördelen, gentemot tidigare talarverifieringssystem/talaridentifieringssystem att man trots att man utnyttjar en minimal mängd taldata kan talarens identitet snabbt fastställas.
Ytterligare kännetecken ges i underkraven.
Detaljerad beskrivning av utföringsformer av uppfinningen I tekniska sammanhang brukar man ofta skilja pà talar- identifiering och talarverifiering.
Med talaridentifiering menas dà ett identifieringsystem där talare identifierar sig genom att tala in godtyckliga meningar, varvid identifieringssystemet analyserar rösten och identifierar särdrag hos rösten varigenom talaridentifikation genomföres.
Med talarverifikation menas ett verifieringssystem där en talares identitet verifieras genom att talaren talar in (eller knappar in) en specifik förutbestämd information, varvid verifieringssystemet direkt bestyrker riktigheten i informationen (och identitet) eller förkastar densamma (exempel pà ett sàdant system är en Bankomat).
De bada systemen avser i grund och botten samma sak, nämligen att urskilja och entydigt bestämma en talares identitet.
Det skall således inses att i föreliggande uppfinning sätter vi likhetstecken mellan begreppen "talarverifiering“ och "talaridentifiering".
Uppfinningen är avsedd att användas i alla talarveri- fieringssystem, speciellt i sådana som används i en tjänst där man har tillgàng till information om användarna.
Röstinspelningen kan antingen göras direkt vid utrust- ningen, där verifieringen utförs, eller överföras via olika media. Medium kan vara telefon eller andra telekommunikations- media, inkl. datorer.
I talarverifieringssystem idag utnyttjas oftast en ”likelihood normalization”, dvs. en typ av sannolikhets- normalisering. Principiellt fungerar dessa talarverifierings- system pà följande sätt. 511 418 Lät oss anta att en kund, t.ex. Leif, har för avsikt att verifiera sin identitet medelst ett talarverifieringssystem för att fà access till en speciell tjänst. I detta fall förutsättes att Leifs röstprofil finns lagrad tidigare i en databas tillhörande talarverifieringssystemet.
Dä Leif talar in ett röstmeddelande via t.ex. en telefon i talarverifieringsenheten lagras och analyseras röstprofilen.
Talarverifieringsenheten konstaterar att sannolikheten är mycket hög att Leif är man över 40 àr. Dessutom konstaterar talarverifieringsenheten att Leif talar stackato.
Talarverifieringsenheten letar nu i hierarkin av olika grupper i databasen och finner en grupp innefattande män över 40 som talar stackato.
Denna grupp är ganska begränsad (t.ex. 40 personer) och talarverifieringsenheten jämför Leifs lagrade talprofil med alla talprofiler som finns lagrade i denna speciella grupp.
Med mycket stor sannolikhet hittar sàledes talarverifierings- enheten Leifs röstprofil i denna grupp, varpä identifiering sker.
Den ovan nämnda metoden bygger sàledes pä att talar- verifieringsenheten pà sannolikhetsbasis avgör i vilken grupp i en databas en person, t.ex. Leif, ingar. Därefter jämföres lagrad röstprofil med samtliga röstprofiler i nämnda grupp.
Denna metod är naturligtvis betydligt effektivare än om talarverifieringsenheten urskiljningslöst skulle jämföra lagrad talprofil med alla ingående talprofiler i databasen.
Detta skulle ta en ofantlig tid om databasen t.ex. innehöll nägra tusen talprofiler.
Föreliggande uppfinning är en vidareutveckling och för- bättring av den ovan nämnda metoden och bygger pà att man genom att använda förtränade referensmodeller som komponenter i en talarmodell kan dra nytta av insamlade data utöver de som en kund själv pratar in vid sitt registreringssamtal och därmed minska längden pá detta samtal. Det centrala i uppfinningen är att organisera dessa referensmodeller i en uppsättning av pro-modeller och anti-modeller. Tanken är att pro-modellerna skall modellera en egenskap som kunden har (t.ex. kvinna, mellan 20 och 25 är) och anti-modellen en 511 418 L' egenskap som kunden inte har (t.ex. man, inte mellan 20 och 25 ar). Rent matematiskt framtagna referensmodeller som normalt inte motsvarar en urskiljbar egenskap hos kunden, kan ocksa användas.
Komplementära uppsättningar pro- och anti-modeller bör användas. Om referensmodellerna motsvarar konkreta egenskaper hos kunden kan dessutom a priori kunskap användas för att styra valet av referensmodeller. Denna kunskap kan pa olika sätt göras tillgänglig i systemet.
En mer detaljerad beskrivning kommer att ges lite längre fram i beskrivningen.
I talarverifieringssammanhang använder man sasom ovan nämnts ”likelihood normalization” där man normerar bidraget fran en kundspecifik modell med en eller flera ”world models” eller ”impostor models", som med ovan använda terminologi är anti-modeller. Den kundspecifika modellen motsvarar funktion fc i ekvation (1) nedan. Det nya i (1) är därför att kombinera anti-modellerna med (komplementära) pro-modeller. Huruvida det är nytt att generellt sett använda a priori kunskap för att välja referensmodeller är tveksamt, men arrangemanget med pro- och anti-modeller passar bra ihop med användandet av a priori kunskap. Teorin om att välja en optimal uppsättning referensmodeller och en tillhörande projektion är förvisso välkänd inom matematiken/signalteorin och är salunda inget nytt i sig, men applicerandet av detta tänkande i talarverifieringssammanhang är enligt var mening helt nytt.
I det följande kommer uppfinningen att beskrivas mera ingaende.
Betrakta en talarmodell som bestaende av a) referens- modeller och b) en projektion pa dessa referensmodeller. Pro- jektionen kan t.ex. vara en viktad summa av bidrag fran referensmodellerna (en linjärkombination). Dessutom kan en talarmodell förstas innehàlla modellelement som byggs ute- slutande fran talmaterial fran kunden själv och som inte använder referensmodeller, men följande beskrivning fokuserar pa den delen där nagon form av referensmodell ingar.
Referensmodellerna tränas normalt fran tal i en databas som samlas in i designskedet av systemet, alltsa innan en kund å' 511418 registrerar sig i systemet. En referensmodell kan antingen modellera I) någon förutbestämd entitet (t.ex. ”kvinnlig talare", ”talare under 16 är” eller ”samtal frán GSM-telefon") eller II) nägot som bestäms genom matematisk optimering och som därmed inte gärna kan kopplas till en specifik a priori kunskap som i fall I.
Ordna referensmodellerna i ett set med pro-modeller och ett set med anti-modeller och beräkna den totala modellens träffsannolikhet, P, så att bidrag från pro-modellerna ökar P och bidrag fràn anti-modellerna minskar P. Detta förfarande kan matematiskt uttryckas enligt ekvation (1), där fp och fa är funktioner av pro- respektive anti-modellernas bidrag och tillsammans utgör projektionsdelen av den totala modellen. fm är en funktion av delmodeller tränade pà data fràn kunden själv. Man kan ocksa använda sig av en logaritmerad variant av (l). fp(p,, pg, .. ., pM)) fa(a,, a2,. .., a P=fc(C1,C2, . . . .,CN) Om referensmodeller enligt fall I används kan man utnyttja a priori kunskap om kunden för att bygga kundens talarmodell, t.ex. kunskap om talarens kön, genom att välja rätt referensmodeller.
Exempel: för en manlig talare kan man välja en pro-modell för ”manlig talare” och en anti-modell för ”kvinnlig talare”.
Pa detta sätt kan man enkelt dra nytta av a priori kunskap dà man bygger sin talarmodell. Denna kunskap blir ett tillskott till insamlade taldata och man kan göra en bättre fungerande modell med mindre insamlade taldata frän respektive kund. Man väljer lämpligtvis komplementära referensmodeller som pro- och anti-modeller som i exemplet ovan. Pà det sättet borde man fä en stabilare, balanserad modell och man kan fä en diskriminationseffekt genom att de tvà komplementära modellerna ”drar” àt olika hall.
Den ovan nämnda ”a priori kunskapen” kan tänkas komma in i systemet i olika skeden och pà olika sätt: a) Vid (första) registreringssamtalet och därmed i samband med att den första talarmodellen byggs. Om kunden redan är 511418 registrerad i tjänsten och därför identifierar sig för sys- temet vid registreringen till talarverifieringssystemet, kan man utnyttja kundinformation som redan finns lagrad i någon databas, t.ex. kön och àlder. Om kunden inte är förregistre- rad i tjänsten kanske han/hon anger sitt personnummer vid registreringssamtalet och dà kan man fà reda pà kön genom att titta pà personnumret. Man kan också explicit fraga om kön och àlder under samtalet. b) Efter det första registreringssamtalet. Härvid har man kanske redan tagit modellen i drift och det handlar om att bygga om modellen med ny information. Informationen kan t.ex. komma fràn ett ifyllt och inskickat formulär som kunden skriver under för att få fortsätta tjänsten efter ett inledningsskede. Adaptering av talarmodell och speciellt för- ändring av topologi under dess livscykel behandlas i Telias patentansökan nr 9602622-4 avseende ”Förfarande och arrangemang för adaptering vid exemplevis talarverifierings- system” (Case 520).
I stället för att använda ren a priori kunskap kan man välja sina referensmodeller genom att beräkna en optimal uppsättning referensmodeller och tillhörande projektion pà dessa.
Det ovanstående är endast att betrakta som fördelaktiga utföringsformer av uppfinningen, och uppfinningens skyddsom- fáng definieras endast av vad som anges i de följande patent- kraven.
Claims (2)
1. l.
2. 511418 PATENTKRAV Metod vid ett talarverifieringssystem/talaridenti- fieringssystem som möjliggör för en systemoperatör att fastställa en kunds identitet medelst analys av en inspelning av kundens taldata, k ä n e t e c k n a d av -referensmodeller organiserade i en uppsättning pro-modeller och en uppsättning anti-modeller och som tränats frän tal i en databas som samlats in i designskedet av systemet, där pro-modellerna modellerar egenskaper som en talare har och anti-modellerna modellerar egenskaper som en talare saknar, varvid referensmodellernas träffsannolikhet, P, beräknas sà att bidrag fràn pro-modellerna ökar P och bidrag fràn anti- modellerna minskar P. -en talarmodell bestående av referensmodeller och en projektion pà dessa referensmodeller, -utnyttjande av denna talarmodell pä sannolikhetsbasis av nämnda talarverifieringssystem/talaridentifieringssystem för att bearbeta och dra nytta av nämnda insamlade taldata utöver de data som kunden själv pratar in vid sitt registreringssamtal, varigenom kundens identitet kan fastställas med minimalt inspelad taldata. Metod enligt patentkrav l, kännetecknad av att nämnda referensmodeller tränas att känna igen godtycklig tal- information, vilken talinformation lagrats i en databas vid designskedet av nämnda talarverifieringssystem/talaridenti- fieringssystem innan någon kund hunnit registrera sig i nämnda system. Metod enligt patentkravet 1 eller 2, kännetecknad av att nämnda totala referensmodells träffsannolikhet, dvs. total sannolikhet att en viss kund tillhör en speciell kategori, ges av formeln , pM)) , a fp(p|I pzr - - ~ P= fC(cl,c2,....,cN) fJa,,a2,... Q) 511418 Y där P motsvarar referensmodellens träffsannolikhet, Q och Q är funktioner av pro- respektive anti-modellernas bidrag som tillsammans utgör projektionsdelen av den totala modellen, och fl är en funktion av delmodeller tränade pà taldata fràn kunden själv.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9700898A SE511418C2 (sv) | 1997-03-13 | 1997-03-13 | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
DK98909925T DK1008139T3 (da) | 1997-03-13 | 1998-03-10 | Talerverifikationssystem |
JP53951598A JP2001514768A (ja) | 1997-03-13 | 1998-03-10 | 話者証明システム |
EEP199900401A EE03633B1 (et) | 1997-03-13 | 1998-03-10 | Kõneleja verifitseerimissüsteem |
EP98909925A EP1008139B1 (en) | 1997-03-13 | 1998-03-10 | Speaker verification system |
DE69828888T DE69828888T2 (de) | 1997-03-13 | 1998-03-10 | Sprecherbeweissystem |
PCT/SE1998/000432 WO1998040875A1 (en) | 1997-03-13 | 1998-03-10 | Speaker verification system |
NO19994361A NO316871B1 (no) | 1997-03-13 | 1999-09-09 | Taleverifikasjonssystem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9700898A SE511418C2 (sv) | 1997-03-13 | 1997-03-13 | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
Publications (3)
Publication Number | Publication Date |
---|---|
SE9700898D0 SE9700898D0 (sv) | 1997-03-13 |
SE9700898L SE9700898L (sv) | 1998-09-14 |
SE511418C2 true SE511418C2 (sv) | 1999-09-27 |
Family
ID=20406129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE9700898A SE511418C2 (sv) | 1997-03-13 | 1997-03-13 | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP1008139B1 (sv) |
JP (1) | JP2001514768A (sv) |
DE (1) | DE69828888T2 (sv) |
DK (1) | DK1008139T3 (sv) |
EE (1) | EE03633B1 (sv) |
NO (1) | NO316871B1 (sv) |
SE (1) | SE511418C2 (sv) |
WO (1) | WO1998040875A1 (sv) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454349B2 (en) * | 2003-12-15 | 2008-11-18 | Rsa Security Inc. | Virtual voiceprint system and method for generating voiceprints |
JP4438014B1 (ja) * | 2008-11-06 | 2010-03-24 | 株式会社ネイクス | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
KR20240008405A (ko) | 2017-04-20 | 2024-01-18 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995005656A1 (en) * | 1993-08-12 | 1995-02-23 | The University Of Queensland | A speaker verification system |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
JP3176210B2 (ja) * | 1994-03-22 | 2001-06-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識方法及び音声認識装置 |
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
AUPM983094A0 (en) * | 1994-12-02 | 1995-01-05 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
-
1997
- 1997-03-13 SE SE9700898A patent/SE511418C2/sv not_active IP Right Cessation
-
1998
- 1998-03-10 EE EEP199900401A patent/EE03633B1/xx not_active IP Right Cessation
- 1998-03-10 WO PCT/SE1998/000432 patent/WO1998040875A1/en active IP Right Grant
- 1998-03-10 JP JP53951598A patent/JP2001514768A/ja active Pending
- 1998-03-10 DK DK98909925T patent/DK1008139T3/da active
- 1998-03-10 EP EP98909925A patent/EP1008139B1/en not_active Expired - Lifetime
- 1998-03-10 DE DE69828888T patent/DE69828888T2/de not_active Expired - Fee Related
-
1999
- 1999-09-09 NO NO19994361A patent/NO316871B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
JP2001514768A (ja) | 2001-09-11 |
SE9700898L (sv) | 1998-09-14 |
EP1008139B1 (en) | 2005-02-02 |
NO994361L (no) | 1999-09-13 |
NO994361D0 (no) | 1999-09-09 |
WO1998040875A1 (en) | 1998-09-17 |
DK1008139T3 (da) | 2005-05-30 |
DE69828888D1 (de) | 2005-03-10 |
EP1008139A1 (en) | 2000-06-14 |
EE03633B1 (et) | 2002-02-15 |
SE9700898D0 (sv) | 1997-03-13 |
NO316871B1 (no) | 2004-06-07 |
EE9900401A (et) | 2000-04-17 |
DE69828888T2 (de) | 2006-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
SE511418C2 (sv) | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. | |
Naik et al. | Speaker verification over long distance telephone lines | |
CA2549092C (en) | System and method for providing improved claimant authentication | |
CN104185868B (zh) | 话音认证和语音识别系统及方法 | |
Wilpon et al. | Automatic recognition of keywords in unconstrained speech using hidden Markov models | |
Allen et al. | Automated natural spoken dialog | |
JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
JPH08512148A (ja) | トピック判別機 | |
CN104427109B (zh) | 使用语音创建联系人项的方法及电子设备 | |
TW200421263A (en) | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme | |
US20210320997A1 (en) | Information processing device, information processing method, and information processing program | |
CN109841221A (zh) | 基于语音识别的参数调节方法、装置及健身设备 | |
Vacher et al. | Smart audio sensor for telemedicine | |
CN110164438A (zh) | 一种语音识别方法、装置及电子设备 | |
CN103616962B (zh) | 一种信息处理方法和装置 | |
JPH10261083A (ja) | 個人同定装置及び個人同定方法 | |
Misbullah et al. | Voice-Zikr: A Speech Recognition System Implementation for Hands-Free Zikr Based on Deep Learning | |
WO2017094970A1 (ko) | 콜 센터 상담품질관리를 위한 콜 분류 시스템 및 방법 | |
EP0256081A1 (en) | IMPROVEMENTS TO ACOUSTIC RECOGNITION. | |
JP4098015B2 (ja) | 話者識別方法およびそのシステム、並びにプログラム | |
CN113032758A (zh) | 视讯问答流程的身份识别方法、装置、设备及存储介质 | |
JP2000181490A (ja) | 利用者照合方法および利用者照合装置 | |
Julia et al. | A speaker identification agent | |
CN109326303A (zh) | 一种语音分离方法及系统 | |
Wilkinghoff et al. | Robust speaker identification by fusing classification scores with a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NUG | Patent has lapsed |