NO974097L

NO974097L - Talegjenkjenning

Info

Publication number: NO974097L
Application number: NO974097A
Authority: NO
Inventors: Francis James Scahill; Alison Diane Simons; Steven John Whittaker
Original assignee: British Telecomm
Priority date: 1995-03-07
Filing date: 1997-09-05
Publication date: 1997-09-08
Also published as: EP0813735A1; CA2211636A1; CA2211636C; NO974097D0; MX9706407A; DE69615667T2; US5999902A; CN1150515C; JPH11501410A; WO1996027872A1; DE69615667D1; KR100406604B1; AU4887696A; NZ302748A; AU702903B2; CN1178023A; JP4180110B2; ES2164870T3; KR19980702723A; EP0813735B1

Description

Talegjenkjenneren som skal beskrives, finner sitt bruk i situasjoner hvor en gjenkjennelsesprosess skal utføres med det formål å skaffe kjennskap om hvilket av ordene, i en liste av ord (eller mer generelt ytringer), det påtrykte talesignalet klarest ligner, og informasjon om «a priori» sannsynligheter tilknyttet ordene i ordlisten er tilgjengelig.

Et eksempel på en slik situasjon er det automatiske oppslagssystemet i telefonkatalog (the automatic telephone directory enquiry system) beskrevet i vår verserende internasjonale patentsøknad nummer WO95/02524.1 denne søknadens system. (i) uttaler brukeren av systemet navnet til en by; (ii) identifiserer en talegjenkjenner, med referanse til lagrede bydata, flere byer til å ha den nærmeste likhet til det uttalte bynavn, og frembringer en «poengverdi» eller sannsynlighetsverdi som indikerer hvor nær tilpasningen er; (iii) kompileres en liste over alle gatenavn i de byene som er identifisert; (iv) uttaler brukeren navnet til en gate; (v) identifiserer talegjenkjenneren flere gatenavn av de i listen som har den nærmeste likhet til det uttalte gatenavn, igjen med sansynlighetsverdier; (vi) gis hver og en av gate-poengverdiene et vekttall i samsvar med poengverdien til byen som gaten finnes i, og det mest sannsynlige «gate»-resultatet anses å være det med den beste vektede poengverdi.

«A priori» sannsynlighetene trenger ikke å ha sin opprinnelse fra en tidligere talegjenkjenningsprosess. I for eksempel i et annet oppslagssystem for telefonkatalog, også beskrevet i den ovennevnte patentsøknad, benytter systemet signaler som identifiserer opprinnelsesstedet for et anrop til å aksessere statistisk informasjon angående de mest sannsynlige byer som er ønsket fra en spørrende bruker fra det området, til å gi vekttall til resultatene i en bynavngjenkjennings-prosess.

Denne prosessen har fordelene av pålitelighet - bibeholdelse av, for eksempel, andrevalget av by fører ikke til valg av gater i denne by uten at gateverdiene er betydelig bedre i gatenavn-gjenkjenningssteget enn for førstevalgt by. En ulempe med denne prosessen er likevel at fordi gjenkjenneren frembringer et begrenset nummer av gatenavnkandidater, ved utførelsen av gatenavn-gjenkjenningssteget, er det mulig at denne korte listen av gatenavn bare inneholder navn til gater i byer med lav sansynlighetsverdi - det vil si at gatenavn med lav sansynlighetsverdi av gater liggende i byer med høy sansynlighetsverdi allerede har blitt bortfalt i "utvelgelsen" til gjenkjenneren før vekttallene kan tilføres.

US patent 4,789,803 beskriver et talegjenkjenningsapparat der den "tidligere" sannsynligheten er relatert til en gitt sammenheng av et eller flere mønster som tidligere har blitt gjenkjent. En språkverdi som indikerer sannsynligheten av at et bestemt ord skal dukke opp etter et annet bestemt ord er her kombinert med verdien som er framkommet til en sekvens som inneholder disse ordene.

I henhold til den foreliggende oppfinnelse er det fremskaffet en metode for talegjenkjenning som omfatter: - å gjentatte ganger sammenligne deler av en ukjent ytring med referansemodeller for å generere, for alle av et flertall av lovlige sekvenser av referanseytringer definert av lagret data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger ervervet fra sammenligninger med en eller flere tidligere deler av ytringen med en referansemodell eller -modeller som korresponderer til en tidligere ytring eller ytringer i de respektive lovlige sekvensene, ekskludere fra videre sammenligning enhver sekvens som har en akkumulert måling som, i en grad definert av et forhånds-bestemt utvelgingskriterie, er mindre indikativ for likhet enn målingen for andre slike sekvenser, videre vekting av akkumulerte målinger i samsvar med vektfaktorene for hver av de lovlige sekvenser hvor vektleggingen er gjennomført ved å vekte hver kalkulasjon av en måling eller akkumulert måling for en del av en sekvens med kombinerte målinger av vektfaktorene for hver av de lovlige sekvenser som begynner med den bestemte del av sekvensen, om ikke enhver slik vektfaktor påført en måling som er generert tilsvarende en ytring eller kortere sekvens med hvilken begynner med delsekvensen.

Fortrinnsvis vil enhver sekvens som har en vektet akkumulert måling med mindre indikert likhet, bestemt av et utvelgingskriterie, ekskluderes fra videre gjentatte sammenligninger. Denne utvelgelsen kan bli utført avhenging av antall målinger som er generert og ikke ekskludere fra videre gjentatte sammenligninger, ved å prøve å holde dette antallet konstant.

I en annen utførelse av oppfinnelsen er det tilveiebrakt et talegjenkjenningsapparat som omfatter;

- lagringsmidler for å lagre data relatert til referansemodeller represen-terende ytringer og data som definerer lovlige sekvenser av referanseytringer; - sammenligningsmidler for å gjentatte ganger sammenligne deler av en ukjent ytring med en referansemodell for å generere, for hver av et flertall av lovlige sekvenser av referanseytringer definert fra de lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger fremkommet ved sammenligning av en eller flere tidligere deler av ytringen med referansemodell eller -modeller som korresponderer med en tidligere ytring eller ytringer i den respektive lovlige sekvensen; - og midler operable til å vekte de akkumulerte målinger i samsvar med vektfaktorene for hver av de lovlige sekvenser hvor de vektleggende midler er operable til å vekte en måling eller akkumulert måling for en delsekvens med kombinerte verdier av de respektive vektfaktorene for hver av de lovlige sekvenser som begynner med den partielle sekvensen, om ikke enhver slik vektfaktor tilført en generert måling i respekt til en ytring eller kortere sekvens som starter med denne delsekvensen.

I enda en utførelse gir foreliggende oppfinnelsen metode til talegjenkjenning med referanse til lagret data som definerer korresponderende referansemodeller til lyder og lagret data som definerer lovlige sekvenser av slike modeller, hver korresponderende sekvens til å bli gjenkjent, videre at metoden omfatter å sammenligne deler av en ukjent ytring med referansemodeller for å oppdatere målinger som indikerer likheten mellom tidligere deler av ytringen og en delvis lovlig sekvens for å produserer oppdaterte målinger som indikerer likheten mellom en lengre del av ytringen og lengre delvis lovlige sekvenser; identifisere de delsekvenser der målingene representerer mindre en definert grad av likhet; undertrykke en videre generering av målinger tilhørende enhver sekvens eller delsekvens som begynner med en av de identifiserte delsekvensene,karakterisertved at identifiseringen er gjennomført ved å sammenligne målingene med en terskelverdi og at denne terskelverdien gjentatte ganger er justert avhenging av antall genererte målinger og ikke undertrykt, for å oppnå et konstant antall.

I enda en utførelse gir oppfinnelsen en metode for å tilføre en vektfaktor til hver node i et talegjenkjenningsnettverk som er representert ved et flertall av lovlige sekvenser av referanseytringer, nevnte metode omfattende: - for hver node å kombinere verdiene av vektfaktoren(e) for hver lovlig sekvens eller de lovlige sekvensene som begynner med en delsekvens inkludert i noden, med unntak av enhver vektfaktor som er tilført en ytring eller kortere sekvens lik begynnelsen av delsekvensen.

Vektfaktorene kan bli generert i det logaritmiske domene hvor logaritmen av de gitte vektfaktorene er tildelt de siste nodene i nettverket som korresponderer med de lovlige sekvensene. Hver etterfølgende node er så tildelt en logaritmisk sansynlighetsverdi som er det maksimale av verdiene tildelt til etterfølgende node eller noder. Verdien tildelt den neste etterfølgende node er fratrukket verdien til noden.

Nodene kan være assosiert med modeller som representerer referanseytringer og parametrene til de assosierte modellene kan være modifisert for å reflekterer vektfaktorene tildelt hver node.

Oppfinnelsen er spesielt anvendelig i et gjenkjenningsnettverk som har en tre-struktur med minst en node, foruten den første, med mer enn en gren.

Noen utforminger av oppfinnelsen skal i det følgende forklares nærmere under henvisningen til tegningene som inneholder følgende figurer: fig. 1 viser et blokkdiagram til en anordning tilsvarende en utførelsesform av den foreliggende oppfinnelsen;

fig. 2 viser et illustrasjon av et nettverk med "Hidden Markov" modeller,

fig. 3 viser innholdet i symbollageret fra Fig. 1,

fig. 4 illustrerer tilføringen av vektallene av anordningen fra Fig. 1,

fig. 5 viser innholdet i nodelageret fra Fig. 1,

fig. 6 er et flytdiagram som illustrerer operasjonen til Fig. 1,

fig. 7 viser innholdet i ordlistelageret i Fig. 1 og

fig. 8 illustrerer en alternativ vektleggingprosess til den i Fig. 4.

I prinsippet er det to fremgangsmåter for talegjenkjenning; parallellproses-sering, hvor hver ytring (f.eks. et ord) suksessivt sammenlignes med referanse-måter eller modeller for å identifisere en eller flere av de mest like, og treproses-sering hvor en del av ytringen (f.eks. et fonem) blir sammenlignet med referanse-måter eller modeller («modeller» er her brukt som fellesbetegnelse) for å identifisere den delen, den neste del er så subjekt i en lignende prosess.

En utførelse ved bruk av en trestruktur skal nå beskrives.

Talegjenkjenneren fra fig.1 har en innport fortalesignaler som blir konvertert til digital form av en analog-til-digital omformer 2. Det digitaliserte signalet blir så tilført en "særpreg uttrekker" 3 som for hver suksessive tidsramme, av for eksempel 10 ms varighet, kalkulerer et antall av parametre eller "særpreg". Ethvert konvensjonelt benyttet "særpreg" kan bli valgt, for eksempel "Mel frequency cepstral coefficients" eller "Linear Prediction Coefficients".

Antallet mulige særpregverdi-kombinasjoner per ramme er temmelig stort. For å redusere den etterfølgende prosessering til en overkommelig størrelse er det vanlig å benytte vektor kvantetisering, det vil si å sammenligne settene av særpreg til et av et begrenset antall m av standart særpreg kombinasjoner (vv v2...vm). Dette er gjennomført med en vektorkvantetiserer 4 for å produsere et nummer eller en "observasjon" Oj (for den j'te ramme). Dette er så tilført til en "klassifiserer" 5 som i generelle vendinger sammenligner observasjonssekvensen [Oj]mot et sett av modeller lagret i et modellager 6. Hver modell tilsvarer et forskjellig underord, for eksempel et fonem. Klassifisereren 5 består av en sentral prosessor (CPU) 51, kontrollert av et lagret program i et programlager 52, et nodelager 53 og et symbollager 54. Klassifisereren utfører en klassifiserings-prosess ved å bruke "Hidden Markov" modeller hvilke prinsipper herunder skal beskrives.

En "Hidden Markov" modell som konsept er en svart boks (black box) som har et antall n av mulige tilstander og som ved regulære intervaller kan gå fra en tilstand til en annen, eller alternativt forbli i den samme tilstand, alt i samsvar med en sannsynlighetsparameter: Sannsynligheten for overgang fra tilstand i til tilstand j er a,j, mens sannsynligheten for å forbli i tilstanden i er aH. Av dette følger at:

På grunn av den temporære orden av talelyder er en venstre-høyre modell generelt benyttet der ay er ikkenull bare for 0 < j - i < 1.1 enhver bestemt tilstand er et utsignal produsert som kan være et av et bestemt antall m av mulige utsignal, for eksempel v 1 , v 2 ...v m, i samsvar med et andre sett av sannsynligheter, I denne sammenhengen identifiserer vk et spesielt sett av talesærpreg. Sannsynligheten for å produsere utsignal vk i tilstand j er bjk. Altså:

En tredje parameter er sannsynligheten for å starte i en spesiell tilstand.

Sannsynligheten for å starte i tilstandi er n

Dermed består modellen av parametersettet

og et sett av regler som kan bli tilført til parameterene for å produsere en utsignal sekvens. Faktum er likevel at modellen ikke eksisterer, og ikke blir utsignal sekvensen noen gang produsert. I stedet er talegjenkjenningsproblemet formulert som spørsmålet: "Gitt en sekvens av flere v som hver representerer et observert sett av talesærpreg. Hva er da sannsynligheten P for at modellen M definert av A, B og n kan produserer denne sekvensen (observasjonssekvensen)?"

Om dette spørsmål blir stilt for et antall av forskjellige modeller som hver representerer for eksempel et forskjellig fonem, da blir fonemet, representert av modellen, som har den høyeste sannsynlighet antatt å være det som er gjenkjent.

Antar så at sekvensen av observasjoner er 0^ 02... 0T over tiden t=1 til t=T. Sannsynligheten aT(j) til å nå tilstand j med denne observasjon er da gitt av den rekursive formelen;

Sannsynligheten for at den observerte sekvensen O blir produsert av modellen M er Dette er sannsynligheten for observasjonssekvens O når alle mulige tilstandssekvenser er overveiet. I praksis, for å redusere mengden av beregninger, er det vanlig å benytte Viterbi algoritmen og beregne sannsynligheten assosiert med den tilstandssekvensen som har den høyeste sannsynlighet for å produsere observasjonssekvensen. I dette tilfellet blir ligningene 1 til 3 erstattet av ELLER i logaritme domenet

Modellageret 6 inneholder verdiene til A, B og Pl for hvert fonem i det relevante språk (sammen blir disse referert til som modellen M). Trenings-prosessen for å generere parametrene til modellen er konvensjonell og vil ikke bli beskrevet videre. Som referanse kan anføres "Hidden Markov Models for Automatic Speech Recognition: Theory and Application" S.J. Cox, British Telecom Technology journal Vol. 6, No. 2, April 1988. Gjenkjenningen av et fonem i en bestemt observasjonssekvens O utføres ved å beregne Pr<v>(0|mi) for hver modell M, ... MQ(hvor Q er antallet av modeller). Fonemet som tilsvarer den modell som produserer høyest Prv, er det fonemet som antas være det gjenkjente.

Selvfølgelig må hele ord gjenkjennes for praktiske formål. Denne prosessen kan bli visualisert i form av et nettverk eller en trestruktur som har et antall av noder. Denne strukturene eksisterer kun på den måte at hver node korresponderer til et respektivt areal i minnet, som vil bli vist senere.

Fig. 2 viser et enkelt nettverk for å viser skillet mellom ordene "yes" (ja) og "no" (nei), hvilke fonetiske representasjoner er notert som {yKehKs} og {n}{ow}.

Node 10 og siste node 16 i Fig. 2 samhører hver til en støymodell (generelt; - en 1-tilstandmodell). Disse representerer "stillheten" i forkant og i ettertid. De gjenværende nodene foruten den siste samsvarer med et fonem slik som indikert. For eksempel tilsvarer node 11 fonemet [y] i ordet "yes".

Under drift mottar en node et symbol som inneholder den følgende informasjon som vist i fig. 3:

akkumulert sannsynlighetsverdi fra forrige node,

identitet (adresse i nodelager) til forrige node,

identitet (adresse i symbollager) til symbolet mottatt av den foranliggende node som gav tillegg til symbolet,

symbolet inneholder også et aktivt/ikke-aktivt flagg hvilket bruken av vil bli beskrevet senere.

Alle slike symboler er lagret i symbollageret 54 som fremtidig referanse.

Den første node blir tilført tomme symboler i rammehastighet. Et symbol som ankommer enhver node inneholder en verdi som indikerer sannsynligheten (helt korrekt, logaritmen til sannsynligheten) at talesignalet (input) til nå samsvarer til modellene assosiert med nodene i stien til den samme noden. Slik vil et symbol som ankommer node 13 inneholde en verdi som indikerer sannsynligheten at den til nå samsvarer med ytringen {yKeh}. Oppgaven assosiert med noden er å sammenligne et nytt tale-inn-signalramme med dets modell. Dette er gjort med å utføre kalkulasjonene i ekvasjonene 7 til 9 på den nye rammen for å oppnå sannsynligheten Prv som igjen er addert til den innkommende verdi for å få en oppdatert verdi. Et nytt symbol blir så utsignal inneholdende denne verdien og sendt til neste node. Vanligvis blir verdien akkumulert over et antall av rammer likt antallet av tilstander i dens modell (typisk 3) før symbolet blir sendt. Etter dette blir et symbol produsert for hver ramme. Om noden mottar et annet symbol mens det fremdeles prosesserer det første, sammenligner noden verdien fra det andre symbol med den siste verdi av den første (logaritmen av Prv oppdatert pluss den innkommende symbolverdi) og ignorerer det nye symbolet eller avslutter den pågående prosess i favør av det nye symbolet i samsvar om det andre symbolets verdi er det laveste eller det høyeste av de to.

I eksempelet som er gitt konvergerer ikke stien unntatt ved den siste noden. Om konvergerende stier er tillatt vil sannsynligheten av samtidige ankomster av to symboler vanligvis bli avgjort ved å ignorere den med den laveste verdi. Utbredelse av multiple stier er likevel mulig.

Ved den siste noden 16 er det mulig å forkaste alle unntatt den med høyeste verdi av konvergerende stier. Men for mange utførelser er det å foretrekke å beholde to eller flere. Midler er også innbefattet for å avslutte utbredelsen av symbol som bærer verdier som er så lave at de er dømt til ikke å ha noen sjanse til å resultere i en god verdi ved den siste noden. Denne utvelgelsesprosessen vil bli beskrevet lengre frem i beskrivelsen. Stien gjennom nettverket kan bli identifisert for å gjenvinne fonemet som er dømt til å bli gjenkjent ved å spore opp det suksessrike symbolets sekvens tilbake fra utsymbolet (eller symbolene) ved å benytte "tidligere symbol"-adressene for å identifiserer symbolene i symbollageret.

Det skulle kanskje nevnes at HM modellene inkorporert i trestrukturen kan bli sett på som en eneste stor modell.

Fram til dette punkt i beskrivelsen er gjenkjenneren i generelle vendinger konvensjonell. De neste utførelser av gjenkjenneren som nå skal beskrives har formålet å utbre (propagere) "tidligere" sannsynligheten opp gjennom gjenkjenningstreet. Ta i betraktning fig. 4 for å skille mellom ordene "eat", "cab", "cob", "dog" og "den". Anta at som et resultat av noen tidligere prosesser er den "tidligere" sannsynlighet av disse utfall representert av vektallene 0.5, 0.2, 0.3, 0. og 0.1. Dette betyr at verdienes input ved nodene 23, 24, 26, 29 og 31 trenger å bli vektet med disse verdiene før de neste avgjørelser er tatt. Vektingen blir tilført hver node i treet som følger. Sannsynligheten for at ordet er "eat", "cab" eller "cob" er således representert med vekttallet 0.5 + 0.2 + 0.3 =1.0, mens den tilsvarende verdi for "dog" eller "den" er 0.1 + 0.1 = 0.2. Som en konsekvens vil verdien inn til node 21 bli vektet med faktoren 1.0 og verdiene inn til node 27 vektet med faktoren 0.2. Verdiene assosiert med "eat" eller "cab" på en hånd og "cob" på den andre, er 0.7 og 0.3 respektivt, slik at innverdiene til nodene 22 og 25 trenger å bli passende vektet. En faktor på 1.0 har imidlertid allerede blitt tilført til denne grenen av node 21, slik at vektingen ved nodene 22 og 25 er

Vekting ved node

Vekting ved node Tilsvarende får vi ved nodene 23 og 24 Vekting ved node Vekting ved node

Ved nodene 28 og 30 blir vektingen

Selvfølgelig er treet i fig. 4 mer som en konseptuell representasjon av prosessen. I virkeligheten er hver node representert av en lagercelle i nodelageret (som vist i fig. 5) inneholdene den følgende informasjon;

adressen (i modellageret) av modellen som skal benyttes;

adressen av neste node(r) i nettverket;

et flagg som indikerer om noden er aktiv eller ikke;

en logaritmisk verdi som indikerer vektingen assosiert med denne

node;

et temporært lager til resultatene av kalkulasjonene.

Inneholdet i de første to adresser er fastlagt når ordlisten til gjenkjenneren er oppsatt. Denne prosessen er utført med referanse til et ordlistelager 7 (fig. 1) som inneholder en liste av ord som skal gjenkjennes og, for hver, en streng av adresser som identifiserer sekvensen av fonem modeller som korresponderer til lyden av det ordet (se også fig. 7). Genereringen av nodelagerets innhold er konvensjonelt (unntatt for det med logaritmiske vektverdier som beskrevet under). Genereringen inkluderer innsetting av nodens adressesekvens i ordlistelageret som korresponderer til hvert ord.

Den sentrale prosesseringsenheten (CPU) 51 utfører den følgende prosess under kontroll av et program lagret i programlageret 52 som vist i flytskjemaet i fig. 6: Først lage et tomt symbol som input til den første node (de første nodene) - f.eks. lagre en nullverdi i symbollageret (f.eks. log(1)) og et null som sendenode-adresse (med dette menes at symbolet skal prosesseres av den første noden) og tiden for neste ramme. Disse første nodene (Denne første noden) skal så anses som "aktiv".

Så skal, ved hver rammeperiode, de følgende steg utføres:

For hver aktive node:

om en HMM prosess er blitt påbegynt og ikke noe symbol er generert som skal håndteres av noden under første rammetid blir HMM prosessen oppdatert ved å benytte den nåværende ramme observasjon O. Om prosessen har nådd n rammer (hvor n er antallet tilstander i den aktuelle HMM assosiert med noden), adder logaritmen til "tidligere" sannsynlighet lagret i noden til den kalkulerte sannsynlighetsverdien og lag en ny inntreden i symbollageret med resultatene (noter at den nåværende prosess likevel kan fortsette inntil neste ramme);

Om ingen prosess har blitt påbegynt og et symbol som skal behandler av noden ble generert under siste ramme, (Det aktive flagg har akkurat blitt satt) begynn en ny HMM prosess ved å bruke nåværende rammeobservasjon 0.1 tilfelle av et enkelttilstands HMM, lag et ny inntreden i symbollageret med resultatet; (noter at pågående prosess kan fortsette inntil neste ramme);

Om en prosess har startet og et symbol som skal behandles av noden ble generert; sammenlign den innkommende verdi og de interne verdier og, avhengig av resultatet, fortsett prosessen som oven nevnt, enten uten endring eller med den innkommende verdi som input til første tilstand,

For hvert symbol som er generert

hent adressen til utstedende node fra symbolverdien;

hent adressene i 'neste symbol' feltet fra symbollageret for den

utstedende node;

sett hvert flagg i hver slik node til 'aktiv' for neste ramme.

Om en ny inntreden i symbollageret har blitt opprettet:

Om den assosierte verdi er større enn en lagret "maksimal verdi for alle symboler"-verdi, oppdater denne verdien; om den assosierte verdi er mindre enn den lagrede "maksimal verdi for alle symboler"-verdi med mer enn en på forhånd bestemt margin (f.eks. 50), slett symbol feltet ("utvelgingssteget"). Om dette resulterer i at ingen noder har input symbol eller utverdi skal den deaktiveres (f.eks. slett symbollager feltet).

Ved den siste node:

Avgjørelsen om når gjenkjennelsen er komplett og tilbaketracing av gjenkjenningsstien kan begynne er basert på et system der de spesifikke målinger er sjekket mot et sett med regler og terskelverdier. Således blir det beste symbolet i den siste noden for hver ramme undersøkt for å finne hvor mange rammer som er benyttet i den siste "støy"-noden (Antar at alle stier i nettverket har en "støy"-node som siste node). Om varigheten er lenger enn en terskel og stiens verdi er bedre enn en annen terskel skal gjenkjenningen stoppes (f.eks. kan vi vente inntil gjenkjenningsverdien for en komplett sti er god nok og når stien inneholder en bra nok verdi av støy på enden, typisk 20 rammer (0.32 sekund)). Dette er den enkleste beskrivelse av en "taleslutt"-deteksjonsalgoritme. I praksis kan algoritmen bli utfylt med tilleggssjekking av SNR (Signal til Støy-forhold) av det oppdaterte signalet og variasjonene i støyenergi. Det er også et antall "timeouts" for å forsikre åt talesluttdeteksjonen vil bli trigget til slutt, i tilfelle fremgangsmåten beskrevet over fortsetter å feile.

Så, for hvert av de symboler med høyest verdi, eller for hver av Nout - symboler med høyes verdi, hvor Nout er det ønskede antall av ut-valg: - (a) Gjenfinn "tidligere adresse" og dens assosierte modell identifiserer symbolet; - (b) Gjenfinn "tidligere symbol" inntreden;

- (c) Gjenta (a) og (b) inntil alle modellene er blitt identifisert.

De gjenkjente ord sammen med deres assosierte verdi er nå tilgjengelig.

Beskrivelsen over er av gjenkjenningsprosessen. Før en slik prosess kan

starte er det nødvendig å lagre "a priori"-sannsynligheten i nodelageret. Anta at en tidligere gjenkjenningsprosess har generert "a priori"-verdier i formatet vist i Fig. 7, hvor hver av et antall av bynavn (som eksempel) har en sannsynlighet tildelt. Den sentrale prosessoren (52) utfører den følgende oppsettingsprosess for å gi noden "a priori"-sannsynlighetsverdi.

Først er det nødvendig å oversette ordene til nodesekvenser, med referanse til ordlisten 7 slik at det totale av logaritmen til "a priori"-verdiene for hver node er kjent for hver mulig sti gjennom gjenkjenningstreet. Det er så nødvendig å kalkulere de individuelle verdiene for hver node, slik gjort i illustrasjonen på Fig. 4, som følger: (a) Tildel de gitte sannsynlighetsverdier til den siste noden som korresponderer til de respektive ord; (b) ved å gå fra høyre til venstre (som vist i Fig. 4), tildel hver node en sannsynlighetsverdi som er summen av de verdier tildelt noden som følger den (den første noden som er tatt i Fig. 4 har tildelt verdi '1'); (c) fremdeles fra venstre til høyre skal sannsynlighetsverdien for hver node deles med verdien som er tildelt noden foran;

(d) ta logaritmen av alle verdiene.

I praksis en lettere kalkulerbar teknikk er benyttet med logaritmiske verdier helt gjennom der maksimalverdi er hentet i stedet for sum. Som følger slik vist i fig. 8: (a) Tildel den gitte logaritmiske sannsylighetsverdi til den siste node som korresponderer med de respektive ord; (b) tildel hver node en logaritmisk sannsynlighetsverdi som er det maksimale av verdiene tildelt noden eller nodene som følger etter (tildel 'null' til den første noden);

(c) trekk fra verdien for hver node verdien tildelt noden foran.

Beregningene på linker som ikke har grender (vist i klammeparantes) trenger selvfølgelig ikke å utføres.

I den ovennevnte beskrivelsen er det primære kriterium at symboler er slettet om de inneholder verdier som faller under en terskel, det vil si en andel av 'beste sti'-verdi til enhver tid. Siden logaritmiske sannsynligheter er benyttet er sammenligningen faktisk gjort mellom den logaritmiske verdi og den beste logaritmiske verdi minus en fast marginal verdi som er satt for å gi den beste gjennomsnittlige ytelse.

Det optimale utvelgingsnivå som benyttes vil likevel i praksis avhenge av de uttalte ytringer. I en modifikasjon er utvelgelsen derfor justert som en funksjon av den nåværende kalkuleringsbyrde på datamaskinen. For eksempel kan det være justert i forhold til nummeret av aktive noder, slik at; 1. Om bare et fåtall noder er aktiv blir utvelgingsterskelen mindre og flere noder forblir aktive som igjen leder til potensielt høyere nøyaktighet. 2. Om mange noder er aktive vil utvelgingsterskelen bli høyere som igjen fører til et redusert antall kalkulasjoner.

En mulig implementasjon av detter er for å justere terskelen til å holde antall aktive noder omlag konstant, slik at antallet aktive noder na for hver tidsramme er sammenlignet med et ønsket mål nt (f.eks. 1300). Terskelmarginen MT er tillatt å variere fra en startverdi M0(f.eks. 100) og mellom en nedre verdi Mmin(f.eks. 75) og en øvre verdi Mmax(f.eks. 150), men en stegverdi Ms(f.eks. 2). De følgende steg utføres i hver tidsramme.

Andre kriterier kan også bli anvendt, for eksempel kan avgjørelsen være basert på antall aktive modell-tilstander eller (spesielt i gjenkjennere med veldig store ordlister) antall aktive ord.

Denne dynamiske terskeljusteringen kan også bli benyttet i systemer som ikke har "a priori"-vekting.

Gjenkjenneren som er beskrevet over er en som er begrenset til å ha bare et begrenset nummer M av mulige observasjoner generert i en bestemt tilstand. Om ønsket kan sannsynligheten bjk likevel bli byttet ut med en kontinuerlig sannsynlighetstetthet b,(0) som har en verdi for enhver observasjon O. som kjent kan en generell kontinuerlig sannsynlighetstetthet suksessivt bli antatt av en vektet sum (eller miks) av et diskret antall av kontinuerlige funksjoner med en fastlagt form - vanligvis en Gaussisk fordeling. Slik blir sannsynlighetstetthets-funksjonen:

hvor X er antallet komponenter (eller "moder") i blandingen, er vektingen av modus x i tilstand j og N[0,|i)xlUjx]er sannsynligheten forv å trekke en vektor O fra en multivariabel normal-fordeling med middelvektor |ijxog kovariansmatrise Ujx.

For en Gaussisk fordeling:

hvor d gir størrelsen på vektorene. Om U er en diagonal matrise med termene a, blir redusert til

hvor v, er elementene i O.

Gjenkjenningsprosessen med ligningene 1 til 9 er uforandret bare definisjonen av b er forskjellig. Treningsprosessene for slike kontinuerlige tetthetsmodeller er kjent og vil derfor ikke bli beskrevet her.

Parallellprosesseringsmetoden er enklere enn tre-prosesseringsmetoden hittil beskrevet. En typisk slik prosess som involverer utvelgelsen inkluderer vedlikehold av en oppdatert liste av f.eks. de seks 'beste' kandidater mens modellene er undersøkt. For eksempel: (a) Sammenlign de ukjente ord med de første seks modeller og generer en list av disse modellene mens en "likhetsverdi" for hver blir tatt opp; (b) sammenlign de ukjente ord med en annen modell. Om verdien som er fått er høyere - altså mer indikerende av likhet - enn noen annen i listen skal den nye modellen og verdien erstatte den med lavest verdi i listen; (c) gjenta steg (b) inntil alle modellene har blitt prosessert. Denne prosessen resulterer i en liste med de seks modellene med høyeste verdi. Om "a priori"-sannsynlighet er tilført før valget av de beste kandidatene er hver av de seks verdien multiplisert med den relevante vektfaktor og kandidaten med den høyeste vekt er valgt. - - I den foreslåtte metoden er vektingen tilført under gjenkjenningsprosessen selv, det vil si; (a) sammenlign de ukjente ord med de første seks modellene mens en likhetsverdi er generert for hver. Multipliser verdi med vektingsfaktoren for den respektive modell. Lag en liste av disse modellene mens en vektet verdi blir lagret for hver; (b) sammenlign de ukjente ord med en annen modell. Multipliser verdien med en vektfaktor for denne modellen. Om den nye vektede verdi er høyere en noen i listen erstatt modellen med lavest verdi med den nye modellen og dens vekting. (c) gjenta steg (b) inntil alle modellene har blitt prosessert.

Claims

1. Fremgangsmåte for talegjenkjenning, karakterisert ved å sammenligne en del av en ukjent ytring med referansemodeller for å generere en måling av likhet, å sammenligne gjentatte ganger ytterligere deler av den ukjente ytring med referansemodeller for å generere for hver av et flertall tillatte sekvenser av referanseytringer definert av lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger oppnådd ved sammenligning av en eller flere tidligere deler av ytringen med en referansemodell eller -modeller som tilsvarer en tidligere ytring eller tidligere ytringer i de respektive tillatte sekvens; og å vekte de akkumulerte målinger i samsvar med vektfaktorer for hver av de tillatte sekvenser, hvor vektingen utføres ved å vekte hver beregning av en måling eller akkumulert måling for en delsekvens med kombinerte verdier av vektfaktorene for hver av de tillatte sekvensene som starter med denne delsekvensen, minus enhver slik vektfaktor som tilføres en måling generert med hensyn til en ytring eller kortere sekvens som denne delsekvensen starter med.

2. Fremgangsmåte i henhold til krav 1, karakterisert ved å ekskludere fra videre gjentatte sammenligninger enhver sekvens som har en vektet akkumulert måling som er, i en grad definert av et beskjærings-kriterium, mindre indikerende for likhet enn målingene for andre slike sekvenser.

3. Fremgangsmåte i henhold til krav 2, karakterisert ved at beskjærings-kriteriet gjentatte ganger justeres avhengig av antall målinger som genereres og ikke ekskluderes fra videre gjentatte sammenligninger, for å forsøke å holde antallet målinger konstant.

4. En talegjenkjenningsanordning, karakterisert ved at den omfatter - lagringsmidler for å lagre data relatert til referansemodeller som representerer ytringer og data som definerer lovlige sekvenser av referanseytringer, - sammenligningsmidler for gjentatte ganger å sammenligne deler av en ukjent ytring med referansemodeller for å generere, for hver av et flertall av lovlige sekvenser av referanseytringer definert av lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet, inkludert bidrag fra tidligere genererte målinger framkommet ved sammenligning av en eller flere tidligere deler av ytringen med en referansemodell eller referansemodeller som tilsvarer en tidligere ytring eller tidligere ytringer i den respektive lovlige sekvensen, og - midler for å vekte de akkumulerte målingene i samsvar med vektfaktorer for hver av de lovlige sekvensene, hvor vektingsmidlene kan fungere ved å vekte en måling eller akkumulert måling for en delsekvens med kombinerte verdier av vektfaktorene for hver av de lovlige sekvensene som starter med denne delsekvensen, minus enhver slik vektfaktor som tilføres en måling generert med hensyn til en ytring eller kortere sekvens som denne delsekvensen starter med.

5. Anordning i henhold til krav 4, karakterisert ved midler for å ekskludere fra videre gjentatte sammenligninger enhver sekvens med en vektet akkumulert måling som, i en grad definert av et på forhånd bestemt beskjærings-kriterium, er mindre indikerende for likhet enn målingene for andre slike sekvenser.

6. Anordning i henhold til krav 5, karakterisert ved at beskjærings-kriteriet justeres gjentatte ganger avhengig av antall målinger som er generert og ikke ekskludert fra videre gjentatte sammenligninger, for å forsøke å holde antall målinger konstant.

7. Fremgangsmåte for talegjenkjenning ved referanse til lagrede data som definerer referansemodeller som tilsvarer lyder og lagrede data som definerer lovlige sekvenser av slike modeller, der hver sekvens tilsvarer en ytring som skal gjenkjennes, hvor fremgangsmåten omfatter å sammenligne deler av en ukjent ytring med referansemodellene for å oppdatere målinger som indikerer likheten mellom en tidligere del av ytringen og en delvis lovlig sekvens for å frembringe oppdaterte målinger indikerende likhet mellom en lengre del av ytringen og lengre, lovlig delsekvens; å identifisere de delsekvensene som har målinger som representerer mindre enn en definert grad av likhet, og å undertrykke videre generering av målinger som angår enhver sekvens eller delsekvens som starter med en av de identifiserte delsekvensene, karakterisert ved at identifikasjonen gjennomføres ved å sammenligne målingene med en terskelverdi, og at terskelverdien gjentatte ganger justeres avhengig av antall genererte og ikke undertrykte målinger, for å forsøke å holde antallet konstant.

8. Fremgangsmåte for å tilordne en vektfaktor til hver node i et talegjenkjenningsnettverk som representerer en rekke av lovlige sekvenser av referanseytringer, karakterisert ved - for hver node å kombinere verdiene av vektfaktoren(e) for hver lovlig sekvens som starter med en delsekvens som inkorporerer noden, minus en hvilken som helst vektfaktor som tilføres en ytring eller kortere sekvens som starter med den delsekvensen.

9. Fremgangsmåte i henhold til krav 8, karakterisert ved - å tilordne logaritmen av de gitte vektfaktorer til de siste noder i nettverket som tilsvarer de lovlige sekvenser, - å tilordne til hver foranliggende node en logaritmisk sannsynlighetsverdi som er det maksimale av de verdier som tilføres noden eller nodene som følger den; og - å trekke fra verdien for hver node, verdien som tilordnes noden foran.

10. Fremgangsmåte i henhold til krav 8 eller 9, karakterisert ved at nodene assosieres med modeller som representerer referanseytringer, og at parametere i de assosierte modellene modifiseres for å reflektere vektfaktoren tilordnet hver node.

11. Fremgangsmåte i henhold til krav 8, 9 eller 10, karakterisert ved at gjenkjenningsnettverket har en trestruktur hvor minst én node bortsett fra den første, har mer enn én forgrening.

12. Fremgangsmåte for talegjenkjenning, karakterisert ved at det benyttes et nettverk som inkorporerer vektfaktorer dannet ved hjelp av fremgangsmåten i henhold til krav 8, 9, 10 eller 11.

13. Fremgangsmåte for talegjenkjenning, karakterisert ved at den inneholder data relatert til et nettverk inneholdende vektfaktorer dannet ved hjelp av fremgangsmåten i henhold til krav 8, 9, 10 eller 11.

14. Fremgangsmåte for å tilordne vektfaktorer, karakterisert ved at det er en metode som her tidligere beskrevet med referanse til de medfølgende figurer.

15. Fremgangsmåte for talegjenkjenning, karakterisert ved at det er en metode som her tidligere beskrevet med referanse til de medfølgende figurer.

16. En talegjenkjenningsanordning, karakterisert ved en anordning som her tidligere beskrevet med referanse til de medfølgende figurer.