NO974097L - Talegjenkjenning - Google Patents

Talegjenkjenning

Info

Publication number
NO974097L
NO974097L NO974097A NO974097A NO974097L NO 974097 L NO974097 L NO 974097L NO 974097 A NO974097 A NO 974097A NO 974097 A NO974097 A NO 974097A NO 974097 L NO974097 L NO 974097L
Authority
NO
Norway
Prior art keywords
node
measurements
utterance
sequences
sequence
Prior art date
Application number
NO974097A
Other languages
English (en)
Other versions
NO974097D0 (no
Inventor
Francis James Scahill
Alison Diane Simons
Steven John Whittaker
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecomm filed Critical British Telecomm
Publication of NO974097D0 publication Critical patent/NO974097D0/no
Publication of NO974097L publication Critical patent/NO974097L/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Feedback Control In General (AREA)
  • Computer And Data Communications (AREA)
  • Selective Calling Equipment (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephonic Communication Services (AREA)

Description

Talegjenkjenneren som skal beskrives, finner sitt bruk i situasjoner hvor en gjenkjennelsesprosess skal utføres med det formål å skaffe kjennskap om hvilket av ordene, i en liste av ord (eller mer generelt ytringer), det påtrykte talesignalet klarest ligner, og informasjon om «a priori» sannsynligheter tilknyttet ordene i ordlisten er tilgjengelig.
Et eksempel på en slik situasjon er det automatiske oppslagssystemet i telefonkatalog (the automatic telephone directory enquiry system) beskrevet i vår verserende internasjonale patentsøknad nummer WO95/02524.1 denne søknadens system. (i) uttaler brukeren av systemet navnet til en by; (ii) identifiserer en talegjenkjenner, med referanse til lagrede bydata, flere byer til å ha den nærmeste likhet til det uttalte bynavn, og frembringer en «poengverdi» eller sannsynlighetsverdi som indikerer hvor nær tilpasningen er; (iii) kompileres en liste over alle gatenavn i de byene som er identifisert; (iv) uttaler brukeren navnet til en gate; (v) identifiserer talegjenkjenneren flere gatenavn av de i listen som har den nærmeste likhet til det uttalte gatenavn, igjen med sansynlighetsverdier; (vi) gis hver og en av gate-poengverdiene et vekttall i samsvar med poengverdien til byen som gaten finnes i, og det mest sannsynlige «gate»-resultatet anses å være det med den beste vektede poengverdi.
«A priori» sannsynlighetene trenger ikke å ha sin opprinnelse fra en tidligere talegjenkjenningsprosess. I for eksempel i et annet oppslagssystem for telefonkatalog, også beskrevet i den ovennevnte patentsøknad, benytter systemet signaler som identifiserer opprinnelsesstedet for et anrop til å aksessere statistisk informasjon angående de mest sannsynlige byer som er ønsket fra en spørrende bruker fra det området, til å gi vekttall til resultatene i en bynavngjenkjennings-prosess.
Denne prosessen har fordelene av pålitelighet - bibeholdelse av, for eksempel, andrevalget av by fører ikke til valg av gater i denne by uten at gateverdiene er betydelig bedre i gatenavn-gjenkjenningssteget enn for førstevalgt by. En ulempe med denne prosessen er likevel at fordi gjenkjenneren frembringer et begrenset nummer av gatenavnkandidater, ved utførelsen av gatenavn-gjenkjenningssteget, er det mulig at denne korte listen av gatenavn bare inneholder navn til gater i byer med lav sansynlighetsverdi - det vil si at gatenavn med lav sansynlighetsverdi av gater liggende i byer med høy sansynlighetsverdi allerede har blitt bortfalt i "utvelgelsen" til gjenkjenneren før vekttallene kan tilføres.
US patent 4,789,803 beskriver et talegjenkjenningsapparat der den "tidligere" sannsynligheten er relatert til en gitt sammenheng av et eller flere mønster som tidligere har blitt gjenkjent. En språkverdi som indikerer sannsynligheten av at et bestemt ord skal dukke opp etter et annet bestemt ord er her kombinert med verdien som er framkommet til en sekvens som inneholder disse ordene.
I henhold til den foreliggende oppfinnelse er det fremskaffet en metode for talegjenkjenning som omfatter: - å gjentatte ganger sammenligne deler av en ukjent ytring med referansemodeller for å generere, for alle av et flertall av lovlige sekvenser av referanseytringer definert av lagret data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger ervervet fra sammenligninger med en eller flere tidligere deler av ytringen med en referansemodell eller -modeller som korresponderer til en tidligere ytring eller ytringer i de respektive lovlige sekvensene, ekskludere fra videre sammenligning enhver sekvens som har en akkumulert måling som, i en grad definert av et forhånds-bestemt utvelgingskriterie, er mindre indikativ for likhet enn målingen for andre slike sekvenser, videre vekting av akkumulerte målinger i samsvar med vektfaktorene for hver av de lovlige sekvenser hvor vektleggingen er gjennomført ved å vekte hver kalkulasjon av en måling eller akkumulert måling for en del av en sekvens med kombinerte målinger av vektfaktorene for hver av de lovlige sekvenser som begynner med den bestemte del av sekvensen, om ikke enhver slik vektfaktor påført en måling som er generert tilsvarende en ytring eller kortere sekvens med hvilken begynner med delsekvensen.
Fortrinnsvis vil enhver sekvens som har en vektet akkumulert måling med mindre indikert likhet, bestemt av et utvelgingskriterie, ekskluderes fra videre gjentatte sammenligninger. Denne utvelgelsen kan bli utført avhenging av antall målinger som er generert og ikke ekskludere fra videre gjentatte sammenligninger, ved å prøve å holde dette antallet konstant.
I en annen utførelse av oppfinnelsen er det tilveiebrakt et talegjenkjenningsapparat som omfatter;
- lagringsmidler for å lagre data relatert til referansemodeller represen-terende ytringer og data som definerer lovlige sekvenser av referanseytringer; - sammenligningsmidler for å gjentatte ganger sammenligne deler av en ukjent ytring med en referansemodell for å generere, for hver av et flertall av lovlige sekvenser av referanseytringer definert fra de lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger fremkommet ved sammenligning av en eller flere tidligere deler av ytringen med referansemodell eller -modeller som korresponderer med en tidligere ytring eller ytringer i den respektive lovlige sekvensen; - og midler operable til å vekte de akkumulerte målinger i samsvar med vektfaktorene for hver av de lovlige sekvenser hvor de vektleggende midler er operable til å vekte en måling eller akkumulert måling for en delsekvens med kombinerte verdier av de respektive vektfaktorene for hver av de lovlige sekvenser som begynner med den partielle sekvensen, om ikke enhver slik vektfaktor tilført en generert måling i respekt til en ytring eller kortere sekvens som starter med denne delsekvensen.
I enda en utførelse gir foreliggende oppfinnelsen metode til talegjenkjenning med referanse til lagret data som definerer korresponderende referansemodeller til lyder og lagret data som definerer lovlige sekvenser av slike modeller, hver korresponderende sekvens til å bli gjenkjent, videre at metoden omfatter å sammenligne deler av en ukjent ytring med referansemodeller for å oppdatere målinger som indikerer likheten mellom tidligere deler av ytringen og en delvis lovlig sekvens for å produserer oppdaterte målinger som indikerer likheten mellom en lengre del av ytringen og lengre delvis lovlige sekvenser; identifisere de delsekvenser der målingene representerer mindre en definert grad av likhet; undertrykke en videre generering av målinger tilhørende enhver sekvens eller delsekvens som begynner med en av de identifiserte delsekvensene,karakterisertved at identifiseringen er gjennomført ved å sammenligne målingene med en terskelverdi og at denne terskelverdien gjentatte ganger er justert avhenging av antall genererte målinger og ikke undertrykt, for å oppnå et konstant antall.
I enda en utførelse gir oppfinnelsen en metode for å tilføre en vektfaktor til hver node i et talegjenkjenningsnettverk som er representert ved et flertall av lovlige sekvenser av referanseytringer, nevnte metode omfattende: - for hver node å kombinere verdiene av vektfaktoren(e) for hver lovlig sekvens eller de lovlige sekvensene som begynner med en delsekvens inkludert i noden, med unntak av enhver vektfaktor som er tilført en ytring eller kortere sekvens lik begynnelsen av delsekvensen.
Vektfaktorene kan bli generert i det logaritmiske domene hvor logaritmen av de gitte vektfaktorene er tildelt de siste nodene i nettverket som korresponderer med de lovlige sekvensene. Hver etterfølgende node er så tildelt en logaritmisk sansynlighetsverdi som er det maksimale av verdiene tildelt til etterfølgende node eller noder. Verdien tildelt den neste etterfølgende node er fratrukket verdien til noden.
Nodene kan være assosiert med modeller som representerer referanseytringer og parametrene til de assosierte modellene kan være modifisert for å reflekterer vektfaktorene tildelt hver node.
Oppfinnelsen er spesielt anvendelig i et gjenkjenningsnettverk som har en tre-struktur med minst en node, foruten den første, med mer enn en gren.
Noen utforminger av oppfinnelsen skal i det følgende forklares nærmere under henvisningen til tegningene som inneholder følgende figurer: fig. 1 viser et blokkdiagram til en anordning tilsvarende en utførelsesform av den foreliggende oppfinnelsen;
fig. 2 viser et illustrasjon av et nettverk med "Hidden Markov" modeller,
fig. 3 viser innholdet i symbollageret fra Fig. 1,
fig. 4 illustrerer tilføringen av vektallene av anordningen fra Fig. 1,
fig. 5 viser innholdet i nodelageret fra Fig. 1,
fig. 6 er et flytdiagram som illustrerer operasjonen til Fig. 1,
fig. 7 viser innholdet i ordlistelageret i Fig. 1 og
fig. 8 illustrerer en alternativ vektleggingprosess til den i Fig. 4.
I prinsippet er det to fremgangsmåter for talegjenkjenning; parallellproses-sering, hvor hver ytring (f.eks. et ord) suksessivt sammenlignes med referanse-måter eller modeller for å identifisere en eller flere av de mest like, og treproses-sering hvor en del av ytringen (f.eks. et fonem) blir sammenlignet med referanse-måter eller modeller («modeller» er her brukt som fellesbetegnelse) for å identifisere den delen, den neste del er så subjekt i en lignende prosess.
En utførelse ved bruk av en trestruktur skal nå beskrives.
Talegjenkjenneren fra fig.1 har en innport fortalesignaler som blir konvertert til digital form av en analog-til-digital omformer 2. Det digitaliserte signalet blir så tilført en "særpreg uttrekker" 3 som for hver suksessive tidsramme, av for eksempel 10 ms varighet, kalkulerer et antall av parametre eller "særpreg". Ethvert konvensjonelt benyttet "særpreg" kan bli valgt, for eksempel "Mel frequency cepstral coefficients" eller "Linear Prediction Coefficients".
Antallet mulige særpregverdi-kombinasjoner per ramme er temmelig stort. For å redusere den etterfølgende prosessering til en overkommelig størrelse er det vanlig å benytte vektor kvantetisering, det vil si å sammenligne settene av særpreg til et av et begrenset antall m av standart særpreg kombinasjoner (vv v2...vm). Dette er gjennomført med en vektorkvantetiserer 4 for å produsere et nummer eller en "observasjon" Oj (for den j'te ramme). Dette er så tilført til en "klassifiserer" 5 som i generelle vendinger sammenligner observasjonssekvensen [Oj]mot et sett av modeller lagret i et modellager 6. Hver modell tilsvarer et forskjellig underord, for eksempel et fonem. Klassifisereren 5 består av en sentral prosessor (CPU) 51, kontrollert av et lagret program i et programlager 52, et nodelager 53 og et symbollager 54. Klassifisereren utfører en klassifiserings-prosess ved å bruke "Hidden Markov" modeller hvilke prinsipper herunder skal beskrives.
En "Hidden Markov" modell som konsept er en svart boks (black box) som har et antall n av mulige tilstander og som ved regulære intervaller kan gå fra en tilstand til en annen, eller alternativt forbli i den samme tilstand, alt i samsvar med en sannsynlighetsparameter: Sannsynligheten for overgang fra tilstand i til tilstand j er a,j, mens sannsynligheten for å forbli i tilstanden i er aH. Av dette følger at:
På grunn av den temporære orden av talelyder er en venstre-høyre modell generelt benyttet der ay er ikkenull bare for 0 < j - i < 1.1 enhver bestemt tilstand er et utsignal produsert som kan være et av et bestemt antall m av mulige utsignal, for eksempel v 1 , v 2 ...v m, i samsvar med et andre sett av sannsynligheter, I denne sammenhengen identifiserer vk et spesielt sett av talesærpreg. Sannsynligheten for å produsere utsignal vk i tilstand j er bjk. Altså:
En tredje parameter er sannsynligheten for å starte i en spesiell tilstand.
Sannsynligheten for å starte i tilstandi er n
Dermed består modellen av parametersettet
og et sett av regler som kan bli tilført til parameterene for å produsere en utsignal sekvens. Faktum er likevel at modellen ikke eksisterer, og ikke blir utsignal sekvensen noen gang produsert. I stedet er talegjenkjenningsproblemet formulert som spørsmålet: "Gitt en sekvens av flere v som hver representerer et observert sett av talesærpreg. Hva er da sannsynligheten P for at modellen M definert av A, B og n kan produserer denne sekvensen (observasjonssekvensen)?"
Om dette spørsmål blir stilt for et antall av forskjellige modeller som hver representerer for eksempel et forskjellig fonem, da blir fonemet, representert av modellen, som har den høyeste sannsynlighet antatt å være det som er gjenkjent.
Antar så at sekvensen av observasjoner er 0^ 02... 0T over tiden t=1 til t=T. Sannsynligheten aT(j) til å nå tilstand j med denne observasjon er da gitt av den rekursive formelen;
Sannsynligheten for at den observerte sekvensen O blir produsert av modellen M er Dette er sannsynligheten for observasjonssekvens O når alle mulige tilstandssekvenser er overveiet. I praksis, for å redusere mengden av beregninger, er det vanlig å benytte Viterbi algoritmen og beregne sannsynligheten assosiert med den tilstandssekvensen som har den høyeste sannsynlighet for å produsere observasjonssekvensen. I dette tilfellet blir ligningene 1 til 3 erstattet av ELLER i logaritme domenet
Modellageret 6 inneholder verdiene til A, B og Pl for hvert fonem i det relevante språk (sammen blir disse referert til som modellen M). Trenings-prosessen for å generere parametrene til modellen er konvensjonell og vil ikke bli beskrevet videre. Som referanse kan anføres "Hidden Markov Models for Automatic Speech Recognition: Theory and Application" S.J. Cox, British Telecom Technology journal Vol. 6, No. 2, April 1988. Gjenkjenningen av et fonem i en bestemt observasjonssekvens O utføres ved å beregne Pr<v>(0|mi) for hver modell M, ... MQ(hvor Q er antallet av modeller). Fonemet som tilsvarer den modell som produserer høyest Prv, er det fonemet som antas være det gjenkjente.
Selvfølgelig må hele ord gjenkjennes for praktiske formål. Denne prosessen kan bli visualisert i form av et nettverk eller en trestruktur som har et antall av noder. Denne strukturene eksisterer kun på den måte at hver node korresponderer til et respektivt areal i minnet, som vil bli vist senere.
Fig. 2 viser et enkelt nettverk for å viser skillet mellom ordene "yes" (ja) og "no" (nei), hvilke fonetiske representasjoner er notert som {yKehKs} og {n}{ow}.
Node 10 og siste node 16 i Fig. 2 samhører hver til en støymodell (generelt; - en 1-tilstandmodell). Disse representerer "stillheten" i forkant og i ettertid. De gjenværende nodene foruten den siste samsvarer med et fonem slik som indikert. For eksempel tilsvarer node 11 fonemet [y] i ordet "yes".
Under drift mottar en node et symbol som inneholder den følgende informasjon som vist i fig. 3:
akkumulert sannsynlighetsverdi fra forrige node,
identitet (adresse i nodelager) til forrige node,
identitet (adresse i symbollager) til symbolet mottatt av den foranliggende node som gav tillegg til symbolet,
symbolet inneholder også et aktivt/ikke-aktivt flagg hvilket bruken av vil bli beskrevet senere.
Alle slike symboler er lagret i symbollageret 54 som fremtidig referanse.
Den første node blir tilført tomme symboler i rammehastighet. Et symbol som ankommer enhver node inneholder en verdi som indikerer sannsynligheten (helt korrekt, logaritmen til sannsynligheten) at talesignalet (input) til nå samsvarer til modellene assosiert med nodene i stien til den samme noden. Slik vil et symbol som ankommer node 13 inneholde en verdi som indikerer sannsynligheten at den til nå samsvarer med ytringen {yKeh}. Oppgaven assosiert med noden er å sammenligne et nytt tale-inn-signalramme med dets modell. Dette er gjort med å utføre kalkulasjonene i ekvasjonene 7 til 9 på den nye rammen for å oppnå sannsynligheten Prv som igjen er addert til den innkommende verdi for å få en oppdatert verdi. Et nytt symbol blir så utsignal inneholdende denne verdien og sendt til neste node. Vanligvis blir verdien akkumulert over et antall av rammer likt antallet av tilstander i dens modell (typisk 3) før symbolet blir sendt. Etter dette blir et symbol produsert for hver ramme. Om noden mottar et annet symbol mens det fremdeles prosesserer det første, sammenligner noden verdien fra det andre symbol med den siste verdi av den første (logaritmen av Prv oppdatert pluss den innkommende symbolverdi) og ignorerer det nye symbolet eller avslutter den pågående prosess i favør av det nye symbolet i samsvar om det andre symbolets verdi er det laveste eller det høyeste av de to.
I eksempelet som er gitt konvergerer ikke stien unntatt ved den siste noden. Om konvergerende stier er tillatt vil sannsynligheten av samtidige ankomster av to symboler vanligvis bli avgjort ved å ignorere den med den laveste verdi. Utbredelse av multiple stier er likevel mulig.
Ved den siste noden 16 er det mulig å forkaste alle unntatt den med høyeste verdi av konvergerende stier. Men for mange utførelser er det å foretrekke å beholde to eller flere. Midler er også innbefattet for å avslutte utbredelsen av symbol som bærer verdier som er så lave at de er dømt til ikke å ha noen sjanse til å resultere i en god verdi ved den siste noden. Denne utvelgelsesprosessen vil bli beskrevet lengre frem i beskrivelsen. Stien gjennom nettverket kan bli identifisert for å gjenvinne fonemet som er dømt til å bli gjenkjent ved å spore opp det suksessrike symbolets sekvens tilbake fra utsymbolet (eller symbolene) ved å benytte "tidligere symbol"-adressene for å identifiserer symbolene i symbollageret.
Det skulle kanskje nevnes at HM modellene inkorporert i trestrukturen kan bli sett på som en eneste stor modell.
Fram til dette punkt i beskrivelsen er gjenkjenneren i generelle vendinger konvensjonell. De neste utførelser av gjenkjenneren som nå skal beskrives har formålet å utbre (propagere) "tidligere" sannsynligheten opp gjennom gjenkjenningstreet. Ta i betraktning fig. 4 for å skille mellom ordene "eat", "cab", "cob", "dog" og "den". Anta at som et resultat av noen tidligere prosesser er den "tidligere" sannsynlighet av disse utfall representert av vektallene 0.5, 0.2, 0.3, 0. og 0.1. Dette betyr at verdienes input ved nodene 23, 24, 26, 29 og 31 trenger å bli vektet med disse verdiene før de neste avgjørelser er tatt. Vektingen blir tilført hver node i treet som følger. Sannsynligheten for at ordet er "eat", "cab" eller "cob" er således representert med vekttallet 0.5 + 0.2 + 0.3 =1.0, mens den tilsvarende verdi for "dog" eller "den" er 0.1 + 0.1 = 0.2. Som en konsekvens vil verdien inn til node 21 bli vektet med faktoren 1.0 og verdiene inn til node 27 vektet med faktoren 0.2. Verdiene assosiert med "eat" eller "cab" på en hånd og "cob" på den andre, er 0.7 og 0.3 respektivt, slik at innverdiene til nodene 22 og 25 trenger å bli passende vektet. En faktor på 1.0 har imidlertid allerede blitt tilført til denne grenen av node 21, slik at vektingen ved nodene 22 og 25 er
Vekting ved node
Vekting ved node Tilsvarende får vi ved nodene 23 og 24 Vekting ved node Vekting ved node
Ved nodene 28 og 30 blir vektingen
Selvfølgelig er treet i fig. 4 mer som en konseptuell representasjon av prosessen. I virkeligheten er hver node representert av en lagercelle i nodelageret (som vist i fig. 5) inneholdene den følgende informasjon;
adressen (i modellageret) av modellen som skal benyttes;
adressen av neste node(r) i nettverket;
et flagg som indikerer om noden er aktiv eller ikke;
en logaritmisk verdi som indikerer vektingen assosiert med denne
node;
et temporært lager til resultatene av kalkulasjonene.
Inneholdet i de første to adresser er fastlagt når ordlisten til gjenkjenneren er oppsatt. Denne prosessen er utført med referanse til et ordlistelager 7 (fig. 1) som inneholder en liste av ord som skal gjenkjennes og, for hver, en streng av adresser som identifiserer sekvensen av fonem modeller som korresponderer til lyden av det ordet (se også fig. 7). Genereringen av nodelagerets innhold er konvensjonelt (unntatt for det med logaritmiske vektverdier som beskrevet under). Genereringen inkluderer innsetting av nodens adressesekvens i ordlistelageret som korresponderer til hvert ord.
Den sentrale prosesseringsenheten (CPU) 51 utfører den følgende prosess under kontroll av et program lagret i programlageret 52 som vist i flytskjemaet i fig. 6: Først lage et tomt symbol som input til den første node (de første nodene) - f.eks. lagre en nullverdi i symbollageret (f.eks. log(1)) og et null som sendenode-adresse (med dette menes at symbolet skal prosesseres av den første noden) og tiden for neste ramme. Disse første nodene (Denne første noden) skal så anses som "aktiv".
Så skal, ved hver rammeperiode, de følgende steg utføres:
For hver aktive node:
om en HMM prosess er blitt påbegynt og ikke noe symbol er generert som skal håndteres av noden under første rammetid blir HMM prosessen oppdatert ved å benytte den nåværende ramme observasjon O. Om prosessen har nådd n rammer (hvor n er antallet tilstander i den aktuelle HMM assosiert med noden), adder logaritmen til "tidligere" sannsynlighet lagret i noden til den kalkulerte sannsynlighetsverdien og lag en ny inntreden i symbollageret med resultatene (noter at den nåværende prosess likevel kan fortsette inntil neste ramme);
Om ingen prosess har blitt påbegynt og et symbol som skal behandler av noden ble generert under siste ramme, (Det aktive flagg har akkurat blitt satt) begynn en ny HMM prosess ved å bruke nåværende rammeobservasjon 0.1 tilfelle av et enkelttilstands HMM, lag et ny inntreden i symbollageret med resultatet; (noter at pågående prosess kan fortsette inntil neste ramme);
Om en prosess har startet og et symbol som skal behandles av noden ble generert; sammenlign den innkommende verdi og de interne verdier og, avhengig av resultatet, fortsett prosessen som oven nevnt, enten uten endring eller med den innkommende verdi som input til første tilstand,
For hvert symbol som er generert
hent adressen til utstedende node fra symbolverdien;
hent adressene i 'neste symbol' feltet fra symbollageret for den
utstedende node;
sett hvert flagg i hver slik node til 'aktiv' for neste ramme.
Om en ny inntreden i symbollageret har blitt opprettet:
Om den assosierte verdi er større enn en lagret "maksimal verdi for alle symboler"-verdi, oppdater denne verdien; om den assosierte verdi er mindre enn den lagrede "maksimal verdi for alle symboler"-verdi med mer enn en på forhånd bestemt margin (f.eks. 50), slett symbol feltet ("utvelgingssteget"). Om dette resulterer i at ingen noder har input symbol eller utverdi skal den deaktiveres (f.eks. slett symbollager feltet).
Ved den siste node:
Avgjørelsen om når gjenkjennelsen er komplett og tilbaketracing av gjenkjenningsstien kan begynne er basert på et system der de spesifikke målinger er sjekket mot et sett med regler og terskelverdier. Således blir det beste symbolet i den siste noden for hver ramme undersøkt for å finne hvor mange rammer som er benyttet i den siste "støy"-noden (Antar at alle stier i nettverket har en "støy"-node som siste node). Om varigheten er lenger enn en terskel og stiens verdi er bedre enn en annen terskel skal gjenkjenningen stoppes (f.eks. kan vi vente inntil gjenkjenningsverdien for en komplett sti er god nok og når stien inneholder en bra nok verdi av støy på enden, typisk 20 rammer (0.32 sekund)). Dette er den enkleste beskrivelse av en "taleslutt"-deteksjonsalgoritme. I praksis kan algoritmen bli utfylt med tilleggssjekking av SNR (Signal til Støy-forhold) av det oppdaterte signalet og variasjonene i støyenergi. Det er også et antall "timeouts" for å forsikre åt talesluttdeteksjonen vil bli trigget til slutt, i tilfelle fremgangsmåten beskrevet over fortsetter å feile.
Så, for hvert av de symboler med høyest verdi, eller for hver av Nout - symboler med høyes verdi, hvor Nout er det ønskede antall av ut-valg: - (a) Gjenfinn "tidligere adresse" og dens assosierte modell identifiserer symbolet; - (b) Gjenfinn "tidligere symbol" inntreden;
- (c) Gjenta (a) og (b) inntil alle modellene er blitt identifisert.
De gjenkjente ord sammen med deres assosierte verdi er nå tilgjengelig.
Beskrivelsen over er av gjenkjenningsprosessen. Før en slik prosess kan
starte er det nødvendig å lagre "a priori"-sannsynligheten i nodelageret. Anta at en tidligere gjenkjenningsprosess har generert "a priori"-verdier i formatet vist i Fig. 7, hvor hver av et antall av bynavn (som eksempel) har en sannsynlighet tildelt. Den sentrale prosessoren (52) utfører den følgende oppsettingsprosess for å gi noden "a priori"-sannsynlighetsverdi.
Først er det nødvendig å oversette ordene til nodesekvenser, med referanse til ordlisten 7 slik at det totale av logaritmen til "a priori"-verdiene for hver node er kjent for hver mulig sti gjennom gjenkjenningstreet. Det er så nødvendig å kalkulere de individuelle verdiene for hver node, slik gjort i illustrasjonen på Fig. 4, som følger: (a) Tildel de gitte sannsynlighetsverdier til den siste noden som korresponderer til de respektive ord; (b) ved å gå fra høyre til venstre (som vist i Fig. 4), tildel hver node en sannsynlighetsverdi som er summen av de verdier tildelt noden som følger den (den første noden som er tatt i Fig. 4 har tildelt verdi '1'); (c) fremdeles fra venstre til høyre skal sannsynlighetsverdien for hver node deles med verdien som er tildelt noden foran;
(d) ta logaritmen av alle verdiene.
I praksis en lettere kalkulerbar teknikk er benyttet med logaritmiske verdier helt gjennom der maksimalverdi er hentet i stedet for sum. Som følger slik vist i fig. 8: (a) Tildel den gitte logaritmiske sannsylighetsverdi til den siste node som korresponderer med de respektive ord; (b) tildel hver node en logaritmisk sannsynlighetsverdi som er det maksimale av verdiene tildelt noden eller nodene som følger etter (tildel 'null' til den første noden);
(c) trekk fra verdien for hver node verdien tildelt noden foran.
Beregningene på linker som ikke har grender (vist i klammeparantes) trenger selvfølgelig ikke å utføres.
I den ovennevnte beskrivelsen er det primære kriterium at symboler er slettet om de inneholder verdier som faller under en terskel, det vil si en andel av 'beste sti'-verdi til enhver tid. Siden logaritmiske sannsynligheter er benyttet er sammenligningen faktisk gjort mellom den logaritmiske verdi og den beste logaritmiske verdi minus en fast marginal verdi som er satt for å gi den beste gjennomsnittlige ytelse.
Det optimale utvelgingsnivå som benyttes vil likevel i praksis avhenge av de uttalte ytringer. I en modifikasjon er utvelgelsen derfor justert som en funksjon av den nåværende kalkuleringsbyrde på datamaskinen. For eksempel kan det være justert i forhold til nummeret av aktive noder, slik at; 1. Om bare et fåtall noder er aktiv blir utvelgingsterskelen mindre og flere noder forblir aktive som igjen leder til potensielt høyere nøyaktighet. 2. Om mange noder er aktive vil utvelgingsterskelen bli høyere som igjen fører til et redusert antall kalkulasjoner.
En mulig implementasjon av detter er for å justere terskelen til å holde antall aktive noder omlag konstant, slik at antallet aktive noder na for hver tidsramme er sammenlignet med et ønsket mål nt (f.eks. 1300). Terskelmarginen MT er tillatt å variere fra en startverdi M0(f.eks. 100) og mellom en nedre verdi Mmin(f.eks. 75) og en øvre verdi Mmax(f.eks. 150), men en stegverdi Ms(f.eks. 2). De følgende steg utføres i hver tidsramme.
Andre kriterier kan også bli anvendt, for eksempel kan avgjørelsen være basert på antall aktive modell-tilstander eller (spesielt i gjenkjennere med veldig store ordlister) antall aktive ord.
Denne dynamiske terskeljusteringen kan også bli benyttet i systemer som ikke har "a priori"-vekting.
Gjenkjenneren som er beskrevet over er en som er begrenset til å ha bare et begrenset nummer M av mulige observasjoner generert i en bestemt tilstand. Om ønsket kan sannsynligheten bjk likevel bli byttet ut med en kontinuerlig sannsynlighetstetthet b,(0) som har en verdi for enhver observasjon O. som kjent kan en generell kontinuerlig sannsynlighetstetthet suksessivt bli antatt av en vektet sum (eller miks) av et diskret antall av kontinuerlige funksjoner med en fastlagt form - vanligvis en Gaussisk fordeling. Slik blir sannsynlighetstetthets-funksjonen:
hvor X er antallet komponenter (eller "moder") i blandingen, er vektingen av modus x i tilstand j og N[0,|i)xlUjx]er sannsynligheten forv å trekke en vektor O fra en multivariabel normal-fordeling med middelvektor |ijxog kovariansmatrise Ujx.
For en Gaussisk fordeling:
hvor d gir størrelsen på vektorene. Om U er en diagonal matrise med termene a, blir redusert til
hvor v, er elementene i O.
Gjenkjenningsprosessen med ligningene 1 til 9 er uforandret bare definisjonen av b er forskjellig. Treningsprosessene for slike kontinuerlige tetthetsmodeller er kjent og vil derfor ikke bli beskrevet her.
Parallellprosesseringsmetoden er enklere enn tre-prosesseringsmetoden hittil beskrevet. En typisk slik prosess som involverer utvelgelsen inkluderer vedlikehold av en oppdatert liste av f.eks. de seks 'beste' kandidater mens modellene er undersøkt. For eksempel: (a) Sammenlign de ukjente ord med de første seks modeller og generer en list av disse modellene mens en "likhetsverdi" for hver blir tatt opp; (b) sammenlign de ukjente ord med en annen modell. Om verdien som er fått er høyere - altså mer indikerende av likhet - enn noen annen i listen skal den nye modellen og verdien erstatte den med lavest verdi i listen; (c) gjenta steg (b) inntil alle modellene har blitt prosessert. Denne prosessen resulterer i en liste med de seks modellene med høyeste verdi. Om "a priori"-sannsynlighet er tilført før valget av de beste kandidatene er hver av de seks verdien multiplisert med den relevante vektfaktor og kandidaten med den høyeste vekt er valgt. - - I den foreslåtte metoden er vektingen tilført under gjenkjenningsprosessen selv, det vil si; (a) sammenlign de ukjente ord med de første seks modellene mens en likhetsverdi er generert for hver. Multipliser verdi med vektingsfaktoren for den respektive modell. Lag en liste av disse modellene mens en vektet verdi blir lagret for hver; (b) sammenlign de ukjente ord med en annen modell. Multipliser verdien med en vektfaktor for denne modellen. Om den nye vektede verdi er høyere en noen i listen erstatt modellen med lavest verdi med den nye modellen og dens vekting. (c) gjenta steg (b) inntil alle modellene har blitt prosessert.

Claims (16)

1. Fremgangsmåte for talegjenkjenning, karakterisert ved å sammenligne en del av en ukjent ytring med referansemodeller for å generere en måling av likhet, å sammenligne gjentatte ganger ytterligere deler av den ukjente ytring med referansemodeller for å generere for hver av et flertall tillatte sekvenser av referanseytringer definert av lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet inkludert bidrag fra tidligere genererte målinger oppnådd ved sammenligning av en eller flere tidligere deler av ytringen med en referansemodell eller -modeller som tilsvarer en tidligere ytring eller tidligere ytringer i de respektive tillatte sekvens; og å vekte de akkumulerte målinger i samsvar med vektfaktorer for hver av de tillatte sekvenser, hvor vektingen utføres ved å vekte hver beregning av en måling eller akkumulert måling for en delsekvens med kombinerte verdier av vektfaktorene for hver av de tillatte sekvensene som starter med denne delsekvensen, minus enhver slik vektfaktor som tilføres en måling generert med hensyn til en ytring eller kortere sekvens som denne delsekvensen starter med.
2. Fremgangsmåte i henhold til krav 1, karakterisert ved å ekskludere fra videre gjentatte sammenligninger enhver sekvens som har en vektet akkumulert måling som er, i en grad definert av et beskjærings-kriterium, mindre indikerende for likhet enn målingene for andre slike sekvenser.
3. Fremgangsmåte i henhold til krav 2, karakterisert ved at beskjærings-kriteriet gjentatte ganger justeres avhengig av antall målinger som genereres og ikke ekskluderes fra videre gjentatte sammenligninger, for å forsøke å holde antallet målinger konstant.
4. En talegjenkjenningsanordning, karakterisert ved at den omfatter - lagringsmidler for å lagre data relatert til referansemodeller som representerer ytringer og data som definerer lovlige sekvenser av referanseytringer, - sammenligningsmidler for gjentatte ganger å sammenligne deler av en ukjent ytring med referansemodeller for å generere, for hver av et flertall av lovlige sekvenser av referanseytringer definert av lagrede data som definerer slike sekvenser, akkumulerte målinger av likhet, inkludert bidrag fra tidligere genererte målinger framkommet ved sammenligning av en eller flere tidligere deler av ytringen med en referansemodell eller referansemodeller som tilsvarer en tidligere ytring eller tidligere ytringer i den respektive lovlige sekvensen, og - midler for å vekte de akkumulerte målingene i samsvar med vektfaktorer for hver av de lovlige sekvensene, hvor vektingsmidlene kan fungere ved å vekte en måling eller akkumulert måling for en delsekvens med kombinerte verdier av vektfaktorene for hver av de lovlige sekvensene som starter med denne delsekvensen, minus enhver slik vektfaktor som tilføres en måling generert med hensyn til en ytring eller kortere sekvens som denne delsekvensen starter med.
5. Anordning i henhold til krav 4, karakterisert ved midler for å ekskludere fra videre gjentatte sammenligninger enhver sekvens med en vektet akkumulert måling som, i en grad definert av et på forhånd bestemt beskjærings-kriterium, er mindre indikerende for likhet enn målingene for andre slike sekvenser.
6. Anordning i henhold til krav 5, karakterisert ved at beskjærings-kriteriet justeres gjentatte ganger avhengig av antall målinger som er generert og ikke ekskludert fra videre gjentatte sammenligninger, for å forsøke å holde antall målinger konstant.
7. Fremgangsmåte for talegjenkjenning ved referanse til lagrede data som definerer referansemodeller som tilsvarer lyder og lagrede data som definerer lovlige sekvenser av slike modeller, der hver sekvens tilsvarer en ytring som skal gjenkjennes, hvor fremgangsmåten omfatter å sammenligne deler av en ukjent ytring med referansemodellene for å oppdatere målinger som indikerer likheten mellom en tidligere del av ytringen og en delvis lovlig sekvens for å frembringe oppdaterte målinger indikerende likhet mellom en lengre del av ytringen og lengre, lovlig delsekvens; å identifisere de delsekvensene som har målinger som representerer mindre enn en definert grad av likhet, og å undertrykke videre generering av målinger som angår enhver sekvens eller delsekvens som starter med en av de identifiserte delsekvensene, karakterisert ved at identifikasjonen gjennomføres ved å sammenligne målingene med en terskelverdi, og at terskelverdien gjentatte ganger justeres avhengig av antall genererte og ikke undertrykte målinger, for å forsøke å holde antallet konstant.
8. Fremgangsmåte for å tilordne en vektfaktor til hver node i et talegjenkjenningsnettverk som representerer en rekke av lovlige sekvenser av referanseytringer, karakterisert ved - for hver node å kombinere verdiene av vektfaktoren(e) for hver lovlig sekvens som starter med en delsekvens som inkorporerer noden, minus en hvilken som helst vektfaktor som tilføres en ytring eller kortere sekvens som starter med den delsekvensen.
9. Fremgangsmåte i henhold til krav 8, karakterisert ved - å tilordne logaritmen av de gitte vektfaktorer til de siste noder i nettverket som tilsvarer de lovlige sekvenser, - å tilordne til hver foranliggende node en logaritmisk sannsynlighetsverdi som er det maksimale av de verdier som tilføres noden eller nodene som følger den; og - å trekke fra verdien for hver node, verdien som tilordnes noden foran.
10. Fremgangsmåte i henhold til krav 8 eller 9, karakterisert ved at nodene assosieres med modeller som representerer referanseytringer, og at parametere i de assosierte modellene modifiseres for å reflektere vektfaktoren tilordnet hver node.
11. Fremgangsmåte i henhold til krav 8, 9 eller 10, karakterisert ved at gjenkjenningsnettverket har en trestruktur hvor minst én node bortsett fra den første, har mer enn én forgrening.
12. Fremgangsmåte for talegjenkjenning, karakterisert ved at det benyttes et nettverk som inkorporerer vektfaktorer dannet ved hjelp av fremgangsmåten i henhold til krav 8, 9, 10 eller 11.
13. Fremgangsmåte for talegjenkjenning, karakterisert ved at den inneholder data relatert til et nettverk inneholdende vektfaktorer dannet ved hjelp av fremgangsmåten i henhold til krav 8, 9, 10 eller 11.
14. Fremgangsmåte for å tilordne vektfaktorer, karakterisert ved at det er en metode som her tidligere beskrevet med referanse til de medfølgende figurer.
15. Fremgangsmåte for talegjenkjenning, karakterisert ved at det er en metode som her tidligere beskrevet med referanse til de medfølgende figurer.
16. En talegjenkjenningsanordning, karakterisert ved en anordning som her tidligere beskrevet med referanse til de medfølgende figurer.
NO974097A 1995-03-07 1997-09-05 Talegjenkjenning NO974097L (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95301477 1995-03-07
PCT/GB1996/000531 WO1996027872A1 (en) 1995-03-07 1996-03-07 Speech recognition

Publications (2)

Publication Number Publication Date
NO974097D0 NO974097D0 (no) 1997-09-05
NO974097L true NO974097L (no) 1997-09-08

Family

ID=8221113

Family Applications (1)

Application Number Title Priority Date Filing Date
NO974097A NO974097L (no) 1995-03-07 1997-09-05 Talegjenkjenning

Country Status (13)

Country Link
US (1) US5999902A (no)
EP (1) EP0813735B1 (no)
JP (1) JP4180110B2 (no)
KR (1) KR100406604B1 (no)
CN (1) CN1150515C (no)
AU (1) AU702903B2 (no)
CA (1) CA2211636C (no)
DE (1) DE69615667T2 (no)
ES (1) ES2164870T3 (no)
MX (1) MX9706407A (no)
NO (1) NO974097L (no)
NZ (1) NZ302748A (no)
WO (1) WO1996027872A1 (no)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
GB9723214D0 (en) * 1997-11-03 1998-01-07 British Telecomm Pattern recognition
US6411929B1 (en) * 1997-11-27 2002-06-25 Hitachi, Ltd. Speech recognition method and system
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1380153B1 (en) * 2001-04-19 2009-09-02 BRITISH TELECOMMUNICATIONS public limited company Voice response system
EP1397797B1 (en) * 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US20030018451A1 (en) * 2001-07-16 2003-01-23 Level 3 Communications, Inc. System, method and computer program product for rating enterprise metrics
JP2003108187A (ja) * 2001-09-28 2003-04-11 Fujitsu Ltd 類似性評価方法及び類似性評価プログラム
KR100450396B1 (ko) * 2001-10-22 2004-09-30 한국전자통신연구원 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7852993B2 (en) * 2003-08-11 2010-12-14 Microsoft Corporation Speech recognition enhanced caller identification
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
WO2005109846A1 (en) 2004-05-03 2005-11-17 Somatic Technologies, Inc. System and method for providing particularized audible alerts
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
WO2006069381A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US20090024183A1 (en) 2005-08-03 2009-01-22 Fitchmun Mark I Somatic, auditory and cochlear communication system and method
KR100748720B1 (ko) 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
CN101105894B (zh) * 2006-07-12 2011-08-10 陈修志 多功能语言学习机
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8086631B2 (en) * 2008-12-12 2011-12-27 Microsoft Corporation Search result diversification
KR101217525B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
FI20086260A (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8306191B2 (en) * 2009-06-12 2012-11-06 Avaya Inc. Caller recognition by voice messaging system
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
US10055767B2 (en) 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
CN105356935B (zh) * 2015-11-27 2017-10-31 天津光电通信技术有限公司 一种实现同步数字体系高阶交叉的交叉板及实现方法
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10565320B1 (en) 2018-09-28 2020-02-18 International Business Machines Corporation Dynamic multilingual speech recognition
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치
CN112786007B (zh) * 2021-01-20 2024-01-26 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN117166996B (zh) * 2023-07-27 2024-03-22 中国地质大学(北京) 地质参数门槛值的确定方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
JP2974387B2 (ja) * 1990-09-05 1999-11-10 日本電信電話株式会社 ワードスポッティング音声認識方法
KR920013250A (ko) * 1990-12-28 1992-07-28 이헌조 음성인식 시스템의 변별적 특성을 이용한 숫자음 인식방법
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH06175685A (ja) * 1992-12-09 1994-06-24 Matsushita Electric Ind Co Ltd パタン認識装置及びヒドゥンマルコフモデル作成装置
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置

Also Published As

Publication number Publication date
EP0813735A1 (en) 1997-12-29
CA2211636A1 (en) 1996-09-12
CA2211636C (en) 2002-01-22
NO974097D0 (no) 1997-09-05
MX9706407A (es) 1997-11-29
DE69615667T2 (de) 2002-06-20
US5999902A (en) 1999-12-07
CN1150515C (zh) 2004-05-19
JPH11501410A (ja) 1999-02-02
WO1996027872A1 (en) 1996-09-12
DE69615667D1 (de) 2001-11-08
KR100406604B1 (ko) 2004-02-18
AU4887696A (en) 1996-09-23
NZ302748A (en) 1999-04-29
AU702903B2 (en) 1999-03-11
CN1178023A (zh) 1998-04-01
JP4180110B2 (ja) 2008-11-12
ES2164870T3 (es) 2002-03-01
KR19980702723A (ko) 1998-08-05
EP0813735B1 (en) 2001-10-04

Similar Documents

Publication Publication Date Title
NO974097L (no) Talegjenkjenning
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
US11132992B2 (en) On-device custom wake word detection
EP2727103B1 (en) Speech recognition using variable-length context
US4852173A (en) Design and construction of a binary-tree system for language modelling
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US20200349925A1 (en) Online verification of custom wake word
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
JP6509694B2 (ja) 学習装置、音声検出装置、学習方法およびプログラム
EP0617827B1 (en) Composite expert
EP0847041A2 (en) Method and apparatus for speech recognition performing noise adaptation
EP1178466A2 (en) Recognition system using lexical trees
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
US7493258B2 (en) Method and apparatus for dynamic beam control in Viterbi search
US20220067280A1 (en) Multi-token embedding and classifier for masked language models
CN111881293B (zh) 一种风险内容识别方法及装置、服务器、存储介质
Knill et al. Fast implementation methods for Viterbi-based word-spotting
CN109635302B (zh) 一种训练文本摘要生成模型的方法和装置
JP4478925B2 (ja) 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ
JP2015152661A (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
Sim Probabilistic state clustering using conditional random field for context-dependent acoustic modelling.
CN114783413A (zh) 重打分语言模型训练和语音识别方法、装置、系统及设备
JP2015018186A (ja) 適応化装置およびプログラム