SE520405C2

SE520405C2 - Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning

Info

Publication number: SE520405C2
Application number: SE9704601A
Authority: SE
Inventors: Young-Moo Ryu
Original assignee: Samsung Electronics Co Ltd
Priority date: 1997-02-26
Filing date: 1997-12-10
Publication date: 2003-07-08
Also published as: KR19980069035A; DE19751536A1; SE9704601L; SE9704601D0; KR100217734B1; DE19751536C2

Description

lO l5 20 25 30 35 520 405 2 träffar den ursprungliga registreringsprocessen av refe- rensröstkommandot inställer sig röstigenkänningsenheten i röstkommandoinspelningsläget då den detekterar att funk- tionstangenten och inställningstangenten är nedtryckta av användaren, varvid inmatningsröstkommandona omvandlas till digitala data för inspelning/registrering när röst- kommandona matas in genom en yttre mikrofon och avslut- ningstangenten därefter trycks ner. När inspelningen av sådana röstkommandon är avslutad avspelas de inspelade röstkommandona för att godkännas av användaren. Inspel- ningsprocessen av ett röstkommando som begär uppspelning av den automatiska telefonsvararen är t ex som följer: tryck ner röstkommandoinspelningsknappen bland funktions- knapparna -+ tryck ner inställningsknappen "*“ -+ tryck ner den avsedda funktionsknappen (dvs avspelningsknappen) -+ säg "avspelning" i mikrofonen -+ tryck ner avslutnings- knappen "#".

För att beskriva processen för utförande av det talade kommandot, då det talade kommandot är inmatat av användaren, jämförs detta med det inspelade/registrerade röstkommandot, varvid det talade kommandot utförs när båda är identiska med varandra. Det talade kommandots överensstämmelse med det registrerade röstkommandot be- döms genom att jämföra röstkarakteristik som baseras på olika frekvenser beroende pà volym och tonhöjd.

När användaren t ex uttalar "avspelning" i mikro- fonen jämförs det talade kommandot "avspelning" och den registrerade rösten "avspelning" med varandra avseende röstkarakteristik och när båda visar sig vara identiska börjar den automatiska telefonsvararen avspela inspelade meddelanden, men när de båda inte är identiska ignoreras det talade kommandot "avspelning".

Röstigenkänningsnivän som används som referens för att bedöma röstkarakteristiken är förinställd. Om röst- igenkänningsnivàn t ex är inställd på 70% och det talade kommandot överensstämmer med det registrerade med 70% eller mer, sä accepteras det tidigare. Såsom nämndes ovan 10 15 20 25 30 35 520 405 3 mäste det talade kommandot ha högre överensstämmelse med det registrerade vid högre röstigenkänningsnivà för att accepteras, men vid fallet med lägre röstigenkänningsnivà kan det talade kommandot accepteras trots den lägre överensstämmelsen med det registrerade röstkommandot. Dvs när röstigenkänningsnivàn är högre kan det talade komman- dot utföras korrekt, men röstigenkänningshastigheten är lägre och på motsvarande sätt är igenkänningshastigheten högre när röstigenkänningsnivàn är lägre, men funktions- störningar orsakas.

Den konventionella telefonen med röstigenkänning såsom den beskrivits ovan har nackdelen att röstigenkän- ningshastigheten för ett talat kommando blir lägre på grund av brusinblandning vid lägre signal-brusförhàllande (S/N) röstkommandot som en referensröstigenkänningsnivà_ Vid fallet med lägre S/N-förhållande för det verkligt talade när användaren registrerar det ursprungliga kommandot kan röstigenkänningshastigheten vidare bli låg även om referensröstigenkänningsnivän fràn början spelades in vid högre S/N-förhållande.

Sammanfattning av uppfinningen Följaktligen är det ett syfte med föreliggande upp- finning att åstadkomma en röstigenkänningsanordning som kan justera röstigenkänningsnivàn beroende pà den brus- nivå som är blandad med ett talat kommando för att för- bättra röstigenkänningshastigheten.

Ett annat syfte med föreliggande uppfinning är att àstadkomma ett sätt att styra röstigenkänningsnivàn be- roende pà den brusnivà som är blandad med ett talat kom- mando för att förbättra röstigenkänningshastigheten.

Enligt föreliggande uppfinning kännetecknas en anordning för styrning av röstigenkänningsnivàn i en telefon med röstigenkänning beroende på omgivande brus av en brusnivàdetektor för detektering av nivàn av nämnda omgivande brus som inmatas genom mikrofonen och en styrenhet för bestämning av röstigenkänningsnivàn enligt den detekterade brusnivàn och nämnda röstkommandoigenkän- lO 15 20 25 30 35 520 405 4 ningsprocessor, vilken använder nämnda bestämda röstigen- känningsnivà som ett minimivärde pä likhet mellan nämnda referensröstkommando och nämnda röstkommando.

Vidare enligt föreliggande uppfinning kännetecknas ett sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning av de ytterligare stegen att detektera en omgivande brusnivà med en brusnivàdetektor periodiskt vid specificerade tidsintervall, att bestämma en röstigenkänningsnivà motsvarande nämnda omgivande brusnivä baserat pà nämnda omgivande brus i en styrenhet och att jämföra likheten mellan nämnda röstkommando och nämnda referensröstkom- mando pà basis av nämnda röstigenkänningsnivà i nämnda röstkommandoigenkänningsprocessor_ Kort beskrivning av ritningarna Fig 1 är ett blockschema som visar en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning; och fig 2 är ett flödesschema som visar styrningen av röstigenkänningsnivàn enligt en utföringsform av före- liggande uppfinning.

Beskrivning av den föredragna utföringsformen Uppbyggnaden av en telefon med röstigenkänning en- ligt en utföringsform av föreliggande uppfinning beskrivs under hänvisning till fig 1 enligt följande. Styrenheten 10 styr den övergripande driften av telefonen med röst- igenkänning medelst ett styrprogram som är lagrat i min- net 34. Talkretsen 14 utgör gränssnitt för olika tonsig- naler, röstsignaler etc under styrning av styrenheten 10.

Klykreläet H/S bildar eller skär mekaniskt av talkanalen mellan talkretsen 14 och telefonledningen när telefon- luren lyfts. Talreläet 12 bildar eller avbryter talkana- len mellan talkretsen 14 och telefonledningen under styr- ning av styrenheten 10. Mikrofonen 16 omvandlar röstsig- nalen till en elektrisk signal och högtalaren 18 omvand- lar den elektriska signalen till en ljudsignal för att producera hörbar ton. Ringsignaldetektorn 34 är kopplad lO 15 20 25 30 35 520 405 5 till telefonledningen som leds till klykreläet H/S och detekterar därigenom ringsignalen som tas emot genom telefonledningen för att vidarebefordras till styrenheten lO.

De första och andra KODEKARNA 20, 22 omvandlar (ljud) versa. Röstkommandoigenkänningsprocessorn 24 behandlar analoga signaler till digitala signaler och vice digitaliserade röstkommandon som tagits emot fràn de första och andra KODEKARNA 20, 22 och spelar in den resulterade signalen i ljudminnet 26, eller detekterar inmatningsröstkommandot pà basis av röstigenkänningsnivän som levereras av styrenheten 10. När inmatningsröstkom- mandot överensstämmer med det registrerade röstkommandot som är inspelat i ljudminnet 26 överför den ovan beskriv- na röstkommandoigenkänningsprocessorn 24 data som begär exekvering av det inmatade röstkommandot till styrenheten 10.

Brusnivàdetektorn 28 består av en DC-likriktare 30 och en A/D-omvandlare 32, varigenom nivàsignalen alstras som numeriska data enligt ljudsignalnivàn som inmatas fràn den externa mikrofonen 16. DC-likriktaren 30 omvand- lar den analoga ljudsignalen från mikrofonen 16 till en DC-signal. A/D-omvandlaren 32 omvandlar signalnivàn, vil- ken baseras pà storleken av den DC-signal som är pälagd av DC-likriktaren 30, till en digital signal som numeris- ka data för att utmata nivàsignalen. Vanligtvis används A/D-omvandlaren som är anordnad i styrenheten 10, eller kan en separat A/D-omvandlare vara anordnad. Minnet 36 lagrar styrprogram och data härrörande frän telefonopera- tioner. Knappsatsen 38 genererar knappkommandon och knappdata för styrning av telefonoperationer. Display- fönstret 40 visar de ifrågavarande driftstillstànden för telefonen under styrning av styrenheten 10.

Driften av en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning beskrivs i detalj i det följande under hänvisning till fig 1. Vad först beträffar den ursprungliga registreringsprocessen 10 15 20 25 30 35 520 405 6 av referensröstkommandot överförs röstkommandoigenkän- ningsprocessorn 24 till röstkommandoinspelningsläget när den detekterar att funktionstangenten och inställnings- tangenten är nedtryckta av en användare vid standby, varvid referensröstkommandot som matas in av användaren skickas till den första KODEKEN 20 som sedan konverterar det ovanstående analoga röstkommandot till ett digitalt röstkommando, varvid det digitaliserade röstkommandot levereras till röstkommandoigenkänningsprocessor 24. När användaren trycker på avslutningsknappen på knappsatsen 38 lagrar röstkommandoigenkänningsprocessorn 24 ett sådant digitaliserat röstkommando i ljudminnet 26 under styrning av styrenheten 10.

Under hänvisning till fig 2 beskrivs i det följande driften av telefonen med röstigenkänning vid svar på be- gäran att exekvera ett röstkommando som inmatas av an- vändaren. Först beskrivs processen för detektion av brus- nivå i stegen 214-220. När ett specificerat tidsintervall har förflutit i steg 214 fortsätter styrenheten 10 till steg 216. tervall har förflutit För att undersöka om ett specificerat tidsin- (vanligtvis några få mikrosekunder) utförs brusnivådetekteringsprocessen periodiskt vid så- dana tidsintervall. I steg 216 detekterar styrenheten 10 signalnivån på basis av storleken av brusinmatningen från mikrofonen 16.

Vad beträffar brusnivàdetektionsprocessen så läggs brussignalinmatningen från mikrofonen 16 på DC-likrikta- ren 30, varvid likströmskomponenten elimineras och den resulterade brussignalen utan likströmskomponent levere- ras till A/D-omvandlaren 32, varvid den konverteras till binära sifferdata bestående av ett specificerat antal bitar som motsvarar brusnivåer för vidare överföring till styrenheten 10. Antalet bitar som representerar de ovan- stående brusnivåerna bestäms av antalet klasser med röst- igenkänningsnivàer. Om röstigenkänningsnivåerna exempel- vis klassificeras i 4 klasser kan de representeras av binära sifferdata med två bitar. När brusnivån detekteras 10 15 20 25 30 520 405 7 i steg 216 såsom beskrivits ovan fortsätter styrenheten 10 till steg 218 för att lagra en sådan brussignal i min- net 36 eller i en intern tillfällig buffert.

Efter lagring av en sådan detekterad brusnivà(sig- nal) fortsätter styrenheten 10 till steg 220 för att instruera röstkommandoigenkänningsprocessorn 24 om den föreliggande röstigenkänningsnivån som motsvarar en sådan detekterad brusnivå medelst en brusnivåklassificerings- tabell som är inlagd i minnet 36. När styrenheten 10 exempelvis tar emot binära sifferdata "01" från brusnivå- detektorn 28 levererar den röstigenkänningsnivån av andra klassen, såsom listas i följande tabell 1, till röstkom- mandoigenkänningsprocessorn 24. Ett exempel på röstigen- känningsnivåerna enligt brusnivåer listas i följande tabell 1.

[Tabell 1] Brusnivå Röstigenkänningsnivå Brustillstånd 00 Första klass Tillstånd samma som det ursprungligt registrerade 01 Andra klass Samtal möjligt 10 Tredje klass Samtal olämpligt 11 Fjärde klass Röstigenkänning omöjlig Härefter beskrivs processen för exekvering av ett röstkommando genom stegen 212-222. I steg 212 kontrolle- rar styrenheten 10 om röstigenkänningskommandot är motta- get från röstkommandoigenkänningsprocessorn 24.

För att beskriva processen för utmatning av röstkom- mandot från röstkommandoigenkänningsprocessorn 24 läggs röstkommandoinmatningen fràn mikrofonen 16 på den första KODEKEN 20 för att konverteras till en digital signal.

Den digitaliserade röstkommandoutmatningen från den första KODEKEN 20 läggs vidare på röstkommandoigenkän- ningsprocessorn 24 som sedan jämför ett sådant digita- liserat röstkommando med röstigenkänningsnivån som är mottagen från styrenheten 10 efter utförande av steg 220. lO 15 20 25 520 405 8 Eftersom en röstkommandoigenkänningsprocess där det in- (talat) röstkommandot tillhör konventionell teknik för telefoner matade röstkommandot jämförs med det registrerade med röstigenkänning utlämnas den detaljerade beskriv- ningen av detta. Sammanfattningsvis, om röstigenkännings- nivän av den andra klassen som hänvisas till av styrenhe- ten l0 är inställd pä t ex 80%, kollar röstkommandoigen- känningsprocessorn 24 om röstkarakteristiken för både de talade och registrerade röstkommandona liknar varandra med 80% eller mer. När de talade och registrerade röst- kommandona visar sig vara identiska förser röstkommando- igenkänningsprocessorn 24 styrenheten 10 med röstigenkän- ningskommandot.

När röstigenkänningskommandot i steg 212 tas emot fortsätter styrenheten sedan till steg 222 för att analy- sera röstigenkänningskommandot för den funktion som öns- kas utföras och när analysen är fullständig fortsätter styrenheten 10 till steg 224 för att utföra den funktion som önskas som ett resultat av analysen. Den detaljerade beskrivningen av processerna i steg 222 och 224 utelämnas eftersom de tillhör konventionell teknik.

Föreliggande uppfinning har säsom beskrivits ovan fördelen att röstigenkänningsnivän kan justeras med hän- syn till omgivande brusnivä, varigenom inverkan av om- givande brus minimeras och röstigenkänningshastigheten förbättras.

Claims

lO 15 20 25 30 35 520 405 9 PATENTKRAV

1. Anordning för styrning av röstigenkänningsnivän i en telefon med röstigenkänning beroende av omgivande brus, omfattande: (16) till en elektrisk signal; (26) kommandon som elektriska signaler; en mikrofon för omvandling av ett röstkommando ett ljudminne för inspelning av referensröst- en röstkommandoigenkänningsprocessor (24) för be- handling av nämnda elektriska signaler; vﬂka1æmnmU@ käz1net:eckI1as av (28) nämnda omgivande brus som inmatas genom mikrofonen (l6); (10) ningsnivån enligt den detekterade brusnivän; och (24), använder nämnda bestämda röstigenkänningsnivà som ett en brusnivàdetektor för detektering av nivån av en styrenhet för bestämning av röstigenkän~ nämnda röstkommandoigenkänningsprocessor vilken minimivärde pà likhet mellan nämnda referensröstkommando och nämnda röstkommando.

2. Anordning för styrning av röstigenkänningsnivàn beroende av omgivande brus enligt krav 1, varvid brus- (28) omfattar: (30) komponenten från nämnda brus; och nivàdetektorn en DC-likriktare för att eliminera likströms- (32) för att konvertera det omgivande bruset utan likströmskomponenten till bi- en analog/digital-omvandlare nära sifferdata motsvarande nämnda brusnivà.

3. Sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning, vilket sätt omfattar stegen: att omvandla ett röstkommando till en elektrisk (l6); att spela in referensröstkommandon som elektriska (26): att behandla nämnda elektriska signaler i en röst- (24); signal i en mikrofon signaler i ett ljudminne kommandoigenkänningsprocessor lO l5 20 520 405 lO vilket sätt k ä n n e t e c k n a s av de ytterligare stegen: att detektera en omgivande brusnivà med en brusnivä- detektor (28) att bestämma en röstigenkänningsnivà motsvarande periodiskt vid specificerade tidsintervall; nämnda omgivande brusnivä baserat pà nämnda omgivande (l0); att jämföra likheten mellan nämnda röstkommando och brus i en styrenhet och nämnda referensröstkommando på basis av nämnda röstigen- känningsnivà i nämnda röstkommandoigenkänningsprocessor (24).

4. Sätt enligt krav 3, omfattande det ytterligare steget: att lagra den detekterade brusnivàn temporärt.

5. Sätt enligt krav 3 eller 4, omfattande de ytterligare stegen: att identifiera nämnda röstkommando som ett referensröstkommando om nämnda likhet är större än eller lika med nämnda röstigenkänningsnivà; och att exekvera nämnda identifierade röstkommando.