SE520405C2 - Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning - Google Patents

Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning

Info

Publication number
SE520405C2
SE520405C2 SE9704601A SE9704601A SE520405C2 SE 520405 C2 SE520405 C2 SE 520405C2 SE 9704601 A SE9704601 A SE 9704601A SE 9704601 A SE9704601 A SE 9704601A SE 520405 C2 SE520405 C2 SE 520405C2
Authority
SE
Sweden
Prior art keywords
voice
level
noise
voice recognition
voice command
Prior art date
Application number
SE9704601A
Other languages
English (en)
Other versions
SE9704601L (sv
SE9704601D0 (sv
Inventor
Young-Moo Ryu
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of SE9704601D0 publication Critical patent/SE9704601D0/sv
Publication of SE9704601L publication Critical patent/SE9704601L/sv
Publication of SE520405C2 publication Critical patent/SE520405C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

lO l5 20 25 30 35 520 405 2 träffar den ursprungliga registreringsprocessen av refe- rensröstkommandot inställer sig röstigenkänningsenheten i röstkommandoinspelningsläget då den detekterar att funk- tionstangenten och inställningstangenten är nedtryckta av användaren, varvid inmatningsröstkommandona omvandlas till digitala data för inspelning/registrering när röst- kommandona matas in genom en yttre mikrofon och avslut- ningstangenten därefter trycks ner. När inspelningen av sådana röstkommandon är avslutad avspelas de inspelade röstkommandona för att godkännas av användaren. Inspel- ningsprocessen av ett röstkommando som begär uppspelning av den automatiska telefonsvararen är t ex som följer: tryck ner röstkommandoinspelningsknappen bland funktions- knapparna -+ tryck ner inställningsknappen "*“ -+ tryck ner den avsedda funktionsknappen (dvs avspelningsknappen) -+ säg "avspelning" i mikrofonen -+ tryck ner avslutnings- knappen "#".
För att beskriva processen för utförande av det talade kommandot, då det talade kommandot är inmatat av användaren, jämförs detta med det inspelade/registrerade röstkommandot, varvid det talade kommandot utförs när båda är identiska med varandra. Det talade kommandots överensstämmelse med det registrerade röstkommandot be- döms genom att jämföra röstkarakteristik som baseras på olika frekvenser beroende pà volym och tonhöjd.
När användaren t ex uttalar "avspelning" i mikro- fonen jämförs det talade kommandot "avspelning" och den registrerade rösten "avspelning" med varandra avseende röstkarakteristik och när båda visar sig vara identiska börjar den automatiska telefonsvararen avspela inspelade meddelanden, men när de båda inte är identiska ignoreras det talade kommandot "avspelning".
Röstigenkänningsnivän som används som referens för att bedöma röstkarakteristiken är förinställd. Om röst- igenkänningsnivàn t ex är inställd på 70% och det talade kommandot överensstämmer med det registrerade med 70% eller mer, sä accepteras det tidigare. Såsom nämndes ovan 10 15 20 25 30 35 520 405 3 mäste det talade kommandot ha högre överensstämmelse med det registrerade vid högre röstigenkänningsnivà för att accepteras, men vid fallet med lägre röstigenkänningsnivà kan det talade kommandot accepteras trots den lägre överensstämmelsen med det registrerade röstkommandot. Dvs när röstigenkänningsnivàn är högre kan det talade komman- dot utföras korrekt, men röstigenkänningshastigheten är lägre och på motsvarande sätt är igenkänningshastigheten högre när röstigenkänningsnivàn är lägre, men funktions- störningar orsakas.
Den konventionella telefonen med röstigenkänning såsom den beskrivits ovan har nackdelen att röstigenkän- ningshastigheten för ett talat kommando blir lägre på grund av brusinblandning vid lägre signal-brusförhàllande (S/N) röstkommandot som en referensröstigenkänningsnivà_ Vid fallet med lägre S/N-förhållande för det verkligt talade när användaren registrerar det ursprungliga kommandot kan röstigenkänningshastigheten vidare bli låg även om referensröstigenkänningsnivän fràn början spelades in vid högre S/N-förhållande.
Sammanfattning av uppfinningen Följaktligen är det ett syfte med föreliggande upp- finning att åstadkomma en röstigenkänningsanordning som kan justera röstigenkänningsnivàn beroende pà den brus- nivå som är blandad med ett talat kommando för att för- bättra röstigenkänningshastigheten.
Ett annat syfte med föreliggande uppfinning är att àstadkomma ett sätt att styra röstigenkänningsnivàn be- roende pà den brusnivà som är blandad med ett talat kom- mando för att förbättra röstigenkänningshastigheten.
Enligt föreliggande uppfinning kännetecknas en anordning för styrning av röstigenkänningsnivàn i en telefon med röstigenkänning beroende på omgivande brus av en brusnivàdetektor för detektering av nivàn av nämnda omgivande brus som inmatas genom mikrofonen och en styrenhet för bestämning av röstigenkänningsnivàn enligt den detekterade brusnivàn och nämnda röstkommandoigenkän- lO 15 20 25 30 35 520 405 4 ningsprocessor, vilken använder nämnda bestämda röstigen- känningsnivà som ett minimivärde pä likhet mellan nämnda referensröstkommando och nämnda röstkommando.
Vidare enligt föreliggande uppfinning kännetecknas ett sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning av de ytterligare stegen att detektera en omgivande brusnivà med en brusnivàdetektor periodiskt vid specificerade tidsintervall, att bestämma en röstigenkänningsnivà motsvarande nämnda omgivande brusnivä baserat pà nämnda omgivande brus i en styrenhet och att jämföra likheten mellan nämnda röstkommando och nämnda referensröstkom- mando pà basis av nämnda röstigenkänningsnivà i nämnda röstkommandoigenkänningsprocessor_ Kort beskrivning av ritningarna Fig 1 är ett blockschema som visar en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning; och fig 2 är ett flödesschema som visar styrningen av röstigenkänningsnivàn enligt en utföringsform av före- liggande uppfinning.
Beskrivning av den föredragna utföringsformen Uppbyggnaden av en telefon med röstigenkänning en- ligt en utföringsform av föreliggande uppfinning beskrivs under hänvisning till fig 1 enligt följande. Styrenheten 10 styr den övergripande driften av telefonen med röst- igenkänning medelst ett styrprogram som är lagrat i min- net 34. Talkretsen 14 utgör gränssnitt för olika tonsig- naler, röstsignaler etc under styrning av styrenheten 10.
Klykreläet H/S bildar eller skär mekaniskt av talkanalen mellan talkretsen 14 och telefonledningen när telefon- luren lyfts. Talreläet 12 bildar eller avbryter talkana- len mellan talkretsen 14 och telefonledningen under styr- ning av styrenheten 10. Mikrofonen 16 omvandlar röstsig- nalen till en elektrisk signal och högtalaren 18 omvand- lar den elektriska signalen till en ljudsignal för att producera hörbar ton. Ringsignaldetektorn 34 är kopplad lO 15 20 25 30 35 520 405 5 till telefonledningen som leds till klykreläet H/S och detekterar därigenom ringsignalen som tas emot genom telefonledningen för att vidarebefordras till styrenheten lO.
De första och andra KODEKARNA 20, 22 omvandlar (ljud) versa. Röstkommandoigenkänningsprocessorn 24 behandlar analoga signaler till digitala signaler och vice digitaliserade röstkommandon som tagits emot fràn de första och andra KODEKARNA 20, 22 och spelar in den resulterade signalen i ljudminnet 26, eller detekterar inmatningsröstkommandot pà basis av röstigenkänningsnivän som levereras av styrenheten 10. När inmatningsröstkom- mandot överensstämmer med det registrerade röstkommandot som är inspelat i ljudminnet 26 överför den ovan beskriv- na röstkommandoigenkänningsprocessorn 24 data som begär exekvering av det inmatade röstkommandot till styrenheten 10.
Brusnivàdetektorn 28 består av en DC-likriktare 30 och en A/D-omvandlare 32, varigenom nivàsignalen alstras som numeriska data enligt ljudsignalnivàn som inmatas fràn den externa mikrofonen 16. DC-likriktaren 30 omvand- lar den analoga ljudsignalen från mikrofonen 16 till en DC-signal. A/D-omvandlaren 32 omvandlar signalnivàn, vil- ken baseras pà storleken av den DC-signal som är pälagd av DC-likriktaren 30, till en digital signal som numeris- ka data för att utmata nivàsignalen. Vanligtvis används A/D-omvandlaren som är anordnad i styrenheten 10, eller kan en separat A/D-omvandlare vara anordnad. Minnet 36 lagrar styrprogram och data härrörande frän telefonopera- tioner. Knappsatsen 38 genererar knappkommandon och knappdata för styrning av telefonoperationer. Display- fönstret 40 visar de ifrågavarande driftstillstànden för telefonen under styrning av styrenheten 10.
Driften av en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning beskrivs i detalj i det följande under hänvisning till fig 1. Vad först beträffar den ursprungliga registreringsprocessen 10 15 20 25 30 35 520 405 6 av referensröstkommandot överförs röstkommandoigenkän- ningsprocessorn 24 till röstkommandoinspelningsläget när den detekterar att funktionstangenten och inställnings- tangenten är nedtryckta av en användare vid standby, varvid referensröstkommandot som matas in av användaren skickas till den första KODEKEN 20 som sedan konverterar det ovanstående analoga röstkommandot till ett digitalt röstkommando, varvid det digitaliserade röstkommandot levereras till röstkommandoigenkänningsprocessor 24. När användaren trycker på avslutningsknappen på knappsatsen 38 lagrar röstkommandoigenkänningsprocessorn 24 ett sådant digitaliserat röstkommando i ljudminnet 26 under styrning av styrenheten 10.
Under hänvisning till fig 2 beskrivs i det följande driften av telefonen med röstigenkänning vid svar på be- gäran att exekvera ett röstkommando som inmatas av an- vändaren. Först beskrivs processen för detektion av brus- nivå i stegen 214-220. När ett specificerat tidsintervall har förflutit i steg 214 fortsätter styrenheten 10 till steg 216. tervall har förflutit För att undersöka om ett specificerat tidsin- (vanligtvis några få mikrosekunder) utförs brusnivådetekteringsprocessen periodiskt vid så- dana tidsintervall. I steg 216 detekterar styrenheten 10 signalnivån på basis av storleken av brusinmatningen från mikrofonen 16.
Vad beträffar brusnivàdetektionsprocessen så läggs brussignalinmatningen från mikrofonen 16 på DC-likrikta- ren 30, varvid likströmskomponenten elimineras och den resulterade brussignalen utan likströmskomponent levere- ras till A/D-omvandlaren 32, varvid den konverteras till binära sifferdata bestående av ett specificerat antal bitar som motsvarar brusnivåer för vidare överföring till styrenheten 10. Antalet bitar som representerar de ovan- stående brusnivåerna bestäms av antalet klasser med röst- igenkänningsnivàer. Om röstigenkänningsnivåerna exempel- vis klassificeras i 4 klasser kan de representeras av binära sifferdata med två bitar. När brusnivån detekteras 10 15 20 25 30 520 405 7 i steg 216 såsom beskrivits ovan fortsätter styrenheten 10 till steg 218 för att lagra en sådan brussignal i min- net 36 eller i en intern tillfällig buffert.
Efter lagring av en sådan detekterad brusnivà(sig- nal) fortsätter styrenheten 10 till steg 220 för att instruera röstkommandoigenkänningsprocessorn 24 om den föreliggande röstigenkänningsnivån som motsvarar en sådan detekterad brusnivå medelst en brusnivåklassificerings- tabell som är inlagd i minnet 36. När styrenheten 10 exempelvis tar emot binära sifferdata "01" från brusnivå- detektorn 28 levererar den röstigenkänningsnivån av andra klassen, såsom listas i följande tabell 1, till röstkom- mandoigenkänningsprocessorn 24. Ett exempel på röstigen- känningsnivåerna enligt brusnivåer listas i följande tabell 1.
[Tabell 1] Brusnivå Röstigenkänningsnivå Brustillstånd 00 Första klass Tillstånd samma som det ursprungligt registrerade 01 Andra klass Samtal möjligt 10 Tredje klass Samtal olämpligt 11 Fjärde klass Röstigenkänning omöjlig Härefter beskrivs processen för exekvering av ett röstkommando genom stegen 212-222. I steg 212 kontrolle- rar styrenheten 10 om röstigenkänningskommandot är motta- get från röstkommandoigenkänningsprocessorn 24.
För att beskriva processen för utmatning av röstkom- mandot från röstkommandoigenkänningsprocessorn 24 läggs röstkommandoinmatningen fràn mikrofonen 16 på den första KODEKEN 20 för att konverteras till en digital signal.
Den digitaliserade röstkommandoutmatningen från den första KODEKEN 20 läggs vidare på röstkommandoigenkän- ningsprocessorn 24 som sedan jämför ett sådant digita- liserat röstkommando med röstigenkänningsnivån som är mottagen från styrenheten 10 efter utförande av steg 220. lO 15 20 25 520 405 8 Eftersom en röstkommandoigenkänningsprocess där det in- (talat) röstkommandot tillhör konventionell teknik för telefoner matade röstkommandot jämförs med det registrerade med röstigenkänning utlämnas den detaljerade beskriv- ningen av detta. Sammanfattningsvis, om röstigenkännings- nivän av den andra klassen som hänvisas till av styrenhe- ten l0 är inställd pä t ex 80%, kollar röstkommandoigen- känningsprocessorn 24 om röstkarakteristiken för både de talade och registrerade röstkommandona liknar varandra med 80% eller mer. När de talade och registrerade röst- kommandona visar sig vara identiska förser röstkommando- igenkänningsprocessorn 24 styrenheten 10 med röstigenkän- ningskommandot.
När röstigenkänningskommandot i steg 212 tas emot fortsätter styrenheten sedan till steg 222 för att analy- sera röstigenkänningskommandot för den funktion som öns- kas utföras och när analysen är fullständig fortsätter styrenheten 10 till steg 224 för att utföra den funktion som önskas som ett resultat av analysen. Den detaljerade beskrivningen av processerna i steg 222 och 224 utelämnas eftersom de tillhör konventionell teknik.
Föreliggande uppfinning har säsom beskrivits ovan fördelen att röstigenkänningsnivän kan justeras med hän- syn till omgivande brusnivä, varigenom inverkan av om- givande brus minimeras och röstigenkänningshastigheten förbättras.

Claims (5)

lO 15 20 25 30 35 520 405 9 PATENTKRAV
1. Anordning för styrning av röstigenkänningsnivän i en telefon med röstigenkänning beroende av omgivande brus, omfattande: (16) till en elektrisk signal; (26) kommandon som elektriska signaler; en mikrofon för omvandling av ett röstkommando ett ljudminne för inspelning av referensröst- en röstkommandoigenkänningsprocessor (24) för be- handling av nämnda elektriska signaler; vflka1æmnmU@ käz1net:eckI1as av (28) nämnda omgivande brus som inmatas genom mikrofonen (l6); (10) ningsnivån enligt den detekterade brusnivän; och (24), använder nämnda bestämda röstigenkänningsnivà som ett en brusnivàdetektor för detektering av nivån av en styrenhet för bestämning av röstigenkän~ nämnda röstkommandoigenkänningsprocessor vilken minimivärde pà likhet mellan nämnda referensröstkommando och nämnda röstkommando.
2. Anordning för styrning av röstigenkänningsnivàn beroende av omgivande brus enligt krav 1, varvid brus- (28) omfattar: (30) komponenten från nämnda brus; och nivàdetektorn en DC-likriktare för att eliminera likströms- (32) för att konvertera det omgivande bruset utan likströmskomponenten till bi- en analog/digital-omvandlare nära sifferdata motsvarande nämnda brusnivà.
3. Sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning, vilket sätt omfattar stegen: att omvandla ett röstkommando till en elektrisk (l6); att spela in referensröstkommandon som elektriska (26): att behandla nämnda elektriska signaler i en röst- (24); signal i en mikrofon signaler i ett ljudminne kommandoigenkänningsprocessor lO l5 20 520 405 lO vilket sätt k ä n n e t e c k n a s av de ytterligare stegen: att detektera en omgivande brusnivà med en brusnivä- detektor (28) att bestämma en röstigenkänningsnivà motsvarande periodiskt vid specificerade tidsintervall; nämnda omgivande brusnivä baserat pà nämnda omgivande (l0); att jämföra likheten mellan nämnda röstkommando och brus i en styrenhet och nämnda referensröstkommando på basis av nämnda röstigen- känningsnivà i nämnda röstkommandoigenkänningsprocessor (24).
4. Sätt enligt krav 3, omfattande det ytterligare steget: att lagra den detekterade brusnivàn temporärt.
5. Sätt enligt krav 3 eller 4, omfattande de ytterligare stegen: att identifiera nämnda röstkommando som ett referensröstkommando om nämnda likhet är större än eller lika med nämnda röstigenkänningsnivà; och att exekvera nämnda identifierade röstkommando.
SE9704601A 1997-02-26 1997-12-10 Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning SE520405C2 (sv)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970005895A KR100217734B1 (ko) 1997-02-26 1997-02-26 음성인식 전화기에서 잡음에 따른 음성 인식 레벨 조절장치 및 방법

Publications (3)

Publication Number Publication Date
SE9704601D0 SE9704601D0 (sv) 1997-12-10
SE9704601L SE9704601L (sv) 1998-08-27
SE520405C2 true SE520405C2 (sv) 2003-07-08

Family

ID=19497984

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9704601A SE520405C2 (sv) 1997-02-26 1997-12-10 Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning

Country Status (3)

Country Link
KR (1) KR100217734B1 (sv)
DE (1) DE19751536C2 (sv)
SE (1) SE520405C2 (sv)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
DE10006240A1 (de) * 2000-02-11 2001-08-16 Bsh Bosch Siemens Hausgeraete Elektrogerät mit Spracheingabeeinheit und Verfahren zur Spracheingabe

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
DE3802903A1 (de) * 1988-02-01 1989-08-10 Siemens Ag Einrichtung zur uebertragung von sprache
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system

Also Published As

Publication number Publication date
KR19980069035A (ko) 1998-10-26
DE19751536A1 (de) 1998-08-27
SE9704601L (sv) 1998-08-27
SE9704601D0 (sv) 1997-12-10
KR100217734B1 (ko) 1999-09-01
DE19751536C2 (de) 2001-08-16

Similar Documents

Publication Publication Date Title
US5583965A (en) Methods and apparatus for training and operating voice recognition systems
EP0702351A2 (en) Method and apparatus for analysing audio input events in a speech recognition system
EP0757342B1 (en) User selectable multiple threshold criteria for voice recognition
US8948724B2 (en) Communication terminal offering privacy protection for hands-free functionality using an analysis process
USRE38741E1 (en) Audio communication system
US8781826B2 (en) Method for operating a speech recognition system
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
CN108108142A (zh) 语音信息处理方法、装置、终端设备及存储介质
CN107204190A (zh) 误识别订正方法、误识别订正装置以及误识别订正程序
SE520405C2 (sv) Styranordning och styrförfarande för röstigenkänningsnivå i en telefon med röstigenkänning
CN109510891A (zh) 语音控制录音装置及方法
CN102608931A (zh) 一种电子设备的控制系统及控制方法
EP1185976A1 (en) Speech recognition device with reference transformation means
JPWO2020145122A1 (ja) ヘッドホン、および音響信号処理方法、並びにプログラム
EP1091347A2 (en) Multi-stage speech recognition
KR100336960B1 (ko) 부하를줄이는음성신호인식장치및그방법
JPH02103599A (ja) 音声認識装置
KR100229864B1 (ko) 음성우편장치에서의 녹음자 음성확인 서비스 제공방법
KR100640345B1 (ko) 음성인식이 가능한 전화기에서 음성 안내방법
JP2661512B2 (ja) 会議通話装置
KR100557100B1 (ko) 음성 우편 시스템의 음성 편집 장치 및 방법
KR970057535A (ko) 텔레비젼 수상기의 음성 제어방법 및 장치
JPS6211899A (ja) 無線音声認識装置
JPH0548763A (ja) 音声認識応答装置
JPH0772895A (ja) 音声対話システム

Legal Events

Date Code Title Description
NUG Patent has lapsed