SE520405C2 - Control device and control method for voice recognition level in a voice recognition phone - Google Patents

Control device and control method for voice recognition level in a voice recognition phone

Info

Publication number
SE520405C2
SE520405C2 SE9704601A SE9704601A SE520405C2 SE 520405 C2 SE520405 C2 SE 520405C2 SE 9704601 A SE9704601 A SE 9704601A SE 9704601 A SE9704601 A SE 9704601A SE 520405 C2 SE520405 C2 SE 520405C2
Authority
SE
Sweden
Prior art keywords
voice
level
noise
voice recognition
voice command
Prior art date
Application number
SE9704601A
Other languages
Swedish (sv)
Other versions
SE9704601L (en
SE9704601D0 (en
Inventor
Young-Moo Ryu
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of SE9704601D0 publication Critical patent/SE9704601D0/en
Publication of SE9704601L publication Critical patent/SE9704601L/en
Publication of SE520405C2 publication Critical patent/SE520405C2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

The arrangement includes a sound memory for recording speech instructions, a noise level detector for detecting the level of an environment noise which is entered through a microphone, a control mechanism for determining the speech recognition level according to the detected noise level, and a speech instruction recognition processor for processing the spoken instruction based on the determined speech recognition level. The noise level detector includes a DC rectifier to eliminate a DC component from the environment noise, and an A/D converter for converting the environment noise without the DC component in binary data which correspond to the noise level.

Description

lO l5 20 25 30 35 520 405 2 träffar den ursprungliga registreringsprocessen av refe- rensröstkommandot inställer sig röstigenkänningsenheten i röstkommandoinspelningsläget då den detekterar att funk- tionstangenten och inställningstangenten är nedtryckta av användaren, varvid inmatningsröstkommandona omvandlas till digitala data för inspelning/registrering när röst- kommandona matas in genom en yttre mikrofon och avslut- ningstangenten därefter trycks ner. När inspelningen av sådana röstkommandon är avslutad avspelas de inspelade röstkommandona för att godkännas av användaren. Inspel- ningsprocessen av ett röstkommando som begär uppspelning av den automatiska telefonsvararen är t ex som följer: tryck ner röstkommandoinspelningsknappen bland funktions- knapparna -+ tryck ner inställningsknappen "*“ -+ tryck ner den avsedda funktionsknappen (dvs avspelningsknappen) -+ säg "avspelning" i mikrofonen -+ tryck ner avslutnings- knappen "#". 10 l 25 20 25 30 35 520 405 2 hits the original registration process of the reference voice command, the voice recognition unit sets itself in the voice command recording mode when it detects that the function key and the setting key are pressed by the user, whereby the input voice commands are converted into digital commands. is entered through an external microphone and the end key is then pressed. When the recording of such voice commands is completed, the recorded voice commands are played back for approval by the user. The recording process of a voice command requesting playback of the answering machine is, for example, as follows: press the voice command recording button among the function keys - + press the setting button "*" - + press the intended function button (ie play button) - + say "playback "in the microphone - + press the end key" # ".

För att beskriva processen för utförande av det talade kommandot, då det talade kommandot är inmatat av användaren, jämförs detta med det inspelade/registrerade röstkommandot, varvid det talade kommandot utförs när båda är identiska med varandra. Det talade kommandots överensstämmelse med det registrerade röstkommandot be- döms genom att jämföra röstkarakteristik som baseras på olika frekvenser beroende pà volym och tonhöjd.To describe the process of executing the spoken command, when the spoken command is entered by the user, this is compared with the recorded / recorded voice command, the spoken command being executed when both are identical to each other. The correspondence of the spoken command with the registered voice command is assessed by comparing voice characteristics based on different frequencies depending on volume and pitch.

När användaren t ex uttalar "avspelning" i mikro- fonen jämförs det talade kommandot "avspelning" och den registrerade rösten "avspelning" med varandra avseende röstkarakteristik och när båda visar sig vara identiska börjar den automatiska telefonsvararen avspela inspelade meddelanden, men när de båda inte är identiska ignoreras det talade kommandot "avspelning".For example, when the user utters "playback" in the microphone, the spoken command "playback" and the registered voice "playback" are compared with each other in terms of voice characteristics and when both turn out to be identical, the answering machine starts playing recorded messages, but when both do not are identical, the spoken command "playback" is ignored.

Röstigenkänningsnivän som används som referens för att bedöma röstkarakteristiken är förinställd. Om röst- igenkänningsnivàn t ex är inställd på 70% och det talade kommandot överensstämmer med det registrerade med 70% eller mer, sä accepteras det tidigare. Såsom nämndes ovan 10 15 20 25 30 35 520 405 3 mäste det talade kommandot ha högre överensstämmelse med det registrerade vid högre röstigenkänningsnivà för att accepteras, men vid fallet med lägre röstigenkänningsnivà kan det talade kommandot accepteras trots den lägre överensstämmelsen med det registrerade röstkommandot. Dvs när röstigenkänningsnivàn är högre kan det talade komman- dot utföras korrekt, men röstigenkänningshastigheten är lägre och på motsvarande sätt är igenkänningshastigheten högre när röstigenkänningsnivàn är lägre, men funktions- störningar orsakas.The voice recognition level used as a reference to assess the voice characteristics is preset. For example, if the voice recognition level is set to 70% and the spoken command matches the registered one with 70% or more, it is accepted earlier. As mentioned above 10 15 20 25 30 35 520 405 3 the spoken command must have a higher match with the registered one at a higher voice recognition level to be accepted, but in the case of a lower voice recognition level the spoken command can be accepted despite the lower match with the registered voice command. That is, when the voice recognition level is higher, the spoken command can be executed correctly, but the voice recognition speed is lower and correspondingly the recognition speed is higher when the voice recognition level is lower, but malfunctions are caused.

Den konventionella telefonen med röstigenkänning såsom den beskrivits ovan har nackdelen att röstigenkän- ningshastigheten för ett talat kommando blir lägre på grund av brusinblandning vid lägre signal-brusförhàllande (S/N) röstkommandot som en referensröstigenkänningsnivà_ Vid fallet med lägre S/N-förhållande för det verkligt talade när användaren registrerar det ursprungliga kommandot kan röstigenkänningshastigheten vidare bli låg även om referensröstigenkänningsnivän fràn början spelades in vid högre S/N-förhållande.The conventional voice recognition telephone as described above has the disadvantage that the voice recognition speed of a spoken command becomes lower due to noise interference at lower signal-to-noise ratio (S / N) voice command as a reference voice recognition level_ In the case of lower S / N ratio for the In fact, when the user registers the original command, the voice recognition speed may continue to be low even if the reference voice recognition level was initially recorded at a higher S / N ratio.

Sammanfattning av uppfinningen Följaktligen är det ett syfte med föreliggande upp- finning att åstadkomma en röstigenkänningsanordning som kan justera röstigenkänningsnivàn beroende pà den brus- nivå som är blandad med ett talat kommando för att för- bättra röstigenkänningshastigheten.SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a voice recognition device which can adjust the voice recognition level depending on the noise level mixed with a spoken command to improve the voice recognition speed.

Ett annat syfte med föreliggande uppfinning är att àstadkomma ett sätt att styra röstigenkänningsnivàn be- roende pà den brusnivà som är blandad med ett talat kom- mando för att förbättra röstigenkänningshastigheten.Another object of the present invention is to provide a method of controlling the voice recognition level depending on the noise level mixed with a spoken command to improve the voice recognition speed.

Enligt föreliggande uppfinning kännetecknas en anordning för styrning av röstigenkänningsnivàn i en telefon med röstigenkänning beroende på omgivande brus av en brusnivàdetektor för detektering av nivàn av nämnda omgivande brus som inmatas genom mikrofonen och en styrenhet för bestämning av röstigenkänningsnivàn enligt den detekterade brusnivàn och nämnda röstkommandoigenkän- lO 15 20 25 30 35 520 405 4 ningsprocessor, vilken använder nämnda bestämda röstigen- känningsnivà som ett minimivärde pä likhet mellan nämnda referensröstkommando och nämnda röstkommando.According to the present invention, an apparatus for controlling the voice recognition level in a voice recognition telephone depending on ambient noise is characterized by a noise level detector for detecting the level of said ambient noise input through the microphone and a voice recognition level control unit according to the detected and recognized noise level. 520 405 4 processor, which uses said determined voice recognition level as a minimum value of similarity between said reference voice command and said voice command.

Vidare enligt föreliggande uppfinning kännetecknas ett sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning av de ytterligare stegen att detektera en omgivande brusnivà med en brusnivàdetektor periodiskt vid specificerade tidsintervall, att bestämma en röstigenkänningsnivà motsvarande nämnda omgivande brusnivä baserat pà nämnda omgivande brus i en styrenhet och att jämföra likheten mellan nämnda röstkommando och nämnda referensröstkom- mando pà basis av nämnda röstigenkänningsnivà i nämnda röstkommandoigenkänningsprocessor_ Kort beskrivning av ritningarna Fig 1 är ett blockschema som visar en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning; och fig 2 är ett flödesschema som visar styrningen av röstigenkänningsnivàn enligt en utföringsform av före- liggande uppfinning.Further, according to the present invention, there is provided a method of controlling the voice recognition level depending on ambient noise in a voice recognition telephone of the further steps of detecting an ambient noise level with a noise level detector periodically at specified time intervals, determining a voice recognition level corresponding to said ambient noise level. a controller and comparing the similarity between said voice command and said reference voice command based on said voice recognition level in said voice command recognition processor. Brief Description of the Drawings Fig. 1 is a block diagram showing a voice recognition telephone according to an embodiment of the present invention; and Fig. 2 is a flow chart showing the control of the voice recognition level according to an embodiment of the present invention.

Beskrivning av den föredragna utföringsformen Uppbyggnaden av en telefon med röstigenkänning en- ligt en utföringsform av föreliggande uppfinning beskrivs under hänvisning till fig 1 enligt följande. Styrenheten 10 styr den övergripande driften av telefonen med röst- igenkänning medelst ett styrprogram som är lagrat i min- net 34. Talkretsen 14 utgör gränssnitt för olika tonsig- naler, röstsignaler etc under styrning av styrenheten 10.Description of the Preferred Embodiment The construction of a voice recognition telephone according to an embodiment of the present invention is described with reference to Fig. 1 as follows. The control unit 10 controls the overall operation of the telephone with voice recognition by means of a control program stored in the memory 34. The speech circuit 14 forms an interface for various tone signals, voice signals, etc. under the control of the control unit 10.

Klykreläet H/S bildar eller skär mekaniskt av talkanalen mellan talkretsen 14 och telefonledningen när telefon- luren lyfts. Talreläet 12 bildar eller avbryter talkana- len mellan talkretsen 14 och telefonledningen under styr- ning av styrenheten 10. Mikrofonen 16 omvandlar röstsig- nalen till en elektrisk signal och högtalaren 18 omvand- lar den elektriska signalen till en ljudsignal för att producera hörbar ton. Ringsignaldetektorn 34 är kopplad lO 15 20 25 30 35 520 405 5 till telefonledningen som leds till klykreläet H/S och detekterar därigenom ringsignalen som tas emot genom telefonledningen för att vidarebefordras till styrenheten lO.The Klykreläi H / S mechanically forms or cuts off the voice channel between the voice circuit 14 and the telephone line when the handset is lifted. The speech relay 12 forms or interrupts the speech channel between the speech circuit 14 and the telephone line under the control of the control unit 10. The microphone 16 converts the voice signal into an electrical signal and the speaker 18 converts the electrical signal into an audio signal to produce audible tone. The ring signal detector 34 is connected to the telephone line which is led to the hook relay H / S and thereby detects the ring signal which is received through the telephone line to be forwarded to the control unit 10.

De första och andra KODEKARNA 20, 22 omvandlar (ljud) versa. Röstkommandoigenkänningsprocessorn 24 behandlar analoga signaler till digitala signaler och vice digitaliserade röstkommandon som tagits emot fràn de första och andra KODEKARNA 20, 22 och spelar in den resulterade signalen i ljudminnet 26, eller detekterar inmatningsröstkommandot pà basis av röstigenkänningsnivän som levereras av styrenheten 10. När inmatningsröstkom- mandot överensstämmer med det registrerade röstkommandot som är inspelat i ljudminnet 26 överför den ovan beskriv- na röstkommandoigenkänningsprocessorn 24 data som begär exekvering av det inmatade röstkommandot till styrenheten 10.The first and second CODECARS 20, 22 convert (sound) versa. The voice command recognition processor 24 processes analog signals to digital signals and vice digitized voice commands received from the first and second CODECARS 20, 22 and records the resulting signal in the audio memory 26, or detects the input voice command based on the voice recognition level delivered. the command corresponds to the registered voice command recorded in the audio memory 26, the voice command recognition processor 24 described above transmits data requesting the execution of the input voice command to the controller 10.

Brusnivàdetektorn 28 består av en DC-likriktare 30 och en A/D-omvandlare 32, varigenom nivàsignalen alstras som numeriska data enligt ljudsignalnivàn som inmatas fràn den externa mikrofonen 16. DC-likriktaren 30 omvand- lar den analoga ljudsignalen från mikrofonen 16 till en DC-signal. A/D-omvandlaren 32 omvandlar signalnivàn, vil- ken baseras pà storleken av den DC-signal som är pälagd av DC-likriktaren 30, till en digital signal som numeris- ka data för att utmata nivàsignalen. Vanligtvis används A/D-omvandlaren som är anordnad i styrenheten 10, eller kan en separat A/D-omvandlare vara anordnad. Minnet 36 lagrar styrprogram och data härrörande frän telefonopera- tioner. Knappsatsen 38 genererar knappkommandon och knappdata för styrning av telefonoperationer. Display- fönstret 40 visar de ifrågavarande driftstillstànden för telefonen under styrning av styrenheten 10.The noise level detector 28 consists of a DC rectifier 30 and an A / D converter 32, whereby the level signal is generated as numerical data according to the audio signal level input from the external microphone 16. The DC rectifier 30 converts the analog audio signal from the microphone 16 to a DC -signal. The A / D converter 32 converts the signal level, which is based on the magnitude of the DC signal applied by the DC rectifier 30, to a digital signal as numeric data for outputting the level signal. Usually the A / D converter arranged in the control unit 10 is used, or a separate A / D converter can be arranged. The memory 36 stores control programs and data derived from telephone operations. The keypad 38 generates key commands and key data for controlling telephone operations. The display window 40 shows the operating conditions of the telephone in question under the control of the control unit 10.

Driften av en telefon med röstigenkänning enligt en utföringsform av föreliggande uppfinning beskrivs i detalj i det följande under hänvisning till fig 1. Vad först beträffar den ursprungliga registreringsprocessen 10 15 20 25 30 35 520 405 6 av referensröstkommandot överförs röstkommandoigenkän- ningsprocessorn 24 till röstkommandoinspelningsläget när den detekterar att funktionstangenten och inställnings- tangenten är nedtryckta av en användare vid standby, varvid referensröstkommandot som matas in av användaren skickas till den första KODEKEN 20 som sedan konverterar det ovanstående analoga röstkommandot till ett digitalt röstkommando, varvid det digitaliserade röstkommandot levereras till röstkommandoigenkänningsprocessor 24. När användaren trycker på avslutningsknappen på knappsatsen 38 lagrar röstkommandoigenkänningsprocessorn 24 ett sådant digitaliserat röstkommando i ljudminnet 26 under styrning av styrenheten 10.The operation of a voice recognition telephone according to an embodiment of the present invention is described in detail in the following with reference to Fig. 1. As for the original registration process 10 of the reference voice command, the voice command recognition processor 24 is transferred to the voice command recording mode when detects that the function key and the setting key are pressed by a user in standby, the reference voice command entered by the user being sent to the first CODECODE 20 which then converts the above analog voice command to a digital voice command, delivering the digitized voice command to voice command recognition 24. the user presses the end key on the keypad 38, the voice command recognition processor 24 stores such a digitized voice command in the audio memory 26 under the control of the control unit 10.

Under hänvisning till fig 2 beskrivs i det följande driften av telefonen med röstigenkänning vid svar på be- gäran att exekvera ett röstkommando som inmatas av an- vändaren. Först beskrivs processen för detektion av brus- nivå i stegen 214-220. När ett specificerat tidsintervall har förflutit i steg 214 fortsätter styrenheten 10 till steg 216. tervall har förflutit För att undersöka om ett specificerat tidsin- (vanligtvis några få mikrosekunder) utförs brusnivådetekteringsprocessen periodiskt vid så- dana tidsintervall. I steg 216 detekterar styrenheten 10 signalnivån på basis av storleken av brusinmatningen från mikrofonen 16.Referring to Fig. 2, the operation of the voice recognition telephone in response to the request to execute a voice command entered by the user is described below. First, the process for detecting noise level is described in steps 214-220. When a specified time interval has elapsed in step 214, the controller 10 proceeds to step 216. interval has elapsed To examine whether a specified time interval (usually a few microseconds), the noise level detection process is performed periodically at such time intervals. In step 216, the controller 10 detects the signal level based on the magnitude of the noise input from the microphone 16.

Vad beträffar brusnivàdetektionsprocessen så läggs brussignalinmatningen från mikrofonen 16 på DC-likrikta- ren 30, varvid likströmskomponenten elimineras och den resulterade brussignalen utan likströmskomponent levere- ras till A/D-omvandlaren 32, varvid den konverteras till binära sifferdata bestående av ett specificerat antal bitar som motsvarar brusnivåer för vidare överföring till styrenheten 10. Antalet bitar som representerar de ovan- stående brusnivåerna bestäms av antalet klasser med röst- igenkänningsnivàer. Om röstigenkänningsnivåerna exempel- vis klassificeras i 4 klasser kan de representeras av binära sifferdata med två bitar. När brusnivån detekteras 10 15 20 25 30 520 405 7 i steg 216 såsom beskrivits ovan fortsätter styrenheten 10 till steg 218 för att lagra en sådan brussignal i min- net 36 eller i en intern tillfällig buffert.As for the noise level detection process, the noise signal input from the microphone 16 is placed on the DC rectifier 30, eliminating the DC component and delivering the resulting noise signal without a DC component to the A / D converter 32, converting it to binary numerical data consisting of a specific corresponds to noise levels for further transmission to the control unit 10. The number of bits representing the above noise levels is determined by the number of classes with voice recognition levels. For example, if the voice recognition levels are classified into 4 classes, they can be represented by binary bits with two bits. When the noise level is detected in step 216 as described above, the controller 10 proceeds to step 218 to store such a noise signal in the memory 36 or in an internal temporary buffer.

Efter lagring av en sådan detekterad brusnivà(sig- nal) fortsätter styrenheten 10 till steg 220 för att instruera röstkommandoigenkänningsprocessorn 24 om den föreliggande röstigenkänningsnivån som motsvarar en sådan detekterad brusnivå medelst en brusnivåklassificerings- tabell som är inlagd i minnet 36. När styrenheten 10 exempelvis tar emot binära sifferdata "01" från brusnivå- detektorn 28 levererar den röstigenkänningsnivån av andra klassen, såsom listas i följande tabell 1, till röstkom- mandoigenkänningsprocessorn 24. Ett exempel på röstigen- känningsnivåerna enligt brusnivåer listas i följande tabell 1.After storing such a detected noise level (signal), the controller 10 proceeds to step 220 to instruct the voice command recognition processor 24 about the present voice recognition level corresponding to such a detected noise level by means of a noise level classification table stored in the memory 36, for example. against binary digit data "01" from the noise level detector 28, it supplies the second-class voice recognition level, as listed in the following Table 1, to the voice command recognition processor 24. An example of the noise recognition levels according to noise levels is listed in the following Table 1.

[Tabell 1] Brusnivå Röstigenkänningsnivå Brustillstånd 00 Första klass Tillstånd samma som det ursprungligt registrerade 01 Andra klass Samtal möjligt 10 Tredje klass Samtal olämpligt 11 Fjärde klass Röstigenkänning omöjlig Härefter beskrivs processen för exekvering av ett röstkommando genom stegen 212-222. I steg 212 kontrolle- rar styrenheten 10 om röstigenkänningskommandot är motta- get från röstkommandoigenkänningsprocessorn 24.[Table 1] Noise level Voice recognition level Noise condition 00 First class Condition same as originally registered 01 Second class Calls possible 10 Third class Calls inappropriate 11 Fourth class Voice recognition impossible Hereinafter, the process for executing a voice command through steps 212-222 is described. In step 212, the controller 10 checks whether the voice recognition command is received from the voice command recognition processor 24.

För att beskriva processen för utmatning av röstkom- mandot från röstkommandoigenkänningsprocessorn 24 läggs röstkommandoinmatningen fràn mikrofonen 16 på den första KODEKEN 20 för att konverteras till en digital signal.To describe the process for outputting the voice command from the voice command recognition processor 24, the voice command input from the microphone 16 is placed on the first CODE 20 to be converted to a digital signal.

Den digitaliserade röstkommandoutmatningen från den första KODEKEN 20 läggs vidare på röstkommandoigenkän- ningsprocessorn 24 som sedan jämför ett sådant digita- liserat röstkommando med röstigenkänningsnivån som är mottagen från styrenheten 10 efter utförande av steg 220. lO 15 20 25 520 405 8 Eftersom en röstkommandoigenkänningsprocess där det in- (talat) röstkommandot tillhör konventionell teknik för telefoner matade röstkommandot jämförs med det registrerade med röstigenkänning utlämnas den detaljerade beskriv- ningen av detta. Sammanfattningsvis, om röstigenkännings- nivän av den andra klassen som hänvisas till av styrenhe- ten l0 är inställd pä t ex 80%, kollar röstkommandoigen- känningsprocessorn 24 om röstkarakteristiken för både de talade och registrerade röstkommandona liknar varandra med 80% eller mer. När de talade och registrerade röst- kommandona visar sig vara identiska förser röstkommando- igenkänningsprocessorn 24 styrenheten 10 med röstigenkän- ningskommandot.The digitized voice command output from the first CODE 20 is further placed on the voice command recognition processor 24 which then compares such a digitized voice command with the voice recognition level received from the controller 10 after performing step 220. 10 15 15 25 25 520 405 8 Since a voice command If the voice (voice) command belongs to conventional technology for telephones fed, the voice command is compared with the registered one with voice recognition, the detailed description of this is given. In summary, if the voice recognition level of the second class referred to by the controller 10 is set to, for example, 80%, the voice command recognition processor 24 checks whether the voice characteristics of both the spoken and registered voice commands are 80% or more similar. When the spoken and recorded voice commands are found to be identical, the voice command recognition processor 24 provides the controller 10 with the voice recognition command.

När röstigenkänningskommandot i steg 212 tas emot fortsätter styrenheten sedan till steg 222 för att analy- sera röstigenkänningskommandot för den funktion som öns- kas utföras och när analysen är fullständig fortsätter styrenheten 10 till steg 224 för att utföra den funktion som önskas som ett resultat av analysen. Den detaljerade beskrivningen av processerna i steg 222 och 224 utelämnas eftersom de tillhör konventionell teknik.When the voice recognition command in step 212 is received, the controller then proceeds to step 222 to analyze the voice recognition command for the function desired to be performed, and when the analysis is complete, the controller 10 proceeds to step 224 to perform the function desired as a result of the analysis. . The detailed description of the processes in steps 222 and 224 is omitted because they belong to conventional technology.

Föreliggande uppfinning har säsom beskrivits ovan fördelen att röstigenkänningsnivän kan justeras med hän- syn till omgivande brusnivä, varigenom inverkan av om- givande brus minimeras och röstigenkänningshastigheten förbättras.As described above, the present invention has the advantage that the voice recognition level can be adjusted with respect to ambient noise level, thereby minimizing the effect of ambient noise and improving the voice recognition speed.

Claims (5)

lO 15 20 25 30 35 520 405 9 PATENTKRAVlO 15 20 25 30 35 520 405 9 PATENT REQUIREMENTS 1. Anordning för styrning av röstigenkänningsnivän i en telefon med röstigenkänning beroende av omgivande brus, omfattande: (16) till en elektrisk signal; (26) kommandon som elektriska signaler; en mikrofon för omvandling av ett röstkommando ett ljudminne för inspelning av referensröst- en röstkommandoigenkänningsprocessor (24) för be- handling av nämnda elektriska signaler; vflka1æmnmU@ käz1net:eckI1as av (28) nämnda omgivande brus som inmatas genom mikrofonen (l6); (10) ningsnivån enligt den detekterade brusnivän; och (24), använder nämnda bestämda röstigenkänningsnivà som ett en brusnivàdetektor för detektering av nivån av en styrenhet för bestämning av röstigenkän~ nämnda röstkommandoigenkänningsprocessor vilken minimivärde pà likhet mellan nämnda referensröstkommando och nämnda röstkommando.A device for controlling the voice recognition level of a voice recognition telephone depending on ambient noise, comprising: (16) an electrical signal; (26) commands as electrical signals; a microphone for converting a voice command, a sound memory for recording the reference voice, a voice command recognition processor (24) for processing said electrical signals; v fl ka1æmnmU @ käz1net: eckI1as of (28) said ambient noise input through the microphone (16); (10) the level of noise according to the detected noise level; and (24), using said determined voice recognition level as a noise level detector for detecting the level of a control unit for determining voice recognition, said voice command recognition processor which minimum value of similarity between said reference voice command and said voice command. 2. Anordning för styrning av röstigenkänningsnivàn beroende av omgivande brus enligt krav 1, varvid brus- (28) omfattar: (30) komponenten från nämnda brus; och nivàdetektorn en DC-likriktare för att eliminera likströms- (32) för att konvertera det omgivande bruset utan likströmskomponenten till bi- en analog/digital-omvandlare nära sifferdata motsvarande nämnda brusnivà.A device for controlling the voice recognition level depending on ambient noise according to claim 1, wherein the noise (28) comprises: (30) the component from said noise; and the level detector a DC rectifier to eliminate direct current (32) for converting the ambient noise without the direct current component to an analog / digital converter near the numerical data corresponding to said noise level. 3. Sätt att styra röstigenkänningsnivàn beroende av omgivande brus i en telefon med röstigenkänning, vilket sätt omfattar stegen: att omvandla ett röstkommando till en elektrisk (l6); att spela in referensröstkommandon som elektriska (26): att behandla nämnda elektriska signaler i en röst- (24); signal i en mikrofon signaler i ett ljudminne kommandoigenkänningsprocessor lO l5 20 520 405 lO vilket sätt k ä n n e t e c k n a s av de ytterligare stegen: att detektera en omgivande brusnivà med en brusnivä- detektor (28) att bestämma en röstigenkänningsnivà motsvarande periodiskt vid specificerade tidsintervall; nämnda omgivande brusnivä baserat pà nämnda omgivande (l0); att jämföra likheten mellan nämnda röstkommando och brus i en styrenhet och nämnda referensröstkommando på basis av nämnda röstigen- känningsnivà i nämnda röstkommandoigenkänningsprocessor (24).A method of controlling the voice recognition level depending on the ambient noise of a voice recognition telephone, the method comprising the steps of: converting a voice command into an electric one (l6); recording reference voice commands as electrical (26): processing said electrical signals into a voice (24); signal in a microphone signals in a sound memory command recognition processor 10 l5 20 520 405 10 which method is known by the further steps: detecting an ambient noise level with a noise level detector (28) to determine a voice recognition level corresponding periodically at specified time intervals; said ambient noise level based on said ambient (l0); comparing the similarity between said voice command and noise in a controller and said reference voice command based on said voice recognition level in said voice command recognition processor (24). 4. Sätt enligt krav 3, omfattande det ytterligare steget: att lagra den detekterade brusnivàn temporärt.The method of claim 3, comprising the further step of: temporarily storing the detected noise level. 5. Sätt enligt krav 3 eller 4, omfattande de ytterligare stegen: att identifiera nämnda röstkommando som ett referensröstkommando om nämnda likhet är större än eller lika med nämnda röstigenkänningsnivà; och att exekvera nämnda identifierade röstkommando.A method according to claim 3 or 4, comprising the further steps of: identifying said voice command as a reference voice command if said similarity is greater than or equal to said voice recognition level; and executing said identified voice command.
SE9704601A 1997-02-26 1997-12-10 Control device and control method for voice recognition level in a voice recognition phone SE520405C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970005895A KR100217734B1 (en) 1997-02-26 1997-02-26 Method and apparatus for controlling voice recognition threshold level for voice actuated telephone

Publications (3)

Publication Number Publication Date
SE9704601D0 SE9704601D0 (en) 1997-12-10
SE9704601L SE9704601L (en) 1998-08-27
SE520405C2 true SE520405C2 (en) 2003-07-08

Family

ID=19497984

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9704601A SE520405C2 (en) 1997-02-26 1997-12-10 Control device and control method for voice recognition level in a voice recognition phone

Country Status (3)

Country Link
KR (1) KR100217734B1 (en)
DE (1) DE19751536C2 (en)
SE (1) SE520405C2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
DE10006240A1 (en) * 2000-02-11 2001-08-16 Bsh Bosch Siemens Hausgeraete Electric cooking appliance controlled by voice commands has noise correction provided automatically by speech processing device when noise source is switched on

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870292A (en) * 1981-10-22 1983-04-26 日産自動車株式会社 Voice recognition equipment for vehicle
DE3802903A1 (en) * 1988-02-01 1989-08-10 Siemens Ag LANGUAGE TRANSFER DEVICE
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system

Also Published As

Publication number Publication date
KR19980069035A (en) 1998-10-26
DE19751536A1 (en) 1998-08-27
SE9704601L (en) 1998-08-27
SE9704601D0 (en) 1997-12-10
KR100217734B1 (en) 1999-09-01
DE19751536C2 (en) 2001-08-16

Similar Documents

Publication Publication Date Title
US5583965A (en) Methods and apparatus for training and operating voice recognition systems
EP0702351A2 (en) Method and apparatus for analysing audio input events in a speech recognition system
EP0757342B1 (en) User selectable multiple threshold criteria for voice recognition
US8948724B2 (en) Communication terminal offering privacy protection for hands-free functionality using an analysis process
USRE38741E1 (en) Audio communication system
US8781826B2 (en) Method for operating a speech recognition system
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
CN108108142A (en) Voice information processing method, device, terminal device and storage medium
CN107204190A (en) Misrecognition correction method, misrecognition correct device and misrecognition corrects program
SE520405C2 (en) Control device and control method for voice recognition level in a voice recognition phone
CN109510891A (en) Voice control recording device and method
CN102608931A (en) System and method for controlling electronic equipment
EP1185976A1 (en) Speech recognition device with reference transformation means
JPWO2020145122A1 (en) Headphones, acoustic signal processing methods, and programs
EP1091347A2 (en) Multi-stage speech recognition
KR100336960B1 (en) System and method for recognizing voice signal for reducing load
JPH02103599A (en) Voice recognizing device
KR100229864B1 (en) Method for recognizing recoder in voice mail system
KR100640345B1 (en) Voice guidance on the phone with voice recognition
JP2661512B2 (en) Conference call device
KR100557100B1 (en) Voice editing system and method for voice mail system
KR970057535A (en) Voice control method and apparatus for television receiver
JPS6211899A (en) Wireless voice recognition equipment
JPH0548763A (en) Voice recognizing and answering device
JPH0772895A (en) Sound conversation system

Legal Events

Date Code Title Description
NUG Patent has lapsed