WO2003052737A1 - Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale - Google Patents

Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale Download PDF

Info

Publication number
WO2003052737A1
WO2003052737A1 PCT/JP2002/013182 JP0213182W WO03052737A1 WO 2003052737 A1 WO2003052737 A1 WO 2003052737A1 JP 0213182 W JP0213182 W JP 0213182W WO 03052737 A1 WO03052737 A1 WO 03052737A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
registered
recognition
word
speech
Prior art date
Application number
PCT/JP2002/013182
Other languages
English (en)
French (fr)
Inventor
Seiichi Kashihara
Hideyuki Yamagishi
Katsumasa Nagahama
Tadasu Oishi
Original Assignee
Asahi Kasei Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kabushiki Kaisha filed Critical Asahi Kasei Kabushiki Kaisha
Priority to JP2003553549A priority Critical patent/JP4263614B2/ja
Priority to US10/499,220 priority patent/US20050043948A1/en
Priority to AU2002354201A priority patent/AU2002354201A1/en
Publication of WO2003052737A1 publication Critical patent/WO2003052737A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Definitions

  • the present invention relates to a voice recognition method for controlling equipment used in a living environment of a cast by voice, a remote control device using the voice recognition method, an information terminal device, a telephone communication terminal, and a voice recognition device.
  • the remote control device In the conventional remote control device, one remote control device is required for one device, and it is generally impossible to remotely control another ⁇ using the same remote control device. Met. For example, it is not possible to remotely control an air conditioner using a TV remote control device. Also, the remote control device is provided with a number of switches according to the operation contents to be controlled, and according to the pressed state of the switches, a control signal for the target ⁇ is selected and transmitted to the target device. You. In the case of a video tape recorder, etc., there are a number of necessary operation buttons, such as a button for selecting the TV station to receive, a button for specifying the time for program reservation, and a button for setting the running state of the tape. However, there is a problem in that it is complicated. In addition, since a remote control device is required for each target ⁇ , it is necessary for the user to always know exactly which remote control device corresponds to which target device, which is troublesome to operate. was there.
  • a remote control device for eliminating a large number of button switches as described above and for controlling and controlling a plurality of target devices with a single remote control device is disclosed in, for example, Japanese Patent Application Laid-Open No. Hei. It is disclosed in Japanese Patent Application Publication No.
  • a remote control content is instructed by voice input, and a control signal is generated according to the voice recognition result.
  • This prior art voice recognition remote control device In order to support multiple operation target devices, a rewritable map that converts the speech recognition result into a device control code is prepared, and the contents of this map correspond to the operation device to be operated. Has been rewritten. This rewriting of the map requires the work of replacing the IC card in which the conversion code map is stored for each object ⁇ . If the object »is changed, the corresponding IC card is searched. There was a problem that it had to be done.
  • Japanese Unexamined Patent Application Publication No. 57-20859 / 96 discloses a television receiver when a voice utterance by a user is detected. There is disclosed a means for improving the recognition rate of a voice recognition circuit by muting a sound emitting means such as a sound generator. Further, Japanese Patent Application Laid-Open No. 10-282933 discloses that a voice command input from a voice input device, an audio signal, and a signal composed of other noise are used as a space between a speaker and a microphone. The audio signal transmitted by the audio device is evaluated at the position of the audio input device, and the sound compensator used to correct the microphone signal is provided.
  • Such a theme is not limited to a remote control device, but also exists in other devices such as an information terminal device and a telephone communication terminal as long as the device performs voice recognition. .
  • An object of the present invention is to provide a remote control device, an information terminal device, an I ⁇ communication terminal, and a voice recognition device using the voice recognition method. Disclosure of the invention
  • the speech recognition method according to the invention converts an input speech of a speech recognition person into an audio sequence, and an acoustic model corresponding to the audio parameter sequence and a speech unit label sequence for a registered word. And a speech unit label sequence for recognizing unnecessary words other than the registered word in parallel with the speech unit label sequence for the registered word in the speech recognition method of performing speech recognition by comparing In the matching process using the video algorithm, the likelihood of a speech unit label sequence for recognizing unnecessary words other than the registered words is also calculated at the same time, so that unnecessary words are input as input speech. (3) It is characterized in that unnecessary words are recognized as unnecessary words.
  • the speech is converted into an audio parameter sequence, and the likelihood of the registered word recognition acoustic model corresponding to the speech unit label sequence for the registered word is compared with the acoustic parameter sequence, and
  • the feature is that the likelihood of an acoustic model for unnecessary word recognition corresponding to a speech unit label sequence for speech recognition is calculated, and speech recognition is performed based on those likelihoods.
  • the audio for the registered word is calculated to be small, and the likelihood of the acoustic model corresponding to the speech unit label sequence for the unnecessary word is calculated to be large. Based on those likelihoods, the registration word is calculated. Voices other than the registered words can be recognized as unnecessary words, and voices other than the registered words can be prevented from being erroneously recognized as registered words.
  • the acoustic model corresponding to the previous speech unit label sequence is an acoustic model using a hidden Markov model
  • the speech unit label sequence for recognizing the unnecessary word is used to level all the speech unit models used. It may be composed of a virtual voice unit model that is frightened. In other words, the unnecessary word recognition acoustic model may be aggregated into a virtual voice unit model obtained by leveling all voice unit models.
  • the hidden Markov model corresponding to the speech unit label sequence for the registered word is added to the acoustic parameter / night sequence.
  • the likelihood is calculated to be larger than the likelihood of a virtual speech unit model obtained by leveling all speech unit models, and based on those likelihoods.
  • the registered words included in the voice can be recognized.
  • all the voice unit models are leveled for the audio parameter overnight sequence.
  • the likelihood of the virtual speech unit model thus calculated is calculated to be larger than the likelihood of the hidden Markov model corresponding to the speech unit label sequence for the registered word, and speech other than the registered word is determined based on those likelihoods. It can be recognized as an unnecessary word and speech other than the registered word can be prevented from being erroneously recognized as a registered word.
  • the acoustic model corresponding to the ifB speech unit Labesole sequence is an acoustic model using a hidden Markov model
  • the speech unit label sequence for recognizing the unnecessary word is a self-loop type consisting of vowel-only phonemes.
  • the network configuration may be as follows.
  • the unnecessary word recognition ffl acoustic model consists of a collection of phoneme models corresponding to the vowel phonemes, and has a self-loop from the end point to the start point of the collection. Then, the likelihood of the phoneme model group corresponding to the vowel phoneme is calculated for each sound parameter overnight for the sound parameter overnight series, and the largest of them is integrated to obtain the likelihood of the unnecessary word model. May be used.
  • the presence of a consonant phoneme included in the audio parameter sequence causes the speech parameter sequence to change.
  • the likelihood of a hidden Markov model corresponding to a speech unit label sequence for a registered word is calculated to be larger than the likelihood of a self-loop network configuration composed of vowel-only phonemes.
  • the registered words included in the speech can be recognized based on the speech.
  • a speech that does not include a registered word such as a living noise that is, a speech other than a registered word is converted into an audio parameter overnight sequence, it is a phoneme of a vowel included in the audio parameter overnight sequence, and Due to the presence of words that are not included in the word, the likelihood of a self-loop network configuration consisting of vowel-only phonemes corresponds to the speech unit label sequence for registered words for that acoustic parameter. Is calculated larger than the likelihood of the hidden Markov model to be recognized, and based on those likelihoods, speech other than the registered word can be recognized as an unnecessary word, and speech other than the registered word is prevented from being erroneously recognized as a registered word. it can.
  • a remote control device capable of remotely controlling a plurality of operation targets by voice; a storage unit for storing a recognition target word instructing a remote operation; a unit for inputting a voice uttered by a user; Recognition means for recognizing the episode 3 recognition words included in the speech based on the storage means, and transmission means for transmitting a device control signal corresponding to the recognition words recognized by the speech recognition means.
  • the voice recognition method uses the voice recognition method according to any one of claims 1 to 3.
  • the voice detection means for detecting the user's voice
  • the voice recognition means for recognizing the registered words included in the voice detected by the voice detection means
  • the registered words recognized by the voice recognition means Transmitting means for transmitting a corresponding device control signal
  • the voice recognizing means includes a registration word included in the voice detected by the voice detecting means, and the registered word included in any one of claims 1 to 3. It is characterized by performing recognition using the described voice recognition method.
  • the means and the voice input unit of the communication unit may be provided separately.
  • control means for executing at least one of a voice mail sending / receiving process, a voice schedule management process, a voice memo process, and a voice notification process.
  • an information terminal device comprises: a voice detection unit that detects a user's voice; and a registered word included in the voice detected by the voice detection unit. Based on the voice recognition means to be executed and the registered words recognized by the voice recognition means, at least one of the following processes: transmitting and receiving a method by voice, schedule management by voice, memo processing by voice, and notification by voice. Control means for executing a registered word included in the voice detected by the voice detection means, and a registered word included in the voice detected by the voice detection means according to any one of claims 1 to 3. Recognition may be performed using a voice recognition method.
  • the user is required to input the voice of the mail, the voice is converted into a voice message, the voice message is attached to an e-mail and transmitted, and
  • An example is a process of receiving an e-mail attached with a voice message and reproducing the voice data.
  • the schedule management process using voice for example, the user is required to input the content of the schedule by voice, the voice is converted into voice data, and the execution date of the schedule is input.
  • the voice memo processing includes a process in which a user inputs memo content by voice, the voice is converted into voice data, and the voice data is reproduced at the request of the user.
  • the notification process by voice for example, the user is required to input the content of the notification, and the voice is decoded by voice.
  • a user does not include a registered word such as living noise, that is, when a voice other than the registered word is uttered by the user, the sound of the unnecessary word is added to the sound / noise series of that sound.
  • the likelihood of the acoustic model corresponding to the unit label sequence is calculated to be large, and the likelihood of the acoustic model corresponding to the speech unit label sequence for the registered word is calculated to be small.
  • the voice can be recognized as an unnecessary word, and a voice other than the registered word can be prevented from being erroneously recognized as a registered word, and a malfunction of the information terminal device can be prevented.
  • voice mail The user can execute transmission / reception processing, schedule management processing by voice, memo processing by voice, and notification processing by voice only by uttering the registered word, and no physical operation is required.
  • a communication terminal is a telephone communication terminal connectable to a public telephone line network or an Internet network, and a voice input / output means for inputting / outputting voice.
  • Voice recognition means for recognizing input voice
  • storage means for storing personal information including the name and telephone number of the other party, screen display means, and control means for controlling each of them.
  • the input / output means has an independent input / output system for the communication unit and the voice recognition unit. In other words, it has a voice input unit that allows the user to input registered words related to telephone operations by voice, and a voice recognition unit that recognizes the registered words input by the voice input unit, and a voice recognition unit that allows the user to talk.
  • a communication unit having a voice input unit and controlling a connection state to a communication line based on the registered word recognized by the voice recognition unit; and a voice input unit of the voice recognition unit and a voice of the communication unit.
  • the feature is that the input section and the input section are provided separately.
  • the user's voice can be input to the voice recognition unit even when the user is in a call and the input / output system of the communication unit is dedicated to the call.
  • the communication unit can be controlled.
  • a telephone communication terminal is a communication terminal connectable to a public telephone network or an Internet network, and has a voice input / output device for inputting and outputting voice.
  • Output means voice recognition means for recognizing input voice
  • storage means for storing and storing personal information including the name and telephone number of the called party, and screen display means, and control means for controlling each of them.
  • the storage means includes a name vocabulary list of a specific name including a pre-registered personal name, a number vocabulary list of an arbitrary s ⁇ number, a call operation vocabulary list of a telephone operation during a call, and an incoming mm operation at the time of an incoming call.
  • An operation vocabulary list is provided separately, and all telephone operations relating to outgoing / cutting / incoming calls can be performed by voice input using the tifB voice recognition means, the ⁇ ⁇ storage means, and the control means.
  • the storage means stores a name vocabulary list in which a specific name is registered, a number vocabulary list in which an arbitrary telephone number is registered, and telephone operation related words during a call.
  • the call operation vocabulary list and the incoming call operation vocabulary list in which telephone operation related words at the time of incoming call are registered are individually stored, and the voice recognition means outputs the recognition result by the voice recognition means or
  • a vocabulary list stored in the so-called three storage means is selected according to the state of the communication line, and referring to the vocabulary list, it is recognized that words included in the voice input by the voice input / output means are recognized. It is a feature.
  • the method of recognizing the telephone number is as follows: a predetermined number of vocabulary lists are stored in the memory 3 according to the input of continuous utterances of all digits, and the voice recognition means recognizes an arbitrary telephone number using a telephone number vocabulary network. You may make it recognize the digit string pattern which consists of the number of digits or the symbol.
  • the storage unit stores a serial number vocabulary list in which a number string corresponding to all digits of the SI tongue number is registered, and the voice recognition unit recognizes a telephone number included in the input voice. At times, the serial number vocabulary list stored in the f! 3 storage means may be referred to.
  • the screen display means may have an utterance timing display function for notifying the utterance timing.
  • the voice recognition means may notify that the registered word can be recognized.
  • the user can utter the registered word at an appropriate timing, and the registered word can be appropriately recognized. .
  • the second control that executes at least one of a voice mail sending / receiving process, a voice schedule management process, a voice memo process, and a voice notification process based on the voice input recognized by the voice recognition means.
  • Means may be provided. With this configuration, users can send and receive e-mails by voice » schedule management processing by voice, memo processing by voice, and notification processing by voice, simply by speaking a registered word. No special operation is required.
  • the third speech recognition means may recognize the registered word included in the input speech by using the speech recognition method according to any one of claims 1 to 3.
  • the audio parameter label sequence of the unnecessary word is calculated to be large, the likelihood of the acoustic model corresponding to the speech unit label sequence for the registered word is calculated to be small, and voices other than the registered words are converted to unnecessary words based on those likelihoods.
  • a voice recognition device recognizes voice detection means for detecting a user's voice, and recognizes a registered word included in the voice detected by the voice detection means. It is characterized by comprising voice recognition means and utterance evening notification means for notifying that the voice detection means is in a state where the registered word can be recognized.
  • the user can utter the registered word at an appropriate timing by speaking when the user is notified that the registered word is recognizable. Can be recognized and recognized.
  • a sound volume notifying means for notifying the loudness of the sound detected by the sound detecting means.
  • FIG. 1 is a block diagram of a remote control device according to a first embodiment of the present invention.
  • FIG. 2 is a schematic configuration diagram of the remote control device of FIG.
  • FIG. 3 is a flowchart of a calculation process executed by the remote control device of FIG.
  • FIG. 4 is an explanatory diagram for explaining an image displayed on the LCD display device in the arithmetic processing of FIG.
  • FIG. 5 is an explanatory diagram for explaining a speech recognition process performed in the calculation process of FIG. .
  • FIG. 6 is an explanatory diagram for explaining a vocabulary network used in the speech recognition processing of FIG.
  • FIG. 7 is an explanatory diagram for explaining a vocabulary network in which the unnecessary word model in FIG. 6 is a virtual phoneme model obtained by leveling all phoneme models.
  • FIG. 8 is an explanatory diagram for explaining a vocabulary network in which the unnecessary word model of FIG. 6 is a self-loop of a phoneme group constituting a vowel.
  • Fig. 9 illustrates a vocabulary network in which the unnecessary word model in Fig. 6 is a combination of a virtual phoneme model obtained by leveling all phoneme models and a self-loop of phoneme groups constituting vowels.
  • FIG. 9 illustrates a vocabulary network in which the unnecessary word model in Fig. 6 is a combination of a virtual phoneme model obtained by leveling all phoneme models and a self-loop of phoneme groups constituting vowels.
  • FIG. 10 is an explanatory diagram for explaining a vocabulary network in which the unnecessary word model of FIG. 6 is a phoneme group constituting a vowel.
  • FIG. 11 is an explanatory diagram for explaining a vocabulary network that does not use an unnecessary word model.
  • FIG. 12 is a block diagram of an information terminal device according to the second embodiment of the present invention.
  • FIG. 13 is a schematic configuration diagram of the information terminal device of FIG.
  • FIG. 14 is a flowchart of an arithmetic process performed by the terminal device of FIG.
  • FIG. 15 is an explanatory diagram for explaining an image displayed on the LCD display device in the arithmetic processing of FIG.
  • FIG. 16 is a flowchart of a calculation process executed by the information terminal device of FIG.
  • FIG. 17 is a flowchart of the arithmetic processing performed by the information terminal device of FIG.
  • FIG. 18 is an explanatory diagram for describing an image displayed on the LCD display device in the arithmetic processing of FIG.
  • FIG. 19 is an explanatory diagram for describing an image displayed on the LCD display device in the arithmetic processing of FIG.
  • FIG. 2 ⁇ is a flowchart of the arithmetic processing executed in the information terminal device of FIG.
  • FIG. 21 is an explanatory diagram for describing an image displayed on the LCD display device in the arithmetic processing of FIG. 20.
  • FIG. 22 is a flowchart of a calculation process executed by the information terminal device of FIG.
  • FIG. 23 is a block diagram of a telephone communication terminal with a voice recognition function according to a third embodiment of the present invention.
  • FIG. 24 is a block diagram of a telephone communication terminal with a voice recognition function which is a modification of the third embodiment of the present invention.
  • FIG. 25 is a flowchart of the arithmetic processing executed by the central control circuit of FIG.
  • FIG. 26 is an explanatory diagram for describing an image displayed on the LCD display device in the arithmetic processing of FIG. 25.
  • FIG. 27 is a flowchart of the arithmetic processing executed by the central control circuit of FIG.
  • FIG. 28 is an explanatory diagram for describing an image displayed on the LCD display device in the arithmetic processing of FIG. 27.
  • FIG. 29 is a flowchart of the arithmetic processing executed by the central control circuit of FIG.
  • FIG. 30 is a flowchart of the arithmetic processing executed by the central control circuit of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a main block diagram of a voice recognition remote control device according to a first embodiment of the present invention.
  • the remote control device shown in this figure is a remote control that recognizes and judges the user's voice. It comprises a control book, that is, a remote control device main body 1, and an infrared light emitting section 2 for transmitting a control signal as an infrared signal based on the recognition result.
  • the user's voice is input from the voice input device (microphone 3) of the remote control main unit 1, passes through the amplifier 4, and is digitized by the A / D converter I5. ) Is converted to.
  • the input analog voice is not particularly limited, but is usually sampled at a specific frequency in the range of 8 KHz to 16 KHz and digitally converted.
  • the digitized acoustic parameters are stored in the voice instruction recognition circuit 6 and stored in the voice instruction information memory 7 with respect to the registered vocabulary list for each voice unit which is a constituent unit of each word.
  • the closest word is extracted from the registered vocabulary list by performing the likelihood calculation with the above acoustic parameters.
  • words in the registered vocabulary list stored and registered in the voice instruction information memory 7 Is calculated for each of these constituent units (hereinafter referred to as a voice unit), and the one with the largest integrated value of the likelihood is extracted as the registered word closest to the user's voice.
  • the likelihood of the unnecessary word model stored and registered in the voice instruction information memory 7 is simultaneously calculated with respect to the digital parameter that has been subjected to the digitization, and the unnecessary word model When the likelihood of the registered word is larger than the likelihood of the registered word, it is assumed that the registered word has not been extracted from the sound parameter that has been subjected to the digitization.
  • syllables phonemes, semi-syllables, Diphones (two sets of phonemes), Triphones (three sets of phonemes), and the like may be used as appropriate as speech units.
  • a case where a phoneme is used as a unit will be described.
  • control codes corresponding to each registered word are stored, and the control codes corresponding to the registered words extracted by the voice instruction recognition circuit 6, that is, the voice recognition is performed. Is called from the voice instruction information memory 7, and a control code is transmitted to the IRED drive / control circuit 9 of the infrared emitting device 2 via the central control circuit 8. Then, the IRED drive 'control circuit 9 calls an IRED code corresponding to the control code from the IRED code information memory 10, and transmits the IRED code as an infrared signal from the IRED 11.
  • the recognition result is displayed on the LCD display device 12 to visually notify the user, or the recognition result is transmitted to the response voice control circuit 13 to perform the recognition.
  • the response voice data corresponding to the result is called out from the response voice information memory 14, and the voice voice data is converted to analog voice via the D / A converter 15 and the amplifier 16 as a voice. (Speaker 17) to inform the user audibly.
  • the infrared light emitting section 2 is provided with a photo sensor 18 and has an IR
  • the infrared code to be used is transmitted to the photo sensor 18 so that the infrared code is IR through the sensor-in circuit circuit 19
  • FIG. 3 shows a flowchart of a calculation process that is executed by the voice recognition remote control device of FIG. 2 and that transmits an infrared code in response to a user's voice.
  • this flowchart no step for communication is provided, but information obtained by the arithmetic processing is updated and stored in the storage device as needed, and necessary information is read from the storage device as needed.
  • This arithmetic processing is executed when the user starts the remote control device.
  • step S1 the sound detected by the microphone 3 is read and included in the sound.
  • a speech recognition process for recognizing whether a start password that is a registered word is included, or whether noise or speech other than the start password, that is, only unnecessary words, is included is executed.
  • the start password can be set in advance to any word, such as the user's favorite words or the user's own voice, but is read from the microphone 3 even if voice recognition is always activated. It is necessary to devise ways to prevent the device from malfunctioning due to noise in the living room, etc., and use words that are not commonly used.
  • it is at least 3 syllables and at most 20 syllables, More preferably, it is preferable to use a word composed of not less than 5 syllables and not more than 15 syllables. For example, words such as "open sesame" can be used.
  • step S2 it is determined whether or not the start password is included in the voice in step S1, and if the start password is included, (YE S)
  • step S3 the process again proceeds to step S1 of volume 3. Therefore, if only noise or voice other than the start password is input from the microphone 3, that is, only noise or voice that does not include the start password is recognized as an unnecessary word, it is determined that there is no user, and the correct start password is input. It will be in a state of waiting for voice input until.
  • step S3 the voice detected by the microphone 3 is read, and the name of the control target device, which is a registered word included in the voice, is included, or noise or voice other than the name of the control target «, that is, unnecessary.
  • a speech recognition process described later for recognizing whether only words are included is executed.
  • the control target ⁇ , “TV”, “Video”, “Air conditioner”, “Audio”, “Lighting”, “Curtain”, “Telephone”, “Email”, “E-mail”, and “Voice memo” ”And other words (registered words) for selecting devices and functions. If only words other than registered words, that is, words or noise that do not include registered words, are entered, they are recognized as unnecessary words. The system will be in a standby state until the name of the device to be controlled is newly input.
  • step S4 it is determined whether or not it has been recognized that the name of the target device that can be controlled in step S3 is included in the voice, and the name of the target device that can be controlled is included. For ⁇ , go to (YES) step S6; otherwise, (NO) go to step S3 again. Therefore, once it is recognized that the voice detected by the microphone 3 includes the start path code, the user enters a mode for selecting a target device to be controlled, and the control to be remotely controlled is performed. It waits for voice input until the name of the target device is input. If the registered word to be recognized is not uttered even after the predetermined time has elapsed, the mode returns to the mode for recognizing the start password (steps S1 and S2) (not shown in FIG. 3). It is in a state of waiting for voice input until the start pass is input, that is, a standby state.
  • step S6 the sound detected by the microphone 3 is read and Executes voice recognition processing to be described later to recognize whether the voice contains instructions in the control target device ⁇ that is, a registered word, or noise or voice other than the instruction contents for the control target ⁇ , that is, only unnecessary words.
  • a mode is set in which the instruction content that can control the control target mi is accepted. For example, when “TV” is selected as the control target key, an image related to TV operation is displayed on the LCD display device 12 as shown in FIG. 4, and the power is turned on and off, the channel number is specified, and broadcast is performed. In this mode, you can specify the station and adjust the volume.
  • step S7 it is determined whether or not it is recognized in step S6 that the instruction content for the target device is included in the voice, and if the instruction content for the target device is included, Goes to step S8 (YES), otherwise (NO) goes to step S6 again. In other words, the system is in a standby state until a controllable instruction is input.
  • step S8 the infrared code corresponding to the instruction content recognized in step S6 is transmitted to the infrared light emitting unit 2. That is, when the instruction content is input by voice, the corresponding infrared code is called based on the recognition result of the instruction content, and the infrared code is transmitted from the infrared light emitting unit 2 to the target ⁇ . In this mode, if commands or noises other than those that can be controlled are input, wisid ⁇ i will be used as unnecessary words.
  • step S9 it is determined whether or not the instruction content recognized in the step S6 is a word indicating the end (for example, “end”). YE S) Terminates this arithmetic processing, otherwise proceeds to step S 3 in (NO) volume 3. That is, in this mode, when a control instruction indicating an end, for example, voice input of “end” is input, the mode returns to the mode (steps 33 and 34) for selecting a controllable target device. In addition, even if the registered word concerning the key control to be recognized, that is, the control instruction is not uttered even after the predetermined time elapses, the mode returns to the mode for selecting the control target device (not shown in FIG. 3). ).
  • step S9 it is determined whether or not the instruction content recognized in the step S6 is a word (for example, “standby”) indicating a wait, and is a word indicating a wait. If (YE S), the process proceeds to step S1, otherwise (NO), the process proceeds to step S10. In other words, in the mode for selecting the control target ⁇ ⁇ ⁇ , if a command to make the voice recognition remote control device stand by, for example, “standby” is input, the mode returns to the mode for accepting the passcode.
  • a word for example, “standby”
  • step S1 ⁇ it is determined whether or not the instruction content recognized in ff! 3 step S6 is a word (for example, “close sesame”) that indicates an off state of the power supply. If it is a word to be executed (YES), the arithmetic processing is terminated, otherwise (NO), the flow shifts to step S10. In other words, when the user inputs "close sesame” by voice, the power of the voice recognition device itself can be turned off, and the system can be completely terminated.
  • a word for example, “close sesame”
  • the application software related to the system may be started, and if the operation system is suspended, This can be done by physically pressing only the power button of the main system.
  • Fig. 5 shows the speech recognition process executed in steps S1, S3, and S6 in Fig. 3, which is a process using the Hidden Markov Model (HMM) in these speech recognition.
  • HMM Hidden Markov Model
  • the registered words are modeled by a serial connection network of HMM corresponding to the serial connection of voice units (voice unit lapel sequence), and the vocabulary network 20 corresponds to the registered word group registered in the registered vocabulary list. It is modeled as a series connection network group.
  • Each registered word is composed of voice units such as phonemes, and the likelihood is calculated for each voice unit.
  • the likelihood is calculated from the registered vocabulary list.
  • the registered word with the maximum integrated value of is detected, and the registered word is output as the registered word recognized as being included in the voice.
  • a virtual model 23 for recognizing unnecessary words is defined as 1 ⁇ in the same manner as in the HMM of word notation.
  • the target ⁇ to be controlled increases.
  • erroneous operation due to erroneous recognition due to unknown words, unnecessary words other than words to be recognized, or unexpected utterances of the system is inevitable.
  • the noise of living in the usage environment such as conversations between friends, the sound of people walking near the remote control device, the noise of pets, and cooking in the kitchen
  • misrecognition occurs frequently due to noise from work.
  • FIG. 6 shows a specific vocabulary network 20 executed in step S4 of FIG.
  • the vocabulary network of the name of the control target ⁇ in the voice recognition processing performed is shown.
  • the vocabulary network 20 describes a registered word group for selecting an object view to be controlled, that is, a name 22 of the control object view and an unnecessary word model 23. Further, in detail, each registered word has a configuration as shown in Fig. 7 expressed by a corresponding phoneme label sequence3.
  • the unnecessary word model 23 is formed as a virtual phoneme model obtained by leveling all phoneme models, and has the same topology as the unspecified speaker phoneme ⁇ model. Note that a virtual phoneme model in which all phonemes to be used are leveled is created as follows.
  • all phonemes used are modeled as ⁇ , and ⁇ ⁇ is formed as a transition sequence of a plurality of states, and each of these states is composed of a Gaussian mixture distribution. Then, a set of Gaussian distributions that can be shared across phonemes is selected from the Gaussian mixture, and a Gaussian mixture is weighted and corrected for each phoneme, and all phonemes that use this are leveled.
  • This is a hypothetical phoneme model.
  • the virtual phoneme model obtained by leveling all phonemes to be used is not limited to a phoneme model formed from a single class, but a plurality of voice units (for example, 3 to 5 voice units) are used. Class), and may be formed from the class evening group.
  • the likelihood of the registered word necessarily increases, but when words other than the registered word are uttered, the likelihood of the virtual phoneme model increases as a result. Therefore, the probability of recognition as unnecessary words is increased.
  • the registered word vocabulary network 22 shown in FIG. The word "bonfire", which is a word that is not written, was input ⁇ . If no unnecessary word model is set, the phoneme composition is similar to the written word, that is, the registered word.
  • the likelihood of a word in the registered vocabulary list shown in Fig.
  • the unnecessary word model shown in Fig. 8 is represented as a self-loop of a group of phonemes constituting a vowel.
  • this unnecessary word model is a set of ⁇ corresponding to vowel phonemes. It has a self-loop from the end point to the start point of the aggregate, and determines the likelihood of the HMM group corresponding to the vowel phoneme for the sound parameter set It is calculated every night, and the largest of them is integrated to obtain the likelihood of the unnecessary word model. This is based on the fact that almost all words contain vowels, and that the vowels are large in terms of sound energy among phoneme groups such as consonants, vowels, fricatives, and plosives. Features.
  • the likelihood of the unnecessary word model is calculated as a continuous sound consisting of only the vowels of every word. Therefore, when a registered word is uttered by the user, phonemes other than vowels such as consonants deviate from the unnecessary word model, and the likelihood of the unnecessary word model is lower than the likelihood of the registered word. The probability of recognition is higher. However, when a word other than a registered word is uttered, the phoneme model corresponding to the registered word returns a lower value for phonemes other than vowels such as consonants, resulting in a continuous vowel only. Since the likelihood of the unnecessary word model increases and the probability of recognition as an unnecessary word increases, erroneous recognition can be reduced. This method is suitable for use when it is difficult to obtain the label sequence of the virtual phoneme model described above, or when using existing speech recognition software composed of phoneme models.
  • the recognition rate as an unnecessary word is low, or if the recognition rate is too high and the target command word is spoken, it is recognized as an unnecessary word, etc.
  • the recognition rate can be optimized by multiplying the likelihood obtained for an unnecessary word model using a typical phoneme model and an unnecessary word model using a vowel phoneme by an appropriate factor.
  • a virtual phoneme model 23 in which all phoneme models are leveled is provided as an unnecessary word model, and the phoneme model 23 and the registered words shown in Table 1 are used.
  • a voice remote control device was prepared in which a vocabulary network 20 provided in parallel with a list, that is, a vocabulary network 22 of registered words, was read in voice recognition in step S3 in FIG.
  • the unnecessary words “bonfire”, “takeo” and “famicom” are spoken five times each.
  • the probability of being recognized as an unnecessary word that is, the probability of being incorrectly recognized as a registered word, was 100%.
  • the recognition rate of the target word that is, the registered words “TV”, “video”, “air conditioner”, “lighting”, and “audio”, 10 utterances were made for each word. Then, the correct answer rate for the entire vocabulary was 94%.
  • vowel phonemes ie, “a (a)”, “i)”, “u (u)”, “e (e)”, “e Contact composed HMM group corresponding to the phonemes of (o) "self Le one Pumoderu 2 3, the provided, and its self-loop model 2 3 5, registered word list described in Table 1, i.e. registered word vocabulary network 2
  • a speech recognition remote control device was prepared in which the vocabulary network 20 provided in parallel with the speech recognition process 2 was read into the speech recognition processing routine in step S3 in FIG.
  • a virtual phoneme model 23 obtained by leveling all phoneme models is provided as an unnecessary word model, and the phoneme model 23 And the registered word list shown in Table 1, that is, the vocabulary network 20 provided in parallel with the registered word vocabulary network 23, is read into the voice recognition processing routine in step S3 in FIG. A remote control device was prepared.
  • the unnecessary words “aiueo”, “eichito”, “security”, “en”, “shoichi”, and “cologne” are each 10 times.
  • the probability of being recognized as an unnecessary word that is, the probability of being incorrectly recognized as a registered word, was 92%.
  • a virtual phoneme model 23 in which all phoneme models are leveled, and “a (a)”, “i (i)”, “ (U) ”,“ e (e) ”, and“ o (o) ”self-loop models 23 ′ composed of HMMs corresponding to the phonemes are provided.
  • the unnecessary words "aiueo", “eichito”, “security”, “en”, “” shouichi “” and “oichi decolon” are 10 times each.
  • the voice instruction information memory 7 corresponds to the storage means
  • the microphone 3 corresponds to the means for inputting the voice uttered by the user
  • the voice instruction recognition circuit 6 corresponds to the voice recognition means.
  • the infrared light emitting section 2 corresponds to the transmitting means.
  • the voice memo function is a function that allows the user to input the memo content by voice, records the voice, and reproduces the voice at the request of the user.
  • the voice message function is a function that allows the user to input the notification content by voice, record the voice, input the notification timing, and reproduce the i-voice at the notification timing.
  • FIG. 12 is a main block diagram of an information terminal device utilizing an analog telephone according to a second embodiment of the present invention.
  • the information terminal device shown in this figure recognizes a registered word included in a user's voice, and performs a voice recognition unit 51 that executes an e-mail transmission / reception process, a schedule management process, a voice memo process, a voice message process, and the like.
  • a communication unit 52 for connecting to a communication line based on the recognition result.
  • the user's voice is input from the microphone 53 of the voice recognition unit 51, passes through the ⁇ span device 54, and is converted into digitized acoustic parameters by the A / D converter 5.
  • the likelihood of a registered word in the registered vocabulary list stored and registered in the voice instruction information memory 57 is calculated for each digitized sound parameter. It is calculated every time, and the one with the largest integrated value of the likelihood is extracted as the one closest to the user's voice.
  • the likelihood of the unnecessary word model stored and registered in the voice instruction information memory 57 is calculated at the same time for the digitized acoustic parameters, and the unnecessary word is calculated. If the likelihood of the model is greater than the likelihood of the registered word, it is assumed that the registered word has not been extracted from the sound parameters that have been subjected to the digitization.
  • a registered vocabulary list an e-mail transmission vocabulary list in which registered words relating to the e-mail transmission function are registered and a registered word relating to the e-mail reception function are registered.
  • the control code corresponding to is stored.
  • the transmission start password of the e-mail is extracted by the voice recognition circuit 56, that is, when the password is obtained as a recognition result, an arithmetic processing described later for controlling the e-mail transmission function according to the user's voice is executed.
  • the user is allowed to input the contents of the mail by voice, the voice is detected by the microphone 53, and is stored as voice data in the RAM 69 via the microphone interface circuit 68, and the e-mail transmission command is transmitted.
  • a control code for telephone control corresponding to the command is called from the voice instruction information memory 57, transmitted to the communication unit 52, and a voice message is attached to the e-mail. To send.
  • an e-mail reception start path is obtained as a recognition result by the voice recognition circuit 56, an arithmetic process described later for controlling the e-mail reception function according to the user's voice is executed.
  • a telephone control command corresponding to the command is called from the voice instruction information memory 57 and transmitted to the communication unit 52, and the voice data is transmitted.
  • the received e-mail is received, and the audio data is reproduced on the speaker 67 via the D / A converter 65 and the amplifier 16.
  • the control code is not particularly limited as long as it can control the communication unit 52. However, since the AT command is generally used, the AT command is adopted even in this difficult mode.
  • the central control circuit 58 executes the later-described arithmetic processing for controlling the schedule management function according to the user's voice, Sound schedule details to users
  • the voice is input, the voice is detected by the microphone 53, and the voice is stored in the RAM 69 via the microphone interface circuit 68 as the voice data, and the execution date of the schedule is input.
  • the schedule management is performed by associating the voice data with the user.
  • the speech recognition circuit 56 extracts the start password of the voice memo function, that is, when the recognition result is obtained, the central control circuit 58 controls the voice memo function according to the user's voice.
  • the voice instruction recognition circuit 56 obtains a recognition result of the start path of the voice recording function, a calculation process described later for controlling the voice recording function according to the user's voice is performed. This is executed by the central control circuit 58, the user inputs the information to be notified, the sound is detected by the microphone, and the sound data is stored in the RAM 69 via the microphone interface circuit 68 as the sound data. Then, the notification timing of the sound is input, and the sound data is called from the RAM 69 at the notification timing, and reproduced by the speaker 67 via the D / A converter 65 and the amplifier 16.
  • the hardware to be used is not particularly limited as long as it has the basic functions shown in FIG. 12, and is hereinafter referred to as a speech recognition unit 51 as shown in FIG. A case where a personal computer is used will be described.
  • FIG. 14 shows a flow chart of a processing executed by the information terminal device shown in FIG. 13 and for transmitting an e-mail in response to a user's voice. Although no steps for communication are provided in this portal, information obtained by the arithmetic processing is updated and stored in the storage device as needed, and necessary information is read from the storage device as needed. .
  • step S 101 the voice detected by the microphone 53 is read, and the start password, which is a registered word included in the voice (for example, “E-mail transmission ”) Or noise or voice other than the one from the start path, that is, only unnecessary words. If the start password is included (YES), the flow proceeds to step S102, otherwise (NO), the flow is repeated.
  • step S102 the electronic mail sending vocabulary list is read as the registered vocabulary list, and the voice mail launcher is activated as shown in FIG. A list of possible registered words is displayed on the LCD display device 62.
  • the registered words displayed on the LCD display device 62 include, for example, an e-mail creation command (eg, “e-mail creation”) spoken when an e-mail is to be created.
  • an e-mail creation command eg, “e-mail creation”
  • the process proceeds to step S103, where the voice detected by the microphone 53 is read, and the voice creation command included in the voice is included, or noise or voice other than the mail creation command is included.
  • voice recognition is performed to recognize whether only unnecessary words are included, and if the voice includes a mail creation command, (YE S) proceed to step S104, otherwise In this case, (NO) repeat this flow.
  • step S104 the voice detected by the microphone 53 is read, and a destination list selection command which is a registered word included in the voice (for example, the word "party list") Is recognized or contains noise or voice other than the destination list selection command, that is, whether it contains only unnecessary words, and the voice includes the destination list selection command. If yes, go to step S105, otherwise (NO) go to step S106.
  • a destination list selection command which is a registered word included in the voice (for example, the word "party list") Is recognized or contains noise or voice other than the destination list selection command, that is, whether it contains only unnecessary words, and the voice includes the destination list selection command.
  • step S105 as shown in FIG. 15, a list in which the names of the persons whose mail addresses are registered, that is, the persons whose mail addresses are stored in a predetermined data storage area of the storage device, is described. Is displayed on the LCD display device 62, the voice detected by the microphone 53 is read, and voice recognition for recognizing a registered person name included in the voice is performed, and the mail corresponding to the personal name is executed. After calling the address, go to step S107.
  • step S106 a message prompting the utterance of the mail address of the mail destination is displayed on the LCD display device 62, and the voice detected by the microphone 53 is read and included in the voice.
  • Alphabet that is a registered word
  • step S107 the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing a recording start command (eg, the word "recording start") as a registered word, and It is determined whether or not the voice includes a recording start command. If the recording start command is included, (YE S) the process proceeds to step S108, otherwise (N ⁇ ). This flow is repeated.
  • a recording start command eg, the word "recording start”
  • step S108 a message prompting the utterance of the mail content is displayed on the LCD display device 62, and the voice detected by the microphone 53 is recorded for a predetermined time to generate voice data, and the voice data is generated.
  • One night is stored as the e-mail content in the specified data storage area of the storage device.
  • step S109 the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing an additional recording command (for example, the word "additional recording") that is a registered word, and It is determined whether or not an additional recording command is included in the voice. If the additional recording command is included (YE S), the process returns to step S108 again. If not, (NO) Move to step S110.
  • the voice detected by the microphone 53 is read, and it is determined whether or not the voice includes a recording content confirmation command (for example, the word "kanin of the recording content"). If the voice contains a recorded content confirmation command, (YE S) proceed to step S 111, otherwise (NO) proceed to step S 112.
  • a recording content confirmation command for example, the word "kanin of the recording content”
  • step S111 the audio data generated in the step S108, that is, the mail content is read from a predetermined data area of the storage device, and the audio data is reproduced by the speaker 67. Then, the process proceeds to step S 1 1 2.
  • step S112 the voice detected by the microphone 53 is read, and it is determined whether or not the voice includes a transmission command (for example, the word "summary of transmission execution"). If it is included, the process proceeds to (YE S) step S113, otherwise (NO) to step S114.
  • a transmission command for example, the word "summary of transmission execution"
  • step S114 in which the voice data generated in step S108, that is, the mail content is read from a predetermined data storage area of the storage device, and the voice data is read.
  • the e-mail is transmitted to the mail address read in step S105 or the mail address input in step S106.
  • step S115 an AT command for instructing line disconnection is called from a predetermined data area of the storage device, and the AT command is transmitted to the voice communication unit 52.
  • step S116 a message indicating that the transmission of the e-mail is completed is displayed on the LCD display device 62, and then the flow proceeds to step S118.
  • step S117 the voice data generated in step S108, that is, the mail content is deleted from the predetermined data area in the storage device, Move to 1 1 8
  • the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing an end command (for example, the word "end") which is a registered word, and It is determined whether or not the voice includes an end command. If the end command is included, (YE S) the arithmetic processing is ended; otherwise, (NO) the above-described step is repeated. Shift to S104.
  • an end command for example, the word "end" which is a registered word
  • FIG. 16 shows a flowchart of a processing executed by the information terminal device of FIG. 13 for receiving an e-mail in response to a user's voice.
  • the information obtained by the arithmetic processing is stored in the storage device as needed, and the necessary information is read from the storage device as needed.
  • this arithmetic processing is executed, first, in step S 201, the sound detected by the microphone 53 is read, and a start node is added to the sound (for example, the word “e-mail reception”) Is performed, or a voice awakening process is performed to recognize whether noise or voice other than the start path code, that is, only unnecessary words, is included.
  • step S202 the vocabulary list for receiving e-mail is read as the registered vocabulary list, and the voice mail launcher is started, and a list of registered words that can be specified by the user is displayed on the LCD. Display on device 62.
  • the registered words to be displayed on the LCD display device 62 include, for example, a mail reception command (for example, “mail reception”) spoken when a user wants to receive a mail.
  • step S203 in which the voice detected by the microphone 53 is read, and it is determined whether or not the voice includes a mail reception command. If yes, go to (YE S) step S 204, otherwise (NO) repeat this flow.
  • step S204 an AT command for calling the provider is called from a predetermined data area of the storage device, the AT command is transmitted to the voice call unit 102, and the provider's mail is sent. Connect to server.
  • step S205 an e-mail is received from the mail server connected in step S204, and the e-mail is stored in a predetermined temporary storage area of the storage device.
  • step S206 a message indicating that the reception of the electronic mail has been completed is displayed on the LCD display device 62.
  • step S207 where an AT command for instructing line disconnection is called from a predetermined data storage area of the storage device, and the AT command is transmitted to the voice communication unit 52.
  • step S208 the list of e-mails received in step S205 is displayed on the LCD display device 62, and the sound detected by the microphone 53 is read and included in the sound. It executes voice recognition processing to recognize the mail selection command, which is a registered word to be registered, and allows the user to select a specific mail from a mail list.
  • the mail selection command may be any command as long as the user can select a specific mail. For example, when displaying the name of the mail sender as a mail list, the list may be used. May be used.
  • step S209 a voice that recognizes a registered playback command (for example, the word “play”) with respect to the voice detected by the microphone 53 is used. Recognition processing is performed, and it is determined whether or not a playback command is included in the voice. If a playback command is included, (YE S) the process proceeds to step S210, and if not, ⁇ (NO) The process proceeds to step S211.
  • step S210 the mail selected in the step S208 is read out from the predetermined data area of the storage device, ie, the voice data that is selected (that is, the mail content is read out from the predetermined data area of the storage device). Then, the audio data is reproduced on the speaker 67, and then the process proceeds to step S211.
  • step S211 first, a speech recognition process for recognizing a schedule registration command (for example, the word "schedule registration"), which is a registered word, is performed on the voice detected by the microphone 53, and Then, it is determined whether or not the voice includes a schedule registration command. If the voice includes a schedule registration command, the process proceeds to (YE S) and to step S212. 0) Move to step S217.
  • a schedule registration command for example, the word "schedule registration”
  • step S212 the schedule management vocabulary list is read as the registered vocabulary list, and the scheduler is activated to display a list of registered words that can be specified by the user on the LCD display device 62.
  • step S213 it is determined whether or not header information (for example, information for specifying a date) is included in the mail selected in step S208, and header information is determined. If (YE S) is described, go to step S 215, otherwise: (NO) go to step S 215.
  • header information for example, information for specifying a date
  • step S2114 first, the audio data attached to the mail selected in the step S208, that is, the mail content is changed to the schedule content on the date of the header information described in the mail. Is stored in a predetermined data area of the storage device.
  • a message prompting the user to input a large / small item selection command (for example, words such as “private” and “waiting”) of the schedule content is displayed on the LCD display device 62 and detected by the microphone 53.
  • the speech recognition unit reads the speech and performs a speech recognition process for recognizing a large / small item selection command of the schedule content, which is a registered word included in the speech. Then, the recognition result is stored in the predetermined data area of the storage device as the voice data, that is, as a large / small item of the schedule content. After storing, the process proceeds to step S217.
  • step S215 a message prompting the user to enter the date of the schedule is displayed on the LCD display device 62, the voice detected by the microphone 53 is read, and the registration included in the voice is read. Speech recognition is performed to recognize a word input command that is a word (for example, the word “ ⁇ / ⁇ / ⁇ ”).
  • step S216 the voice data attached to the mail selected in step S208 is set as the schedule content at the date recognized in step S215. It is stored in a predetermined data storage area of the storage device.
  • a message prompting the user to input a large / small item selection command (for example, the words “private” and “waiting”) of the schedule content is displayed on the LCD display device 62 and the microphone 53 3 It reads the voice detected in, and executes voice recognition processing to recognize the large / small item selection command of the schedule content, which is a registered word included in the voice. Then, the recognition result is stored in the predetermined data area of the storage device as the voice data, that is, large / small items of the schedule contents, and then the process proceeds to tufB step S217.
  • a large / small item selection command for example, the words “private” and “waiting”
  • step S 2 17 first, for the voice detected by the microphone 53, a voice recognition rationale for recognizing an end command (for example, the word “end”) as a registered word is executed, and Then, it is determined whether or not the voice includes an end command. If the end command is included, (YE S) the arithmetic processing is ended. If not, (N ⁇ ) re-execution is performed. The process moves to step S203.
  • an end command for example, the word “end”
  • N ⁇ re-execution is performed.
  • FIG. 17 shows a flowchart of an arithmetic process for executing the schedule management function according to the voice of the user, which is a process executed by the information terminal device of FIG. 13.
  • the information obtained by the arithmetic processing is updated and stored in the storage device at any time, and necessary information is read out from the storage device at any time.
  • the start password for example, “voice schedule”
  • the start password for example, “voice schedule”
  • a noise or voice other than the start password that is, whether it contains only unnecessary words, and a start path code is included. If yes (YE S), move on to step S 302, otherwise (NO) repeat this flow.
  • the schedule management vocabulary list is read as the registered vocabulary list, and the voice schedule launcher is activated as shown in FIG.
  • a list of registered words is displayed on the LCD display 62.
  • the registered words displayed on the LCD display device 62 include, for example, a schedule registration command (for example, “schedule setting”) that is uttered when a schedule is to be registered, and a schedule 3 ⁇ 4 command (for example, "Schedule confirmation").
  • step S303 a message prompting the utterance of the schedule execution day is displayed on the LCD display device 62, and the sound detected by the microphone 53 is read and included in the sound.
  • Executes a speech recognition process that recognizes a registered date and time input command for example, the word “ ⁇ / ⁇ / ⁇ ”).
  • step S304 the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing a schedule registration command as a registered word, and the schedule registration command is added to the voice. It is determined whether or not it is included. If the schedule registration command is included ⁇ (YES), the process proceeds to step S305, otherwise (NO), the process proceeds to step S310. .
  • step S305 the voice detected by the microphone 53 is read, and a start / end time input command (for example, the word “ ⁇ hour ⁇ minute”), which is a registered word included in the voice, is recognized. Execute the voice recognition processing to make the user input the start time and end time of the schedule.
  • a start / end time input command for example, the word “ ⁇ hour ⁇ minute”
  • step S306 a message prompting the utterance of the schedule content is displayed on the LCD display device 62, and the voice detected by the microphone 53 is recorded for a predetermined time to generate voice data. Then, the audio data is stored in a predetermined data storage area of the storage device as the schedule content for the date recognized in step S303.
  • step S307 the process proceeds to step S307, and firstly, the user is prompted to input a large / small item selection command of the schedule contents (for example, words such as "private” and “waiting").
  • a large / small item selection command of the schedule contents for example, words such as "private” and "waiting”
  • Message is displayed on the LCD display device 62, the voice detected by the microphone 53 is read, and voice recognition for recognizing the large / small item selection command of the schedule content, which is a registered word included in the voice, is executed. I do.
  • the recognition result is stored in the predetermined data storage area of the storage device as the voice data generated in step S306, that is, the large and small items of the schedule content.
  • step S308 in which a message prompting the user to speak a setting command for the reminder function (for example, the word "setting a reminder") is displayed on the LCD display device 62, and the microphone is displayed. 5.
  • voice recognition is performed to recognize the setting command of the reminder that is a registered word.
  • step S309 it is determined whether or not the voice includes a reminder setting command. If the reminder setting command is included (YES), the process proceeds to step S309. Then, the process proceeds to (NO) step S3224.
  • the “reminder” function is a function that notifies the user of the schedule at a predetermined timing and reminds the user of the existence of the schedule.
  • step S309 first, a message prompting the user to input the notification time of the reminder, the name of the notification recipient, etc. is displayed on the LCD display device 62, and the voice detected by the microphone 53 is read. Then, a voice recognition process for recognizing the notification time of the reminder, which is a registered word included in the voice, and a command for setting the name of the notification destination (for example, the word “ ⁇ minutes ago”) is executed, and the user is notified of the reminder. The user is to be notified of the notification timing by the function. Next, at the notification time of the reminder, the audio data generated in step S306, that is, the content of the schedule is read from a predetermined data area of the storage device, and the audio data is reproduced by the speaker 67. After performing the arithmetic processing, the flow shifts to step S324.
  • step S310 the speech detected by the microphone 53 is subjected to speech recognition grounds for recognizing the schedule confirmation command, which is a registered word, and the speech of the schedule is added to the speech. It is determined whether or not the command is included. If the command for confirming the schedule is included, the process proceeds to step S311 (YES). Otherwise, the process proceeds to step S319. Transition.
  • step S 311 as shown in FIG. Steps S214 and S216 of the arithmetic processing for reading out the large and small items of the schedule contents input in step S307 from the predetermined data area of the storage device, and list them. Display on the LCD display 62.
  • step S 312 the voice detected by the microphone 53 is subjected to a voice recognition process for recognizing a recorded content command (eg, the word “confirmation”) that is a registered word, and It is determined whether or not the voice contains a recording content confirmation command. If the voice content includes a recording content SS command, the process proceeds to (YE S) step S313. N ⁇ ) Proceed to step S 3 14 In step S 3 13, the audio data corresponding to the large and small items listed and displayed on the LCD display device 62 in step S 311, In other words, after the schedule content is reproduced with the power of 6 7, the process proceeds to the Bijin step S 3 14.
  • a recorded content command eg, the word “confirmation”
  • step S 314 first, voice recognition processing for recognizing a registration additional command (for example, the word “schedule setting”), which is a registered word, is executed for the voice detected by the microphone 53. Then, it is determined whether or not the voice includes a schedule addition registration command. If the voice includes a schedule addition registration command, the process proceeds to step S315 if the schedule addition registration command is included (YE S). in case of a registration additional command (for example, the word “schedule setting”), which is a registered word, is executed for the voice detected by the microphone 53. Then, it is determined whether or not the voice includes a schedule addition registration command. If the voice includes a schedule addition registration command, the process proceeds to step S315 if the schedule addition registration command is included (YE S). in case of
  • step S315 a temporary area for registering a new schedule is secured in the storage device, and then the process proceeds to self-step S305.
  • step S 3 16 speech recognition for recognizing a schedule correction command (for example, the word “correction”), which is a registered word, is performed on the voice detected by the microphone 53, and Then, it is determined whether or not the voice includes a schedule correction command. If the voice includes a schedule correction command, the process proceeds to (NO) to step S305, and if not, (NO). Move to step S317.
  • a schedule correction command for example, the word “correction”
  • step S 3 17 speech recognition for recognizing a schedule deletion command (eg, the word “delete”), which is a registered word, is executed for the speech detected by the microphone 53, and Audio includes schedule delete command It is determined whether or not the schedule deletion command is included (YES), and the process proceeds to step S3118. Otherwise (NO), the process returns to step S311.
  • a schedule deletion command eg, the word “delete”
  • Audio includes schedule delete command
  • step S318 the temporary storage area in which the schedule is registered is deleted from the storage device, and then the process shifts to the step S324.
  • the speech detected by the microphone 53 is used to execute a speech recognition process that recognizes a schedule search command (eg, the word “schedule search”) that is a registered word. Also, it is determined whether or not the voice includes a schedule search command. If the voice includes a schedule search command (YES), the process shifts to step S320. (NO) The process returns to step S303.
  • a schedule search command eg, the word “schedule search”
  • step S320 a message prompting the user to issue a large / small item selection command of the schedule content is displayed on the LCD display device 62, and the voice detected by the microphone 53 is read and included in the voice. Speech recognition that recognizes the large / small item selection command of the schedule content is executed, and the user inputs large / small items of the schedule content to be searched.
  • step S321 the voice detected by the microphone 53 is subjected to a voice recognition process for recognizing a search execution command (for example, the word “search execution”) that is a registered word. It is determined whether or not the voice includes a search execution command. If the voice includes a search execution command (YES), the flow shifts to step S3222. NO) Re-moving to step S320.
  • a search execution command for example, the word “search execution”
  • step S322 the schedule corresponding to the large / small item of the schedule content recognized in step S320 is returned from a predetermined data storage area of the storage device, and the search result is displayed on the LCD. Display on device 62.
  • step S32 performs voice recognition for recognizing a re-search command (for example, “search”, “U”) in the voice detected by the microphone 53, and It is determined whether or not a mirror command is included in the voice. If a search command is included in the voice (YES), the process proceeds to step S324, and if not. If not (NO), the process returns to iffi step S320.
  • a re-search command for example, “search”, “U”
  • the speech detected by the microphone 53 is subjected to speech recognition for recognizing an end command (for example, the word "end") as a registered word, and It is determined whether an end command is included or not. If the end command is included (YES), the arithmetic processing ends. If not, (NO). Move to 3.
  • an end command for example, the word "end"
  • FIG. 20 shows a flowchart of a processing executed by the information terminal device of FIG. 13 for executing a voice memo function according to a user's voice.
  • step S401 the voice detected by the microphone 53 is read, and the start password (for example, "voice memo") which is a registered word included in the voice is read. Words) or noise or voice other than the start password, that is, whether it contains only unnecessary words. If the start password is included (YES) step The process proceeds to S402, and if not (NO), this flow is repeated.
  • a voice memo vocabulary list is read as a registered vocabulary list, and a voice memo launcher is activated as shown in FIG.
  • a list of registered words is displayed on the LCD display device 12.
  • the registered words to be displayed on the LCD display device 62 include a voice memo when you want to create a voice memo, that is, a recording command that is spoken when you want to record voice (for example, ⁇ “Start recording”), and a voice utterance when you want to play back the voice memo.
  • a playback command for example, “Start playback”
  • a memo folder number selection command for example, “No. 1”, “No. 2” that is a number associated with each voice memo and that is spoken when you want to select a voice memo And the like).
  • step S403 a voice recognition process for recognizing a memo folder number selection command, which is a registered word, is performed on the voice detected by the microphone 53, and a memo is added to the voice.
  • step S404 the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing a recorded command that is a registered word, and whether or not the voice includes a recorded command is determined. If a recording command is included (YES), the flow shifts to step S405, otherwise (N ⁇ ), the flow again shifts to step S403.
  • step S405 a message prompting the utterance of the memo content is displayed on the LCD display device 62, and the voice detected by the microphone 53 is recorded for a predetermined time to generate a voice message.
  • the voice data is stored as a memo content corresponding to the memo folder selected in step S403 in a predetermined data area of the storage device.
  • step S 406 the voice detected by the microphone 53 is used to recognize the registered word St! Shinobi command (eg, the word “3 ⁇ 4”) of the recorded content. Is determined, and whether or not the voice includes a command for confirming the recorded content is determined. If the command for confirming the recorded content is included (YES), the flow shifts to step S408. Otherwise (NO), the flow shifts to step S409.
  • the voice detected by the microphone 53 is used to recognize the registered word St! Shinobi command (eg, the word “3 ⁇ 4”) of the recorded content. Is determined, and whether or not the voice includes a command for confirming the recorded content is determined. If the command for confirming the recorded content is included (YES), the flow shifts to step S408. Otherwise (NO), the flow shifts to step S409.
  • the voice detected by the microphone 53 is used to recognize the registered word St! Shinobi command (eg, the word “3 ⁇ 4”) of the recorded content. Is determined, and whether or not the voice includes a command for confirming the recorded content is
  • step S407 the voice detected by the microphone 53 is subjected to voice recognition processing for recognizing a playback command that is a registered word, and the voice includes the playback command. It is determined whether or not a playback command is included. (YES) The flow shifts to fif3 step S408. Otherwise (NO), this flow is repeated.
  • step S408 audio data corresponding to the memo folder selected in the step S403, that is, the memo content is read from a predetermined data area of the storage device, and the audio data is reproduced by the speaker 67. Thereafter, the flow shifts to the step S409.
  • step S409 the voice detected by the microphone 53 is registered. Voice recognition that recognizes a recorded end command (eg, the word "end") Then, it is determined whether or not the voice includes the end command, and whether or not the voice includes the end command (YE S). Otherwise (NO), the process shifts to the editing step S403 again.
  • FIG. 22 shows a flowchart of a calculation process that is executed by the information terminal device of FIG. 13 and that executes the voice dubbing function according to the voice of the user. Although no steps for communication are provided in this flowchart, information obtained by the arithmetic processing is updated and stored in the storage device at any time, and necessary information is read from the storage device as needed. .
  • step S501 the voice detected by the microphone 53 is read, and the start password (for example, “voice voice image”) that is a registered word included in the voice is read. ) Or a noise or voice other than the start password, that is, whether it contains only unnecessary words. (YE S) Proceed to step S502, otherwise (NO) repeat this flow.
  • the start password for example, “voice voice image”
  • the start password for example, “voice voice image”
  • a noise or voice other than the start password that is, whether it contains only unnecessary words.
  • step S502 in which the voice vocabulary list is read as a registered vocabulary list, and the voice ima launcher is activated, and a list of registered words that can be specified by the user is displayed as an LCD. Display on device 1 and 2.
  • the registered words to be displayed on the LCD display device 62 include, for example, an evening image setting command (for example, “evening image 1 setting”) that is uttered when setting the notification content and the information timing, and when operating the evening image.
  • step S503 to set the registered word “ima” in response to the voice detected by the microphone 53. Executes voice awakening to recognize the command, and determines whether the voice includes a setting command. If the command includes a setting command, the (YE S) step is performed. The process moves to S504, otherwise (NO) the process moves to step S502.
  • the time from the start of the operation of the evening camera to the notification that is, a message prompting the input of the notification timing is displayed on the LCD display device 62, and detected by the microphone 53.
  • Read the audio and register from that audio Performs speech recognition that recognizes the recorded evening time setting command (eg, the word “ ⁇ ”).
  • step S505 a message prompting a response as to whether or not to record the content of the notification is displayed on the LCD display device 62, and the voice detected by the microphone 53 is used to register a registered word.
  • the voice recognition that recognizes the recording start confirmation command (for example, the word "yes") is performed, and whether or not the voice includes the recording start confirmation command is determined. If it is included (YES), the flow shifts to step S506; otherwise (NO), the flow shifts to step S502.
  • step S506 a message prompting the utterance of the notification content is displayed on the LCD display device 62, and the voice detected by the microphone 53 is recorded for a predetermined time to generate a voice message.
  • the voice data is stored in a predetermined data area of the storage device as the notification time to be notified at the time recognized in step S504, that is, the notification timing.
  • step S507 the voice recorded in step S506, that is, a message prompting confirmation of the notification content is displayed on the LCD display device 62, and detected by the microphone 53.
  • a voice recognition process is performed on the voice to recognize a registered word confirmation command (for example, the word “use rights”) that is a registered word, and the voice contains a recorded content confirmation command. It is determined whether or not there is a command for confirming the recorded content ( ⁇ ), the process proceeds to step S508, otherwise (NO), the process proceeds to step S509.
  • a registered word confirmation command for example, the word “use rights”
  • step S508 the audio data generated in the step S506, that is, the notification content is reproduced on the speaker 67, and then the process proceeds to the step S509.
  • the voice detected by the microphone 53 is subjected to voice recognition easy recognition for recognizing a registered command (for example, the word “end”), and It is determined whether or not the voice includes a termination command. If the termination command is included, the processing is terminated (YE S). If not, the processing is terminated (NO). The process moves to S502.
  • speech recognition for recognizing the registered word, the imaginary start command is performed on the voice detected by the microphone 53, and the imaginary start command is included in the voice. It is determined whether or not it is included. If the evening start command is included, the process proceeds to step S511 (YES). If not, (NO). Move to
  • the audio data generated in the step S 506, that is, the notification content is stored in the storage device at a predetermined time.
  • the arithmetic processing for reading out from the data area and reproducing the audio data with the speaker 67 is executed, and then the arithmetic processing is terminated.
  • the e-mail transmission / reception function, the schedule management function, the voice memo function, and the voice message function are used to register the words included in the user's voice. Since the recognition is performed, the user can use each function only by uttering the registered word, and no physical operation is required.
  • the likelihood of the unnecessary word model 23 is calculated to be large for the acoustic parameter series of the voice, and the likelihood of the registered word vocabulary network 22 is calculated to be small. Based on those likelihoods, the registered word A voice other than the registered word is recognized as an unnecessary word, and a voice other than the registered word is prevented from being erroneously recognized as a registered word, and a malfunction of the information terminal device is prevented.
  • the microphone 53 corresponds to voice detection means
  • the voice instruction recognition circuit 56 corresponds to voice recognition means
  • the central control circuit 58 corresponds to control means.
  • FIG. 23 is a main block diagram of a telephone communication terminal using an analog telephone or a voice modem according to a third embodiment of the present invention.
  • the telephone communication terminal shown in this figure has a voice recognition unit 101 for controlling voice recognition and a voice call unit 102 for controlling voice communication. It is composed of a voice recognition unit 101 for recognizing registered words included in the voice of the user, and a voice communication unit 102 for connecting to a communication line based on the recognition result.
  • the user's voice is input from the microphone 103 of the speech recognition unit 101, passes through the amplifier 104, and is converted into a digitalized sound parameter by the A / D converter 105.
  • the input analog voice is sampled at a specific frequency in the range of 8 KHz to 16 KHz, and is digitized, although not particularly limited.
  • the digitized sound parameters are stored in the voice instruction recognition circuit 106 in the registered vocabulary list stored and registered in the voice instruction information memory 107. Each time, the closest word is extracted from the registered vocabulary list by performing the likelihood calculation with the above acoustic parameters.
  • words in the registered vocabulary list stored in the voice instruction information memory 107 are stored in the voice instruction information memory 107 in response to the digitized sound parameters.
  • the likelihood of a registered word is calculated for each of these constituent units (hereafter, also called a voice unit), and the one with the largest integrated value of the likelihood is regarded as the one closest to the user's voice. Is extracted.
  • the likelihood of the unnecessary word model stored and registered in the voice instruction information memory 107 is also calculated for the digitized acoustic parameters at the same time. If the likelihood of the unnecessary word model is greater than the likelihood of the registered word, it is assumed that the registered word has not been extracted from the digital sound that has been subjected to digital audio.
  • registered words and unnecessary words other than the registered words are registered as registered words in the registered vocabulary list.
  • syllables, phonemes, semi-syllables, Dipphone (two sets of phonemes), Tripphones (three sets of phonemes), and the like may be used as appropriate as speech units.
  • a personal name vocabulary list in which a personal name and a telephone number corresponding to the personal name are recorded as a registered vocabulary list, and a number of digits corresponding to an arbitrary telephone number.
  • a number vocabulary list for recognizing continuous digits, a call operation vocabulary list for telephone operations, a call operation vocabulary list for responses to incoming calls, and control codes corresponding to each registered word are stored.
  • the voice instruction recognition circuit 106 extracts registered words related to telephone operation, that is, if it is obtained as a recognition result, A control code for telephone control corresponding to the registered word whose voice has been recognized is called from the voice instruction information memory 107 and transmitted from the central control circuit 108 to the voice call unit 102.
  • the control code is not particularly limited as long as it can control the voice call unit 102, but since the AT command is generally used, the present embodiment also uses the AT command as a representative example. ing.
  • the response voice control circuit 110 calls up the response voice information memory 118 from the response voice information memory 118 and converts it as analog voice via the D / A converter 111 and the amplifier 111. Audible notification from speaker 1 13 If the recognition result is correct, the user inputs a voice command such as "call" from the microphone 103, and the central control circuit 108 controls the transmission to the desired destination telephone number as an AT command. Convert it and send it to the one-chip microcomputer 114 of the voice call unit 102.
  • the voice communication is performed using the microphone 115 and the speaker 116 of the voice communication unit 102, and at the same time, the voice recognition unit 1 is used as necessary.
  • the volume level of the microphone 101 and the speech force 105 can be adjusted independently of the microphone 115 and the speech force 116 of the voice call unit 102.
  • the voice recognition unit 101 when a control code for telephone control is transmitted from the central control circuit 108 to the voice call unit 102 via the external interface 117, the voice call unit By receiving the status signal from 102, the on-hook status, off-hook status, or line communication status of the voice communication unit 102 can be ascertained, and the registered vocabulary list required for the next operation according to those statuses By sequentially changing, misrecognition due to unnecessary words is reduced.
  • ringing information indicating that the incoming call has been received at the voice call unit 102 is transmitted to the voice recognition unit 101, thereby calling up the incoming operation vocabulary list regarding the incoming call response, and By using the microphone 103 of the voice recognition unit 101 to determine whether or not the user will make a voice response, It also enables hands-free mis-calls by voice input.
  • the destination information such as the telephone number of the destination can be obtained, the name and vocabulary list registered with the person's name and number are collated, and the collation result is displayed on the LCD display device 109. hand! ⁇ ⁇ ⁇ Simultaneously, the response voice control circuit 110 calls the response voice data corresponding to the collation result from the response voice information memory 118,
  • Fig. 24 is a modification example using a mobile phone type wireless system as a means of connecting to the public tongue network.
  • the main block diagram of the voice call unit 102 is compared to Fig. 23.
  • an input / output device for a voice call that is, a microphone 115 and a speaker 116 of a voice call unit 102 are normally turned on depending on a voice reception state of the other party. OFF control is being performed. Therefore, by providing the voice input / output device, that is, the microphone 103 and the speaker 113 separately for voice recognition, the characteristics (operating state) of the voice input / output device differ depending on the voice communication method.
  • FIG. 25 shows a flowchart of a process executed by the central control circuit 108, which performs a call operation or the like in response to a user speaking a person's name.
  • Figure 25 shows the process scheme for outgoing call operation by personal name.
  • this calculation processing is executed, first, in step S601, the initial state of the voice call unit 102 is confirmed by detecting the on-hook state, and the telephone call is accepted. Make sure there is. More specifically, a status signal is received from the voice call unit 102 to determine whether or not the terminal is in an on-hook state. If the terminal is in an on-hook state (YES), the process shifts to step S602, otherwise. In this case (N ⁇ ) Repeat this flow.
  • a personal name input by voice from the user is accepted. More specifically, as a registered vocabulary list, a personal name vocabulary list in which personal names and telephone numbers are recorded is read, and a voice detected by the microphone 103 is read, and the voice is registered in the registered vocabulary list.
  • the voice instruction recognition circuit 106 recognizes whether a personal name is included or noise or voice other than the personal name, that is, only unnecessary words are included.
  • the HI tongue number corresponding to the personal name is stored in advance in the voice instruction information memory 107 as a personal name vocabulary list.
  • the input analog sound is not particularly limited, it is usually sampled and digitized at a specific frequency in a range of 8 kHz to 16 kHz.
  • the sound parameters that have been digitized are stored in the voice instruction recognition circuit 106 in the voice name information vocabulary list stored and registered in the voice instruction information memory 107.
  • the closest person's name is extracted from the person name vocabulary list by calculating the likelihood of the above-mentioned acoustic parameters for each unit.
  • the digital parameter is a registered word in the personal name vocabulary list stored and registered in the voice instruction information memory 107 with respect to the digital parameter that has been subjected to the digital parameter setting.
  • the likelihood of the person's name is calculated for each voice unit, and the one with the largest integrated value of the likelihood is the lowest in the user's voice. Are also extracted as close names.
  • the likelihood of the unnecessary word model stored and registered in the voice instruction information memory 7 is simultaneously calculated with respect to the digitized acoustic parameters, and the unnecessary word model If the likelihood is greater than the likelihood of a registered person, it is assumed that no person name has been extracted from the digitized acoustic parameters.
  • step S603 it is determined whether or not it is recognized that the personal name registered in the personal name vocabulary list is included in the voice in the step S602, and registered in the registered vocabulary list. If a person name is included (YES), the process proceeds to step S604, otherwise (NO), the process proceeds to step S602 again.
  • the extracted personal name is displayed on the terminal screen (LCD display device 109) connected to the voice recognition unit 102, and the response voice control circuit 111 is displayed. Using 0, the extracted person name is notified by a voice announcement.
  • step S605 the utterance of a word instructing the LCD display device 109 to proceed with the process or a word instructing the process to be redone is made. Display a prompt message.
  • the voice detected by the microphone 103 is read, and a word included in the voice, which is a registered word instructing to proceed with the process, is included, or a word instructing to restart the process is included. Is recognized by the voice instruction recognition circuit 106.
  • the voice detected by the microphone-mouth phone 103 contains a word that is a registered word indicating that the process is to be performed, or a word that indicates that the process is to be redone, If ⁇ contains a word instructing the process to proceed, (YES) proceed to step S606, otherwise (NO) proceed to step S602 again.
  • the user determines whether the extracted person name is a desired result, and if so, utters a word indicating to proceed with a pre-registered process such as “calling”, and
  • the instruction recognition circuit 106 is made to recognize the input voice command.
  • the user name corresponding to the person name extracted in the step S602 is corresponded.
  • the AT command corresponding to the fS number is retrieved from the voice instruction information memory 107, and the AT command is transmitted to the voice call unit 102.
  • the AT command (AT D) for transmitting the corresponding number is voiced from the central control circuit 108.
  • the call is transmitted to the call unit 102, and the line connection process is executed. After answering the ringing tone and removing the off-hook operation of the other party, the line connection is completed and a voice call is made.
  • a voice command instructing to start over the process registered in advance for example, “again” is uttered and input by the voice instruction recognition circuit 106. Recognize the sound that was output. As described above, if it is recognized that the vocabulary is “previous”, the process returns to the step of accepting the utterance of the personal name (step S602), and the utterance of the new personal name is accepted.
  • An example of the voice recognition processing executed by the voice instruction recognition circuit 106 is shown below.
  • the speech recognition process is not particularly limited, the present embodiment uses a hidden Markov model (HMM) as in the first difficult mode.
  • HMM hidden Markov model
  • the speech detected by the microphone 103 is converted into a digitized spectrum by Fourier transform or ⁇ ⁇ ate transform, and the spectrum is subjected to linear prediction analysis or the like. Characterization of audio data is performed by using audio modeling techniques such as cepstrum analysis. next, the speech detected by the microphone 103 is converted into a digitized spectrum by Fourier transform or ⁇ ⁇ ate transform, and the spectrum is subjected to linear prediction analysis or the like. Characterization of audio data is performed by using audio modeling techniques such as cepstrum analysis. next
  • the likelihood of the acoustic model 122 of each registered word registered in the vocabulary network 120 read in advance by speech recognition is calculated using the Is calculated.
  • the registered words are modeled by a serial connection network of HMM corresponding to the serial connection of voice units (voice unit label sequence), and the vocabulary network 120 is registered in the registered vocabulary list. It is modeled as a series connection network group corresponding to the word group.
  • Each registered word is composed of speech units such as phonemes, and the likelihood is calculated for each speech unit.
  • the likelihood of the likelihood is registered in the registered vocabulary list. The word with the largest integrated value is detected, and the registered word is output as a registered word recognized as being included in the voice.
  • a virtual model 23 for recognizing unnecessary words is provided in parallel with the vocabulary network 120 of registered words.
  • the likelihood of the virtual model 23 corresponding to the unnecessary word is calculated to be larger than the likelihood of the registered word.
  • FIG. 27 shows a flowchart of the processing executed by the central control circuit 108, in which a call operation or the like is performed in response to a user speaking a telephone number.
  • Figure 27 shows the process scheme for calling operation by telephone number.
  • step S701 the initial state of the voice call unit 102 is detected by detecting the on-hook state, and the telephone call is accepted. Make sure there is. Specifically, a status signal is received from the voice call unit 102 to determine whether or not the mobile phone is in an on-hook state. If the mobile phone is in an on-hook state (YES), the process proceeds to step S702. (NO) Repeat this flow.
  • step S702 it is determined whether or not the telephone number confirmation mode is for accepting an arbitrary telephone number. If the telephone number confirmation mode is ⁇ (YES), the process proceeds to step S704. Otherwise (N ⁇ ), the flow shifts to step S703.
  • step S703 the voice detected by the microphone 103 is read, and it is determined that the voice command includes a preregistered voice command for accepting a telephone number that is a registered word included in the voice.
  • the voice command is recognized by the voice instruction recognition circuit 106, and the voice command is recognized, the process proceeds to step S704.
  • the user confirms whether or not the phone number recognition mode accepts any «fg number, and if it is not in the phone number recognition mode such as the person name recognition mode, the user registers in advance to accept the phone number. Speak the spoken voice command.
  • step S704 a number vocabulary list for recognizing a serial number corresponding to the number of digits corresponding to an arbitrary telephone number is read as a registered vocabulary list.
  • a message prompting the utterance of the telephone number is displayed on the LCD display device 109.
  • the voice detected by the microphone 103 is read, and the voice instruction recognition circuit 106 recognizes whether or not a continuous number which is a registered word included in the voice is included. For example, “# in number” is a registered voice command for receiving the telephone number.
  • the voice recognition and input circuit recognition is performed through the microphone-mouth phone 103 and the recognition circuit 106.
  • the instruction recognition circuit 106 enters a mode for receiving telephone numbers by uploading a number vocabulary list capable of recognizing an arbitrary telephone number as a registered vocabulary list into the memory of the voice instruction recognition circuit.
  • the user recognizes the speech by continuously speaking the desired telephone number, such as “03-3 3 5 6—1 2 3 4” (“one” is not pronounced).
  • the number vocabulary list that can recognize any telephone number is a list of several vocabularies depending on the country in which the telephone is used, the local area, the telephone communication method, the destination country, region, and the telephone method. It means a sequence of consecutive numbers. For example, when calling from Japan to a fixed telephone in Japan, the pattern is “0—area code—city code—subscriber number”. Prepare a number vocabulary list consisting of a continuous digit string of 10 digits (9 digits in some areas). In addition, by inserting a voice unit representing "no" or silent between the area code and the local area code or between the local area code and the subscriber number in the telephone number pattern, the SI tongue number It is possible to deal with the redundancy of the speaker who utters.
  • the user when recognizing a telephone number, the user only needs to speak a series of numbers corresponding to all digits of the telephone number continuously, and the telephone number can be recognized in a short time.
  • the method of recognizing telephone numbers one digit at a time takes a lot of time if all digits are recognized correctly.
  • a method of allocating each number vocabulary list to the speech recognition circuit 106 a method according to the recognition of the speech recognition engine employed in the speech recognition circuit 106 is appropriately employed.
  • the pattern of the digit string (3 to 4 digits) recognized from the beginning of the digit string is dynamically determined.
  • this method for example, as the S tongue number starting from “0 (zero)”, a “0 (zero)” number is recognized in the first and third digits in the first three digits.
  • Japan it is assumed that it is a pattern of a mobile phone or a telephone number such as PHS, so that an eight-digit number string (total 11 digits) or a characteristic
  • a number vocabulary list recognizing the number sequence is allocated.
  • all the number vocabulary lists are statically read into the speech recognition circuit 106 once, and are input by the user.
  • By calculating the likelihood calculation as an average over time only a few possible patterns are left as candidates, and the other patterns are excluded from the calculation.
  • Kakura is capable of continuously recognizing all necessary digits in speech.
  • step S705 the telephone number recognized in the step S704 is displayed on the LCD display device 109, and the recognition result is transmitted to the response voice control circuit 11.0. Inform the phone number 105 of the telephone number.
  • step S706 a message prompting the LCD display device 109 to start a process or a word indicating a process restart is displayed.
  • the voice detected by the microphone 103 is read, and a word included in the voice that is a registered word instructing to proceed with the process is included, or a word instructing to restart the process is included.
  • the process returns to step S704.
  • step S707 an AT command corresponding to the telephone number extracted in step S704 is called from voice instruction information memory 107, and the AT command is transmitted to voice call unit 102. I do.
  • FIG. 29 is a flowchart of a process executed by the central control circuit 108, which is an arithmetic process for performing an off-hook operation or the like in response to the user uttering a word meaning the end. .
  • Figure 29 shows the process scheme for the on-hook operation for ending a call.
  • step S801 the off-hook state is detected to indicate that the operation state of the voice communication unit 102 is the communication mode.
  • a status signal is received from the voice call unit 102 to determine whether or not the mobile phone is in an off-hook state. If the mobile phone is in an off-hook state (YES), the process proceeds to step S802. In this case (NO), this flow is repeated.
  • step S802 first, a speech operation vocabulary list in which only necessary speech commands during and after a call are registered as a registered vocabulary list is read into the speech instruction recognition circuit 106. Then, the voice detected by the microphone 103 is read, and the voice instruction recognition circuit 106 recognizes whether a voice command for ending the call, which is a registered word included in the voice, is included.
  • step S803 an AT command for instructing line disconnection is called from the voice instruction information memory 107, and the AT command is transmitted to the voice call unit 102. Therefore, when the user utters a voice command to end the call, for example, "hang up", the voice finger is input via the microphone 103. The input voice is recognized by the recognition / recognition circuit 106, and if it is recognized as "hang up," the central control circuit 108 uses the AT command (ATH) to control the line. To the voice call unit 102 to complete the line disconnection.
  • ATH AT command
  • FIG. 30 is a flowchart of a process executed by the central control circuit 108, which is an arithmetic process for performing an off-hook operation in response to a user speaking a word meaning an incoming call.
  • Figure 30 shows a process scheme for off-hook operation when receiving a call.
  • a status signal is received from the voice call unit 102 to determine whether or not the mobile phone is in an on-hook state. If the mobile phone is in an on-hook status, the process proceeds to (YE S) Step S 902. In this case (N ⁇ ) Repeat this flow.
  • step S902 it is determined whether or not a result code indicating an incoming call has been received from the voice communication unit 102, and if a result code has been received, a (YE S) incoming signal has been received. Message is displayed on the LCD display device 109, and a message to that effect is transmitted to the response voice control circuit 110, and the message is reported to the speaker 105. Go to 3, otherwise: ⁇ (NO) Repeat this flow. That is, when the voice communication unit 102 receives the signal indicating the incoming call, it transmits a result code to the central control circuit of the voice recognition unit to notify the reception of the incoming call.
  • the voice recognition unit that has received the incoming signal displays on the LCD screen display device a notification that the incoming signal has been received and, at the same time, announces the incoming call by voice from the response voice control circuit through the speaker 1. At this time, if the incoming signal includes the destination information, the information is compared with the destination already registered in the personal name vocabulary list. It is possible to notify the user with more detailed information, such as voice call and screen display.
  • the other party's information is stored in the memory, and after the end of the call, the “S g Do you want to record? '', And ask them to speak vocabulary related to pre-registered voice instructions such as ⁇ new registration '' or ⁇ over registration '', and then voice the new destination in the personal name vocabulary list. It is also possible to register.
  • step S903 first, an incoming operation vocabulary list relating to a response at the time of incoming call is read into the voice instruction recognition circuit 106 as a registered vocabulary list. Next, a message prompting the vocabulary to instruct off-hook or the vocabulary to instruct on-hook is displayed on the LCD display device 109. The voice detected by the microphone 103 is read, and the voice instruction recognition circuit 106 recognizes whether or not a vocabulary indicating off-hook, which is a registered word included in the voice, is included. Then, it is determined whether or not the vocabulary indicating off-hook, which is a registered word, or the vocabulary indicating on-hook is included in the voice detected by the microphone 103, and the vocabulary indicating off-hook is determined.
  • step S903 If it is included (YES, step S903 '), the flow advances to step S904, and if the word indicating on-hook is included (N ⁇ , step S903). ) The process proceeds to step S905.
  • the voice instruction recognition circuit 106 reads the incoming call vocabulary list regarding the response to the incoming call, and determines whether or not to answer the call according to the situation.
  • speak a vocabulary indicating a pre-registered off-hook for example, a vocabulary of "H tongue out”.
  • the voice input through the microphone 103 is recognized by the voice instruction recognition circuit to determine whether it is "take a call".
  • step S904 an AT command for instructing off-hook is called from the voice instruction information memory 107, and the AT command is transmitted to the voice call unit 102.
  • the central control circuit 108 transmits an AT command (ATA) for instructing an off-hook to the voice communication unit, sets the communication mode, and connects with the microphone 2. Make a voice call using speaker 2.
  • an AT command for instructing the on-hook is called from the voice instruction information memory 107, and the AT command is transmitted to the voice call unit 102.
  • an off-hook control code is automatically transmitted, or a control code for answering machine mode is transmitted. By doing so, it is possible to respond to the wishes of the user.
  • the internal processing of the speech instruction recognition circuit 106 always performs a speech detection algorithm (VAD) regardless of the presence or absence of speech input. Is working.
  • VAD speech detection algorithm
  • all sounds including noise input from the microphone 103 are input as voices, whether they are not input as voices, are input as voices, or are being input as voices. Has been repeatedly determined as to whether the state has ended.
  • the voice instruction recognition circuit 106 always operates the voice recognition algorithm, so that even sounds and words unnecessary for voice recognition are easily input, and those unnecessary sounds and words are converted into unnecessary ones. It is provided as a rejection function so that it does not malfunction. H. Boulara, B. Dore and J.-M. Boite, "Optimizing Recognition and Rejection Performance in Wordspotting Systems," Proc. ICASSP, Sydney, Australia, pp.1 -373-376, 1994. It is sufficient to use the garbage model method, etc., as shown in Fig. 28.
  • the timing notification video 30 that turns green when in the state, yellow when audio is being input, and red when audio has been input is displayed on the LCD display device 109. Display at the top.
  • a level display 31 that extends upward according to the volume of the sound detected by the microphone 103, that is, the longer the sound is, the longer it is displayed. I do. Then, the three states in the internal processing of the VAD, namely, the video 30 for the evening imitation Kodara, are displayed on the LCD display device 62 of the voice recognition unit 101.
  • the user By notifying the user of when to start speaking, it is possible to avoid unnecessary sounds during speech and to avoid fogging with words.As a result, there is no physical button operation, etc. , Voice input is possible. Also, by notifying the loudness of the voice detected by the microphone 103 with the level meter 31, the user can be assisted to speak at an appropriate volume, and as a result, the registered words can be more easily recognized. be able to.
  • the microphone 103 and the speaker 113 of the voice recognition unit 101 and the microphone 115 and the speaker 116 of the voice call unit 102 correspond to voice input / output means.
  • the voice instruction recognition circuit 106 corresponds to voice recognition means
  • the voice instruction information memory 107 corresponds to storage means
  • the LCD display device 109 corresponds to screen display means
  • the central control circuit 108 has In correspondence with the control means, the microphone 103 corresponds to the voice detection means, the timing notification video 30 corresponds to the utterance timing notification means, and the level meter 31 corresponds to the volume notification means.
  • the above-described embodiment shows an example of the voice recognition method, the remote control device, the information terminal device, the telephone communication terminal, and the voice recognition device of the present invention, and does not limit the configuration of the device. Absent.
  • Apparatus main unit The communication unit 52 of the second embodiment is attached to the unit 1 or the telephone communication terminal of the third embodiment, and an e-mail transmission / reception function is performed by the remote control main unit 1 based on a voice recognition result.
  • a schedule management function, a voice memo function, a voice message function, and the like may be executed.
  • the remote control device main unit 1 of the first embodiment and the voice call unit 102 of the third embodiment are attached, and the remote control device main unit 1 performs voice recognition.
  • the mis operation may be performed based on the result.
  • the user is in a call and the microphone 115 and the speaker 115 of the voice call unit 102 are exclusively used for the call. Even if it is provided, it is possible to input voice to the remote control device main body 1 and control the voice call unit 102.
  • the remote control device main unit 1 of the third iron type is equipped with the communication unit 52 of the second difficult type and the voice call unit 102 of the third difficult type, and Part 1 performs voice recognition so that telephone operations can be performed based on the voice recognition result, and based on the voice recognition result, an e-mail transmission / reception function, a schedule management function, a voice memo function, and a voice recording function. It may be possible to execute a function or the like.
  • the user can use each function only by uttering the registered word, no physical operation is required, and similarly to the third embodiment, Even if the user is on a call and the voice call unit 102 for the call is occupied by the microphone 111 and the speed 115, the remote control unit 1 A voice can be input to the voice communication unit 102 and the voice call unit 102 can be controlled.
  • the speech recognition method calculates the likelihood of the speech unit label sequence for recognizing unnecessary words other than the registered words in the matching process by the video algorithm.
  • speech that does not contain registered words such as living noise that is, speech other than registered words
  • the audio parameter sequence corresponds to the speech unit label sequence for unnecessary words.
  • the likelihood of the acoustic model to be calculated is calculated large, and speech other than the registered word can be recognized as an unnecessary word based on the likelihood, and speech other than the registered word can be prevented from being erroneously recognized as a registered word.
  • the remote control device recognizes a recognition target word included in a user's voice using the voice recognition method. Against Mari life noise, high Rijekushiyon rate, it is possible to prevent malfunctions, erroneous recognition.
  • the information communication terminal recognizes the registered words included in the user's voice by using the ifS voice recognition method, the voice does not include the registered words such as living noise, that is, When a voice other than the registered word is emitted from the user, the likelihood of the acoustic model corresponding to the speech unit label sequence for the unnecessary word is calculated to be larger than the acoustic parameter sequence of the voice. Based on this, it is possible to recognize voices other than the registered words as unnecessary words, prevent voices other than the registered words from being erroneously recognized as registered words, and prevent malfunction of the information terminal device.
  • the telephone communication terminal is a telephone communication terminal capable of constantly recognizing voice.
  • a call is made, irrespective of whether any of a keyword representing the tongue number or an arbitrary telephone number is spoken, There is little misrecognition, and in recognition of the telephone number itself, it is possible to recognize by serial number utterance without limiting the caller to utterance such as one digit utterance recognition.
  • by enabling off-hook by voice input there is an effect that telephone operation can be performed in a hands-free state for both transmission and reception at all times.
  • the communication unit and the voice recognition unit have independent input / output systems, the user is on a call and the input / output system of the communication unit is exclusively used for the call. Even if it is, the user's voice can be input to the voice recognition unit, and the communication unit can be controlled.
  • the speech recognition device since the speech recognition device according to the present invention notifies that the registered word can be recognized, the user can utter the registered word at an appropriate timing, and the registered word can be easily recognized. be able to.
  • the same voice awakening as in the first embodiment is used, similar to the first embodiment, when a voice that does not include a registered word, that is, a voice other than a registered word is uttered by a user, The likelihood of the unnecessary word model 23 is calculated to be large for the sound parameter overnight series of the speech, and the likelihood of the vocabulary network 22 of registered words is calculated to be small. Speech other than the registered word is recognized as an unnecessary word, and speech other than the registered word is prevented from being erroneously recognized as a registered word, and malfunction of the telephone communication terminal is prevented.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)

Description

音声認識方法、 リモートコントロール装置、 情報端末装置、 通信端末及び音
技術分野
本発明は、 ^投の生活環境で使用される機器を音声で制御するための音声認識 方法、 その音声認識方法を用いたリモートコントロール装置並びに情報端末装置、 電話通信端末及び音声認識装置に関する。
.冃:
従来のリモートコントロール装置において、 1つの機器に対して、 1個のリモ ートコント口ール装置が必要とされ、 同じリモートコント口一ル装置で別の β を遠隔制御することは、 一般には不可能であった。例えば、 テレビ用のリモート コントロール装置を用いてエアコンの遠隔制御することはできない。 また、 リモ ートコントロール装置には、 制御したい操作内容に応じて、 多数のスィヅチが設 けられており、 このスィッチの押下状態に従って、 対象 βへの制御信号が選択 され、 対象機器へ送信される。 ビデオテープレコーダなどの場合、 受信したいテ レビ局の選択ボタン、 番組予約のための時間指定のボタン、 テープの走行状態を 設定するボタンなど、 必要とされる数多くの操作ボタンがあり、 その操作性が煩 雑であるという問題点があった。 また、 対象 βごとにリモートコントロール装 置が必要となるため、 利用者はどのリモートコントロール装置がどの対象機器に 対応するのかを常に正確に把握しておく必要があり、 操作に手間がかかるという 問題があった。
上述のような多数のボタンスィツチを排除するとともに、 単一のリモートコン ト口ール装置で複数の対象機器を操作制御することを目的としたリモートコント ロール装置が、 例えば、 特開平 2— 1 7 1 0 9 8号公報に開示されている。 この 先行技術においては、 音声入力により遠隔制御内容を指示し、 この音声認識結果 に従って制御信号を発生する。 この先行技術の音声認識リモートコントロール装 置においては、 複数の操作対象機器に対応するために音声認識結果を機器制御コ ―ドに変換する書き換え可能なマップが用意されており、 このマップの内容が操 作対象となる操作機器に応じて書き換えられている。 このマツプの書き換え作業 は、 対象 βごとに変換コードのマツプが Έ己憶されている IC力一ドを差し替える 作業が必要であり、 対象 »が変更される場合においては、 対応する ICカードを 探さなければならないという問題点があつた。
特開平 5— 7 3 8 5号公報に記載される音声認識リモートコントロール装置で は、 鐘—単語対応表と制御信号一 »Κ態対応表を用い、 さらに »Κ態用メ モリに機器の運転状況に応じて発生する禁止すべき操作内容に対し、 禁止フラグ を記憶することにより、 β制御コードのマヅプ書き換え作業を不要にした技術 が開示されている。
ところが、 音声認識技術を用いた単一のリモートコントロール装置で複数の機 器を制御する場合、 認識させたい単語数が増大するため、 入力した音声内容が、 必ずしも正確に認識処理されず、 指示内容とは異なる内容として認識され、 誤動 作の原因となり、 使いやすさを求めるリモートコントロール装置としての特徴が 半減していた。特に、 テレビやオーディオといった音響 を制御する:^、 対 象機器から発生する音により、 音声認 I»理が勝手に作動し、 使用者が何ら発話 していないにもかかわらずに ¾#操作が行われてしまったり、 あるいは、 所望と する制御内容を発話しても、 音響機器から発生する音により、 正しく認識されず、 何度も言い直しをしなければならないという問題があつた。
上記のような音響機器を制御する場合の音声認識リモートコントロール装置に おいて、 特開昭 5 7 - 2 0 8 5 9 6号公報には、 使用者による音声発話を検出し たときにテレビ受像機等の放声手段にミューティングをかけることにより、 音声 認識回路の認識率の向上を図る手段が開示されている。 また、 特開平 1 0— 2 8 2 9 9 3号公報には、 音声入力装置から入力される音声コマンドとオーディォ信 号と他のノ ヅクグランドノイズからなる信号をスピーカとマイクロフォンとの間 の空間内の伝^ β§をモデルィ匕することにより、 オーディォ機器によって送出され たオーディォ信号が音声入力装置の位置で評価され、 マイクロフォン信号を補正 するため使用されるサウンド補償器を設けることによって、 音声認 理の誤差 に対するイミュニティが改良することによって、 音声コマンドの検出を改良した 技術が開示されている。 この場合には、 音声認識リモートコントロール装置を使 用するに当たり、 事前に対象機器に対し、 ミューティングを指示するための特別 な回路の設置や、 マイクロフォンの位置と感度の調整といった専門的な知識が必 要であり、 汎用的な装置としては、 Ρ§題点があった。
さらに、 上述の従来技術による音声認識リモートコントロール装置では、 制御 したい対象機器が増加するに伴って、 認識させたい単語以外の未知語、 不要語や システムの想 の発話などによる誤認識による誤動作が避けられない。 したが つて、 より使い勝手のよレヽ音声認識型のリモートコント口一ル装置を実現するに は、 認識結果の不正解やシステムの想定外の発話であることを判定する棄却 (リ ジェクシヨン) の機能が要求される。特に 常時音声認 理を行っている状況 下では、 使用環境下における生活雑音、 例えば仲間同士での会話、 リモートコン トロール装置のそばを人が歩く音、 ペットなどの鳴き声、 台所での炊事作業によ る雑音などを除去できる音声認識技術に至っておらず、 結果として、 誤認識が多 頻度で発生してしまうという問題が依然として残っていた。 また、 この誤認識を 少なくするため、 登録された単語とのマツチング判定の許容範囲を厳しくすると、 誤認識は減少する傾向になるが、 目的とする単語が発話された場合にもリジェク シヨンされる頻度が高くなり、 何度も言い直しが必要となり、 利用者に不快感を 与えていた。
なお、 このような言果題は、 リモートコントロール装置に限ったものではなく、 音声認識を行う機器であれば、 情報端末装置や電話通信端末等、 その他の機器で も同様に存在するものである。
本発明は、 上記従来の技術の未解決の課題に着目してなされたものであって、 生活雑音による誤認識の発生を抑制防止する等、.常時音声認識を行う機器に好適 な音声認識方法、 その音声認識方法を用いたリモートコントロール装置並びに情 報端末装置、 I ^通信端末及び音声認識装置を提供することを目的とする。 発明の開示
上記課題を解決するために、 本発明は次のような構成からなる。 すなわち、 本 発明に係る音声認識方法は、 音声認言麟象者の入力音声を音響ノ ラメ一夕系列に 変換し、 その音響パラメ一夕系列と、 登録語についての音声単位ラベル系列に対 応する音響モデルとを、 ビ夕ビアルゴリズムにより照合することにより音声認識 を行う音声認識方法において、 前記登録語についての音声単位ラベル系列と並列 に登録語以外の不要語を認識するための音声単位ラベル系列を設け、 前記ビ夕ビ ァルゴリズムによる照合過程において、 前記登録語以外の不要語を認識するため の音声単位ラベル系列の尤度も同時に演算することにより、 不要語が入力音声と して入力された場合に、 籠 3不要語を不要語として認識させることを特徴とする 。換言すれば、 音声を音響パラメ一夕系列に変換し、 その音響パラメ一夕系列に 対し、 登録語についての音声単位ラベル系列に対応する登録語認識用音響モデル の尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する 不要語認識用音響モデルの尤度とを算出し、 それらの尤度に基づいて音声認識を 行うことを特徴とするものである。
このような構成としたため、 生活雑音等の登録語を含まない音声、 つまり登録 語以外の音声が音響パラメ一夕系列に変換されたときには、 その音響パラメ一夕 系列に対し、 登録語についての音声単位ラベル系列に対応する音響モデルの尤度 が小さく算出されると共に、 不要語についての音声単位ラベル系列に対応する音 響モデルの尤度が大きく算出され、 それらの尤度に基づいて前記登録語以外の音 声を不要語として認識でき、 前記登録語以外の音声が登録語として誤認識される ことを防止できる。
また、 前言己音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを 用いた音響モデルであり、 かつ前記不要語を認識するための音声単位ラベル系列 が、 使用するすべての音声単位モデルを平準ィ匕した仮想的な音声単位モデルから 成るものとしてもよい。換言すれば、 前記不要語認識用音響モデルを、 全ての音 声単位モデルを平準化した仮想的な音声単位モデルに集約してもよい。
このような構成にすれば、 登録語を含む音声が音響ノ ラメ一夕系列に変換され たときには、 その音響パラメ一夕系列に対し、 登録語についての音声単位ラベル 系列に対応する隠れマルコフモデルの尤度が、 全ての音声単位モデルを平準化し た仮想的な音声単位モデルの尤度よりも大きく算出され、 それらの尤度に基づい て前記音声に含まれる登録語を認識できる。 また、 生活雑音等の登録語を含まな い音声、 つまり登録語以外の音声が音響パラメ一夕系列に変換されたときには、 その音響パラメ一夕系列に対し、 全ての音声単位モデゾレを平準ィ匕した仮想的な音 声単位モデルの尤度が、 登録語についての音声単位ラベル系列に対応する隠れマ ルコフモデルの尤度よりも大きく算出され、 それらの尤度に基づいて前記登録語 以外の音声を不要語として認識でき、 当該登録語以外の音声が登録語として誤認 識されることを防止できる。
また、 ifB音声単位ラベソレ系列に対応する音響モデルが隠れマルコフモデルを 用いた音響モデルであり、 かつ前記不要語を認識するための音声単位ラベル系列 が、 母音だけの音素で構成される自己ループ型のネヅトワーク構成であるもので もよい。換言すれば、 前記不要語認 ffl音響モデルが、 母音の音素に対応する音 素モデルの集合体からなり、 その集合体の終点から始点への自己ループを持つこ とを f (とするものであって、 音響パラメ一夕系列に対し、 母音の音素に対応す る音素モデル群の尤度を音響パラメ一夕毎に算出し、 それらのうち最大のものを 積算して不要語モデルの尤度とするものでもよい。
このように構成にすれば、 登録語を含む音声が音響パラメ一夕系列に変換され たときには、 その音響パラメ一夕系列に含まれる子音の音素の存在によって、 そ の音響パラメ一夕系列に対し、 登録語についての音声単位ラベル系列に対応する 隠れマルコフモデルの尤度が、 母音だけの音素で構成される自己ループ型のネヅ トワーク構成の尤度よりも大きく算出され、 それらの尤度に基づいて前記音声に 含まれる登録語を認識できる。 また、 生活雑音等の登録語を含まない音声、 つま り登録語以外の音声が音響パラメ一夕系列に変換されたときには、 その音響パラ メ一夕系列に含まれる母音の音素であって、 登録語には含まれていないものの存 在によって、 その音響パラメ一夕に対し、 母音だけの音素で構成される自己ルー プ型のネットワーク構成の尤度が、 登録語についての音声単位ラベル系列に対応 する隠れマルコフモデルの尤度よりも大きく算出され、 それらの尤度に基づいて 前記登録語以外の音声を不要語として認識でき、 当該登録語以外の音声が登録語 として誤認識されることを防止できる。
一方、 上記課題を解決するために、 本発明に係るリモートコントロール装置は 、 複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、 遠隔操作を指示する認識対象語を記憶する記憶手段と、 利用者から発せられた音 声を入力する手段と、 利用者から発せられた音声に含まれる編3認 ϋ¾Τ象語を前 記記憶手段に基づいて認識する音声認識手段と、 その音声認識手段にて認識され た認讓象語に対応する機器制御信号を送信する送信手段とを備え、 前記音声認 識方法が請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いた ことを特徴とする。換言すれば、 利用者の音声を検出する音声検出手段と、 その 音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、 そ の音声認識手段で認識された登録語に対応する機器制御信号を送信する送信手段 とを備え、 前記音声認識手段は、 前記音声検出手段で検出された音声に含まれる 登録語を、 請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用い て認識することを特徴とするものである。
このような構成としたため、 生活雑音等の登録語を含まない音声、 つまり登録 語以外の音声が利用者から発せられたときには、 その音声の音響ノ ラメ一夕系列 に対し、 不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大 きく算出され、 登録語についての'音声単位ラベル系列に対応する音響モデルの尤 度が小さく算出され、 それらの尤度に基づいて前記登録語以外の音声を不要語と して認識でき、 当該登録語以外の音声が登録語として誤認識されることを防止で き、 リモートコント口一ル装置の誤動作を防止することができる。
また、 利用者に通話させるための音声入力部を有し、 且つ、 前記音声認識手段 で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ュニッ トを備え、 前記音声入力手段と前記通信ュニヅトの音声入力部とを個別に設けて もよい。
このような構成とすれば、 利用者が通話中であって、 その通話のために通信ュ ニットの音声入力部が専有されている場合であっても、 利用者の音声を音声認識 手段に入力でき、 通信ユニットを制御することができる。
また、 音声によるメールの送受信処理、 音声による予定管理処理、 音声による メモ処理及び音声による報知処理の少なくとも 1つを実行する制御手段を備えた ものとしてもよい。 このような構成とすれば、 音声によるメールの送受信処理、 音声による予定管 理処理、 音声によるメモ処理及び音声による報知処理を、 利用者は登録語を発話 するだけで実行することができ、 物理的な操作が必要とされない。
—方、 上記課題を解決するために、 本発明に係る情報端末装置は、 利用者の音 声を検出する音声検出手段と、 その音声検出手段で検出された音声に含まれる登 録語を認識する音声認識手段と、 その音声認識手段で認識された登録語に基づレ、 て、 音声によるメ一ソレの送受信処理、 音声による予定管理処理、 音声によるメモ 処理及び音声による報知処理の少なくとも 1つを実行する制御手段とを備え、 前 記音声認識手段は、 前記音声検出手段で検出された音声に含まれる登録語を、 請 求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いて認識するも のとしてもよい。 なお、 音声によるメールの送受信処理としては、 例えば、 利用 者にメール内容を音声入力させ、 その音声を音声デ一夕に変換し、 その音声デ一 夕を電子メールに添付して送信し、 且つ、 音声デ一夕が添付された電子メールを 受信し、 その音声データを再生する処理が挙げられる。 また、 音声による予定管 理処理としては、 例えば、 利用者に予定の内容を音声入力させ、 その音声を音声 データに変換すると共に、 その予定の実行日を入力させ、 その実行日に音声デ一 夕を対応づけて予定を管理する処理が挙げられる。 また、 音声によるメモ処理と しては、 利用者にメモ内容を音声入力させ、 その音声を音声データに変換し、 利 用者の要求に応じて音声データを再生する処理が挙げられる。 また、 音声による 報知処理としては、 例えば、 利用者に報知内容を入力させて、 その音声を音声デ
—夕に変換すると共に、 報知タイミングを入力させ、 その報知タイミングで音声 デ一夕を再生する処理が挙げられる。
このような構成としたため、 生活雑音等の登録語を含まない音声、 つまり登録 語以外の音声が利用者から発せられたときには、 その音声の音響ノ ラメ一夕系列 に対し、 不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大 きく算出され、 登録語についての音声単位ラベル系列に対応する音響モデソレの尤 度が小さく算出され、 それらの尤度に基づいて前記登録語以外の音声を不要語と して認識でき、 当該登録語以外の音声が登録語として誤認識されることを防止で き、 情報端末装置の誤動作を防止することができる。 また、 音声によるメールの 送受信処理、 音声による予定管理処理、 音声によるメモ処理及び音声による報知 処理を、 利用者は登録語を発話するだけで実行することができ、 物理的な操作が 必要とされない。
一方、 上記課題を解決するために、 本発明に係る 通信端末は、 公衆電話回 線網あるいはィン夕一ネット通信網に接続可能な電話通信端末において、 音声を 入出力する音声入出力手段と、 入力音声を認識する音声認識手段と、 電話相手先 の名前や電話番号を含む個人情報を記憶している記憶手段と、 画面表示手段と、 それぞれを制御する制御手段とを備え、 編己音声入出力手段は通信ユニットと音 声認識ュニヅトとでそれぞれ独立した入出力系統を有していることを特徴とする 。換言すれば、 利用者に電話操作に関する登録語を音声で入力させる音声入力部 を有し、 その音声入力部で入力させた登録語を認識する音声認識ユニットと、 利 用者に通話させるための音声入力部を有し且つ前記音声認識ュニヅトで認識され た登録語に基づいて通信回線への接続状態を制御する通信ュニヅトとを備え、 前 記音声認識ュニットの音声入力部と前記通信ュニヅトの音声入力部とを個別に設 けたことを特徴とするものである。
このような構成としたため、 利用者が通話中であって、 その通話のために通信 ュニットの入出力系統が専有されている場合であっても、 利用者の音声を音声認 識ュニヅトに入力でき、 通信ュニヅトを制御することができる。
また一方、 上記課題を解決するために、 本発明に係る電話通信端末は、 公衆電 話回線網あるいはィン夕一ネット通信網に接続可能な通信端末であって、 音声を 入出力する音声入出力手段と、 入力音声を認識する音声認識手段と、 電話相手先 の名前や電話番号を含む個人情報を記憶してレ、る記憶手段と、 画面表示手段と、 それぞれを制御する制御手段とを備え、 前記記憶手段は予め登録された人名を含 む特定の名称の名称語彙リストと任意の s¾番号の番号語彙リストと通話中の電 話操作の通話操作語彙リストと着信時の mm操作の着信操作語彙リストとを別々 に備え、 発信 ·切断 .着信に関するすべての電話操作が tifB音声認識手段、 ΙιίϊΒ 記憶手段、 前記制御手段により音声入力で可能であることを碰とする。換言す れば、 前記記憶手段は、 特定の名称が登録されている名称語彙リストと、 任意の 電話番号が登録されている番号語彙リストと、 通話時の電話操作関連語が登録さ れている通話操作語彙リストと、 着信時の電話操作関連語が登録されている着信 操作語彙リストとを個別に言 3憶し、 前記音声認識手段は、 当該音声認識手段によ る認識結果又は通信回線の状態に応じて謂 3記憶手段に記憶されている語彙リス トを選出し、 その語彙リストを参照して、 前記音声入出力手段で入力された音声 に含まれる言葉を認識することを特徴とするものである。
このような構成としたため、 状況に応じて語彙リストを適切なものに変更する ことで、 生活雑音等の不要な音声による誤認識の発生を抑制防止できる。
また、 電話番号の認識方法が、 全桁数の連続発話の入力によって前言 3記憶手段 の番号語彙リスト、 前記音声認識手段が任意の電話番号を認識する電話番号語彙 ネットヮ一クを用いて所定の桁数の数字又は記号から成る数字列パターンを認識 するようにしてもよい。換言すれば、 前記記憶手段は、 SI舌番号の全桁に相当す る数字列が登録されている連続番号語彙リストを記憶し、 前記音声認識手段は、 入力音声に含まれる電話番号を認識するときには、 f!3記憶手段に記憶されてい る連続番号語彙リストを参照するようにしてもよい。
このような構成にすれば、 電話番号を認識させるときには、 利用者は電話番号 の全桁に相当する数字列を連続発話するだけでよく、 電話番号を短時間で認識さ せることができる。
また、 前記画面表示手段が発話タイミングを知らせる発話タイミング表示機能 を有しているものであってもよい。換言すれば、 前記音声認識手段が登録語を認 識可能な状態にあることを報知するようにしてもよい。
このような構成にすれば、 画面表示手段で知らされた発話タイミングで発話す ることで、 利用者は適切なタイミングで登録語を発話することができ、 登録語を 適切に認識させることができる。
また、 備 3音声認識手段で認識された入力音声に基づいて、 音声によるメール の送受信処理、 音声による予定管理処理、 音声によるメモ処理及び音声による報 知処理の少なくとも 1つを実行する第 2制御手段を備えたものとしてもよい。 このような構成とすれば、 音声によるメールの送受信 »、 音声による予定管 理処理、 音声によるメモ処理及び音声による報知処理を、 利用者は登録語を発話 するだけで実行することができ、 物理的な操作が必要とされない。 また、 媚 3音声認識手段は、 入力音声に含まれる登録語を、 請求の範囲第 1項 乃至第 3項のいずれかに記載の音声認識方法を用いて認識するようにしてもよい このような構成としたため、 生活雑音等の登録語を含まない音声、 つまり登録 語以外の音声が利用者から発せられたときには、 その音声の音響パラメ一夕系列 に対し、 不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大 きく算出され、 登録語についての音声単位ラベル系列に対応する音響モデルの尤 度が小さく算出され、 それらの尤度に基づいて前記登録語以外の音声を不要語と して認識でき、 当該登録語以外の音声が登録語として誤認識されることを防止で き、 通信端末の誤動作を防止することができる。
一方、 上記課題を解決するために、 本発明に係る音声認識装置は、 利用者の音 声を検出する音声検出手段と、 その音声検出手段で検出された音声に含まれる登 録語を認識する音声認識手段と、 その音声検出手段が登録語を認識可能な状態に あることを報知する発話夕ィミング報知手段とを備えたことを特徴するものであ る。
このような構成としたため、 登録語を認識可能な状態にあることが報知された ときに発話することで、 利用者は適切なタイミングで登録語を発話することがで き、 登録語を容易に認、識させることができる。
また、 前記音声検出手段で検出された音声の大きさを報知する音量報知手段を 備えるものでもよい。
このような構成にすれば、 利用者は適切な音量で発話する助けが得られ、 その 結果、 登録語をより容易に認識させることができる。 図面の簡単な説明
図 1は、 本発明の第 1 «形態であるリモートコント口一ル装置のプロヅク図 である。
図 2は、 図 1のリモートコントロール装置の概略構成図である。
図 3は、 図 2のリモートコント口一ル装置で実行される演算処理のフローチヤ ートである。 図 4は、 図 3の演算処理で L CD表示装置に表示させる映像を説明するための 説明図である。
図 5は、 図 3の演算処理で実行される音声認識処理を説明するための説明図で ある。 。
図 6は、 図 5の音声認識処理で用いられる語彙ネットワークを説明するための 説明図である。
図 7は、 図 6の不要語モデルを、 すべての音素モデルを平準ィ匕した仮想的な音 素モデルとした語彙ネットワークを説明するための説明する説明図である。 図 8は、 図 6の不要語モデルを、 母音を構成する音素群の自己ループとした語 彙ネットワークを説明するための説明図である。
図 9は、 図 6の不要語モデルを、 すべての音素モデルを平準ィ匕した仮想的な音 素モデルと母音を構成する音素群の自己ループとを組み合わせたものとした語彙 ネットワークを説明するための説明する説明図である。
図 1 0は、 図 6の不要語モデルを、 母音を構成する音素群とした語彙ネヅトヮ —クを説明するための説明図である。
図 1 1は、 不要語モデルを用いない語彙ネットワークを説明するための説明図 である。
図 1 2は、 本発明の第 2実施形態である情報端末装置のブロック図である。 図 1 3は、 図 1 2の情報端末装置の概略構成図である。
図 1 4は、 図 1 3の倩報端末装置で実行される演算処理のフロ一チヤ一トであ る。
図 1 5は、 図 1 4の演算処理で L CD表示装置に表示させる映像を説明するた めの説明図である。
図 1 6は、 図 1 3の情報端末装置で実行される演算処理のフローチャートであ る。
図 1 7は、 図 1 3の情報端末装置で実行される演算処理のフローチヤ一トであ る。
図 1 8は、 図 1 7の演算処理で L CD表示装置に表示させる映像を説明するた めの説明図である。 図 1 9は、 図 1 7の演算処理で L CD表示装置に表示させる映像を説明するた めの説明図である。
図 2◦は、 図 1 3の情報端末装置で実行される演算処理のフローチヤ一トであ る。
図 2 1は、 図 2 0の演算処理で L CD表示装置に表示させる映像を説明するた めの説明図である。
図 2 2は、 図 1 3の情報端末装置で実行される演算処理のフローチャートであ る。
. 図 2 3は、 本発明の第 3実施形態である音声認識機能付き電話通信端末のプロ ヅク図である。
図 2 4は、 本発明の第 3実施形態の変形例である音声認識機能付き電話通信端 末のブロック図である。
図 2 5は、 図 2 3の中央制御回路で実行される演算処理のフローチャートであ る。
図 2 6は、 図 2 5の演算処理で L C D表示装置に表示させる映像を説明するた めの説明図である。
図 2 7は、 図 2 3の中央制御回路で実行される演算処理のフローチャートであ る。
図 2 8は、 図 2 7の演算処理で L C D表示装置に表示させる映像を説明するた めの説明図である。
図 2 9は、 図 2 3の中央制御回路で実行される演算処理のフローチャートであ る。
図 3 0は、 図 2 3の中央制御回路で実行される演算処理のフローチヤ一トであ る。 発明を実施するための最良の形態
以下、 本発明の実施形態を図面に基づいて説明する。 図 1は、 本発明の第 1実 施形態である音声認識リモートコントロール装置の主要プロック図である。 この 図に示すリモートコントロール装置は、 利用者の音声を認識判断するリモートコ ントロール本 つまりリモコン装置本体部 1と、 その認識結果に基づいて、 制 御信号を赤外線信号として発信する赤外線発光部 2とから構成される。利用者の 音声は、 リモコン装置本体部 1の音声入力装置 (マイクロフォン 3)から入力さ れ、 増幅器 4を経由し、 A/D変 I5によって、 デジタル化された音響パラメ —夕 (例えば、 スペクトラム等) に変換される。 ここで、 入力されたアナログ音 声は、 特に限定されるものではないが、 通常、 8KHz〜l 6KHzの範囲にあ る特定周波数でサンプリングされてデジ夕ルイ匕される。 デジタル化された音響パ ラメ一夕は、 音声指示認識回路 6内部で、 音声指示情報メモリ 7内に記憶登録さ れている登録語彙リストに対し、 各単語の構成単位である音声単位ごとに、 上記 音響パラメ一夕との尤度計算を行うことにより、 登録語彙リストの中から、 最も 近い単語を抽出する。言いかえると、 音声指示認識回路 6内部では、 デジ夕ルイ匕 された音響パラメ一夕に対し、 音声指示情報メモリ 7内に記憶登録されている登 録語彙リスト内の単語(以下、 登録語とも呼ぶ。 ) の尤度が、 それらの構成単位 (以下、 音声単位と呼ぶ。 )毎に計算され、 当該尤度の積算値が最も大きいもの が利用者の音声に最も近い登録語として抽出される。 なお、 音声指示認識回路 6 内部では、 デジ夕ルイ匕された音響パラメ一夕に対し、 音声指示情報メモリ 7内に 記憶登録されている不要語モデルの尤度も同時に計算され、 当該不要語モデルの 尤度が登録語の尤度よりも大きいときには、 デジ夕ルイ匕された音響パラメ一夕か ら登録語が抽出されなかったものとする。
ここで、 音声単位としては、 音節、 音素、 半音節、 Diphone (音素の 2 つ組)、 Triphone (音素の 3つ組)等を適宜使用すればよいが、 以下で は説明の都合上、 音声単位として音素を用いた場合について説明する。
また、 音声指示情報メモリ 7内には、 各登録語に対応する制御コードが3憶さ れており、 音声指示認識回路 6で抽出された、 つまり音声認識された登録語に対 応する制御コードを当該音声指示情報メモリ 7から呼び出し、 中央制御回路 8を 経由して、 赤外線発 » 2の I R E D駆動 ·制御回路 9へ制御コ一ドが伝達され る。 そして、 I RED駆動'制御回路 9で、 当該制御コードに対応する I RED コードを IREDコード情報メモリ 10から呼び出し、 IRED 11から赤外線 信号として発信される。 この際、 同時に利用者へ音声認識結果を知らせる手段として、 認識結果を L C D表示装置 1 2に表示させて視覚的に報知したり、 又は認識結果を応答音声制御 回路 1 3へ伝達し、 当該認識結果に対応する応答音声デ一夕を応答音声用情報メ モリ 1 4から呼び出し、 その音声デ一夕を、 D/A変 « 1 5及び増幅器 1 6を 経由して、 アナログ音声として、 声器(スピーカ 1 7 ) から利用者へ聴覚的に 報知したりする。
一方、 赤外線発光部 2には、 フォトセンサ 1 8が具備されており、 I R E Dコ
—ド情報メモリ 1 0に登録されていない赤外線コードの使用が必要になった場合 には、 フォトセンサ 1 8に対し、 使用したい赤外線コードを発信することによつ て、 その赤外線コードを、 フォトセンサイン夕フエ一ス回路 1 9を介して、 I R
E Dコード情報メモリ 1 0に追記することが可能である。
なお、 使用するハ一ドウェアとしては、 図 1記載の基本機能を有していれば、 特に限定されるものではなく、 以下ではリモコン装置本ィ本部 1として、 図 2に示 すように、 市販のパソコンを用いた場合について説明する。 図 3に、 図 2の音 声認識リモートコントロール装置で実行される処理であって、 利用者の音声に応 じて赤外線コードを送信等する演算処理のフローチャートを示す。 なお、 このフ 口—チャートでは通信のためのステップを設けていないが、 演算処理によって得 られた情報は随時記憶装置に更新記憶されると共に、 必要な情報は随時記憶装置 から読出される。 この演算処理は、 利用者が本リモートコントロール装置を始動 させたときに実行される処理であって、 まず、 そのステップ S 1では、 マイクロ フォン 3で検出された音声を読み込み、 その音声に含まれる登録語である開始パ スワードが含まれているか、 または開始パスワード以外の雑音や音声、 つまり不 要語しか含まれていないかを認識する後述する音声認識処理を実行する。 つまり 、 開始パスワードを音声入力することにより、 操作したい人が音声リモートコン トロール装置に向かったことを合図する。 なお、 開始パスワードとしては、 事前 に利用者が好きな言葉や利用者自身の音声等、 任意のものを設定することができ るが、 常時音声認識が作動していても、 マイクロフォン 3から読み込まれる生活 雑音等によって、 本装置が誤動作しないための工夫が必要であり、 普段あまり使 わない言葉等を用いるとよい。好ましくは、 3音節以上、 2 0音節以下であり、 さらに好ましくは 5音節以上 1 5音節以下で構成される単語を用いることが好適 である。例えば「開けゴマ」等の言葉を用いることができる。
次にステップ S 2に移行して、 前記ステップ S 1で開始パスワードが音声に含 まれていることが認識されたか否かを判定し、 開始パスヮードが含まれている場 合には (YE S) ステップ S 3に移行し、 そうでない場合には (NO)再び編 3 ステップ S 1に移行する。 そのため、 マイクロフォン 3から開始パスワード以外 、 つまり開始パスワードを含まない雑音や音声だけが入力されると、 不要語とし て認識され、 利用者が側にいないと判断して、 正しい開始パスワードが入力され るまで音声入力待ちの状態となる。
前記ステツプ S 3では、 マイクロフォン 3で検出された音声を読み込み、 その 音声に含まれる登録語である制御対象機器の名称が含まれているか、 または制御 対象 «の名称以外の雑音や音声、 つまり不要語しか含まれていないかを認識す る後述する音声認識処理を実行する。 ここで、 制御対象 βとしては、 「テレビ 」、 「ビデオ」、 「エアコン」、 「オーディオ」、 「照明」、 「カーテン」、 「 電話」、 「夕イマ一」、 「電子メール」及び「ボイスメモ」等、 機器や機能を選 択するための言葉 (登録語) が用意されており、 登録語以外、 つまり登録語を含 まない言葉や雑音だけが入力されると、 不要語として認識され、 新たに制御対象 機器の名称が入力されるまで待機状態となる。
次にステヅプ S 4に移行して、 前記ステヅプ S 3で制御できる対象機器の名称 が音声に含まれていることが認識されたか否かを判定し、 制御できる対象機器の 名称が含まれている^には (Y E S ) ステップ S 6に移行し、 そうでない il^r には (N O)再び前記ステップ S 3に移行する。 そのため、 一旦、 マイクロフォ ン 3で検出された音声に開始パスヮ一ドが含まれていることが認識されると、 利 用者が制御したい対象機器を選択するモ一ドとなり、 遠隔操作したい制御対象機 器の名称等が入力されるまで音声入力待ちめ状態となる。 なお、 所定時間経過し ても、 認識対象となる登録語が発話入力されない場合には、 開始パスワードを認 識するモード (ステップ S 1及び S 2 ) まで戻り (図 3に図示せず。 )、 開始パ スヮ一ドが入力されるまで音声入力待ちの状態、 つまり待機状態となる。
前記ステップ S 6では、 マイクロフォン 3で検出された音声を読み込み、 その 音声に制御対象機器に対する指示内^ つまり登録語が含まれているか、 または 制御対象 βに対する指示内容以外の雑音や音声、 つまり不要語しか含まれてい ないかを認識する後述する音声認識処理を実行する。 すなわち、 利用者によって 制御対象 «が選択されると、 その制御対象 miに対して制御できる指示内容を 受け付けるモードとなる。例えば、 制御対象鍵として 「テレビ」が選択される と、 図 4に示すように、 テレビの操作に関する映像が L C D表示装置 1 2に表示 されて、 電源のオン 'オフ、 チャンネル番号の指定、 放送局の指定及び音量の調 節等を指示できるモードとなる。
次にステップ S 7に移行して、 前記ステヅプ S 6で対象機器に対する指示内容 が音声に含まれていることが認識されたか否かを判定し、 対象機器に対する指示 内容が含まれている場合には (Y E S ) ステップ S 8に移行し、 そうでない場合 には (N O)再び前記ステップ S 6に移行する。 つまり、 制御可能な指示内容が 入力されるまで待機状態となる。
次にステヅプ S 8に移行して、 前記ステヅプ S 6で認識された指示内容に対応 する赤外線コードを赤外線発光部 2に送信させる。つまり、 指示内容が音声入力 されると、 その指示内容の認識結果に基づいて、 対応する赤外線コードを呼び出 し、 赤外線発光部 2から対象 βへ赤外線コードを送信することになる。 この乇 —ドでは、 制御できる指示内容以外の命令や雑音が入力されると、 不要語として wisid~iる。
前記ステヅプ S 9では、 前記ステヅプ S 6で認識された指示内容が終了を意味 する言葉 (例えば、 「終了」 ) であるか否かを判定し、 終了を意味する言葉であ る場合には (YE S ) この演算処理を終了し、 そうでない場合には (N O)編 3 ステップ S 3に移行する。 つまり、 このモードで終了を意味する制御指示、 例え ば「終了」 と音声入力すると、 制御できる対象機器を選択するモード (ステップ 3 3及び3 4 ) に戻る。 なお、 所定時間が凝過しても、 認識対象となる鍵制御 に関する登録語、 つまり制御指示が発話入力されない場合にも、 前記制御対象機 器を選択するモードに戻る (図 3に図示せず) 。
前記ステヅプ S 9では、 前記ステヅプ S 6で認識された指示内容が待機を意味 する言葉 (例えば、 「待機」 ) であるか否かを判定し、 待機を意味する言葉であ る場合には (YE S ) 前記ステップ S 1に移行し、 そうでない場合には (N O) ステップ S 1 0に移行する。 つまり、 この制御対象 ¾を選択するモードにおい て、 音声認識リモートコントロール装置を待機させる命令語、 例えば、 「待機」 と音声入力すると、 パスヮ一ドを受け付けるモードに戻る。
前記ステヅプ S 1◦では、 ff!3ステヅプ S 6で認識された指示内容が電源のォ フ状態を意味する言葉 (例えば、 「閉じろゴマ」 ) であるか否かを判定し、 オフ 状態を意味する言葉である場合には (Y E S) この演算処理を終了し、 そうでな い場合には (N O) ステップ S 1 0に移行する。 つまり、 利用者が「閉じろゴマ 」 と音声入力すると、 音声認識装置そのものの電源をオフとすることが可能であ り、 完全に本システムを終了することができる。
本システムを再開するときは、 すでに中央制御回路 8のォペレ一ションシステ ムが立ち上がって ヽる場合には、 本システムに関わるアプリケーションソフトを 起動すればよく、 前記オペレーションシステムが休止している場合は、 本体シス テムの電源ボタンのみ物理的に押下することによって可能となる。
図 5に、 図 3のステップ S 1, S 3及び S 6で実行される音声認識処理であつ て、 これらの音声認 理での隠れマルコフモデル (以下、 HMMと呼ぶ。 ) に よる処理プロセスの原理図を示す。 この音声認識処理が実行されると、 まずマイ クロフオン 3で検知された音声を、 フ一リェ変換若しくはゥヱ一プレヅト変換で デジタル化されたスぺクトルに変換し、 そのスぺクトルに線形予測分析やケプス トラム分析等の音声モデル化手法を用いることによつて音声デ一夕の特徴化を行 う。 次に この特徴化された音声デ一夕に対し、 予め音声認 理で読み込んだ 語彙ネヅトワーク 2 0に登録されている個々の登録語の音響モデノレ 2 1の尤度を ビ夕ビアルゴリズムで計算する。 ここで登録語は、 音声単位の直列接続 (音声単 位ラペル系列) に対応する HMMの直列接続ネットワークでモデルィ匕され、 語彙 ネヅトワーク 2 0は、 登録語彙リストに登録されている登録語群に対応する直列 接続ネットワーク群としてモデルィ匕されている。 また、 各登録語は、 音素等の音 声単位で構成されており、 その音声単位毎に尤度が算出され、 利用者の発話終了 が確認された時点で、 登録語彙リストの中から尤度の積算値が最大となる登録語 を検出し、 その登録語を音声に含まれていると認知した登録語として出力する。 本発明では、 図 6に示すように、 登録語の語彙ネットワーク 2 2と並列に、 単 語表記の H MMと同様にして、 不要語を認識するための仮想的なモデル 2 3が 1δ 定されている。不要語を認識するための仮想的なモデル 2 3としては、 H. Boula rd, B. D' hoore and J.-M. Boite, "Optimizing Recognition and Rejection Perfo rmance in Wordspotting Systems, "Proc. ICASSP, Adelaide, Australia, pp.1-37 3-376, 1994.等で提案されているガーべヅジモデル法を利用すればよい。 これに より、 対象制御したい単語以^ つまり登録語を含まない発話や雑音が音声とし て入力された場合に、 この不要語に対応する仮想的なモデルの尤度が全ての登録 語の尤度よりも大きくなるようにすることで、 最大の尤度を持つ仮想的なモデル が選択され、 不要語が入力されたと判断することが可能なシステムを構築できる 。 また、 不要語を認識するための仮想的なモデル 2 3を用いるため、 リジェクシ ヨン機能を付与しても、 計算負荷量をあまり大きくせず、 実用的なレベルでの認 識処理時間とし、 且つ、 可搬性のある小型のリモートコントロール装置を形成す ることができる。
ちなみに、 不要語を認識するための仮想的なモデル 2 3を用いずに、 登録語の 語彙ネットワーク 2 2だけで構成される語彙ネットワーク 2 0だけを用いる^ の方法では、 制御したい対象 βが増加するに伴って、 認識させたい単語以外の 未知語、 不要語やシステムの想定外の発話などによる誤認識による誤動作が避け られない。 特に、 常時音声認 理を行っている状況下では、 使用環境下におけ る生活雑音、 例えば仲間同士での会話、 リモートコントロール装置のそばを人が 歩く音、 ペットなどの鳴き声、 台所での炊事作業による雑音によって、 誤認識が 多頻度で発生してしまうという問題がある。 また、 この誤認識を少なくするため 、 登録された単語とのマッチング判定の許容範囲を厳しくすると、 誤認識は減少 する傾向になるが、 目的とする単語が発話された場合にもリジヱクシヨンされる 頻度が高くなり、 何度も言い直しが必要となり、 利用者に不决感を与えてしまう 。 また、 不要語も登録語彙リストの中に列挙する方法も考えられるが、 想定でき る不要語すベてを列挙すると、 登録語彙リストが大きくなり、 その結果演算量が 膨大となるので現実的でない。
図 6に、 具体的な語彙ネヅトワーク 2 0として、 図 3のステップ S 4で実行さ れる音声認識処理における制御対象 βの名称の語彙ネヅトワークを示す。 この 語彙ネットワーク 2 0には、 制御したい対象観を選択するための登録語群、 つ まり制御対象観の名称 2 2と不要語モデル 2 3とが表記されている。 さらに、 詳細には各登録語は、 対応する音素ラベル系列で表言 3された図 7のような構成に なっている。 ここで、 不要語モデノレ 2 3は、 すべての音素モデルを平準化した仮 想的な音素モデルとして形成され、 不特定話者音素 ΗΜΜモデルと同様のトポロ ジ一を有する。 なお、 使用するすべての音素を平準ィ匕した仮想的な音素モデルは 、 以下のように作成される。 すなわち、 まず使用するすべての音素を ΗΜΜとし てモデル化し、 その ΗΜΜを複数個の状態の遷移系列として形成し、 それら個々 の状態を混合ガウス分布で構成する。 そして、 その混合ガウス分布から音素間に わたって共有ィ匕できるガウス分布の集合体を選び出し、 さらに、 音素毎の重み付 け補正をした混合ガウス分布とし、 これを使用するすべての音素を平準化した仮 想的な音素モデルとする。 また、 使用するすべての音素を平準ィ匕した仮想的な音 素モデルは、 1つのクラス夕から形成されるものに限られるものではなく、 すべ ての音声単位を複数個 (例えば 3 ~ 5個程度) のクラス夕群に分割し、 そのクラ ス夕群から形成されるものであってもよい。 そのため、 利用者によって登録語が 発声されると、 必然的に登録語の尤度が大きくなるが、 登録語以外の単語が発声 されると、 結果として仮想的な音素モデルの尤度が大きくなり、 不要語として認 識される確率が くなる。例えば、 「テレビ」、 「ビデオ」、 「エアコン」、 「 照明」、 「オーディオ」等、 登録語として制御機器の名称が登録されているとき に、 図 7記載の登録語の語彙ネットワーク 2 2に表記されていない単語である 「 焚き火(たきび) 」 という言葉が入力された^、 もし不要語モデルが設定され ていなければ、 表記された単語、 つまり登録語の中から類似の音素構成となる単 語(図 7記載の登録語彙リストでは、 例えば「テレビ」が挙げられる) の尤度が 最大となり誤認識となるが、 ここで、 不要語モデルが 定されていれば、 確率論 的に仮想的な音素モデルの尤度が最大となる可能性が高くなり、 不要語として認 識されることにより、 誤認識を大幅に低減することができる。
図 8に示す不要語モデルは、 母音を構成する音素群の自己ループとして表した ものである。 つまり、 この不要語モデルは、 母音の音素に対応する ΗΜΜの集合 体であり、 その集合体の終点から始点に自己ループを持つものであって、 デジ夕 ルイ匕された音響パラメ一夕系列に対し、 母音の音素に対応する HMM群の尤度を 音響ノ ラメ一夕毎に算出し、 それらのうち最大のものを積算して不要語モデルの 尤度とするものである。 これは、 ほぼすベての単語には母音が含有されており、 しかも音素の分類として子音、 母音、 摩擦音、 破裂音等の音素群のうち、 母音が 音響エネルギーとして大きいことを利用したことを特徴としている。 つまり、 あ らゆる単語の母音だけの連続音として、 不要語モデルの尤度は計算されることに なる。 したがって、 利用者によって登録語が発話されると、 子音等の母音以外の 音素が不要語モデルからはずれるため、 不要語モデルの尤度は登録語の尤度より も低くなり、 結果として登録語として認識される確率が高くなる。 ところが、 登 録語以外の単語が発話されると、 子音等の母音以外の音素に関して、 今度は登録 語に対応する音素モデルの方が低い値を戻すため、 結果として母音だけの連続音 である不要語モデルの尤度が高くなり、 不要語として認識される確率が高くなる ため、 誤認識を低減することができる。 この方法により、 上記仮想的な音素モデ ルのラベル系列を得ることが難しい ί½や、 音素モデルで構成される既存の音声 認識ソフトウエアを利用する場合に好適に用いられる。
なお、 実際の使用状況に応じて、 不要語としての認識率が低い場合や、 認識率 が高すぎて、 目的とする命令語を発話しても、 不要語として認識される場合等は 、 仮想的な音素モデルによる不要語モデル及び母音音素を用いる不要語モデルに 対して得られる尤度に適当なファクターを乗じることで、 認識率の最適化を図る ことがでさる。
1:実施例 1 ]
次に、 本発明の第 1実施例を説明する。
この実施例では、 図 7に示すように、 不要語モデルとして、 すべての音素モデ ルを平準化した仮想的な音素モデル 2 3を設け、 その音素モデル 2 3と、 表 1記 載の登録単語リスト、 つまり登録語の語彙ネヅトワーク 2 2とが並列に設けられ た語彙ネヅトワーク 2 0を、 図 3のステヅプ S 3の音声認 理に読み込んだ状 態の音声リモートコントロール装置を準備した。 そして、 不要語として 「焚き火 (たきび)」、 「武雄(たけお) 」、 「ファミコン」 を、 それぞれ 5回ずつ音声 入力したところ、 結果として不要語として認識される確率、 つまり登録語として 誤認識されない確率は 1 0 0 %であった。 なお、 目的とする単語、 つまり登録語 である 「テレビ」、 「ビデオ」、 「エアコン」、 「照明」、 「オーディオ」 に対 する認識率を調べるために、 それぞれの単語について 1 0回ずつ発話したところ 、 語彙全体での正答率は 9 4 %であった。
対象語彙 曰 ョし テレビ
ビデオ
エアコン
照 明
才—ディ才
[実施例 2 ]
次に、 本発明の第 2 Hi¾例を説明する。
この実施例では、 図 8に示すように、 不要語モデルとして、 母音の音素、 つま り 「あ (a)」、 「い )」、 「う(u)」、 「え (e)」、 「お (o)」の音素に対応する HMM群で構成される自己ル一プモデル 2 3, を設け、 その自己ループモデル 2 3 5 と、 表 1記載の登録単語リスト、 つまり登録語の語彙ネットワーク 2 2とが 並列に設けられた語彙ネヅトワーク 2 0を、 図 3のステヅプ S 3の音声認識処理 ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。 そ して、 不要語として 「焚き火 (たきび) 」、 「武雄 (たけお)」、 「ファミコン 」 を、 それぞれ 5回ずつ音声入力したところ、 結果として不要語として認識され る確率、 つまり登録語として認識されない確率は 1 0 0 %であった。 なお、 目的 とする単語、 つまり登録語である 「テレビ」、 「ビデオ」、 「エアコン」、 「照 明」、 「オーディオ」 に対する認識率を調べるために、 それぞれの単語について
1 0回ずつ音声入力したところ、 語彙全体での正答率は 9 0 %であった。
[実施例 3 ]
次に 本発明の第 3実施例を説明する。
この実施 ί列では、 第 1実施例と同様、 図 7に示すように、 不要語モデルとして 、 すべての音素モデルを平準ィ匕した仮想的な音素モデル 2 3を設け、 その音素モ デル 2 3と、 表 1記載の登録単語リスト、 つまり登録語の語彙ネットワーク 2 3 とが並列に設けられた語彙ネヅトワーク 2 0を、 図 3のステヅプ S 3の音声認識 処理ル一チンに読み込んだ状態の音声リモートコントロール装置を準備した。 そ して、 不要語として 「あいうえお」、 「え一と」、 「警備(けいび)」、 「えへ ん」、 「承知 (しょ一ち)」、 「オーデコロン」 を、 それぞれ 1 0回ずつ音声入 力したところ、 結果として不要語として認識される確率、 つまり登録語として誤 認識されない確率は 9 2 %であった。
[実施例 4 ]
次に、 本発明の第 4実施例を説明する。
この実施例では、 第 2実施例と同様、 図 8に示すように、 不要語モデルとして 、 母音の音素、 つまり 「あ (a)」、 「い )」、 「う(u)」、 「え (e)」、 「お (0) 」の音素に対応する HMM群で構成される自己ループモデル 2 3 ' を設け、 その 自己ループモデル 2 3 ' と、 表 1記載の登録単語リスト、 つまり登録語の語彙ネ ヅトワーク 2 2とが並列に設けられた語彙ネットワーク 2 0を、 図 3のステップ S 3の音声認 理ル一チンに読み込んだ状態の音声認識リモートコントロール 装置を準備した。 そして、 不要語として 「あいうえお」、 「え一と」、 「警備 ( けいび) 」、 「えへん」、 「承知 (しょ一ち)」、 「オーデコロン」 を、 それぞ れ 1 0回ずつ音声入力したところ、 結果として不要語として認識される確率、 つ まり登録語として誤認 I戠されない確率は 9 3 %であった。
[実施例 5 ]
次に、 本発明の第 5実施例を説明する。
この実施例では、 図 9に示すように、 不要語モデルとして、 すべての音素モデ ルを平準化した仮想的な音素モデル 2 3及び、 「あ (a)」、 「い(i)」、 「う(u) 」、 「え (e)」、 「お (o)」の音素に対応する HMM群で構成される自己ループモ デル 2 3 ' を設け、 それらのモデル 2 2、 2 3と、 表 1記載の登録単語リスト、 つまり登録語の語彙ネットワーク 2 2とが並列に設けられた語彙ネットワーク 2 0を、 図 3のステップ S 1 0 3の音声認 理ル一チンに読み込んだ状態の音声 リモートコントロール装置を準備した。 そして、 不要語として 「あいうえお」、 「え一と」、 「警備 (けいび)」、 「えへん」、 '「承知 (しょ一ち)」、 「ォ一 デコロン」 を、 それぞれ 1 0回ずつ音声入力したところ、 結果として不要語とし て認識される確率、 つまり登録語として誤認識されない確率は 1 0 0 %であった 。 なお、 目的とする単語、 つまり登録語である 「テレビ」、 「ビデオ」、 「エア コン」、 「照明」、 「オーディオ」 に対する認識率を調べるために、 それぞれの 単語について 1 0回ずつ音声入力したところ、 全体での正答率は 8 8 %であった
[実施例 6 ]
次に、 本発明の第 6実施例を説明する。
この実施例では、 図 1 0に示すように、 不要語モデルとして、 「あ (a)」、 い (i)」、 「う(u)」、 「え (e)」、 「お (o)」 の音素に対応する HMM群 2 3, つまり図 8の不要語モデルから自己ループを除 、たものと、 表 1記載の登録 J リスト、 つまり登録語の語彙ネットワーク 2 2とが並列に設けられた語彙ネット ワーク 2 0を、 図 3のステップ S 3の音声認 理ル一チンに読み込んだ音声リ モ一トコントロール装置を準備した。 そして、 不要語として 「あいうえお」、 「 え一と」、 「警備 (けいび) 」、 「えへん」、 「承知 (しょ一ち)」、 「オーデ コロン」 を、 それぞれ 1 0回ずつ音声入力したところ、 結果として不要語として 認識される確率、 つまり登録語として誤認識されない確率は 2 3 %であった。
[比較例 1 ]
次に、 本発明の第 1比較例を説明する。
この比較例では、 図 1 0に示すように、 不要語モデルを認識するための仮想的 なモデルを用いずに、 表 1記載の登録単語リスト、 つまり登録語の語彙ネヅトヮ —ク 2 2だけで構成される語彙ネヅトワーク 2 0を、 図 3のステップ S 3の音声 認識処理ル一チンに読み込んだ状態の音声認識リモートコント口一ル装置を準備 した。 そして、 不要語として 「焚き火(たきび) 」、 「武雄 (たけお) 」、 「フ アミコン」 を 5回ずつ音声入力したところ、 「焚き火」 はすべて 「テレビ」 とし て誤認識され、 「武雄」 はすべて 「ビデオ」 として誤認識され、 「ファミコン」 はすべて 「エアコン」 として誤認識された。 したがって、 不要語として認識され る確率、 つまり登録語として誤認識されない確率は 0 %であった。 なお、 目的と する単語、 つまり登録語である 「テレビ」、 「ビデオ」、 「エアコン」、 「照明
」、 「オーディオ」 に対する認識率を調べるために、 それぞれの単語について 1 0回ずつ音声入力したところ、 語彙全体での正答率は 9 8 %であつた。
[比較例 2 ]
次に、 本発明の第 2比較例を説明する。
この比較例では、 比較例 1と同様、 図 1 1に示すように、 不要語を認識 るた めの仮想的なモデルを用いずに、 表 1記載の登録単語リスト、 つまり登録語の語 彙ネヅトワーク 2 2だけで構成される語彙ネヅトワーク 2 0を、 図 3のステヅプ S 3の音声認識処理ル一チンに読み込んだ状態の図 1記載の音声認識リモートコ ントロール装置を準備した。 そして、 不要語として 「あいうえお」、 「え一と」 、 「警備 (けいび) 」、 「えへん」、 「承知 (しょ一ち)」、 「オーデコロン」 を、 それぞれ 1 0回ずつ音声入力した。結果、 「あいうえお」 は「ビデオ」 とし て誤認識されやすく、 「え一と」 は「エアコン」 として誤認識されやすく、 「警 備」 は「テレビ」 として誤認識されやすく、 「えへん」は「エアコン」 として誤 認識されやすく、 「承知」は「照明」 として誤認識されやすく、 「オーデコロン 」 が「オーディオ」 として誤認識されやすかつた。 そのため、 不要語として認識 される確率、 つまり登録語として誤認識されない確率は 0 %であった。
なお、 本実施形声では、 音声指示情報メモリ 7が記憶手段に対応し、 マイクロ フォン 3が利用者から発せられた音声を入力する手段に対応し、 音声指示認識回 路 6が音声認識手段に対応し、 赤外線発光部 2が送信手段に対応する。
次に、 本発明の第 2実施形態を図面に基づいて説明する。 この実施形態は、 上 記第 1実施形態と同様の音声認識処理を、 利用者の音声に含まれる登録語を認識 して、 電子メールの送受 能、 スケジュール管理機能、 音声メモ機能及び音声 夕イマ機能等を制御する情報端末装置に適用したものである。 なお、 音声メモ機 能とは、 利用者にメモ内容を音声入力させ、 その音声を録音し、 利用者の要求に 応じて前記音声を再生する機能である。 また、 音声夕イマ機能とは、 利用者に報 知内容を音声入力させ、 その音声を録音すると共に、 報知タイミングを入力させ 、 その報知タイミングで i 音声を再生する機能である。
図 1 2は、 本発明の第 2実施形態であるアナログ電話を活用した情報端末装置 の主要プロヅク図である。 この図に示す情報端末装置は、 利用者の音声に含まれ る登録語を認識し、 電子メールの送受信処理、 スケジュール管理処理、 音声メモ 処理及び音声夕イマ処理等を実行する音声認識ュニヅト 5 1と、 その認識結果に 基づいて、 通信回線への接続等を行う通信ュニヅト 5 2とから構成される。利用 者の音声は、 音声認識ユニット 5 1のマイクロフォン 5 3から入力され、 ±曽幅器 5 4を経由し、 A/D変 5によって、 デジタル化された音響パラメ一夕に 変換される。 音声指示認識回路 5 6内部では、 デジタル化された音響パラメ一夕 に対し、 音声指示情報メモリ 5 7内に記憶登録されている登録語彙リスト内の登 録語の尤度が、 それらの音声単位毎に計算され、 当該尤度の積算値が最も大きい ものが、 利用者の音声に最も近いものとして抽出される。 なお、 音声指示認識回 路 5 6内部では、 デジタル化された音響パラメ一夕に対し、 音声指示情報メモリ 5 7内に記憶登録されている不要語モデルの尤度も同時に計算され、 当該不要語 モデルの尤度が登録語の尤度よりも大きいときには、 デジ夕ルイ匕された音響パラ メ一夕から登録語が抽出されなかったものとする。
また、 音声指示情報メモリ 5 7内には、 登録語彙リストとして、 電子メールの 送信機能に関する登録語が Έ3録された電子メール送信用語彙リストと、 電子メー ルの受信機能に関する登録語が登録された電子メ一ル受信用語彙リストと、 スケ ジュール管理機能に関する登録語が登録されたスケジュール管理用語彙リストと
、 音声メモ機能に関する登録語が登録された音声メモ用語彙リストと、 音声タイ マ機能に関する登録語が登録された音声夕イマ用語彙リストと、 登録語であるメ —ルの送信コマンドゃ受信コマンドに対応する制御コ一ドとが Ϊ3憶されている。 ここで、 音声認識回路 5 6で電子メールの送信開始パスワードが抽出、 つまり認 識結果として得られると、 利用者の音声に応じて電子メールの送信機能を制御す る後述する演算処理が実行され、 利用者にメール内容を音声入力させ、 その音声 をマイクロフォン 5 3で検出し、 マイクロフォンイン夕フェース回路 6 8を介し て、 RAM 6 9に音声デ一夕として記憶させると共に、 電子メールの送信コマン ドが入力されたときには、 そのコマンドに対応する電話制御用の制御コ一ドを音 声指示情報メモリ 5 7から呼び出して、 通信ュニヅト 5 2へ送信し、 音声デ一夕 を電子メールに添付して送信する。 また同様に、 音声認識回路 5 6で電子メール の受信開始パスヮ一ドが認識結果として得られると、 利用者の音声に応じて電子 メ一ルの受信機能を制御する後述する演算処理が実行され、 電子メールの受信コ マンドが入力されたときには、 そのコマンドに対応する電話制御用の制御コ一ド を音声指示情報メモリ 5 7から呼び出して、 通信ュニット 5 2へ送信し、 音声デ —夕が謝された電子メールを受信すると共に、 その音声デ一夕を、 D/A変換 器 6 5及び増幅器 1 6を経由してスピーカ 6 7で再生する。 なお、 制御コードは 、 通信ュニヅト 5 2を制御できるものであれば特に限定されるものではないが、 —般的に ATコマンドが利用されるため、 本難形態でも A Tコマンドを採用す る。
また、 音声指示認識回路 5 6でスケジュール管理機能の開始パスワードが認識 結果として得られると、 利用者の音声に応じてスケジュール管理機能を制御する 後述する演算処理を中央制御回路 5 8が実行し、 利用者にスケジュール内容を音 声入力させて、 その音声をマイクロフォン 5 3で検出し、 マイクロフォンイン夕 フェース回路 6 8を介して、 RAM 6 9に音声デ一夕として記憶させると共に、 そのスケジュールの実行日を入力させ、 その実行曰に音声デ一夕を関連付けてス ケジュール管理を行う。 また、 音声認識回路 5 6で音声メモ機能の開始パスヮー ドが抽出、 つまり認識結果として得られると、 利用者の音声に応じて音声メモ機 能を制御する後述する演算処理が中央制御回路 5 8で実行され、 利用者にメモ内 容を音声入力させ、 その音声をマイクロフォン 5 3で検出し、 マイクロフォンィ ン夕フェース回路 6 8を介して、 RAM 6 9に音声デ一夕として記憶させると共 に、 利用者の要求に応じて音声データを RAM 6 9から呼び出し、 D/A変 ίβ 6 5及び増幅器 1 6を経由してスピーカ 6 7で再生する。 また、 音声指示認識回 路 5 6で音声夕イマの作繊能の開始パスヮ一ドが認識結果として得られると、 利用者の音声に応じて音声夕ィマ機能を制御する後述する演算処理を中央制御回 路 5 8で実行し、 利用者に報知内容を入力させて、 その音声をマイクロフオンで 検出し、 マイクロフォンインタフェース回路 6 8を介して、 RAM 6 9に音声デ —夕として記憶させると共に、 その音声の報知タイミングを入力させ、 その報知 タイミングで音声データを RAM 6 9から呼び出し、 D/A変換器 6 5及び増幅 器 1 6を経由してスピーカ 6 7で再生する。
なお、 使用するハ一ドウエアとしては、 図 1 2記載の基本機能を有していれば 、 特に限定されるものではなく、 以下では音声認識ュニヅト 5 1として、 図 1 3 に示すように、 市販のパソコンを用いた場合について説明する。
図 1 4に、 図 1 3の情報端末装置で実行される処理であって、 利用者の音声に 応じて電子メールを送信等する演算処理のフロ一チヤ一トを示す。 なお、 このフ 口—チヤ—トでは通信のためのステップを設けていないが、 演算処理によって得 られた情報は随時記憶装置に更新記憶されると共に、 必要な情報は随時記憶装置 から読出される。
この演算処理が実行されると、 まず、 そのステップ S 1 0 1では、 マイクロフ オン 5 3で検出された音声を読み込み、 その音声に含まれる登録語である開始パ スワード (例えば、 「電子メール送信」 という言葉) が含まれているか、 または 開始パスヮ一ド以外の雑音や音声、 つまり不要語しか含まれていないかを認識す る音声認 理を実行し、 開始パスワードが含まれている場合には(Y E S ) ス テツプ S 1 0 2に移行し、 そうでない場合には (N O) このフロ一を繰り返す。 次に、 ステップ S 1 0 2に移行して、 登録語彙リストとして、 電子メール送信 用語彙リストを読み込み、 且つ、 図 1 5に示すように、 音声メールランチャを起 動して、 利用者が指示可能な登録語の一覧を L C D表示装置 6 2に表示させる。 L C D表示装置 6 2に表示させる登録語としては、 例えば、 メールを作成したい ときに発話するメール作成コマンド (例えば、 「メール作成」 ) が挙げられる。 次にステップ S 1 0 3に移行して、 マイクロフォン 5 3で検出された音声を読 み込み、 その音声に含まれるメール作成コマンドが含まれているか、 またはメ一 ル作成コマンド以外の雑音や音声、 つまり不要語しか含まれていないかを認識す る音声認 理を実行し、 その音声にメール作成コマンドが含まれている場合に は (YE S ) ステップ S 1 0 4に移行し、 そうでない場合には (NO) このフロ 一を繰り返す。
次にステップ S 1 0 4に移行して、 マイクロフォン 5 3で検出された音声を読 み込み、 その音声に含まれる登録語である相手先リスト選択コマンド (例えば、 「相手先リスト」 という言葉) が含まれているか、 または相手先リスト選択コマ ンド以外の雑音や音声、 つまり不要語しか含まれていないかを認識する音声認識 処理を実行し、 その音声に相手先リスト選択コマンドが含まれている場合には ( Y E S) ステップ S 1 0 5に移行し、 そうでない場合には(NO) ステップ S 1 0 6に移行する。
前記ステップ S 1 0 5では、 図 1 5に示すように、 メールアドレスが登録され ている人、 つまりメールァドレスが記憶装置の所定のデ一夕領域に格納されてい る人の名前を記載した一覧を L C D表示装置 6 2に表示させると共に、 マイクロ フォン 5 3で検出された音声を読み込み、 その音声に含まれる登録語である人名 を認識する音声認 理を実行して、 その人名に対応するメールアドレスを呼び 出してから、 ステップ S 1 0 7に移行する。
一方、 前記ステップ S 1 0 6では、 メール送信先のメールアドレスの発話を促 すメッセ一ジを L C D表示装置 6 2に表示させると共に、 マイクロフォン 5 3で 検出された音声を読み込み、 その音声に含まれる登録語であるアルファべヅトを 認識する音声認識処理を実行して、 送信先のメールアドレスを認識してから、 前 記ステップ S 1 0 7に移行する。
前記ステップ S 1 0 7では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である録音開始コマンド (例えば、 「録音開始」 という言葉) を認識する音 声認識処理を実行し、 且つ、 その音声に録音開始コマンドが含まれているか否か を判定し、 録音開始コマンドが含まれている場合には (YE S) ステップ S 1 0 8に移行し、 そうでない場合には (N〇) このフローを繰り返す。
前記ステップ S 1 0 8では、 メール内容の発話を促すメッセージを L CD表示 装置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音声を所定時間 録音して音声データを生成し、 その音声デ一夕をメール内容として記憶装置の所 定のデ一夕領域に格納する。
前記ステップ S 1 0 9では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である追加録音コマンド (例えば、 「追加録音」 という言葉) を認識する音 声認識処理を実行し、 且つ、 その音声に追加録音コマンドが含まれているか否か を判定し、 追加録音コマンドが含まれている場合には (YE S) 再びステップ S 1 0 8に移行し、 そうでない場合には(NO) ステップ S 1 1 0に移行する。 前記ステップ S 1 1 0では、 マイクロフォン 5 3で検出された音声を読み込み 、 その音声に録音内容確認コマンド (例えば、 「録音内容の艦忍」 という言葉) が含まれているか否かを判定し、 その音声に録音内容確認コマンドが含まれてい る場合には (YE S ) ステップ S 1 1 1に移行し、 そうでない場合には (N O) ステップ S 1 1 2に移行する。
前記ステップ S 1 1 1では、 前記ステップ S 1 0 8で生成した音声デ一夕、 つ まりメ一ル内容を記憶装置の所定のデータ領域から読み出し、 その音声データを スピーカ 6 7に再生させてから、 ステップ S 1 1 2に移行する。
前記ステツプ S 1 1 2では、 マイクロフォン 5 3で検出された音声を読み込み 、 その音声に送信コマンド (例えば、 「送信実行の纏」 という言葉) が含まれ ているか否かを判定し、 送信コマンドが含まれる場合には (YE S )ステップ S 1 1 3に移行し、 そうでない^には (NO) ステップ S 1 1 4に移行する。 前言 3ステップ S 1 1 3では、 プロバイダに電話をかけるための ATコマンドを 記憶装置の所定のデ一夕領域から読み出し、 その A Tコマンドを音声通話ュニヅ ト 1 0 2に送信し、 プロバイダのメールサーバに接続する。
次にステヅプ S 1 1 4に移行して、 前記ステップ S 1 0 8で生成した音声デー 夕、 つまりメール内容を記憶装置の所定のデ一夕領域から読み出し、 その音声デ —夕を、 して、 前記ステップ S 1 0 5で読み出したメールアドレス又は前記ス テツプ S 1 0 6で入力させたメールアドレスに電子メールを送信する。
次にステップ S 1 1 5に移行して、 回線切断を指示する ATコマンドを記憶装 置の所定のデータ領域から呼び出し、 その A Tコマンドを音声通話ュニヅト 5 2 に送信する。
次にステツプ S 1 1 6に移行して、 電子メールの送信が完了した旨のメヅセー ジを L CD表示装置 6 2に表示させてから、 ステップ S 1 1 8に移行する。 一方、 編 3ステップ S 1 1 7では、 前記ステップ S 1 0 8で生成した音声デ一 夕、 つまりメール内容を記憶装置の所定のデ一夕デ一夕領域から削除してから、 前記ステップ S 1 1 8に移行する。
前記ステップ S 1 1 8では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である終了コマンド (例えば、 「終了」 という言葉) を認識する音声認言» 理を実行し、 且つ、 その音声に終了コマンドが含まれているか否かを判定し、 終 了コマンドが含まれている場合には (YE S ) この演算処理を終了し、 そうでな い場合には (NO)再び前記ステップ S 1 0 4に移行する。
図 1 6に、 図 1 3の情報端末装置で実行される処理であって、 利用者の音声に 応じて電子メールを受信等するための演算処理のフローチャートを示す。 なお、 このフローチャートでは通信のためのステップを設けていないが、 演算処理によ つて得られた情報は随時記憶装置に f記憶されると共に、 必要な情報は随時記 憶装置から読出される。 この演算処理が実行されると、 まず、 そのステップ S 2 0 1では、 マイクロフォン 5 3で検出された音声を読み込み、 その音声に開始ノ スヮ一ド (例えば、 「電子メール受信」 という言葉) が含まれているか、 または 開始パスヮ一ド以外の雑音や音声、 つまり不要語しか含まれていないかを認識す る音声認醒理を実行し、 I始パスワードが含まれている場合には (Y E S ) ス テツプ S 2 0 2に移行し、 そうでない場合には (N O) このフローを繰り返す。 次にステップ S 2 0 2に移行して、 登録語彙リストとして、 電子メール受信用 語彙リストを読み込み、 且つ、 音声メールランチャを起動して、 利用者が指示可 能な登録語の一覧を L C D表示装置 6 2に表示させる。 L C D表示装置 6 2に表 示させる登録語としては、 例えば、 メールを受信したいときに発話するメール受 信コマンド (例えば、 「メール受信」 ) 等が挙げられる。
次にステヅプ S 2 0 3に移行して、 マイクロフォン 5 3で検出された音声を読 み込み、 その音声にメール受信コマンドが含まれて ヽるか否かを判定し、 メール 受信コマンドが含まれている^には (YE S ) ステップ S 2 0 4に移行し、 そ うでない場合には (N O) このフローを繰り返す。
次にステップ S 2 0 4に移行して、 プロバイダに電話をかけるための A Tコマ ンドを記憶装置の所定のデータ領域から呼び出し、 その ATコマンドを音声通話 ュニヅト 1 0 2に送信し、 プロバイダのメールサーバに接続する。
次にステップ S 2 0 5に移行して、 前記ステップ S 2 0 4で接続したメールサ —ノ から電子メールを受信し、 その電子メールを記憶装置の所定のデ一夕領域に 格納する。
次にステップ S 2 0 6に移行して、 電子メールの受信が完了した旨のメヅセ一 ジを L C D表示装置 6 2に表示させる。
次にステップ S 2 0 7に移行して、 回線切断を指示する A Tコマンドを記憶装 置の所定のデ一夕領域から呼び出し、 その A Tコマンドを音声通話ュニヅト 5 2 に送信する。
次にステップ S 2 0 8に移行して、 前記ステップ S 2 0 5で受信したメールの 一覧を L C D表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出され た音声を読み込み、 その音声に含まれる登録語であるメール選択コマンドを認識 する音声認識処理を実行じて、 利用者にメールの一覧から特定のメ一ルを選択さ せる。 なお、 メ一ル選択コマンドとしては、 利用者が特定のメ一ルを選択できる ものであれば、 どのようなものでもよく、 例えばメールの一覧としてメール送信 者の人名を表示させるときには、 その一覧に掲載した人名を用いてもよい。 次にステヅプ S 2 0 9に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語である再生コマンド (例えば、 「再生」 という言葉) を認識する音声 認識処理を実行し、 且つ、 その音声に再生コマンドが含まれているか否かを判定 し、 再生コマンドが含まれている場合には (YE S ) ステップ S 2 1 0に移行し 、 そうでない^には (NO) ステップ S 2 1 1に移行する。
前記ステップ S 2 1 0では、 前記ステップ S 2 0 8で選択させたメールに ¾ (寸 されている音声デ一夕、 つまりメ一ル内容を記憶装置の所定のデ一夕領域から読 み出し、 その音声デ一夕をスピーカ 6 7に再生させてから、 ΙΐίΙΒステップ S 2 1 1に移行する。
前記ステップ S 2 1 1では、 まずマイクロフォン 5 3で検出された音声に対し 、 登録語であるスケジュール登録コマンド (例えば、 「スケジュール登録」 とい う言葉) を認識する音声認識処理を実行して、 且つ、 その音声にスケジュール登 録コマンドが含まれているか否かを判定し、 スケジュール登録コマンドが含まれ ている場合には (YE S ) ステップ S 2 1 2に移行し、 そうでない場合には (N 0) ステップ S 2 1 7に移行する。
前記ステップ S 2 1 2では、 登録語彙リストとして、 スケジュール管理用語彙 リストを読み込み、 且つ、 スケジューラを起動して、 利用者が指示可能な登録語 の一覧を L CD表示装置 6 2に表示させる。
次にステップ S 2 1 3に移行して、 前記ステップ S 2 0 8で選択させたメール にヘッダ情報 (例えば、 日付を指定する情報等) が記載されているか否かを判定 し、 へヅダ情報が記載されている場合には (YE S ) ステップ S 2 1 4に移行し 、 そうでない: ^には (N O) ステップ S 2 1 5に移行する。
前記ステップ S 2 1 4では、 まず、 前記ステップ S 2 0 8で選択させたメール に添付されている音声デ一夕、 つまりメール内容を、 前記メールに記載されてい るヘッダ情報の日付におけるスケジュール内容として記憶装置の所定のデータ領 域に格納する。 次に、 スケジュール内容の大'小項目選択コマンド (例えば、 「 プライベート」 や「待合わせ」 という言葉等) の入力を促すメッセ一ジを L CD 表示装置 6 2に表示させると共に マイクロフォン 5 3で検出された音声を読み 込み、 その音声に含まれる登録語であるスケジュール内容の大 ·小項目選択コマ ンドを認識する音声認識処理を実行する。 そして、 その認識結果を前記音声デー 夕、 つまりスケジュール内容の大 ·小項目として記憶装置の所定のデータ領域に 格納してから、 前記ステツプ S 2 1 7に移行する。
一方、 fifSステップ S 2 1 5では、 スケジュールの実行日の入力を促すメッセ —ジを L CD表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出され た音声を読み込み、 その音声に含まれる登録語である年月日入力コマンド (例え ば、 「〇〇年〇月〇日」 という言葉) を認識する音声認 理を実行する。 次にステップ S 2 1 6に移行して、 まず、 前記ステップ S 2 0 8で選択させた メールに添付されている音声データを、 ΙίίΙΒステップ S 2 1 5で認識した年月日 におけるスケジュール内容として記憶装置の所定のデ一夕領域に格納する。 次に 、 スケジュール内容の大 '小項目選択コマンド (例えば、 「プライべ一ト」 や「 待合わせ」 という言葉等) の入力を促すメヅセージを L CD表示装置 6 2に表示 させると共に、 マイクロフォン 5 3で検出された音声を読み込み、 その音声に含 まれる登録語であるスケジュール内容の大 ·小項目選択コマンドを認識する音声 認識処理を実行する。 そして、 その認識結果を前記音声デ一夕、 つまりスケジュ —ル内容の大 ·小項目として記憶装置の所定のデ一夕領域に格納してから、 tufB ステップ S 2 1 7に移行する。
前記ステップ S 2 1 7では、 まず、 マイクロフォン 5 3で検出された音声に対 し、 登録語である終了コマンド (例えば、 「終了」 という言葉) を認識する音声 認諸拠理を実行し、 且つ、 その音声に終了コマンドが含まれているか否かを判定 し、 終了コマンドが含まれている場合には (YE S ) この演算処理を終了し、 そ うでない場合には (N〇)再ひ前記ステップ S 2 0 3に移行する。
図 1 7に、 図 1 3の情報端末装置で実行される処理であって、 利用者の音声に 応じてスケジュール管理機能を実行するための演算処理のフローチャートを示す なお、 このフローチャートでは通信のためのステップを設けていないが、 演算 処理によって得られた情報は随時記憶装置に更新記憶されると共に、 必要な情報 は随時記憶装置から読出される。 この演算処理が実行されると、 まず、 そのステ ヅプ S 3 0 1では、 マイクロフォン 3で検出された音声を読み込み、 その音声に 含まれる登録語である開始パスワード (例えば、 「音声スケジュール」 という言 葉) が含まれているか、 または開始パスワード以外の雑音や音声、 つまり不要語 しか含まれていないかを認識する音声認薩理を実行し、 開始パスヮ一ドが含ま れている場合には (YE S ) ステップ S 3 0 2に移行し、 そうでない場合には ( N O ) このフローを繰り返す。
次にステップ S 3 0 2に移行して、 登録語彙リストとして、 スケジュール管理 用語彙リストを読み込み、 且つ、 図 1 8に示すように、 音声スケジュールランチ ャを起動して、 利用者が指示可能な登録語の一覧を L C D表示装置 6 2に表示さ せる。 L C D表示装置 6 2に表示させる登録語としては、 例えば、 スケジュール を登録したいときに発話するスケジュール登録コマンド (例えば、 「予定設定」 ) 、 スケジュールを確認したいときに発話するスケジュール ¾ コマンド (例え ば、 「予定確認」 ) が挙げられる。
次にステップ S 3 0 3に移行して、 スケジュールの実行日の発話を促すメヅセ —ジを L CD表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出され た音声を読み込み、 その音声に含まれる登録語である年月日入力コマンド (例え ば、 「〇〇年〇月〇日」 という言葉) を認識する音声認識処理を実行する。
次にステヅプ S 3 0 4に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるスケジュール登録コマンドを認識する音声認識処理を実行し、 且つ、 その音声にスケジュール登録コマンドが含まれているか否かを判定し、 ス ケジュール登録コマンドが含まれている^には (Y E S ) ステップ S 3 0 5に 移行し、 そうでない場合には (N O) ステップ S 3 1 0に移行する。
前記ステツプ S 3 0 5では、 マイクロフォン 5 3で検出された音声を読み込み 、 その音声に含まれる登録語であるスケジュールの開始 ·終了時間入力コマンド (例えば、 「〇時〇分」 という言葉) を認識する音声認識処理を実行して、 利用 者にスケジュールの開始時間と終了時間とを入力させる。
次にステップ S 3 0 6に移行して、 スケジュール内容の発話を促すメヅセージ を L CD表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音 声を所定時間録音して音声データを生成し、 その音声デ一夕を前記ステップ S 3 0 3で認識した年月日におけるスケジュール内容として記憶装置の所定のデ一夕 領域に格納する。
次にステップ S 3 0 7に移行して、 まず、 スケジュール内容の大 ·小項目選択 コマンド (例えば、 「プライベート」や「待合わせ」 という言葉等) の入力を促 すメッセージを L C D表示装置 6 2に表示させると共に、 マイクロフォン 5 3で 検出された音声を読み込み、 その音声に含まれる登録語であるスケジュール内容 の大 '小項目選択コマンドを認識する音声認 理を実行する。 次に、 その認識 結果を前記ステップ S 3 0 6で生成した音声データ、 つまりスケジュール内容の 大 ·小項目として記憶装置の所定のデ一夕領域に格納する。
次にステップ S 3 0 8に移行して、 まずリマィンダ一機能の設定コマンド (例 えば、 「リマインダ一の設定」 という言葉) の発話を促すメッセージを L C D表 示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音声に対し、 登録語であるリマインダ一の設定コマンドを認識する音声認議拠理を実行する。 次に、 その音声にリマインダ一の設定コマンドが含まれているか否かを判定し、 リマインダ一の設定コマンドが含まれている場合には (Y E S ) ステップ S 3 0 9に移行し、 そうでない場合には (N O) ステヅプ S 3 2 4に移行する。 なお、 リマイン夕"一機能とは、 スケジュール内容を所定のタイミングで報知して、 その スケジュールの存在を利用者に思い出させる機能である。
前記ステップ S 3 0 9では、 まず、 リマインダ一の通知時間や通知先人名等の 入力を促すメッセ一ジを L C D表示装置 6 2に表示させると共に、 マイクロフォ ン 5 3で検出された音声を読み込み、 その音声に含まれる登録語であるリマイン ダ一の通知時間、 通知先人名の設定コマンド (例えば、 「〇分前」 という言葉) を認識する音声認識処理を実行して、 利用者にリマインダ一機能による報知タイ ミング等を入力させる。 次に、 そのリマインダ一の通知時間に、 前記ステツプ S 3 0 6で生成した音声デ一夕、 つまりスケジュール内容を記憶装置の所定のデー 夕領域から読み出し、 その音声データをスピーカ 6 7で再生する演算処理を実行 してから、 ステップ S 3 2 4に移行する。
一方、 前記ステップ S 3 1 0では、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるスケジュール確認コマンドを認識する音声認識拠理を実行して 、 且つ、 その音声にスケジュールの廳忍コマンドが含まれているか否かを判定し 、 スケジュールの確認コマンドが含まれている場合には (Y E S ) ステップ S 3 1 1に移行し、 そうでない場合には (N O) ステップ S 3 1 9に移行する。 前記ステップ S 3 1 1では、 図 1 9に示すように、 前記電子メールを受信等す るための演算処理のステップ S 2 1 4及び S 2 1 6、 前記ステップ S 3 0 7で入 力させたスケジュール内容の大 ·小項目を記憶装置の所定のデータ領域から読み 出し、 その一覧を L CD表示装置 6 2に表示させる。
前記ステップ S 3 1 2では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である録音内容 コマンド (例えば、 「確認」 という言葉) を認識する音 声認讓理を実行し、 且つ、 その音声に録音内容確認コマンドが含まれているか 否かを判定し、 録音内容 SS コマンドが含まれている場合には (YE S ) ステヅ プ S 3 1 3に移行し、 そうでない場合には (N〇) ステップ S 3 1 4に移行する 前記ステップ S 3 1 3では、 前記ステップ S 3 1 1で L CD表示装置 6 2に一 覧表示させた大 ·小項目に対応する音声デ一夕、 つまりスケジュール内容をスピ —力 6 7に再生させてから、 備己ステップ S 3 1 4に移行する。
前記ステップ S 3 1 4では、 まず、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるスケジュール追加登録コマンド (例えば、 「予定設定」 という 言葉) を認識する音声認 I»理を実行し、 且つ、 その音声にスケジュール追加登 録コマンドが含まれているか否かを判定し、 スケジュール追加登録コマンドが含 まれている場合には (YE S ) ステップ S 3 1 5に移行し、 そうでない場合には
(N O) ステップ S 3 1 6に移行する。
前記ステップ S 3 1 5では、 新たなスケジュールを登録するためのデ一夕領域 を記憶装置に確保してから、 Ιίίϊ己ステップ S 3 0 5に移行する。
一方、 編 3ステップ S 3 1 6では、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるスケジュール訂正コマンド (例えば、 「訂正」 という言葉) を 認識する音声認 理を実行し、 且つ、 その音声にスケジュール訂正コマンドが 含まれているか否かを判定し、 スケジュール訂正コマンドが含まれている場合に は (N O) 前記ステップ S 3 0 5に移行し、 そうでない場合には (NO) ステヅ プ S 3 1 7に移行する。
前記ステップ S 3 1 7では、 マイクロフォン 5 3で検出された音声に対し、 登 録語であるスケジュール削除コマンド (例えば、 「削除」 という言葉) を認識す る音声認 理を実行し、 且つ、 その音声にスケジュール削除コマンドが含まれ ているか否かを判定し、 スケジュール削除コマンドが含まれている場合には (Y E S )ステップ S 3 1 8に移行し、 そうでない場合には (N O) 再びステップ S 3 1 1に移行する。
前記ステップ S 3 1 8では、 スケジュールが登録されているデ一夕領域を記憶 装置から削除してから、 it己ステップ S 3 2 4に移行する。
一方、 漏 3ステップ S 3 1 9では、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるスケジュール検索コマンド (例えば、 「予定検索」 という言葉 ) を認識する音声認藝理を実行し、 且つ、 その音声にスケジュール検索コマン ドが含まれているか否かを判定し、 スケジュール検索コマンドが含まれている場 合には (Y E S ) ステップ S 3 2 0に移行し、 そうでない場合には (N O)再び 前記ステップ S 3 0 3に移行する。
前記ステップ S 3 2 0では、 スケジュール内容の大 ·小項目選択コマンドの発 話を促すメヅセージを L C D表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音声を読み込み、 その音声に含まれるスケジュール内容の大 · 小項目の選択コマンドを認識する音声認業理を実行して、 利用者に検索対象で あるスケジュール内容の大 ·小項目を入力させる。
次にステツプ S 3 2 1に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語である検索実行コマンド (例えば、 「検索実行」 という言葉) を認識 する音声認識処理を実行し、 且つ、 その音声に検索実行コマンドが含まれている か否かを判定し、 検索実行コマンドが含まれている場合には (Y E S ) ステップ S 3 2 2に移行し、 そうでない場合には (N O)再ひ前記ステップ S 3 2 0に移 行する。
次にステップ S 3 2 2では、 前記ステップ S 3 2 0で認識したスケジュール内 容の大 ·小項目に対応するスケジュールを記憶装置の所定のデ一夕領域から歸 し、 その検索結果を L C D表示装置 6 2に表示させる。
次にステヅプ S 3 2 3に移行して、 マイクロフォン 5 3で検出された音声に再 検索コマンド (例えば、 「碰索」 とレ、う言葉) を認識する音声認 理を実行 し、 且つ、 その音声に 鏡コマンドが含まれているか否かを判定し、 稱负索コ マンドが含まれている場合には (Y E S ) ステップ S 3 2 4に移行し、 そうでな い場合には (NO)再び iffiステップ S 3 2 0に移行する。
前記ステップ S 3 2 4では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である終了コマンド (例えば、 「終了」 という言葉) を認識する音声認 理を実行し、 且つ、 その音声に終了コマンドが含まれているか否かを判定し、 終 了コマンドが含まれている場合には (Y E S ) この演算処理を終了し、 そうでな レヽ場合には (NO)再び前記ステツプ S 3◦ 3に移行する。
図 2 0に、 図 1 3の情報端末装置で実行される処理であって、 利用者の音声に 応じて音声メモ機能を実行する演算処理のフローチャートを示す。 なお、 このフ ローチャートでは通信のためのステップを設けていないが、 演算処理によって得 られた情報は随時記憶装置に 記憶されると共に、 必要な情報は随時記憶装置 から読出される。 この演算処理が実行されると、 まず、 そのステップ S 4 0 1で は、 マイクロフォン 5 3で検出された音声を読み込み、 その音声に含まれる登録 語である開始パスワード (例えば、 「音声メモ」 という言葉) が含まれているか 、 または開始パスワード以外の雑音や音声、 つまり不要語しか含まれていないか を認識する音声認識処理を実行し、 開始パスワードが含まれている場合には (Y E S ) ステップ S 4 0 2に移行し、 そうでない場合には (NO) このフローを繰 り返す。
次にステップ S 4 0 2に移行して、 登録語彙リストとして、 音声メモ用語彙リ ストを読み込み、 且つ、 図 2 1に示すように、 音声メモランチャを起動して、 利 用者が指示可能な登録語の一覧を L CD表示装置 1 2に表示させる。 L CD表示 装置 6 2に表示させる登録語としては、 音声メモを作成したいとき、 つまり音声 を録音したいときに発話する録音コマンド (例えばヽ 「録音開始」 )、 音声メモ を再生したいときに発話する再生コマンド (例えば、 「再生開始」 )、 各音声メ モに対応づけられた番号であって、 音声メモを選択したいときに発話するメモフ オルダ番号選択コマンド (例えば、 「1番」、 「2番」等)等が挙げられる。 次にステップ S 4 0 3に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語であるメモフォルダ番号選択コマンドを認識する音声認醒理を実行 し、 且つ、 その音声にメモフォルダ番号選択コマンドが含まれているか否かを判 定し、 メモフォルダ番号選択コマンドが含まれている場合には (YE S)ステツ プ S 4 0 4に移行し、 そうでない場合には(NO) ステップ S 4 0 7に移行する ο
前記ステヅプ S 4 0 4では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である録音コマンドを認識する音声認識処理を実行し、 且つ、 その音声に録 音コマンドが含まれているか否かを判定し、 録音コマンドが含まれている場合に は (Y E S ) ステップ S 4 0 5に移行し、 そうでない場合には (N〇) 再び前記 ステップ S 4 0 3に移行する。
前記ステップ S 4 0 5では、 メモ内容の発話を促すメヅセージを L C D表示装 置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音声を所定時間録 音して音声デ一夕を生成し、 その音声デ一夕を前記ステップ S 4 0 3で選択させ たメモフォルダに対応するメモ内容として記憶装置の所定のデ一夕領域に格納す る。
次にステヅプ S 4 0 6に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語である録音内容の St!忍コマンド (例えば、 「¾ 」 という言葉) を認 識する音声認 理を実行し、 且つ、 その音声に録音内容の確認コマンドが含ま れているか否かを判定し、 録音内容の確認コマンドが含まれている場合には (Y E S ) ステップ S 4 0 8に移行し、 そうでない場合には (N O) ステップ S 4 0 9に移行する。
一方、 前記ステヅプ S 4 0 7では、 マイクロフォン 5 3で検出された音声に対 し、 登録語である再生コマンドを認識する音声認識処理を実行し、 且つ、 その音 声に再生コマンドが含まれているか否かを判定し、 再生コマンドが含まれている 場合には (Y E S ) fif3ステップ S 4 0 8に移行し、 そうでない場合には (N O ) このフロ一を繰り返す。
前記ステヅプ S 4 0 8では、 前記ステヅプ S 4 0 3で選択させたメモフオルダ に対応する音声データ、 つまりメモ内容を記憶装置の所定のデータ領域から読み 出し、 その音声データをスピーカ 6 7に再生させてから、 前記ステップ S 4 0 9 に移行する。
前記ステップ S 4 0 9では、 マイクロフォン 5 3で検出された音声に対し、 登 。 録語である終了コマンド (例えば、 「終了」 という言葉) を認識する音声認薩 理を実行し、 且つ、 その音声に終了コマンドが含まれているが含まれているか否 かを判定し、 終了コマンドが含まれている場合には (YE S ) この演算処理を終 了し、 そうでない場合には (NO)再び編己ステップ S 4 0 3に移行する。 図 2 2に、 図 1 3の情報端末装置で実行される処理であって、 利用者の音声に 応じて音声夕イマ機能を実行する演算処理のフローチャートを示す。 なお、 この フロ—チヤ—トでは通信のためのステップを設けていないが、 演算処理によって 得られた情報は随時記憶装置に更新記憶されると共に、 必要な情報は随時記憶装 置から読出される。 この演算処理が実行されると、 まず、 そのステップ S 5 0 1 では、 マイクロフォン 5 3で検出された音声を読み込み、 その音声に含まれる登 録語である開始パスワード (例えば、 「音声夕イマ」 という言葉) が含まれてい るか、 または開始パスワード以外の雑音や音声、 つまり不要語しか含まれていな いかを認識する音声認識処理を実行し、 I始パスヮードが含まれている場合には (YE S ) ステヅプ S 5 0 2に移行し、 そうでない場合には (N O) このフロー を繰り返す。
次にステップ S 5 0 2に移行して、 登録語彙リストとして、 音声夕イマ用語彙 リストを読み込み、 且つ、 音声夕イマランチャを起動して、 利用者が指示可能な 登録語の一覧を L CD表示装置 1 2に表示させる。 L C D表示装置 6 2に表示さ せる登録語としては、 例えば、 報知内容や報知タイミングを設定するときに発話 する夕イマ設定コマンド (例えば、 「夕イマ一設定」 )、 夕イマを動作させると きに発話する夕イマ開始コマンド (例えば「夕イマスタート」 )等が挙げられる 次にステップ S 5 0 3に移行して、 マイクロフォン 5 3で検出された音声に対 し、 登録語である夕イマ設定コマンドを認識する音声認醒理を実行し、 且つ、 その音声に夕イマ設定コマンドが含まれているか否かを判定し、 夕イマ設定コマ ンドが含まれている場合には (YE S) ステップ S 5 0 4に移行し、 そうでない 場合には (N O)再ひ前記ステップ S 5 0 2に移行する。
前記ステップ S 5 0 4では、 夕イマが動作開始してから報知を行うまでの時間 、 つまり報知タイミングの入力を促すメヅセージを L C D表示装置 6 2に表示さ せると共に、 マイクロフォン 5 3で検出された音声を読み込み、 その音声から登 録語である夕イマ時間設定コマンド (例えば、 「〇〇分」 という言葉) を認識す る音声認 理を実行する。
次にステップ S 5 0 5に移行して、 報知内容を録音するか否かの返答を促すメ ヅセージを L C D表示装置 6 2に表示させると共に、 マイクロフォン 5 3で検出 された音声に対し、 登録語である録音開始確認コマンド (例えば「はい」 という 言葉) を認識する音声認 理を実行し、 且つ、 その音声に録音開始確認コマン ドが含まれているか否かを判定し、 録音開始 忍コマンドが含まれている場合に は (Y E S ) ステップ S 5 0 6に移行し、 そうでない場合には (N O) ステップ S 5 0 2に移行する。
前記ステップ S 5 0 6では、報知内容の発話を促すメッセージを L C D表示装 置 6 2に表示させると共に、 マイクロフォン 5 3で検出された音声を所定時間録 音して音声デ一夕を生成し、 その音声データを前記ステップ S 5 0 4で認識した 時間、 つまり報知タイミングに報知する報知内容として記憶装置の所定のデータ 領域に格納する。
次にステヅプ S 5 0 7に移行して、 前記ステヅプ S 5 0 6で録音した音声、 つ まり報知内容の確認を促すメッセージを L C D表示装置 6 2に表示させると共に 、 マイクロフォン 5 3で検出された音声に対し、 登録語である録音内容の確認コ マンド (例えば、 「用 ί權認」 という言葉) を認識する音声認識処理を実行し、 且つ、 その音声に録音内容の確認コマンドが含まれているか否かを判定し、 録音 内容の確認コマンドが含まれている^には (Y E S ) ステップ S 5 0 8に移行 し、 そうでない場合には (N O) ステップ S 5 0 9に移行する。
前記ステップ S 5 0 8では、 前記ステップ S 5 0 6で生成した音声デ一夕、 つ まり報知内容をスピーカ 6 7に再生させてから、 前記ステップ S 5 0 9に移行す る。
前記ステップ S 5 0 9では、 マイクロフォン 5 3で検出された音声に対し、 登 録語である終了コマンド (例えば、 「終了」 という言葉) を認識する音声認言飄 理を実行し、 且つ、 その音声に終了コマンドが含まれているか否かを判定し、 終 了コマンドが含まれている場合には (YE S ) この演算処理を終了し、 そうでな い場合には (NO ) 再び Ιΐί13ステップ S 5 0 2に移行する。 一方、 iI3ステップ S 5 1 0では、 マイクロフォン 5 3で検出された音声に対 し、 登録語である夕イマ開始コマンドを認識する音声認 理を実行し、 且つ、 その音声に夕イマ開始コマンドが含まれているか否かを判定し、 夕イマ開始コマ ンドが含まれている^には (Y E S ) ステップ S 5 1 1に移行し、 そうでない 場合には (N O) 再び前記ステツプ S 5 0 2に移行する。
前記ステップ S 5 1 1では、 前記ステップ S 5 0 4で認、識した時間、 つまり報 知タイミングで、 前記ステップ S 5 0 6で生成した音声デ一夕、 つまり報知内容 を記憶装置の所定のデータ領域から読み出し、 その音声データをスピーカ 6 7で 再生する演算処理を実行してから、 この演算処理を終了する。
以上、 説明してきたように、 本実施形態の情報通信端末装置にあっては、 電子 メールの送受信機能、 スケジュール管理機能、 音声メモ機能及び音声夕イマ機能 を利用者の音声に含まれる登録語を認識することで実行するため、 利用者は登録 語を発話するだけで各機能を使用でき、 物理的な操作が必要とされない。
また、 上記第 1実施形態と同様な音声認! »理を用いるため、 上記第 1実施形 態と同様に、 登録語を含まない音声、 つまり登録語以外の音声が利用者から発せ られたときには、 その音声の音響パラメ一夕系列に対し、 不要語モデル 2 3の尤 度が大きく算出され、 登録語の語彙ネットワーク 2 2の尤度が小さく算出され、 それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、 当該登 録語以外の音声が登録語として誤認識されることが防止され、 情報端末装置の誤 動作が防止される。
なお、 本実膨態では、 マイクロフォン 5 3は音声検出手段に対応し、 音声指 示認識回路 5 6が音声認識手段に対応し、 中央制御回路 5 8が制御手段に対応す る。
次に、 本発明の第 3実施形態を図面に基づいて説明する。 この実施形態は、 上 記第 1実 «態と同様の音声認識処理を、 利用者の音声に含まれる登録語を認識 して、 通信回線への接続等を行う電話通信端末に適用したものである。 図 2 3は 、 本発明の第 3実施形態であるアナ口グ電話又はボイスモデムを活用した電話通 信端末の主要ブロック図である。 この図に示す電話通信端末は、 音声認識を制御 する音声認識ュニヅト 1 0 1と音声通話を制御する音声通話ュニヅト 1 0 2、 つ まり利用者の音声に含まれる登録語を認識する音声認識ュニヅト 1 0 1と、 その 認識結果に基づいて、 通信回線への接続等を行う音声通話ュニヅト 1 0 2とから 構成される。利用者の音声は、 音声認識ュニヅト 1 0 1のマイクロフォン 1 0 3 から入力され、 増幅器 1 0 4を経由し、 A/D変換器 1 0 5によって、 デジタル 化された音響パラメ一夕に変換される。 ここで、 入力されたアナログ音声は、 特 に限定されるものではないが、 通常、 8 KH z〜l 6 K H zの範囲にある特定周 波数でサンプリングされてデジタル化される。 デジタル化された音響パラメ一夕 は、 音声指示認識回路 1 0 6内部で、 音声指示情報メモリ 1 0 7内に記憶登録さ れている登録語彙リストに対し、 各単語の構成単位である音声単位ごとに、 上記 音響パラメ一夕との尤度計算を行うことにより、 登録語彙リストの中から、 最も 近い単語を抽出する。 言いかえると、 音声指示認識回路 1 0 6内部では、 デジ夕 ル化された音響パラメ一夕に対し、 音声指示情報メモリ 1 0 7内に記憶登録され ている登録語彙リスト内の単語(以下、 登録語とも呼ぶ。 ) の尤度が、 それらの 構成単位 (以下、 音声単位とも呼ぶ。 ) 毎に計算され、 当該尤度の積算値が最も 大きいものが、 利用者の音声に最も近いものとして抽出される。 なお、 音声指示 認識回路 1 0 6内部では、 デジタル化された音響パラメ一夕に対し、 音声指示情 報メモリ 1 0 7内に記憶登録されている不要語モデルの尤度も同時に計算され、 当該不要語モデノレの尤度が登録語の尤度よりも大きいときには、 デジ夕ルイ匕され た音響ノ ラメ一夕から登録語が抽出されなかつたものとする。
ここで、 登録語彙リスト内には、 登録語彙として登録語と当該登録語以外の不 要語とが登録されているものとする。 また、 音声単位としては、 音節、 音素、 半 音節、 D i p h o n e (音素の 2つ組) 、 T r i p h o n e (音素の 3つ組)等 を適宜使用すればよい。
また、 音声指示情報メモリ 1 0 7内には、 登録語彙リストとして、 人名とその 人名に対応する電話番号とが記録された人名語彙リストと、 任意の電話番号に相 当する桁数に応じた連続数字を認識するための番号語彙リストと、 電話操作に関 する通話操作語彙リストと、 電話着信時の応答に関する着信操作語彙リスト、 各 登録語に対応する制御コードとが記憶されている。例えば、 音声指示認識回路 1 0 6で電話操作に関する登録語が抽出、 つまり認識結果として得られると、 その 音声認識された登録語に対応する電話制御用の制御コードを当該音声指示情報メ モリ 1 0 7から呼び出し、 中央制御回路 1 0 8より音声通話ュニヅ ト 1 0 2へ送 信される。制御コードは、 音声通話ュニヅト 1 0 2を制御できるものであれば特 に限定されるものではないが、 一般的に ATコマンドが利用されるため、 本実施 形態でも ATコマンドを代表例として採用している。
また、 発呼動作において、 マイクロフォン 1 0 3から人名又は電話番号情 報が音声入力されると、 その音声に含まれる登録語を認識し、 その音声認識結果 を L CD表示部 1 0 9に表示させて視覚的に報知すると同時に、 応答音声制御回 路 1 1 0で応答音声情報メモリ 1 1 8から呼び出し、 D/A変換器 1 1 1及び増 幅器 1 1 2を介して、 アナログ音声としてスピーカ 1 1 3から聴覚的に報知する 。認識結果が正しいときには、 利用者が「電話かけて」等の音声コマンドをマイ ク 1 0 3から入力すると、 中央制御回路 1 0 8で所望とする相手先電話番号への 発信制御を A Tコマンドとして変換し、 音声通話ュニット 1 0 2のワンチヅプマ イコン 1 1 4へ送信する。
また、 電話回線が接続され、 音声通話可能となると、 音声通話ュニット 1 0 2 のマイクロフォン 1 1 5とスピーカ 1 1 6とを利用して、 音声通話すると同時に 、 必要に応じて音声認識ュニヅ ト 1 0 1のマイクロフオン 1 0 3及びスピー力 1 0 5のボリュームレベルを、 音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及 びスピ一力 1 1 6と独立して調整することができる。
また、 音声認識ュニット 1 0 1では、 電話制御用の制御コードが中央制御回路 1 0 8より外部イン夕フェース 1 1 7を経由して音声通話ュニヅト 1 0 2へ送信 したときに、 音声通話ュニヅト 1 0 2から状態信号を受け取ることによって、 音 声通話ユニット 1 0 2のオンフック状態、 オフフック状態、 あるいは回線通信状 況を把握でき、 それらの状態に応じて、 次の動作に必要な登録語彙リストを順次 変更することにより、 不要な言葉による誤認識を低減している。例えば着信時に おいては、 音声通話ュニヅト 1 0 2で着信を受けたことを知らせるリンギング情 報を音声認識ュニット 1 0 1へ伝達させることにより、 着信応答に関する着信操 作語彙リストを呼び出し、 利用者が音声応答するか否かの判断を音声認識ュニヅ ト 1 0 1のマイクロフォン 1 0 3を利用して入力することにより、 着信時におい ても音声入力によるハンズフリーで mis通話できることを可能としている。 この とき、 相手先の電話番号等の相手先情報を得られるならば、 人名と 番号を登 録している名称語彙リストと照合し、 その照合結果を L CD表示装置 1 0 9に表 示させて! ¾1的に報知させると同時に、 応答音声制御回路 1 1 0を利用して、 照 合結果に対応する応答音声デ一夕を応答音声用情報メモリ 1 1 8から呼び出し、
Ώ A i 1 1及び増幅器 1 1 2を経由して、 アナログ音声として 「〇〇さ んからの電話です」 というアナウンスをスピーカ 1 0 3から聴覚的に幸艮知させる ことが可能となっている。
このように本実施形態では、 音声入出力、 つまりマイクロフォンとスピーカと を少なくとも 2系統設置することにより、 通常リンギングに使用されているスピ —力 1 1 6の動作と並行して、 より詳細な情報を画面表示以外でも利用者に伝達 可能としている。 ちなみに、 詳細な情報を画面表示で伝達する方法では、 利用者 が電話機本体から離れている場合、 車の運転中で視線を画面に変更ができない場 合、 あるいは、 利用者が視覚障害者である場合等、 着信した電話の相手先情報を 確認することが難しいケースにも対応可能となつている。
なお、 図 2 4は、 公衆 舌回線網への接続手段として、 携帯電話型の無線方式 を利用した変开例であり、 図 2 3と比較して音声通話ュニヅト 1 0 2の主要プロ ヅク図が異なる。携帯電話型の無線方式を利用する場合、 通常、 音声通話用の入 出力装置、 つまり音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 6は、 相手先の音声受信状態によって、 ON— O F Fの制御がされている。 したがって、 音声入出力装置、 つまりマイクロフォン 1 0 3及びスピーカ 1 1 3 を音声認識用に別に用意することにより、 音声通話方式によって異なる音声通話 用の入出力装置の特徴(動作状態) に左右されることなく、 音声認識機能付き電 話通信端末として、 常時使用することが可能となっている。 言いかえると、 利用 者が通話中であって、 その通話のために音声通話ュニヅト 1 0 2のマイクロフォ ン 1 1 5及びスピーカ 1 1 5が専有されている場合であっても、 利用者は音声認 識ュニヅト 1 0 1に音声を入力でき、 音声通話ュニット 1 0 2を制御させること ができる。 ちなみに、 音声によってダイヤル信号を自動送出するものであって、 ハンドセットで音声入力する方法では、 通常、 音声入力を常時受け付けられるよ うにするには、 電話機能として、 オフフックモードとする必要があり、 この^ 、 常に受話器が上がった状態であり、 外からの受信が受け付けられない。
図 2 5に、 中央制御回路 1 0 8で実行される処理であって、 利用者が人名を発 話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。 つまり 図 2 5は、 人名による発呼動作に関するプロセススキームである。 なお、 このフ 口—チャートでは通信のためのステップを設けていないが、 演算処理によって得 られた情報は随時記憶装置に更新記憶されると共に、 必要な情報は随時記憶装置 から読出される。 この演算処理が実行されると、 まず、 そのステップ S 6 0 1で は、 オンフックの状態を検出することにより、 音声通話ュニヅト 1 0 2の初期状 態を確認し、 電話発呼を受け付ける状態であることを確認する。 具体的には、 音 声通話ュニヅト 1 0 2から状態信号を受け取ってオンフック状態であるか否かを 判定し、 オンフック状態である場合には (Y E S ) ステップ S 6 0 2に移行し、 そうでない場合には (N〇) このフローを繰り返す。
前記ステップ S 6 0 2では、 利用者からの音声による人名入力を受け付ける。 具体的には、 登録語彙リストとして、 人名と電話番号が記録された人名語彙リス トを読み込み、 且つ、 マイクロフォン 1 0 3で検出された音声を読み込み、 その 音声に登録語彙リストに登録されている人名が含まれているか、 または人名以外 の雑音や音声、 つまり不要語しか含まれていないかを音声指示認識回路 1 0 6に 認識させる。 ここで、 人名に関しては、 予め人名と対応する HI舌番号を音声指示 情報メモリ 1 0 7に人名語彙リストとして記憶させておく。 また、 入力されたァ ナログ音声は、 特に限定されるものではないが、 通常、 8 K H z〜1 6 KH zの 範囲にある特定周波数でサンプリングされてデジタル化される。 デジ夕ルイ匕され た音響パラメ一夕は、 音声指示認識回路 1 0 6内部で、 音声指示情報メモリ 1 0 7内に記憶登録されている人名語彙リストに対し、 各単語の構成単位である音声 単位ごとに、 上記音響パラメ一夕との尤度計算を行うことにより、 人名語彙リス トの中から、 最も近い人名を抽出する。 言いかえると、 音声指示認識回路 1 0 6 内部では、 デジ夕ルイ匕された音響パラメ一夕に対し、 音声指示情報メモリ 1 0 7 内に記憶登録されている人名語彙リスト内の登録語である人名の尤度が、 その音 声単位毎に計算され、 当該尤度の積算値が最も大きいものが、 利用者の音声に最 も近い人名として抽出される。 なお、 音声指示認識回路 6内部では、 デジタル化 された音響パラメ一夕に対し、 音声指示情報メモリ 7内に記憶登録されている不 要語モデルの尤度も同時に計算され、 当該不要語モデルの尤度が登録語である人 名の尤度よりも大きいときには、 デジタル化された音響パラメ一夕から人名が抽 出されなかったものとする。
前記ステップ S 6 0 3では、 前記ステップ S 6 0 2で人名語彙リストに登録さ れている人名が音声に含まれていることが認識されたか否かを判定し、 登録語彙 リストに登録されている人名が含まれている場合には (Y E S ) ステップ S 6 0 4に移行し、 そうでない場合には (N O)再び前記ステップ S 6 0 2に移行する 前記ステップ S 6 0 4では、 前記ステップ S 6 0 2で人名が抽出されると、 音 声認識ュニット 1 0 2に接続された端末画面 (L C D表示装置 1 0 9 ) に、 抽出 された人名を表示させると共に、 応答音声制御回路 1 1 0を用いて、 音声アナゥ ンスによって、 抽出された人名を報知させる。
次にステップ S 6 0 5に移行して、 図 2 6に示すように、 まず L CD表示装置 1 0 9にプロセスを進めることを指示する単語、 またはプロセスのやり直しを指 示する単語の発話を促すメッセ一ジを表示させる。 次に、 マイクロフォン 1 0 3 で検出された音声を読み込み、 その音声に含まれる登録語であるプロセスを進め ることを指示する単語が含まれているか、 またはプロセスのやり直しを指示する 単語が含まれているかを音声指示認識回路 1 0 6に認識させる。 そして、 マイク 口フォン 1 0 3で検出された音声に登録語であるプロセスを進めることを指示す る単語が含まれているか、 またはプロセスのやり直しを指示する単語が含まれて いるかを判定し、 プロセスを進めることを指示する単語が含まれている^には (Y E S ) ステップ S 6 0 6に移行し、 そうでない場合には (N O)再び前記ス テツプ S 6 0 2に移行する。利用者は、 抽出された人名が所望の結果であるかど うかを判断し、 所望の結果であれば「電話かけて」等の予め登録されたプロセス を進めることを指示する単語を発話し、 音声指示認識回路 1 0 6に、 入力された 音声コマンドの認識処理を行わせる。
前記ステップ S 6 0 6では、 前記ステップ S 6 0 2で抽出された人名に対応す る電話番号を人名語彙リストから読み出すと共に その《fS番号に対応する AT コマンドを音声指示情報メモリ 1 0 7から呼び出し、 その A Tコマンドを音声通 話ュニヅト 1 0 2へ送信する。 そして、 ff己のごとく、 「電話かけて」 という予 め登録された語彙であると認識されると、 対応する 番号を発信するための A Tコマンド (AT D ) が中央制御回路 1 0 8より音声通話ュニヅト 1 0 2へ伝達 され、 回線接続のプロセスが実行される。 呼び出し音に応答して、 相手先のオフ フヅク動作を撤口すると、 回線接続が完了し、 音声通話を実行する。
一方、 抽出された人名が、 所望とする結果でないときは、 予め登録されたプロ セスのやり直しを指示する音声コマンド、 例えば「もう一回」 を発話し、 音声指 示認識回路 1 0 6で入力された音声の認 理を行う。前記のごとく、 「もう一 回」 という予め登録された語彙であると認識されると、 人名発話を受け付けるス テヅプ (ステップ S 6 0 2 ) に戻り、 新しい人名の発話を受け付ける状態となる 図 7に、 音声指示認識回路 1 0 6で実行される音声認識処理の一例を示す。 こ の音声認識処理のプロセスは、 特に限定されるものではないが、 本実施形態では 、 前記第 1の難形態と同様に、 隠れマルコフモデル (HMM) による処理プロ セスを利用している。 この音声認識処理が実行されると、 まずマイクロフォン 1 0 3で検知された音声を、 フ一リェ変換もしくはゥエーブレヅト変換でデジタル 化されたスぺクトルに変換し、 そのスぺクトルに線形予測分析やケプストラム分 析等の音声モデルィ匕手法を用いることによって音声デ一夕の特徴化を行う。 次に
、 この特徴化された音声デ一夕に対し、 予め音声認 理で読み込んだ語彙ネヅ トワーク 1 2 0に登録されている個々の登録語の音響モデル 1 2 1の尤度をビ夕 ビアルゴリズムで計算する。 ここで登録語は、 音声単位の直列接続(音声単位ラ ベル系列) に対応する H MMの直列接続ネットワークでモデルィ匕され、 語彙ネヅ トワーク 1 2 0は、 登録語彙リストに登録されている登録語群に対応する直列接 続ネットワーク群としてモデルィ匕されている。 また、 各登録語は、 音素等の音声 単位で構成されており、 その音声単位ごとに尤度が算出され、 利用者の発話終了 が確認された時点で、 登録語彙リストの中から尤度の積算値が最大である単語を 検出し、 その登録語を音声に含まれていると認知した登録語として出力する。 また、 前記第 1実施形態と同様に、 不要語を認識するための仮想的なモデル 2 3が登録語の語彙ネットワーク 1 2 0と並列に設けられている。 これにより、 登 録語を含まない発話や雑音、 つまり不要語が音声として入力されたときには、 そ の不要語に対応する仮想的なモデル 2 3の尤度が登録語の尤度よりも大きく算出 され、 不要語が入力されたと判断されて、 登録語を含まない発話等が登録語とし て誤認識されることが防止される。
図 2 7は、 中央制御回路 1 0 8で実行される処理であって、 利用者が電話番号 を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。 つ まり図 2 7は、 電話番号による発呼動作に関するプロセススキームである。 なお 、 このフローチャートでは通信のためのステップを設けていないが、 演算処理に よって得られた情報は随時記憶装置に更新記憶されると共に、 必要な情報は随時 記憶装置から読出される。 この演算処理が実行されると、 まず、 そのステップ S 7 0 1では、 オンフックの状態を検出することにより、 音声通話ュニヅト 1 0 2 の初期状態を δ鶴忍し、 電話発呼を受け付ける状態であることを確認する。具体的 には、 音声通話ュニヅト 1 0 2から状態信号を受け取ってオンフック状態である か否かを判定し、 オンフック状態である場合には (Y E S ) ステップ S 7 0 2に 移行し、 そうでない場合には (N O) このフローを繰り返す。
前記ステップ S 7 0 2では、 任意の電話番号を受け付ける電話番号確認モ一ド であるか否かを判定し、 電話番号確認モードである^には (Y E S ) ステップ S 7 0 4に移行し、 そうでない場合には (N〇) ステップ S 7 0 3に移行する。 前記ステツプ S 7 0 3では、 マイクロフォン 1 0 3で検出された音声を読み込 み、 その音声に含まれる登録語である電話番号を受け付けるための予め登録され た音声コマンドが含まれていることを音声指示認識回路 1 0 6に認識させ、 その 音声コマンドが認識された場合、 前記ステップ S 7 0 4に移行する。 そして、 任 意の «fg番号を受け付ける電話番号認識モードであるかどうかの確認を利用者が 行い、 人名認識モード等、 電話番号認識モード以外であれば、 電話番号を受け付 けるための予め登録された音声コマンドを発話する。
前記ステップ S 7 0 4では、 まず、 登録語彙リストとして、 任意の電話番号に 相当する桁数に応じた連镜数字を認識するための番号語彙リストを読み込む。 次 に、 図 2 8に示すように、 電話番号の発話を促すメッセ一ジを L CD表示装置 1 0 9に表示させる。 そして、 マイクロフォン 1 0 3で検出された音声を読み込み 、 その音声に含まれる登録語である連続数字が含まれているか音声指示認識回路 1 0 6で認識する。例えば「番号で ¾¾」が前記電話番号を受け付けるための登 録された音声コマンドとする。利用者は、 「番号で S 」 と発話すると、 マイク 口フォン 1 0 3を通して、 音声指示認、識回路 1 0 6で入力音声の認識を行レ 「 番号で電話」 と認識されると、 音声指示認識回路 1 0 6では、 登録語彙リストと して、 任意の電話番号を認識できる番号語彙リストを音声指示認識回路のメモリ 内にアップ口一ドすることによって、 電話番号を受け付けるモードに入る。 ここ で、 利用者は、 「0 3— 3 3 5 6—1 2 3 4」 ( 「一」は発音しない) 等、 希望 する電話番号を連続して発話することにより、 音声認識させる。
ここで、 任意の電話番号を認識できる番号語彙リストとは、 電話が使用される 国、 ±也域、 電話通信方式、 相手先の国、 地域、 電話方式によって、 いくつかパ夕 —ン化した連続数字列からなるものを意味し、 例えば、 日本国内から日本国内の 固定電話機に電話をかける場合であれば、 「0—市外局番-市内局番—加入者番 号」のパターンとなり、 合計 1 0桁 (一部の地域で 9桁) の連続数字列群からな る番号語彙リストを用意する。 なお、 市外局番と巿内局番との間あるいは巿内局 番と加入者番号との間に、 「の」や無声の間を表す音声単位を電話番号パターン に挿入することで、 SI舌番号を発話する発話者の冗長性にも対応することが可能 である。
また、 日本国内から日本国内の携帯電話や P H Sに電話をかける場合であれば 、 「0 A 0 (Aは 0以外の単数字) 」で始まる合計 1 1桁の連镜数字列群からな る語彙リストを用意する。 その他、 総務省が 会社ごとに指定している数字列 ノ 夕一ンに従った数字列群からなる専用の番号語彙リストも用意する。 表 2に総 務省が発表している日本国内における電話番号パ夕一ンのリストを示す。
このように、 本実施形態では、 電話番号を認識させるときには、 利用者は電話 番号の全桁に相当する数字列を連続発話するだけでよく、 電話番号を短時間で認 識させることができる。 ちなみに、 電話番号を 1桁ずつ認識させる方法では、 全 桁を正しく認識させようとすると、 多くの時間がかかってしまう。
番号パターン 相手先の分類
中継する電話会社を使って電話する場合や
00から始まる番号
国際電話を掛ける場合
0 AOから始まる番号 携帯電話、 P H S、 発信者課金ポケットベル (Aは 0以外) 等に電話する場合
0 A B 0から始まる番号 電話会社が提供する高度な電話サービスを (A, Bは 0以外) 利用する場合
0 ABCから始まる電話番号 普通の固定電話に電話する場合 (市外通話) (A, B,Cは 0以外) ( 0一市外局番一市内局番—加入者番号) 緊急性、 公共性、 安全性の観点から重要な
1から始まる番号 .
場合や付加サービスの場合
普通の固定電話に電話する場合。 (市内通話)
2〜 9から始まる番号
各番号語彙リストの音声認識回路 1 0 6へのアロケーション方法は、 その音声 認識回路 1 0 6で採用される音声認識エンジンの認 度に応じた方法が適宜採 用される。 その一つの方法として、 音声認識用のマイクロフォン 1 0 3で数字列 が音声入力されたときに、 その数字列の先頭から認識される数字列 (3〜4桁) のパターンを動的に判断し、 そのパターンが認識されると同時に選択可能な番号 語彙リストへ動的にアロケーションする方法が挙げられる。 この方法によれば、 例えば、 「0 (ゼロ) 」 から始まる S舌番号として、 最初の 3桁の数字列におい て、 1桁目と 3桁目とに「0 (ゼロ)」 の数字が認識されると、 日本国内では、 携帯電話や: P H S等の電話番号のパターンであるとして、 この後に続く数字列を 認識するために、 8桁の数字列 (トータル 1 1桁) あるいは、 特徴的な番号列を 認識する番号語彙リス卜がアロケーションされる。
また、 他の方法として、 静的に全ての番号語彙リストを一度、 音声認識回路 1 0 6に読み込んでおき、 利用者によって入力される ¾舌番号の先頭から順に、 ど の数字と適合するかの尤度計算を経時的な平均値として算出することによつて、 可能性のあるパターン数個だけを候補として残して、 それ以外のパターンは演算 から除外し、 最終的に発話区間の検出が終了した時点で、 どの番号パターンへの 尤度が高かったかを算出することによって、 確からしい番号の決定する方法等が 挙げられる。 これらの方法により、 膨大な数字列候補の中から、 まずパターンに よる絞り込みを掛けることで、 認識精度の向上と認識に必要な演算量の負荷の低 減を実現し、 利用者は電話番号として必要な全桁数を連続して発話認識させるこ とが可倉 となつている。
前記ステップ S 7 0 5では、 前記ステップ S 7 0 4で認識された電話番号を L CD表示装置 1 0 9に表示させると共に、 その認識結果を応答音声制御回路 1 1 . 0に伝達し、 その電話番号をスビ一力 1 0 5に報知させる。
次にステップ S 7 0 6に移行して、 まず L CD表示装置 1 0 9にプロセスを進 めることを指示する単語、 またはプロセスのやり直しを指示する単語の発話を促 すメッセ一ジを表示させる。 次に、 マイクロフォン 1 0 3で検出された音声を読 み込み、 その音声に含まれる登録語であるプロセスを進めることを指示する単語 が含まれているか、 またはプロセスのやり直しを指示する単語が含まれているか を音声指示認識回路 1 0 6に認識させる。 そして、 マイクロフォン 1 0 3で検出 された音声に登録語であるプロセスを進めることを指示する単語が含まれている か、 またはプロセスのやり直しを指示する単語が含まれているかを判定し、 プロ セスを進めることを指示する単語が含まれている場合には (YE S、 ステップ S 7 0 6 ' ) ステップ S 7 0 7に移行し、 そうでない^には (N O、 ステップ S 7 0 6 " )再び前記ステップ S 7 0 4に移行する。
前記ステップ S 7 0 7では、 前記ステップ S 7 0 4で抽出された電話番号に対 応する A Tコマンドを音声指示情報メモリ 1 0 7から呼び出し、 その A Tコマン ドを音声通話ュニット 1 0 2に送信する。
図 2 9は、 中央制御回路 1 0 8で実行される処理であって、 利用者が終了を意 味する言葉を発話したことに応じてオフフヅク動作等を行う演算処理のフローチ ャ一トを示す。 つまり図 2 9は、 通話終了のためのオンフック動作に関するプロ セススキームである。 なお、 このフローチャートでは通信のためのステップを設 けていないが、 演算処理によって得られた情報は随時記憶装置に更新記憶される と共に、 必要な情報は随時記憶装置から読出される。 この演算処理が実行される と、 まず、 そのステップ S 8 0 1では、 オフフヅク状態を検出することにより、 音声通話ュニヅト 1 0 2の動作状態が通話モードあることを ¾ する。 具体的に は、 音声通話ュニヅト 1 0 2から状態信号を受け取ってオフフック状態であるか 否かを判定し、 オフフック状態である場合には (Y E S ) ステップ S 8 0 2に移 行し、 そうでない場合には(NO) このフロ一を繰り返す。
前記ステップ S 8 0 2では、 まず、 登録語彙リストとして、 通話中及び通話終 了における必要な音声コマンドだけを予め登録した通話操作語彙リストを音声指 示認識回路 1 0 6内に読み込む。 そして、 マイクロフォン 1 0 3で検出された音 声を読み込み、 その音声に含まれる登録語である通話を終了することを指示する 音声コマンドが含まれているか音声指示認識回路 1 0 6で認識する。
次にステップ S 8 0 3に移行して、 回線切断を指示する A Tコマンドを音声指 示情報メモリ 1 0 7から呼び出し、 その A Tコマンドを音声通話ュニヅト 1 0 2 に送信する。 そのため、 通話を終了することを指示する音声コマンド、 例えば「 電話切って」 と利用者が発話すると、 マイクロフォン 1 0 3を経由して、 音声指 示認識回路 1 0 6で入力音声の認識を行い、 「電話切って」 と認識されると、 中 央制御回路 1 0 8より A Tコマンド (A T H) を使って、 回線切断を指示する制 御コードを音声通話ュニヅト 1 0 2へ送信し、 回線の切断を完了する。
図 3 0は、 中央制御回路 1 0 8で実行される処理であって、 利用者が着信を意 味する言葉を発話したことに応じてオフフック動作を行う演算処理のフローチヤ ートを示す。 つまり図 3 0は、 着信時におけるオフフック動作に関するプロセス スキームである。 なお、 このフローチャートでは通信のためのステップを設けて いないが、 演算処理によつて得られた情報は随時記憶装置に更新記憶されると共 に、 必要な情報は随時記憶装置から読出される。 この演算処理が実行されると、 まず、 そのステップ S 9 0 1では、 オンフヅク状態を検出することにより、 音声 通話ュニヅト 1 0 2の動作状態が待機状態であることを ¾!忍する。具体的には、 音声通話ュニヅト 1 0 2から状態信号を受け取ってオンフヅク状態であるか否か を判定し、 オンフック状態である場合には (YE S )ステップ S 9 0 2に移行し 、 そうでない場合には (N〇) このフローを繰り返す。
前記ステップ S 9 0 2では、 音声通話ユニット 1 0 2から着信を知らせるリザ ルトコ一ドを受け取つたか否かを判定し、 リザルトコ一ドを受け取った場合には (YE S )着信信号を受けたことを報知するメッセ一ジを L CD表示装置 1 0 9 に表示すると共に、 その旨を応答音声制御回路 1 1 0に伝達し、 そのメッセージ をスピーカ 1 0 5に報知させてからステップ S 9 0 3に移行し、 そうでない:^ には (NO) このフローを繰り返す。 つまり、 音声通話ュニヅト 1 0 2が着信を 知らせる信号を受け取ると、 音声認識ュニヅ卜の中央制御回路へ着信を受けたこ と知らせるリザルトコードを送信する。着信信号を受けた音声認識ュニットは、 L CD画面表示装置に着信信号を受けたことを報知する内容を表示すると同時に 、 応答音声制御回路より、 音声にて電話着信のアナウンスをスピーカ 1より行う 。 このとき、 着信信号の中に、 相手先情報を含んでいれば、 その情報とすでに人 名語彙リストに登録された相手先との照合を行い、 合致した相手先であれば、 「 〇〇〇さんからの電話です」等とより詳細な情報を利用者へ報知することが音声 及び画面表示で行うことが可能である。
さらに、 相手先情報をメモリに記憶しておき、 通話終了後に、 「S g番号を登 録しますか」等のアナウンスを行い、 「新規登録」や「過 Π登録」等の予め登録 している音声指示に関する語彙を発話指示させ、 人名語彙リストに新たな相手先 デ一夕を音声登録することも可能である。
前記ステップ S 9 0 3では、 まず、 登録語彙リストとして、 話着信時の応答に 関する着信操作語彙リストを音声指示認識回路 1 0 6内に読み込む。次に、 L C D表示装置 1 0 9にオフフックを指示する語彙、 またはオンフックを指示する語 彙の発話を促すメッセ一ジを表示させる。 また、 マイクロフォン 1 0 3で検出さ れた音声を読み込み、 その音声に含まれる登録語であるオフフックを指示する語 彙が含まれているか音声指示認識回路 1 0 6に認識させる。 そして、 マイクロフ オン 1 0 3で検出された音声に登録語であるオフフックを指示する語彙が含まれ ているか、 またはオンフックを指示する語彙が含まれているかを判定し、 ォフフ ヅクを指示する語彙が含まれている場合には (Y E S、 ステップ S 9 0 3 ' ) ス テヅプ S 9 0 4に移行し、 オンフックを指示する語彙が含まれている場合には ( N〇、 ステップ S 9 0 3 " ) ステップ S 9 0 5に移行する。 つまり、 音声指示認 識回路 1 0 6では、 電話着信時の応答に関する着信操作語彙リストを読み込み、 利用者は、 状況に応じて電話に応じるかどうかの判断を行う。 電話に出る場合は 、 予め登録されているオフフックを指示する語彙、 例えば「H舌取って」なる語 彙を発話する。 マイクロフォン 1 0 3を経由して入力された音声は、 音声指示認 識回路により 「電話取って」であるかどうかの認識判断を行う。
前記ステップ S 9 0 4では、 オフフックを指示する A Tコマンドを音声指示情 報メモリ 1 0 7から呼び出し、 その ATコマンドを音声通話ュニヅト 1 0 2に送 信する。 つまり、 「霞舌取って」 との認識結果が得られると、 中央制御回路 1 0 8よりオフフックを指示する ATコマンド (ATA) を音声通話ユニットへ送信 し、 通話状態のモードとし、 マイク 2とスピーカ 2を使用して音声通話する。 —方、 編己ステヅプ S 9 0 5では、 オンフヅクを指示する A Tコマンドを音声 指示情報メモリ 1 0 7から呼び出し、 その ATコマンドを音声通話ュニヅト 1 0 2に送信する。 つまり、 電話に出たくない状況の場合は、 予め登録されている回 線切断を指示する言葉、 例えば「電話切って」なる言葉を発話する。 マイクロフ オン 1 0 3を経由して入力された音声は、 音声指示認識回路により 「電話切って 」 であるかどうかの認識判断を行う。 そして、 「電話切って」 との認識結果が得 られると、 中央制御回路より回線切断を指示する A Tコマンド (A T H) を音声 通話ユニットへ送信し、 着信信号を切断する。
なお、 音声認識ユニットの初期設定により、 リンギングの回数が一定値に達す ると、 自動的にオフフックの制御コードを発信したり、 あるいは、 留守番電話モ ―ドとする制御コ一ドを発信したりすることにより、 利用者の希望に応じた対応 ができる。
以上の一連の音声認識動作において、 本発明の音声認識機能付き電話通信端末 では、 音声入力の有無に関係なく、 音声指示認識回路 1 0 6の内部処理では、 常 時、 音声検出アルゴリズム (VAD ) が動作している。 そして、 この VADによ つて、 マイクロフォン 1 0 3から入力される雑音を含めたすべての音に対し、 音 声として未入力状態なのか、 音声として入力 ¾^中の状態なのか、 音声として入 力が終了した状態なのかといった判断を繰り返している。
これは、 音声指示認識回路 1 0 6では、 常時、 音声認識アルゴリズムを動作さ せているため、 音声認識に不要な音や言葉まで入力されやすく、 それらの不要な 音や言葉を、 不要なものであるとして認識して、 誤動作しないようにリジェクシ ヨン機能として設けられている。 なお、 不要な言葉を認識する方法としては、 H. Boulara, B. D oore and J.-M. Boite, "Optimizing Recognition and Rejection Performance in Wordspotting Systems," Proc. ICASSP, Adelaide, Australia, pp .1-373-376, 1994.等で提案されているガーべッジモデル法等を利用すればよい また、 図 2 8に示すように、 上記 VADの内部処理における 3状態に応じて、 つまり音声として未入力状態であるときに緑色となり、 音声として入力赚中の 状態であるときに黄色となり、 音声として入力が終了した状態であるときに赤色 となるタイミング報知用映像 3 0を L C D表示装置 1 0 9の上側に表示する。 ま た同時に、 L CD表示装置 1 0 9の右端には、 マイクロフォン 1 0 3で検出され た音声の大きさに応じて上方へ伸びる、 つまり音声が大きいほど長くなるレベル メ一夕 3 1を表示する。 そして、 上記 VADの内部処理における 3状態、 つまり 夕イミング幸艮知用映像 3 0を音声認識ュニヅト 1 0 1の L C D表示装置 6 2に表 示して、 利用者に発話し始めるタイミングを報知することで、 発話時の不要な音 や言葉との音のかぶりを避けることを可能としており、 結果として、 物理的なボ 夕ン操作等が無く、 音声入力を可能としている。 また、 マイクロフォン 1 0 3で 検出された音声の大きさをレベルメータ 3 1によって報知することで、 利用者は 適切な音量で発話する助けが得られ、 その結果、 登録語をより容易に認識させる ことができる。
なお、 本実施形態では、 音声認識ュニヅト 1 0 1のマイクロフォン 1 0 3及び スピーカ 1 1 3と音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 6とが音声入出力手段に対応し、 音声指示認識回路 1 0 6が音声認識手段に 対応し、 音声指示情報メモリ 1 0 7が記憶手段に対応し、 L C D表示装置 1 0 9 が画面表示手段に対応し、 中央制御回路 1 0 8が制御手段に対応し、 マイクロフ オン 1 0 3が音声検出手段に対応し、 タイミング報知用映像 3 0が発話タイミン グ報知手段に対応し、 レベルメータ 3 1が音量報知手段に対応する。
また、 上記実施の形態は本発明の音声認識方法、 リモートコント口一ル装置、 情報端末装置、 電話通信端末及び音声認識装置の一例を示したものであり、 装置 の構成等を限定するものではない。
例えば、 上記 «の形態では、 リモ一トコントロール装置、 情報端末装置及び 電話通信端末をそれぞれ個別に形成する例を示したが、 これに限られるものでは なく、 例えば備3第 1実施形態のリモコン装置本体:部 1又は前記第 3実施形態の 電話通信端末に、 第 2実施形態の通信ュニヅ ト 5 2を取り付け、 リモコン装置本 体部 1で音声認識結果に基づいて、 電子メールの送受信機能、 スケジュール管理 機能、 音声メモ機能及び音声夕イマ機能等を実行できるようにしてもよい。 その ようにすれば、 前記第 2実施形態と同様に、 利用者は登録語を発話するだけで各 機能を使用でき、 物理的な操作が必要とされない。
また、 例えば、 前記第 1実施形態のリモコン装置本体部 1〖こ、 前記第 3実施形 態の音声通話ュニヅ ト 1 0 2を取り付け、 リモコン装置本体部 1に音声認識を行 わせ、 その音声認識結果に基づいて mis操作を行えるようにしてもよい。 そのよ うにすれば、 備 3第 3実施形態と同様に、 利用者が通話中であって、 その通話の ために音声通話ュニット 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 5が専 有されている場合であっても、 リモコン装置本体部 1に音声を入力でき、 音声通 話ュニヅト 1 0 2を制御させることができる。
さらに、 例えば、 漏 3第 1鐵形態のリモコン装置本体部 1に、 編 3第 2難 形態の通信ュニヅト 5 2と前記第 3難形態の音声通話ュニヅト 1 0 2とを取り 付け、 リモコン装置本体部 1に音声認識を行わせ、 その音声認識結果に基づいて 電話操作を行えるようにすると共に、 その音声認識結果に基づいて、 電子メール の送受信機能、 スケジュール管理機能、 音声メモ機能及び音声夕イマ機能等を実 行できるようにしてもよい。 そのようにすれば、 前記第 2実施形態同様に、 利用 者は登録語を発話するだけで各機能を使用でき、 物理的な操作が必要とされず、 且つ、 前記第 3実施形態と同様に、 利用者が通話中であって、 その通話のために 音声通話ュニット 1 0 2のマイクロフオン 1 1 5及びスピ一力 1 1 5が専有され ている場合であっても、 リモコン装置本体部 1に音声を入力でき、 音声通話ュニ ヅト 1 0 2を制御させることができる。 産業上の利用可能性
以上、 説明したように、 本発明に係る音声認識方法は、 ビ夕ビアルゴリズムに よる照合過程において、 登録語以外の不要語を認識するための音声単位ラベル系 列の尤度も同時に演算するため、 生活雑音等の登録語を含まない音声、 つまり登 録語以外の音声が音響パラメ一夕系列に変換されたときには、 その音響パラメ一 夕系列に対し、 不要語についての音声単位ラベル系列に対応する音響モデノレの尤 度が大きく算出され、 その尤度に基づいて前記登録語以外の音声を不要語として 認識でき、 前記登録語以外の音声が登録語として誤認識されることを防止できる また、 本発明に係るリモートコントロール装置は、 利用者の音声に含まれる認 識対象語を前記音声認識方法を用いて認識するため、 認識対象語以外の発話や雑 音、 つまり生活雑音に対して、 リジェクシヨン率が高く、 誤動作、 誤認識を防止 することができる。
また、 本発明に係る情報通信端末は、 利用者の音声に含まれる登録語を ifS音 声認識方法を用いて認識するため、 生活雑音等の登録語を含まない音声、 つまり 登録語以外の音声が利用者から発せられたときには、 その音声の音響パラメ一夕 系列に対し、 不要語についての音声単位ラベル系列に対応する音響モデルの尤度 が大きく算出され、 その尤度に基づいて鍾 3登録語以外の音声を不要語として認 識でき、 当該登録語以外の音声が登録語として誤認識されることを防止でき、 情 報端末装置の誤動作を防止することができる。
また、 本発明に係る電話通信端末は、 常時音声認識を可能とする電話通信端末 であって、 発呼時、 «I舌番号を代表するキーワードや任意の電話番号のどちらを 発話しても、 誤認識が少なく、 また、 電話番号自体の認識においては、 1桁ずつ の発話認識など、 発呼者に発話制限をさせずに、 連続番号発話で、 認識できるよ うにし、 さらに、 受信時においても音声入力により、 オフフックを可能とするこ とで、 常時、 送受信ともにハンズフリーの状態で電話操作が可能となる効果を有 する。 言いかえると、 通信ュニットと音声認識ユニットとでそれぞれ独立した入 出力系統を有しているため、 利用者が通話中であって、 その通話のために通信ュ ニットの入出力系統が専有されている場合であっても、 利用者の音声を音声認識 ュニヅトに入力でき、 通信ュニヅ トを 御することができる。
また、 本発明に係る音声認識装置は、 登録語を認識可能な状態にあることを報 知するため、 利用者は適切なタイミングで登録語を発話することができ、 登録語 を容易に認識させることができる。
また、 上記第 1実施形態と同様な音声認醒理を用いるため、 上記第 1実施形 態と同様に、 登録語を含まない音声、 つまり登録語以外の音声が利用者から発せ られたときには、 その音声の音響パラメ一夕系列に対し、 不要語モデル 2 3の尤 度が大きく算出され、 登録語の語彙ネヅ トワーク 2 2の尤度が小さく算出され、 それらの尤度に基づいて編 3登録語以外の音声が不要語として認識され、 当該登 録語以外の音声が登録語として誤認識されることが防止され、 電話通信端末の誤 動作が防止される。

Claims

1 . 音声認識対象者の入力音声を音響パラメ一夕系列に変換し、 その音響パラメ —夕系列と、 登録語についての音声単位ラベル系列に対応する音響モデルとを、 ビ夕ビアルゴリズムにより照合することにより音声認識を行う音声認識方法にお いて、 前記登録語についての音声単位ラベソレ系列と並列に登録語以外の不要語を 認識するための音声単位ラペル系列を設け、 前記ビ夕ビアルゴリズムによる照合 過程において、 前記登録語以外の不要語を認識するための音声単位ラベル系列の 尤度も同時に演算することにより、 不要語が入力音声として入力された場合に、 前記不要語を不要語として認識させることを特徴とする音声認識方法。
2. 請求の範囲第 1項記載の音声認識方法において、 前記音声単位ラベル系列に 対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、 かつ前記 不要語を認識するための音声単位ラベル系列が、 使用するすべての音声単位モデ ルを平準ィ匕した仮想的な音声単位モデルから成ることを特徴とする音声認識方法
3 . 請求の範囲第 1項記載の音声認識方法において、 前記音声単位ラベル系列に 対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、 かつ前記 不要語を認識するための音声単位ラベル系列が、 母音だけの音素で構成される自 己ループ型のネットワーク構成であることを觀とする音声認識方法。
4. 複数の操作対象を音声で遠隔操作できるリモートコントロール装置において 、 遠隔操作を指示する認識対象語を記憶する記憶手段と、 利用者から発せられた 音声を入力する音声入力手段と、 利用者から発せられた音声に含まれる ΙίΤ 認識 対象語を前記記憶手段に基づいて認識する音声認識手段と、 その音声認識手段に て認識された認識対象語に対応する観制御信号を送信する送信手段とを備え、 前記音声認識方法が請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方 法を用いたことを特徴とするリモートコントロール装置。
5 . 請求の範囲第 4項記載のリモートコントロール装置において、 利用者に通話 させるための音声入力部を有し、 且つ、 iI3音声認識手段で認識された認識対象 語に基づいて通信回線への接続状態を制御する通信ュニヅトを備え、 前記音声入 力手段と iffil信ュニッ卜の音声入力部とを個別に設けたことを特徴とするリモ
—トコントロール装置。
6 . 請求の範囲第 4項及び第 5項記載のリモートコントロール装置において、 更 に、 音声によるメールの送受信処理、 音声による予定管理処理、 音声によるメモ 処理及び音声による報知処理の少なくとも 1つを実行する制御手段を備えたこと を特徴とするリモートコントロール装置。
7 . 利用者の音声を検出する音声検出手段と、 その音声検出手段で検出された音 声に含まれる登録語を認識する音声認識手段と、 その音声認識手段で認識された 登録語に基づいて、 音声によるメールの送受信処理、 音声による予定管理処理、 音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する制御手 段とを備え、 前記音声認識手段は、 編己音声検出手段で検出された音声に含まれ る登録語を、 請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用 いて認識することを特徴とする情報端末装置。
8 . 公衆 舌回線網あるいはインターネヅト通信網に接続可能な電話通信端末に おいて、 音声を入出力する音声入出力手段と、 入力音声を認識する音声認識手段 と、 St舌相手先の名前や離番号を含む個人情報を記憶している記憶手段と、 画 面表示手段と、 それぞれを制御する制御手段とを備え、 編 3音声入出力手段は通 信ュニットと音声認識ュニヅトとでそれぞれ独立した入出力系統を有しているこ とを特徴とする電話通信端末。
9 . 公衆 mi舌回線網あるいはィン夕一ネット通信網に接続可能な電話通信端末で あって、 音声を入出力する音声入出力手段と、 入力音声を認識する音声認識手段 と、 電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、 画 面表示手段と、 それぞれを制御する制御手段とを備え、 擺 3記憶手段は予め登録 された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リス トと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙 リス卜とを別々に備え、 発信 .切断 .着信に関するすべての電話操作が tiff己音声 認識手段、 前記記憶手段、 前記制御手段により音声入力で可能であることを ¾ とする電話通信端末。
1 0 . 請求の範囲第 8項又は第 9項記載の電話通信端末において、 電話番号の認 識方法が、 全桁数の連続発話の入力によって備3記憶手段の番号語彙リスト、 前 記音声認識手段が任意の MIS番号を認識する 番号語彙ネヅトワークを用いて 所定の桁数の数字又は記号から成る数字列パターンを認識することを特徴とする
1 1 . 請求の範囲第 8項乃至第 1 0項のいずれかに記載の電話通信端末において 、 前言己画面表示手段が発話タイミングを知らせる発話タイミング表示機能を有し ていることを特徴する電話通信端末。
1 2. 請求の範囲第 8項乃至第 1 1項のいずれかに記載の電話通信端末において、 前記音声認識手段で認識された入力音声に基づいて、 音声によるメールの送受信 処理、 音声による予定管理処理、 音声によるメモ処理及び音声による報知処理の 少なくとも 1つを実行する第 2制御手段を備えたことを特徴とする電話通信装置。
1 3. 請求の範囲第 8項乃至第 1 2項のいずれかに記載の電話通信端末において、 前記音声認識手段は、 入力音声に含まれる登録語を、 請求の範囲第 1項乃至第 3 項のいずれかに記載の音声認識方法を用いて認識することを とする 舌通信 端末。
1 4. 利用者の音声を検出する音声検出手段と、 その音声検出手段で検出された 音声に含まれる登録語を認識する音声認識手段と、 その音声検出手段で登録語を 認識可能な発話タイミングを報知する報知手段とを備えたことを特徴する音声認
1 5 . 請求の範囲第 1 4項に記載の音声認識装置において、 前記音声検出手段で 検出された音声の大きさを報知する音量報知手段を備えたことを特徴する音声認
PCT/JP2002/013182 2001-12-17 2002-12-17 Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale WO2003052737A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003553549A JP4263614B2 (ja) 2001-12-17 2002-12-17 リモートコントロール装置及び情報端末装置
US10/499,220 US20050043948A1 (en) 2001-12-17 2002-12-17 Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
AU2002354201A AU2002354201A1 (en) 2001-12-17 2002-12-17 Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001382613 2001-12-17
JP2001-382613 2001-12-17
JP2002-117964 2002-04-19
JP2002117964 2002-04-19

Publications (1)

Publication Number Publication Date
WO2003052737A1 true WO2003052737A1 (fr) 2003-06-26

Family

ID=26625087

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/013182 WO2003052737A1 (fr) 2001-12-17 2002-12-17 Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale

Country Status (6)

Country Link
US (1) US20050043948A1 (ja)
JP (2) JP4263614B2 (ja)
CN (1) CN1271595C (ja)
AU (1) AU2002354201A1 (ja)
TW (1) TW200301460A (ja)
WO (1) WO2003052737A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072592A (ja) * 2005-09-05 2007-03-22 Nec Corp 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
JP2017142651A (ja) * 2016-02-10 2017-08-17 大日本印刷株式会社 携帯型デバイス及びプログラム
JP2018072784A (ja) * 2016-11-06 2018-05-10 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN115331670A (zh) * 2022-08-09 2022-11-11 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7957328B2 (en) * 2006-01-30 2011-06-07 Broadcom Corporation Method and system for communicating to radio frequency integrated circuit
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
TWI425806B (zh) * 2007-06-08 2014-02-01 Wistron Neweb Corp 用來記事於一行動通訊裝置的方法及相關裝置
US8175885B2 (en) 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
EP2191397B1 (en) * 2007-08-20 2019-01-23 Qualcomm Incorporated Enhanced rejection of out-of-vocabulary words
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
WO2012001458A1 (en) * 2010-06-29 2012-01-05 Kabushiki Kaisha Toshiba Voice-tag method and apparatus based on confidence score
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
JP6001239B2 (ja) * 2011-02-23 2016-10-05 京セラ株式会社 通信機器
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP2013019958A (ja) * 2011-07-07 2013-01-31 Denso Corp 音声認識装置
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
CN103077714B (zh) 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
CN104216276A (zh) * 2013-06-03 2014-12-17 龙博 智能记事手表
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN104076679B (zh) * 2014-06-27 2017-04-26 汕头市奇士钟表有限公司 一种用于记录信息的智能手表
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
JP6520100B2 (ja) * 2014-12-15 2019-05-29 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
JP6872134B2 (ja) * 2016-05-13 2021-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN110322876A (zh) * 2018-03-30 2019-10-11 中华映管股份有限公司 语音应用系统及其方法
US11195518B2 (en) * 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
JP7033181B1 (ja) * 2020-11-30 2022-03-09 レノボ・シンガポール・プライベート・リミテッド 情報処理装置及びレコーディング方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
EP0141289A2 (de) * 1983-10-22 1985-05-15 Alcatel N.V. Teilnehmersprechstelleneinrichtung
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (ja) * 1989-07-11 1991-02-28
JPH0449955B2 (ja) * 1984-02-27 1992-08-12 Matsushita Electric Ind Co Ltd
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JP2886117B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
EP0939534A1 (en) * 1998-02-27 1999-09-01 Nec Corporation Method for recognizing speech on a mobile terminal
EP0947980A1 (en) * 1998-04-02 1999-10-06 Nec Corporation Noise-rejecting speech recognition system and method
WO1999050826A1 (en) * 1998-03-30 1999-10-07 Andrea Electronics Corporation Remote control system for controlling key-press and speech actuated on-line applications
JPH11305793A (ja) * 1998-04-16 1999-11-05 Sony Corp 音声認識装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57208596A (en) * 1981-06-18 1982-12-21 Hitachi Ltd Voice recognition circuit
JPH02171098A (ja) * 1988-12-23 1990-07-02 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JP2614552B2 (ja) * 1991-06-27 1997-05-28 シャープ株式会社 音声認識リモコン装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3112556B2 (ja) * 1992-04-21 2000-11-27 シャープ株式会社 音声ダイヤラ
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JP3428309B2 (ja) * 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
JPH11288297A (ja) * 1998-04-06 1999-10-19 Mitsubishi Electric Corp 音声認識装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
EP0141289A2 (de) * 1983-10-22 1985-05-15 Alcatel N.V. Teilnehmersprechstelleneinrichtung
JPH0449955B2 (ja) * 1984-02-27 1992-08-12 Matsushita Electric Ind Co Ltd
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (ja) * 1989-07-11 1991-02-28
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JP2886117B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
EP0939534A1 (en) * 1998-02-27 1999-09-01 Nec Corporation Method for recognizing speech on a mobile terminal
WO1999050826A1 (en) * 1998-03-30 1999-10-07 Andrea Electronics Corporation Remote control system for controlling key-press and speech actuated on-line applications
EP0947980A1 (en) * 1998-04-02 1999-10-06 Nec Corporation Noise-rejecting speech recognition system and method
JPH11305793A (ja) * 1998-04-16 1999-11-05 Sony Corp 音声認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072592A (ja) * 2005-09-05 2007-03-22 Nec Corp 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
JP2017142651A (ja) * 2016-02-10 2017-08-17 大日本印刷株式会社 携帯型デバイス及びプログラム
JP2018072784A (ja) * 2016-11-06 2018-05-10 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN115331670A (zh) * 2022-08-09 2022-11-11 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Also Published As

Publication number Publication date
AU2002354201A1 (en) 2003-06-30
US20050043948A1 (en) 2005-02-24
JPWO2003052737A1 (ja) 2005-04-28
JP4263614B2 (ja) 2009-05-13
CN1271595C (zh) 2006-08-23
CN1615508A (zh) 2005-05-11
JP2009104156A (ja) 2009-05-14
JP4558074B2 (ja) 2010-10-06
TW200301460A (en) 2003-07-01

Similar Documents

Publication Publication Date Title
WO2003052737A1 (fr) Procede de reconnaissance vocale, controleur a distance, terminal d&#39;information, terminal de communication telephonique et systeme de reconnaissance vocale
CN109410952B (zh) 一种语音唤醒方法、装置及系统
USRE41080E1 (en) Voice activated/voice responsive item locater
ES2295025T3 (es) Interfaz de usuario hablada para dispositivos habilitados mediante la voz.
US6839670B1 (en) Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process
US7791471B2 (en) Item locator system utilizing item and location bar codes
KR100616787B1 (ko) 전화 핸드셋용 음성 인식 사용자 인터페이스
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
EP1739546A2 (en) Automobile interface
JP5094120B2 (ja) 音声認識装置及び音声認識方法
JPH1188502A (ja) 音声応答メッセージング方法および装置
JP2003177790A (ja) 端末装置、サーバ装置および音声認識方法
JP2002524777A (ja) ボイス・ダイアリング方法およびシステム
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2008268517A (ja) 音声認識機能付き操作器
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
KR20050015585A (ko) 향상된 음성인식 장치 및 방법
CN111294475B (zh) 电子装置及电子装置的模式切换方法
JP2003177788A (ja) 音声対話システムおよびその方法
JP2003058184A (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP3592415B2 (ja) 話者認識システム
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JPH08190470A (ja) 情報提供端末

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003553549

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 10499220

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20028272269

Country of ref document: CN

122 Ep: pct application non-entry in european phase