WO2020016967A1 - 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 - Google Patents
音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 Download PDFInfo
- Publication number
- WO2020016967A1 WO2020016967A1 PCT/JP2018/026929 JP2018026929W WO2020016967A1 WO 2020016967 A1 WO2020016967 A1 WO 2020016967A1 JP 2018026929 W JP2018026929 W JP 2018026929W WO 2020016967 A1 WO2020016967 A1 WO 2020016967A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- unit
- recognition
- signal
- voice recognition
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Definitions
- the present invention relates to a voice recognition device, an in-vehicle navigation device, an automatic voice interaction device, and a voice recognition method.
- Patent Literature 1 discloses a voice collecting unit that collects voices emitted by an occupant, a voice transmitting unit that transmits the collected voice to a vehicle exterior facility, and an object created in a vehicle exterior facility based on the transmitted voice.
- a destination information receiving means for receiving geographical information from an external equipment, and a vehicular in-vehicle navigation device for performing guidance based on the received destination information, wherein the voice recognition is performed on the voice collected by the voice collecting means.
- a destination extracting means for extracting a destination from the voice collected by the voice collecting means, and after the voice is collected by the voice collecting means, until the destination information is received by the destination information receiving means.
- a destination extracting means for extracting a destination from the voice collected by the voice collecting means, and after the voice is collected by the voice collecting means, until the destination information is received by the destination information receiving means.
- the voice recognition is not only the voice emitted by the operator, for example, even when a voice having a frequency outside the human audible range emitted from a device that generates ultrasonic waves such as a parametric speaker is input, It may be recognized.
- Ultrasound has a frequency outside the audible range of humans and is therefore usually inaudible to humans.
- the ultrasonic waves can have high directivity. For this reason, when an ultrasonic wave is emitted toward a voice input unit of an electronic device or the like to which the voice recognition technology is applied, even a person around the voice input unit may be inputting voice into the voice input unit. There is a problem that an electronic device or the like is controlled by an input ultrasonic signal without being noticed.
- the present invention has been made to solve the above-described problem, and has as its object to provide a speech recognition device that can suppress output of a recognition result of speech recognition using ultrasonic waves.
- a speech recognition device includes a speech signal acquisition unit that acquires a speech signal from a speech input unit, a speech recognition unit that performs speech recognition based on the speech signal acquired by the speech signal acquisition unit, and outputs a recognition result. It is determined whether the audio signal acquired by the audio signal acquisition unit includes an ultrasonic signal, and when it is determined that the ultrasonic signal is included in the audio signal, a recognition result based on the audio signal is determined by the audio recognition unit. And a voice recognition control unit for controlling not to output from the voice recognition unit.
- FIG. 1 is a block diagram showing a main part of a vehicle-mounted navigation device to which the voice recognition device according to the first embodiment is applied.
- 2A and 2B are diagrams illustrating an example of a hardware configuration of a main part of the speech recognition device according to the first embodiment.
- FIG. 3 is a flowchart illustrating an example of processing of the speech recognition device according to the first embodiment.
- FIG. 4 is a block diagram illustrating a main part of a vehicle-mounted navigation device to which the voice recognition device according to the modification of the first embodiment is applied.
- FIG. 5 is a block diagram showing a main part of an automatic voice interaction device to which the voice recognition device according to Embodiment 2 is applied.
- FIG. 1 is a block diagram showing a main part of an in-vehicle navigation device 10 to which a voice recognition device 100 according to Embodiment 1 is applied.
- the vehicle 1 includes a vehicle-mounted navigation device 10, a navigation signal receiver 11, a map database 12, a voice input unit 13, a display device 14, and a voice output device 15.
- the navigation signal receiver 11 is a receiving device that receives a navigation signal such as a GPS signal from a navigation satellite.
- the map database 12 is a storage device that stores map information in which information on a road map is described.
- the voice input unit 13 is, for example, a microphone that converts the acquired sound wave into a voice signal and outputs the converted voice signal to a voice recognition device 100 described later.
- the display device 14 is, for example, a display that displays guidance image information output by the on-vehicle navigation device 10 described later for performing route guidance to the destination.
- the audio output device 15 is, for example, a speaker that outputs a guidance audio for performing route guidance to a destination output by the on-vehicle navigation device 10 described later, for example, a speaker.
- the in-vehicle navigation device 10 includes a voice recognition device 100, a navigation signal obtaining unit 101, a map information obtaining unit 102, a navigation control unit 103, a display output unit 104, and a voice output unit 105.
- the navigation signal acquisition unit 101 acquires the navigation signal received by the navigation signal receiver 11.
- the map information acquisition unit 102 acquires map information from the map database 12.
- the map database 12 only needs to be able to acquire the map information by the map information acquisition unit 102, and is not necessarily installed in the own vehicle.
- the map information acquisition unit 102 may acquire map information from a map database 12 existing on a public network via a public network such as the Internet or a public line.
- the navigation control unit 103 determines a point on a road on which the vehicle travels, that is, a travel position of the vehicle based on the navigation signal acquired by the navigation signal acquisition unit 101 and the map information acquired by the map information acquisition unit 102. Identify. The navigation control unit 103 generates travel position information indicating the specified travel position. The navigation control unit 103 sets a destination based on, for example, a recognition result of voice recognition performed by a voice recognition device 100 described later, and determines a traveling route from a traveling position of the own vehicle to a destination point. The navigation control unit 103 generates route guidance information based on the determined traveling route.
- the display output unit 104 generates guidance image information for performing route guidance based on the map information acquired via the navigation control unit 103 and the traveling position information and the route guidance information generated by the navigation control unit 103. Then, the guidance image information is output to the display device 14.
- the voice output unit 105 generates guidance voice information for performing route guidance based on the route guidance information generated by the navigation control unit 103, and outputs the guidance voice information to the voice output device 15.
- the in-vehicle navigation device 10 determines a traveling route to the set destination based on the navigation signal acquired from the navigation signal receiver 11 and the map information acquired from the map database 12, and provides route guidance.
- the information to be performed is output to the display device 14 and the audio output device 15.
- the voice recognition device 100 includes a voice signal acquisition unit 111, a voice recognition unit 112, a voice recognition control unit 113, and a notification output unit 114.
- the audio signal acquisition unit 111 acquires an audio signal from the audio input unit 13.
- the audio signal acquisition unit 111 outputs the acquired audio signal to the audio recognition unit 112 and the audio recognition control unit 113.
- the audio signal acquisition unit 111 adds a time stamp when the audio signal acquisition unit 111 acquires the audio signal, and outputs the audio signal to which the time stamp is added to the audio recognition unit 112 and the audio recognition control unit 113 as audio information. May be.
- the speech recognition unit 112 performs speech recognition based on the speech signal acquired by the speech signal acquisition unit 111, and outputs a recognition result.
- the speech recognition unit 112 outputs, for example, a recognition result to the navigation control unit 103, and the navigation control unit 103 sets a destination based on the recognition result acquired from the speech recognition unit 112. Since the voice recognition process performed by the voice recognition unit 112 based on the voice signal can be performed by applying a well-known voice recognition technique, detailed description will be omitted.
- the voice recognition control unit 113 determines whether or not the voice signal acquired by the voice signal acquisition unit 111 includes an ultrasonic signal. When determining that the voice signal includes an ultrasonic signal, the voice recognition control unit 113 controls the navigation control unit 103 not to output a recognition result based on the voice signal from the voice recognition unit 112. Specifically, the determination processing of whether or not an ultrasonic signal is included in the audio signal performed by the audio recognition control unit 113 includes, for example, performing a spectrum analysis of the audio signal by discrete Fourier transform, and determining a signal having a frequency higher than a predetermined frequency. Judge by presence or absence.
- the voice recognition control unit 113 determines that the ultrasonic signal is included in the voice signal
- the voice recognition control unit 113 controls the voice recognition unit 112 not to perform the voice recognition, thereby performing the voice recognition based on the voice signal. Control is performed so that the recognition result is not output from the voice recognition unit 112 to the navigation control unit 103.
- the predetermined frequency is not limited to 20,000 Hertz, and may be a frequency lower than 20,000 Hertz, such as 10,000 Hertz, as long as it is near the upper limit of the frequency at which humans can hear.
- the determination processing performed by the voice recognition control unit 113 on whether or not an ultrasonic signal is included in a voice signal may be performed based on whether a signal having a frequency higher than a predetermined frequency has a predetermined amplitude or more.
- the predetermined amplitude is, for example, a lower limit value of the amplitude required when the voice recognition unit 112 performs the voice recognition process.
- control may be performed so that the recognition result based on the voice signal is not output from the voice recognition unit 112 to the navigation control unit 103. More specifically, for example, with reference to the time stamp added by the audio signal acquisition unit 111, the audio recognition control unit 113 sets the start and end of the period in which it is determined that the ultrasonic signal is included in the audio signal. The information shown is output to the voice recognition unit 112. More specifically, when the voice recognition control unit 113 determines that the ultrasonic signal is included in the audio signal, the audio signal includes the ultrasonic signal, that is, the audio signal includes the ultrasonic signal. The information indicating the beginning of the period determined to be received is immediately output to the voice recognition unit 112.
- the voice recognition control unit 113 determines that the ultrasonic signal is not included in the audio signal
- the ultrasonic signal is not included in the audio signal, that is, when the ultrasonic signal is included in the audio signal
- Information indicating the end of the determined period is output to the voice recognition unit 112.
- the voice recognition unit 112 uses the information indicating the start and end of the period in which the voice signal output from the voice recognition control unit 113 determines that the ultrasound signal is included in the voice signal, and performs navigation on the recognition result of the voice recognition in the period. The information is discarded without being output to the control unit 103.
- the notification output unit 114 is a notification that indicates that the speech recognition control unit 113 has controlled the speech recognition unit 112 not to output the recognition result when controlling the speech recognition unit 112 so that the navigation control unit 103 does not output the recognition result based on the speech signal. Generates information and outputs the generated notification information. More specifically, for example, when the notification output unit 114 controls the speech recognition unit 112 so that the speech recognition control unit 113 does not cause the navigation control unit 103 to output a recognition result based on the speech signal, the notification recognition unit 113 Information that the recognition result has been controlled so as not to be output is obtained from 113.
- the notification output unit 114 generates notification information indicating that the recognition result has been controlled not to be output based on the information indicating that the recognition result obtained from the voice recognition control unit 113 has been controlled not to be output.
- the notification information is output to the navigation control unit 103.
- the navigation control unit 103 causes the notification information output by the notification output unit 114 to be output from the display device 14 or the audio output device 15 via the display output unit 104 or the audio output unit 105.
- the navigation control unit 103 may output the notification information from both the display device 14 and the audio output device 15.
- the device that outputs the notification information is not limited to the display device 14 and the audio output device 15 as long as the notification information output by the notification output unit 114 can be notified to the uttering operator or the like.
- the navigation control unit 103 may turn on a lamp (not shown) such as a light emitting diode based on the notification information output from the notification output unit 114.
- the notification output unit 114 is not an essential component of the speech recognition device 100, and can be added to or deleted from the speech recognition device 100 as appropriate. That is, the main part of the voice recognition device 100 may be configured by the voice signal acquisition unit 111, the voice recognition unit 112, and the voice recognition control unit 113.
- FIGS. 2A and 2B are diagrams illustrating an example of a hardware configuration of a main part of the speech recognition device 100 according to the first embodiment.
- FIGS. 2A and 2B a hardware configuration of a main part of the speech recognition device 100 according to the first embodiment will be described.
- the voice recognition device 100 is configured by a computer, and the computer has a processor 201 and a memory 202.
- the memory 202 stores a program for causing the computer to function as the voice signal acquisition unit 111, the voice recognition unit 112, the voice recognition control unit 113, and the notification output unit 114.
- the processor 201 reads out and executes the program stored in the memory 202, the functions of the voice signal acquisition unit 111, the voice recognition unit 112, the voice recognition control unit 113, and the notification output unit 114 are realized.
- the voice recognition device 100 may include a processing circuit 203.
- the functions of the voice signal acquisition unit 111, the voice recognition unit 112, the voice recognition control unit 113, and the notification output unit 114 may be realized by the processing circuit 203.
- the speech recognition device 100 may include a processor 201, a memory 202, and a processing circuit 203 (not shown). In this case, some of the functions of the voice signal acquisition unit 111, the voice recognition unit 112, the voice recognition control unit 113, and the notification output unit 114 are realized by the processor 201 and the memory 202, and the remaining functions are processed. It may be realized by the circuit 203.
- the processor 201 uses, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a microprocessor, a microcontroller, or a DSP (Digital Signal Processor).
- a CPU Central Processing Unit
- GPU Graphics Processing Unit
- microprocessor a microcontroller
- DSP Digital Signal Processor
- the memory 202 uses, for example, a semiconductor memory or a magnetic disk. More specifically, the memory 202 includes a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable Read Memory Only), and an EEPROM (Electrical Memory). State @ Drive) or HDD (Hard @ Disk @ Drive) or the like.
- RAM Random Access Memory
- ROM Read Only Memory
- flash memory a flash memory
- EPROM Erasable Programmable Read Memory Only
- EEPROM Electrical Memory
- State @ Drive or HDD (Hard @ Disk @ Drive) or the like.
- the processing circuit 203 includes, for example, an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), an FPGA (Field-Programmable Gate System Array), and an SoC (Sig-Lag-Sig-Lag-Site-Leg-Site-Ligital-Array-Sig-System-Sig-System-Sig-Leg-Sig-System-Sig-Leg-Sig-System-Sig-System-Sig-Leg-Sig-System). Is used.
- FIG. 3 is a flowchart illustrating an example of a process performed by the speech recognition device 100 according to the first embodiment.
- the voice recognition device 100 repeatedly executes the processing shown in the flowchart shown in FIG.
- step ST301 the audio signal acquisition unit 111 acquires an audio signal from the audio input unit 13. Note that the audio signal acquisition unit 111 sequentially performs the processing of step ST301 by background processing, and the audio recognition device 100 sequentially performs the processing of step ST302 and subsequent steps on the audio signal acquired by the audio signal acquisition unit 111. You may do it.
- the voice recognition control unit 113 determines whether or not the voice signal acquired by the voice signal acquisition unit 111 includes an ultrasonic signal (step ST302).
- step ST303 When it is determined in step ST302 that the audio signal does not include the ultrasonic signal (step ST302: NO), in step ST303, the audio recognition unit 112 performs audio recognition based on the audio signal, and performs the recognition result. Is output.
- the speech recognition device 100 ends the process shown in the flowchart shown in FIG. After ending the processing shown in the flowchart, the speech recognition apparatus 100 returns to step ST301 and repeatedly executes the processing shown in the flowchart.
- step ST302 If it is determined in step ST302 that the audio signal includes an ultrasonic signal (step ST302: YES), in step ST304, the voice recognition control unit 113 outputs a recognition result based on the voice signal to the voice recognition unit 112. From the navigation control unit 103.
- notification output section 114 After step ST304, in step ST305, notification output section 114 generates notification information indicating that control has been performed so as not to output the recognition result, and outputs the generated notification information.
- the voice recognition device 100 ends the process shown in the flowchart shown in FIG. After ending the processing shown in the flowchart, the speech recognition apparatus 100 returns to step ST301 and repeatedly executes the processing shown in the flowchart.
- the speech recognition device 100 performs speech recognition based on the speech signal acquired by the speech signal acquisition unit 111 and acquires the speech signal from the speech input unit 13 and outputs the recognition result.
- the voice recognition unit 112 determines whether or not the audio signal acquired by the audio signal acquisition unit 111 includes an ultrasonic signal, and determines that the audio signal includes an ultrasonic signal.
- a voice recognition control unit 113 that controls the voice recognition unit 112 not to output the recognized recognition result.
- the speech recognition control unit 113 controls the speech recognition unit 112 so as not to output the recognition result based on the speech signal
- the speech recognition control unit 113 generates notification information indicating that the recognition result is controlled not to be output, and generates the generated notification information.
- the voice recognition device 100 can notify the uttering operator or the like that the recognition result is not output because the voice signal includes the ultrasonic signal.
- FIG. 4 is a block diagram illustrating a main part of the vehicle-mounted navigation device 10 to which the voice recognition device 100a according to the modification of the first embodiment is applied.
- the same components as those shown in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
- the speech recognition apparatus 100 according to the first embodiment shown in FIG. 1 is different from the speech recognition apparatus 100a according to the modification of the first embodiment in the following points.
- the voice recognition unit 112 of the voice recognition device 100 acquires the audio signal acquired by the audio signal acquisition unit 111 directly from the audio signal acquisition unit 111.
- the voice recognition unit 112a of the voice recognition device 100a according to the first embodiment obtains the voice signal obtained by the voice signal obtaining unit 111a via the voice recognition control unit 113a. Further, when the voice recognition control unit 113 of the voice recognition device 100 according to the first embodiment determines that the ultrasonic signal is included in the voice signal, the voice recognition unit 112 does not allow the voice recognition unit 112 to perform voice recognition.
- the voice recognition control unit 113a of the voice recognition device 100a outputs the voice signal to the voice recognition unit 112a when determining that the voice signal includes an ultrasonic signal.
- each function of the voice signal acquisition unit 111a, the voice recognition unit 112a, the voice recognition control unit 113a, and the notification output unit 114 may be realized by the processor 201 and the memory 202, or the processing circuit 203 May be realized by:
- the processing flow of the voice recognition device 100a according to the modification of the first embodiment is the same as the processing flow of the voice recognition device 100 according to the first embodiment, and thus the description is omitted. That is, the processes in the voice signal acquisition unit 111, the voice recognition unit 112, the voice recognition control unit 113, and the notification output unit 114 in the flowchart illustrated in FIG. 3 are performed by the voice signal acquisition unit 111a, the voice recognition unit 112a, and the voice recognition control, respectively. The processing is performed in the unit 113a and the notification output unit 114.
- the voice recognition device 100a can suppress output of a recognition result of voice recognition using ultrasonic waves.
- the in-vehicle navigation device 10 sets the destination based on the recognition result obtained from the voice recognition devices 100 and 100a.
- the operation of the navigation device 10 based on the recognition results obtained from the voice recognition devices 100 and 100a is not limited to setting the destination.
- the in-vehicle navigation device 10 may perform the resetting of the route and the setting of enlarged or reduced display of the guidance image information based on the recognition result acquired from the voice recognition devices 100 and 100a.
- the vehicle-mounted navigation device 10 has a function of a vehicle-mounted audio device, the vehicle-mounted navigation device 10 reproduces music information and the like based on the recognition result obtained from the voice recognition devices 100 and 100a. May be controlled.
- Embodiment 2 FIG.
- the speech recognition device 100 according to the second embodiment will be described below as being applied to an automatic speech interaction device 50 as an example.
- FIG. 5 is a block diagram illustrating a main part of an automatic voice interaction device 50 to which the voice recognition device 100 according to Embodiment 2 is applied.
- the same components as those shown in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
- the automatic voice interaction device 50 will be described later.
- the example sentence database 16 is a storage device that stores example sentence information for searching for an example sentence corresponding to the recognition result based on the recognition result acquired from the speech recognition device 100 by the automatic voice interaction device 50 described later.
- the voice input unit 17 is, for example, a microphone that converts the acquired sound wave into a voice signal and outputs the converted voice signal to a voice recognition device 100 described later.
- the audio output device 18 is, for example, a speaker that outputs an audio signal output by an automatic audio interactive device 50 described later.
- the display device 19 is, for example, a display that displays image information output by the automatic voice interaction device 50 described later.
- the automatic voice interaction system is configured by the automatic voice interaction device 50, the example sentence database 16, the voice input unit 17, the voice output device 18, and the display device 19.
- the automatic voice interaction device 50 includes the voice recognition device 100, the matching unit 152, the answer generation unit 153, the voice generation unit 154, the response voice output unit 155, and the display output unit 156.
- the matching unit 152 searches for an example sentence corresponding to the recognition result from the example sentence database 16 in which the example sentence information is stored, based on the recognition result acquired from the speech recognition device 100 described later. More specifically, for example, when the recognition result obtained from the speech recognition device 100 is a character string “What are you doing now?”, A character string “What time is it?” Corresponding to the character string is used as an example sentence database. Search from 16.
- the answer creating unit 153 generates a character string of an answer corresponding to the recognition result based on the result searched by the matching unit 152. More specifically, for example, when the result searched by the matching unit 152 is a character string “What time is it now?”, As an answer corresponding to the character string, for example, a character string “1:15 pm” Generate a column.
- the voice generation unit 154 converts the character string generated by the response generation unit 153 into a voice signal, and outputs the voice signal to a response voice output unit 155 described later.
- the answer sound output unit 155 outputs the sound signal output by the sound generation unit 154 to the sound output device 18 such as a speaker.
- the display output unit 156 generates image information indicating the state of the automatic voice interaction device 50 based on, for example, a result of the matching unit 152 searching the example sentence database 16 for a character string corresponding to the recognition result, and generates the generated image.
- the information is output to the display device 19. More specifically, for example, as a result of the matching unit 152 searching the example sentence database 16 for a character string corresponding to the recognition result, if the example sentence information corresponding to the character string does not exist in the example sentence database 16, the display output unit 156 Then, it generates image information indicating that the speech recognition has failed, and outputs the generated image information to the display device 19.
- the voice recognition device 100 and the components of the voice recognition device 100 are the same as those described in the first embodiment, and thus description thereof will be omitted.
- the audio signal acquiring unit 111 in the audio recognition device 100 according to the second embodiment acquires an audio signal from the audio input unit 17.
- the notification output unit 114 in the voice recognition device 100 controls not to output the recognition result based on the information indicating that the recognition result obtained from the voice recognition control unit 113 is controlled not to be output. Notification information indicating the fact is generated, and the generated notification information is output to, for example, the matching unit 152.
- the matching unit 152 outputs the notification information output by the notification output unit 114 from the display device 19 or the voice output device 18 via the display output unit 156 or the answer voice output unit 155.
- the matching unit 152 may output the notification information from both the display device 19 and the audio output device 18.
- a device that outputs notification information is limited to the display device 19 and the sound output device 18 if the operator or the like who speaks can be notified that the recognition result is not output because the sound signal includes the ultrasonic signal. Not something.
- the matching unit 152 may turn on a lamp (not shown) such as a light-emitting diode based on the notification information output from the notification output unit 114.
- the notification output unit 114 according to the second embodiment is not an essential component of the speech recognition device 100 as in the first embodiment, and can be added to or deleted from the speech recognition device 100 as appropriate. That is, the main part of the voice recognition device 100 according to the second embodiment may be configured by the voice signal acquisition unit 111, the voice recognition unit 112, and the voice recognition control unit 113.
- the hardware configuration of the speech recognition device 100 according to the second embodiment is the same as the hardware configuration of the speech recognition device 100 according to the first embodiment, and a description thereof will not be repeated.
- the processing flow of the speech recognition device 100 according to the second embodiment is the same as the processing flow of the speech recognition device 100 according to the first embodiment, and a description thereof will be omitted.
- the automatic speech dialogue device 50 is not limited to a simple dialogue such as, for example, answering a questioned time, as described above. For example, based on a recognition result acquired from the speech recognition device 100, a user purchases a product via the Internet. And others that conduct commercial transactions. Since the conventional automatic voice interaction apparatus performs voice recognition even when receiving an ultrasonic wave, for example, a user such as the owner of the automatic voice interaction apparatus uses an ultrasonic wave emitted by a malicious third party. However, there is a problem that unintended commercial transactions are performed.
- the automatic voice interaction device 50 to which the voice recognition device 100 according to the second embodiment is applied determines that the voice signal includes the ultrasonic signal, the control is performed so as not to output the recognition result based on the voice signal. Therefore, commercial transactions that the user does not intend can be suppressed.
- the automatic voice interaction device 50 according to the second embodiment may be one in which the voice recognition device 100a described in the modification of the first embodiment is applied.
- the speech recognition apparatuses 100 and 100a have been described as examples in which the speech recognition units 112 and 112a are included in the speech recognition apparatuses 100 and 100a, but the present invention is not limited to this.
- the voice recognition devices 100 and 100a have a configuration (not shown) for connecting to a public network such as the Internet or a public line, and the voice recognition devices 100 and 100a are connected to a voice recognition unit 112 existing on the public network.
- 112a is transmitted to the voice recognition server (not shown) via the configuration, the voice recognition server outputs a recognition result based on the voice signal, and the voice recognition devices 100 and 100a ,
- the recognition result output by the speech recognition server may be obtained.
- the speech recognition devices 100 and 100a use the speech signal acquisition units 111 and 111a to acquire the speech signals acquired from the speech input units 13 and 17 by the speech recognition unit 112 and the speech recognition control unit 113.
- Output example but this is not a limitation.
- the audio signal acquiring units 111 and 111a output the audio signals acquired from the audio input units 13 and 17 to the audio recognizing unit 112 and receive the ultrasonic waves arranged near the audio input units 13 and 17.
- An ultrasonic signal acquired from an ultrasonic input unit (not shown) may be output to the voice recognition control unit 113.
- the ultrasonic input unit is, for example, an ultrasonic microphone that receives an ultrasonic wave.
- any combination of the embodiments can be freely combined, or any component of each embodiment can be modified, or any component can be omitted in each embodiment. .
- the voice recognition device can be applied to a device in which a user performs an input operation by voice.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
Abstract
音声認識装置(100)は、音声入力部(13)から音声信号を取得する音声信号取得部(111)と、音声信号取得部(111)が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部(112)と、音声信号取得部(111)が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部(112)から出力させないよう制御する音声認識制御部(113)と、を備えた。
Description
この発明は、音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法に関するものである。
音声認識技術の精度が高まるにつれ、音声認識技術を電子機器等に適用し、操作者が発した音声に基づいて電子機器等を制御することが行われている。
例えば、特許文献1には、乗員により発せられた音声を収集する音声収集手段と、収集された音声を車外設備に送信する音声送信手段と、送信された音声に基づき車外設備において作成される目的地情報を車外設備から受信する目的地情報受信手段と、を備え、受信された目的地情報に基づく案内を行なう車両用車載用ナビゲーション装置であって、音声収集手段により収集された音声に対する音声認識を行なって、音声収集手段により収集された音声から目的地を抽出する目的地抽出手段を備え、音声収集手段により音声が収集された後、目的地情報受信手段により目的地情報が受信されるまでは、目的地抽出手段により抽出された目的地に基づく案内を行なう車両用車載用ナビゲーション装置が開示されている。
例えば、特許文献1には、乗員により発せられた音声を収集する音声収集手段と、収集された音声を車外設備に送信する音声送信手段と、送信された音声に基づき車外設備において作成される目的地情報を車外設備から受信する目的地情報受信手段と、を備え、受信された目的地情報に基づく案内を行なう車両用車載用ナビゲーション装置であって、音声収集手段により収集された音声に対する音声認識を行なって、音声収集手段により収集された音声から目的地を抽出する目的地抽出手段を備え、音声収集手段により音声が収集された後、目的地情報受信手段により目的地情報が受信されるまでは、目的地抽出手段により抽出された目的地に基づく案内を行なう車両用車載用ナビゲーション装置が開示されている。
しかしながら、音声認識は、操作者が発した音声だけでなく、例えば、パラメトリックスピーカ等の超音波を発生させる装置から発せられた人間の可聴領域外の周波数を有する音声が入力された場合にも、認識されてしまう場合がある。
超音波は、人間の可聴領域外の周波数を有するため、通常、人間には聞き取ることができない。更に、超音波には、高い指向性を持たせることができる。このため、音声認識技術が適用された電子機器等の音声入力部に向けて超音波が発せられた場合、音声入力部の周囲にいる人間ですら音声入力部に音声が入力されていることに気が付かないうちに、入力された超音波信号により電子機器等が制御されてしまうという問題があった。
超音波は、人間の可聴領域外の周波数を有するため、通常、人間には聞き取ることができない。更に、超音波には、高い指向性を持たせることができる。このため、音声認識技術が適用された電子機器等の音声入力部に向けて超音波が発せられた場合、音声入力部の周囲にいる人間ですら音声入力部に音声が入力されていることに気が付かないうちに、入力された超音波信号により電子機器等が制御されてしまうという問題があった。
この発明は、上述の問題を解決するためのもので、超音波による音声認識の認識結果出力を抑制できる音声認識装置を提供することを目的としている。
この発明に係る音声認識装置は、音声入力部から音声信号を取得する音声信号取得部と、音声信号取得部が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、音声信号取得部が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部から出力させないよう制御する音声認識制御部と、を備えたものである。
この発明によれば、超音波による音声認識の認識結果出力を抑制できる。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
実施の形態1に係る音声認識装置100は、一例として、車載用ナビゲーション装置10に適用されるものとして、以下説明する。
図1は、実施の形態1に係る音声認識装置100が適用された車載用ナビゲーション装置10の要部を示すブロック図である。
実施の形態1に係る音声認識装置100は、一例として、車載用ナビゲーション装置10に適用されるものとして、以下説明する。
図1は、実施の形態1に係る音声認識装置100が適用された車載用ナビゲーション装置10の要部を示すブロック図である。
車両1は、車載用ナビゲーション装置10、航法信号受信機11、地図データベース12、音声入力部13、表示装置14、及び音声出力装置15を備える。
航法信号受信機11は、航法衛星からGPS信号等の航法信号を受信する受信装置である。
地図データベース12は、道路地図に関する情報が記された地図情報を格納する記憶装置である。
音声入力部13は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置100に出力する、例えば、マイクである。
表示装置14は、後述する車載用ナビゲーション装置10が出力した目的地までの経路案内を行うための案内画像情報を表示する、例えば、ディスプレイである。
音声出力装置15は、後述する車載用ナビゲーション装置10が出力した目的地までの経路案内を行うための案内音声を音声出力する、例えば、スピーカである。
車載用ナビゲーション装置10は、音声認識装置100、航法信号取得部101、地図情報取得部102、ナビゲーション制御部103、表示出力部104、及び音声出力部105を備える。
航法信号取得部101は、航法信号受信機11が受信した航法信号を取得する。
地図情報取得部102は、地図データベース12から地図情報を取得する。地図データベース12は、地図情報取得部102が地図情報を取得できればよく、自車両に搭載されているとは限らない。例えば、地図情報取得部102は、インターネット、公衆回線等の公衆ネットワークを介して、公衆ネットワーク上に存在する地図データベース12から地図情報を取得してもよい。
ナビゲーション制御部103は、航法信号取得部101が取得した航法信号と、地図情報取得部102が取得した地図情報とに基づいて、自車両が走行する道路における地点、すなわち、自車両の走行位置を特定する。ナビゲーション制御部103は、特定した走行位置を示す走行位置情報を生成する。
ナビゲーション制御部103は、例えば、後述する音声認識装置100が音声認識した認識結果に基づいて目的地を設定し、自車両の走行位置から目的地の地点までの走行経路を決定する。ナビゲーション制御部103は、決定した走行経路に基づいて経路案内情報を生成する。
ナビゲーション制御部103は、例えば、後述する音声認識装置100が音声認識した認識結果に基づいて目的地を設定し、自車両の走行位置から目的地の地点までの走行経路を決定する。ナビゲーション制御部103は、決定した走行経路に基づいて経路案内情報を生成する。
表示出力部104は、ナビゲーション制御部103を介して取得した地図情報と、ナビゲーション制御部103が生成した走行位置情報及び経路案内情報とに基づいて、経路案内を行うための案内画像情報を生成し、当該案内画像情報を表示装置14に出力する。
音声出力部105は、ナビゲーション制御部103が生成した経路案内情報に基づいて経路案内を行うための案内音声情報を生成し、当該案内音声情報を音声出力装置15に出力する。
すなわち、車載用ナビゲーション装置10は、航法信号受信機11から取得した航法信号と、地図データベース12から取得した地図情報とに基づいて、設定された目的地までの走行経路を決定し、経路案内を行うための情報を表示装置14及び音声出力装置15に出力するものである。
音声認識装置100は、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114を備える。
音声信号取得部111は、音声入力部13から音声信号を取得する。
音声信号取得部111は、取得した音声信号を音声認識部112及び音声認識制御部113に出力する。
音声信号取得部111は、音声信号取得部111が音声信号を取得した際にタイムスタンプを付加し、タイムスタンプを付加した音声信号を音声情報として音声認識部112及び音声認識制御部113に出力しても良い。
音声信号取得部111は、取得した音声信号を音声認識部112及び音声認識制御部113に出力する。
音声信号取得部111は、音声信号取得部111が音声信号を取得した際にタイムスタンプを付加し、タイムスタンプを付加した音声信号を音声情報として音声認識部112及び音声認識制御部113に出力しても良い。
音声認識部112は、音声信号取得部111が取得した音声信号に基づいて音声認識を行い、認識結果を出力する。
音声認識部112は、例えば、認識結果をナビゲーション制御部103に出力し、ナビゲーション制御部103は、音声認識部112から取得した認識結果に基づいて、目的地を設定する。音声認識部112が音声信号に基づいて行う音声認識処理は、周知の音声認識技術を適用することにより実施可能であるため、詳細な説明は省略する。
音声認識部112は、例えば、認識結果をナビゲーション制御部103に出力し、ナビゲーション制御部103は、音声認識部112から取得した認識結果に基づいて、目的地を設定する。音声認識部112が音声信号に基づいて行う音声認識処理は、周知の音声認識技術を適用することにより実施可能であるため、詳細な説明は省略する。
音声認識制御部113は、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定する。音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。
具体的には、音声認識制御部113が行う音声信号に超音波信号が含まれるか否かの判定処理は、例えば、離散フーリエ変換により音声信号をスペクトル解析し、所定周波数より高い周波数の信号の有無により判定する。より具体的には、例えば、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。所定周波数は、2万ヘルツに限るものではなく、人間が聞き取れるとされる周波数の上限の近傍であれば、例えば、1万ヘルツ等の2万ヘルツより低い周波数でも良い。
具体的には、音声認識制御部113が行う音声信号に超音波信号が含まれるか否かの判定処理は、例えば、離散フーリエ変換により音声信号をスペクトル解析し、所定周波数より高い周波数の信号の有無により判定する。より具体的には、例えば、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。所定周波数は、2万ヘルツに限るものではなく、人間が聞き取れるとされる周波数の上限の近傍であれば、例えば、1万ヘルツ等の2万ヘルツより低い周波数でも良い。
また、音声認識制御部113が行う音声信号に超音波信号が含まれるか否かの判定処理は、所定周波数より高い周波数の信号が所定の振幅以上であるか否かにより判定しても良い。所定の振幅は、例えば、音声認識部112が音声認識処理を行う際に必要な振幅の下限値である。
また、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、例えば、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御しても良い。より具体的には、例えば、音声信号取得部111が付加したタイムスタンプを参照して、音声認識制御部113は、音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報を音声認識部112に出力する。更に具体的には、音声認識制御部113は、音声信号に超音波信号が含まれると判定した際に、音声信号における超音波信号が含まれた時点、すなわち、音声信号に超音波信号が含まれると判定している期間の始期を示す情報を音声認識部112に即座に出力する。その後、音声認識制御部113は、音声信号に超音波信号が含まれないと判定した際に、音声信号における超音波信号が含まれなくなった時点、すなわち、音声信号に超音波信号が含まれると判定している期間の終期を示す情報を音声認識部112に出力する。音声認識部112は、音声認識制御部113が出力した音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報に基づいて、当該期間に音声認識した認識結果をナビゲーション制御部103に出力せずに破棄する。
また、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、例えば、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御しても良い。より具体的には、例えば、音声信号取得部111が付加したタイムスタンプを参照して、音声認識制御部113は、音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報を音声認識部112に出力する。更に具体的には、音声認識制御部113は、音声信号に超音波信号が含まれると判定した際に、音声信号における超音波信号が含まれた時点、すなわち、音声信号に超音波信号が含まれると判定している期間の始期を示す情報を音声認識部112に即座に出力する。その後、音声認識制御部113は、音声信号に超音波信号が含まれないと判定した際に、音声信号における超音波信号が含まれなくなった時点、すなわち、音声信号に超音波信号が含まれると判定している期間の終期を示す情報を音声認識部112に出力する。音声認識部112は、音声認識制御部113が出力した音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報に基づいて、当該期間に音声認識した認識結果をナビゲーション制御部103に出力せずに破棄する。
通知出力部114は、音声認識制御部113が音声信号に基づいた認識結果をナビゲーション制御部103に出力させないよう音声認識部112を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
より具体的には、例えば、通知出力部114は、音声認識制御部113が音声信号に基づいた認識結果をナビゲーション制御部103に出力させないよう音声認識部112を制御する際に、音声認識制御部113から認識結果を出力させないよう制御した旨の情報を取得する。通知出力部114は、音声認識制御部113から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、例えば、生成した通知情報をナビゲーション制御部103に出力する。ナビゲーション制御部103は、通知出力部114が出力した通知情報を、表示出力部104又は音声出力部105を介して当該通知情報を表示装置14又は音声出力装置15から出力させる。ナビゲーション制御部103は、当該通知情報を表示装置14及び音声出力装置15の両方から出力させても良い。通知出力部114が出力した通知情報を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置14及び音声出力装置15に限定されるものではない。例えば、ナビゲーション制御部103は、通知出力部114が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ(図示せず)を点灯させても良い。
より具体的には、例えば、通知出力部114は、音声認識制御部113が音声信号に基づいた認識結果をナビゲーション制御部103に出力させないよう音声認識部112を制御する際に、音声認識制御部113から認識結果を出力させないよう制御した旨の情報を取得する。通知出力部114は、音声認識制御部113から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、例えば、生成した通知情報をナビゲーション制御部103に出力する。ナビゲーション制御部103は、通知出力部114が出力した通知情報を、表示出力部104又は音声出力部105を介して当該通知情報を表示装置14又は音声出力装置15から出力させる。ナビゲーション制御部103は、当該通知情報を表示装置14及び音声出力装置15の両方から出力させても良い。通知出力部114が出力した通知情報を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置14及び音声出力装置15に限定されるものではない。例えば、ナビゲーション制御部103は、通知出力部114が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ(図示せず)を点灯させても良い。
なお、通知出力部114は、音声認識装置100において必須な構成ではなく、適宜、音声認識装置100に追加又は削除することが可能である。
すなわち、音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。
すなわち、音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。
図2A及び図2Bは、実施の形態1に係る音声認識装置100の要部のハードウェア構成の一例を示す図である。
図2A及び図2Bを参照して、実施の形態1に係る音声認識装置100の要部のハードウェア構成について説明する。
図2A及び図2Bを参照して、実施の形態1に係る音声認識装置100の要部のハードウェア構成について説明する。
図2Aに示す如く、音声認識装置100はコンピュータにより構成されており、当該コンピュータはプロセッサ201及びメモリ202を有している。メモリ202には、当該コンピュータを音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114として機能させるためのプログラムが記憶されている。メモリ202に記憶されているプログラムをプロセッサ201が読み出して実行することにより、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能が実現される。
また、図2Bに示す如く、音声認識装置100は処理回路203により構成されても良い。この場合、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能が処理回路203により実現されても良い。
また、音声認識装置100はプロセッサ201、メモリ202及び処理回路203により構成されても良い(不図示)。この場合、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能のうちの一部の機能がプロセッサ201及びメモリ202により実現されて、残余の機能が処理回路203により実現されるものであっても良い。
プロセッサ201は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)を用いたものである。
メモリ202は、例えば、半導体メモリ又は磁気ディスクを用いたものである。より具体的には、メモリ202は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、SSD(Solid State Drive)又はHDD(Hard Disk Drive)などを用いたものである。
処理回路203は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、SoC(System-on-a-Chip)又はシステムLSI(Large-Scale Integration)を用いたものである。
図3を参照して、実施の形態1に係る音声認識装置100の動作について説明する。
図3は、実施の形態1に係る音声認識装置100の処理の一例を説明するフローチャートである。
音声認識装置100は、図3に示したフローチャートに示した処理を繰り返し実行する。
図3は、実施の形態1に係る音声認識装置100の処理の一例を説明するフローチャートである。
音声認識装置100は、図3に示したフローチャートに示した処理を繰り返し実行する。
まず、ステップST301にて、音声信号取得部111は、音声入力部13から音声信号を取得する。
なお、音声信号取得部111は、ステップST301の処理をバックグランド処理により逐次行い、音声認識装置100は、音声信号取得部111が取得した音声信号に対して、ステップST302以降の処理を逐次行うようにしても良い。
なお、音声信号取得部111は、ステップST301の処理をバックグランド処理により逐次行い、音声認識装置100は、音声信号取得部111が取得した音声信号に対して、ステップST302以降の処理を逐次行うようにしても良い。
次に、音声認識制御部113は、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定する(ステップST302)。
ステップST302にて、音声信号に超音波信号が含まれないと判定した場合(ステップST302:NO)、ステップST303にて、音声認識部112は、当該音声信号に基づいて音声認識を行い、認識結果を出力する。
ステップST303の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。
ステップST303の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。
ステップST302にて、音声信号に超音波信号が含まれると判定した場合(ステップST302:YES)、ステップST304にて、音声認識制御部113は、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。
ステップST304の後、ステップST305にて、通知出力部114は、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
ステップST304の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。
ステップST304の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。
以上のように、音声認識装置100は、音声入力部13から音声信号を取得する音声信号取得部111と、音声信号取得部111が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部112と、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部112から出力させないよう制御する音声認識制御部113と、を備えた。
このように構成することで、音声認識装置100は、超音波による音声認識の認識結果出力を抑制できる。
このように構成することで、音声認識装置100は、超音波による音声認識の認識結果出力を抑制できる。
また、音声認識制御部113が音声信号に基づいた認識結果を出力させないよう音声認識部112を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する通知出力部114を備えることで、音声認識装置100は、音声信号に超音波信号が含まれるために認識結果が出力されない旨を、発声した操作者等に知らしめることができる。
図4を参照して実施の形態1の変形例に係る音声認識装置100aを説明する。
図4は、実施の形態1の変形例に係る音声認識装置100aが適用された車載用ナビゲーション装置10の要部を示すブロック図である。
なお、図4において、図1に示す図と同様の構成には同一符号を付して説明を省略する。
図4は、実施の形態1の変形例に係る音声認識装置100aが適用された車載用ナビゲーション装置10の要部を示すブロック図である。
なお、図4において、図1に示す図と同様の構成には同一符号を付して説明を省略する。
図1に示した実施の形態1に係る音声認識装置100と、実施の形態1の変形例に係る音声認識装置100aとは、以下の点において相違する。
実施の形態1に係る音声認識装置100の音声認識部112は、音声信号取得部111が取得した音声信号を、音声信号取得部111から直接取得するのに対して、実施の形態1の変形例に係る音声認識装置100aの音声認識部112aは、音声信号取得部111aが取得した音声信号を、音声認識制御部113aを介して取得する。
また、実施の形態1に係る音声認識装置100の音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないように、又は、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものであった。これに対して、実施の形態1の変形例に係る音声認識装置100aの音声認識制御部113aは、音声信号に超音波信号が含まれると判定した場合、音声認識部112aに当該音声信号を出力しないように制御する、すなわち、音声認識部112aが音声認識するための当該音声信号を取得できないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものである。
また、実施の形態1に係る音声認識装置100の音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないように、又は、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものであった。これに対して、実施の形態1の変形例に係る音声認識装置100aの音声認識制御部113aは、音声信号に超音波信号が含まれると判定した場合、音声認識部112aに当該音声信号を出力しないように制御する、すなわち、音声認識部112aが音声認識するための当該音声信号を取得できないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものである。
実施の形態1の変形例に係る音声認識装置100aの各構成における機能は、上述の機能以外において、実施の形態1に係る音声認識装置100の各構成における機能と同様であるため、説明を省略する。
また、実施の形態1の変形例に係る音声認識装置100aのハードウェア構成は、実施の形態1に係る音声認識装置100のハードウェア構成と同様であるため、説明を省略する。すなわち、音声信号取得部111a、音声認識部112a、音声認識制御部113a、及び通知出力部114の各々の機能は、プロセッサ201及びメモリ202により実現されるものであっても良く、又は処理回路203により実現されるものであっても良い。
また、実施の形態1の変形例に係る音声認識装置100aのハードウェア構成は、実施の形態1に係る音声認識装置100のハードウェア構成と同様であるため、説明を省略する。すなわち、音声信号取得部111a、音声認識部112a、音声認識制御部113a、及び通知出力部114の各々の機能は、プロセッサ201及びメモリ202により実現されるものであっても良く、又は処理回路203により実現されるものであっても良い。
更に、実施の形態1の変形例に係る音声認識装置100aの処理フローは、実施の形態1に係る音声認識装置100の処理フローと同様であるため、説明を省略する。すなわち、図3に示すフローチャートにおける音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114における処理は、それぞれ、音声信号取得部111a、音声認識部112a、音声認識制御部113a、及び通知出力部114において処理される。
このように構成することで、実施の形態1の変形例に係る音声認識装置100aは、超音波による音声認識の認識結果出力を抑制できる。
なお、実施の形態1及び実施の形態1の変形例では、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、目的地を設定する例を示したが、車載用ナビゲーション装置10が、音声認識装置100,100aから取得した認識結果に基づいて、動作するのは目的地を設定には限定されない。例えば、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、経路の再設定及び案内画像情報の拡大又は縮小表示設定等を行っても良い。また、例えば、車載用ナビゲーション装置10が車載用オーディオ装置の機能を有している場合、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、音楽情報等を再生するための制御を行っても良い。
実施の形態2.
実施の形態2に係る音声認識装置100は、一例として、自動音声対話装置50に適用されるものとして、以下説明する。
実施の形態2に係る音声認識装置100は、一例として、自動音声対話装置50に適用されるものとして、以下説明する。
図5は、実施の形態2に係る音声認識装置100が適用された自動音声対話装置50の要部を示すブロック図である。
なお、図5において、図1に示す図と同様の構成には同一符号を付して説明を省略する。
なお、図5において、図1に示す図と同様の構成には同一符号を付して説明を省略する。
自動音声対話装置50については、後述する。
例文データベース16は、後述する自動音声対話装置50が音声認識装置100から取得した認識結果に基づいて、認識結果に対応する例文を検索するための例文情報が格納された記憶装置である。
音声入力部17は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置100に出力する、例えば、マイクである。
音声出力装置18は、後述する自動音声対話装置50が出力した音声信号を音声出力する、例えば、スピーカである。
表示装置19は、後述する自動音声対話装置50が出力した画像情報を表示する、例えば、ディスプレイである。
自動音声対話装置50、例文データベース16、音声入力部17、音声出力装置18、及び表示装置19により、自動音声対話システムが構成される。
自動音声対話装置50は、音声認識装置100、マッチング部152、回答作成部153、音声生成部154、回答音声出力部155、及び表示出力部156を備える。
マッチング部152は、後述する音声認識装置100から取得した認識結果に基づいて、認識結果に対応する例文を例文情報が格納された例文データベース16から検索する。
より具体的には、例えば、音声認識装置100から取得した認識結果が「いまなんじですか」という文字列である場合、当該文字列に対応する「今何時ですか」という文字列を例文データベース16から検索する。
より具体的には、例えば、音声認識装置100から取得した認識結果が「いまなんじですか」という文字列である場合、当該文字列に対応する「今何時ですか」という文字列を例文データベース16から検索する。
回答作成部153は、マッチング部152が検索した結果に基づいて、認識結果に対応する回答の文字列を生成する。
より具体的には、例えば、マッチング部152が検索した結果が「今何時ですか」という文字列である場合、当該文字列に対応する回答として、例えば、「午後1時15分です」という文字列を生成する。
より具体的には、例えば、マッチング部152が検索した結果が「今何時ですか」という文字列である場合、当該文字列に対応する回答として、例えば、「午後1時15分です」という文字列を生成する。
音声生成部154は、回答作成部153が生成した文字列を音声信号に変換して、後述する回答音声出力部155に出力する。
回答音声出力部155は、音声生成部154が出力した音声信号をスピーカ等の音声出力装置18に出力する。
表示出力部156は、例えば、マッチング部152が認識結果に対応する文字列を例文データベース16から検索した結果に基づいて、自動音声対話装置50の状態を示す画像情報を生成して、生成した画像情報を表示装置19に出力する。より具体的には、例えば、マッチング部152が認識結果に対応する文字列を例文データベース16から検索した結果、当該文字列に対応する例文情報が例文データベース16に存在しない場合、表示出力部156は、音声認識に失敗した旨を示す画像情報を生成して、生成した画像情報を表示装置19に出力する。
音声認識装置100及び音声認識装置100が有する各構成は、実施の形態1で説明したものと同様であるため、説明を省略する。
なお、実施の形態2に係る音声認識装置100における音声信号取得部111は、音声入力部17から音声信号を取得する。
また、実施の形態2に係る音声認識装置100における通知出力部114は、音声認識制御部113から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を例えば、マッチング部152に出力する。マッチング部152は、通知出力部114が出力した通知情報を、表示出力部156又は回答音声出力部155を介して表示装置19又は音声出力装置18から出力させる。マッチング部152は、当該通知情報を表示装置19及び音声出力装置18の両方から出力させても良い。音声信号に超音波信号が含まれるために認識結果が出力されない旨を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置19及び音声出力装置18に限定されるものではない。例えば、マッチング部152は、通知出力部114が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ(図示せず)を点灯させても良い。
なお、実施の形態2に係る通知出力部114は、実施の形態1と同様に、音声認識装置100において必須な構成ではなく、適宜、音声認識装置100に追加又は削除することが可能である。
すなわち、実施の形態2に係る音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。
すなわち、実施の形態2に係る音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。
実施の形態2に係る音声認識装置100のハードウェア構成は、実施の形態1に係る音声認識装置100のハードウェア構成と同様であるため、説明を省略する。
実施の形態2に係る音声認識装置100の処理フローは、実施の形態1に係る音声認識装置100の処理フローと同様であるため、説明を省略する。
自動音声対話装置50は、上述のように例えば、質問した時刻を回答する等の単純な対話に限らず、音声認識装置100から取得した認識結果に基づいて、例えば、インターネットを介して商品の購入等の商取引を行うものがある。従来の自動音声対話装置は、超音波を受信した場合にも音声認識を行ってしまうため、例えば、悪意の第三者により発せられた超音波により、自動音声対話装置の所有者等の利用者が意図しない商取引が行われてしまうという問題点があった。
しかしながら、実施の形態2に係る音声認識装置100が適用された自動音声対話装置50は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を出力させないよう制御するため、利用者が意図しない商取引を抑制できる。
なお、実施の形態2に係る自動音声対話装置50は、実施の形態1の変形例において説明した音声認識装置100aが適用されたものであっても良い。
これまでに説明した実施の形態では、音声認識装置100,100aは、音声認識装置100,100a内に音声認識部112,112aを有する例を示したが、この限りではない。例えば、音声認識装置100,100aがインターネット又は公衆回線等の公衆ネットワークに接続するための構成(図示せず)を有し、音声認識装置100,100aは、公衆ネットワーク上に存在する音声認識部112,112aを有する音声認識サーバ(図示せず)に当該構成を介して音声信号を送信し、音声認識サーバが当該音声信号に基づいた認識結果を出力し、音声認識装置100,100aは、当該構成を介して音声認識サーバが出力した認識結果を取得しても良い。
また、これまでに説明した実施の形態では、音声認識装置100,100aは、音声信号取得部111,111aが音声入力部13,17から取得した音声信号を音声認識部112及び音声認識制御部113に出力する例を示したが、この限りではない。例えば、音声信号取得部111,111aは、音声入力部13,17から取得した音声信号を音声認識部112に出力し、音声入力部13,17の近傍に配置された超音波を受信するための超音波入力部(図示せず)から取得した超音波信号を音声認識制御部113に出力するようにしても良い。ここで、超音波入力部は、例えば、超音波を受信する超音波マイクである。
なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、利用者が音声により入力操作を行う機器に適用することができる。
1 車両、10 車載用ナビゲーション装置、11 航法信号受信機、12 地図データベース、13,17 音声入力部、14,19 表示装置、15,18 音声出力装置、16 例文データベース、50 自動音声対話装置、100,100a 音声認識装置、101 航法信号取得部、102 地図情報取得部、103 ナビゲーション制御部、104,156 表示出力部、105 音声出力部、111,111a 音声信号取得部、112,112a 音声認識部、113,113a 音声認識制御部、114 通知出力部、152 マッチング部、153 回答作成部、154 音声生成部、155 回答音声出力部、201 プロセッサ、202 メモリ、203 処理回路。
Claims (7)
- 音声入力部から音声信号を取得する音声信号取得部と、
前記音声信号取得部が取得した前記音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、
前記音声信号取得部が取得した前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御する音声認識制御部と、
を備えたこと
を特徴とする音声認識装置。 - 前記音声認識制御部は、前記音声信号に前記超音波信号が含まれると判定した場合、前記音声認識部に前記音声認識をさせないよう制御すること
を特徴とする請求項1に記載の音声認識装置。 - 前記音声認識制御部は、前記音声信号に含まれる前記超音波信号が所定の振幅以上である場合、前記音声信号に前記超音波信号が含まれると判定し、前記音声信号に前記超音波信号が含まれると判定している期間の当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御すること
を特徴とする請求項1に記載の音声認識装置。 - 前記音声認識制御部が前記音声信号に基づいた前記認識結果を出力させないよう前記音声認識部を制御する際に、前記認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した前記通知情報を出力する通知出力部を備えたこと
を特徴とする請求項1に記載の音声認識装置。 - 請求項1から請求項4のいずれか1項に記載の音声認識装置を備え、前記音声認識装置から出力された前記認識結果に基づいて動作する車載用ナビゲーション装置。
- 請求項1から請求項4のいずれか1項に記載の音声認識装置を備え、前記音声認識装置から出力された前記認識結果に基づいて動作する自動音声対話装置。
- 音声信号取得部が、音声入力部から音声信号を取得し、
音声認識部が、前記音声信号取得部により取得された前記音声信号に基づいて音声認識を行った認識結果を出力し、
音声認識制御部が、前記音声信号取得部により取得された前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御すること、
を特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/026929 WO2020016967A1 (ja) | 2018-07-18 | 2018-07-18 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
JP2020530789A JP6786018B2 (ja) | 2018-07-18 | 2018-07-18 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/026929 WO2020016967A1 (ja) | 2018-07-18 | 2018-07-18 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020016967A1 true WO2020016967A1 (ja) | 2020-01-23 |
Family
ID=69163681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/026929 WO2020016967A1 (ja) | 2018-07-18 | 2018-07-18 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6786018B2 (ja) |
WO (1) | WO2020016967A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011087920A (ja) * | 2009-09-16 | 2011-05-06 | Storz Endoskop Produktions Gmbh | 音声制御式外科用システムのための無線命令マイクロフォン管理 |
JP2017076117A (ja) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4225356B2 (ja) * | 2007-04-09 | 2009-02-18 | トヨタ自動車株式会社 | 車両用ナビゲーション装置 |
-
2018
- 2018-07-18 JP JP2020530789A patent/JP6786018B2/ja active Active
- 2018-07-18 WO PCT/JP2018/026929 patent/WO2020016967A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011087920A (ja) * | 2009-09-16 | 2011-05-06 | Storz Endoskop Produktions Gmbh | 音声制御式外科用システムのための無線命令マイクロフォン管理 |
JP2017076117A (ja) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
Also Published As
Publication number | Publication date |
---|---|
JP6786018B2 (ja) | 2020-11-18 |
JPWO2020016967A1 (ja) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
US11513766B2 (en) | Device arbitration by multiple speech processing systems | |
US11138977B1 (en) | Determining device groups | |
US20200211554A1 (en) | Context-based device arbitration | |
US10540970B2 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
KR20200057516A (ko) | 음성명령 처리 시스템 및 방법 | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
JP2014142566A (ja) | 音声認識システムおよび音声認識方法 | |
US10629199B1 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
US11875770B2 (en) | Systems and methods for selectively providing audio alerts | |
KR101312451B1 (ko) | 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
WO2020016967A1 (ja) | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 | |
CN112382266A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
KR20200116617A (ko) | 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치 | |
CN112258885B (zh) | 到站提醒方法、装置、电子设备及存储介质 | |
KR20180124226A (ko) | 음성인식 작동 시스템 및 방법 | |
CN114203156A (zh) | 音频识别方法、音频识别装置、电子设备和存储介质 | |
WO2024058147A1 (ja) | 処理装置、出力装置及び処理システム | |
US11946762B2 (en) | Interactive voice navigation | |
US12125483B1 (en) | Determining device groups | |
KR20230032732A (ko) | 비 자기회귀 음성 합성 방법 및 시스템 | |
JP2021149697A (ja) | 出力装置、出力方法及び出力プログラム | |
CN112349284A (zh) | 通知控制系统、通知控制装置、通知控制方法及存储介质 | |
CN111833901A (zh) | 音频处理方法、音频处理装置、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18926627 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020530789 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18926627 Country of ref document: EP Kind code of ref document: A1 |