JPWO2020016967A1 - Voice recognition device, in-vehicle navigation device, automatic voice dialogue device, and voice recognition method - Google Patents
Voice recognition device, in-vehicle navigation device, automatic voice dialogue device, and voice recognition method Download PDFInfo
- Publication number
- JPWO2020016967A1 JPWO2020016967A1 JP2020530789A JP2020530789A JPWO2020016967A1 JP WO2020016967 A1 JPWO2020016967 A1 JP WO2020016967A1 JP 2020530789 A JP2020530789 A JP 2020530789A JP 2020530789 A JP2020530789 A JP 2020530789A JP WO2020016967 A1 JPWO2020016967 A1 JP WO2020016967A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- unit
- signal
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000005236 sound signal Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 241000282412 Homo Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
Abstract
音声認識装置(100)は、音声入力部(13)から音声信号を取得する音声信号取得部(111)と、音声信号取得部(111)が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部(112)と、音声信号取得部(111)が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部(112)から出力させないよう制御する音声認識制御部(113)と、を備えた。The voice recognition device (100) performs voice recognition based on the voice signal acquisition unit (111) that acquires the voice signal from the voice input unit (13) and the voice signal acquired by the voice signal acquisition unit (111), and recognizes the voice. It was determined whether or not the voice signal acquired by the voice recognition unit (112) and the voice signal acquisition unit (111) that output the result contained an ultrasonic signal, and it was determined that the voice signal contained an ultrasonic signal. In this case, the voice recognition control unit (113) is provided to control the recognition result based on the voice signal so as not to be output from the voice recognition unit (112).
Description
この発明は、音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法に関するものである。 The present invention relates to a voice recognition device, an in-vehicle navigation device, an automatic voice dialogue device, and a voice recognition method.
音声認識技術の精度が高まるにつれ、音声認識技術を電子機器等に適用し、操作者が発した音声に基づいて電子機器等を制御することが行われている。
例えば、特許文献1には、乗員により発せられた音声を収集する音声収集手段と、収集された音声を車外設備に送信する音声送信手段と、送信された音声に基づき車外設備において作成される目的地情報を車外設備から受信する目的地情報受信手段と、を備え、受信された目的地情報に基づく案内を行なう車両用車載用ナビゲーション装置であって、音声収集手段により収集された音声に対する音声認識を行なって、音声収集手段により収集された音声から目的地を抽出する目的地抽出手段を備え、音声収集手段により音声が収集された後、目的地情報受信手段により目的地情報が受信されるまでは、目的地抽出手段により抽出された目的地に基づく案内を行なう車両用車載用ナビゲーション装置が開示されている。As the accuracy of the voice recognition technology increases, the voice recognition technology is applied to electronic devices and the like, and the electronic devices and the like are controlled based on the voice emitted by the operator.
For example, Patent Document 1 describes a voice collecting means for collecting voices emitted by an occupant, a voice transmitting means for transmitting the collected voices to the equipment outside the vehicle, and an object created in the equipment outside the vehicle based on the transmitted voice. An in-vehicle navigation device for vehicles that includes a destination information receiving means for receiving location information from equipment outside the vehicle and provides guidance based on the received destination information, and voice recognition for voice collected by the voice collecting means. Is provided with a destination extraction means for extracting a destination from the voice collected by the voice collecting means, and after the voice is collected by the voice collecting means, until the destination information is received by the destination information receiving means. Discloses an in-vehicle navigation device for vehicles that provides guidance based on a destination extracted by a destination extraction means.
しかしながら、音声認識は、操作者が発した音声だけでなく、例えば、パラメトリックスピーカ等の超音波を発生させる装置から発せられた人間の可聴領域外の周波数を有する音声が入力された場合にも、認識されてしまう場合がある。
超音波は、人間の可聴領域外の周波数を有するため、通常、人間には聞き取ることができない。更に、超音波には、高い指向性を持たせることができる。このため、音声認識技術が適用された電子機器等の音声入力部に向けて超音波が発せられた場合、音声入力部の周囲にいる人間ですら音声入力部に音声が入力されていることに気が付かないうちに、入力された超音波信号により電子機器等が制御されてしまうという問題があった。However, in voice recognition, not only the voice emitted by the operator but also the voice having a frequency outside the human audible range emitted from a device that generates ultrasonic waves such as a parametric speaker is input. It may be recognized.
Ultrasound has frequencies outside the human audible range and is usually inaudible to humans. Further, the ultrasonic wave can have high directivity. For this reason, when an ultrasonic wave is emitted toward a voice input unit of an electronic device or the like to which voice recognition technology is applied, even a person around the voice input unit inputs the voice to the voice input unit. There is a problem that electronic devices and the like are controlled by the input ultrasonic signal without noticing it.
この発明は、上述の問題を解決するためのもので、超音波による音声認識の認識結果出力を抑制できる音声認識装置を提供することを目的としている。 The present invention is for solving the above-mentioned problems, and an object of the present invention is to provide a voice recognition device capable of suppressing the recognition result output of voice recognition by ultrasonic waves.
この発明に係る音声認識装置は、音声入力部から音声信号を取得する音声信号取得部と、音声信号取得部が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、音声信号取得部が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部から出力させないよう制御する音声認識制御部と、を備えたものである。 The voice recognition device according to the present invention includes a voice signal acquisition unit that acquires a voice signal from a voice input unit, and a voice recognition unit that performs voice recognition based on the voice signal acquired by the voice signal acquisition unit and outputs a recognition result. , It is determined whether or not the audio signal acquired by the audio signal acquisition unit contains an ultrasonic signal, and when it is determined that the audio signal includes an ultrasonic signal, the recognition result based on the audio signal is obtained by the audio recognition unit. It is equipped with a voice recognition control unit that controls not to output from.
この発明によれば、超音波による音声認識の認識結果出力を抑制できる。 According to the present invention, it is possible to suppress the recognition result output of voice recognition by ultrasonic waves.
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
実施の形態1.
実施の形態1に係る音声認識装置100は、一例として、車載用ナビゲーション装置10に適用されるものとして、以下説明する。
図1は、実施の形態1に係る音声認識装置100が適用された車載用ナビゲーション装置10の要部を示すブロック図である。Embodiment 1.
The
FIG. 1 is a block diagram showing a main part of an in-
車両1は、車載用ナビゲーション装置10、航法信号受信機11、地図データベース12、音声入力部13、表示装置14、及び音声出力装置15を備える。
The vehicle 1 includes an in-
航法信号受信機11は、航法衛星からGPS信号等の航法信号を受信する受信装置である。
The
地図データベース12は、道路地図に関する情報が記された地図情報を格納する記憶装置である。
The
音声入力部13は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置100に出力する、例えば、マイクである。
The
表示装置14は、後述する車載用ナビゲーション装置10が出力した目的地までの経路案内を行うための案内画像情報を表示する、例えば、ディスプレイである。
The
音声出力装置15は、後述する車載用ナビゲーション装置10が出力した目的地までの経路案内を行うための案内音声を音声出力する、例えば、スピーカである。
The
車載用ナビゲーション装置10は、音声認識装置100、航法信号取得部101、地図情報取得部102、ナビゲーション制御部103、表示出力部104、及び音声出力部105を備える。
The in-
航法信号取得部101は、航法信号受信機11が受信した航法信号を取得する。
The navigation
地図情報取得部102は、地図データベース12から地図情報を取得する。地図データベース12は、地図情報取得部102が地図情報を取得できればよく、自車両に搭載されているとは限らない。例えば、地図情報取得部102は、インターネット、公衆回線等の公衆ネットワークを介して、公衆ネットワーク上に存在する地図データベース12から地図情報を取得してもよい。
The map
ナビゲーション制御部103は、航法信号取得部101が取得した航法信号と、地図情報取得部102が取得した地図情報とに基づいて、自車両が走行する道路における地点、すなわち、自車両の走行位置を特定する。ナビゲーション制御部103は、特定した走行位置を示す走行位置情報を生成する。
ナビゲーション制御部103は、例えば、後述する音声認識装置100が音声認識した認識結果に基づいて目的地を設定し、自車両の走行位置から目的地の地点までの走行経路を決定する。ナビゲーション制御部103は、決定した走行経路に基づいて経路案内情報を生成する。The
The
表示出力部104は、ナビゲーション制御部103を介して取得した地図情報と、ナビゲーション制御部103が生成した走行位置情報及び経路案内情報とに基づいて、経路案内を行うための案内画像情報を生成し、当該案内画像情報を表示装置14に出力する。
The
音声出力部105は、ナビゲーション制御部103が生成した経路案内情報に基づいて経路案内を行うための案内音声情報を生成し、当該案内音声情報を音声出力装置15に出力する。
The
すなわち、車載用ナビゲーション装置10は、航法信号受信機11から取得した航法信号と、地図データベース12から取得した地図情報とに基づいて、設定された目的地までの走行経路を決定し、経路案内を行うための情報を表示装置14及び音声出力装置15に出力するものである。
That is, the in-
音声認識装置100は、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114を備える。
The
音声信号取得部111は、音声入力部13から音声信号を取得する。
音声信号取得部111は、取得した音声信号を音声認識部112及び音声認識制御部113に出力する。
音声信号取得部111は、音声信号取得部111が音声信号を取得した際にタイムスタンプを付加し、タイムスタンプを付加した音声信号を音声情報として音声認識部112及び音声認識制御部113に出力しても良い。The voice
The voice
The voice
音声認識部112は、音声信号取得部111が取得した音声信号に基づいて音声認識を行い、認識結果を出力する。
音声認識部112は、例えば、認識結果をナビゲーション制御部103に出力し、ナビゲーション制御部103は、音声認識部112から取得した認識結果に基づいて、目的地を設定する。音声認識部112が音声信号に基づいて行う音声認識処理は、周知の音声認識技術を適用することにより実施可能であるため、詳細な説明は省略する。The
For example, the
音声認識制御部113は、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定する。音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。
具体的には、音声認識制御部113が行う音声信号に超音波信号が含まれるか否かの判定処理は、例えば、離散フーリエ変換により音声信号をスペクトル解析し、所定周波数より高い周波数の信号の有無により判定する。より具体的には、例えば、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。所定周波数は、2万ヘルツに限るものではなく、人間が聞き取れるとされる周波数の上限の近傍であれば、例えば、1万ヘルツ等の2万ヘルツより低い周波数でも良い。The voice
Specifically, in the process of determining whether or not the audio signal included in the audio signal by the speech
また、音声認識制御部113が行う音声信号に超音波信号が含まれるか否かの判定処理は、所定周波数より高い周波数の信号が所定の振幅以上であるか否かにより判定しても良い。所定の振幅は、例えば、音声認識部112が音声認識処理を行う際に必要な振幅の下限値である。
また、音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、例えば、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御することで、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御しても良い。より具体的には、例えば、音声信号取得部111が付加したタイムスタンプを参照して、音声認識制御部113は、音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報を音声認識部112に出力する。更に具体的には、音声認識制御部113は、音声信号に超音波信号が含まれると判定した際に、音声信号における超音波信号が含まれた時点、すなわち、音声信号に超音波信号が含まれると判定している期間の始期を示す情報を音声認識部112に即座に出力する。その後、音声認識制御部113は、音声信号に超音波信号が含まれないと判定した際に、音声信号における超音波信号が含まれなくなった時点、すなわち、音声信号に超音波信号が含まれると判定している期間の終期を示す情報を音声認識部112に出力する。音声認識部112は、音声認識制御部113が出力した音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報に基づいて、当該期間に音声認識した認識結果をナビゲーション制御部103に出力せずに破棄する。Further, the process of determining whether or not the audio signal performed by the audio
Further, when the voice
通知出力部114は、音声認識制御部113が音声信号に基づいた認識結果をナビゲーション制御部103に出力させないよう音声認識部112を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
より具体的には、例えば、通知出力部114は、音声認識制御部113が音声信号に基づいた認識結果をナビゲーション制御部103に出力させないよう音声認識部112を制御する際に、音声認識制御部113から認識結果を出力させないよう制御した旨の情報を取得する。通知出力部114は、音声認識制御部113から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、例えば、生成した通知情報をナビゲーション制御部103に出力する。ナビゲーション制御部103は、通知出力部114が出力した通知情報を、表示出力部104又は音声出力部105を介して当該通知情報を表示装置14又は音声出力装置15から出力させる。ナビゲーション制御部103は、当該通知情報を表示装置14及び音声出力装置15の両方から出力させても良い。通知出力部114が出力した通知情報を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置14及び音声出力装置15に限定されるものではない。例えば、ナビゲーション制御部103は、通知出力部114が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ(図示せず)を点灯させても良い。The
More specifically, for example, the
なお、通知出力部114は、音声認識装置100において必須な構成ではなく、適宜、音声認識装置100に追加又は削除することが可能である。
すなわち、音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。The
That is, the main part of the
図2A及び図2Bは、実施の形態1に係る音声認識装置100の要部のハードウェア構成の一例を示す図である。
図2A及び図2Bを参照して、実施の形態1に係る音声認識装置100の要部のハードウェア構成について説明する。2A and 2B are diagrams showing an example of the hardware configuration of the main part of the
The hardware configuration of the main part of the
図2Aに示す如く、音声認識装置100はコンピュータにより構成されており、当該コンピュータはプロセッサ201及びメモリ202を有している。メモリ202には、当該コンピュータを音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114として機能させるためのプログラムが記憶されている。メモリ202に記憶されているプログラムをプロセッサ201が読み出して実行することにより、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能が実現される。
As shown in FIG. 2A, the
また、図2Bに示す如く、音声認識装置100は処理回路203により構成されても良い。この場合、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能が処理回路203により実現されても良い。
Further, as shown in FIG. 2B, the
また、音声認識装置100はプロセッサ201、メモリ202及び処理回路203により構成されても良い(不図示)。この場合、音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114の機能のうちの一部の機能がプロセッサ201及びメモリ202により実現されて、残余の機能が処理回路203により実現されるものであっても良い。
Further, the
プロセッサ201は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)を用いたものである。
The
メモリ202は、例えば、半導体メモリ又は磁気ディスクを用いたものである。より具体的には、メモリ202は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、SSD(Solid State Drive)又はHDD(Hard Disk Drive)などを用いたものである。
The
処理回路203は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field−Programmable Gate Array)、SoC(System−on−a−Chip)又はシステムLSI(Large−Scale Integration)を用いたものである。
The
図3を参照して、実施の形態1に係る音声認識装置100の動作について説明する。
図3は、実施の形態1に係る音声認識装置100の処理の一例を説明するフローチャートである。
音声認識装置100は、図3に示したフローチャートに示した処理を繰り返し実行する。The operation of the
FIG. 3 is a flowchart illustrating an example of processing of the
The
まず、ステップST301にて、音声信号取得部111は、音声入力部13から音声信号を取得する。
なお、音声信号取得部111は、ステップST301の処理をバックグランド処理により逐次行い、音声認識装置100は、音声信号取得部111が取得した音声信号に対して、ステップST302以降の処理を逐次行うようにしても良い。First, in step ST301, the voice
The voice
次に、音声認識制御部113は、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定する(ステップST302)。
Next, the voice
ステップST302にて、音声信号に超音波信号が含まれないと判定した場合(ステップST302:NO)、ステップST303にて、音声認識部112は、当該音声信号に基づいて音声認識を行い、認識結果を出力する。
ステップST303の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。When it is determined in step ST302 that the voice signal does not include the ultrasonic signal (step ST302: NO), in step ST303, the
After the process of step ST303, the
ステップST302にて、音声信号に超音波信号が含まれると判定した場合(ステップST302:YES)、ステップST304にて、音声認識制御部113は、当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないよう制御する。
When it is determined in step ST302 that the voice signal includes an ultrasonic signal (step ST302: YES), in step ST304, the voice
ステップST304の後、ステップST305にて、通知出力部114は、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
ステップST304の処理の後、音声認識装置100は、図3に示したフローチャートに示した処理を終了する。音声認識装置100は、当該フローチャートに示した処理を終了後、ステップST301に戻り、当該フローチャートに示した処理を繰り返し実行する。After step ST304, in step ST305, the
After the process of step ST304, the
以上のように、音声認識装置100は、音声入力部13から音声信号を取得する音声信号取得部111と、音声信号取得部111が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部112と、音声信号取得部111が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部112から出力させないよう制御する音声認識制御部113と、を備えた。
このように構成することで、音声認識装置100は、超音波による音声認識の認識結果出力を抑制できる。As described above, the
With this configuration, the
また、音声認識制御部113が音声信号に基づいた認識結果を出力させないよう音声認識部112を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する通知出力部114を備えることで、音声認識装置100は、音声信号に超音波信号が含まれるために認識結果が出力されない旨を、発声した操作者等に知らしめることができる。
Further, when the voice
図4を参照して実施の形態1の変形例に係る音声認識装置100aを説明する。
図4は、実施の形態1の変形例に係る音声認識装置100aが適用された車載用ナビゲーション装置10の要部を示すブロック図である。
なお、図4において、図1に示す図と同様の構成には同一符号を付して説明を省略する。The voice recognition device 100a according to the modified example of the first embodiment will be described with reference to FIG.
FIG. 4 is a block diagram showing a main part of the vehicle-mounted
In FIG. 4, the same reference numerals are given to the same configurations as those shown in FIG. 1, and the description thereof will be omitted.
図1に示した実施の形態1に係る音声認識装置100と、実施の形態1の変形例に係る音声認識装置100aとは、以下の点において相違する。
The
実施の形態1に係る音声認識装置100の音声認識部112は、音声信号取得部111が取得した音声信号を、音声信号取得部111から直接取得するのに対して、実施の形態1の変形例に係る音声認識装置100aの音声認識部112aは、音声信号取得部111aが取得した音声信号を、音声認識制御部113aを介して取得する。
また、実施の形態1に係る音声認識装置100の音声認識制御部113は、音声信号に超音波信号が含まれると判定した場合、音声認識部112に音声認識をさせないように、又は、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部112からナビゲーション制御部103に出力させないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものであった。これに対して、実施の形態1の変形例に係る音声認識装置100aの音声認識制御部113aは、音声信号に超音波信号が含まれると判定した場合、音声認識部112aに当該音声信号を出力しないように制御する、すなわち、音声認識部112aが音声認識するための当該音声信号を取得できないように制御することで、当該音声信号に基づいた認識結果を音声認識部112aからナビゲーション制御部103に出力させないよう制御するものである。The
Further, when the voice
実施の形態1の変形例に係る音声認識装置100aの各構成における機能は、上述の機能以外において、実施の形態1に係る音声認識装置100の各構成における機能と同様であるため、説明を省略する。
また、実施の形態1の変形例に係る音声認識装置100aのハードウェア構成は、実施の形態1に係る音声認識装置100のハードウェア構成と同様であるため、説明を省略する。すなわち、音声信号取得部111a、音声認識部112a、音声認識制御部113a、及び通知出力部114の各々の機能は、プロセッサ201及びメモリ202により実現されるものであっても良く、又は処理回路203により実現されるものであっても良い。Since the functions in each configuration of the voice recognition device 100a according to the modified example of the first embodiment are the same as the functions in each configuration of the
Further, since the hardware configuration of the voice recognition device 100a according to the modified example of the first embodiment is the same as the hardware configuration of the
更に、実施の形態1の変形例に係る音声認識装置100aの処理フローは、実施の形態1に係る音声認識装置100の処理フローと同様であるため、説明を省略する。すなわち、図3に示すフローチャートにおける音声信号取得部111、音声認識部112、音声認識制御部113、及び通知出力部114における処理は、それぞれ、音声信号取得部111a、音声認識部112a、音声認識制御部113a、及び通知出力部114において処理される。
Further, since the processing flow of the voice recognition device 100a according to the modified example of the first embodiment is the same as the processing flow of the
このように構成することで、実施の形態1の変形例に係る音声認識装置100aは、超音波による音声認識の認識結果出力を抑制できる。 With this configuration, the voice recognition device 100a according to the modified example of the first embodiment can suppress the recognition result output of voice recognition by ultrasonic waves.
なお、実施の形態1及び実施の形態1の変形例では、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、目的地を設定する例を示したが、車載用ナビゲーション装置10が、音声認識装置100,100aから取得した認識結果に基づいて、動作するのは目的地を設定には限定されない。例えば、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、経路の再設定及び案内画像情報の拡大又は縮小表示設定等を行っても良い。また、例えば、車載用ナビゲーション装置10が車載用オーディオ装置の機能を有している場合、車載用ナビゲーション装置10は、音声認識装置100,100aから取得した認識結果に基づいて、音楽情報等を再生するための制御を行っても良い。
In the first embodiment and the modified example of the first embodiment, the vehicle-mounted
実施の形態2.
実施の形態2に係る音声認識装置100は、一例として、自動音声対話装置50に適用されるものとして、以下説明する。Embodiment 2.
The
図5は、実施の形態2に係る音声認識装置100が適用された自動音声対話装置50の要部を示すブロック図である。
なお、図5において、図1に示す図と同様の構成には同一符号を付して説明を省略する。FIG. 5 is a block diagram showing a main part of the automatic
In FIG. 5, the same reference numerals are given to the same configurations as those shown in FIG. 1, and the description thereof will be omitted.
自動音声対話装置50については、後述する。
The automatic
例文データベース16は、後述する自動音声対話装置50が音声認識装置100から取得した認識結果に基づいて、認識結果に対応する例文を検索するための例文情報が格納された記憶装置である。
The
音声入力部17は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置100に出力する、例えば、マイクである。
The
音声出力装置18は、後述する自動音声対話装置50が出力した音声信号を音声出力する、例えば、スピーカである。
The
表示装置19は、後述する自動音声対話装置50が出力した画像情報を表示する、例えば、ディスプレイである。
The display device 19 is, for example, a display that displays the image information output by the automatic
自動音声対話装置50、例文データベース16、音声入力部17、音声出力装置18、及び表示装置19により、自動音声対話システムが構成される。
An automatic voice dialogue system is composed of an automatic
自動音声対話装置50は、音声認識装置100、マッチング部152、回答作成部153、音声生成部154、回答音声出力部155、及び表示出力部156を備える。
The automatic
マッチング部152は、後述する音声認識装置100から取得した認識結果に基づいて、認識結果に対応する例文を例文情報が格納された例文データベース16から検索する。
より具体的には、例えば、音声認識装置100から取得した認識結果が「いまなんじですか」という文字列である場合、当該文字列に対応する「今何時ですか」という文字列を例文データベース16から検索する。The
More specifically, for example, when the recognition result acquired from the
回答作成部153は、マッチング部152が検索した結果に基づいて、認識結果に対応する回答の文字列を生成する。
より具体的には、例えば、マッチング部152が検索した結果が「今何時ですか」という文字列である場合、当該文字列に対応する回答として、例えば、「午後1時15分です」という文字列を生成する。The
More specifically, for example, when the result of the search by the
音声生成部154は、回答作成部153が生成した文字列を音声信号に変換して、後述する回答音声出力部155に出力する。
The
回答音声出力部155は、音声生成部154が出力した音声信号をスピーカ等の音声出力装置18に出力する。
The answer
表示出力部156は、例えば、マッチング部152が認識結果に対応する文字列を例文データベース16から検索した結果に基づいて、自動音声対話装置50の状態を示す画像情報を生成して、生成した画像情報を表示装置19に出力する。より具体的には、例えば、マッチング部152が認識結果に対応する文字列を例文データベース16から検索した結果、当該文字列に対応する例文情報が例文データベース16に存在しない場合、表示出力部156は、音声認識に失敗した旨を示す画像情報を生成して、生成した画像情報を表示装置19に出力する。
The
音声認識装置100及び音声認識装置100が有する各構成は、実施の形態1で説明したものと同様であるため、説明を省略する。
Since each configuration of the
なお、実施の形態2に係る音声認識装置100における音声信号取得部111は、音声入力部17から音声信号を取得する。
The voice
また、実施の形態2に係る音声認識装置100における通知出力部114は、音声認識制御部113から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を例えば、マッチング部152に出力する。マッチング部152は、通知出力部114が出力した通知情報を、表示出力部156又は回答音声出力部155を介して表示装置19又は音声出力装置18から出力させる。マッチング部152は、当該通知情報を表示装置19及び音声出力装置18の両方から出力させても良い。音声信号に超音波信号が含まれるために認識結果が出力されない旨を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置19及び音声出力装置18に限定されるものではない。例えば、マッチング部152は、通知出力部114が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ(図示せず)を点灯させても良い。
Further, the
なお、実施の形態2に係る通知出力部114は、実施の形態1と同様に、音声認識装置100において必須な構成ではなく、適宜、音声認識装置100に追加又は削除することが可能である。
すなわち、実施の形態2に係る音声認識装置100の要部は、音声信号取得部111、音声認識部112、及び音声認識制御部113により構成されても良い。Note that the
That is, the main part of the
実施の形態2に係る音声認識装置100のハードウェア構成は、実施の形態1に係る音声認識装置100のハードウェア構成と同様であるため、説明を省略する。
Since the hardware configuration of the
実施の形態2に係る音声認識装置100の処理フローは、実施の形態1に係る音声認識装置100の処理フローと同様であるため、説明を省略する。
Since the processing flow of the
自動音声対話装置50は、上述のように例えば、質問した時刻を回答する等の単純な対話に限らず、音声認識装置100から取得した認識結果に基づいて、例えば、インターネットを介して商品の購入等の商取引を行うものがある。従来の自動音声対話装置は、超音波を受信した場合にも音声認識を行ってしまうため、例えば、悪意の第三者により発せられた超音波により、自動音声対話装置の所有者等の利用者が意図しない商取引が行われてしまうという問題点があった。
As described above, the automatic
しかしながら、実施の形態2に係る音声認識装置100が適用された自動音声対話装置50は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を出力させないよう制御するため、利用者が意図しない商取引を抑制できる。
However, when the automatic
なお、実施の形態2に係る自動音声対話装置50は、実施の形態1の変形例において説明した音声認識装置100aが適用されたものであっても良い。
The automatic
これまでに説明した実施の形態では、音声認識装置100,100aは、音声認識装置100,100a内に音声認識部112,112aを有する例を示したが、この限りではない。例えば、音声認識装置100,100aがインターネット又は公衆回線等の公衆ネットワークに接続するための構成(図示せず)を有し、音声認識装置100,100aは、公衆ネットワーク上に存在する音声認識部112,112aを有する音声認識サーバ(図示せず)に当該構成を介して音声信号を送信し、音声認識サーバが当該音声信号に基づいた認識結果を出力し、音声認識装置100,100aは、当該構成を介して音声認識サーバが出力した認識結果を取得しても良い。
In the embodiments described so far, the
また、これまでに説明した実施の形態では、音声認識装置100,100aは、音声信号取得部111,111aが音声入力部13,17から取得した音声信号を音声認識部112及び音声認識制御部113に出力する例を示したが、この限りではない。例えば、音声信号取得部111,111aは、音声入力部13,17から取得した音声信号を音声認識部112に出力し、音声入力部13,17の近傍に配置された超音波を受信するための超音波入力部(図示せず)から取得した超音波信号を音声認識制御部113に出力するようにしても良い。ここで、超音波入力部は、例えば、超音波を受信する超音波マイクである。
Further, in the embodiments described so far, in the
なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 It should be noted that, within the scope of the present invention, any combination of the embodiments can be freely combined, any component of the embodiment can be modified, or any component can be omitted in each embodiment. ..
この発明に係る音声認識装置は、利用者が音声により入力操作を行う機器に適用することができる。 The voice recognition device according to the present invention can be applied to a device in which a user performs an input operation by voice.
1 車両、10 車載用ナビゲーション装置、11 航法信号受信機、12 地図データベース、13,17 音声入力部、14,19 表示装置、15,18 音声出力装置、16 例文データベース、50 自動音声対話装置、100,100a 音声認識装置、101 航法信号取得部、102 地図情報取得部、103 ナビゲーション制御部、104,156 表示出力部、105 音声出力部、111,111a 音声信号取得部、112,112a 音声認識部、113,113a 音声認識制御部、114 通知出力部、152 マッチング部、153 回答作成部、154 音声生成部、155 回答音声出力部、201 プロセッサ、202 メモリ、203 処理回路。 1 vehicle, 10 in-vehicle navigation device, 11 navigation signal receiver, 12 map database, 13,17 voice input unit, 14,19 display device, 15,18 voice output device, 16 example sentence database, 50 automatic voice dialogue device, 100 , 100a voice recognition device, 101 navigation signal acquisition unit, 102 map information acquisition unit, 103 navigation control unit, 104,156 display output unit, 105 voice output unit, 111,111a voice signal acquisition unit, 112,112a voice recognition unit, 113, 113a Voice recognition control unit, 114 Notification output unit, 152 Matching unit, 153 Answer creation unit, 154 Voice generation unit, 155 Answer voice output unit, 201 processor, 202 memory, 203 processing circuit.
Claims (7)
前記音声信号取得部が取得した前記音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、
前記音声信号取得部が取得した前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御する音声認識制御部と、
を備えたこと
を特徴とする音声認識装置。An audio signal acquisition unit that acquires an audio signal from the audio input unit,
A voice recognition unit that performs voice recognition based on the voice signal acquired by the voice signal acquisition unit and outputs the recognition result.
When it is determined whether or not the voice signal acquired by the voice signal acquisition unit includes an ultrasonic signal and it is determined that the voice signal includes the ultrasonic signal, the recognition result based on the voice signal A voice recognition control unit that controls not to output the sound from the voice recognition unit,
A voice recognition device characterized by being equipped with.
を特徴とする請求項1に記載の音声認識装置。The voice recognition device according to claim 1, wherein when the voice recognition control unit determines that the voice signal includes the ultrasonic signal, the voice recognition control unit controls the voice recognition unit so as not to perform the voice recognition. ..
を特徴とする請求項1に記載の音声認識装置。When the ultrasonic signal contained in the voice signal has a predetermined amplitude or more, the voice recognition control unit determines that the voice signal includes the ultrasonic signal, and the voice signal includes the ultrasonic signal. The voice recognition device according to claim 1, wherein the recognition result based on the voice signal during a period determined to be included is controlled so as not to be output from the voice recognition unit.
を特徴とする請求項1に記載の音声認識装置。When the voice recognition control unit controls the voice recognition unit so as not to output the recognition result based on the voice signal, the notification information indicating that the recognition result is not output is generated and generated. The voice recognition device according to claim 1, further comprising a notification output unit that outputs notification information.
音声認識部が、前記音声信号取得部により取得された前記音声信号に基づいて音声認識を行った認識結果を出力し、
音声認識制御部が、前記音声信号取得部により取得された前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御すること、
を特徴とする音声認識方法。The audio signal acquisition unit acquires the audio signal from the audio input unit,
The voice recognition unit outputs the recognition result of performing voice recognition based on the voice signal acquired by the voice signal acquisition unit.
When the voice recognition control unit determines whether or not the voice signal acquired by the voice signal acquisition unit contains an ultrasonic signal, and determines that the voice signal includes the ultrasonic signal, the voice Control so that the recognition result based on the signal is not output from the voice recognition unit,
A voice recognition method characterized by.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/026929 WO2020016967A1 (en) | 2018-07-18 | 2018-07-18 | Voice recognition device, in-vehicle navigation device, automatic voice dialogue device, and voice recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020016967A1 true JPWO2020016967A1 (en) | 2020-10-01 |
JP6786018B2 JP6786018B2 (en) | 2020-11-18 |
Family
ID=69163681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020530789A Active JP6786018B2 (en) | 2018-07-18 | 2018-07-18 | Voice recognition device, in-vehicle navigation device, automatic voice dialogue device, and voice recognition method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6786018B2 (en) |
WO (1) | WO2020016967A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008256659A (en) * | 2007-04-09 | 2008-10-23 | Toyota Motor Corp | Navigation system for vehicle |
JP2011087920A (en) * | 2009-09-16 | 2011-05-06 | Storz Endoskop Produktions Gmbh | Wireless command microphone management for voice controlled surgical system |
JP2017076117A (en) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | Hotword recognition |
-
2018
- 2018-07-18 WO PCT/JP2018/026929 patent/WO2020016967A1/en active Application Filing
- 2018-07-18 JP JP2020530789A patent/JP6786018B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008256659A (en) * | 2007-04-09 | 2008-10-23 | Toyota Motor Corp | Navigation system for vehicle |
JP2011087920A (en) * | 2009-09-16 | 2011-05-06 | Storz Endoskop Produktions Gmbh | Wireless command microphone management for voice controlled surgical system |
JP2017076117A (en) * | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | Hotword recognition |
Also Published As
Publication number | Publication date |
---|---|
JP6786018B2 (en) | 2020-11-18 |
WO2020016967A1 (en) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
KR20200057516A (en) | Apparatus and method for processing voice commands of multiple speakers | |
KR20190100470A (en) | Personalized, real-time audio processing | |
US9602937B2 (en) | Method and apparatus to provide surroundings awareness using sound recognition | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US10884700B2 (en) | Sound outputting device, sound outputting method, and sound outputting program storage medium | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP2000322098A (en) | Speech recognition device | |
JP6786018B2 (en) | Voice recognition device, in-vehicle navigation device, automatic voice dialogue device, and voice recognition method | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
WO2020091730A1 (en) | Systems and methods for selectively providing audio alerts | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
JP6387287B2 (en) | Unknown matter resolution processing system | |
KR20200116617A (en) | Method for determining audio preprocessing method based on surrounding environments and apparatus thereof | |
JP2007093635A (en) | Known noise removing device | |
US11946762B2 (en) | Interactive voice navigation | |
JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus | |
US11763831B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP7192561B2 (en) | Audio output device and audio output method | |
JP7336928B2 (en) | Information processing device, information processing system, information processing method, and information processing program | |
WO2024058147A1 (en) | Processing device, output device, and processing system | |
WO2022153823A1 (en) | Guiding device | |
JP5272141B2 (en) | Voice processing apparatus and program | |
JP2008241933A (en) | Data processing device and data processing method | |
KR20230032732A (en) | Method and system for non-autoregressive speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200624 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200624 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6786018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |