WO2020016967A1

WO2020016967A1 - 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法

Info

Publication number: WO2020016967A1
Application number: PCT/JP2018/026929
Authority: WO
Inventors: 小谷　亮
Original assignee: 三菱電機株式会社
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2020-01-23
Also published as: JP6786018B2; JPWO2020016967A1

Abstract

音声認識装置（１００）は、音声入力部（１３）から音声信号を取得する音声信号取得部（１１１）と、音声信号取得部（１１１）が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部（１１２）と、音声信号取得部（１１１）が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部（１１２）から出力させないよう制御する音声認識制御部（１１３）と、を備えた。

Description

音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法

　この発明は、音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法に関するものである。

　音声認識技術の精度が高まるにつれ、音声認識技術を電子機器等に適用し、操作者が発した音声に基づいて電子機器等を制御することが行われている。
　例えば、特許文献１には、乗員により発せられた音声を収集する音声収集手段と、収集された音声を車外設備に送信する音声送信手段と、送信された音声に基づき車外設備において作成される目的地情報を車外設備から受信する目的地情報受信手段と、を備え、受信された目的地情報に基づく案内を行なう車両用車載用ナビゲーション装置であって、音声収集手段により収集された音声に対する音声認識を行なって、音声収集手段により収集された音声から目的地を抽出する目的地抽出手段を備え、音声収集手段により音声が収集された後、目的地情報受信手段により目的地情報が受信されるまでは、目的地抽出手段により抽出された目的地に基づく案内を行なう車両用車載用ナビゲーション装置が開示されている。

特開２００８－２５６６５９号公報

　しかしながら、音声認識は、操作者が発した音声だけでなく、例えば、パラメトリックスピーカ等の超音波を発生させる装置から発せられた人間の可聴領域外の周波数を有する音声が入力された場合にも、認識されてしまう場合がある。
　超音波は、人間の可聴領域外の周波数を有するため、通常、人間には聞き取ることができない。更に、超音波には、高い指向性を持たせることができる。このため、音声認識技術が適用された電子機器等の音声入力部に向けて超音波が発せられた場合、音声入力部の周囲にいる人間ですら音声入力部に音声が入力されていることに気が付かないうちに、入力された超音波信号により電子機器等が制御されてしまうという問題があった。

　この発明は、上述の問題を解決するためのもので、超音波による音声認識の認識結果出力を抑制できる音声認識装置を提供することを目的としている。

　この発明に係る音声認識装置は、音声入力部から音声信号を取得する音声信号取得部と、音声信号取得部が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、音声信号取得部が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部から出力させないよう制御する音声認識制御部と、を備えたものである。

　この発明によれば、超音波による音声認識の認識結果出力を抑制できる。

図１は、実施の形態１に係る音声認識装置が適用された車載用ナビゲーション装置の要部を示すブロック図である。図２Ａ及び図２Ｂは、実施の形態１に係る音声認識装置の要部のハードウェア構成の一例を示す図である。図３は、実施の形態１に係る音声認識装置の処理の一例を説明するフローチャートである。図４は、実施の形態１の変形例に係る音声認識装置が適用された車載用ナビゲーション装置の要部を示すブロック図である。図５は、実施の形態２に係る音声認識装置が適用された自動音声対話装置の要部を示すブロック図である。

　以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。

実施の形態１．
　実施の形態１に係る音声認識装置１００は、一例として、車載用ナビゲーション装置１０に適用されるものとして、以下説明する。
　図１は、実施の形態１に係る音声認識装置１００が適用された車載用ナビゲーション装置１０の要部を示すブロック図である。

　車両１は、車載用ナビゲーション装置１０、航法信号受信機１１、地図データベース１２、音声入力部１３、表示装置１４、及び音声出力装置１５を備える。

　航法信号受信機１１は、航法衛星からＧＰＳ信号等の航法信号を受信する受信装置である。

　地図データベース１２は、道路地図に関する情報が記された地図情報を格納する記憶装置である。

　音声入力部１３は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置１００に出力する、例えば、マイクである。

　表示装置１４は、後述する車載用ナビゲーション装置１０が出力した目的地までの経路案内を行うための案内画像情報を表示する、例えば、ディスプレイである。

　音声出力装置１５は、後述する車載用ナビゲーション装置１０が出力した目的地までの経路案内を行うための案内音声を音声出力する、例えば、スピーカである。

　車載用ナビゲーション装置１０は、音声認識装置１００、航法信号取得部１０１、地図情報取得部１０２、ナビゲーション制御部１０３、表示出力部１０４、及び音声出力部１０５を備える。

　航法信号取得部１０１は、航法信号受信機１１が受信した航法信号を取得する。

　地図情報取得部１０２は、地図データベース１２から地図情報を取得する。地図データベース１２は、地図情報取得部１０２が地図情報を取得できればよく、自車両に搭載されているとは限らない。例えば、地図情報取得部１０２は、インターネット、公衆回線等の公衆ネットワークを介して、公衆ネットワーク上に存在する地図データベース１２から地図情報を取得してもよい。

　ナビゲーション制御部１０３は、航法信号取得部１０１が取得した航法信号と、地図情報取得部１０２が取得した地図情報とに基づいて、自車両が走行する道路における地点、すなわち、自車両の走行位置を特定する。ナビゲーション制御部１０３は、特定した走行位置を示す走行位置情報を生成する。
　ナビゲーション制御部１０３は、例えば、後述する音声認識装置１００が音声認識した認識結果に基づいて目的地を設定し、自車両の走行位置から目的地の地点までの走行経路を決定する。ナビゲーション制御部１０３は、決定した走行経路に基づいて経路案内情報を生成する。

　表示出力部１０４は、ナビゲーション制御部１０３を介して取得した地図情報と、ナビゲーション制御部１０３が生成した走行位置情報及び経路案内情報とに基づいて、経路案内を行うための案内画像情報を生成し、当該案内画像情報を表示装置１４に出力する。

　音声出力部１０５は、ナビゲーション制御部１０３が生成した経路案内情報に基づいて経路案内を行うための案内音声情報を生成し、当該案内音声情報を音声出力装置１５に出力する。

　すなわち、車載用ナビゲーション装置１０は、航法信号受信機１１から取得した航法信号と、地図データベース１２から取得した地図情報とに基づいて、設定された目的地までの走行経路を決定し、経路案内を行うための情報を表示装置１４及び音声出力装置１５に出力するものである。

　音声認識装置１００は、音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４を備える。

　音声信号取得部１１１は、音声入力部１３から音声信号を取得する。
　音声信号取得部１１１は、取得した音声信号を音声認識部１１２及び音声認識制御部１１３に出力する。
　音声信号取得部１１１は、音声信号取得部１１１が音声信号を取得した際にタイムスタンプを付加し、タイムスタンプを付加した音声信号を音声情報として音声認識部１１２及び音声認識制御部１１３に出力しても良い。

　音声認識部１１２は、音声信号取得部１１１が取得した音声信号に基づいて音声認識を行い、認識結果を出力する。
　音声認識部１１２は、例えば、認識結果をナビゲーション制御部１０３に出力し、ナビゲーション制御部１０３は、音声認識部１１２から取得した認識結果に基づいて、目的地を設定する。音声認識部１１２が音声信号に基づいて行う音声認識処理は、周知の音声認識技術を適用することにより実施可能であるため、詳細な説明は省略する。

　音声認識制御部１１３は、音声信号取得部１１１が取得した音声信号に超音波信号が含まれるか否かを判定する。音声認識制御部１１３は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないよう制御する。
　具体的には、音声認識制御部１１３が行う音声信号に超音波信号が含まれるか否かの判定処理は、例えば、離散フーリエ変換により音声信号をスペクトル解析し、所定周波数より高い周波数の信号の有無により判定する。より具体的には、例えば、音声認識制御部１１３は、音声信号に超音波信号が含まれると判定した場合、音声認識部１１２に音声認識をさせないよう制御することで、当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないよう制御する。所定周波数は、２万ヘルツに限るものではなく、人間が聞き取れるとされる周波数の上限の近傍であれば、例えば、１万ヘルツ等の２万ヘルツより低い周波数でも良い。

　また、音声認識制御部１１３が行う音声信号に超音波信号が含まれるか否かの判定処理は、所定周波数より高い周波数の信号が所定の振幅以上であるか否かにより判定しても良い。所定の振幅は、例えば、音声認識部１１２が音声認識処理を行う際に必要な振幅の下限値である。
　また、音声認識制御部１１３は、音声信号に超音波信号が含まれると判定した場合、例えば、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないよう制御することで、当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないよう制御しても良い。より具体的には、例えば、音声信号取得部１１１が付加したタイムスタンプを参照して、音声認識制御部１１３は、音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報を音声認識部１１２に出力する。更に具体的には、音声認識制御部１１３は、音声信号に超音波信号が含まれると判定した際に、音声信号における超音波信号が含まれた時点、すなわち、音声信号に超音波信号が含まれると判定している期間の始期を示す情報を音声認識部１１２に即座に出力する。その後、音声認識制御部１１３は、音声信号に超音波信号が含まれないと判定した際に、音声信号における超音波信号が含まれなくなった時点、すなわち、音声信号に超音波信号が含まれると判定している期間の終期を示す情報を音声認識部１１２に出力する。音声認識部１１２は、音声認識制御部１１３が出力した音声信号に超音波信号が含まれると判定している期間の始期及び終期を示す情報に基づいて、当該期間に音声認識した認識結果をナビゲーション制御部１０３に出力せずに破棄する。

　通知出力部１１４は、音声認識制御部１１３が音声信号に基づいた認識結果をナビゲーション制御部１０３に出力させないよう音声認識部１１２を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
　より具体的には、例えば、通知出力部１１４は、音声認識制御部１１３が音声信号に基づいた認識結果をナビゲーション制御部１０３に出力させないよう音声認識部１１２を制御する際に、音声認識制御部１１３から認識結果を出力させないよう制御した旨の情報を取得する。通知出力部１１４は、音声認識制御部１１３から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、例えば、生成した通知情報をナビゲーション制御部１０３に出力する。ナビゲーション制御部１０３は、通知出力部１１４が出力した通知情報を、表示出力部１０４又は音声出力部１０５を介して当該通知情報を表示装置１４又は音声出力装置１５から出力させる。ナビゲーション制御部１０３は、当該通知情報を表示装置１４及び音声出力装置１５の両方から出力させても良い。通知出力部１１４が出力した通知情報を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置１４及び音声出力装置１５に限定されるものではない。例えば、ナビゲーション制御部１０３は、通知出力部１１４が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ（図示せず）を点灯させても良い。

　なお、通知出力部１１４は、音声認識装置１００において必須な構成ではなく、適宜、音声認識装置１００に追加又は削除することが可能である。
　すなわち、音声認識装置１００の要部は、音声信号取得部１１１、音声認識部１１２、及び音声認識制御部１１３により構成されても良い。

　図２Ａ及び図２Ｂは、実施の形態１に係る音声認識装置１００の要部のハードウェア構成の一例を示す図である。
　図２Ａ及び図２Ｂを参照して、実施の形態１に係る音声認識装置１００の要部のハードウェア構成について説明する。

　図２Ａに示す如く、音声認識装置１００はコンピュータにより構成されており、当該コンピュータはプロセッサ２０１及びメモリ２０２を有している。メモリ２０２には、当該コンピュータを音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４として機能させるためのプログラムが記憶されている。メモリ２０２に記憶されているプログラムをプロセッサ２０１が読み出して実行することにより、音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４の機能が実現される。

　また、図２Ｂに示す如く、音声認識装置１００は処理回路２０３により構成されても良い。この場合、音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４の機能が処理回路２０３により実現されても良い。

　また、音声認識装置１００はプロセッサ２０１、メモリ２０２及び処理回路２０３により構成されても良い（不図示）。この場合、音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４の機能のうちの一部の機能がプロセッサ２０１及びメモリ２０２により実現されて、残余の機能が処理回路２０３により実現されるものであっても良い。

　プロセッサ２０１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）を用いたものである。

　メモリ２０２は、例えば、半導体メモリ又は磁気ディスクを用いたものである。より具体的には、メモリ２０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）又はＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などを用いたものである。

　処理回路２０３は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）又はシステムＬＳＩ（Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）を用いたものである。

　図３を参照して、実施の形態１に係る音声認識装置１００の動作について説明する。
　図３は、実施の形態１に係る音声認識装置１００の処理の一例を説明するフローチャートである。
　音声認識装置１００は、図３に示したフローチャートに示した処理を繰り返し実行する。

　まず、ステップＳＴ３０１にて、音声信号取得部１１１は、音声入力部１３から音声信号を取得する。
　なお、音声信号取得部１１１は、ステップＳＴ３０１の処理をバックグランド処理により逐次行い、音声認識装置１００は、音声信号取得部１１１が取得した音声信号に対して、ステップＳＴ３０２以降の処理を逐次行うようにしても良い。

　次に、音声認識制御部１１３は、音声信号取得部１１１が取得した音声信号に超音波信号が含まれるか否かを判定する（ステップＳＴ３０２）。

　ステップＳＴ３０２にて、音声信号に超音波信号が含まれないと判定した場合（ステップＳＴ３０２：ＮＯ）、ステップＳＴ３０３にて、音声認識部１１２は、当該音声信号に基づいて音声認識を行い、認識結果を出力する。
　ステップＳＴ３０３の処理の後、音声認識装置１００は、図３に示したフローチャートに示した処理を終了する。音声認識装置１００は、当該フローチャートに示した処理を終了後、ステップＳＴ３０１に戻り、当該フローチャートに示した処理を繰り返し実行する。

　ステップＳＴ３０２にて、音声信号に超音波信号が含まれると判定した場合（ステップＳＴ３０２：ＹＥＳ）、ステップＳＴ３０４にて、音声認識制御部１１３は、当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないよう制御する。

　ステップＳＴ３０４の後、ステップＳＴ３０５にて、通知出力部１１４は、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する。
　ステップＳＴ３０４の処理の後、音声認識装置１００は、図３に示したフローチャートに示した処理を終了する。音声認識装置１００は、当該フローチャートに示した処理を終了後、ステップＳＴ３０１に戻り、当該フローチャートに示した処理を繰り返し実行する。

　以上のように、音声認識装置１００は、音声入力部１３から音声信号を取得する音声信号取得部１１１と、音声信号取得部１１１が取得した音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部１１２と、音声信号取得部１１１が取得した音声信号に超音波信号が含まれるか否かを判定し、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を音声認識部１１２から出力させないよう制御する音声認識制御部１１３と、を備えた。
　このように構成することで、音声認識装置１００は、超音波による音声認識の認識結果出力を抑制できる。

　また、音声認識制御部１１３が音声信号に基づいた認識結果を出力させないよう音声認識部１１２を制御する際に、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を出力する通知出力部１１４を備えることで、音声認識装置１００は、音声信号に超音波信号が含まれるために認識結果が出力されない旨を、発声した操作者等に知らしめることができる。

　図４を参照して実施の形態１の変形例に係る音声認識装置１００ａを説明する。
　図４は、実施の形態１の変形例に係る音声認識装置１００ａが適用された車載用ナビゲーション装置１０の要部を示すブロック図である。
　なお、図４において、図１に示す図と同様の構成には同一符号を付して説明を省略する。

　図１に示した実施の形態１に係る音声認識装置１００と、実施の形態１の変形例に係る音声認識装置１００ａとは、以下の点において相違する。

　実施の形態１に係る音声認識装置１００の音声認識部１１２は、音声信号取得部１１１が取得した音声信号を、音声信号取得部１１１から直接取得するのに対して、実施の形態１の変形例に係る音声認識装置１００ａの音声認識部１１２ａは、音声信号取得部１１１ａが取得した音声信号を、音声認識制御部１１３ａを介して取得する。
　また、実施の形態１に係る音声認識装置１００の音声認識制御部１１３は、音声信号に超音波信号が含まれると判定した場合、音声認識部１１２に音声認識をさせないように、又は、音声信号に超音波信号が含まれると判定している期間の当該音声信号に基づいた認識結果を音声認識部１１２からナビゲーション制御部１０３に出力させないように制御することで、当該音声信号に基づいた認識結果を音声認識部１１２ａからナビゲーション制御部１０３に出力させないよう制御するものであった。これに対して、実施の形態１の変形例に係る音声認識装置１００ａの音声認識制御部１１３ａは、音声信号に超音波信号が含まれると判定した場合、音声認識部１１２ａに当該音声信号を出力しないように制御する、すなわち、音声認識部１１２ａが音声認識するための当該音声信号を取得できないように制御することで、当該音声信号に基づいた認識結果を音声認識部１１２ａからナビゲーション制御部１０３に出力させないよう制御するものである。

　実施の形態１の変形例に係る音声認識装置１００ａの各構成における機能は、上述の機能以外において、実施の形態１に係る音声認識装置１００の各構成における機能と同様であるため、説明を省略する。
　また、実施の形態１の変形例に係る音声認識装置１００ａのハードウェア構成は、実施の形態１に係る音声認識装置１００のハードウェア構成と同様であるため、説明を省略する。すなわち、音声信号取得部１１１ａ、音声認識部１１２ａ、音声認識制御部１１３ａ、及び通知出力部１１４の各々の機能は、プロセッサ２０１及びメモリ２０２により実現されるものであっても良く、又は処理回路２０３により実現されるものであっても良い。

　更に、実施の形態１の変形例に係る音声認識装置１００ａの処理フローは、実施の形態１に係る音声認識装置１００の処理フローと同様であるため、説明を省略する。すなわち、図３に示すフローチャートにおける音声信号取得部１１１、音声認識部１１２、音声認識制御部１１３、及び通知出力部１１４における処理は、それぞれ、音声信号取得部１１１ａ、音声認識部１１２ａ、音声認識制御部１１３ａ、及び通知出力部１１４において処理される。

　このように構成することで、実施の形態１の変形例に係る音声認識装置１００ａは、超音波による音声認識の認識結果出力を抑制できる。

　なお、実施の形態１及び実施の形態１の変形例では、車載用ナビゲーション装置１０は、音声認識装置１００，１００ａから取得した認識結果に基づいて、目的地を設定する例を示したが、車載用ナビゲーション装置１０が、音声認識装置１００，１００ａから取得した認識結果に基づいて、動作するのは目的地を設定には限定されない。例えば、車載用ナビゲーション装置１０は、音声認識装置１００，１００ａから取得した認識結果に基づいて、経路の再設定及び案内画像情報の拡大又は縮小表示設定等を行っても良い。また、例えば、車載用ナビゲーション装置１０が車載用オーディオ装置の機能を有している場合、車載用ナビゲーション装置１０は、音声認識装置１００，１００ａから取得した認識結果に基づいて、音楽情報等を再生するための制御を行っても良い。

実施の形態２．
　実施の形態２に係る音声認識装置１００は、一例として、自動音声対話装置５０に適用されるものとして、以下説明する。

　図５は、実施の形態２に係る音声認識装置１００が適用された自動音声対話装置５０の要部を示すブロック図である。
　なお、図５において、図１に示す図と同様の構成には同一符号を付して説明を省略する。

　自動音声対話装置５０については、後述する。

　例文データベース１６は、後述する自動音声対話装置５０が音声認識装置１００から取得した認識結果に基づいて、認識結果に対応する例文を検索するための例文情報が格納された記憶装置である。

　音声入力部１７は、取得した音波を音声信号に変換して、変換した音声信号を後述する音声認識装置１００に出力する、例えば、マイクである。

　音声出力装置１８は、後述する自動音声対話装置５０が出力した音声信号を音声出力する、例えば、スピーカである。

　表示装置１９は、後述する自動音声対話装置５０が出力した画像情報を表示する、例えば、ディスプレイである。

　自動音声対話装置５０、例文データベース１６、音声入力部１７、音声出力装置１８、及び表示装置１９により、自動音声対話システムが構成される。

　自動音声対話装置５０は、音声認識装置１００、マッチング部１５２、回答作成部１５３、音声生成部１５４、回答音声出力部１５５、及び表示出力部１５６を備える。

　マッチング部１５２は、後述する音声認識装置１００から取得した認識結果に基づいて、認識結果に対応する例文を例文情報が格納された例文データベース１６から検索する。
　より具体的には、例えば、音声認識装置１００から取得した認識結果が「いまなんじですか」という文字列である場合、当該文字列に対応する「今何時ですか」という文字列を例文データベース１６から検索する。

　回答作成部１５３は、マッチング部１５２が検索した結果に基づいて、認識結果に対応する回答の文字列を生成する。
　より具体的には、例えば、マッチング部１５２が検索した結果が「今何時ですか」という文字列である場合、当該文字列に対応する回答として、例えば、「午後１時１５分です」という文字列を生成する。

　音声生成部１５４は、回答作成部１５３が生成した文字列を音声信号に変換して、後述する回答音声出力部１５５に出力する。

　回答音声出力部１５５は、音声生成部１５４が出力した音声信号をスピーカ等の音声出力装置１８に出力する。

　表示出力部１５６は、例えば、マッチング部１５２が認識結果に対応する文字列を例文データベース１６から検索した結果に基づいて、自動音声対話装置５０の状態を示す画像情報を生成して、生成した画像情報を表示装置１９に出力する。より具体的には、例えば、マッチング部１５２が認識結果に対応する文字列を例文データベース１６から検索した結果、当該文字列に対応する例文情報が例文データベース１６に存在しない場合、表示出力部１５６は、音声認識に失敗した旨を示す画像情報を生成して、生成した画像情報を表示装置１９に出力する。

　音声認識装置１００及び音声認識装置１００が有する各構成は、実施の形態１で説明したものと同様であるため、説明を省略する。

　なお、実施の形態２に係る音声認識装置１００における音声信号取得部１１１は、音声入力部１７から音声信号を取得する。

　また、実施の形態２に係る音声認識装置１００における通知出力部１１４は、音声認識制御部１１３から取得した認識結果を出力させないよう制御した旨の情報に基づいて、認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した通知情報を例えば、マッチング部１５２に出力する。マッチング部１５２は、通知出力部１１４が出力した通知情報を、表示出力部１５６又は回答音声出力部１５５を介して表示装置１９又は音声出力装置１８から出力させる。マッチング部１５２は、当該通知情報を表示装置１９及び音声出力装置１８の両方から出力させても良い。音声信号に超音波信号が含まれるために認識結果が出力されない旨を発声した操作者等に知らしめることができれば、通知情報を出力する装置は、表示装置１９及び音声出力装置１８に限定されるものではない。例えば、マッチング部１５２は、通知出力部１１４が出力した通知情報に基づいて、例えば、発光ダイオード等のランプ（図示せず）を点灯させても良い。

　なお、実施の形態２に係る通知出力部１１４は、実施の形態１と同様に、音声認識装置１００において必須な構成ではなく、適宜、音声認識装置１００に追加又は削除することが可能である。
　すなわち、実施の形態２に係る音声認識装置１００の要部は、音声信号取得部１１１、音声認識部１１２、及び音声認識制御部１１３により構成されても良い。

　実施の形態２に係る音声認識装置１００のハードウェア構成は、実施の形態１に係る音声認識装置１００のハードウェア構成と同様であるため、説明を省略する。

　実施の形態２に係る音声認識装置１００の処理フローは、実施の形態１に係る音声認識装置１００の処理フローと同様であるため、説明を省略する。

　自動音声対話装置５０は、上述のように例えば、質問した時刻を回答する等の単純な対話に限らず、音声認識装置１００から取得した認識結果に基づいて、例えば、インターネットを介して商品の購入等の商取引を行うものがある。従来の自動音声対話装置は、超音波を受信した場合にも音声認識を行ってしまうため、例えば、悪意の第三者により発せられた超音波により、自動音声対話装置の所有者等の利用者が意図しない商取引が行われてしまうという問題点があった。

　しかしながら、実施の形態２に係る音声認識装置１００が適用された自動音声対話装置５０は、音声信号に超音波信号が含まれると判定した場合、当該音声信号に基づいた認識結果を出力させないよう制御するため、利用者が意図しない商取引を抑制できる。

　なお、実施の形態２に係る自動音声対話装置５０は、実施の形態１の変形例において説明した音声認識装置１００ａが適用されたものであっても良い。

　これまでに説明した実施の形態では、音声認識装置１００，１００ａは、音声認識装置１００，１００ａ内に音声認識部１１２，１１２ａを有する例を示したが、この限りではない。例えば、音声認識装置１００，１００ａがインターネット又は公衆回線等の公衆ネットワークに接続するための構成（図示せず）を有し、音声認識装置１００，１００ａは、公衆ネットワーク上に存在する音声認識部１１２，１１２ａを有する音声認識サーバ（図示せず）に当該構成を介して音声信号を送信し、音声認識サーバが当該音声信号に基づいた認識結果を出力し、音声認識装置１００，１００ａは、当該構成を介して音声認識サーバが出力した認識結果を取得しても良い。

　また、これまでに説明した実施の形態では、音声認識装置１００，１００ａは、音声信号取得部１１１，１１１ａが音声入力部１３，１７から取得した音声信号を音声認識部１１２及び音声認識制御部１１３に出力する例を示したが、この限りではない。例えば、音声信号取得部１１１，１１１ａは、音声入力部１３，１７から取得した音声信号を音声認識部１１２に出力し、音声入力部１３，１７の近傍に配置された超音波を受信するための超音波入力部（図示せず）から取得した超音波信号を音声認識制御部１１３に出力するようにしても良い。ここで、超音波入力部は、例えば、超音波を受信する超音波マイクである。

　なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　この発明に係る音声認識装置は、利用者が音声により入力操作を行う機器に適用することができる。

　１　車両、１０　車載用ナビゲーション装置、１１　航法信号受信機、１２　地図データベース、１３，１７　音声入力部、１４，１９　表示装置、１５，１８　音声出力装置、１６　例文データベース、５０　自動音声対話装置、１００，１００ａ　音声認識装置、１０１　航法信号取得部、１０２　地図情報取得部、１０３　ナビゲーション制御部、１０４，１５６　表示出力部、１０５　音声出力部、１１１，１１１ａ　音声信号取得部、１１２，１１２ａ　音声認識部、１１３，１１３ａ　音声認識制御部、１１４　通知出力部、１５２　マッチング部、１５３　回答作成部、１５４　音声生成部、１５５　回答音声出力部、２０１　プロセッサ、２０２　メモリ、２０３　処理回路。

Claims

　音声入力部から音声信号を取得する音声信号取得部と、
　前記音声信号取得部が取得した前記音声信号に基づいて音声認識を行い、認識結果を出力する音声認識部と、
　前記音声信号取得部が取得した前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御する音声認識制御部と、
　を備えたこと
　を特徴とする音声認識装置。
　前記音声認識制御部は、前記音声信号に前記超音波信号が含まれると判定した場合、前記音声認識部に前記音声認識をさせないよう制御すること
　を特徴とする請求項１に記載の音声認識装置。
　前記音声認識制御部は、前記音声信号に含まれる前記超音波信号が所定の振幅以上である場合、前記音声信号に前記超音波信号が含まれると判定し、前記音声信号に前記超音波信号が含まれると判定している期間の当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御すること
　を特徴とする請求項１に記載の音声認識装置。
　前記音声認識制御部が前記音声信号に基づいた前記認識結果を出力させないよう前記音声認識部を制御する際に、前記認識結果を出力させないよう制御した旨を示す通知情報を生成し、生成した前記通知情報を出力する通知出力部を備えたこと
　を特徴とする請求項１に記載の音声認識装置。
　請求項１から請求項４のいずれか１項に記載の音声認識装置を備え、前記音声認識装置から出力された前記認識結果に基づいて動作する車載用ナビゲーション装置。
　請求項１から請求項４のいずれか１項に記載の音声認識装置を備え、前記音声認識装置から出力された前記認識結果に基づいて動作する自動音声対話装置。
　音声信号取得部が、音声入力部から音声信号を取得し、
　音声認識部が、前記音声信号取得部により取得された前記音声信号に基づいて音声認識を行った認識結果を出力し、
　音声認識制御部が、前記音声信号取得部により取得された前記音声信号に超音波信号が含まれるか否かを判定し、前記音声信号に前記超音波信号が含まれると判定した場合、当該音声信号に基づいた前記認識結果を前記音声認識部から出力させないよう制御すること、
　を特徴とする音声認識方法。