WO2022208783A1

WO2022208783A1 - 音声認識装置及び音声認識方法

Info

Publication number: WO2022208783A1
Application number: PCT/JP2021/013963
Authority: WO
Inventors: 歩未西川
Original assignee: 三菱電機株式会社
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-10-06

Abstract

音声認識装置（１）は、音声認識を開始する操作の有無に拘わらず音声情報を認識して認識結果を出力する音声認識部（１２）と、運転者の発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部（１５）と、認識結果が進行経路の確認である場合に走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部（１９）と、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する応答度合い調整部（２０）と、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない応答生成部（２１）とを備える。

Description

音声認識装置及び音声認識方法

　本開示は、自動車等で用いられる音声認識装置及び音声認識方法に関するものである。

　従来、音声認識装置は、音声認識装置以外に向けられた発話者による発話に対して、誤って応答することを防止するために、発話者が発話する前に、発話者に対して音声認識を開始するための操作を要求する。しかし、発話者は、発話の度に音声認識を開始するための操作を行う必要があるので煩わしさを感じる。そこで、例えば特許文献１では、電子デバイスにおいて仮想アシスタントを動作させる方法であって、ユーザ発話入力に関連する文脈情報に基づいて、ユーザ発話入力に対する応答を提供すべきである尤度スコアを計算し、その尤度スコアが予め定められた閾値以上である場合に、ユーザ発話入力に応答する方法が公開されている。
　(下記特許文献１)。

特開２０１８－１３６５６８

　特許文献１に記載された方法は、車両の走行状況を考慮して尤度スコアを計算していないため、ユーザが車内で音声操作を行う場合に応答精度が低下するという問題がある。

　本開示は、上記のような課題を解決するためになされたもので、車内で音声操作を行う場合に、運転者が音声認識を開始する操作を行うことを不要とするとともに、運転者が希望するときに応答を出力し、希望しないときは応答を出力しないことにより運転者の発話に対する応答精度を向上させることを目的とする。

　本開示に係る音声対話装置は、音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力する音声認識部と、運転者の音声情報又は行動情報を取得する第１情報取得部と、運転者の音声情報又は行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する第１特徴量抽出部と、発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部と、認識結果が進行経路の確認であるか否かを判定して判定結果を出力する認識結果判定部と、判定結果が進行経路の確認であることを示す場合に走行情報を取得する第２情報取得部と、走行情報に基づいて走行環境に関する特徴量を抽出する第２特徴量抽出部と、走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部と、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する応答度合い調整部と、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない応答生成部とを備えるものである。

　本開示によれば、音声認識装置は、運転者にとって進行経路を判断することが困難な状況である場合に、運転者が音声認識装置から情報を得るために、音声認識装置に対して行った発話に応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。

実施の形態１に係る音声認識装置の構成例を示す図である。実施の形態１の応答度合い算出部が定義している発話音量に対応する応答度合いの一例を示す図である。実施の形態１の難易度算出部が定義している走行回数に対応する難易度の一例を示す図である。実施の形態１の応答度合い調整部が定義している難易度に対応する応答度合いの調整値の一例を示す図である。実施の形態１に係る音声認識装置の動作を説明するためのフローチャートである。実施の形態２に係る音声認識装置の構成例を示す図である。実施の形態２の難易度算出部が定義している確認行動の累積時間に対応する難易度の一例を示す図である実施の形態２に係る音声認識装置の動作を説明するためのフローチャートである。実施の形態３に係る音声認識装置の構成例を示す図である。実施の形態３の難易度算出部が定義しているリンクコストに対応する難易度の一例を示す図である実施の形態３に係る音声認識装置の動作を説明するためのフローチャートである。各実施の形態に係る音声認識装置のハードウェア構成例を示す図である

　以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。

実施の形態１．
　図１は、実施の形態１に係る音声認識装置１の構成例を示す図である。音声認識装置１は、運転者による音声認識を開始する操作の有無に拘わらず音声を認識する。音声認識を開始する操作は、例えば、ハンドルに設置された物理的なボタンの押下、ディスプレイに表示されたボタンの押下、予め定められたキーワードの発話等である。

　音声認識装置１は、運転者にとって、例えば右折すべき交差点等の進行経路の判断が困難ではない場合に比して、進行経路の判断が困難である場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、運転者が進行経路を判断することが困難である場合、運転者は音声認識装置１から情報を得るために進行経路を確認する発話を行う可能性が高いためである。

　具体的には、運転者が発話したときに車両が走行している地点を、運転者が過去に走行した回数が多い場合に比して、運転者が過去に走行した回数が少ない場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、運転者にとって走行回数が少ない地点は走行に慣れていないため、進行経路の判断が困難だからである。

　例えば、運転者が進行経路の確認のために「ここを右折かな」と発話した場合、音声認識装置１は、発話した地点を運転者が過去に何度も走行したことがある場合に比して、その地点を初めて走行する場合の方が、運転者の発話に対して応答し易くなる。具体的には、音声認識装置１は、運転者の発話を音声認識装置１に対する発話として認識し、表示装置あるいはスピーカに車両が右折すべきか否かの回答を出力する旨の指示信号を出力し易くなる。

　音声認識装置１には、マイク２、状態検出装置４、識別装置５、位置検出装置６、表示装置７及びスピーカ８が接続されている。また、撮像装置３が状態検出装置４及び識別装置５に接続されている。

　マイク２は、発話者が発した音声を取得してＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換するとともに、変換後の音声情報を出力する。マイク２は、複数個の全指向性マイクで構成されるアレイマイクであり、例えばセンターディスプレイの上部に設置される。

　撮像装置３は、車内の乗員の撮像画像を出力する。撮像装置３は、車内で着座している乗員を撮像することができる場所に設置されていればよい。例えば、撮像装置３は、車両のダッシュボード又は天井部に設置される。

　状態検出装置４は、撮像装置３によって出力された撮像画像を分析することによって、乗員の視線方向、顔向き方向又は姿勢を特定する。状態検出装置４が、撮像画像を分析することによって視線方向、顔向き方向又は姿勢を特定する方法は、周知の技術を用いればよいため説明を省略する。なお、以降の説明では視線方向又は顔向き方向を視線方向等と記載する。

　識別装置５は、撮像装置３によって出力された撮像画像に基づいて、乗員を識別するとともに識別結果として識別情報を出力する。識別装置５が撮像画像に基づいて乗員を登録する方法及び撮像画像に基づいて乗員を識別する方法は、周知の技術を用いればよいため説明を省略する。なお、識別装置５は、マイク２によって出力された音声情報に基づいて乗員の登録及び識別を行ってもよい。

　位置検出装置６は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）衛星から受信した電波に基づいて車両の位置を検出し緯度及び経度（以下「位置情報」と記載する）を出力する。

　表示装置７は、例えばＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）又は有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｓｅ）ディスプレイ等である。表示装置７は、ＬＣＤ又は有機ＥＬディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよいし、ヘッドアップディスプレイであってもよい。

　音声認識装置１は、音声取得部１１、音声認識部１２、第１情報取得部１３、第１特徴量抽出部１４、応答度合い算出部１５、認識結果判定部１６、第２情報取得部１７、第２特徴量抽出部１８、難易度算出部１９、応答度合い調整部２０、及び、応答生成部２１を備える。

　音声取得部１１は、マイク２によって取得された音声情報から、予め定められた方向から発せられた音声情報を抽出する。本実施の形態１では、運転席から発せられた音声情報、即ち運転者の音声情報を抽出するものとする。なお、複数人の音声情報又は騒音が含まれた音声情報から一つの特定の音声情報を抽出する方法は、既存の技術を用いればよいため説明を省略する。

　音声認識部１２は、音声認識を開始する操作の有無に拘わらず、音声取得部１１により取得された音声情報を認識して認識結果を出力する。認識結果には、少なくとも音声の内容に対応する識別子と認識の成功又は失敗を示す情報が含まれる。例えば、運転者が「ここを右折かな」や「ここを右に曲がるの」と発話した場合、音声認識部１２は、運転者が右折地点を確認するために発話したと認識し、認識結果として「右折確認」を示す識別子を出力する。なお、音声認識部１２が音声情報を認識する方法は既存の技術を用いればよいため説明を省略する。

　第１情報取得部１３は、運転者の音声情報又は行動情報を取得する。音声情報は音声取得部１１によって出力された音声情報である。また、行動情報は、状態検出装置４によって出力された視線方向等又は姿勢に関する情報である。第１情報取得部１３は、音声認識部１２によって出力された認識結果を取得する。そして、第１情報取得部１３は、認識結果に認識の成功を示す情報が含まれている場合、即ち音声認識部１２によって音声認識が成功した場合、運転者の発話に対する音声情報又は行動情報を取得する。

　第１特徴量抽出部１４は、第１情報取得部１３によって出力された音声情報又は行動情報に基づいて、発話に関する特徴量又は対話行動に関する特徴量を抽出する。発話に関する特徴量は、例えば、音声の特徴量であり発話音量、ピッチ、明瞭度又は発話速度等である。音声情報を分析して音声の特徴量を抽出する方法は、既存の技術を用いればよいため説明を省略する。

　対話行動に関する特徴量は、例えば、運転者が他の乗員又は音声認識装置と対話を開始するときの意識的な行動又は無意識の行動に関する特徴量である。具体的には、第１特徴量抽出部１４は、第１情報取得部１３によって出力された視線方向の情報に基づいて、運転者の視線方向が、他の乗員の方向又は音声認識装置１の方向のいずれの方向であるか、を判断した結果を特徴量として出力する。

　応答度合い算出部１５は、第１特徴量抽出部１４によって出力された発話に関する特徴量又は対話行動に関する特徴量に基づいて、音声認識部１２によって出力された認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する。

　ここで、応答度合い算出部１５が応答度合いを算出する方法の一例を説明する。応答度合い算出部１５は、発話に関する特徴量として第１特徴量抽出部１４によって出力された発話音量を取得する。そして、応答度合い算出部１５は、発話音量が小さい場合に比して、発話音量が大きい場合の応答度合いが高くなるように応答度合いを算出する。これは、運転者が、音声認識装置１等の機器に対して発話する場合、人に対して発話する場合に比して声を大きくする傾向があるからである。

　応答度合い算出部１５は、発話音量に対応した応答度合いを定義している。例えば、図２に示すように、予め定められた発話音量の範囲に応答度合いを対応付けて定義している。この場合、例えば、図示しないメモリにテーブル形式で記憶される。なお、図２に示した定義は一例に過ぎない。また、応答度合い算出部１５は、応答度合いと発話音量が「０」から「１００」の値をとるものとし、発話音量の値と応答度合いの値とが１対１に対応付くように定義してもよい。また、応答度合い及び発話音量の下限を「０」とし、上限を「１００」としたがこれに限られない。

　応答度合い算出部１５が、応答度合いを算出する方法の他の一例を説明する。応答度合い算出部１５は、第１特徴量抽出部１４から対話行動に関する特徴量として、運転者の視線方向が、同乗者の方向又は音声認識装置１の方向のいずれの方向であるか、を判断した結果を取得する。そして、応答度合い算出部１５は、運転者の視線方向が同乗者の方向である場合に比して、運転者の視線方向が音声認識装置１の方向である場合の応答度合いが高くなるように応答度合いを算出する。すなわち、応答度合い算出部１５は、運転者が同乗者を見ている場合に比して、運転者が音声認識装置１を見ている場合の応答度合いが高くなるように応答度合いを算出する。これは、運転者は応答を期待する対象の方向を向いて発話する可能性が高いからである。

　なお、応答度合いを算出する上述の方法は一例である。応答度合い算出部１５は、一つの特徴量に基づいて応答度合いを算出してもよいし、複数の特徴量に基づいて応答度合いを算出してもよい。応答度合い算出部１５は、複数の特徴量に基づいて応答度合いを算出する場合、例えば、それぞれの特徴量に基づいて算出した応答度合いを合計した値を応答度合いとして出力してもよい。また、応答度合い算出部１５は、発話に関する特徴量又は対話行動に関する特徴量を学習データとして、機械学習によって生成された学習モデルを用いて応答度合いを算出してもよい。

　認識結果判定部１６は、音声認識部１２によって出力された認識結果が進行経路の確認であるか否かを判定して判定結果を出力する。具体的には、認識結果判定部１６は、音声認識部１２によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子であるか否かを判定して判定結果を出力する。進行経路の確認を示す識別子は、例えば、「ここを右折かな」という発話を認識した結果である「右折確認」を示す識別子である。また、他の例としては、「どこで曲がるの」という発話を認識した結果である「進行方向の変更地点確認」を示す識別子である。認識結果判定部１６は、予め進行経路の確認を示す識別子を図示しないメモリに記憶している。そして、認識結果判定部１６は、メモリに記憶された識別子に、音声認識部１２によって出力された識別子と一致する識別子が存在するか否かを判定する。なお、識別子は上述した識別子に限られない。

　第２情報取得部１７は、認識結果判定部１６によって出力された判定結果が、進行経路の確認であることを示す場合に、音声認識装置１に接続された装置から走行情報を取得する。実施の形態１では、第２情報取得部１７は、識別装置５から運転者の識別情報を取得するとともに、位置検出装置６によって出力された車両の位置情報を取得する。

　第２特徴量抽出部１８は、第２情報取得部１７によって出力された走行情報に基づいて走行環境に関する特徴量を抽出する。実施の形態１では、第２特徴量抽出部１８は、走行履歴が格納された走行履歴記憶部９から、第２情報取得部１７によって出力された運転者の識別情報に対応する走行履歴を取得する。そして、第２特徴量抽出部１８は、運転者の走行履歴に基づいて、第２情報取得部１７によって出力された位置情報により特定される地点を、運転者が走行した回数を算出することによって、走行環境に関する特徴量を抽出する。

　具体的には、走行履歴記憶部９は、走行履歴として、走行日と走行経路とを、乗員を特定する識別情報に対応付けて記憶している。第２特徴量抽出部１８は、車両の走行履歴を記憶した走行履歴記憶部９から、運転者の識別情報に対応する走行履歴を取得する。第２特徴量抽出部１８は、位置情報により特定される地点が走行履歴の各走行経路情報に含まれているか否か判定するとともに、含まれている場合は走行回数を１回加算する。なお、第２特徴量抽出部１８は、位置情報により特定される地点が、走行履歴の各走行経路情報に含まれている、かつ走行履歴に含まれている走行日が、図示しない日時計測部から取得した現在の日付より遡って予め定められた期間内である場合に、走行回数を１回加算してもよい。

　なお、走行履歴記憶部９は、図示しないナビゲーション装置に含まれており、第２特徴量抽出部１８は、ナビゲーション装置を介して走行履歴を取得する。また、走行履歴記憶部９は、ネットワーク上のサーバ装置に含まれており、第２特徴量抽出部１８は図示しない通信装置を介して走行履歴を取得するとしてもよい。

　難易度算出部１９は、第２特徴量抽出部１８によって出力された走行環境に関する特徴量に基づいて、運転者が進行経路を判断する困難さを示す度合いである難易度を算出する。進行経路の判断とは、例えば進行方向の変更に関する判断であり、交差点で進行すべき方向の判断や進行方向を変更すべき交差点の判断等である。

　より具体的には、難易度算出部１９は、第２特徴量抽出部１８によって出力された走行回数が多い場合に比して、走行回数が少ない場合に難易度が大きくなるように難易度を算出する。難易度算出部１９は、走行回数が多い場合に比して、走行回数が少ない場合に難易度が大きくなるように難易度を定義している。走行回数が多く走行に慣れている地点に比して、走行回数が少なく走行に慣れていない地点では、運転者は進行経路の判断が困難なためである。これは例えば、図示しないメモリにテーブル形式で記憶される。そして、難易度算出部１９は、第２特徴量抽出部１８によって出力された走行回数に対応する難易度を定義に従って算出する。

　図３は、発話が行われた地点の走行回数に対応付けられた難易度の一例を示す図である。例えば、走行回数が「０」回から「４」回の場合には、難易度「高」を示す「１」が定義されている。一方、走行回数が「５」回以上の場合には、難易度「低」を示す「０」が定義されている。なお、図３に示した定義は一例に過ぎない。図３では難易度が「０（低）」「１（高）」の２段階の例を示したが、３段階以上であってもよい。

　応答度合い調整部２０は、難易度算出部１９によって算出された難易度が低い場合に比して、難易度が高い場合の応答度合いが高くなるように応答度合いを調整する。応答度合い調整部２０は、難易度に対応した調整値を定義している。より具体的には、応答度合い調整部２０は、難易度が低い場合に比して、難易度が高い場合に調整値が大きくなるように調整値を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。

　応答度合い調整部２０は、難易度算出部１９によって算出された難易度に対応する調整値を定義に従って算出する。そして、応答度合い調整部２０は、算出した調整値に基づいて応答度合いを調整することを指示する信号を、応答度合い算出部１５へ出力する。具体的には、応答度合い調整部２０は、応答度合いに調整値を加算又は乗算することによって応答度合いを調整することを指示する信号を、応答度合い算出部１５へ出力する。そして、応答度合い算出部１５は、難易度算出部１９によって出力された指示信号に従って、応答度合いを調整する。

　図４は、難易度に対応付けられた調整値の一例を示す図である。なお、図４の定義は、応答度合い調整部２０が、応答度合いに調整値を加算する場合の一例である。例えば、難易度「１（高）」に対して調整値「２０」が定義されている。一方、「難易度「０（低）」に対して調整値「０」が定義されている。

　なお、図４に示した定義は一例に過ぎない。図４では難易度が２段階であるため、調整値が２段階の場合の例を示したが、難易度の定義に応じて３段階以上としてもよい。また、応答度合い調整部２０が、算出した調整値を応答度合いに乗算することによって応答度合いを調整する場合、応答度合いに乗算される倍率が難易度に対応付けられる調整値として定義される。

　応答生成部２１は、応答度合い算出部１５によって算出された応答度合い、又は応答度合い調整部２０によって調整された応答度合いが、予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに、応答度合い算出部１５によって算出された応答度合い、又は応答度合い調整部２０によって調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない。ここで、出力装置は、表示装置７、スピーカ８又は図示しないナビゲーション装置等の車載機器である。また、認識結果に対する応答とは、例えば、表示装置７に表示する内容、スピーカ８から出力する音声の内容、又は図示しないナビゲーション装置等の車載機器に対する動作命令である。

　次に、実施の形態１に係る音声認識装置１の動作について説明する。図５は、実施の形態１に係る音声認識装置の動作を説明するためのフローチャートである。なお、図５の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。

　なお、ここでは、運転者が初めて走行する地点で進行方向を確認するために、「ここを右折かな」と発話したものとする。また、音声認識部１２による音声認識が成功したものとする。また、応答度合い算出部１５は、図２の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部１９は、図３に示すように走行回数に対する難易度を定義しているものとする。また、応答度合い調整部２０は、図４に示すように難易度に対する調整値を定義しているものとする。また、応答生成部２１が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「５０」であるとする。

　初めに、音声取得部１１は、マイク２によって取得された音声情報から運転者の音声情報を抽出して出力する。（ステップＳＴ１０１）。音声認識部１２は、音声認識を開始する操作の有無に拘わらず、音声取得部１１により出力された音声情報を認識して認識結果を出力する（ステップＳＴ１０２）。ここでは、運転者が「ここを右折かな」と発話しているので、音声認識部１２は、音声認識が成功したことを示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。

　音声認識が成功した場合（ステップＳＴ１０３の”ＹＥＳ”の場合）、音声認識装置１の動作はステップＳＴ１０４へ進む。一方、音声認識が失敗した場合（ステップＳＴ１０３の”ＮＯ”の場合）、音声認識装置１の動作は処理を終了する。音声認識が成功した場合（ステップＳＴ１０３の”ＹＥＳ”の場合）、第１情報取得部１３は、音声取得部１１によって出力された運転者の音声情報又は状態検出装置４によって出力された運転者の行動情報を取得する（ステップＳＴ１０４）。ここでは、第１情報取得部１３は、音声認識部１２から取得した認識結果に、音声認識が成功したこと示す情報が含まれているため、運転者の発話に対する音声情報を音声取得部１１から取得する。

　第１特徴量抽出部１４は、第１情報取得部１３によって出力された音声情報又は行動情報に基づいて、発話に関する特徴量又は対話行動に関する特徴量を抽出する（ステップＳＴ１０５）。ここでは、第１特徴量抽出部１４は、第１情報取得部１３によって出力された音声情報を分析することによって発話音量を抽出する。第１特徴量抽出部１４によって抽出された発話音量は「５０」であるとする。

　応答度合い算出部１５は、第１特徴量抽出部１４によって出力された特徴量に基づいて、音声認識部１２によって出力された認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する（ステップＳＴ１０６）。ここでは、応答度合い算出部１５は、図２の定義に従って発話音量「５０」に対応する応答度合い「４０」を算出する。

　次に、認識結果判定部１６は、音声認識部１２によって出力された認識結果に含まれる識別子が進行経路の確認を示す識別子であるか否かを判定する（ステップＳＴ１０７）。認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合（ステップＳＴ１０７の”ＹＥＳ”の場合）、音声認識装置１の動作は、ステップＳＴ１０８へ進む。これは、運転者にとって進行経路の判断が困難な状況である場合に、進行経路を確認する運転者の発話に対して、音声認識装置１が応答し易くするためである。一方、認識結果に含まれる識別子が、進行経路の確認を示す識別子ではない場合（ステップＳＴ１０７の”ＮＯ”の場合）、音声認識装置１の動作は、ステップＳＴ１１２へ進む。ここでは、認識結果に含まれる識別子が、進行経路の確認を示す識別子「右折確認」であるためステップＳＴ１０８へ進む。

　認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合（ステップＳＴ１０７の”ＹＥＳ”の場合）、第２情報取得部１７は、音声認識装置１に接続された装置から走行情報を取得する。ここでは、第２情報取得部１７は、識別装置５から運転者の識別情報を取得するとともに、位置検出装置６から車両の位置情報を取得する（ステップＳＴ１０８）。

　そして、第２特徴量抽出部１８は、第２情報取得部１７によって出力された走行情報に基づいて走行環境に関する特徴量を抽出する（ステップＳＴ１０９）。具体的には、第２情報取得部１７によって出力された識別情報に基づいて、走行履歴が格納された走行履歴記憶部９から運転者の走行履歴を取得する。その後、第２特徴量抽出部１８は、運転者の走行履歴に基づいて、第２情報取得部１７によって出力された位置情報により特定される地点が、運転者の走行履歴の走行経路情報に含まれている回数を算出し、走行環境に関する特徴量として抽出する。ここでは、運転者にとって初めて走行する道路であるため、第２特徴量抽出部１８は、走行回数「０」を出力する。

　難易度算出部１９は、第２特徴量抽出部１８によって出力された走行回数に対応した難易度を定義に従って算出する（ステップＳＴ１１０）。ここでは、難易度算出部１９は、図３に示す定義に従って、走行回数「０」に対応する難易度「１」を算出して出力する。

　応答度合い調整部２０は、難易度算出部１９によって算出された難易度に対応する調整値を定義に従って算出する。そして、応答度合い調整部２０は、算出した調整値に基づいて応答度合いを調整することを指示する信号を、応答度合い算出部１５へ出力する。そして、応答度合い算出部１５は、応答度合い調整部２０によって出力された指示信号に従って、応答度合いを調整する（ステップＳＴ１１１）。ここでは、応答度合い調整部２０は、図４に示す定義に従って、難易度「１」に対応する調整値「２０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「２０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、算出した応答度合い「４０」に調整値「２０」を加算し、調整後の応答度合いとして「６０」を算出する。

　応答度合い調整部２０が、応答度合いを調整することによって、運転者にとって進行経路の判断が困難な地点で、進行経路を確認する発話に対して音声認識装置１が応答し易くなる。

　応答生成部２１は、応答度合い算出部１５によって算出された応答度合い、又は応答度合い調整部２０によって調整された応答度合いが、予め定められた閾値以上であるか否かを判断する（ステップＳＴ１１２）。応答度合い算出部１５によって算出された応答度合い、又は応答度合い調整部２０によって調整された応答度合いが、予め定められた閾値以上である場合（ステップＳＴ１１２の”ＹＥＳ”の場合）、応答生成部２１は、運転者の発話が音声認識装置１に対するものとして、認識結果に対する応答を生成して出力装置へ出力する（ステップＳＴ１１３）。一方、応答度合い算出部１５によって算出された応答度合い、又は応答度合い調整部２０によって調整された応答度合いが、予め定められた閾値未満である場合（ステップＳＴ１１２の”ＮＯ”の場合）、運転者の発話が音声認識装置１に対するものではないとして、認識結果に対する応答を出力装置へ出力することなく処理を終了する。

　ここでは、応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「６０」が閾値「５０」以上であるため、運転者が音声認識装置１に対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する。例えば、応答生成部２１は、車両が右折すべき地点を表示装置７あるいはスピーカ８等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部２１は、表示装置７あるいはスピーカ８と共働して車両が右折すべき地点を出力する。

　このように、音声認識装置１から進行経路に関する情報を得るために、運転者が行った発話の音量が小さい場合であっても、運転者が、過去の走行回数が少ない地点を走行している場合、音声認識装置１は、運転者にとって進行経路の判断が困難であるから、運転者が、進行経路に関する情報を得るために音声認識装置１に対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。

　次に、運転者が過去に１０回走行している地点で「ここを右折かな」と発話した場合について説明する。なお、応答度合い算出部１５が定義している応答度合い、難易度算出部１９が定義している難易度、応答度合い調整部２０が定義している調整値、及び応答生成部２１が用いる予め定められた閾値は、上述の場合と同様であるとする。また、音声認識部１２による音声認識が成功したものとする。

　ステップＳＴ１０１からステップＳＴ１０８の処理は上述と同様であるため説明を省略する。第２特徴量抽出部１８は、運転者の走行履歴に基づいて、第２情報取得部１７によって出力された位置情報により特定される地点が、運転者の走行履歴の走行経路情報に含まれている回数「１０」を算出し、特徴量として抽出する（ステップＳＴ１０９）。

　難易度算出部１９は、第２特徴量抽出部１８により出力された走行回数「１０」に対応する難易度「０」を算出して出力する（ステップＳＴ１１０）。

　応答度合い調整部２０は、図４に示す定義に従って、難易度「０」に対応する調整値「０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、応答度合い「４０」に調整値「０」を加算し、調整後の応答度合いとして「４０」を算出する。（ステップＳＴ１１１）。運転者にとって進行経路の判断が困難ではない地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置１に対する発話ではない可能性が高くなるためである。

　応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「４０」が、予め定められた閾値「５０」未満であるので、運転者が音声認識装置１に対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する（ステップＳＴ１１２の”ＮＯ”の場合）。

　以上のように、実施の形態１に係る音声認識装置１は、音声取得部１１、音声認識部１２、第１情報取得部１３、第１特徴量抽出部１４、応答度合い算出部１５、認識結果判定部１６、第２情報取得部１７、第２特徴量抽出部１８、難易度算出部１９、応答度合い調整部２０、応答生成部２１を備える。音声認識部１２は、音声認識を開始する操作の有無に拘わらず音声取得部１１により取得された音声情報を認識して認識結果を出力する。第１情報取得部１３は、運転者の音声情報又は行動情報を取得する。第１特徴量抽出部１４は、運転者の音声情報又は行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する。応答度合い算出部１５は、発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する。認識結果判定部１６は、認識結果が進行経路の確認であるか否かを判定して判定結果を出力する。第２情報取得部１７は、判定結果が進行経路の確認であることを示す場合に走行情報を取得する。第２特徴量抽出部１８は、走行情報に基づいて走行環境に関する特徴量を抽出する。難易度算出部１９は、走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する。応答度合い調整部２０は、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する。応答生成部２１は、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない。

　これにより、音声認識装置１は、運転者にとって進行経路を判断することが困難な状況である場合に、運転者が音声認識装置１から情報を得るために、音声認識装置１に対して行った進行経路を確認する発話に応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。

　また、実施の形態１の第２情報取得部１７は、乗員を識別する識別装置から運転者の識別情報を取得するとともに位置検出装置６から車両の位置情報を取得する。第２特徴量抽出部１８は、走行履歴が格納された走行履歴記憶部９から運転者の識別情報に対応する走行履歴を取得するとともに運転者の走行履歴に基づいて車両の位置情報により特定される地点を運転者が走行した走行回数を抽出する。難易度算出部１９は、走行回数が多い場合に比して走行回数が少ない場合に難易度が大きくなるように難易度を算出する。

　これにより、音声認識装置１は、運転者が、走行に慣れていない地点であるために進行経路を判断することが困難な状況で、進行経路を確認する発話を行った場合に、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。

実施の形態２．
　図６は、実施の形態２に係る音声認識装置１ａの構成例を示す図である。実施の形態２に係る音声認識装置１ａは、図１に示された実施の形態１の音声認識装置１に確認行動抽出部２２が追加された構成である。図６において図１と同一又は相当する部分は、同一の符号を付し説明を省略する。

　実施の形態２に係る音声認識装置１ａは、運転者が進行経路の確認を意図した発話をする前の予め定められた期間に運転者によって行われた、進行経路を確認するための行動（以下「確認行動」と記載する）を運転者の視線方向等又は姿勢に基づいて抽出する。そして、音声認識装置１ａは、確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に、運転者の発話に対して応答し易くするものである。

　例えば、運転者が進行経路を確認するために「ここを右折かな」と発話したとする。音声認識装置１ａは、運転者の発話前の予め定められた期間に、運転者が前傾していた累積時間を算出する。ここで運転者が前傾している状態は、進行経路を確認するための行動、すなわち確認行動の一例である。そして、音声認識装置１ａは、運転者が前傾していた累積時間が短い場合に比して、累積時間が長い場合の方が運転者の発話に対して応答し易くなる。具体的には、音声認識装置１ａは、運転者の発話を音声認識装置１ａに対する発話として認識し、表示装置あるいはスピーカに車両が右折すべきか否かの回答を出力する旨の指示信号を出力し易くなる。これは、運転者が確認行動を行う時間が長い場合、運転者が進行経路の判断を迷っている可能性が高いからである。
　即ち実施の形態２は走行環境に関する特徴量として、確認行動の累積時間を用いるものである。

　確認行動抽出部２２は、状態検出装置４から取得した運転者の視線方向等又は姿勢に関する情報に基づいて、運転者が進行経路を確認する確認行動を抽出する。ここで、確認行動とは、例えば、運転者が体を前に乗り出す行動や進行したい方向へ視線を向ける行動である。そして、確認行動抽出部２２は、確認行動の開始時刻と終了時刻を確認行動に関する情報として記憶する。なお、確認行動抽出部２２による確認行動の抽出及び確認行動に関する情報の記憶は、キーオンになってからキーオフになるまでの間、常に繰り返される。

　確認行動抽出部２２は、状態検出装置４から運転者の視線方向等に関する情報を取得する。視線方向等に関する情報とは、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度である。なお、状態検出装置４が、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度を算出する方法は、周知の技術を用いればよいため説明を省略する。

　確認行動抽出部２２は、状態検出装置４から取得した、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度が、予め定められた角度以上となった場合、確認行動が開始されたと判断するとともに、開始時刻を記憶する。一方、確認行動抽出部２２は、確認行動が開始された後、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度が、予め定められた角度未満となった場合、確認行動が終了されたと判断するとともに、終了時刻を記憶する。

　確認行動抽出部２２は、状態検出装置４から運転者の姿勢に関する情報を取得する。姿勢に関する情報とは、基準姿勢からの前後方向の傾きを示す角度である。ここで、基準姿勢とは例えば、運転者の顔の位置が、あらかじめ設定された領域内にある場合の姿勢である。なお、基準姿勢の定義はこれに限られない。また、状態検出装置４が、基準姿勢からの前後方向の傾きを示す角度を算出する方法は、周知の技術を用いればよいため説明を省略する。

　確認行動抽出部２２は、基準姿勢から前方への傾きを示す角度が予め定められた角度以上となった場合、確認行動が開始されたと判断するとともに、開始時刻を記憶する。一方、確認行動抽出部２２は、確認行動が開始された後、基準姿勢から前方への傾きを示す角度が予め定められた角度未満となった場合、確認行動が終了されたと判断するとともに、終了時刻を記憶する。

　第２情報取得部１７ａは、認識結果判定部１６によって出力された判定結果が、進行経路の確認であることを示す場合に、確認行動抽出部２２から、予め定められた期間の確認行動に関する情報を取得する。予め定められた期間は、第２情報取得部１７ａが、認識結果判定部１６によって出力された判定結果を取得した時点から遡って１０秒間である。なお、１０秒間は一例でありこれに限られない。

　第２特徴量抽出部１８ａは、第２情報取得部１７ａによって取得された確認行動に関する情報に基づいて、確認行動の累積時間を算出し、走行環境に関する特徴量として抽出する。具体的には、第２特徴量抽出部１８ａは、第２情報取得部１７ａによって取得された確認行動の開始時刻から終了時刻の差を算出する。なお、確認行動が複数回行われている場合は、第２特徴量抽出部１８ａは、各確認行動の開始時刻と終了時刻の差を算出し、各々の算出結果を加算することによって累積時間を算出すればよい。

　難易度算出部１９ａは、第２特徴量抽出部１８ａによって出力された確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に難易度が大きくなるように難易度を算出する。これは、運転者が確認行動を行う時間が長い場合、運転者が進行経路の判断を迷っている可能性が高いからである。

　難易度算出部１９ａは、確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に難易度が大きくなるように難易度を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。難易度算出部１９ａは、第２特徴量抽出部１８ａによって出力された確認行動の累積時間に対応する難易度を定義に従って算出する。

　図７は、確認行動の累積時間に対応付けられた難易度の一例を示す図である。例えば、確認行動の累積時間が３秒以上の場合には、難易度「高」を示す「１」が定義されている。一方、確認行動の累積時間が０秒から３秒未満の場合には、難易度「低」を示す「０」が定義されている。なお、図７に示した定義は一例に過ぎない。図７では難易度が「０（低）」「１（高）」の２段階の例を示したが、３段階以上であってもよい。また、確認行動の種類に応じて確認行動の累積時間に対する難易度を定義してもよい。

　次に、実施の形態２に係る音声認識装置１ａの動作について説明する。図８は、実施の形態２に係る音声認識装置１ａの動作を説明するためのフローチャートである。なお、図８の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。

　図８のフローチャートにおけるステップＳＴ２０１からステップＳＴ２０７の処理及び、ステップＳＴ２１１からステップＳＴ２１３の処理は、図１のフローチャートにおけるステップＳＴ１０１からステップＳＴ１０７の処理及び、ステップＳＴ１１１からステップＳＴ１１３の処理と同じであるため説明を省略する。

　音声認識部１２によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合（ステップＳＴ２０７の”ＹＥＳ”の場合）、第２情報取得部１７ａは、確認行動抽出部２２から、予め定められた期間に確認行動抽出部２２によって抽出された確認行動に関する情報を取得する（ステップＳＴ２０８）。

　第２特徴量抽出部１８ａは、第２情報取得部１７ａによって取得された確認行動に関する情報に基づいて、認行動の累積時間を算出し、走行環境に関する特徴量として抽出する（ステップＳＴ２０９）。

　難易度算出部１９ａは、第２特徴量抽出部１８ａによって出力された確認行動の累積時間に対応した難易度を定義に従って算出する（ステップＳＴ２１０）。

　ここでは、運転者が「ここを右折かな」と発話したものとする。また、音声認識部１２による音声認識が成功したものとする。また、運転者が発話する前の１０秒間の確認行動の累積時間は４秒であるとする。また、応答度合い算出部１５は、図２の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部１９ａは、図７に示すように確認行動の累積時間に対応する難易度を定義しているものとする。また、応答度合い調整部２０は、図４に示すように難易度に対する調整値を定義しているものとする。また、応答生成部２１が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「５０」であるとする。

　音声認識部１２は、音声取得部１１により取得された音声情報を認識して、認識成功を示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。また、第１特徴量抽出部１４は、発話音量「５０」を抽出する。また、応答度合い算出部１５は、発話音量「５０」に対応する応答度合い「４０」を算出し出力する（ステップＳＴ２０１～ステップＳＴ２０６）。そして、認識結果に含まれる識別子が、進行経路の確認を示す識別子であるので、音声認識装置１ａの動作はステップＳＴ２０８へ進む（ステップＳＴ２０７の”ＹＥＳ”の場合）。

　第２特徴量抽出部１８ａは、第２情報取得部によって取得された確認行動に関する情報に基づいて確認行動の累積時間「４」を算出し、出力する。そして、難易度算出部１９ａは、図７に示す定義に従って、確認行動の累積時間「４」に対応する難易度「１」を算出し、出力する（ステップＳＴ２０８～ステップＳＴ２１０）。

　応答度合い調整部２０は、図４の定義に従って難易度「１」に対応する調整値「２０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「２０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、算出した応答度合い「４０」に調整値「２０」を加算し、調整後の応答度合いとして「６０」を算出する（ステップＳＴ２１１）。

　応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「６０」が、予め定められた閾値「５０」以上であるため（ステップＳＴ２１２の”ＹＥＳ”の場合）、運転者が音声認識装置１ａに対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する（ステップＳＴ２１３）。例えば、応答生成部２１は、車両が右折すべき地点を表示装置７あるいはスピーカ８等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部２１は、表示装置７あるいはスピーカ８と共働して車両が右折すべき地点を運転者に対して出力する。

　このように、音声認識装置１ａから進行経路に関する情報を得るために運転者が行った発話の音量が小さい場合であっても、運転者が発話をする前に行った確認行動の時間が長い場合、音声認識装置１ａは、運転者が進行経路の判断を迷っており、進行経路に関する情報を得るために音声認識装置１ａに対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。

　次に、運転者が発話する前の１０秒間の確認行動の累積時間が２秒である場合について説明する。

　ステップＳＴ２０１からステップＳＴ２０８の処理は上述と同様であるため説明を省略する。第２特徴量抽出部１８ａは、第２情報取得部１７ａによって取得された確認行動に関する情報に基づいて、確認行動の累積時間を抽出し、累積時間「２」を出力する（ステップＳＴ２０９）。そして、難易度算出部１９ａは、図７に示す定義に従って、確認行動の累積時間「２」に対応する難易度「０」を算出し、出力する（ステップＳＴ２１０）。

　続いて、ステップＳＴ２１１からステップＳＴ２１３の処理が実行された結果、応答度合い調整部２０は、図４の定義に従って難易度「０」に対応する調整値「０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、応答度合い「４０」に調整値「０」を加算し、調整後の応答度合いとして「４０」を算出する（ステップＳＴ２１１）。

　応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「４０」が、予め定められた閾値「５０」未満であるので、運転者が音声認識装置１ａに対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する（ステップＳＴ２１２の”ＮＯ”）。これは、運転者が進行経路の判断を迷っている可能性が低い地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置１ａに対する発話ではない可能性が高いためである。

　以上のように、実施の形態２に係る音声認識装置１ａは、確認行動抽出部２２を備える。確認行動抽出部２２は、乗員の視線方向又は姿勢を検出する状態検出装置４から取得した運転者の視線方向又は顔向き方向又は姿勢に関する情報に基づいて、進行経路を確認するための確認行動を抽出するとともに確認行動に関する情報を記憶する。第２情報取得部１７ａは、予め定められた期間に対応する確認行動に関する情報を確認行動抽出部２２から取得する。第２特徴量抽出部１８ａは、第２情報取得部１７ａによって取得された確認行動に関する情報に基づいて確認行動の累積時間を抽出する。難易度算出部１９ａは、確認行動の累積時間が少ない場合に比して確認行動の累積時間が多い場合に難易度が大きくなるように難易度を算出する。

　これにより、音声認識装置１ａは、進行経路を確認する発話を行う前に、運転者が姿勢を前傾させる等というような進行経路の確認行動を行う時間が長い場合に、運転者が進行経路の判断を迷っている可能性が高いとして、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。

実施の形態３．
　図９は、実施の形態３に係る音声認識装置１ｂの構成例を示す図である。図９において図１と同一又は相当する部分は、同一の符号を付し説明を省略する。

　実施の形態３に係る音声認識装置１ｂは、運転者が発話した地点を含む道路のリンクコストが小さい場合に比して、リンクコストが大きい場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。

　具体的には、音声認識装置１ｂは、道幅又は交通量に関するリンクコストが小さい場合に比して、道幅又は交通量に関するリンクコストが大きい場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、道路の幅が狭い細街路等は、見通しが悪く進行経路の判断が困難であると考えられるためである。また、交通量が多い道路では、自車両の周辺に多くの他車両が存在するため、見通しが悪く進行経路の判断が困難であると考えられるためである。
　即ち実施の形態３は走行環境に関する特徴量として、リンクコストを用いるものである。

　第２情報取得部１７ｂは、認識結果判定部１６によって出力された判定結果が、進行経路の確認であることを示す場合に、位置検出装置６によって出力された車両の位置情報を取得する。

　地図情報記憶部１０は、カーナビゲーション装置が用いる地図情報を記憶している。地図情報記憶部１０は、図示しないカーナビゲーション装置に含まれていてもよいし、ネットワーク上のサーバ装置に含まれていてもよい。本実施の形態では、ナビゲーション装置に含まれているものとして説明する。

　地図情報には、カーナビゲーション装置が目的地までの経路探索の際に用いるリンクコストが含まれている。リンクコストは、道路長、道路種別、車線数、道路幅、カーブの曲率、勾配等から予め定められた計算式によって算出される。ここでは、リンクコストは、カーナビゲーション装置が、運転し易い経路を探索するために用いるリンクコストであるとする。例えば、道路の幅が広い道路のリンクコストに比して、道路幅が狭い道路のリンクコストが大きくなるようにリンクコストが設定されている。また、交通量が少ない道路のリンクコストに比して、交通量が多い道路のリンクコストが大きくなるように設定されていてもよい。なお、一つのリンクに対して複数の種類のリンクコストが設定されていてもよい。なお、リンクコストの種類やリンクコストの計算式については周知の技術であるため説明を省略する。

　第２特徴量抽出部１８ｂは、第２情報取得部１７ｂによって出力された車両の位置情報を取得する。そして、第２特徴量抽出部１８ｂは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部１０から取得し、走行環境に関する特徴量として抽出する。なお、第２特徴量抽出部１８ｂは、ナビゲーション装置を介してリンクコストを取得するものとする。

　難易度算出部１９ｂは、第２特徴量抽出部１８ｂによって出力されたリンクコストが小さい場合に比して、リンクコストが大きい場合に難易度が大きくなるように難易度を算出する。これは、道路の幅が狭い細街路等は、見通しが悪く進行経路の判断が困難であると考えられるためである。また、交通量が多い道路では、自車両の周辺に他車両が多く存在するため、見通しが悪く進行経路の判断が困難であると考えられるためである。

　難易度算出部１９ｂは、リンクコストが小さい場合に比して、リンクコストが大きい場合に難易度が大きくなるように難易度を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。難易度算出部１９ｂは、第２特徴量抽出部１８ｂによって出力されたリンクコストに対応する難易度を定義に従って算出する。

　図１０は、リンクコストに対応付けられた難易度の一例を示す図である。例えば、リンクコストが「０」から「５０」の場合には、難易度「低」を示す「０」が定義されている。一方、リンクコストが「５１」から「１００」の場合には、難易度「高」を示す「１」が定義されている。なお、図１０に示した定義は一例に過ぎない。図１０では難易度が「０（低）」「１（高）」の２段階の例を示したが、３段階以上であってもよい。

　次に、実施の形態３に係る音声認識装置１ｂの動作について説明する。図１１は、実施の形態３に係る音声認識装置１ｂの動作を説明するためのフローチャートである。図１１の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。

　図１０のフローチャートにおけるステップＳＴ３０１からステップＳＴ３０７の処理及び、ステップＳＴ３１１からステップＳＴ３１３の処理は、図１のフローチャートにおけるステップＳＴ１０１からステップＳＴ１０７の処理及び、ステップＳＴ１１１からステップＳＴ１１３の処理と同じであるため説明を省略する。

　音声認識部１２によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合（ステップＳＴ３０７の”ＹＥＳ”の場合）、第２情報取得部１７ｂは、位置検出装置６によって出力された車両の位置情報を取得する（ステップＳＴ３０８）。

　第２特徴量抽出部１８ｂは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部１０から取得し、走行環境に関する特徴量として抽出する（ステップＳＴ３０９）。

　難易度算出部１９ｂは、第２特徴量抽出部１８ｂにより出力されたリンクコストに対応した難易度を定義に従って算出する（ステップＳＴ３１０）。

　ここでは、運転者が「ここを右折かな」と発話したものとする。また、音声認識部１２による音声認識が成功したものとする。また、リンクコストは、道路の道幅に基づいて設定されているものとし、運転者が発話した地点を含む道路のリンクコストは「６０」であるとする。また、応答度合い算出部１５は、図２の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部１９ｂは、図１０に示すようにリンクコストに対する難易度を定義しているものとする。また、応答度合い調整部２０は、図４に示すように難易度に対する調整値を定義しているものとする。また、応答生成部２１が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「５０」であるとする。

　音声認識部１２は、音声取得部１１により取得された音声情報を認識して、認識成功を示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。また、第１特徴量抽出部１４は、発話音量「５０」を抽出する。また、応答度合い算出部１５は、発話音量「５０」に対応する応答度合い「４０」を算出し出力する（ステップＳＴ３０１～ステップＳＴ３０６）。そして、認識結果に含まれる識別子が、進行経路の確認を示す識別子であるので、音声認識装置１ｂの動作はステップＳＴ３０８へ進む（ステップＳＴ３０７の”ＹＥＳ”の場合）。

　第２情報取得部１７ｂは、位置検出装置６によって出力された車両の位置情報を取得する（ステップＳＴ３０８）。そして、第２特徴量抽出部１８ｂは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部１０から取得し、走行環境に関する特徴量として抽出する（ステップＳＴ３０９）。ここでは、第２特徴量抽出部１８ｂは、リンクコスト「６０」を抽出し、出力する。そして、難易度算出部１９ｂは、図１０に示す定義に従って、リンクコスト「６０」に対応する難易度「１」を算出し、出力する（ステップＳＴ３１０）。

　応答度合い調整部２０は、図４の定義に従って難易度「１」に対応する調整値「２０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「２０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、応答度合い「４０」に調整値「２０」を加算し、調整後の応答度合いとして「６０」を算出する（ステップＳＴ３１１）。

　応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「６０」が、予め定められた閾値「５０」以上であるため（ステップＳＴ３１２の”ＹＥＳ”の場合）、運転者が音声認識装置１ｂに対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する（ステップＳＴ３１３）。例えば、応答生成部２１は、車両が右折すべき地点を表示装置７あるいはスピーカ８等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部２１は、表示装置７あるいはスピーカ８と共働して車両が右折すべき地点を運転者に対して出力する。

　このように、音声認識装置１ｂから進行経路に関する情報を得るために運転者が行った発話の音量が小さい場合であっても、運転者が発話した地点を含む道路のリンクコストが大きい場合、音声認識装置１ｂは、運転者にとって進行経路の判断が困難であり、進行経路に関する情報を得るために音声認識装置１ｂに対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。

　次に、運転者が発話した地点を含む道路のリンクコストが「３０」である場合について説明する。

　ステップＳＴ３０１からステップＳＴ３０８の処理は上述と同様であるため説明を省略する。第２特徴量抽出部１８ｂは、地図情報記憶部１０からリンクコスト「３０」を取得する（ステップＳＴ３０９）。そして、難易度算出部１９ｂは、図１０に示す定義に従って、リンクコスト「３０」に対応する難易度「０」を算出し、出力する（ステップＳＴ３１０）。

　続いて、ステップＳＴ３１１からステップＳＴ３１３の処理が実行された結果、応答度合い調整部２０は、図４の定義に従って難易度「０」に対応する調整値「０」を算出する。そして、応答度合い調整部２０は、応答度合い算出部１５が算出した応答度合いに、調整値「０」を加算することを指示する信号を、応答度合い算出部１５へ出力する。その後、応答度合い算出部１５は、応答度合い「４０」に調整値「０」を加算し、調整後の応答度合いとして「４０」を算出する（ステップＳＴ３１１）。

　応答生成部２１は、応答度合い調整部２０によって調整された応答度合い「４０」が閾値「５０」未満であるので、運転者が音声認識装置１ｂに対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する（ステップＳＴ３１２の”ＮＯ”の場合）。これは、運転者にとって進行経路の判断が困難ではない地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置１ｂに対する発話ではない可能性が高いためである。

　以上のように、実施の形態３に係る音声認識装置１ｂでは、第２情報取得部１７ｂは位置検出装置６から車両の位置情報を取得する。第２特徴量抽出部１８ｂは、地図情報が格納された地図情報記憶部１０から、車両の位置情報により特定される地点を含む道路のリンクコストを抽出する。難易度算出部１９ｂは、リンクコストが小さい場合に比してリンクコストが大きい場合に難易度が大きくなるように難易度を算出する。

　これにより、音声認識装置１ｂは、道幅が狭いために見通しが悪い道路、又は交通量が多いために見通しが悪い道路のような、運転手が進行経路を判断することが困難な状況で、進行経路を確認する発話を行った場合に、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。

　図１２Ａ、図１２Ｂは、実施の形態１から実施の形態３に係る音声認識装置１、１ａ、１ｂのハードウェア構成の一例を示す図である。実施の形態１に係る音声認識装置１と、実施の形態２に係る音声認識装置１ａと、実施の形態３に係る音声認識装置１ｂとは、同様のハードウェア構成を有する。
　実施の形態１から実施の形態３において、音声取得部１１と、音声認識部１２と、第１情報取得部１３と、第１特徴量抽出部１４と、応答度合い算出部１５と、認識結果判定部１６と、第２情報取得部１７、１７ａ、１７ｂと、第２特徴量抽出部１８、１８ａ、１８ｂと、難易度算出部１９、１９ａ、１９ｂと、応答度合い調整部２０と、応答生成部２１と、確認行動抽出部２２の機能は、処理回路３１により実現される。すなわち、音声認識装置１、１ａ、１ｂは、進行経路の確認を意図した運転者の発話に対して応答すべきか否かを決定し、応答すべきと決定した場合に応答を生成する制御を行うための処理回路３１を備える。
　処理回路３１は、図１２Ａに示すように専用のハードウェアであっても、図１２Ｂに示すようにメモリ３５に格納されるプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３４であってもよい。

　処理回路３１が専用のハードウェアである場合、処理回路３１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はこれらを組み合わせたものが該当する。

　処理回路３１がＣＰＵ３４の場合、音声取得部１１と、音声認識部１２と、第１情報取得部１３と、第１特徴量抽出部１４と、応答度合い算出部１５と、認識結果判定部１６と、第２情報取得部１７、１７ａ、１７ｂと、第２特徴量抽出部１８、１８ａ、１８ｂと、難易度算出部１９、１９ａ、１９ｂと、応答度合い調整部２０と、応答生成部２１と、確認行動抽出部２２の機能は、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、音声取得部１１と、音声認識部１２と、第１情報取得部１３と、第１特徴量抽出部１４と、応答度合い算出部１５と、認識結果判定部１６と、第２情報取得部１７、１７ａ、１７ｂと、第２特徴量抽出部１８、１８ａ、１８ｂと、難易度算出部１９、１９ａ、１９ｂと、応答度合い調整部２０と、応答生成部２１と、確認行動抽出部２２は、メモリ３５等に記憶されたプログラムを実行するＣＰＵ３４、又はシステムＬＳＩ（Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等の処理回路により実現される。また、メモリ３５等に記憶されたプログラムは、音声取得部１１と、音声認識部１２と、第１情報取得部１３と、第１特徴量抽出部１４と、応答度合い算出部１５と、認識結果判定部１６と、第２情報取得部１７、１７ａ、１７ｂと、第２特徴量抽出部１８、１８ａ、１８ｂと、難易度算出部１９、１９ａ、１９ｂと、応答度合い調整部２０と、応答生成部２１と、確認行動抽出部２２の手順や方法をコンピュータに実行させるものであるとも言える。ここで、メモリ３５とは、例えば、ＲＡＭ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の、不揮発性もしくは揮発性の半導体メモリ、又は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等が該当する。

　なお、音声取得部１１と、音声認識部１２と、第１情報取得部１３と、第１特徴量抽出部１４と、応答度合い算出部１５と、認識結果判定部１６と、第２情報取得部１７、１７ａ、１７ｂと、第２特徴量抽出部１８、１８ａ、１８ｂと、難易度算出部１９、１９ａ、１９ｂと、応答度合い調整部２０と、応答生成部２１と、確認行動抽出部２２の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。
　また、音声認識装置１、１ａ、１ｂは、マイク２、状態検出装置４、識別装置５、位置検出装置６、又は、表示装置７、スピーカ８等との通信を行う、入力インタフェース装置３２、及び、出力インタフェース装置３３を有する。

　また、以上の実施の形態１から実施の形態３では、マイク２は、アレイマイクであるとし１つのアレイマイクが車内に設置されているものとしたが、これは一例に過ぎない。マイク２は、例えば、運転席の前方に設置されており運転者が発話した音声を収集することができる位置に設置されている指向性マイクとしてもよい。

　また、以上の実施の形態１から実施の形態３では、音声認識部１２は、音声認識装置１、１ａ、１ｂに備えられるとしたが、音声認識装置１、１ａ、１ｂとネットワークを介して接続された図示しないサーバ装置に備えられるとしてもよい。この場合、音声認識装置１、１ａ、１ｂは、音声取得部１１によって出力された音声情報を、ネットワークを介してサーバ装置に送信するとともに、サーバ装置からネットワークを介して音声認識部１２により出力された認識結果を受信するとしてもよい。　

　なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　この発明に係る音声認識装置は、音声認識を開始する操作の有無に拘わらず、発話に対して音声認識処理を行う機器等に適用可能である。

　１　音声認識装置、２　マイク、３　撮像装置、４　状態検出装置、５　識別装置、６　位置検出装置、７　表示装置、８　スピーカ、９　走行履歴記憶部、１０　地図情報記憶部、１１　音声取得部、１２　音声認識部、１３　第１情報取得部、１４　第１特徴量抽出部、１５　応答度合い算出部、１６　認識結果判定部、１７　第２情報取得部、１８　第２特徴量抽出部、１９、難易度算出部、２０　応答度合い調整部、２１　応答生成部、２２　確認行動抽出部、３１　処理回路、３２　入力インタフェース装置、３３　出力インタフェース装置、３４　ＣＰＵ、３５　メモリ　

Claims

　音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力する音声認識部と、
　運転者の音声情報又は行動情報を取得する第１情報取得部と、
　前記運転者の前記音声情報又は前記行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する第１特徴量抽出部と、
　前記発話に関する特徴量又は前記対話行動に関する特徴量に基づいて前記認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部と、
　前記認識結果が進行経路の確認であるか否かを判定して判定結果を出力する認識結果判定部と、
　前記判定結果が進行経路の確認であることを示す場合に走行情報を取得する第２情報取得部と、
　前記走行情報に基づいて走行環境に関する特徴量を抽出する第２特徴量抽出部と、
　前記走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部と、
　前記難易度が低い場合に比して前記難易度が高い場合の前記応答度合いが高くなるように前記応答度合いを調整する応答度合い調整部と、
　前記調整された前記応答度合いが予め定められた閾値以上である場合に前記認識結果に対する応答を生成して出力装置へ出力するとともに前記調整された前記応答度合いが予め定められた閾値未満である場合に前記認識結果に対する応答を出力装置へ出力しない応答生成部と、
　を備えることを特徴とする音声認識装置。
　前記第２情報取得部は乗員を識別する識別装置から前記運転者の識別情報を取得するとともに位置検出装置から車両の位置情報を取得し、
　前記第２特徴量抽出部は走行履歴が格納された走行履歴記憶部から前記運転者の識別情報に対応する走行履歴を取得するとともに前記運転者の走行履歴に基づいて前記車両の位置情報により特定される地点を前記運転者が走行した走行回数を抽出し、
　前記難易度算出部は前記走行回数が多い場合に比して前記走行回数が少ない場合に前記難易度が大きくなるように前記難易度を算出する請求項１記載の音声認識装置。
　乗員の視線方向又は顔向き方向又は姿勢を検出する状態検出装置から取得した前記運転者の視線方向又は顔向き方向又は姿勢に関する情報に基づいて進行経路を確認するための確認行動を抽出とともに前記確認行動に関する情報を記憶する確認行動抽出部を備え、
　前記第２情報取得部は予め定められた期間に対応する前記確認行動に関する情報を前記確認行動抽出部から取得し、
　前記第２特徴量抽出部は前記第２情報取得部によって取得された前記確認行動に関する情報に基づいて前記確認行動の累積時間を抽出し、
　前記難易度算出部は前記確認行動の累積時間が少ない場合に比して前記確認行動の累積時間が多い場合に前記難易度が大きくなるように前記難易度を算出する請求項１記載の音声認識装置。
　前記第２情報取得部は位置検出装置から車両の位置情報を取得し、
　前記第２特徴量抽出部は地図情報が格納された地図情報記憶部から前記位置情報により特定される地点を含む道路のリンクコストを抽出し、
　前記難易度算出部は前記リンクコストが小さい場合に比して前記リンクコストが大きい場合に前記難易度が大きくなるように前記難易度を算出する請求項１記載の音声認識装置。
　音声認識部が、音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力するステップと、
　第１情報取得部が、運転者の音声情報又は行動情報を取得するステップと、
　第１特徴量抽出部が、前記運転者の前記音声情報又は前記行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出するステップと、
　応答度合い算出部が、前記発話に関する特徴量又は前記対話行動に関する特徴量に基づいて前記認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出するステップと、
　認識結果判定部が、前記認識結果が進行経路の確認であるか否かを判定して判定結果を出力するステップと、
　第２情報取得部が、前記判定結果が進行経路の確認であることを示す場合に走行情報を取得するステップと、
　第２特徴量抽出部が、前記走行情報に基づいて走行環境に関する特徴量を抽出するステップと、
　難易度算出部が、前記走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出するステップと、
　応答度合い調整部が、前記難易度が低い場合に比して前記難易度が高い場合の前記応答度合いが高くなるように前記応答度合いを調整するステップと、
　応答生成部が、前記調整された前記応答度合いが予め定められた閾値以上である場合に前記認識結果に対する応答を生成して出力装置へ出力するとともに前記調整された前記応答度合いが予め定められた閾値未満である場合に前記認識結果に対する応答を出力装置へ出力しないステップとを備える
　ことを特徴とする音声認識方法。