WO2022172393A1

WO2022172393A1 - 音声認識装置および音声認識方法

Info

Publication number: WO2022172393A1
Application number: PCT/JP2021/005218
Authority: WO
Inventors: 紫織島谷; 悠希住吉; 政信大澤
Original assignee: 三菱電機株式会社
Priority date: 2021-02-12
Filing date: 2021-02-12
Publication date: 2022-08-18

Abstract

車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部（１０１）と、撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部（１０２）と、複数の乗員の挙動に関する情報に基づき、複数の乗員のうち発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部（１０７）と、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部（１０３）と、取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部（１０４）と、音声処理部（１０４）による音声認識結果と関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部（１０８，１０８ａ，１０８ｂ）とを備えた。

Description

音声認識装置および音声認識方法

　本開示は、車内の乗員の発話を受付可能な、対話予兆検知型の音声認識装置に関する。

　従来、人による対話予兆を検知し、当該対話予兆を検知すると、音声の受付を開始する、いわゆる「対話予兆検知型」の音声認識技術が知られている。このような音声認識技術では、受け付けた音声に基づく発話が、装置への応答を要求する発話（以下「応答要求発話」という。）であるか否かを判定し、応答要求発話であると判定した場合に、発話を受け付ける。
　例えば、特許文献１には、文脈情報に基づいて、ユーザ発話入力が仮想アシスタントに向けられたか否かを判定する方法が開示されている。文脈情報には、例えば、ユーザとユーザデバイスとの間の空間距離を表す距離データ、または、ユーザ発話入力が受信されたときにユーザがユーザデバイスを見ていたか否かを判定するための画像データが含まれる。上記方法は、ユーザがユーザ発話入力を仮想アシスタントに向けることを意図したと判定した場合ユーザ発話入力を処理し、ユーザ発話入力を仮想アシスタントに向けることを意図しなかったと判定した場合ユーザ発話入力を無視する、または、応答を生成しない。

特開２０１８－１３６５６８号公報

　車内では、例えば、乗員の乗車位置が固定されているため、乗員が応答要求発話を行った場合と、同乗者への発話を行った場合の、乗員と装置との距離の差は小さい。また、例えば、運転者は前方を注視している必要があるため、乗員が応答要求発話を行った場合と、同乗者への発話を行った場合の、乗員の視線方向の差は小さい。
　特許文献１に開示されているような従来技術は、車両の乗員による発話を受け付けることについて考慮されていないため、当該従来技術を車両に適用した場合、乗員による同乗者への発話を応答要求発話として受け付ける（以下「誤認識」という。）、または、乗員による応答要求発話を同乗者への発話として受け付けない（以下「誤棄却」という。）場合があるという課題があった。

　本開示は上記のような課題を解決するためになされたもので、車両の乗員の発話に対して、誤認識および誤棄却を防ぐ音声認識装置を提供することを目的とする。

　本開示に係る音声認識装置は、車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部と、画像取得部が取得した撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部と、挙動検知部が検知した複数の乗員の挙動に関する情報に基づき、複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部と、対話予兆検知部が、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部と、音声取得部が取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部と、音声処理部による音声認識結果と、複数の乗員の挙動の履歴または複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部とを備えたものである。

　本開示によれば、音声認識装置は、車両の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。

実施の形態１に係る音声認識装置の構成例を示す図である。実施の形態１において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。実施の形態１において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。実施の形態１に係る音声認識装置の、「履歴記録処理」における動作を説明するためのフローチャートである。実施の形態１に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。図５のステップＳＴ１６における対話要求判定部の動作について、より詳細に説明するためのフローチャートである。図７Ａ，図７Ｂは、実施の形態１に係る音声認識装置のハードウェア構成の一例を示す図である。実施の形態２に係る音声認識装置の構成例を示す図である。実施の形態２において、更新部が設定条件を更新する場合の車内の状況の一例のイメージを説明するための図である。実施の形態２において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。実施の形態２において、更新部が設定条件を更新する場合の車内の状況のその他の一例のイメージを説明するための図である。実施の形態２において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。実施の形態２に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。実施の形態３に係る音声認識装置の構成例を示す図である。実施の形態３において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。実施の形態３において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。実施の形態３に係る音声認識装置の、「履歴記録処理」における動作を説明するためのフローチャートである。実施の形態３に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。図１８のステップＳＴ１１１７における対話要求判定部の動作について、より詳細に説明するためのフローチャートである。

　以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　実施の形態１において、音声認識装置は、いわゆる「対話予兆検知型」の音声認識装置である。「対話予兆検知型」は、ボタンの押下、または、いわゆるウェイクアップワード等、音声認識を開始させるために予め定められた言葉の入力を必要とせず、ユーザに対して、応答要求発話を行う際の負担を軽減することができる。
　実施の形態１に係る音声認識装置は、車両に搭載されることを想定している。音声認識装置１は、車内にいるユーザによる対話予兆を検知すると、音声を受け付け、受け付けた音声に基づくユーザの発話の音声認識を行って、当該発話を受け付けるか否かを判定する。音声認識装置は、ユーザの発話が応答要求発話であると判定した場合に、発話を受け付ける。
　音声認識装置のユーザは、車両の乗員である。
　以下の実施の形態１では、一例として、ユーザは、車両の運転者を想定している。なお、これは一例に過ぎず、ユーザは、運転者以外の、助手席または後部座席の乗員、言い換えれば、同乗者としてもよい。また、車両内にいる複数の乗員をユーザとしてもよい。
　実施の形態１において、ユーザとなる車両の乗員、すなわち、ここでは運転者を、「発話受付対象乗員」ともいう。また、以下の実施の形態１では、複数の乗員を、単に「乗員」ともいう。

　図１は、実施の形態１に係る音声認識装置１の構成例を示す図である。
　音声認識装置１は、車両４に搭載され、カメラ２、マイク３、車載機器５、および、出力装置６と接続される。

　カメラ２は、車両４に搭載されている可視光カメラ、または、赤外線カメラ等である。カメラ２は、例えば、いわゆる「ドライバーモニタリングシステム（Ｄｒｉｖｅｒ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ，ＤＭＳ）」と共用のものであってもよい。
　カメラ２は、車内の乗員を撮像する。なお、カメラ２は、少なくとも、乗員の顔を撮像可能な場所に設置されている。
　カメラ２は、車内の全乗員を撮像可能とするよう、少なくとも車内の全乗員の顔を含む範囲を撮像可能な画角を有した１台のカメラとしてもよいし、各乗員の少なくとも顔を含む範囲を撮像可能な複数台のカメラとしてもよい。
　カメラ２は、乗員を撮像した画像（以下「撮像画像」という。）を、音声認識装置１に出力する。なお、カメラ２は、常時、車内の乗員を撮像している。

　マイク３は、車両４に搭載されており、車内の音声を取得する。マイク３が取得する音声には、乗員による発話、車両４の走行により発生する騒音、車内で再生されている音楽、または、雑音等が含まれる。
　車両４に１つのマイク３が搭載されていてもよいし、車両４に複数のマイク３が搭載されていてもよい。車両４に複数のマイク３が搭載されている場合、当該複数のマイク３は、それぞれ、音声認識装置１に、取得した音声を、マイク３を特定可能な情報と対応付けて、出力する。
　マイク３は、取得した音声を、音声認識装置１に出力する。なお、マイク３は、常時、音声を取得している。

　音声認識装置１は、カメラ２から取得した撮像画像、および、マイク３から取得した音声に基づいて、時刻と、乗員の挙動内容の履歴および乗員の発話内容の履歴が時系列で設定された関連履歴情報を生成し記録する「履歴記録処理」と、カメラ２から取得した撮像画像に基づいて検知した発話受付対象乗員、ここでは、運転者、の挙動から、当該運転者の対話予兆を検知した場合に、運転者の発話を受け付けるか否かを判定する「対話要求判定処理」を行う。「履歴記録処理」および「対話要求判定処理」の詳細については、後述する。
　音声認識装置１は、「対話要求判定処理」において、運転者の発話を受け付けると判定した場合、当該発話の音声認識結果に基づいて動作させるための情報（以下「動作命令情報」という。）を、車両４、車載機器５、または、出力装置６に出力する。

　車両４、車載機器５、または、出力装置６は、音声認識装置１から出力された動作命令情報に従った動作を行う。
　例えば、車両４は、動作命令情報に従い、ブレーキ、ライトの点灯、ライトの消灯、または、窓の開閉等の車両４の機能を実行する。
　車載機器５は、例えば、車両４に搭載されているカーナビゲーション装置、オーディオ機器、または、これらを制御する機器である。例えば、カーナビゲーション装置は、動作命令情報に従い、目的地の設定、目的地の変更、または、経路案内等を行う。また、例えば、オーディオ機器は、動作命令情報に従い、音楽の再生、または、音量変更等を行う。
　出力装置６は、例えば、車両４に搭載されている表示装置または音声出力装置である。例えば、表示装置は、動作命令情報に従って、文字またはアイコン等の表示を行う。表示装置は、動作命令情報に従ったライティングを行ってもよい。例えば、音声出力装置は、動作命令情報に従って、音声を出力する。例えば、音声認識装置１は、表示装置による表示と音声出力装置による音声出力を組み合わせて行わせてもよい。

　音声認識装置１の構成例について説明する。
　図１に示すように、音声認識装置１は、画像取得部１０１、挙動検知部１０２、音声取得部１０３、音声処理部１０４、履歴記録制御部１０５、記録部１０６、対話予兆検知部１０７、対話要求判定部１０８、および、動作命令部１０９を備える。
　音声処理部１０４は、発話検知部１０４１および音声認識部１０４２を備える。
　上述のとおり、音声認識装置１は、「履歴記録処理」および「対話要求判定処理」を行う。音声認識装置１において、「履歴記録処理」と「対話要求判定処理」とは、並行して行われる。
　音声認識装置１の構成について、「履歴記録処理」にて機能する構成部と、「対話要求判定処理」にて機能する構成部とに分けて説明する。なお、「履歴記録処理」および「対話要求判定処理」の両方にて機能する構成部もある。

　まず、実施の形態１に係る音声認識装置１において、「履歴記録処理」にて機能する構成部について説明する。
　音声認識装置１において、「履歴記録処理」では、画像取得部１０１、挙動検知部１０２、音声取得部１０３、音声処理部１０４、履歴記録制御部１０５、および、記録部１０６が機能する。

　画像取得部１０１は、常時、カメラ２から出力された、車内に存在する複数の乗員を撮像した撮像画像を取得する。
　画像取得部１０１は、取得した撮像画像を挙動検知部１０２に出力する。

　挙動検知部１０２は、画像取得部１０１が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する。
　実施の形態１において、挙動検知部１０２が検知する乗員の挙動は、予め決められている。例えば、挙動検知部１０２が検知する乗員の挙動には、乗員の顔向き、乗員の視線方向、乗員の口の動き、または、乗員が行ったジェスチャが含まれる。

　挙動検知部１０２は、撮像画像に対して既知の画像認識処理を行って、乗員の挙動を検知すればよい。具体的には、例えば、挙動検知部１０２は、撮像画像から、目、鼻、または、口等の乗員の顔のパーツを抽出し、抽出した顔のパーツに基づいて乗員の顔向きまたは視線方向を検知する。また、例えば、カメラ２が赤外線カメラである場合、挙動検知部１０２は、赤外線カメラが近赤外の点光源を照射すると角膜で反射して得られたプルキニエ像と瞳孔との位置関係から、乗員の視線方向を検知することもできる。また、例えば、挙動検知部１０２は、乗員の顔向きと顔画像の標準パターンとが対応付けられた顔向き判定用情報を予め保持しておき、当該顔向き判定用情報と撮像画像から抽出した乗員の顔の画像とのパターンマッチングにより、顔向き判定用情報において、最も類似度が高い顔向きを、乗員の顔向きとして検知してもよい。また、例えば、挙動検知部１０２は、ジェスチャ毎に、当該ジェスチャを示すジェスチャ画像の標準パターンが対応付けられたジェスチャ情報を予め保持しておき、当該ジェスチャ情報と撮像画像から抽出した乗員がジェスチャを行っている画像とのパターンマッチングにより、ジェスチャ情報において、最も類似度が高いジェスチャを、乗員が行っているジェスチャとして検知してもよい。
　また、例えば、挙動検知部１０２は、乗員の顔向きと乗員の視線方向の両方を検知し、より信頼度の高い方を乗員の挙動として検知してもよい。具体例を挙げると、例えば、挙動検知部１０２は、乗員がサングラスまたは眼鏡を着用している場合は、乗員の顔向きを、乗員の挙動として検知する。

　挙動検知部１０２は、乗員の挙動を検知すると、検知した挙動に関する情報（以下
「挙動情報」という。）を、履歴記録制御部１０５に出力する。挙動情報は、例えば、挙動が検知された時刻と、検知された挙動を行った乗員の位置に関する情報と、検知された挙動内容を示す情報が対応付けられた情報とする。挙動内容を示す情報は、例えば、挙動の内容を示すテキスト、または、挙動の内容を示す数値である。挙動の内容を示すテキストは、予め、挙動に応じて決められている。具体的には、例えば、乗員が手で「ＯＫ」とするジェスチャを行った場合、挙動の内容を示すテキストとして、「ジェスチャ：ＯＫ」が決められている。また、例えば、乗員の顔向きが正面である場合、挙動の内容を示すテキストとして、「顔向き：正面」が決められている。挙動の内容を示す数値は、具体的には、例えば、乗員の顔向きを示す角度、乗員の視線方向の角度、または、乗員の口の開き具合である。
　挙動検知部１０２は、挙動を行った乗員の位置を、撮像画像に基づいて取得する。実施の形態１において、乗員の位置は、乗員が着座している座席であらわされる。カメラ２の設置位置および画角は予めわかっているので、挙動検知部１０２は、撮像画像に対して既知の画像認識処理を行うことで、乗員が着座している座席を特定できる。なお、挙動検知部１０２は、乗員の位置を、例えば、音声認識装置１との距離、または、同乗者との距離であらわされてもよい。

　音声取得部１０３は、常時、マイク３から出力された車内の音声を取得する。音声取得部１０３は、取得した音声を、音声処理部１０４に出力する。

　音声処理部１０４は、音声取得部１０３が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する。

　具体的には、まず、音声処理部１０４の発話検知部１０４１が、音声取得部１０３が取得した音声に基づき、乗員による発話を検知する。
　発話検知部１０４１は、各座席の乗員の発話を、それぞれ区別して検知することができる。例えば、マイク３が各座席に設置されていれば、発話検知部１０４１は、音声がどのマイク３から取得されたものかによって、検知した発話がどの座席の乗員の発話であるか特定できる。また、マイク３が車内の任意の場所に１つ、または、車内に複数設置されている場合、発話検知部１０４１は、ビームフォーミング技術を用いてある方向に指向性を向ける等の信号処理、または、機械学習を用いて、ノイズ除去または音源分離を行うこともできる。
　また、発話検知部１０４１は、音声に基づき、乗員の話し方をあわせて検知することもできる。乗員の話し方は、例えば、発話速度、発話のピッチ、または、発話のトーンを含む。
　発話検知部１０４１は、検知した乗員の発話を、音声認識部１０４２に出力する。このとき、発話検知部１０４１は、検知した乗員の発話を、当該乗員の位置に関する情報と対応付けて、音声認識部１０４２に出力する。なお、乗員の位置は、乗員が着座している座席であらわされる。
　発話検知部１０４１は、発話と乗員の位置に関する情報に加え、乗員の話し方に関する情報を対応付けて音声認識部１０４２に出力してもよい。

　音声認識部１０４２は、発話検知部１０４１から出力された乗員の発話に対して、音声認識を行う。音声認識部１０４２は、既知の音声認識技術を用いて音声認識を行えばよい。音声認識部１０４２は、音声認識を行って、乗員の発話内容をテキスト化する。
　音声認識部１０４２が音声認識を行うと、音声処理部１０４は、音声認識結果を、履歴記録制御部１０５に出力する。
　音声認識結果は、例えば、発話が検知された時刻と、発話の内容と、発話した乗員の位置に関する情報とが対応付けられた情報とする。音声認識結果には、さらに、発話した乗員の話し方に関する情報が対応付けられていてもよい。

　履歴記録制御部１０５は、挙動検知部１０２から出力された挙動情報と、音声処理部１０４から出力された音声認識結果とに基づき、乗員の挙動内容の履歴、および、乗員の発話内容の履歴が時系列で設定された関連履歴情報を生成する。

　ここで、図２は、実施の形態１において、履歴記録制御部１０５が生成する関連履歴情報の内容の一例のイメージを説明するための図である。
　関連履歴情報は、例えば、挙動が検知された時刻毎に、挙動を行った動作者と挙動内容とが対応付けられた情報（挙動履歴情報）、および、発話が検知された時刻毎に、発話者と発話内容とが対応付けられた情報（発話履歴情報）が、それぞれ、時系列に設定された情報である。図２に示すように、挙動が検知された時刻と発話が検知された時刻が同じ時刻である場合、挙動履歴情報と発話履歴情報は、１つにまとめられ、ある時刻に挙動を行った動作者または発話者と、挙動内容と、発話内容とが対応付けられてもよい。

　図２に示すように、実施の形態１では、関連履歴情報において、挙動を行った動作者および発話者は、座席で示されるものとしている。
　実施の形態１では、音声認識装置１において、乗員が誰であるかということまでは認識しない。音声認識装置１は、車内の乗員を、乗員の位置によって区別する。具体的には、音声認識装置１は、車内の乗員を、乗員の位置で表現する。乗員の位置の表現としては、例えば、「運転席」というように座席による表現、または、「運転者」のように、その座席に座っている人をあらわす表現が挙げられる。
　よって、履歴記録制御部１０５は、例えば、挙動を行った動作者または発話者は、座席で示されるようにして、関連履歴情報を生成する。なお、履歴記録制御部１０５は、挙動情報から動作者の座席を判定でき、音声認識結果から発話者の座席を判定できる。

　なお、図２に示す関連履歴情報の一例では、挙動履歴情報および発話履歴情報の両方が設定されているものとしたが、関連履歴情報において、挙動履歴情報および発話履歴情報の両方が設定されている必要はない。履歴記録制御部１０５は、挙動履歴情報または発話履歴情報のいずれかが設定された関連履歴情報を生成するようにしてもよい。
　関連履歴情報は、いつ、誰（より詳細にはどの座席に座っている乗員）による、どのような発話が検知されたか、または、いつ、誰（より詳細にはどの座席に座っている乗員）による、どのような挙動が検知されたかが時系列でわかる情報になっていればよい。
　また、関連履歴情報において、発話履歴情報として、発話者の話し方に関する情報が、発話者および発話内容と対応付けられて設定されるようにしてもよい。履歴記録制御部１０５は、音声認識結果から、発話者の話し方を特定できる。

　履歴記録制御部１０５は、生成した関連履歴情報を、記録部１０６に記録させる。

　記録部１０６は、関連履歴情報を記録する。
　なお、図１では、記録部１０６は、音声認識装置１に備えられているが、これは一例に過ぎない。記録部１０６は、音声認識装置１の外部の、音声認識装置１が参照可能な場所に備えられていてもよい。

　なお、実施の形態１に係る音声認識装置１が行う「履歴記録処理」では、記録部１０６に記録される関連履歴情報は、１日分等、短い期間のものであることを想定している。

　次に、実施の形態１に係る音声認識装置１において、「対話要求判定処理」にて機能する構成部について説明する。
　音声認識装置１において、「対話要求判定処理」では、画像取得部１０１、挙動検知部１０２、音声取得部１０３、音声処理部１０４、記録部１０６、対話要求判定部１０８、および、動作命令部１０９が機能する。

　画像取得部１０１は、常時、カメラ２から撮像画像を取得する。
　画像取得部１０１の詳細は、説明済みの「履歴記録処理」における画像取得部１０１の詳細と同様である。
　画像取得部１０１は、取得した撮像画像を挙動検知部１０２に出力する。

　挙動検知部１０２は、画像取得部１０１が取得した撮像画像に基づき、乗員の挙動を検知する。
　挙動検知部１０２の詳細は、説明済みの「履歴記録処理」における挙動検知部１０２の詳細と同様であるため、重複した説明を省略する。
　ただし、「対話要求判定処理」では、挙動検知部１０２は、乗員の挙動を検知すると、挙動情報を、対話予兆検知部１０７に出力する。

　対話予兆検知部１０７は、挙動検知部１０２から挙動情報が出力されると、挙動検知部１０２が検知した乗員の挙動に基づき、発話受付対象乗員、言い換えれば、運転者による対話予兆があるか否かを検知する対話予兆検知処理を実施する。
　対話予兆検知部１０７は、既知の種々の対話予兆検知方法によって、運転者による対話予兆があるか否かを検知すればよい。

　具体例を挙げると、例えば、対話予兆検知部１０７は、挙動情報に基づき、運転者の顔向きまたは視線方向が装置のほうを向いている場合、運転者の対話予兆があると検知する。ここで、対話予兆検知部１０７が運転者の顔向きまたは視線方向が向いていると判定する「装置」は、例えば、音声認識装置１であってもよいし、ナビゲーション装置であってもよいし、その他の車両４に搭載されている装置としてもよい。顔向きまたは視線方向がどの装置のほうを向いた場合に、運転者の対話予兆があると検知するかは、予め決められている。

　また、例えば、対話予兆検知部１０７は、運転者の顔向きの角度、運転者の視線方向の角度、および、口の開き具合に対して、それぞれ、スコアを付与し、付与したスコアの合計が予め決められた閾値（以下「対話予兆判定用閾値」という。）以上であるか否かによって、運転者の対話予兆があるか否かを検知してもよい。運転者の顔向きの角度、運転者の視線方向の角度、または、口の開き具合がどれぐらいの場合に、どれぐらいのスコアが付与されるかは予め決められている。また、対話予兆判定用閾値も予め決められている。

　対話予兆検知部１０７は、運転者の対話予兆を検知した場合、運転者の対話予兆を検知したことを通知するための情報（以下「対話予兆情報」という。）を、音声取得部１０３および対話要求判定部１０８に出力する。対話予兆検知部１０７は、対話予兆情報に、運転者の対話予兆を検知した旨の情報と、挙動検知部１０２から取得した挙動情報を含めるようにする。

　音声取得部１０３は、対話予兆検知部１０７が運転者の対話予兆を検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、マイク３から出力された車内の音声を取得する。
　音声取得のトリガは異なるが、音声取得部１０３の詳細は、説明済みの「履歴記録処理」における音声取得部１０３の詳細と同様である。
　音声取得部１０３は、取得した音声を、音声処理部１０４に出力する。

　音声処理部１０４は、音声取得部１０３が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する。
　音声処理部１０４の詳細は、説明済みの「履歴記録処理」における音声処理部１０４の詳細と同様であるため、重複した説明を省略する。
　「対話要求判定処理」では、音声処理部１０４は、音声認識結果を、対話要求判定部１０８に出力する。

　対話要求判定部１０８は、対話予兆検知部１０７が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する。
　なお、関連履歴情報は、上述のとおり、「対話要求判定処理」と並行して行われている「履歴記録処理」において生成され、記録部１０６に記録されている。

　より詳細には、対話要求判定部１０８は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報と、予め設定されている条件（以下「設定条件」という。）とに基づいて、運転者による発話が対話要求発話であると推定される度合いを示す対話要求度を設定する。

　具体的には、例えば、対話要求判定部１０８は、関連履歴情報を参照し、同乗者による、運転者の発話よりも予め設定された時間（以下「判定用遡及時間」という。）前の挙動、または、同乗者による、運転者の発話よりも判定用遡及時間前の発話と、設定条件とに基づいて、対話要求度を設定する。「判定用遡及時間」には、極めて短い時間が設定される。実施の形態１では、「運転者の発話よりも判定用遡及時間前」とは、運転者の発話の直前を想定している。

　対話要求度は、例えば、「高い」または「低い」であらわされる。
　対話要求度を設定するための設定条件は、管理者等によって、適宜設定される。
　例えば、設定条件には、対話要求度が「高い」と設定する条件（以下「対話要求度高条件」という。）と対話要求度が「低い」と設定する条件（以下「対話要求度低条件」という。）とが含まれる。「対話要求度高条件」には、発話受付対象乗員の発話が応答要求発話である可能性が高いと推定できる条件が設定されている。逆に、「対話要求度低条件」には、発話受付対象乗員の発話が応答要求発話ではなく同乗者への発話である可能性が高いと推定できる条件が設定されている。
　例えば、対話要求度高条件には、以下の（条件１）のような条件が設定されている。また、例えば、対話要求度低条件には、以下の（条件２）のような条件が設定されている。

（条件１）
「判定用遡及時間前の同乗者の発話の属性が命令文または依頼文」

（条件２）
「判定用遡及時間前の同乗者の発話の属性が疑問文または未来文であり、かつ、同乗者は発話受付対象乗員の方向に顔を向けている」

　対話要求判定部１０８は、対話要求度高条件を満たす場合、対話要求度を「高い」と設定する。また、対話要求判定部１０８は、対話要求度低条件を満たす場合、対話要求度を「低い」と設定する。
　なお、対話要求判定部１０８は、対話要求度高条件も対話要求度低条件も満たさない場合は、対話要求度高条件も対話要求度低条件も満たさない場合に設定すると予め決められている対話要求度を設定するようにすればよい。

　なお、上述した設定条件は、一例に過ぎない。
　例えば、設定条件には、対話要求度が「高い」とするか否かの条件が設定されており、対話要求判定部１０８は、設定条件を満たす場合、対話要求度は「高い」と設定し、設定条件を満たさない場合、対話要求度は「低い」と設定してもよい。
　また、例えば、設定条件には、対話要求度が「低い」とするか否かの条件が設定されており、対話要求判定部１０８は、設定条件を満たす場合、対話要求度は「低い」と設定し、設定条件を満たさない場合、対話要求度は「高い」と設定してもよい。

　また、以上の説明では、対話要求度は「高い」または「低い」で設定されるものとしたが、これは一例に過ぎない。例えば、対話要求度は、スコアで設定されてもよい。
　この場合、例えば、設定条件には、以下の（条件３）のような、スコアの算出式が設定され、対話要求判定部１０８は、算出式に従ってスコアを算出し、算出したスコアを対話要求度に設定する。
（条件３）
「判定用遡及時間前の同乗者の発話の属性が疑問文である場合スコア「３０点」、判定用遡及時間前の同乗者の視線方向が発話受付対象乗員の方向である場合スコア「５０点」とし、スコアの合計値を対話要求度とする」

　対話要求判定部１０８は、同乗者の発話の履歴または同乗者の挙動の履歴だけでなく、例えば、さらに、運転者の発話時の発話内容、または、運転者の発話時の挙動内容を加味して、対話要求度を設定してもよい。また、対話要求判定部１０８は、同乗者の発話の履歴または同乗者の挙動の履歴だけでなく、例えば、さらに、運転者の発話の履歴、または、運転者の挙動の履歴を加味して、対話要求度を設定してもよい。

　なお、対話要求度は、乗員の発話の履歴、および、乗員の挙動の履歴の両方に基づいて設定される必要はない。対話要求度は、乗員の発話の履歴、または、乗員の挙動の履歴のいずれか一方を用いて設定されるようになっていればよい。
　したがって、設定条件には、上述の（条件１）のように、乗員の発話の履歴、または、乗員の挙動の履歴に基づいて、対話要求度が設定されるような条件が設定されていればよい。

　また、対話要求度は、例えば、発話受付対象乗員または同乗者の話し方も考慮して設定されてもよい。この場合、乗員の話し方に関する情報が、関連履歴情報に設定されている。

　ここで、実施の形態１における、対話要求判定部１０８による対話要求度の設定について、いくつか具体例を挙げて説明する。
　以下の具体例において、対話要求度は「高い」または「低い」で設定される。また、設定条件には、例えば、上述の（条件１）および（条件２）が設定されている。
　なお、以下の具体例では、車両４には、運転者と助手席の同乗者の２名が乗車していることを想定している。

＜具体例１－１＞
　＜具体例１－１＞において、記録部１０６には、例えば、図２に示すような内容の関連履歴情報が記録されている。
　例えば、運転者が対話予兆ありの状態で「２０２０／７／２／１１：５５：３０」に「公園行きたい」と発話したとする。
　この場合、対話予兆検知部１０７が運転者の対話予兆があることを検知し、音声取得部１０３は音声を取得して、音声処理部１０４は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部１０８に、音声処理部１０４から、「２０２０／７／２／１１：５５：３０」に「公園行きたい」との運転者による発話が認識された旨の音声認識結果が出力される。
　対話要求判定部１０８は、関連履歴情報を参照する。そうすると、関連履歴情報において、「２０２０／７／２／１１：５５：３０」の「公園行きたい」との運転者による発話の直前の「２０２０／７／２／１１：５５：２５」に、助手席の同乗者による「来週の休みどこ行く」との発話の履歴、および、運転者方向に顔を向けたという挙動の履歴がある。
　同乗者による「来週の休みどこ行く」との発話は、疑問文である。かつ、同乗者による「来週の休みどこ行く」との発話は、「来週」という未来をあらわす単語が含まれている未来文でもある。また、同乗者は運転者方向に顔を向けていた。これらのことから、対話要求判定部１０８は、（条件２）を満たすと判定する。そして、対話要求判定部１０８は、対話要求度は「低い」と設定する。

＜具体例１－２＞
　＜具体例１－２＞において、記録部１０６には、例えば、図３に示すような内容の関連履歴情報が記録されている。
　例えば、運転者が対話予兆ありの状態で「２０２０／７／２／１１：５５：３０」に「公園行きたい」と発話したとする。
　この場合、対話予兆検知部１０７が運転者の対話予兆があることを検知し、音声取得部１０３は音声を取得して、音声処理部１０４は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部１０８に、音声処理部１０４から、「２０２０／７／２／１１：５５：３０」に「公園行きたい」との運転者による発話が認識された旨の音声認識結果が出力される。
　対話要求判定部１０８は、関連履歴情報を参照する。そうすると、関連履歴情報において、「２０２０／７／２／１１：５５：３０」の「公園行きたい」との運転者による発話の直前の「２０２０／７／２／１１：５５：２５」に、助手席の同乗者による「公園寄ろう、設定して」との発話の履歴がある。
　同乗者による「公園寄ろう、設定して」との発話は、依頼文である。このことから、対話要求判定部１０８は、（条件１）を満たすと判定する。そして、対話要求判定部１０８は、対話要求度は「高い」と設定する。

　対話要求判定部１０８は、対話要求度を設定すると、設定した対話要求度と、予め設定されている条件（以下「対話要求度判定条件」という。）との比較によって、運転者による発話を受け付けるか否かを判定する。例えば、対話要求度判定条件には、「発話受付対象乗員の発話は対話要求発話である」と判定する条件が設定されている。なお、対話要求度判定条件は適宜設定可能である。
　また、対話要求判定部１０８は、対話要求度を設定すると、設定した対話要求度を、関連履歴情報において、当該対話要求度を設定した運転者の発話に関する情報と対応付けて記録させておいてもよい。

　例えば、対話要求度には「高い」または「低い」が設定される場合、対話要求度判定条件には、「対話要求度が「高い」であること」との条件が設定されている。
　対話要求判定部１０８は、対話要求度が対話要求度判定条件を満たす場合、運転者の発話は対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。
　一方、対話要求判定部１０８は、対話要求度が対話要求度判定条件を満たさない場合、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。
　すなわち、例えば、上述の＜具体例１－１＞の場合、対話要求判定部１０８は、設定した対話要求度「低い」は、対話要求度判定条件を満たさないことから、運転者の「公園行きたい」との発話は、同乗者への発話であり、応答要求対話ではないと判定する。つまり、運転者の発話を受け付けないと判定する。一方、上述の＜具体例１－２＞の場合、対話要求判定部１０８は、設定した対話要求度「高い」は、対話要求度判定条件を満たすことから、運転者の「公園行きたい」との発話は、対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。

　例えば、上述の＜具体例１－１＞および＜具体例１－２＞のように、運転者による発話が同じ「公園行きたい」との発話であっても、当該発話は、対話要求発話である場合と、同乗者への発話である場合がある。しかし、車内においては、例えば、図２および図３に示すように、「公園行きたい」と発話したときの運転者の顔向きには差がないことがある。そうすると、仮に、音声認識装置１が、例えば、運転者の顔向きだけで、運転者の発話が対話要求発話であるか、同乗者への発話であるかを判定すると、誤認識または誤棄却につながるおそれがある。
　これに対し、実施の形態１に係る音声認識装置１では、上述のとおり、対話要求判定部１０８が、関連履歴情報に基づいて、より具体的には、乗員の発話の履歴または乗員の挙動の履歴に基づいて、運転者の発話が対話要求発話であるか、同乗者への発話であるかを判定する。そのため、音声認識装置１は、車両４の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。

　例えば、対話要求度がスコアで設定される場合、対話要求度判定条件には、「対話要求度が予め設定された閾値（以下「対話要求度判定用閾値」という。）以上であること」との条件が設定されている。
　対話要求判定部１０８は、対話要求度が対話要求度判定用閾値以上である場合、運転者の発話は対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。一方、対話要求判定部１０８は、対話要求度が対話要求度判定用閾値未満である場合、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。

　対話要求判定部１０８は、運転者の発話を受け付けると判定した場合、運転者の発話の音声認識結果に基づく動作指示を依頼する動作指示依頼情報を、動作命令部１０９に出力する。このとき、動作指示依頼情報には、運転者の発話を受け付けた旨の情報と、対話要求度と、音声処理部１０４から取得した音声認識結果が含まれる。

　動作命令部１０９は、対話要求判定部１０８から動作指示依頼情報が出力された場合、当該動作指示依頼情報に基づいて、車両４、車載機器５、または、出力装置６を動作させるための動作命令情報を生成し、車両４、車載機器５、または、出力装置６に出力する。
　例えば、動作指示依頼情報に、窓を閉める旨の音声認識結果が含まれる場合、動作命令部１０９は、車両４に対して、窓を閉める動作を行わせる動作命令情報を出力する。
　また、例えば、動作指示依頼情報に、目的地を設定する旨の音声認識結果が含まれる場合、動作命令部１０９は、車載機器５（例えば、カーナビゲーション装置）に対して、目的地を設定させる動作命令情報を出力する。
　また、例えば、動作指示依頼情報に、応答が必要な発話の音声認識結果が含まれる場合、動作命令部１０９は、出力装置６に対して、「受け付けました」とのメッセージを表示させる、または、「ピッ」との音を出力させる。
　また、動作命令部１０９は、例えば、出力装置６に対して、音声認識装置１の状態を示す表示または音声出力を行わせてもよい。具体例を挙げると、例えば、動作命令部１０９は、音声処理部１０４が発話検知および音声認識処理を行っている間、出力装置６に対して、「音声受付中」と表示させる。なお、動作命令部１０９は、音声処理部１０４から、処理中である旨の情報を取得すればよい。図１では、音声処理部１０４から動作命令部１０９への矢印の図示は省略している。また、例えば、動作命令部１０９は、動作命令情報を生成している間、出力装置６に対して、「応答生成中」と表示させてもよい。

　なお、動作命令部１０９は、車両４、車載機器５、または、出力装置６を動作させた内容（以下「応答内容」という。）を、関連履歴情報に対応付けて記録させておいてもよい。
　動作命令部１０９は、応答内容を、関連履歴情報において、運転者の応答要求発話に関する情報と対応付けるようにする。動作命令部１０９は、運転者の応答要求発話を、対話要求判定部１０８から出力された音声認識結果から特定できる。

　実施の形態１に係る音声認識装置１の動作について説明する。
　図４は、実施の形態１に係る音声認識装置１の、「履歴記録処理」における動作を説明するためのフローチャートである。
　なお、図４に示す動作は、例えば、車両４のエンジンがオンにされると開始され、車両４のエンジンがオフされるまでの間、繰り返し行われる。
　上述のとおり、実施の形態１において、「履歴記録処理」では、記録部１０６に記録される関連履歴情報は、短い期間のものを想定している。例えば、車両４のエンジンがオフされると、記録部１０６は初期化され、記録部１０６が記録していた関連履歴情報は削除されるものとしてもよい。

　画像取得部１０１は、カメラ２から出力された、車内に存在する複数の乗員を撮像した撮像画像を取得する（ステップＳＴ１）。
　画像取得部１０１は、取得した撮像画像を挙動検知部１０２に出力する。

　挙動検知部１０２は、ステップＳＴ１にて画像取得部１０１が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する（ステップＳＴ２）。
　挙動検知部１０２は、乗員の挙動を検知すると、挙動情報を、履歴記録制御部１０５に出力する。

　音声取得部１０３は、マイク３から出力された車内の音声を取得する（ステップＳＴ３）。
　音声取得部１０３は、取得した音声を、音声処理部１０４に出力する。

　音声処理部１０４は、ステップＳＴ２にて音声取得部１０３が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する（ステップＳＴ４）。

　履歴記録制御部１０５は、ステップＳＴ２にて挙動検知部１０２から出力された挙動情報と、ステップＳＴ４にて音声処理部１０４から出力された音声認識結果とに基づき、関連履歴情報を生成する（ステップＳＴ５）。
　履歴記録制御部１０５は、生成した関連履歴情報を、記録部１０６に記録させる。

　図５は、実施の形態１に係る音声認識装置１の、「対話要求判定処理」における動作を説明するためのフローチャートである。

　画像取得部１０１は、カメラ２から撮像画像を取得する（ステップＳＴ１１）。
　画像取得部１０１は、取得した撮像画像を挙動検知部１０２に出力する。

　挙動検知部１０２は、ステップＳＴ１１にて画像取得部１０１が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する（ステップＳＴ１２）。
　挙動検知部１０２は、乗員の挙動を検知すると、挙動情報を、対話予兆検知部１０７に出力する。

　対話予兆検知部１０７は、ステップＳＴ１２にて挙動検知部１０２から挙動情報が出力されると、挙動検知部１０２が検知した乗員の挙動に基づき、運転者による対話予兆があるか否かを検知する対話予兆検知処理を実施する（ステップＳＴ１３）。
　対話予兆検知部１０７は、運転者の対話予兆を検知した場合、対話予兆情報を、音声取得部１０３および対話要求判定部１０８に出力する。

　音声取得部１０３は、ステップＳＴ１３にて対話予兆検知部１０７が運転者の対話予兆を検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、マイク３から出力された車内の音声を取得する（ステップＳＴ１４）。
　音声取得部１０３は、取得した音声を、音声処理部１０４に出力する。

　音声処理部１０４は、ステップＳＴ１４にて音声取得部１０３が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する（ステップＳＴ１５）。
　音声処理部１０４は、音声認識結果を、対話要求判定部１０８に出力する。

　対話要求判定部１０８は、ステップＳＴ１３にて、対話予兆検知部１０７が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、ステップＳＴ１５における音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施する（ステップＳＴ１６）。
　対話要求判定部１０８は、運転者の発話を受け付けると判定した場合、動作指示依頼情報を、動作命令部１０９に出力する。

　動作命令部１０９は、ステップＳＴ１６にて対話要求判定部１０８から動作指示依頼情報が出力された場合、当該動作指示依頼情報に基づいて、車両４、車載機器５、または、出力装置６を動作させるための動作命令情報を生成し、車両４、車載機器５、または、出力装置６に出力する（ステップＳＴ１７）。

　なお、図５のステップＳＴ１１～ステップＳＴ１２、ステップＳＴ１４～ステップＳＴ１５の動作は、それぞれ、図４のステップＳＴ１～ステップＳＴ４の動作と共通していてもよい。

　図６は、図５のステップＳＴ１６における対話要求判定部１０８の動作について、より詳細に説明するためのフローチャートである。
　対話要求判定部１０８は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報と、設定条件とに基づいて、対話要求度を設定する（ステップＳＴ１６１）。

　対話要求判定部１０８は、対話要求度を設定すると、設定した対話要求度が、対話要求度判定条件を満たすか否かを判定する（ステップＳＴ１６２）。
　ステップＳＴ１６２において、対話要求度が対話要求度判定条件を満たすと判定した場合（ステップＳＴ１６２の“ＹＥＳ”の場合）、対話要求判定部１０８は、運転者の発話は対話要求発話であると判定する（ステップＳＴ１６３）。つまり、運転者の発話を受け付けると判定する。そして、音声認識装置１の動作は、図５のステップＳＴ１７に進む。

　一方、ステップＳＴ１６２において、対話要求度が対話要求度判定条件を満たさないと判定した場合（ステップＳＴ１６２の“ＮＯ”の場合）、対話要求判定部１０８は、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。そして、音声認識装置１の動作は、図５の処理を終了する。

　このように、音声認識装置１は、発話受付対象乗員、ここでは運転者の発話または挙動だけではなく、同乗者の発話の履歴、または、同乗者の挙動の履歴に基づいて、運転者の発話が対話要求発話であるか否かを判定するようにした。これにより、音声認識装置１は、運転者の発話に対して、誤認識および誤棄却を防ぐことができる。

　なお、以上の実施の形態１では、音声認識装置１は、「履歴記録処理」を行うものとしたが、これは一例に過ぎない。「履歴記録処理」は、音声認識装置１にて行われることを必須とせず、「履歴記録処理」は、音声認識装置１以外の装置にて行われるようにしてもよい。この場合、音声認識装置１は、履歴記録制御部１０５を備えることを必須としない。また、音声認識装置１において、音声取得部１０３は、常時、音声を取得しなくてもよく、対話予兆検知部１０７が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。

　また、以上の実施の形態１では、音声認識装置１は、動作命令部１０９を備えるようにしたが、音声認識装置１は、動作命令部１０９を備えることを必須としない。動作命令部１０９は、音声認識装置１の外部において音声認識装置１と接続されている他の装置に備えられてもよい。

　また、以上の実施の形態１では、音声認識装置１において、対話要求判定部１０８は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報と、設定条件とに基づいて、運転者による発話が対話要求発話であると推定される度合いを示す対話要求度を設定するようにしたが、これは一例に過ぎない。対話要求判定部１０８は、その他の方法で、対話要求度を設定してもよい。
　具体的には、例えば、対話要求判定部１０８は、機械学習における学習済みのモデル（以下「機械学習モデル」という。）を用いて、対話要求度を設定してもよい。
　機械学習モデルは、音声認識結果および関連履歴情報を入力とし、対話要求度を出力する機械学習モデルである。機械学習モデルは、予め、入力と教師ラベルのデータの組み合わせに基づいて生成される学習用データに従って、いわゆる教師あり学習により、入力に対する結果を推定するよう構築される。ここでは、入力を音声認識結果と関連履歴情報、教師ラベルを対話要求度とし、機械学習モデルは、音声認識結果と関連履歴情報と対話要求度の組み合わせを学習用データとして学習する。
　なお、学習用データは、例えば、テスト走行時に、管理者等によって生成される。例えば、管理者等は、テスト走行中の車両４で収集された音声および映像を確認して対話要求度を設定し、テスト走行中に収集された音声の音声認識結果と、テスト走行中に記録された関連履歴情報と、対話要求度を組み合わせた学習用データを生成する。
　機械学習モデルは、予め、対話要求判定部１０８が参照可能な場所に記憶されている。　対話要求判定部１０８は、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報とを機械学習モデルに入力し、対話要求度を得る。
　対話要求判定部１０８は、機械学習モデルを用いて対話要求度を設定することで、設定条件に従って対話要求度を設定していた場合と比べ、設定される対話要求度の精度を向上させることができる。

　図７Ａ，図７Ｂは、実施の形態１に係る音声認識装置１のハードウェア構成の一例を示す図である。
　実施の形態１において、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９の機能は、処理回路７０１により実現される。すなわち、音声認識装置１は、車内で検知した発話が対話要求発話であるか否かを判定する制御を行うための処理回路７０１を備える。
　処理回路７０１は、図７Ａに示すように専用のハードウェアであっても、図７Ｂに示すようにメモリに格納されるプログラムを実行するプロセッサ７０４であってもよい。

　処理回路７０１が専用のハードウェアである場合、処理回路７０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、またはこれらを組み合わせたものが該当する。

　処理回路がプロセッサ７０４の場合、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ７０５に記憶される。プロセッサ７０４は、メモリ７０５に記憶されたプログラムを読み出して実行することにより、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９の機能を実行する。すなわち、音声認識装置１は、プロセッサ７０４により実行されるときに、上述の図４のステップＳＴ１～ステップＳＴ５、および、図５のステップＳＴ１１～ステップＳＴ１７が結果的に実行されることになるプログラムを格納するためのメモリ７０５を備える。また、メモリ７０５に記憶されたプログラムは、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９の処理の手順または方法をコンピュータに実行させるものであるとも言える。ここで、メモリ７０５とは、例えば、ＲＡＭ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等が該当する。

　なお、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、画像取得部１０１と、音声取得部１０３と、動作命令部１０９については専用のハードウェアとしての処理回路７０１でその機能を実現し、挙動検知部１０２と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８についてはプロセッサ７０４がメモリ７０５に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

　また、記録部１０６は、メモリ７０５を使用する。なお、これは一例であって、記録部１０６は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、または、ＤＶＤ等によって構成されてもよい。

　また、音声認識装置１は、カメラ２、マイク３、車載機器５、または、出力装置６等の装置と、有線通信または無線通信を行う入力インタフェース装置７０２および出力インタフェース装置７０３を備える。

　なお、以上の実施の形態１では、音声認識装置１は、車両４に搭載される車載装置とし、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９とは、音声認識装置１に備えられていた。これに限らず、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９のうち、一部が車両４の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
　また、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８と、動作命令部１０９が、全て、サーバに備えられてもよい。

　以上のように、実施の形態１に係る音声認識装置１は、車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部１０１と、画像取得部１０１が取得した撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部１０２と、挙動検知部１０２が検知した複数の乗員の挙動に関する情報に基づき、複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部１０７と、対話予兆検知部１０７が、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部１０３と、音声取得部１０３が取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部１０４と、音声処理部１０４による音声認識結果と、複数の乗員の挙動の履歴または複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部１０８とを備えた。そのため、音声認識装置１は、車両４の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。

実施の形態２．
　音声認識装置において、対話要求度を設定するための設定条件を更新する機能を有するようにしてもよい。
　実施の形態２では、音声認識装置において、設定条件を更新する機能を有するようにした実施の形態について説明する。
　なお、以下の実施の形態２でも、実施の形態１同様、一例として、ユーザは、車両の運転者を想定している。

　図８は、実施の形態２に係る音声認識装置１ａの構成例を示す図である。
　図８において、実施の形態１にて図１を用いて説明した音声認識装置１の構成と同様の構成については、同じ符号を付して重複した説明を省略する。
　実施の形態２に係る音声認識装置１ａは、図１を用いて説明した実施の形態１に係る音声認識装置１とは、対話要求判定部１０８ａが更新部１０８１を備える点が異なる。

　更新部１０８１は、対話要求判定部１０８ａが対話要求度を設定後に、関連履歴情報に基づいて対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新処理を実施する。
　具体的には、更新部１０８１は、対話要求判定部１０８ａが設定した対話要求度と、対話要求判定部１０８ａが対話要求度を設定後に更新部１０８１が再設定した対話要求度とが一致しない場合、設定条件を更新する。更新部１０８１は、一致しなかった対話要求度を対話要求判定部１０８ａが設定した際に、当該対話要求判定部１０８ａが用いた設定条件について、再設定した対話要求度が設定される条件となるよう、更新する。
　更新部１０８１は、対話要求判定部１０８ａが設定した対話要求度と、対話要求判定部１０８ａが対話要求度を設定後に更新部１０８１が再設定した対話要求度とが完全に一致していない場合だけではなく、対話要求度の差が予め設定された閾値以上である場合に、設定条件を更新するようにしてもよい。

　なお、対話要求判定部１０８ａが対話要求度を設定する方法は、実施の形態１において説明済みの、実施の形態１に係る音声認識装置１の対話要求判定部１０８が対話要求度を設定する方法と同様であるため、重複した説明を省略する。
　対話要求判定部１０８ａは、更新部１０８１が設定条件を更新した場合、更新後の設定条件に基づいて、対話要求度の設定を行う。

　更新部１０８１が設定条件を更新する方法について、具体的に説明する。
　更新部１０８１は、関連履歴情報を参照し、対話要求判定部１０８ａが対話要求度を設定した運転者の発話の時刻から予め設定された時間（以下「更新判定用時間」という。）以内における、運転者および同乗者による挙動または発話と、予め設定された条件（以下「更新時設定条件」という。）とに基づいて、対話要求度を再設定する。「更新判定用時間」には、極めて短い時間が設定される。実施の形態２では、「対話要求度を設定した運転者の発話の時刻から更新判定用時間以内」とは、対話要求度を設定した運転者の発話の時刻の直後を想定している。
　更新時設定条件には、例えば、以下の（条件４）および（条件５）のような条件が設定されている。

（条件４）
「発話受付対象乗員の発話時に同乗者が発話受付対象乗員の方向を見ており、かつ、更新判定用時間以内に同乗者が対話受付対象乗員の発話に対して応答している場合、対話要求度は「低い」」

（条件５）
「発話受付対象乗員の発話から更新判定用時間以内に同乗者が装置方向に視線を向けている、または、同乗者による疑問文の発話履歴がある場合、対話要求度は「高い」」

　更新部１０８１は、例えば、更新判定用時間以内における、運転者および同乗者による挙動または発話が（条件４）を満たす場合、対話要求度は「低い」と再設定する。また、更新部１０８１は、例えば、更新判定用時間以内における、運転者および同乗者による挙動または発話が（条件５）を満たす場合、対話要求度は「高い」と再設定する。
　なお、上述の（条件４）および（条件５）は、対話要求度が「高い」または「低い」で設定されることを想定した更新時設定条件の一例である。対話要求度がスコアで設定される場合、更新時設定条件には、スコアを再設定するための条件が設定される。

　実施の形態２において、更新部１０８１が設定条件を更新する方法について、いくつか具体例を挙げて説明する。

＜具体例２－１＞
　図９は、実施の形態２において、更新部１０８１が設定条件を更新する場合の車内の状況の一例のイメージを説明するための図である。
　なお、図９において、運転者は１００１、同乗者は１００２で示している。
　記録部１０６には、図１０に示すような関連履歴情報が記録されているとする。
　更新時設定条件には、上記（条件４）および（条件５）が設定されている。

　例えば、図９に示すように、運転者が対話予兆ありの状態で「車止まれよ」と発話したとする。なお、当該＜具体例２－１＞では、運転者は、前の車両に対して、「車止まれよ」と発話したとする。図９では、便宜上、運転者による「車止まれよ」を、「（前の）車止まれよ」と図示している。「車止まれよ」との発話は、「２０２０／７／１／２０：５０：４０」に行われたとする。
　この場合、対話予兆検知部１０７が運転者の対話予兆があることを検知し、音声取得部１０３は音声を取得して、音声処理部１０４は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部１０８ａに、音声処理部１０４から、「２０２０／７／１／２０：５０：４０」に「車止まれよ」との運転者による発話が認識された旨の音声認識結果が出力される。
　対話要求判定部１０８ａは、図１０に示すような関連履歴情報を参照し、「車止まれよ」との運転者による発話の直前の助手席の同乗者による挙動の履歴から、対話要求度は「高い」と設定したとする。ここまでの対話要求判定部１０８ａの動作は、実施の形態１にて説明済みの、対話要求判定部１０８の動作と同様である。

　実施の形態２では、その後、更新部１０８１が、関連履歴情報を参照し、関連履歴情報に基づいて、対話要求度を再設定する。
　今、関連履歴情報において、「２０２０／７／１／２０：５０：４０」の運転者による「車止まれよ」の発話時に、同乗者が運転者の方向を見ていたという挙動履歴がある。また、運転者による「車止まれよ」の発話の直後に、「あれは危ないね」と応答している。これらのことから、更新部１０８１は、（条件４）を満たすとし、対話要求度は「低い」と再設定する。

　そうすると、対話要求判定部１０８ａが、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して設定していた対話要求度「高い」と、更新部１０８１が再設定した対話要求度「低い」が一致しない。
　この場合、更新部１０８１は、対話要求判定部１０８ａが、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して対話要求度「高い」と設定した際に用いた設定条件について、対話要求度「低い」と設定されるよう、変更する。
　具体例を挙げると、例えば、対話要求判定部１０８ａが、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して、対話要求度「高い」と設定した際に用いた設定条件が、「判定用遡及時間前の同乗者の視線方向が正面方向である場合、対話要求度は「高い」」であったとすると、更新部１０８１は、判定用遡及時間前の同乗者の視線方向が正面方向である場合には対話要求度は「低い」と設定されるよう、当該設定条件を更新する。

　更新部１０８１は、過去に、運転者による、「車止まれよ」と類似する発話があった場合、当該発話に対して設定される対話要求度が「低い」となるよう、設定条件を更新してもよい。

　また、更新部１０８１は、関連履歴情報において、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して対話要求度「高い」が対応付けられている場合、当該対話要求度「高い」を、「低い」に書き換えておく。

＜具体例２－２＞
　図１１は、実施の形態２において、更新部１０８１が設定条件を更新する場合の車内の状況のその他の一例のイメージを説明するための図である。
　図１１において、運転者は１００１、同乗者は１００２で示している。
　記録部１０６には、図１２に示すような関連履歴情報が記録されているとする。
　更新時設定条件には、上記（条件４）および（条件５）が設定されている。

　例えば、図１１に示すように、運転者が対話予兆ありの状態で「車止まれよ」と発話したとする。なお、当該＜具体例２－２＞では、運転者は、車両４を停車させることを意図して、車両４に対して、「車止まれよ」と発話したとする。図１１では、便宜上、運転者による「車止まれよ」を、「（自分の）車止まれよ」と図示している。
　「車止まれよ」との発話は、「２０２０／７／１／２０：５０：４０」に行われたとする。
　この場合、上記＜具体例２－１＞同様、対話要求判定部１０８ａに、音声処理部１０４から、「２０２０／７／１／２０：５０：４０」に「車止まれよ」との運転者による発話が認識された旨の音声認識結果が出力される。
　これに対し、＜具体例２－２＞では、対話要求判定部１０８ａは、図１２に示すような関連履歴情報を参照し、「車止まれよ」との運転者による発話の直前の助手席の同乗者による挙動の履歴から、対話要求度は「低い」と設定したとする。

　今、関連履歴情報において、「２０２０／７／１／２０：５０：４０」の運転者による「車止まれよ」の発話の直後に、同乗者が装置（例えば、音声認識装置１ａ）の方向に視線を向けたという挙動履歴がある。かつ、同乗者による「あれ？」との疑問文の発話履歴がある。これらのことから、更新部１０８１は、（条件５）を満たすとし、対話要求度は「高い」と再設定する。

　そうすると、対話要求判定部１０８ａが、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して設定していた対話要求度「低い」と、更新部１０８１が再設定した対話要求度「高い」が一致しない。
　この場合、更新部１０８１は、対話要求判定部１０８ａが、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して、対話要求度「低い」と設定した際に用いた設定条件について、対話要求度「高い」と設定されるよう、変更する。

　また、過去に、運転者による、「車止まれよ」と類似する発話があった場合、当該発話に対して設定される対話要求度が「高い」となるよう、設定条件を更新してもよい。

　また、更新部１０８１は、関連履歴情報において、「２０２０／７／１／２０：５０：４０」の「車止まれよ」との運転者による発話に対して対話要求度「低い」が対応付けられている場合、当該対話要求度「低い」を、「高い」に書き換えておく。

　実施の形態２に係る音声認識装置１ａの動作について説明する。
　なお、音声認識装置１ａにおける「履歴記録処理」の動作は、実施の形態１にて図４を用いて説明した、音声認識装置１における「履歴記録処理」の動作と同様であるため、重複した説明を省略する。
　図１３は、実施の形態２に係る音声認識装置１ａの、「対話要求判定処理」における動作を説明するためのフローチャートである。
　図１３において、ステップＳＴ１１１～ステップＳＴ１１７の動作は、それぞれ、実施の形態１にて図５を用いて説明した、図５のステップＳＴ１１～ステップＳＴ１７の動作と同様であるため、重複した説明を省略する。

　更新部１０８１は、ステップＳＴ１１７にて対話要求判定部１０８ａが対話要求度を設定後に、関連履歴情報に基づいて対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新処理を実施する（ステップＳＴ１１８）。
　ステップＳＴ１１８にて更新部１０８１が設定条件を更新すると、以降、対話要求判定部１０８ａは、更新後の設定条件に基づいて、対話要求度の設定を行う。

　このように、音声認識装置１ａにおいて、対話要求判定部１０８ａが更新部１０８１を備えたことにより、運転者の発話に対して設定する対話要求度について、過去の乗員の発話の履歴または挙動の履歴に基づいて設定するのでは誤った設定をしていたところ、誤った設定をしないよう、対話要求度の精度を向上させていくことができる。

　なお、以上の実施の形態２において、「履歴記録処理」は、音声認識装置１ａにて行われることを必須とせず、「履歴記録処理」は、音声認識装置１ａ以外の装置にて行われるようにしてもよい。この場合、音声認識装置１ａは、履歴記録制御部１０５を備えることを必須としない。また、音声認識装置１ａにおいて、音声取得部１０３は、常時、音声を取得しなくてもよく、対話予兆検知部１０７が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。

　また、以上の実施の形態２において、音声認識装置１ａは、動作命令部１０９を備えることを必須としない。動作命令部１０９は、音声認識装置１ａの外部において音声認識装置１ａと接続されている他の装置に備えられてもよい。

　また、以上の実施の形態２において、対話要求判定部１０８ａは、機械学習モデルを用いて、対話要求度を設定してもよい。

　実施の形態２に係る音声認識装置１ａのハードウェア構成は、実施の形態１において図７Ａおよび図７Ｂを用いて説明した音声認識装置１のハードウェア構成と同様であるため、図示を省略する。
　実施の形態２において、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９の機能は、処理回路７０１により実現される。すなわち、音声認識装置１ａは、車内で検知した発話が対話要求発話であるか否かを判定するとともに、当該判定において用いられる設定条件の更新を行う制御を行うための処理回路７０１を備える。
　処理回路７０１は、メモリ７０５に記憶されたプログラムを読み出して実行することにより、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９の機能を実行する。すなわち、音声認識装置１ａは、処理回路７０１により実行されるときに、上述の図４のステップＳＴ１～ステップＳＴ２、および、図１３のステップＳＴ１１１～ステップＳＴ１１８が結果的に実行されることになるプログラムを格納するためのメモリ７０５を備える。また、メモリ７０５に記憶されたプログラムは、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９の処理の手順または方法をコンピュータに実行させるものであるとも言える。
　音声認識装置１ａは、カメラ２、マイク３、車載機器５、または、出力装置６等の装置と、有線通信または無線通信を行う入力インタフェース装置７０２および出力インタフェース装置７０３を備える。

　なお、以上の実施の形態２では、音声認識装置１ａは、車両４に搭載される車載装置とし、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９とは、音声認識装置１に備えられていた。これに限らず、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９のうち、一部が車両４の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
　また、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、記録部１０６と、対話予兆検知部１０７と、対話要求判定部１０８ａと、動作命令部１０９が、全て、サーバに備えられてもよい。

　以上のように、実施の形態２に係る音声認識装置１ａにおいて、対話要求判定部１０８ａは、対話要求度を設定後に、関連履歴情報に基づいて、対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新部１０８１を備えた。そのため、音声認識装置１ａは、両の乗員の発話に対して、誤認識および誤棄却を防ぐことができるとともに、運転者の発話に対して設定する対話要求度について、過去の乗員の発話の履歴または挙動の履歴に基づいて設定するのでは誤った設定をしていたところ、誤った設定をしないよう、対話要求度の精度を向上させていくことができる。

実施の形態３．
　実施の形態２にて説明した音声認識装置において、個人認証機能を有するようにしてもよい。
　以下、音声認識装置において、個人認証機能を有するようにし、音声認識装置が、個人認証結果を用いて、運転者の発話を受け付けるか否かを判定する実施の形態について説明する。なお、以下の実施の形態３でも、実施の形態２同様、一例として、ユーザは、車両の運転者を想定している。

　図１４は、実施の形態３に係る音声認識装置１ｂの構成例を示す図である。
　図１４において、実施の形態２にて図８を用いて説明した音声認識装置１ａの構成と同様の構成については、同じ符号を付して重複した説明を省略する。
　実施の形態３に係る音声認識装置１ｂは、図８を用いて説明した実施の形態２に係る音声認識装置１ａとは、個人認証部１１０を備える点が異なる。また、対話要求判定部１０８ｂの具体的な動作が、実施の形態２に係る音声認識装置１ａにおける対話要求判定部１０８ａの具体的な動作とは異なる。

　個人認証部１１０は、画像取得部１０１が取得した撮像画像に基づいて個人認証を行う。なお、実施の形態３では、画像取得部１０１は、撮像画像を個人認証部１１０に出力する。
　具体的には、例えば、予め、乗員について、個人を特定する情報と顔情報とが対応付けられた認証用情報が生成され、個人認証部１１０は、当該認証用情報を保持している。個人認証部１１０は、撮像画像から既知の画像認識処理を行って乗員の顔画像を抽出し、抽出した顔画像と個人認証用情報とのマッチングを行うことで、個人認証を行う。また、個人認証部１１０は、撮像画像から、目、鼻、口等の顔のパーツを抽出し、予め登録されている特徴点データベースとの照合を行う等の公知の種々の個人認証方法にて、個人認証を行えばよい。
　個人認証部１１０は、個人認証結果を、挙動検知部１０２および履歴記録制御部１０５に出力する。個人認証結果には、例えば、乗員の位置に関する情報と、乗員を識別可能な情報が含まれる。乗員を識別可能な情報とは、例えば、名前または顔画像である。
　なお、個人認証部１１０は、「履歴記録処理」および「対話要求判定処理」において機能する。

　実施の形態３に係る音声認識装置１ｂにおける「履歴記録処理」において、挙動検知部１０２が履歴記録制御部１０５に出力する挙動情報には、例えば、挙動が検知された時刻と、乗員を識別可能な情報と、検知された挙動内容を示す情報が対応付けられる。
　実施の形態１および実施の形態２では、音声認識装置１，１ａは個人認証機能を有していなかったため、挙動情報において、乗員は、乗員の位置に関する情報によってあらわされていた。実施の形態３では、音声認識装置１ｂは、個人認証部１１０を備えるようにしたため、挙動情報において、乗員は、当該乗員を識別可能な情報を含めることができる。

　履歴記録制御部１０５は、挙動検知部１０２から出力された挙動情報と、音声処理部１０４から出力された音声認識結果とに基づき、関連履歴情報を生成する。
　このとき、履歴記録制御部１０５は、挙動を行った動作者には、当該動作者を識別可能な情報を設定するようにする。履歴記録制御部１０５は、動作者を識別可能な情報を、挙動検知部１０２から出力された挙動情報に基づいて特定できる。また、履歴記録制御部１０５は、発話者には、当該発話者を識別可能な情報を設定するようにする。履歴記録制御部１０５は、発話者を識別可能な情報を、例えば、音声処理部１０４から出力される音声認識結果と、個人認証部１１０から出力される個人認証結果とに基づいて特定すればよい。
　履歴記録制御部１０５は、生成した関連履歴情報を、記録部１０６に記録させる。

　実施の形態３では、関連履歴情報は、例えば３日間、削除されずに記録部１０６に記録されていることを想定する。なお、３日間は一例に過ぎず、実施の形態３において、関連履歴情報は、ある程度の期間、削除されずに記録部１０６に記録されるようになっていればよい。関連履歴情報は、一定期間を過ぎた場合に自動削除されてもよいし、運転者または同乗者の指示により削除できるようにしてもよい。

　ここで、図１５は、実施の形態３において、履歴記録制御部１０５が生成する関連履歴情報の内容の一例のイメージを説明するための図である。
　図１５に示すように、関連履歴情報において、発話者または動作者は、「Ａさん」または「Ｂさん」等、個人を識別可能な情報で示される。
　また、図１５に示す関連履歴情報では、対話要求度と乗員の発話とが対応付けられている（「２０２０／６／２９／２０：５０：４０」のＡさんによる発話参照）。実施の形態３では、「対話要求判定処理」にて、対話要求判定部１０８ｂは、対話要求度を設定すると、当該対話要求度を、関連履歴情報において、当該対話要求度を設定した乗員による発話と対応付けるようにしている。
　また、更新部１０８１は、対話要求度を再設定した結果、設定情報を更新した場合、関連履歴情報における対話要求度の書き換えを行うようにしている。
　また、図１５に示す関連履歴情報には、発話の履歴として、声のトーンに関する情報が設定されている。

　実施の形態３に係る音声認識装置１ｂにおける「対話要求判定処理」において、対話要求判定部１０８ｂは、音声認識装置１ｂが個人認証機能を有することで、運転者の発話の直前の発話の履歴または挙動の履歴だけではなく、さらに過去の発話の履歴または挙動の履歴を用いて対話要求度を設定することができる。

　具体的には、対話要求判定部１０８ｂは、対話予兆検知部１０７が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報に基づき、過去に、同じ発話状況で設定した対話要求度がある場合、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定する。同じ発話状況とは、例えば、発話の内容が同じである状況である。同じ発話状況とは、例えば、発話の内容、および、声のトーンとが同じである状況してもよい。
　また、対話要求判定部１０８ｂは、音声処理部１０４による音声認識結果と、記録部１０６に記録関連履歴情報に加え、さらに、挙動検知部１０２が検出した挙動情報に基づき、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度がある場合、当該同じ発話状況および同じ挙動状況で設定した過去の対話要求度を、対話要求度に設定してもよい。挙動情報は、対話予兆検知部１０７から出力された対話予兆情報に含まれている。

　なお、実施の形態３において、「同じ発話状況」は、厳密に同じ発話状況である必要はなく、類似する発話状況も含む。また、実施の形態３において、「同じ挙動状況」は、厳密に同じ挙動状況である必要はなく、類似する挙動状況も含む。

　また、実施の形態３において、対話要求判定部１０８ｂは、上述した、過去の対話要求度に基づいて対話要求度を設定する機能に加え、実施の形態２において説明済みの、対話要求判定部１０８ａの機能も有する。

　ここで、対話要求判定部１０８ｂによる対話要求度の設定について、具体例を挙げて説明する。
　以下の具体例において、対話要求度は「高い」または「低い」で設定される。
　また、図１５に示す関連履歴情報が生成され、記録部１０６に記録された状態から、３日が経過し、関連履歴情報には、図１６に示すような関連履歴情報がさらに記録されるようになっている。すなわち、図１６は、「２０２０／７／２」に生成された関連履歴情報である。なお、図１６では図示していないが、図１５に示す関連履歴情報は削除されず、記録部１０６に記録されている。

　図１５に示す通り、３日前の「２０２０／６／２９／２０：５０：４０」に、Ａさんが「車止まれよ」と発話した際、例えば、対話要求判定部１０８ｂの更新部１０８１は、直後にＢさんが応答した発話履歴があることから、対話要求度「低い」と更新したとする。

　今、「２０２０／６／２９／２０：５０：４０」から３日後の「２０２０／７／２／１１：５５：２５」に、Ａさんが、対話予兆がある状態で「車止まれよ」と発話したとする（図１６参照）。このとき、Ａさんは、声のトーンが低い話し方であったとする。また、Ａさんの顔向きは正面を向いている。
　この場合、Ａさんによる、顔向きを正面にした状態での「車止まれよ」との、声のトーンを低くした発話は、「２０２０／６／２９／２０：５０：４０」に、Ａさんが「車止まれよ」と発話した際の、挙動状況および発話状況と同じである。
　よって、対話要求判定部１０８ｂは、Ａさんの「車止まれよ」に対する対話要求度を、「２０２０／６／２９／２０：５０：４０」に、Ａさんが「車止まれよ」と発話した際に設定した対話要求度と同じ「低い」と設定する。

　上述のとおり、対話要求判定部１０８ｂは、過去の類似する発話状況、または、過去の類似する挙動情報を、それぞれ、同じ発話状況、または、同じ挙動情報とみなして、過去の対話要求度を対話要求度に設定するようにしてもよい。
　例えば、関連履歴情報において、挙動内容または声のトーンは、図１５および図１６に示したようにテキストではなく、数値として保持されているものとし、対話要求判定部１０８ｂは、数値の比較によって、値の差が予め設定された閾値以内であるか否かによって、発話状況または挙動情報が類似しているかを判定すればよい。

　対話要求判定部１０８ｂが対話要求度を設定した後に行う処理については、実施の形態２に係る音声認識装置１ａにおいて対話要求判定部１０８ａが対話要求度を設定した後に行う処理と同様であるため、重複した説明を省略する。

　実施の形態３に係る音声認識装置１ｂの動作について説明する。
　図１７は、実施の形態３に係る音声認識装置１ｂの、「履歴記録処理」における動作を説明するためのフローチャートである。
　図１７において、ステップＳＴ１～ステップＳＴ４の動作は、それぞれ、実施の形態１にて図４を用いて説明した図４のステップＳＴ１～ステップＳＴ４の動作と同様であるため、重複した説明を省略する。

　個人認証部１１０は、ステップＳＴ１にて画像取得部１０１が取得した撮像画像に基づいて個人認証を行う（ステップＳＴ６）。
　なお、画像取得部１０１は、ステップＳＴ１にて撮像画像を個人認証部１１０に出力する。

　履歴記録制御部１０５は、ステップＳＴ２にて挙動検知部１０２から出力された挙動情報と、ステップＳＴ５にて音声処理部１０４から出力された音声認識結果とに基づき、関連履歴情報を生成する（ステップＳＴ５）。
　このとき、履歴記録制御部１０５は、挙動を行った動作者には、当該動作者を識別可能な情報を設定するようにする。

　図１８は、実施の形態３に係る音声認識装置１ｂの、「対話要求判定処理」における動作を説明するためのフローチャートである。
　図１８において、ステップＳＴ１１１１、ステップＳＴ１１１３～ステップＳＴ１１１６、ステップＳＴ１１１９の動作は、それぞれ、実施の形態２にて図１３を用いて説明したステップＳＴ１１１～ステップＳＴ１１５、ステップＳＴ１１８の動作と同様であるため、重複した説明を省略する。

　個人認証部１１０は、ステップＳＴ１１１１にて画像取得部１０１が取得した撮像画像に基づいて個人認証を行う（ステップＳＴ１１１２）。
　なお、画像取得部１０１は、ステップＳＴ１１１１にて撮像画像を個人認証部１１０に出力する。

　対話要求判定部１０８は、ステップＳＴ１１１４にて、対話予兆検知部１０７が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、ステップＳＴ１１１６における音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施する（ステップＳＴ１１１７）。
　ステップＳＴ１１１７において、対話要求判定部１０８ｂは、対話予兆検知部１０７が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、ステップＳＴ１１１６における音声処理部１０４による音声認識結果と、ステップＳＴ１１１３において挙動検知部１０２が検知した運転者の挙動と、記録部１０６に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施してもよい。

　図１９は、図１８のステップＳＴ１１１７における対話要求判定部１０８ｂの動作について、より詳細に説明するためのフローチャートである。
　図１９において、ステップＳＴ１１１７３～ステップＳＴ１１１７５の動作は、それぞれ、実施の形態１にて説明した、図６のステップＳＴ１６１～ステップＳＴ１６３の動作と同様であるため、重複した説明を省略する。

　対話要求判定部１０８ｂは、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部１０７から対話予兆情報が出力された場合、音声処理部１０４による音声認識結果と、記録部１０６に記録されている関連履歴情報に基づき、過去に、同じ発話状況で設定した対話要求度があるか否かを判定する（ステップＳＴ１１１７１）。

　ステップＳＴ１１１７１において、過去に、同じ発話状況で設定した対話要求度があると判定した場合（ステップＳＴ１１１７１の“ＹＥＳ”の場合）、対話要求判定部１０８ｂは、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定する（ステップＳＴ１１１７２）。
　そして、音声認識装置１ｂの動作は、ステップＳＴ１１１７４に進む。

　一方、ステップＳＴ１１１７１において、過去に、同じ発話状況で設定した対話要求度がないと判定した場合（ステップＳＴ１１１７１の“ＮＯ”の場合）、音声認識装置１ｂの動作は、ステップＳＴ１１１７３に進む。

　以上の図１９の動作において、対話要求判定部１０８ｂは、ステップＳＴ１１１７１において、音声処理部１０４による音声認識結果と、記録部１０６に記録関連履歴情報と、挙動検知部１０２が検出した挙動情報に基づき、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度があるか否かを判定してもよい。
　対話要求判定部１０８ｂは、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度があると判定した場合（ステップＳＴ１１１７１の“ＹＥＳ”の場合）、当該同じ発話状況および同じ挙動状況で設定した過去の対話要求度を、対話要求度に設定する（ステップＳＴ１１１７２）。そして、音声認識装置１ｂの動作は、ステップＳＴ１１１７４に進む。
　対話要求判定部１０８ｂが、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度がないと判定した場合（ステップＳＴ１１１７１の“ＮＯ”の場合）、音声認識装置１ｂの動作は、ステップＳＴ１１１７３に進む。

　なお、図１８のステップＳＴ１１１１～ステップＳＴ１１１３、ステップＳＴ１１１５～ステップＳＴ１１１６の動作は、それぞれ、図１７のステップＳＴ１、ステップＳＴ７、ステップＳＴ２～ステップＳＴ４の動作と共通していてもよい。

　このように、音声認識装置１ｂは、個人認証部１１０を備えたことにより、乗員個人毎の発話および挙動の特徴を把握することが可能となる。これにより、音声認識装置１ｂは、乗員個人の発話または挙動の特徴を考慮して、対話要求度を設定することができるため、設定する対話要求度の精度を向上させることができる。その結果、音声認識装置１ｂは、個人認証機能を有しない場合と比べ、運転者による発話が、応答要求発話であるか、同乗者への発話であるかの判定の精度を向上させることができる。すなわち、音声認識装置１ｂは、個人認証機能を有しない場合と比べ、運転者による発話を受け付けるか否かの判定の精度を向上させることができる。

　なお、以上の実施の形態３において、「履歴記録処理」は、音声認識装置１ｂにて行われることを必須とせず、「履歴記録処理」は、音声認識装置１ｂ以外の装置にて行われるようにしてもよい。この場合、音声認識装置１ｂは、履歴記録制御部１０５を備えることを必須としない。また、音声認識装置１ｂにおいて、音声取得部１０３は、常時、音声を取得しなくてもよく、対話予兆検知部１０７が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。

　また、以上の実施の形態３において、音声認識装置１ｂは、動作命令部１０９を備えることを必須としない。動作命令部１０９は、音声認識装置１ｂの外部において音声認識装置１ｂと接続されている他の装置に備えられてもよい。

　また、以上の実施の形態３において、対話要求判定部１０８ｂは、機械学習モデルを用いて、対話要求度を設定してもよい。

　実施の形態３に係る音声認識装置１ｂのハードウェア構成は、実施の形態１において図７Ａおよび図７Ｂを用いて説明した音声認識装置１ｂのハードウェア構成と同様であるため、図示を省略する。
　実施の形態３において、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０の機能は、処理回路７０１により実現される。すなわち、音声認識装置１ｂは、乗員の個人認証を行い、乗員個人の発話または挙動の特徴にあわせて、車内で検知した発話が対話要求発話であるか否かを判定する制御を行うための処理回路７０１を備える。
　処理回路７０１は、メモリ７０５に記憶されたプログラムを読み出して実行することにより、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０の機能を実行する。すなわち、音声認識装置１ｂは、処理回路７０１により実行されるときに、上述の図１７のステップＳＴ１～ステップＳＴ６、および、図１８のステップＳＴ１１１１～ステップＳＴ１１１９が結果的に実行されることになるプログラムを格納するためのメモリ７０５を備える。また、メモリ７０５に記憶されたプログラムは、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０の処理の手順または方法をコンピュータに実行させるものであるとも言える。
　音声認識装置１ｂは、カメラ２、マイク３、車載機器５、または、出力装置６等の装置と、有線通信または無線通信を行う入力インタフェース装置７０２および出力インタフェース装置７０３を備える。

　なお、以上の実施の形態３では、音声認識装置１ｂは、車両４に搭載される車載装置とし、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０とは、音声認識装置１ｂに備えられていた。これに限らず、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０のうち、一部が車両４の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
　また、画像取得部１０１と、挙動検知部１０２と、音声取得部１０３と、音声処理部１０４と、履歴記録制御部１０５と、対話予兆検知部１０７と、対話要求判定部１０８ｂと、動作命令部１０９と、個人認証部１１０が、全て、サーバに備えられてもよい。

　また、以上の実施の形態３では、音声認識装置１ｂは、実施の形態２に係る音声認識装置１ａに個人認証部１１０を備えたものとしたが、これは一例に過ぎない。実施の形態３の構成を実施の形態１に適用し、実施の形態１に係る音声認識装置１が個人認証部１１０を備えるようにしてもよい。

　以上のように、実施の形態３に係る音声認識装置１ｂは、画像取得部１０１が取得した撮像画像に基づいて個人認証を行う個人認証部１１０を備え、関連履歴情報には、乗員個人を認証可能な個人認証情報と、複数の乗員の挙動の履歴、または、複数の乗員の発話の履歴が時系列で設定されており、対話要求判定部１０８ｂは、対話要求度を設定すると当該対話要求度を関連履歴情報において発話受付対象乗員による発話に関する情報と対応付けるようにし、対話予兆検知部１０７が発話受付対象乗員による対話予兆があると検知した場合、音声処理部１０４による音声認識結果と、関連履歴情報に基づき、過去に、発話受付対象乗員の発話について同じ発話状況で設定した対話要求度がある場合、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定するようにした。音声認識装置１ｂは、乗員個人の発話または挙動の特徴を考慮して、対話要求度を設定することができるため、設定する対話要求度の精度を向上させることができる。その結果、音声認識装置１ｂは、個人認証機能を有しない場合と比べ、発話受付対象乗員による発話が、応答要求発話であるか、同乗者への発話であるかの判定の精度を向上させることができる。すなわち、音声認識装置１ｂは、個人認証機能を有しない場合と比べ、発話受付対象乗員による発話を受け付けるか否かの判定の精度を向上させることができる。

　なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　本開示に係る音声認識装置は、車両の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。

　１，１ａ，１ｂ　音声認識装置、２　カメラ、３　マイク、４　車両、５　車載機器、６　出力装置、１０１　画像取得部、１０２　挙動検知部、１０３　音声取得部、１０４　音声処理部、１０４１　発話検知部、１０４２　音声認識部、１０５　履歴記録制御部、１０６　記録部、１０７　対話予兆検知部、１０８，１０８ａ，１０８ｂ　対話要求判定部、１０８１　更新部、１０９　動作命令部、１１０　個人認証部、７０１　処理回路、７０２　入力インタフェース装置、７０３　出力インタフェース装置、７０４　プロセッサ、７０５　メモリ。

Claims

　車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部と、
　前記画像取得部が取得した撮像画像に基づき、前記複数の乗員の挙動を検知する挙動検知部と、
　前記挙動検知部が検知した前記複数の乗員の挙動に関する情報に基づき、前記複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部と、
　前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記車内の音声を取得する音声取得部と、
　前記音声取得部が取得した音声に基づき前記発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部と、
　前記音声処理部による音声認識結果と、前記複数の乗員の挙動の履歴または前記複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、前記発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部
　を備えた音声認識装置。
　前記対話要求判定部は、
　前記音声処理部による前記音声認識結果と前記関連履歴情報と設定条件に基づいて前記乗員による発話が装置への応答を求める対話であると推定される度合いを示す対話要求度を設定し、設定した対話要求度と対話要求度判定条件との比較によって、前記発話受付対象乗員による発話を受け付けるか否かを判定する
　ことを特徴とする請求項１記載の音声認識装置。
　前記対話要求判定部は、
　前記関連履歴情報における、前記発話受付対象乗員の同乗者による、当該発話受付対象乗員の発話よりも判定用遡及時間前の挙動、または、前記発話受付対象乗員の前記同乗者による、当該発話受付対象乗員の発話よりも前記判定用遡及時間前の発話と、前記設定条件に基づいて、前記対話要求度を設定する
　ことを特徴とする請求項２記載の音声認識装置。
　前記対話要求判定部は、前記対話要求度を設定後に、前記関連履歴情報に基づいて、前記対話要求度を再設定し、再設定した前記対話要求度に基づいて、前記設定条件を更新する更新部を備えた
　ことを特徴とする請求項２記載の音声認識装置。
　前記画像取得部が取得した撮像画像に基づいて個人認証を行う個人認証部を備え、
　前記関連履歴情報には、前記乗員個人を認証可能な個人認証情報と、前記複数の乗員の挙動の履歴、または、前記複数の乗員の発話の履歴が時系列で設定されており、
　前記対話要求判定部は、前記対話要求度を設定すると当該対話要求度を前記関連履歴情報において前記発話受付対象乗員による発話に関する情報と対応付けるようにし、前記対話予兆検知部が前記発話受付対象乗員による対話予兆があると検知した場合、前記音声処理部による前記音声認識結果と、前記関連履歴情報に基づき、過去に、前記発話受付対象乗員の発話について同じ発話状況で設定した前記対話要求度がある場合、当該同じ発話状況で設定した過去の前記対話要求度を、前記対話要求度に設定する
　ことを特徴とする請求項２から請求項４のうちのいずれか１項記載の音声認識装置。
　前記画像取得部が取得した撮像画像に基づいて個人認証を行う個人認証部を備え、
　前記関連履歴情報には、前記乗員個人を認証可能な個人認証情報と、前記複数の乗員の挙動の履歴、または、前記複数の乗員の発話の履歴が時系列で設定されており、
　前記対話要求判定部は、
　前記対話要求度を設定すると、当該対話要求度を前記関連履歴情報において前記発話受付対象乗員による発話に関する情報と対応付けるようにし、
　前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記音声処理部による前記音声認識結果と、前記関連履歴情報と、前記挙動検知部が検知した前記発話受付対象乗員の挙動に関する情報に基づき、過去に、前記発話受付対象乗員の発話について同じ発話状況および同じ挙動状況で設定した前記対話要求度がある場合、当該同じ発話状況および同じ挙動状況で設定した過去の前記対話要求度を、前記対話要求度に設定する
　ことを特徴とする請求項２から請求項４のうちのいずれか１項記載の音声認識装置。
　前記対話要求判定部は、
　前記音声処理部による前記音声認識結果と、前記関連履歴情報と、前記音声認識結果と前記関連履歴情報を入力とし前記対話要求度を出力する機械学習モデルとに基づいて、前記対話要求度を設定する
　ことを特徴とする請求項２記載の音声認識装置。
　前記音声取得部は、前記発話受付対象乗員による対話予兆があると検知したか否かにかかわらず前記車内の音声を取得し、前記挙動検知部が検知した前記複数の乗員の挙動に関する情報と前記音声処理部が行った音声認識結果に基づいて、前記関連履歴情報を生成する履歴記録制御部を備えた
　ことを特徴とする請求項１記載の音声認識装置。
　前記乗員の挙動には、前記乗員の顔向き、前記乗員の視線方向、または、前記乗員が行ったジェスチャが含まれる
　ことを特徴とする請求項１記載の音声認識装置。
　前記音声認識結果には、前記乗員の話し方に関する情報、または、前記乗員の発話の属性に関する情報が含まれる
　ことを特徴とする請求項１記載の音声認識装置。
　前記乗員の発話の属性は、疑問文、未来文、依頼文、または、命令文に分類される
　ことを特徴とする請求項１０記載の音声認識装置。
　画像取得部が、車内に存在する複数の乗員を撮像した撮像画像を取得するステップと、
　挙動検知部が、前記画像取得部が取得した撮像画像に基づき、前記複数の乗員の挙動を検知するステップと、
　対話予兆検知部が、前記挙動検知部が検知した前記複数の乗員の挙動に関する情報に基づき、前記複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知するステップと、
　音声取得部が、前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記車内の音声を取得するステップと、
　音声処理部が、前記音声取得部が取得した音声に基づき前記発話受付対象乗員による発話を検知し、検知した発話の音声認識を行うステップと、
　対話要求判定部が、前記音声処理部による音声認識結果と、前記複数の乗員の挙動の履歴または前記複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、前記発話受付対象乗員による発話を受け付けるか否かを判定するステップ
　とを備えた音声認識方法。