WO2023090057A1

WO2023090057A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2023090057A1
Application number: PCT/JP2022/039440
Authority: WO
Inventors: 真人西尾; 雄平矢部
Original assignee: ソニーグループ株式会社
Priority date: 2021-11-17
Filing date: 2022-10-24
Publication date: 2023-05-25

Abstract

本開示に係る情報処理装置（１００）は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部（１３１）と、前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部（１３２）と、前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部（１３３）と、前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部（１３４）と、を備える。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、音声認識および認識した音声に対する反応処理を実行する情報処理装置、情報処理方法および情報処理プログラムに関する。

　近年、ＡＩによる音声認識や、音声認識した発話に対して応答を行う発話応答処理が盛んに利用されている。かかる処理では、ユーザが発話した内容に対して自然な応答をすること、および、正確な音声認識を行うことが求められる。

　例えば、予め対話のシナリオをデータとして保持することで、ユーザとの対話状況に応じて発話内容を臨機応変に変える技術が知られている（例えば、特許文献１）。また、音声認識の精度を上げる手法として、発話者の唇の動きを読み取って発話者の状態を検出したり、音声認識を開始したりする技術が知られている（例えば、特許文献２や特許文献３）。

特開２００４－１０９３２３号公報特開２０１９－１２５２４１号公報特開２０１９－１２８９３８号公報

　しかしながら、音声認識を行ったうえで内容に沿った反応を返す処理を実行する場合、認識性を向上させるのみでは適切な反応を返すことができない可能性がある。例えば、自動車内で、同乗する複数の人間の発話に基づいてＡＩが目的地を検索したり、行先を決定したりする場合、音声が混同してしまったり、発話の意図を汲みとれなかったりするおそれがある。

　そこで、本開示では、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる情報処理装置、情報処理方法および情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、を備える。

実施形態に係る車両の断面図である。実施形態に係る情報処理の概要を示す図である。実施形態に係る情報処理の流れを示すブロック図である。実施形態に係る車両の構成例を示す図である。実施形態に係るユーザ情報記憶部の一例を示す図である。実施形態に係る外部ステータス記憶部の一例を示す図である。実施形態に係る判定モデル記憶部の一例を示す図である。実施形態に係る情報処理の流れを示すフローチャートである。変形例に係る撮像器の構成例を示す図である。本技術が適用され得る車両制御システムの概略的な機能の構成例を示すブロック図である。本技術が適用され得る車両制御システムによるセンシング領域の例を示す図である。本開示に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．本開示に係る情報処理の概要
　　　１－２．実施形態に係る車両の構成例
　　　１－３．実施形態に係る情報処理の手順
　　　１－４．実施形態に係る変形例
　　２．その他の実施形態
　　　２－１．変形例に係る撮像器の構成
　　　２－２．移動体の構成
　　　２－３．その他
　　３．本開示に係る情報処理装置の効果
　　４．ハードウェア構成

（１．実施形態）
（１－１．本開示に係る情報処理の概要）
　本開示に係る情報処理は、例えば自動車内等の空間において複数の人物が発話した場合に、各々の発話者を特定したうえで各々の発話を認識し、認識した発話に対する反応を生成するものである。

　例えば、自動車内など比較的騒音の大きい空間では、音声認識を正確に行うことが難しい傾向にある。また、自動車内などの閉鎖空間では、複数の人物が同じ音声エージェント（例えば、車内に搭載されたカーナビゲーションシステム）を同時に利用することが多い。この場合、同時に複数人の発話を認識することになるため、音声エージェントの音声認識精度が低下するおそれがある。

　さらに、発話者ごとの音声認識が可能であった場合も、音声エージェントは、それに対してどのような反応をすればよいのか判定が難しい。例えば、音声エージェントは、車内に所在する複数の人物から同時に異なる質問を受けた場合に、どの質問に反応すべきかを判定することが難しく、結果としてエラー（「音声を認識できませんでした」などの反応）を返すことになる。このように、特に自動車内などの閉鎖空間で複数人が所在する状況において、正確な音声認識を行うことが難しいという課題がある。

　本開示に係る情報処理装置は、以下に説明する処理を実行することにより、上記課題を解決する。すなわち、情報処理装置は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とをそれぞれ取得し、取得した音声および映像に基づいて、複数の発話者の各々を特定する。さらに、情報処理装置は、特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質をそれぞれ認識し、認識した各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。

　例えば、情報処理装置は、発話者の映像に含まれる口唇の動きを読み取って発話内容を認識するリップリーディング（lip-reading）技術を用いて発話内容を補完することで、自動車内などの騒音環境下において音声のみでの音声認識が困難な場合にも、音声認識の精度を向上させる。また、情報処理装置は、発話者の音声および映像から、発話者の属性（例えば、複数人間での序列）を認識することで、発話に対する反応の優先度を決定し、優先度に応じて反応を返す。これにより、情報処理装置は、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる。

　以下、本開示に係る情報処理について詳細に説明する。まず、図１および図２を用いて、本開示の実施形態に係る情報処理の概要を説明する。

　実施形態では、本開示に係る情報処理装置として、自動車である車両１００を例に挙げる。図１は、実施形態に係る車両１００の断面図である。図１に示すように、車両１００には、ユーザ１０、ユーザ１２が同乗する。なお、図１での図示は省略するが、車両１００には、他のユーザ１１およびユーザ１３も同乗する（図２参照）。

　実施形態において、ユーザ１０、ユーザ１１、ユーザ１２およびユーザ１３は、家族であるものとする。例えば、ユーザ１０は家族における父親であり、ユーザ１１は母親であり、ユーザ１２は年長の子供であり、ユーザ１３は年少の子供である。以下では、各々を区別する必要のない場合、単に「ユーザ」と総称する。

　車両１００は、本開示に係る情報処理装置としての機能を有し、後述する各種機能部を動作することにより、実施形態に係る情報処理を実行する。図１に示すように、車両１００は、カメラ２０１およびカメラ２０２を備える。

　カメラ２０１およびカメラ２０２は、例えば、撮像対象とする物体までの距離を認識可能なステレオカメラやＴｏＦ（Time　of　Flight）センサを備える深度センサ付きカメラである。カメラ２０１やカメラ２０２は、車両１００の前方や、天井、後部座席等に備えられることで、車両１００の内部に所在する人物を死角なく検出可能である。なお、カメラ２０１およびカメラ２０２は、赤外線カメラであり、サーモセンサ（温度検知）の機能を備えてもよい。すなわち、カメラ２０１およびカメラ２０２は、車両１００の内部で撮像した対象が、画面に映った人間ではなく、実際に所在する生体であることを認識可能である。なお、カメラ２０１およびカメラ２０２は、赤外線に限らず、ミリ波による生体信号検出等の各種機能を備えてもよい。また、車両１００は、カメラ２０１およびカメラ２０２とは別に赤外線センサ等を備えることで、人物の検出等を行ってもよい。

　また、車両１００は、音声を取得可能なマイクロホンを備える。車両１００は、ユーザ１０等が発した音声を認識し、認識した音声に対して種々の反応を生成する。例えば、車両１００は、ユーザ１０が目的地の名称を発生すると、その目的地までの行先を示すナビゲーション表示をフロントパネル等の表示部（液晶ディスプレイ等）に表示する。すなわち、車両１００は、音声対話機能を有する音声エージェント（以下、単に「エージェント」と称する）としての機能を有する。

　また、車両１００は、車内および外部の温度や湿度、騒音、今後の天気の動向、車内温度の上昇予測等を検知するセンサを備えてもよい。すなわち、車両１００は、各種の内部および外部環境情報を取得可能である。かかる環境情報は、後述する情報処理に利用される。

　車両１００は、走行中、継続的に車内のユーザ１０等の音声および映像を取得し、音声および映像に基づいて、エージェント機能を発揮する。すなわち、車両１００は、ユーザ１０等から目的地の位置や到達時間を求められた場合に、かかる質問への反応を生成し、反応に係る音声や映像を出力する。例えば、車両１００は、目的地までの時間を音声でユーザ１０に伝えたり、目的地までの地図を表示したりする。

　次に、図２を用いて、車両１００が複数の人物に対する反応を生成する処理について説明する。図２は、実施形態に係る情報処理の概要を示す図である。

　図２に示す例では、車両１００は、ユーザ１２が発話した「遊園地に行きたい！」という発話２０を取得する。車両１００は、発話２０を取得したのち、ユーザ１０が発話した「レストランに行こう」という発話２１を取得する。車両１００は、発話２１を取得したのち、ユーザ１１が発話した「遊園地に行きたいね」という発話２２を取得する。

　車両１００は、このとき、発話２０、発話２１、発話２２の音声とともに、カメラ２０１によって撮像された映像を取得する。そして、車両１００は、それぞれの発話が行われた際の各発話者の映像に基づいて、各々の発話を行った人物を特定する。

　例えば、車両１００は、発話２０の音声が認識された際に、ユーザ１２の口唇が動いていたことを認識することで、発話２０の主体がユーザ１２であることを特定する。あるいは、車両１００は、発話２０の音声認識の内容と、ユーザ１２の口唇が動きに基づくリップリーディングの結果との一致に基づいて、発話２０の主体がユーザ１２であることを特定する。

　あるいは、車両１００は、発話２０の音声が認識された際に口唇が動いていた人物を、事前学習した画像認識モデルを用いて判別することにより、発話２０の音声の主体がユーザ１２であると特定してもよい。また、車両１００は、カメラ２０１によって常時撮像される映像に基づいて、後部座席右側に所在する人物はユーザ１２であるとする学習結果に基づいて、発話２０の音声の主体がユーザ１２であると特定してもよい。すなわち、車両１００は、任意の手法により、発話の主体がいずれの人物であるかを特定する。具体的には、車両１００は、発話２０の主体がユーザ１２であり、発話２１の主体がユーザ１０であり、発話２２の主体がユーザ１１であることを特定する。また、車両１００は、ユーザ１３からは発せられた音声が取得できなかった（発話が行われなかった）ことを認識する。

　発話者を特定すると、車両１００は、各々の発話者の属性を認識する。例えば、車両１００は、特定した発話者において序列が設定されたルールに基づいて、発話者間の序列を認識する。図２の例では、車両１００は、予め、車内に所在する複数人において、ユーザ１１（母親）、ユーザ１０（父親）、ユーザ１２（年長の子供）、ユーザ１３（年少の子供）という序列であるというルール設定を受け付けているものとする。なお、ルールは、必ずしも上記４人のユーザが含まれるというものではなく、例えば、ユーザ１３の下の序列に「不特定人物」といったユーザが含まれていてもよいし、例えば、ユーザ１１およびユーザ１０の序列のみを規定したルールであってもよい。後者の場合、車両１００は、規定されていないユーザ１２とユーザ１３の序列について、画像認識の結果、年長と推定される人物を上位に配したり、過去の学習結果に基づいて反応を生成した数の多かった方を上位に配したり、様々な手法で序列を規定してもよい。

　また、車両１００は、各々の発話者が発した音声を認識し、その発話の内容を意味認識する。例えば、車両１００は、発話２０はユーザ１２が遊園地に行きたがっていることを意味認識する。この場合、車両１００は、発話２０への反応として、遊園地までの行き方を示すナビゲーションを開始したり、近隣の遊園地に関する情報を提供したりといった反応を生成する。また、車両１００は、発話２１はユーザ１０がレストランに行きたがっていることを意味認識する。この場合、車両１００は、発話２１への反応として、レストランまでの行き方を示すナビゲーションを開始したり、近隣のレストランに関する情報を提供したりといった反応を生成する。また、車両１００は、発話２２はユーザ１１が遊園地に行きたがっていることを意味認識する。この場合、車両１００は、発話２２への反応として、遊園地までの行き方を示すナビゲーションを開始したり、近隣の遊園地に関する情報を提供したりといった反応を生成する。

　このとき、車両１００は、それぞれの音声認識に基づく反応をすぐに生成するのではなく、序列に基づいて、反応を出力する優先度を決定する。例えば、車両１００は、各々の発話者のうち、最も上位の発話者に対する反応を優先的に出力する。

　すなわち、図２の例では、車両１００は、最も上位であるユーザ１１の発話２２に対する反応を優先的に生成し、出力する。具体的には、車両１００は、「遊園地」への行き方をナビ表示したり、近隣の遊園地の情報を提供したりするといった、反応２５を出力する。

　なお、車両１００は、すべての発話が終了するのを待ってから反応を生成するのではなく、認識した発話ごとに反応を生成してもよい。例えば、車両１００は、発話２０を認識し、発話２０に対する反応を生成する。具体的には、車両１００は、遊園地へのナビ表示などを行う。このあと、ユーザ１０が「レストランに行こう」という発話２１をしたことにより、車両１００は、序列に基づき、発話２０への反応をキャンセルする。すなわち、車両１００は、発話２０に対する反応を中断し、レストランへの行き方などを示すナビ表示をする。さらに、このあと、ユーザ１１が「遊園地に行きたいね」という発話２２をしたことにより、車両１００は、序列に基づき、発話２１への反応をキャンセルする。すなわち、車両１００は、発話２１に対する反応を中断し、遊園地への行き方などを示すナビ表示をする。このように、車両１００は、反応の優先度を決定してから反応を出力してもよいし、出力したのちに反応をキャンセルするなどして、序列に沿った反応を出力してもよい。

　このように、実施形態に係る車両１００によれば、３人のユーザ１０、ユーザ１１、ユーザ１２がほぼ同時に発話を行った場合でも、それぞれの発話者を特定することで、それぞれの発話内容を正確に認識する。例えば、車両１００は、リップリーディングを併用することで、複数の音声が混在している状況下でも、発話者ごとの発話内容を認識する。さらに、車両１００は、発話者の属性（図２の例では序列）を利用することで、より場の状況に応じた反応を生成することができる。すなわち、車両１００は、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる。

　なお、車両１００は、発話者の属性のみならず、発話の性質や、外部環境等に応じて、反応を生成したり、反応の優先度を決定てもよい。発話の性質とは、例えば、発話された音声の組成情報（音圧、音程、通常の発話者の発話との相違度）や、音声の組成情報等から解析される発話者の感情等である。

　例えば、車両１００は、序列が低いユーザが発した発話であったとしても、その発話の音圧や、通常のその人物が発する音声との相違から、発話に緊迫感や逼迫感があると認識した場合、その発話への反応の優先度を高く判定する。具体的には、車両１００は、ユーザ１０が「気を付けて！」と車内の人物に大声で注意を促した場合、他の人物が発話中であったとしても、その発話への反応を生成せず、代わりに車両１００に流れている音楽を止めたり、所定の警告を発したりといった、ユーザ１０の発話への反応を生成する。

　また、車両１００は、発話の性質として、発話がエージェントに向けられたものか否かを判定し、判定結果に応じて生成の優先度を決定してもよい。例えば、ユーザ１０が後部座席に向かった発話した場合、その発話は、エージェントではなくユーザ１２やユーザ１３に向けて発話したと想定される。車両１００は、ユーザ１０を撮像した映像から、その発話がエージェントに向けられていないと判定し、その発話への反応を生成しなかったり、優先度を下げたりすることができる。なお、車両１００は、ユーザの視線の向きや顔の向き、音声の指向性、発話の内容等に基づいて、発話がエージェントに向けられているか否かを判定してもよい。

　また、車両１００は、外部環境に応じて反応を生成してもよい。例えば、車両１００は、外部環境の一例として、緊急車両の接近を検知したとする。この場合、車両１００は、車内で発話があったとしても、その発話への反応よりも優先して、「車両を停止してください」など所定の警告を発したり、車内の音楽を停止させたりするなどの反応を生成する。あるいは、車両１００は、深夜時間帯にもかかわらず、車内の音楽の音量を上げようとする発話があった場合、その発話への反応よりも優先して、「これ以上は迷惑になります」など所定の警告を発するような反応を生成してもよい。また、車両１００は、天候が悪化しているにもかかわらず、運転の困難な地域に向かおうとする発話があった場合、その発話への反応よりも優先して、「そこに行くのは危険です」など所定の警告を発するような反応を生成してもよい。

　以上のように、車両１００は、各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質や外部環境等に基づいて各種の反応を生成することで、反応を最適化する。

　かかる情報処理について、図３を用いて、処理の流れを示しながら、より詳細に説明する。図３は、実施形態に係る情報処理の流れを示すブロック図である。図３では、情報処理に関する構成の一例と、その構成における情報処理の流れを概念的なブロック図として示している。なお、図３に示す各ブロックは、あくまで説明のために各機構や各機能を概念的に示したものであり、各種変形を伴ってもよい。

　図３に示すように、車両１００は、撮像器３０を備える。撮像器３０は、ＲＧＢステレオカメラ３１や、赤外線カメラ３２や、サーモセンサ３３を含む。なお、サーモセンサ３３は、ＲＧＢステレオカメラ３１等に組み込まれてもよい。例えば、車両１００は、ＲＧＢステレオカメラ３１によって照度を検出し、照度が所定値以上であればＲＧＢステレオカメラ３１で人物を撮像し、照度が所定値以下（夜間など）であれば赤外線カメラ３２で人物を撮像してもよい。また、車両１００は、実際に人物が所在しているか否かをサーモセンサ３３等で判定する。

　撮像器３０において撮像されたデータは、センサーフュージョンモジュール３４に送られ、データが処理される。例えば、センサーフュージョンモジュール３４は、ＲＧＢステレオカメラ３１や赤外線カメラ３２で撮像された映像に基づいて、人物の所在を判定したり、人物認識を行ったりする。また、センサーフュージョンモジュール３４は、サーモセンサ３３によって検出された情報で、人物が所在するか否かといった情報を補完する。なお、センサー切替モジュール３５は、照度などの環境情報に応じて、人物を撮像する撮像器３０を切り替えたり、状況に応じた撮像器３０を選択したりする機能部である。

　また、車両１００は、エージェントに関するアイコン設定３６を実行してもよい。アイコン設定３６とは、エージェントを示すアイコンを液晶ディスプレイ等に表示する処理である。例えば、後述するパーソナライズエンジン４３では、発話者がエージェントを示すアイコンに向かって話しかけている否か等を判定要素として用いる。

　車両１００は、認識器４０において、発話者の音声や、発話者が誰であるかといったパーソナライズ認識を行う。認識器４０は、音声認識モジュール４１と、リップリーディングモジュール４２と、パーソナライズエンジン４３を備える。

　音声認識モジュール４１は、音声を取得し、取得した音声を認識して、発話の意図解析等を行う。リップリーディングモジュール４２は、リップリーディング技術を用いて、発話者が発した音声を認識して、発話の意図解析等を行う。リップリーディングモジュール４２は、例えば、音声認識モジュール４１で取得が難しい状況（騒音下など）において、音声認識モジュール４１の処理を補完する。

　パーソナライズエンジン４３は、音声認識モジュール４１で取得された音声や、センサーフュージョンモジュール３４で取得された映像に基づいて、発話者が誰であるかを認識する。なお、図３に示すように、音声認識モジュール４１、リップリーディングモジュール４２およびパーソナライズエンジン４３は並列化されており、同時に複数人を認識することが可能である。

　認識器４０を経た情報は、優先順位エンジン４４に入力される。優先順位エンジン４４は、反応（例えば発話への回答）生成の優先順位を決定する。例えば、優先順位エンジン４４は、判定要素として、感情４５や、権限特定４６や、外部ステータス４７を用いる。感情４５は、発話の性質や音声の組成情報等から解析される、ユーザの緊迫感等を示す情報である。権限特定４６は、例えば、ルールベースで定められたユーザ間の序列等である。外部ステータス４７は、時間帯や天候等の外部環境や、緊急車両の接近等の外部状況等である。

　優先順位エンジン４４を経た情報は、回答検討エンジン４８に入力される。回答検討エンジン４８は、優先度に応じて、回答方針の判断４９を決定する。例えば、回答方針の判断４９は、優先度と、生成した回答とが行列５０のような形式で並ぶものである。

　回答検討エンジン４８は、回答方針の判断４９において形成された行列５０を回答の待ち行列５１として、実行エンジン５２に渡す。実行エンジン５２は、情報取得モジュール５３で待ち行列５１を取得する。待ち行列５１の順序に従い、操作モジュール５４が実際の操作を行う。例えば、操作モジュール５４は、発話に応じたナビゲーション表示など、待ち行列５１において設定された回答に関する具体的な操作を実行する。

（１－２．実施形態に係る車両の構成例）
　次に、図４を用いて、車両１００の構成について説明する。図４は、本開示の実施形態に係る車両１００の構成例を示す図である。図４に示すように、車両１００は、通信部１１０と、記憶部１２０と、制御部１３０と、検知部１４０と、出力部１４５とを有する。なお、図４に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、車両１００の機能は、複数の物理的に分離された装置に分散して実装されてもよい。

　通信部１１０は、例えば、ネットワークインタフェースコントローラ(Network　Interface　Controller)やＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、ＵＳＢ（Universal　Serial　Bus）ホストコントローラ、ＵＳＢポート等により構成されるＵＳＢインターフェイスであってもよい。また、通信部１１０は、有線インターフェイスであってもよいし、無線インターフェイスであってもよい。例えば、通信部１１０は、無線ＬＡＮ方式やセルラー通信方式の無線通信インターフェイスであってもよい。通信部１１０は、車両１００の通信手段あるいは送信手段として機能する。例えば、通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、クラウドサーバ等の外部装置や、他の情報処理端末等との間で情報の送受信を行う。ネットワークＮは、車両１００が接続するネットワークの総称であり、例えば、インターネットや携帯電話通信網等である。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、各種データを記憶する。例えば、記憶部１２０は、検出対象を学習した学習器（判定モデル）や、検出した人物に関するデータ等を記憶する。なお、記憶部１２０は、ナビゲーションを実行するための地図データ等を記憶してもよい。図４の例では、記憶部１２０は、ユーザ情報記憶部１２１と、外部ステータス記憶部１２２と、判定モデル記憶部１２３とを備える。

　図５は、実施形態に係るユーザ情報記憶部１２１の一例を示す図である。図５に示すように、ユーザ情報記憶部１２１は、「ユーザＩＤ」、「属性」、「優先順位」といった項目を有する。

　「ユーザＩＤ」は、車両１００のユーザを識別するための識別情報である。「属性」は、各ユーザの属性を示す。図５の例では、家族であるユーザ１０等における家族内の属性を例として挙げる。「優先順位」は、ユーザに紐づけられた優先順位（序列）を示す。

　次に、図６を用いて、外部ステータス記憶部１２２について説明する。図６は、実施形態に係る外部ステータス記憶部１２２の一例を示す図である。図６に示すように、外部ステータス記憶部１２２は、「外部ステータスＩＤ」、「内容」、「優先順位」、「対応リスト」といった項目を有する。

　「外部ステータスＩＤ」は、車両１００が反応を生成するために利用される、外部環境や外部状況等を含む外部ステータスを識別する識別情報である。「内容」は、外部ステータスの内容を示す。「優先順位」は、外部ステータスに関する反応が生成される優先順位を示す。「対応リスト」は、外部ステータスの状況が確認された場合に、車両１００が実行する反応の具体的な内容を示す。例えば、（車速、車内音）という構成で、（停止、消音）という内容が設定されている対応リストは、外部ステータスの内容が発生した場合、車両１００の反応として、車両１００を停止させ、車両１００で流れている音楽等を停止させることを示している。

　次に、図７を用いて、判定モデル記憶部１２３について説明する。図７は、実施形態に係る判定モデル記憶部１２３の一例を示す図である。図７に示すように、判定モデル記憶部１２３は、「モデルＩＤ」、「入力」、「判定内容」といった項目を有する。

　「モデルＩＤ」は、情報処理に用いる判定モデルを識別する識別情報を示す。「入力」は、判定モデルに入力される情報の種類を示す。「判定内容」は、判定モデルから出力される判定内容を示す。

　例えば、図７の例では、モデルＩＤ「Ｍ０１」で識別される判定モデルは、「音声」が入力された場合に、判定結果として「人物」を出力するモデルであることを示す。すなわち、モデルＩＤ「Ｍ０１」で識別される判定モデルとは、車両１００を利用するユーザの音声を学習した学習済みモデルであり、あるユーザの音声を入力した場合に、ユーザを特定するための情報（例えば、その音声の主がユーザ１０である可能性を示すスコアなど）を出力するモデルである。なお、判定モデルは、どのような学習手法で作成されたものかを問わない。また、車両１００は、必ずしも判定モデルを自装置に保持する必要はなく、適宜、情報処理に必要な判定処理を行うことができるモデルを外部装置等（例えば学習処理を行うクラウドサーバ等）から取得してもよい。

　図４に戻り説明を続ける。検知部１４０は、車両１００に関する各種情報を検知する。具体的には、検知部１４０は、車両１００の周囲の環境や、車両１００の所在する位置情報や、車両１００と接続されている機器に関する情報等を検知する。検知部１４０は、各種の情報を検知するセンサと読み替えてもよい。

　例えば、検知部１４０の一例は、車両１００の周囲を撮像する機能を有するセンサであり、いわゆるカメラである。この場合、検知部１４０は、図１で示したカメラ２０１およびカメラ２０２や、図３で示した撮像器３０等に対応する。

　また、検知部１４０は、車両１００内部や、車両１００の周囲にある物体との距離を測定するためのセンサを含んでもよい。例えば、検知部１４０は、車両１００の周辺環境の三次元的な構造を読み取るＬｉＤＡＲ（Light　Detection　and　Ranging）であってもよい。ＬｉＤＡＲは、赤外線レーザ等のレーザ光線を周囲の物体に照射し、反射して戻るまでの時間を計測することにより、物体までの距離や相対速度を検知する。また、検知部１４０は、ミリ波レーダを使った測距システムであってもよい。また、検知部１４０は、深度データを取得するためのデプスセンサを含んでもよい。

　また、検知部１４０は、車両１００の走行情報や環境情報等を測定するためのセンサを含んでもよい。例えば、検知部１４０は、車両１００の挙動を検知する。例えば、検知部１４０は、車両の加速度を検知する加速度センサや、挙動を検知するジャイロセンサ、ＩＭＵ（Inertial　Measurement　Unit）等である。

　また、検知部１４０は、車両１００の内部や外部の音を収集するマイクロフォンや、車両１００の周囲の照度を検知する照度センサや、車両１００の周囲の湿度を検知する湿度センサや、車両１００の所在位置における磁場を検知する地磁気センサ等を含んでもよい。

　出力部１４５は、各種情報を出力するための機構である。例えば、出力部１４５は、映像を表示する表示部１４６と、音声を出力する音声出力部１４７とを含む。表示部１４６は、例えば液晶ディスプレイ等である。例えば、表示部１４６は、検知部１４０によって撮像された画像を表示したり、ナビゲーション表示などユーザの発話に対して生成された反応を表示したりする。また、表示部１４６は、車両１００を利用するユーザ等から各種操作を受け付けるための処理部を兼ねてもよい。例えば、表示部１４６は、キー操作やタッチパネル等を介して、各種情報の入力を受け付けてもよい。また、音声出力部１４７は、いわゆるスピーカー部であり、各種音声を出力する。例えば音声出力部１４７は、車両１００に搭載された音声エージェントの音声や、後述する生成部１３４によって生成された各種反応を音声として出力する。なお、出力部１４５は、表示部１４６や音声出力部１４７に限らず、各種情報をＬＥＤ等の光の明滅で通知する光出力部や、映像を投影するプロジェクター等を含んでもよい。

　制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、車両１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図４に示すように、制御部１３０は、取得部１３１と、特定部１３２と、認識部１３３と、生成部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部１３１は、各種情報を取得する。例えば、取得部１３１は、検知部１４０を介して、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とをそれぞれ取得する。具体的には、取得部１３１は、複数の発話者が同乗する車両１００内に設置された撮像器３０によって撮像される映像を取得する。

　取得部１３１は、映像として、発話者の口唇を撮影した映像を取得する。これにより、後段の処理部は、リップリーディングによって音声を認識したり、発話者を特定したりすることができる。

　なお、取得部１３１は、検知部１４０による温度検知を経て、発話者を検知したうえで、発話者が発話している状態を撮影した映像を取得してもよい。これにより、取得部１３１は、テレビ映像に移った人物等ではなく、実際に空間に所在する人物の映像を取得することができる。

　また、取得部１３１は、映像に基づいて、車両１００内部に所在する人数や位置、車両１００内の人物の状況等を取得してもよい。具体的には、取得部１３１は、複数の発話者が所在する空間における、複数の発話者が所在する位置に関する情報を取得する。これにより、後段の処理部は、映像等で明確に人物を認識できない場合でも、通常、後部座席に座っている人物はユーザ１２やユーザ１３である、といった推測を行うことができる。

　また、取得部１３１は、複数の発話者が発したそれぞれの音声の組成情報を取得してもよい。すなわち、取得部１３１は、音声の音圧や音程や、通常時の発話音声との相違度等を取得する。例えば、取得部１３１は、ユーザの音声を学習した判定モデルを用いて、通常時の発話音声と、処理対象とする音声の相違度を判定してもよい。

　また、取得部１３１は、複数の発話者が所在する空間の環境に関する情報を取得してもよい。例えば、取得部１３１は、車両１００内部の温度や湿度等、車両内部の環境情報を取得する。また、取得部１３１は、車両１００外部の外気温や温度上昇予測等の車両外部の環境情報を取得する。また、取得部１３１は、車両外部の天候や時間帯、今後の天候等の情報を外部のサービスサーバ（天気サービスを提供するサーバ等）から取得してもよい。

　また、取得部１３１は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得してもよい。例えば、取得部１３１は、外部環境の検知結果として、緊急車両が接近しているという事態や、緊急事態（災害等）が発生しているといった事態に関する情報を取得してもよい。

　特定部１３２は、取得部１３１によって取得された音声および映像に基づいて、複数の発話者の各々を特定する。

　例えば、特定部１３２は、発話者の口唇を撮影した映像に基づいて、複数の発話者の各々を特定する。例えば、特定部１３２は、音声を発した際に口唇が動いているユーザを、その音声における発話者であると特定する。あるいは、特定部１３２は、音声認識とリップリーディングとの結果の照合に基づいて、複数の発話者の各々を特定する。

　認識部１３３は、特定部１３２によって特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質をそれぞれ認識する。

　例えば、認識部１３３は、各々の発話者が発した音声、もしくは、各々の発話者の口唇の動きに基づいて、各々の発話者が発した発話をそれぞれ認識する。すなわち、認識部１３３は、音声による認識と、リップリーディングによる認識とのいずれか、あるいは、双方を用いて、各々の発話者が発した発話の内容や意図をそれぞれ認識する。

　また、認識部１３３は、車両１００において、複数の発話者が所在する位置に関する情報に基づいて、複数の発話者の属性を認識してもよい。すなわち、認識部１３３は、常時車両１００内部を撮像した映像に基づき、前方座席に座るユーザや後部座席に座るユーザを予め認識しておき、音声が発せられた場合、その座席に座ったユーザの位置に基づいて、ユーザの属性を認識する。

　また、認識部１３３は、複数の発話者が発したそれぞれの音声の組成情報に基づいて、複数の発話者の属性を認識してもよい。すなわち、認識部１３３は、常時車両１００内部において発せられる音声を取得し、その特徴を学習して判定モデルを生成する。そして、認識部１３３は、音声が入力された場合に、その音声の音圧や波形等の特徴量に基づいて、その音声を発した発話者および発話者の属性を認識する。この場合、認識部１３３は、判定モデルと合わせて、予め属性が規定されたルールが保持されたユーザ情報記憶部１２１の情報等を参照することで、より正確に発話者の属性を認識することができる。

　また、認識部１３３は、取得された音声および映像に基づいて、複数の発話者が反応の生成を要望しているか否かを認識してもよい。すなわち、認識部１３３は、発話がエージェントに対して行われたのか、あるいは、ユーザ同士の会話に過ぎないのか、を映像や音声に基づいて認識する。

　例えば、認識部１３３は、取得された映像における発話者の視線もしくは口唇の向きに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。一例として、認識部１３３は、エージェントのアイコン（マイクの表示等）に向かって音声が発せられたのか、あるいは、ユーザの視線がアイコンに向けられているか等を判定要素として、ユーザが反応の生成を要望しているか否かを認識してもよい。

　また、認識部１３３は、発話者が発した音声の内容、音声の指向性および音声の組成情報の少なくともいずれか一つに基づいて、複数の発話者が反応の生成を要望しているか否かを認識してもよい。例えば、認識部１３３は、発話者がエージェント側（例えば、車両１００の出力部１４５やカメラ２０１等）を向いて音声を発したか（音声がその設置対象の向きを指向しているか）を判定要素として、発話者が反応の生成を要望しているか否かを認識する。あるいは、認識部１３３は、判定モデルを用いて、発話者が人間同士で会話する際の組成情報（音程等）と、発話者がエージェント等の機械に向けて音声を発する場合の相違を判定し、判定した結果に基づいて、発話者がエージェントに対して発話したか、すなわち、反応の生成を要望しているか否かを認識してもよい。

　また、認識部１３３は、発話の性質として、各々の発話者が発した発話における発話者の感情を認識してもよい。例えば、認識部１３３は、判定モデルを用いて、当該発話が通常時と異なる特徴量を有していることを判定し、かかる情報に基づいて、発話者が緊迫感を有しているか否か等を認識する。

　なお、認識部１３３は、音声のみならず、映像における発話者の表情や、口唇の動きや、発話における音声の組成情報の少なくともいずれか一つに基づいて、発話者の感情を認識してもよい。例えば、認識部１３３は、発話者の表情を判定するための画像認識モデルを用いて、撮像された発話者の表情からどのくらいの緊迫感を有しているかを推定してもよい。

　生成部１３４は、認識部１３３によって認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。

　なお、生成部１３４は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応の優先度を決定する。後述する出力制御部１３５は、生成部１３４が決定した優先度に応じて、認識した発話に対する反応を出力する。すなわち、実施形態において、反応の生成とは、発話に対する回答などの具体的な内容のみならず、発話に対してそもそも反応を返すのか（出力するのか）、あるいは、どのような順番で複数の発話に対して反応するのか、といった優先順位を決定する処理も含む概念である。

　例えば、生成部１３４は、複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成してもよい。一例として、生成部１３４は、発話者がエージェントに向かって話しかけていないと認識した場合には、当該発話に対して反応を生成しなかったり、反応の生成の優先順位を低くしてもよい。

　また、生成部１３４は、各々の発話者の属性に紐づけられた優先順位に基づいて、認識した発話に対する反応を生成してもよい。すなわち、生成部１３４は、発話者の序列にしたがい、反応を生成する優先順位を決定したり、上位の発話者に対する反応を優先的に出力したりしてもよい。

　また、生成部１３４は、各々の発話者の感情に応じて決定される優先順位に基づいて、認識した発話に対する反応を生成してもよい。すなわち、生成部１３４は、より緊迫感や逼迫感があると認識された発話に対して、優先的に反応を生成してもよい。

　また、生成部１３４は、取得部１３１によって取得された外部環境に関する情報に基づいて、認識した発話に対する反応を生成してもよい。

　例えば、生成部１３４は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報が取得された場合、発話者への応答よりも優先して、かかる所定の事態に対応した反応を生成してもよい。具体的には、生成部１３４は、緊急車両の接近等を検知した場合、かかる事態に対応した反応（車両１００の停止や音楽の停止など）を生成する。

　また、生成部１３４は、外部環境に関する情報として、時間帯もしくは天候に関する情報が取得された場合、時間帯もしくは天候に対応した反応を生成してもよい。例えば、生成部１３４は、深夜時間帯において生成する反応が規定されている場合、かかる規定にしたがって反応を生成する。

　また、生成部１３４は、認識した発話に対する反応として、車両１００の挙動に関する反応を生成してもよい。車両の挙動に関する反応とは、上記のように車両１００を停止する制御であったり、あるいは、目的地の設定にしたがい車両１００を自動運転したりすること等である。

　出力制御部１３５は、生成部１３４によって生成された反応を出力部１４５に出力するよう制御する。例えば、出力制御部１３５は、生成部１３４が決定した優先度に応じて、認識した発話に対する反応を出力する。また、出力制御部１３５は、優先度に応じて、どのような情報をどのような出力部１４５から出力するのかを制御してもよい。例えば、出力制御部１３５は、ユーザに迅速に情報を伝達する方が望ましい、優先度の高い情報については音声出力部１４７から音声として出力し、それ以外の情報は表示部１４６に表示する、などの制御を行ってもよい。また、出力制御部１３５は、複数のユーザ間でより優先度の高いユーザ１０によるリクエストに基づき交通情報のニュースが流れている間は、そのニュース音声を邪魔しないよう、表示部１４６にコメントを映像で出力するなど、ユーザごとの優先度に応じて出力先を制御してもよい。

（１－３．実施形態に係る情報処理の手順）
　次に、図８を用いて、実施形態に係る情報処理の流れの一例について説明する。図８は、実施形態に係る情報処理の流れを示すフローチャートである。

　図８に示すように、車両１００は、車両１００内部に所在するユーザの音声を認識したか否かを判定する（ステップＳ１０１）。音声を認識しない場合（ステップＳ１０１；Ｎｏ）、車両１００は、音声を認識するために待機する処理を継続する。

　一方、音声を認識した場合（ステップＳ１０１；Ｙｅｓ）、車両１００は、当該音声がエージェントによる反応を要求しているか否かを判定する（ステップＳ１０２）。当該音声がエージェントによる反応を要求していないと判定した場合（ステップＳ１０２；Ｎｏ）、車両１００は、反応を生成せず、音声を認識するために待機する処理を継続する。

　一方、エージェントによる反応を要求していると判定した場合（ステップＳ１０２；Ｙｅｓ）、車両１００は、複数の発話者のうち、当該音声を発話した発話者を特定する（ステップＳ１０３）。さらに、車両１００は、発話内容と発話者に基づいて優先度を決定する（ステップＳ１０４）。例えば、車両１００は、発話の性質や発話者の属性に基づいて優先度を決定する。

　さらに、車両１００は、緊急車両が接近していることなど、外部要素が存在しているか否かを判定する（ステップＳ１０５）。外部要素が存在する場合（ステップＳ１０５；Ｙｅｓ）、車両１００は、外部要素と実行優先度を比較する（ステップＳ１０６）。例えば、車両１００は、外部要素が「緊急車両の接近」など、極めて優先度が高いと設定されている要素であれば、外部要素に対する反応生成の優先度を高める。

　そして、車両１００は、優先度順に反応を生成する（ステップＳ１０７）。続けて、車両１００は、優先度順（待ち行列）に応じて、生成した反応を出力する（ステップＳ１０８）。これにより、車両１００は、反応生成処理の一つのイベントが終了したと判定し（ステップＳ１０９）、次の音声を取得するまで待機する。

（１－４．実施形態に係る変形例）
　上述した実施形態は、様々に異なる変形を伴ってもよい。例えば、車両１００は、音声認識において、リップリーディングだけでなく、所定の辞書データを利用して音声認識を行ってもよい。

　例えば、車両１００は、ユーザが頻繁に利用する施設や、ユーザが頻繁に発する用語を辞書データとして保持する。これにより、車両１００は、ユーザが施設等の固有名詞を発した場合でも、辞書データを参照して用語を特定することができるので、音声認識の精度を向上させることができる。

　また、車両１００は、文脈情報（コンテキスト）を用いて音声認識精度を向上させてもよい。例えば、ユーザ同士の会話でレストランや食事の話が交わされている際に、エージェントに対して固有名詞（レストラン名）が発せられた場合、車両１００は、文脈情報から固有名詞が周辺のレストランの可能性が高いと推測し、周辺のレストランの名称等を用いて、音声認識を補完する。これにより、車両１００は、音声認識に関するエラーを返す確率を低下させ、ユーザビリティの向上を図ることができる。

　また、実施形態では、車両１００内部を複数の発話者が所在する空間として例示したが、実施形態に係る情報処理は、自動車以外にも適用可能である。例えば、実施形態に係る情報処理は、複数人が参加する会議の会議室で実行されてもよいし、ウェブ会議等に利用されてもよい。

　また、実施形態では、車両１００が、発話者の口唇を読み取る例を示した。しかし、車両１００は、口唇の動きに限らず、発話者の表情筋など、発話者の表情を形成するあらゆる情報を読み取ってもよい。すなわち、車両１００は、口唇の動きで発話内容を読み取るのみならず、発話者を撮像するカメラ等のセンサで取得可能な任意の情報で発話内容を読み取ってもよい。

（２．その他の実施形態）
　上述した各実施形態で示した情報処理装置等の構成は、上記各実施形態以外にも種々の異なる形態で実現されてよい。

（２－１．変形例に係る撮像器の構成）
　上記実施形態では、図３に示した撮像器３０は、カメラ２０１やカメラ２０２の一例であり、すなわちＲＧＢステレオカメラ３１等で実現される例を示した。ここで、本開示に係る撮像器３０は、イメージセンサに自動認識モデルが組み込まれ、モデルを用いて推論処理を行うことで、物体の検出と撮像とをともに行うことが可能な、いわゆるＡＩイメージセンサとして構成されてもよい。この場合、撮像器３０は、車両１００による制御がなくても、人物や口唇といったオブジェクトを認識し、認識したものを自動的に撮像することが可能である。

　この点について、図９を用いて説明する。図９は、変形例に係る撮像器の構成例を示す図である。図９では、変形例に係る撮像器の一例として、検出装置３００を示す。

　図９に示すように、検出装置３００は、イメージセンサ３１０を含む。なお、図９での図示は省略するが、検出装置３００は、デジタルカメラとしての機能を実現するための光学系や、車両１００やクラウドサーバ等と通信するための通信系等を有する。

　イメージセンサ３１０は、例えば、チップで構成されるＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）イメージセンサであり、光学系からの入射光を受光し、光電変換を行って、入射光に対応する画像データを出力する。

　イメージセンサ３１０は、画素チップ３１１と、ロジックチップ３１２とが接続部３１３を介して一体となる構成を有する。また、イメージセンサ３１０は、画像処理ブロック３２０と、信号処理ブロック３３０とを有する。

　画素チップ３１１は、撮像部３２１を有する。撮像部３２１は、複数の画素が２次元に並んで構成される。撮像部３２１は、撮像処理部３２２によって駆動され、画像を撮像する。

　撮像処理部３２２は、撮像制御部３２５の制御に従い、撮像部３２１の駆動や、撮像部３２１が出力するアナログの画像信号のＡＤ（Analog　to　Digital）変換や、撮像信号処理等の撮像部３２１での画像の撮像に関連する撮像処理を行う。

　撮像処理部３２２が出力する撮像画像は、出力制御部３２３に供給されるとともに、画像圧縮部３３５に供給される。また、撮像処理部３２２は、出力Ｉ／Ｆ３２４に撮影画像を渡す。

　出力制御部３２３は、撮像処理部３２２からの撮像画像、および、信号処理ブロック３３０からの信号処理結果を、出力Ｉ／Ｆ３２４から外部（実施形態では、車両１００等）に選択的に出力させる出力制御を行う。すなわち、出力制御部３２３は、検出されたオブジェクトの挙動を示す挙動データと、画像のうち少なくとも一方を選択的に外部に出力するよう制御する。

　具体的には、出力制御部３２３は、撮像処理部３２２からの撮像画像、または、信号処理ブロック３３０からの信号処理結果を選択し、出力Ｉ／Ｆ３２４に供給する。

　例えば、出力Ｉ／Ｆ３２４は、車両１００が画像データと挙動データとの双方を要求する場合、双方のデータを出力可能である。あるいは、出力Ｉ／Ｆ３２４は、車両１００が挙動データのみを要求する場合、挙動データのみを出力することが可能である。すなわち、出力Ｉ／Ｆ３２４は、二次分析において撮像画像そのものが必要でない場合には、信号処理結果（挙動データ）だけを出力することができるので、外部に出力するデータ量を削減することができる。

　図９に示すように、信号処理ブロック３３０は、ＣＰＵ３３１、ＤＳＰ３３２、メモリ３３３、通信Ｉ／Ｆ３３４、画像圧縮部３３５、入力Ｉ／Ｆを有する。

　例えば、ＣＰＵ３３１およびＤＳＰ３３２は、通信Ｉ／Ｆ３３４もしくは入力Ｉ／Ｆ３３６を介してメモリ３３３に組み込まれた事前学習モデルを用いて、画像圧縮部３３５に含まれる画像から、オブジェクトを認識する。また、ＣＰＵ３３１およびＤＳＰ３３２は、認識したオブジェクトの挙動を示す挙動データを取得する。言い換えれば、信号処理ブロック３３０は、各機能部が協働して、オブジェクトを認識するための事前学習モデルを用いて、画像に含まれるオブジェクトの挙動を検出する。

　上記の構成により、実施形態に係る検出装置３００は、画像処理ブロック３２０により得られた画像データと、信号処理ブロック３３０により得られた挙動データとを、選択的に外部に出力することができる。

　なお、検出装置３００は、図９で示した構成に加えて、各種センサを備えてもよい。例えば、検出装置３００は、空間に所在するオブジェクトまでの距離を測定する深度センサであるＴｏＦセンサを備えてもよい。これにより、検出装置３００は、挙動データとして、画像上で示される２次元の点群データのみならず、高さ情報を加えた３次元の点群データを取得することができる。

　図９で示した構成は、例えば、図４で示した車両１００の一部の構成に対応する。例えば、検出装置３００は、取得部１３１や、特定部１３２や、認識部１３３の一部の処理を実行することができる。この場合、本開示に係る情報処理は、車両１００と検出装置３００とが協働して実行してもよい。

（２－２．移動体の構成）
　例えば、車両１００は、自動運転を行う自律型移動体によって実現されてもよい。この場合、車両１００は、図４に示した構成の他に、図１０および図１１に示す示す構成を有してもよい。なお、以下に示す各部は、例えば、図４に示した各部に含まれてもよい。

　すなわち、本技術の車両１００は、以下に示す車両制御システム４１１として構成することも可能である。図１０は、本技術が適用され得る車両制御システム４１１の概略的な機能の構成例を示すブロック図である。

　車両制御システム４１１は、車両１００に設けられ、車両１００の走行支援及び自動運転に関わる処理を行う。

　車両制御システム４１１は、車両制御ＥＣＵ（Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ　）４２１、通信部４２２、地図情報蓄積部４２３、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信部４２４、外部認識センサ４２５、車内センサ４２６、車両センサ４２７、記録部４２８、走行支援・自動運転制御部４２９、ＤＭＳ（Ｄｒｉｖｅｒ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ）４３０、ＨＭＩ（Ｈｕｍａｎ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｒｆａｃｅ）４３１、及び、車両制御部４３２を備える。

　車両制御ＥＣＵ４２１、通信部４２２、地図情報蓄積部４２３、ＧＮＳＳ受信部４２４、外部認識センサ４２５、車内センサ４２６、車両センサ４２７、記録部４２８、走行支援・自動運転制御部４２９、ＤＭＳ４３０、ＨＭＩ４３１、及び、車両制御部４３２は、通信ネットワーク４４１を介して相互に通信可能に接続されている。通信ネットワーク４４１は、例えば、ＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＩＮ（Ｌｏｃａｌ　Ｉｎｔｅｒｃｏｎｎｅｃｔ　Ｎｅｔｗｏｒｋ）、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＦｌｅｘＲａｙ（登録商標）、イーサネット（登録商標）といったディジタル双方向通信の規格に準拠した車載通信ネットワークやバス等により構成される。通信ネットワーク４４１は、通信されるデータの種類によって使い分けられても良く、例えば、車両制御に関するデータであればＣＡＮが適用され、大容量データであればイーサネットが適用される。なお、車両制御システム４１１の各部は、通信ネットワーク４４１を介さずに、例えば近距離無線通信（ＮＦＣ（Ｎｅａｒ　Ｆｉｅｌｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ））やＢｌｕｅｔｏｏｔｈ（登録商標）といった比較的近距離での通信を想定した無線通信を用いて直接的に接続される場合もある。

　なお、以下、車両制御システム４１１の各部が、通信ネットワーク４４１を介して通信を行う場合、通信ネットワーク４４１の記載を省略するものとする。例えば、車両制御ＥＣＵ４２１と通信部４２２が通信ネットワーク４４１を介して通信を行う場合、単に車両制御ＥＣＵ４２１と通信部４２２とが通信を行うと記載する。

　車両制御ＥＣＵ４２１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）といった各種プロセッサにより構成される。車両制御ＥＣＵ４２１は、車両制御システム４１１全体もしくは一部の機能の制御を行う。

　通信部４２２は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行う。このとき、通信部４２２は、複数の通信方式を用いて通信を行うことができる。

　通信部４２２が実行可能な車外との通信について、概略的に説明する。通信部４２２は、例えば、５Ｇ（第５世代移動通信システム）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、ＤＳＲＣ（Ｄｅｄｉｃａｔｅｄ　Ｓｈｏｒｔ　Ｒａｎｇｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ）等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク上に存在するサーバ（以下、外部のサーバと呼ぶ）等と通信を行う。通信部４２２が通信を行う外部ネットワークは、例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク等である。通信部４２２による外部ネットワークに対して通信を行う通信方式は、所定以上の通信速度、且つ、所定以上の距離間でディジタル双方向通信が可能な無線通信方式であれば、特に限定されない。

　また例えば、通信部４２２は、Ｐ２Ｐ（Ｐｅｅｒ　Ｔｏ　Ｐｅｅｒ）技術を用いて、自車の近傍に存在する端末と通信を行うことができる。自車の近傍に存在する端末は、例えば、歩行者や自転車など比較的低速で移動する移動体が装着する端末、店舗などに位置が固定されて設置される端末、あるいは、ＭＴＣ（Ｍａｃｈｉｎｅ　Ｔｙｐｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ）端末である。さらに、通信部４２２は、Ｖ２Ｘ通信を行うこともできる。Ｖ２Ｘ通信とは、例えば、他の車両との間の車車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｖｅｈｉｃｌｅ）通信、路側器等との間の路車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｉｎｆｒａｓｔｒｕｃｔｕｒｅ）通信、家との間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｈｏｍｅ）の通信、及び、歩行者が所持する端末等との間の歩車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｐｅｄｅｓｔｒｉａｎ）通信等の、自車と他との通信をいう。

　通信部４２２は、例えば、車両制御システム４１１の動作を制御するソフトウエアを更新するためのプログラムを外部から受信することができる（Ｏｖｅｒ　Ｔｈｅ　Ａｉｒ）。通信部４２２は、さらに、地図情報、交通情報、車両１００の周囲の情報等を外部から受信することができる。また例えば、通信部４２２は、車両１００に関する情報や、車両１００の周囲の情報等を外部に送信することができる。通信部４２２が外部に送信する車両１００に関する情報としては、例えば、車両１００の状態を示すデータ、認識部４７３による認識結果等がある。さらに例えば、通信部４２２は、ｅコール等の車両緊急通報システムに対応した通信を行う。

　通信部４２２が実行可能な車内との通信について、概略的に説明する。通信部４２２は、例えば無線通信を用いて、車内の各機器と通信を行うことができる。通信部４２２は、例えば、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ、ＮＦＣ、ＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）といった、無線通信により所定以上の通信速度でディジタル双方向通信が可能な通信方式により、車内の機器と無線通信を行うことができる。これに限らず、通信部４２２は、有線通信を用いて車内の各機器と通信を行うこともできる。例えば、通信部４２２は、図示しない接続端子に接続されるケーブルを介した有線通信により、車内の各機器と通信を行うことができる。通信部４２２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＨＤＭＩ（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）（登録商標）、ＭＨＬ（Ｍｏｂｉｌｅ　Ｈｉｇｈ－ｄｅｆｉｎｉｔｉｏｎ　Ｌｉｎｋ）といった、有線通信により所定以上の通信速度でディジタル双方向通信が可能な通信方式により、車内の各機器と通信を行うことができる。

　ここで、車内の機器とは、例えば、車内において通信ネットワーク４４１に接続されていない機器を指す。車内の機器としては、例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。

　例えば、通信部４２２は、電波ビーコン、光ビーコン、ＦＭ多重放送等の道路交通情報通信システム（ＶＩＣＳ（Ｖｅｈｉｃｌｅ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｓｙｓｔｅｍ）（登録商標））により送信される電磁波を受信する。

　地図情報蓄積部４２３は、外部から取得した地図及び車両１００で作成した地図の一方または両方を蓄積する。例えば、地図情報蓄積部４２３は、３次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。

　高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップなどである。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の４層からなる地図であり、外部のサーバ等から車両１００に提供される。ポイントクラウドマップは、ポイントクラウド（点群データ）により構成される地図である。ここで、ベクターマップは、車線や信号の位置といった交通情報などをポイントクラウドマップに対応付けた、ＡＤＡＳ（Ａｄｖａｎｃｅｄ　Ｄｒｉｖｅｒ　Ａｓｓｉｓｔａｎｃｅ　Ｓｙｓｔｅｍ）に適合させた地図を指すものとする。

　ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、レーダ４５２、ＬｉＤＡＲ４５３等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両１００で作成され、地図情報蓄積部４２３に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両１００がこれから走行する計画経路に関する、例えば数百メートル四方の地図データが外部のサーバ等から取得される。

　ＧＮＳＳ受信部４２４は、ＧＮＳＳ衛星からＧＮＳＳ信号を受信し、車両１００の位置情報を取得する。受信したＧＮＳＳ信号は、走行支援・自動運転制御部４２９に供給される。尚、ＧＮＳＳ受信部４２４は、ＧＮＳＳ信号を用いた方式に限定されず、例えば、ビーコンを用いて位置情報を取得しても良い。

　外部認識センサ４２５は、車両１００の外部の状況の認識に用いられる各種のセンサを備え、各センサからのセンサデータを車両制御システム４１１の各部に供給する。外部認識センサ４２５が備えるセンサの種類や数は任意である。

　例えば、外部認識センサ４２５は、カメラ４５１、レーダ４５２、ＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ、Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）４５３、及び、超音波センサ４５４を備える。これに限らず、外部認識センサ４２５は、カメラ４５１、レーダ４５２、ＬｉＤＡＲ４５３、及び、超音波センサ４５４のうち１種類以上のセンサを備える構成でもよい。カメラ４５１、レーダ４５２、ＬｉＤＡＲ４５３、及び、超音波センサ４５４の数は、現実的に車両１００に設置可能な数であれば特に限定されない。また、外部認識センサ４２５が備えるセンサの種類は、この例に限定されず、外部認識センサ４２５は、他の種類のセンサを備えてもよい。外部認識センサ４２５が備える各センサのセンシング領域の例は、後述する。

　なお、カメラ４５１の撮影方式は、測距が可能な撮影方式であれば特に限定されない。例えば、カメラ４５１は、ＴｏＦ（Ｔｉｍｅ　Ｏｆ　Ｆｌｉｇｈｔ）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった各種の撮影方式のカメラを、必要に応じて適用することができる。これに限らず、カメラ４５１は、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。

　また、例えば、外部認識センサ４２５は、車両１００に対する環境を検出するための環境センサを備えることができる。環境センサは、天候、気象、明るさ等の環境を検出するためのセンサであって、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等の各種センサを含むことができる。

　さらに、例えば、外部認識センサ４２５は、車両１００の周囲の音や音源の位置の検出等に用いられるマイクロフォンを備える。

　車内センサ４２６は、車内の情報を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム４１１の各部に供給する。車内センサ４２６が備える各種センサの種類や数は、現実的に車両１００に設置可能な数であれば特に限定されない。

　例えば、車内センサ４２６は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサのうち１種類以上のセンサを備えることができる。車内センサ４２６が備えるカメラとしては、例えば、ＴｏＦカメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった、測距可能な各種の撮影方式のカメラを用いることができる。これに限らず、車内センサ４２６が備えるカメラは、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。車内センサ４２６が備える生体センサは、例えば、シートやステリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。

　車両センサ４２７は、車両１００の状態を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム４１１の各部に供給する。車両センサ４２７が備える各種センサの種類や数は、現実的に車両１００に設置可能な数であれば特に限定されない。

　例えば、車両センサ４２７は、速度センサ、加速度センサ、角速度センサ（ジャイロセンサ）、及び、それらを統合した慣性計測装置（ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ））を備える。例えば、車両センサ４２７は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを備える。例えば、車両センサ４２７は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを備える。例えば、車両センサ４２７は、バッテリの残量及び温度を検出するバッテリセンサ、及び、外部からの衝撃を検出する衝撃センサを備える。

　記録部４２８は、不揮発性の記憶媒体および揮発性の記憶媒体のうち少なくとも一方を含み、データやプログラムを記憶する。記録部４２８は、例えばＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）として用いられ、記憶媒体としては、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）といった磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイスを適用することができる。記録部４２８は、車両制御システム４１１の各部が用いる各種プログラムやデータを記録する。例えば、記録部４２８は、ＥＤＲ（Ｅｖｅｎｔ　Ｄａｔａ　Ｒｅｃｏｒｄｅｒ）やＤＳＳＡＤ（Ｄａｔａ　Ｓｔｏｒａｇｅ　Ｓｙｓｔｅｍ　ｆｏｒ　Ａｕｔｏｍａｔｅｄ　Ｄｒｉｖｉｎｇ）を備え、事故等のイベントの前後の車両１００の情報や車内センサ４２６によって取得された生体情報を記録する。

　走行支援・自動運転制御部４２９は、車両１００の走行支援及び自動運転の制御を行う。例えば、走行支援・自動運転制御部４２９は、分析部４６１、行動計画部４６２、及び、動作制御部４６３を備える。

　分析部４６１は、車両１００及び周囲の状況の分析処理を行う。分析部４６１は、自己位置推定部４７１、センサフュージョン部４７２、及び、認識部４７３を備える。

　自己位置推定部４７１は、外部認識センサ４２５からのセンサデータ、及び、地図情報蓄積部４２３に蓄積されている高精度地図に基づいて、車両１００の自己位置を推定する。例えば、自己位置推定部４７１は、外部認識センサ４２５からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両１００の自己位置を推定する。車両１００の位置は、例えば、後輪対車軸の中心が基準とされる。

　ローカルマップは、例えば、ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）等の技術を用いて作成される３次元の高精度地図、占有格子地図（Ｏｃｃｕｐａｎｃｙ　Ｇｒｉｄ　Ｍａｐ）等である。３次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両１００の周囲の３次元又は２次元の空間を所定の大きさのグリッド（格子）に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部４７３による車両１００の外部の状況の検出処理及び認識処理にも用いられる。

　なお、自己位置推定部４７１は、ＧＮＳＳ信号、及び、車両センサ４２７からのセンサデータに基づいて、車両１００の自己位置を推定してもよい。

　センサフュージョン部４７２は、複数の異なる種類のセンサデータ（例えば、カメラ４５１から供給される画像データ、及び、レーダ４５２から供給されるセンサデータ）を組み合わせて、新たな情報を得るセンサフュージョン処理を行う。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等がある。

　認識部４７３は、車両１００の外部の状況の検出を行う検出処理と、車両１００の外部の状況の認識を行う認識処理と、を実行する。

　例えば、認識部４７３は、外部認識センサ４２５からの情報、自己位置推定部４７１からの情報、センサフュージョン部４７２からの情報等に基づいて、車両１００の外部の状況の検出処理及び認識処理を行う。

　具体的には、例えば、認識部４７３は、車両１００の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複する場合がある。

　例えば、認識部４７３は、ＬｉＤＡＲ４５３又はレーダ４５２等によるセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両１００の周囲の物体を検出する。これにより、車両１００の周囲の物体の有無、大きさ、形状、位置が検出される。

　例えば、認識部４７３は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両１００の周囲の物体の動きを検出する。これにより、車両１００の周囲の物体の速度及び進行方向（移動ベクトル）が検出される。

　例えば、認識部４７３は、カメラ４５１から供給される画像データに対して、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示などを検出または認識する。また、セマンティックセグメンテーション等の認識処理を行うことにより、車両１００の周囲の物体の種類を認識してもいい。

　例えば、認識部４７３は、地図情報蓄積部４２３に蓄積されている地図、自己位置推定部４７１による自己位置の推定結果、及び、認識部４７３による車両１００の周囲の物体の認識結果に基づいて、車両１００の周囲の交通ルールの認識処理を行うことができる。認識部４７３は、この処理により、信号の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線などを認識することができる。

　例えば、認識部４７３は、車両１００の周囲の環境の認識処理を行うことができる。認識部４７３が認識対象とする周囲の環境としては、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。

　行動計画部４６２は、車両１００の行動計画を作成する。例えば、行動計画部４６２は、経路計画、経路追従の処理を行うことにより、行動計画を作成する。

　なお、経路計画（Ｇｌｏｂａｌ　ｐａｔｈ　ｐｌａｎｎｉｎｇ）とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、経路計画で計画された経路において、車両１００の運動特性を考慮して、車両１００の近傍で安全かつ滑らかに進行することが可能な軌道生成（Ｌｏｃａｌ　ｐａｔｈ　ｐｌａｎｎｉｎｇ）の処理も含まれる。経路計画を長期経路計画、および起動生成を短期経路計画、または局所経路計画と区別してもよい。安全優先経路は、起動生成、短期経路計画、または局所経路計画と同様の概念を表す。

　経路追従とは、経路計画により計画した経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。行動計画部４６２は、例えば、この経路追従の処理の結果に基づき、車両１００の目標速度と目標角速度を計算することができる。

　動作制御部４６３は、行動計画部４６２により作成された行動計画を実現するために、車両１００の動作を制御する。

　例えば、動作制御部４６３は、後述する車両制御部４３２に含まれる、ステアリング制御部４８１、ブレーキ制御部４８２、及び、駆動制御部４８３を制御して、軌道計画により計算された軌道を車両１００が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部４６３は、衝突回避あるいは衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のＡＤＡＳの機能実現を目的とした協調制御を行う。例えば、動作制御部４６３は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。

　ＤＭＳ４３０は、車内センサ４２６からのセンサデータ、及び、後述するＨＭＩ４３１に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行う。この場合にＤＭＳ４３０の認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。

　なお、ＤＭＳ４３０が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、ＤＭＳ４３０が、車内センサ４２６からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。

　ＨＭＩ４３１は、各種のデータや指示等の入力と、各種のデータの運転者などへの提示を行う。

　ＨＭＩ４３１によるデータの入力について、概略的に説明する。ＨＭＩ４３１は、人がデータを入力するための入力デバイスを備える。ＨＭＩ４３１は、入力デバイスにより入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム４１１の各部に供給する。ＨＭＩ４３１は、入力デバイスとして、例えばタッチパネル、ボタン、スイッチ、及び、レバーといった操作子を備える。これに限らず、ＨＭＩ４３１は、音声やジェスチャ等により手動操作以外の方法で情報を入力可能な入力デバイスをさらに備えてもよい。さらに、ＨＭＩ４３１は、例えば、赤外線あるいは電波を利用したリモートコントロール装置や、車両制御システム４１１の操作に対応したモバイル機器若しくはウェアラブル機器等の外部接続機器を入力デバイスとして用いてもよい。

　ＨＭＩ４３１によるデータの提示について、概略的に説明する。ＨＭＩ４３１は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成を行う。また、ＨＭＩ４３１は、生成されたこれら各情報の出力、出力内容、出力タイミングおよび出力方法等を制御する出力制御を行う。ＨＭＩ４３１は、視覚情報として、例えば、操作画面、車両１００の状態表示、警告表示、車両１００の周囲の状況を示すモニタ画像等の画像や光により示される情報を生成および出力する。また、ＨＭＩ４３１は、聴覚情報として、例えば、音声ガイダンス、警告音、警告メッセージ等の音により示される情報を生成および出力する。さらに、ＨＭＩ４３１は、触覚情報として、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報を生成および出力する。

　ＨＭＩ４３１が視覚情報を出力する出力デバイスとしては、例えば、自身が画像を表示することで視覚情報を提示する表示装置や、画像を投影することで視覚情報を提示するプロジェクタ装置を適用することができる。なお、表示装置は、通常のディスプレイを有する表示装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）機能を備えるウエアラブルデバイスといった、搭乗者の視界内に視覚情報を表示する装置であってもよい。また、ＨＭＩ４３１は、車両１００に設けられるナビゲーション装置、インストルメントパネル、ＣＭＳ（Ｃａｍｅｒａ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ）、電子ミラー、ランプなどが有する表示デバイスを、視覚情報を出力する出力デバイスとして用いることも可能である。

　ＨＭＩ４３１が聴覚情報を出力する出力デバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホンを適用することができる。

　ＨＭＩ４３１が触覚情報を出力する出力デバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子を適用することができる。ハプティクス素子は、例えば、ステアリングホイール、シートといった、車両１００の搭乗者が接触する部分に設けられる。

　車両制御部４３２は、車両１００の各部の制御を行う。車両制御部４３２は、ステアリング制御部４８１、ブレーキ制御部４８２、駆動制御部４８３、ボディ系制御部４８４、ライト制御部４８５、及び、ホーン制御部４８６を備える。

　ステアリング制御部４８１は、車両１００のステアリングシステムの状態の検出及び制御等を行う。ステアリングシステムは、例えば、ステアリングホイール等を備えるステアリング機構、電動パワーステアリング等を備える。ステアリング制御部４８１は、例えば、ステアリングシステムの制御を行うＥＣＵ等の制御ユニット、ステアリングシステムの駆動を行うアクチュエータ等を備える。

　ブレーキ制御部４８２は、車両１００のブレーキシステムの状態の検出及び制御等を行う。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ＡＢＳ（Ａｎｔｉｌｏｃｋ　Ｂｒａｋｅ　Ｓｙｓｔｅｍ）、回生ブレーキ機構等を備える。ブレーキ制御部４８２は、例えば、ブレーキシステムの制御を行うＥＣＵ等の制御ユニット等を備える。

　駆動制御部４８３は、車両１００の駆動システムの状態の検出及び制御等を行う。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を備える。駆動制御部４８３は、例えば、駆動システムの制御を行うＥＣＵ等の制御ユニット等を備える。

　ボディ系制御部４８４は、車両１００のボディ系システムの状態の検出及び制御等を行う。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を備える。ボディ系制御部４８４は、例えば、ボディ系システムの制御を行うＥＣＵ等の制御ユニット等を備える。

　ライト制御部４８５は、車両１００の各種のライトの状態の検出及び制御等を行う。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部４８５は、ライトの制御を行うＥＣＵ等の制御ユニット等を備える。

　ホーン制御部４８６は、車両１００のカーホーンの状態の検出及び制御等を行う。ホーン制御部４８６は、例えば、カーホーンの制御を行うＥＣＵ等の制御ユニット等を備える。

　図１１は、図１０の外部認識センサ４２５のカメラ４５１、レーダ４５２、ＬｉＤＡＲ４５３、及び、超音波センサ４５４等によるセンシング領域の例を示す図である。なお、図１１において、車両１００を上面から見た様子が模式的に示され、左端側が車両１００の前端（フロント）側であり、右端側が車両１００の後端（リア）側となっている。

　センシング領域１０１Ｆ及びセンシング領域１０１Ｂは、超音波センサ４５４のセンシング領域の例を示している。センシング領域１０１Ｆは、複数の超音波センサ４５４によって車両１００の前端周辺をカバーしている。センシング領域１０１Ｂは、複数の超音波センサ４５４によって車両１００の後端周辺をカバーしている。

　センシング領域１０１Ｆ及びセンシング領域１０１Ｂにおけるセンシング結果は、例えば、車両１００の駐車支援等に用いられる。

　センシング領域１０２Ｆ乃至センシング領域１０２Ｂは、短距離又は中距離用のレーダ４５２のセンシング領域の例を示している。センシング領域１０２Ｆは、車両１００の前方において、センシング領域１０１Ｆより遠い位置までカバーしている。センシング領域１０２Ｂは、車両１００の後方において、センシング領域１０１Ｂより遠い位置までカバーしている。センシング領域１０２Ｌは、車両１００の左側面の後方の周辺をカバーしている。センシング領域１０２Ｒは、車両１００の右側面の後方の周辺をカバーしている。

　センシング領域１０２Ｆにおけるセンシング結果は、例えば、車両１００の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域１０２Ｂにおけるセンシング結果は、例えば、車両１００の後方の衝突防止機能等に用いられる。センシング領域１０２Ｌ及びセンシング領域１０２Ｒにおけるセンシング結果は、例えば、車両１００の側方の死角における物体の検出等に用いられる。

　センシング領域１０３Ｆ乃至センシング領域１０３Ｂは、カメラ４５１によるセンシング領域の例を示している。センシング領域１０３Ｆは、車両１００の前方において、センシング領域１０２Ｆより遠い位置までカバーしている。センシング領域１０３Ｂは、車両１００の後方において、センシング領域１０２Ｂより遠い位置までカバーしている。センシング領域１０３Ｌは、車両１００の左側面の周辺をカバーしている。センシング領域１０３Ｒは、車両１００の右側面の周辺をカバーしている。

　センシング領域１０３Ｆにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム、自動ヘッドライト制御システムに用いることができる。センシング領域１０３Ｂにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステムに用いることができる。センシング領域１０３Ｌ及びセンシング領域１０３Ｒにおけるセンシング結果は、例えば、サラウンドビューシステムに用いることができる。

　センシング領域１０４は、ＬｉＤＡＲ４５３のセンシング領域の例を示している。センシング領域１０４は、車両１００の前方において、センシング領域１０３Ｆより遠い位置までカバーしている。一方、センシング領域１０４は、センシング領域１０３Ｆより左右方向の範囲が狭くなっている。

　センシング領域１０４におけるセンシング結果は、例えば、周辺車両等の物体検出に用いられる。

　センシング領域１０５は、長距離用のレーダ４５２のセンシング領域の例を示している。センシング領域１０５は、車両１００の前方において、センシング領域１０４より遠い位置までカバーしている。一方、センシング領域１０５は、センシング領域１０４より左右方向の範囲が狭くなっている。

　センシング領域１０５におけるセンシング結果は、例えば、ＡＣＣ（Ａｄａｐｔｉｖｅ　Ｃｒｕｉｓｅ　Ｃｏｎｔｒｏｌ）、緊急ブレーキ、衝突回避等に用いられる。

　なお、外部認識センサ４２５が含むカメラ４５１、レーダ４５２、ＬｉＤＡＲ４５３、及び、超音波センサ４５４の各センサのセンシング領域は、図１１以外に各種の構成をとってもよい。具体的には、超音波センサ４５４が車両１００の側方もセンシングするようにしてもよいし、ＬｉＤＡＲ４５３が車両１００の後方をセンシングするようにしてもよい。また、各センサの設置位置は、上述した各例に限定されない。また、各センサの数は、１つでも良いし、複数であっても良い。

（２－３．その他）
　上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、上記実施形態では、移動体として自動車を例に挙げたが、本開示の情報処理は、自動車以外の移動体にも適用可能である。例えば、移動体は、自動二輪車や自動三輪車等の小型車両や、バスやトラック等の大型車両、船舶や航空機等の大型機体、あるいは、ロボットやドローン等の自律型移動体であってもよい。また、車両１００は、必ずしも移動体と一体ではなく、移動体からネットワークＮを介して情報を取得し、取得した情報に基づいて除去範囲を決定するクラウドサーバ等であってもよい。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る情報処理装置の効果）
　上述のように、本開示に係る情報処理装置（実施形態では車両１００）は、取得部（実施形態では取得部１３１）と、特定部（実施形態では特定部１３２）と、認識部（実施形態では認識部１３３）と、生成部（実施形態では生成部１３４）とを備える。取得部は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する。特定部は、取得された音声および映像に基づいて、複数の発話者の各々を特定する。認識部は、特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質を認識する。生成部は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。

　このように、本開示に係る情報処理装置は、複数の発話者の音声だけでなく映像を取得し、取得した映像も用いて発話者を特定することで、それぞれの発話内容を正確に認識する。また、情報処理装置は、各々の発話者の属性や発話の性質に基づいて反応を生成することにより、認識した音声に対して最適な反応を返すことができる。

　また、生成部は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応の優先度を決定する。また、情報処理装置は、生成部によって決定された優先度に応じて、認識した発話に対する反応を出力する出力制御部（実施形態では出力制御部１３５）をさらに備える。

　このように、情報処理装置は、各々の発話者の属性や発話の性質に基づいて優先度を決定することで、複数の発話者による発話を同時に受け取ったとしても、反応すべき対象に対して最適な反応を生成することができる。

　また、取得部は、映像として、発話者の口唇を撮影した映像を取得する。特定部は、発話者の口唇を撮影した映像に基づいて、複数の発話者の各々を特定する。

　このように、情報処理装置は、音声のみならず、発話者の口唇の動きを含む映像を利用して発話者を特定することで、特定の精度を向上させることができる。

　また、認識部は、各々の発話者が発した音声、もしくは、各々の発話者の口唇の動きに基づいて、各々の発話者が発した発話をそれぞれ認識する。

　このように、情報処理装置は、音声だけでなく、リップリーディングの技術を利用して映像からも発話の認識を行うことにより、発話者の意図に沿った音声認識を確実に行うことができる。

　また、取得部は、温度検知によって発話者を検知したうえで、発話者が発話している状態を撮影した映像を取得する。

　このように、情報処理装置は、実際に所在する人物を認識してから音声認識を行うことで、例えば、人物が再生していたテレビの映像による音声などを発話者と誤って認識することなく、所在する人物の発話のみを正確に認識することができる。

　また、取得部は、複数の発話者が所在する空間における、複数の発話者が所在する位置に関する情報を取得する。認識部は、複数の発話者が所在する位置に関する情報に基づいて、複数の発話者の属性を認識する。

　このように、情報処理装置は、人物の所在位置に基づいて人物を特定することで、音声や口唇の動きで認識が難しい場合であっても、人物の特定の精度を向上させることができる。

　また、取得部は、複数の発話者が発したそれぞれの音声の組成情報を取得する。認識部は、複数の発話者が発したそれぞれの音声の組成情報に基づいて、複数の発話者の属性を認識する。

　このように、情報処理装置は、音声の特徴量に基づいて発話者の属性（例えば、父親か子供か等）を認識することで、人物の認識精度を向上させることができる。

　また、認識部は、取得された音声および映像に基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。生成部は、複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する。

　このように、情報処理装置は、エージェントに向けられている発話に対して選択的に反応を生成することで、関係のない発話に対して反応を生成すること等を抑止することができる。

　また、認識部は、取得された映像における発話者の視線もしくは口唇の向きに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。

　このように、情報処理装置は、音声だけでなく、発話者の視線等に基づいて発話がエージェントに向けられているかを認識することで、認識精度を高めることができる。

　また、認識部は、発話者が発した音声の内容、音声の指向性および音声の組成情報の少なくともいずれか一つに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。

　このように、情報処理装置は、人間同士の会話であるか、エージェントに向けられたときに発する音声であるかといった特徴量に基づいて発話を認識することで、より正確に発話の対象がエージェントであるか否かを判定することができる。

　また、生成部は、各々の発話者の属性に紐づけられた優先順位に基づいて、認識した発話に対する反応を生成する。

　このように、情報処理装置は、優先順位に応じて反応を生成することで、その場に所在する発話者のうち決定権を持つユーザに対する反応を優先的に出力するなど、場の状況に合わせた最適な対話処理を行うことができる。

　また、認識部は、発話の性質として、各々の発話者が発した発話における発話者の感情を認識する。生成部は、各々の発話者の感情に応じて決定される優先順位に基づいて、認識した発話に対する反応を生成する。

　このように、情報処理装置は、逼迫感や緊迫感などの感情に応じた反応を生成することで、緊急事態などにも対応した反応を返すことができる。

　また、認識部は、映像における発話者の表情、口唇の動き、発話における音声の組成情報の少なくともいずれか一つに基づいて、発話者の感情を認識する。

　このように、情報処理装置は、発話者の映像等に基づいて感情を認識したうえで生成処理を行うことで、発話者の感情に沿った反応を返すことができる。

　また、取得部は、複数の発話者が所在する空間の外部環境に関する情報を取得する。生成部は、取得部によって取得された外部環境に関する情報に基づいて、認識した発話に対する反応を生成する。

　このように、情報処理装置は、外部環境を含めて反応生成処理を行うことで、よりその場に適合した、自然な反応を生成することができる。

　また、取得部は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得する。生成部は、所定の事態が発生していると判定した場合に、発話者への応答よりも優先して、所定の事態に対応した反応を生成する。

　このように、情報処理装置は、緊急車両の接近など、様々な事態を想定した反応を行うことで、通常とは異なる事態に陥った場合でも、その場に適した反応を返すことができる。

　また、取得部は、外部環境に関する情報として、時間帯もしくは天候に関する情報を取得する。生成部は、時間帯もしくは天候に対応した反応を生成する。

　このように、情報処理装置は、時間帯や天候を考慮した反応を生成することで、状況に適した反応を生成することができる。

　また、取得部は、複数の発話者が同乗する車両内に設置された撮像装置によって撮像される映像を取得する。生成部は、認識した発話に対する反応として、車両の挙動に関する反応を生成する。

　このように、情報処理装置は、車両における複数の発話者に対して反応を生成する。すなわち、情報処理装置は、騒音によって聞き取りにくかったり、複数人が発話することで認識が難しい状況下であっても、状況に適した反応を生成することができる。

（４．ハードウェア構成）
　上述してきた本開示に係る情報処理装置等の情報機器は、例えば図１２に示すような構成のコンピュータ１０００によって実現される。図１２は、本開示に係る情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下では、本開示に係る情報処理装置として、実施形態に係る車両１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る車両１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
　を備える情報処理装置。
（２）
　前記生成部は、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応の優先度を決定し、
　前記生成部によって決定された優先度に応じて、当該認識した発話に対する反応を出力する出力制御部をさらに備える、
　前記（１）に記載の情報処理装置。
（３）
　前記取得部は、
　前記映像として、前記発話者の口唇を撮影した映像を取得し、
　前記特定部は、
　前記発話者の口唇を撮影した映像に基づいて、前記複数の発話者の各々を特定する、
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記認識部は、
　前記各々の発話者が発した音声、もしくは、当該各々の発話者の口唇の動きに基づいて、当該各々の発話者が発した発話をそれぞれ認識する、
　前記（３）に記載の情報処理装置。
（５）
　前記取得部は、
　温度検知によって前記発話者を検知したうえで、前記発話者が発話している状態を撮影した映像を取得する、
　前記（１）から（４）のいずれかに記載の情報処理装置。
（６）
　前記取得部は、
　前記複数の発話者が所在する空間における、当該複数の発話者が所在する位置に関する情報を取得し、
　前記認識部は、
　前記複数の発話者が所在する位置に関する情報に基づいて、当該複数の発話者の属性を認識する、
　前記（１）から（５）のいずれかに記載の情報処理装置。
（７）
　前記取得部は、
　前記複数の発話者が発したそれぞれの音声の組成情報を取得し、
　前記認識部は、
　前記複数の発話者が発したそれぞれの音声の組成情報に基づいて、当該複数の発話者の属性を認識する、
　前記（１）から（６）のいずれかに記載の情報処理装置。
（８）
　前記認識部は、
　前記取得された音声および映像に基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識し、
　前記生成部は、
　前記複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する、
　前記（１）から（７）のいずれかに記載の情報処理装置。
（９）
　前記認識部は、
　前記取得された映像における発話者の視線もしくは口唇の向きに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
　前記（８）に記載の情報処理装置。
（１０）
　前記認識部は、
　前記発話者が発した音声の内容、音声の指向性および前記音声の組成情報の少なくともいずれか一つに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
　前記（８）または（９）に記載の情報処理装置。
（１１）
　前記生成部は、
　前記各々の発話者の属性に紐づけられた優先順位に基づいて、前記認識した発話に対する反応を生成する、
　前記（１）から（１０）のいずれかに記載の情報処理装置。
（１２）
　前記認識部は、
　前記発話の性質として、前記各々の発話者が発した発話における当該発話者の感情を認識し、
　前記生成部は、
　前記各々の発話者の感情に応じて決定される優先順位に基づいて、前記認識した発話に対する反応を生成する、
　前記（１）から（１１）のいずれかに記載の情報処理装置。
（１３）
　前記認識部は、
　前記映像における発話者の表情、口唇の動き、前記発話における音声の組成情報の少なくともいずれか一つに基づいて、前記発話者の感情を認識する、
　前記（１２）に記載の情報処理装置。
（１４）
　前記取得部は、
　前記複数の発話者が所在する空間の外部環境に関する情報を取得し、
　前記生成部は、
　前記取得部によって取得された外部環境に関する情報に基づいて、前記認識した発話に対する反応を生成する、
　前記（１）から（１３）のいずれかに記載の情報処理装置。
（１５）
　前記取得部は、
　前記外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得し、
　前記生成部は、
　前記所定の事態が発生していると判定した場合に、前記発話者への応答よりも優先して、当該所定の事態に対応した反応を生成する、
　前記（１４）に記載の情報処理装置。
（１６）
　前記取得部は、
　前記外部環境に関する情報として、時間帯もしくは天候に関する情報を取得し、
　前記生成部は、
　前記時間帯もしくは天候に対応した反応を生成する、
　前記（１４）または（１５）に記載の情報処理装置。
（１７）
　前記取得部は、
　前記複数の発話者が同乗する車両内に設置された撮像装置によって撮像される前記映像を取得し、
　前記生成部は、
　前記認識した発話に対する反応として、前記車両の挙動に関する反応を生成する、
　前記（１）から（１６）のいずれかに記載の情報処理装置。
（１８）
　コンピュータが、
　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得し、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定し、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識し、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する、
　ことを含む情報処理方法。
（１９）
　コンピュータを、
　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
　として機能させるための情報処理プログラム。

　１００　車両
　１１０　通信部
　１２０　記憶部
　１２１　ユーザ情報記憶部
　１２２　外部ステータス記憶部
　１２３　判定モデル記憶部
　１３０　制御部
　１３１　取得部
　１３２　特定部
　１３３　認識部
　１３４　生成部
　１３５　出力制御部
　１４０　検知部
　１４５　出力部
　１４６　表示部
　１４７　音声出力部

Claims

　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
　を備える情報処理装置。
　前記生成部は、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応の優先度を決定し、
　前記生成部によって決定された優先度に応じて、当該認識した発話に対する反応を出力する出力制御部をさらに備える、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記映像として、前記発話者の口唇を撮影した映像を取得し、
　前記特定部は、
　前記発話者の口唇を撮影した映像に基づいて、前記複数の発話者の各々を特定する、
　請求項１に記載の情報処理装置。
　前記認識部は、
　前記各々の発話者が発した音声、もしくは、当該各々の発話者の口唇の動きに基づいて、当該各々の発話者が発した発話をそれぞれ認識する、
　請求項３に記載の情報処理装置。
　前記取得部は、
　温度検知によって前記発話者を検知したうえで、前記発話者が発話している状態を撮影した映像を取得する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記複数の発話者が所在する空間における、当該複数の発話者が所在する位置に関する情報を取得し、
　前記認識部は、
　前記複数の発話者が所在する位置に関する情報に基づいて、当該複数の発話者の属性を認識する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記複数の発話者が発したそれぞれの音声の組成情報を取得し、
　前記認識部は、
　前記複数の発話者が発したそれぞれの音声の組成情報に基づいて、当該複数の発話者の属性を認識する、
　請求項１に記載の情報処理装置。
　前記認識部は、
　前記取得された音声および映像に基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識し、
　前記生成部は、
　前記複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する、
　請求項１に記載の情報処理装置。
　前記認識部は、
　前記取得された映像における発話者の視線もしくは口唇の向きに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
　請求項８に記載の情報処理装置。
　前記認識部は、
　前記発話者が発した音声の内容、音声の指向性および前記音声の組成情報の少なくともいずれか一つに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
　請求項８に記載の情報処理装置。
　前記生成部は、
　前記各々の発話者の属性に紐づけられた優先順位に基づいて、前記認識した発話に対する反応を生成する、
　請求項１に記載の情報処理装置。
　前記認識部は、
　前記発話の性質として、前記各々の発話者が発した発話における当該発話者の感情を認識し、
　前記生成部は、
　前記各々の発話者の感情に応じて決定される優先順位に基づいて、前記認識した発話に対する反応を生成する、
　請求項１に記載の情報処理装置。
　前記認識部は、
　前記映像における発話者の表情、口唇の動き、前記発話における音声の組成情報の少なくともいずれか一つに基づいて、前記発話者の感情を認識する、
　請求項１２に記載の情報処理装置。
　前記取得部は、
　前記複数の発話者が所在する空間の外部環境に関する情報を取得し、
　前記生成部は、
　前記取得部によって取得された外部環境に関する情報に基づいて、前記認識した発話に対する反応を生成する、
　請求項１に記載の情報処理装置。
　前記取得部は、
　前記外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得し、
　前記生成部は、
　前記所定の事態が発生していると判定した場合に、前記発話者への応答よりも優先して、当該所定の事態に対応した反応を生成する、
　請求項１４に記載の情報処理装置。
　前記取得部は、
　前記外部環境に関する情報として、時間帯もしくは天候に関する情報を取得し、
　前記生成部は、
　前記時間帯もしくは天候に対応した反応を生成する、
　請求項１４に記載の情報処理装置。
　前記取得部は、
　前記複数の発話者が同乗する車両内に設置された撮像装置によって撮像される前記映像を取得し、
　前記生成部は、
　前記認識した発話に対する反応として、前記車両の挙動に関する反応を生成する、
　請求項１に記載の情報処理装置。
　コンピュータが、
　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得し、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定し、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識し、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する、
　ことを含む情報処理方法。
　コンピュータを、
　複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
　前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
　前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
　前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
　として機能させるための情報処理プログラム。