WO2024071006A1

WO2024071006A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2024071006A1
Application number: PCT/JP2023/034642
Authority: WO
Inventors: アマンジェイン; アニルドレッディコンダパッレィ; 健太郎山田
Original assignee: 本田技研工業株式会社
Priority date: 2022-09-27
Filing date: 2023-09-25
Publication date: 2024-04-04

Abstract

移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第１生成部と、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第２生成部と、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

　従来、画像を含むマルチモーダルな入力に応じて、当該画像中の物体を特定する技術が知られている。例えば、特許文献１には、オーディオデータと画像データとをディープニューラルネットワーク（ＤＮＮ）などの人工ニューラルネットワークに入力することにより、当該画像データに含まれる緊急車両を検出する技術が記載されている。

特開２０２２－９６６０１号公報

Drew A. Hudson, Christopher D. Manning, "Learning by Abstraction: The Neural State Machine", NeurIPS , page 5901-5914. (2019)

　しかしながら、特許文献１に記載の技術のように、例えば、ＤＮＮなどの手法を用いて、マルチモーダルな入力を処理する場合、モデルの内部でどのような処理が行われているかはブラックボックスであり、その実態を把握することが困難である。すなわち、これらの手法では、異なる種類の情報（映像、音、テキストなど）の間の関係性が適切に学習されているか否かが明らかではない。さらに、ＤＮＮなどの手法は、学習に大量のデータを必要とすることが多く、機能の実現に多大なコストがかかる場合がある。

　さらに、非特許文献１には、センサによって得られたマルチモーダルな生情報を、共通の抽象空間における概念表現に変換し、これらの概念表現が構造化されたグラフ（シーングラフ）上で推論を行うニューラルステートマシンが記載されている。ニューラルステートマシンは、グラフ上の処理内容が透明化されているとともに、その処理に大量のデータを必要としないという点で、特許文献１に記載の技術に対して優位である。しかしながら、非特許文献１に記載の技術は、人物の視線やジェスチャなどのモダリティを活用せず、また、推論上で発生した曖昧さを解決する手段を提供するものではない。

　本発明は、このような事情を考慮してなされたものであり、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる、情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

　この発明に係る情報処理装置、情報処理方法、およびプログラムは、以下の構成を採用した。
　（１）：この発明の一態様に係る情報処理装置は、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第１生成部と、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第２生成部と、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備えるものである。

　（２）：上記（１）の態様において、前記第１所定処理は、前記入力指示文に、少なくとも係り受け解析（dependency parser）と属性分類を施す処理であるものである。

　（３）：上記（１）の態様において、前記第２所定処理は、前記ジェスチャ情報に含まれる前記人のキーポイントに基づいて、前記推定分布を生成する処理であるものである。

　（４）：上記（１）から（３）のいずれかの態様において、前記特定部は、抽出された前記一以上の指示を用いて、逐次的に前記確率的シーングラフに含まれる各物体の前記確率を更新することによって、前記物体を特定するものである。

　（５）：上記（４）の態様において、前記第２生成部は、前記推定分布に基づいて、前記確率的シーングラフに含まれる各物体に付される前記確率の初期値を設定するものである。

　（６）：上記（４）の態様において、前記特定部は、前記更新によって複数の前記物体を特定した場合、複数の前記物体のうちの１つの物体を特定するための質問を生成するものである。

　（７）：この発明の別の態様に係る情報処理方法は、コンピュータが、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得し、前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成し、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定するものである。

　（８）：この発明の別の態様に係るプログラムは、コンピュータに、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得させ、前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出させ、前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成させ、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成させ、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定させるものである。

　（１）～（８）の態様によれば、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる。

実施形態に係る移動体１および制御装置１００の構成の一例を示す図である。移動体１を上方から見た透視図である。外部カメラによって撮像された撮像画像ＩＭの一例を示す図である。抽出部１２０によって実行される第１所定処理の概要を説明するための図である。生成部１３０によって実行される第２所定処理の概要を説明するための図である。特定部１４０によって実行される確率的シーングラフの更新処理を説明するための図である。特定部１４０によって実行される質問文の生成処理を説明するための図である。制御装置１００によって実行される処理の流れの一例を示すフローチャートである。

　以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、移動体に搭載される。移動体は、車道と、車道と異なる所定領域との双方を移動するものである。移動体は、マイクロモビリティと称される場合がある。電動キックボードはマイクロモビリティの一種である。所定領域とは、例えば歩道である。また、所定領域とは、路側帯や自転車レーン、公開空地などのうち一部または全部であってもよいし、歩道、路側帯、自転車レーン、公開空地などを全て含んでもよい。以下で説明する通り、本実施形態に係る情報処理装置は、移動体の周辺を撮像した撮像画像と、移動体に関わる人によって入力された入力指示文と、当該人によって行われたジェスチャとに基づいて、人が指示した物体を特定するものである。以下の説明において、移動体に関わる人は、当該移動体に搭乗している乗員であるものとして説明するが、本発明は、そのような構成に限定されず、移動体の外部において（例えば、降車後に移動体の待機場所を指示するために）指示文を入力する人であってもよい。

　[全体構成]
　図１は、実施形態に係る移動体１および制御装置１００の構成の一例を示す図である。移動体１には、例えば、外界検知デバイス１０と、移動体センサ１２と、操作子１４と、内部カメラ１６と、測位装置１８と、ＨＭＩ２０と、モード切替スイッチ２２と、移動機構３０と、駆動装置４０と、外部報知装置５０と、記憶装置７０と、制御装置１００とが搭載される。なお、これらの構成のうち本発明の機能を実現するのに必須でない一部の構成が省略されてもよい。移動体は、乗物に限らず、歩くユーザと並走して荷物を運んだり、人を先導したりするような小型モビリティを含んでよく、また、その他の自律移動が可能な移動体（例えば歩行型ロボットなど）を含んでもよい。

　外界検知デバイス１０は、移動体１の進行方向を検知範囲とする各種デバイスである。外界検知デバイス１０は、外部カメラ、レーダー装置、ＬＩＤＡＲ（Light Detection and Ranging）、センサフュージョン装置などを含む。外界検知デバイス１０は、検知結果を示す情報（画像、物体の位置等）を制御装置１００に出力する。特に、本実施形態において、外界検知デバイス１０は、外部カメラによって移動体１の周辺を撮像した撮像画像を制御装置１００に出力するものとする。

　移動体センサ１２は、例えば、速度センサ、加速度センサ、ヨーレート（角速度）センサ、方位センサ、並びに操作子１４に取り付けられた操作量検出センサなどを含む。操作子１４は、例えば、加減速を指示するための操作子（例えばアクセルペダルやブレーキペダル）と、操舵を指示するための操作子（例えばステアリングホイール）とを含む。この場合、移動体センサ１２は、アクセル開度センサやブレーキ踏量センサ、ステアリングトルクセンサ等を含んでよい。移動体１は、操作子１４として、上記以外の態様の操作子（例えば、円環状でない回転操作子、ジョイスティック、ボタン等）を備えてもよい。

　内部カメラ１６は、移動体１の乗員の少なくとも頭部を正面から撮像する。内部カメラ１６は、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を利用したデジタルカメラである。内部カメラ１６は、撮像した画像を制御装置１００に出力する。

　測位装置１８は、移動体１の位置を測位する装置である。測位装置１８は、例えば、ＧＮＳＳ（Global Navigation Satellite System）受信機であり、ＧＮＳＳ衛星から受信した信号に基づいて、移動体１の位置を特定し、位置情報として出力する。なお、移動体１の位置情報は、後述する通信装置が接続しているＷｉ－Ｆｉ基地局の位置から推定されてもよい。

　ＨＭＩ２０は、表示装置、スピーカ、タッチパネル、キーなどを含む。移動体１の乗員は、例えば、ＨＭＩ２０を介して、移動体１の目的地を設定し、後述する制御部１５０は、設定された目的地まで移動体１を走行させる。特に、本実施形態において、ＨＭＩ２０は、マイクロフォンなどの音声入力機器を含み、移動体１の乗員は、移動体１の停車位置を指示する指示文を発声することにより音声入力機器に入力するものとする。ＨＭＩ２０は、入力された指示文の音声を解析してテキスト化し、制御装置１００に出力する。代替的に、ＨＭＩ２０は、例えば、タッチパネルを介して、乗員がテキストとして入力した指示文を受け付け、受け付けた指示文を制御装置１００に出力してもよい。

　モード切替スイッチ２２は、乗員により操作されるスイッチである。モード切替スイッチ２２は、機械式スイッチであってもよいし、ＨＭＩ２０のタッチパネル上に設定されるＧＵＩ（Graphical User Interface）スイッチであってもよい。モード切替スイッチ２２は、例えば、モードＡ：乗員により操舵操作と加減速制御との一方が行われ、他方は自動的に行われるアシストモード（乗員により操舵操作が行われ加減速制御が自動的に行われるモードＡ－１と、乗員により加減速操作が行われ操舵制御が自動的に行われるモードＡ－２とがあってよい）、モードＢ：乗員により操舵操作および加減速操作がなされる手動運転モード、モードＣ：操作制御および加減速制御が自動的に行われる自動運転モードのいずれかに運転モードを切り替える操作を受け付ける。

　移動機構３０は、道路において移動体１を移動させるための機構である。移動機構３０は、例えば、操舵輪と駆動輪とを含む車輪群である。また、移動機構３０は、多足歩行するための脚部であってもよい。

　駆動装置４０は、移動機構３０に力を出力して移動体１を移動させる。例えば、駆動装置４０は、駆動輪を駆動するモータ、モータに供給する電力を蓄えるバッテリ、操舵輪の操舵角を調整する操舵装置などを含む。駆動装置４０は、駆動力出力手段、或いは発電手段として、内燃機関や燃料電池などを備えてもよい。また、駆動装置４０は、摩擦力や空気抵抗によるブレーキ装置を更に備えてもよい。

　外部報知装置５０は、例えば移動体１の外板部に設けられ、移動体１の外部に向けて情報を報知するためのランプ、ディスプレイ装置、スピーカなどである。外部報知装置５０は、移動体１が歩道を移動している状態と、車道を移動している状態とで異なる動作を行う。例えば、外部報知装置５０は、移動体１が歩道を移動している場合にランプを発光させ、移動体１が車道を移動している場合にランプを発光させないように制御される。このランプの発光色は、法規で定められた色であると好適である。外部報知装置５０は、移動体１が歩道を移動している場合にランプを緑色で発光させ、移動体１が車道を移動している場合にランプを青色で発光させるというように制御されてもよい。外部報知装置５０がディスプレイ装置である場合、外部報知装置５０は、移動体１が歩道を走行している場合に「歩道走行中である」旨をテキストやグラフィックで表示する。

　図２は、移動体１を上方から見た透視図である。図中、ＦＷは操舵輪、ＲＷは駆動輪、ＳＤは操舵装置、ＭＴはモータ、ＢＴはバッテリである。操舵装置ＳＤ、モータＭＴ、バッテリＢＴは駆動装置４０に含まれる。また、ＡＰはアクセルペダル、ＢＰはブレーキペダル、ＷＨはステアリングホイール、ＳＰはスピーカ、ＭＣはマイクである。図示する移動体１は一人乗りの移動体であり、乗員Ｐは運転席ＤＳに着座してシートベルトＳＢを装着している。矢印Ｄ１は移動体１の進行方向（速度ベクトル）である。外界検知デバイス１０は移動体１の前端部付近に、内部カメラ１６は乗員Ｐの前方から乗員Ｐの頭部を撮像可能な位置に、モード切替スイッチ２２はステアリングホイールＷＨのボス部にそれぞれ設けられている。また、移動体１の前端部付近に、ディスプレイ装置としての外部報知装置５０が設けられている。

　図１に戻り、記憶装置７０は、例えば、ＨＤＤ（Hard Disk Drive）やフラッシュメモリ、ＲＡＭ（Random Access Memory）などの非一過性の記憶装置である。記憶装置７０には、ナビゲーション地図情報７２などが格納される。図では記憶装置７０を制御装置１００の枠外に記載しているが、記憶装置７０は制御装置１００に含まれるものであってよい。また、記憶装置７０は不図示のサーバ上に設けられてもよい。

　ナビゲーション地図情報７２は、事前に記憶装置７０に記憶され、例えば、車道および歩道を含む道路の中央の情報あるいは道路の境界の情報等を含む地図情報である。ナビゲーション地図情報７２は、さらに、道路の境界に接する施設や建物に関する情報（名称、住所、面積など）を含む。

　［制御装置］
　制御装置１００は、例えば、取得部１１０と、抽出部１２０と、生成部１３０と、特定部１４０と、制御部１５０とを備える。取得部１１０と、抽出部１２０と、生成部１３０と、特定部１４０と、制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）７４を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶装置７０に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置７０にインストールされてもよい。取得部１１０と、抽出部１２０と、生成部１３０と、特定部１４０とを組み合わせたものは、「情報処理装置」の一例である。

　取得部１１０は、外界検知デバイス１０である外部カメラが移動体１の周辺を撮像して得られた撮像画像ＩＭを取得する。図３は、外部カメラによって撮像された撮像画像ＩＭの一例を示す図である。図３は、一例として、外部カメラが撮像した撮像画像ＩＭが、車両Ｍ１、Ｍ２と、自販機Ｖ１、Ｖ２、Ｖ３と、ポストＰを含んでいる状況を表している。説明の便宜上、撮像画像ＩＭにおいて、自販機Ｖ１は赤色の自販機であり、自販機Ｖ２、Ｖ３は青色の自販機であるものとする。

　さらに、取得部１１０は、移動体１の乗員がＨＭＩ２０である音声入力機器を介して入力した、移動体１が到達する目標位置を指示する指示文を取得する。例えば、図３の撮像画像ＩＭに示される状況の場合、乗員は、「そのトラックの後ろにある赤い自販機に止めて」などと指示文を入力することによって、自販機Ｖ１前の目標位置ＴＰに到達することを指示する。

　さらに、取得部１１０は、内部カメラ１６によって撮像された乗員によって行われたジェスチャを表す画像をジェスチャ情報として取得する。取得されたジェスチャ情報は、後述する生成部１３０による処理に用いられる。

　抽出部１２０は、入力指示文に第１所定処理を施すことによって、当該入力指示文に含まれる一以上の指示（reasoning instructions）を抽出する。図４は、抽出部１２０によって実行される第１所定処理の概要を説明するための図である。より具体的には、抽出部１２０は、第１所定処理として、入力指示文に対して、係り受け解析（dependency parser）およびエンティティ分類（entity classifier）を施す。例えば、図４の左部に示す通り、抽出部１２０は、係り受け解析として、指示文「そのトラックの後ろにある赤い自販機に止めて」のうち、「その」は「トラック」を修飾する限定詞（det）であり、「の」は「トラック」の格標識（case）であり、「後ろ」は「トラック」を修飾する名詞修飾子（nmod）であり、「赤い」は「自販機」を修飾する節修飾子（acl）であることなどを解析する。この係り受け解析は、既知の方法が用いられて実行されてもよい。

　同時に、抽出部１２０は、エンティティ分類として、指示文のうちの各形態素の属性を分類する。例えば、図４の右部に示す通り、抽出部１２０は、指示文「そのトラックの後ろにある赤い自販機に止めて」のうちの「その」を指示詞（Demonstrative）に分類し、「トラック」を物体（Object）に分類し、「後ろ」を関係（Relation）に分類し、「赤い」を色（Color）に分類し、「自販機」を物体（Object）に分類する。抽出部１２０は、係り受け解析の結果としての形態素間の係り受け関係と、エンティティ分類の結果としての各形態素の属性を紐づけて記憶しておく。図４の左上部は、各形態素（トラック、その、後ろ、自販機、赤い）が、その係り受け関係と属性とを紐づけて一以上の指示（reasoning instructions）として記憶されていることを表している。より詳細には、これら一以上の指示は、非特許文献１に記載された方法を用いて導出され、記憶されてもよい。

　生成部１３０は、取得部１１０によって取得されたジェスチャ情報に第２所定処理を施すことによって、乗員がジェスチャによって指示した位置に関する推定分布を生成する。図５は、生成部１３０によって実行される第２所定処理の概要を説明するための図である。まず、生成部１３０は、乗員Ｐの体の部位のうち、２つの部位にキーポイントを設定する。図５は、一例として、乗員Ｐの目と手首とがそれぞれキーポイントＫＰ１、ＫＰ２として設定されている状況を表している。生成部１３０は、目ＫＰ１と手首ＫＰ２とを結んで手首方向へと延長した指示線Ｌと地表面とが交差する交点ＩＳを、乗員Ｐがジェスチャによって指示した位置として推定し、交点ＩＳを最大値とする確率分布として、ジェスチャ位置の推定分布を生成する。生成する確率分布としては、例えば、正規分布など任意の種類の分布を仮定しても良い。

　なお、生成部１３０は、キーポイントはどのように選んでもよいが、乗員Ｐが見通し線を通して正確に位置を指定できることから、一方の点は目とすることが望ましい。また他方の点は、画像から特定しやすい部位であることが望ましく、例えば手首のほか、指先や握りこぶしの先端や中心部などであってもよい。さらに、操作者が目的地を指示しているとき、顔が目的地の方向を向いていることで、内部カメラ１６からは目を撮影できないこともあり得る。このような場合、目の位置を推定して特定してもよい。顔の方向が特定できれば目の位置は推定することができる。なおこの目の位置の推定も機械学習モデルを用いて行ってよい。

　さらに、生成部１３０は、外部カメラによって撮像された撮像画像ＩＭから、当該撮像画像ＩＭに含まれる物体を意味的に（セマンティックに）抽出し、抽出された各物体に乗員Ｐが当該物体を指示した確率が付された確率的シーングラフを生成する。例えば、図３の場合、生成部１３０は、車両Ｍ１、Ｍ２と、自販機Ｖ１、Ｖ２、Ｖ３と、ポストＰとを抽出する。この抽出処理により、ディープニューラルネットワーク（ＤＮＮ）などの生データを処理する手法に比して、後続する処理に係る負荷を軽減することができる。より詳細には、確率的シーングラフの生成は、非特許文献１に記載された方法を用いて実行されてもよい。

　生成された確率的シーングラフに含まれる各物体に付される確率の初期値は、一様（すなわち、１／（確率的シーングラフに含まれる物体の個数））であってもよいし、生成部１３０は、物体ごとに異なる初期値を設定してもよい。例えば、生成部１３０は、ジェスチャ位置に関する推定分布を用いて、各物体の位置に応じて、異なる初期値を設定してもよい。より具体的には、生成部１３０は、検知された交点ＩＳに近ければ近いほどより高い初期値を設定する一方、交点ＩＳから遠ければ遠いほどより低い初期値を設定してもよい。例えば、図３の場合、乗員Ｐが自販機Ｖ１に向けてジェスチャを行った場合、自販機Ｖ１に最も高い初期値が付される一方、自販機Ｖ１から最も遠い位置にある自販機Ｖ３には最も低い初期値が付されてもよい。生成部１３０は、「第１生成部」および「第２生成部」の一例である。

　特定部１４０は、抽出部１２０によって抽出された一以上の指示を用いて、逐次的に確率的シーングラフに含まれる各物体の確率を更新することによって、乗員が指示した物体を特定する。図６は、特定部１４０によって実行される確率的シーングラフの更新処理を説明するための図である。特定部１４０は、抽出部１２０によって抽出された一以上の指示を順番に取り出し、取り出した指示に対応する確率的シーングラフの物体の確率がより高くなるように更新を行う。例えば、図６の場合、特定部１４０は、「トラック」および「その」を抽出して、車両Ｍ１および車両Ｍ２の確率値がより高くなるように更新を行う。次に、特定部１４０は、「後ろ」を抽出して、確率的シーングラフにおいて車両Ｍ１から自販機Ｖ１に遷移するとともに、車両Ｍ２から自販機Ｖ２に遷移する。次に、特定部１４０は、「自販機」および「赤い」を抽出して、属性「赤い」を有する自販機として自販機Ｖ１を特定し、自販機Ｖ１の確率値がより高くなるように更新を行う。このように、確率的シーングラフの物体に付された確率を逐次的に更新して、最終的に確率値が最大となる物体を、乗員Ｐによって指示された物体として特定する。図６の場合、特定部１４０は、最終的に確率値が最大となる自販機Ｖ１を乗員Ｐによって指示された物体として特定することができる。より詳細には、これら確率的シーングラフの更新は、非特許文献１に記載された方法を用いて実行されてもよい。

　このように、特定部１４０は、確率的シーングラフを用いて、最終的に確率値が最大となる物体を、乗員Ｐによって指示された物体として特定するものであるが、場合によっては、確率値が最大となる物体が複数存在したり、確率値が最大となる物体と、確率値が二番目に大きい物体との確率値の差分が小さく、単一の物体の特定には至らないことがある。より一般的に、特定部１４０は、確率的シーングラフの各物体について算出された確率分布のエントロピーを算出し、算出されたエントロピーが大きい（閾値以上である）場合、乗員Ｐによって指示された物体を単一の物体として特定できないと判定することができる。そのような場合、従来技術では、最終的に、乗員Ｐによって指示された物体を特定することができなかった。一方、本発明は、確率的シーングラフの更新処理の結果、乗員Ｐによって指示された物体の候補が複数存在する場合、複数の候補から一つの物体を特定するための質問文を生成して、乗員に問い合わせ、乗員からの回答を受信することによって、最終的に、乗員Ｐによって指示された物体を特定する。

　図７は、特定部１４０によって実行される質問文の生成処理を説明するための図である。図７は、一例として、乗員が、指示文として、「トラックの後ろにある自販機に止めて」と入力し、特定部１４０が確率的シーングラフの更新処理を行った結果、車両Ｍ１の後ろにある自販機Ｖ１と、車両Ｍ２の後ろにある自販機Ｖ２とが同一の確率値を有する物体（又は確率値の差分が閾値以内である物体）として特定された場合を表している。

　このような場合、特定部１４０は、特定された複数の物体のうちの１つの物体を特定するための質問を生成する。例えば、「どの自販機ですか？」のように、複数の物体を直接的に特定するための質問文を生成しても良いし、「どのトラックですか？」のように、複数の物体を間接的に特定する（すなわち、トラックが一つに特定された場合、名詞修飾子「後ろ」と合わせて、自販機を特定することができる）質問文を生成しても良い。

　また、例えば、特定部１４０は、候補となる複数の物体の属性（例えば、色）を照合し、異なる値を有する属性に関する質問文を生成しても良い。図７の場合、自販機Ｖ１は「赤」の色属性を有する一方、自販機Ｖ２は特定の色属性を有しないため、特定部１４０は、当該色属性の相違に基づいて、「自販機の色は赤ですか？」などの質問を生成しても良い。

　特定部１４０は、生成した質問文をＨＭＩ２０に送信し、ＨＭＩ２０上に乗員が入力した回答を受信して、受信した回答に基づいて、最終的に、乗員Ｐによって指示された物体を特定する。また、例えば、特定部１４０は、乗員Ｐによるジェスチャを再度受け付け、受け付けたジェスチャの方向に最も近接する物体を、最終的に、乗員Ｐによって指示された物体として特定してもよい。これにより、確率的シーングラフの更新処理によって指示物体の候補が複数存在する場合であっても、乗員Ｐに対して質問文を生成することにより、指示物体を一意に特定することができる。

　制御部１５０は、特定部１４０によって特定された物体を目標位置として、移動体１の駆動装置４０を駆動することによって、移動体１を当該目標位置まで走行させる。

　次に、図８を参照して、本実施形態に係る制御装置１００によって実行される処理の流れについて説明する。図８は、制御装置１００によって実行される処理の流れの一例を示すフローチャートである。本フローチャートに係る処理は、移動体１が走行中、乗員による指示文とジェスチャの入力に応じて、実行されるものである。

　まず、取得部１１０は、撮像画像ＩＭと、入力指示文と、ジェスチャ情報とを取得する（ステップＳ１００）。次に、生成部１３０は、取得部１１０によって取得された入力指示文から一以上の指示を抽出するとともに、ジェスチャ情報から、乗員Ｐが指示した位置に関する推定分布を生成する（ステップＳ１０２）。

　次に、生成部１３０は、撮像画像ＩＭから確率的シーングラフを生成するとともに、推定分布に基づいて、確率的シーングラフの初期確率を設定する（ステップＳ１０４）。次に、特定部１４０は、一以上の指示に基づいて、確率的シーングラフの確率を更新する（ステップＳ１０６）。

　次に、特定部１４０は、確率的シーングラフの更新の結果、単一の物体が特定されたか否かを判定する（ステップＳ１０８）。単一の物体が特定されたと判定された場合、制御部１５０は、特定された物体を目標位置として移動体１を走行させる（ステップＳ１１０）。一方、単一の物体が特定されていないと判定された場合、特定部１４０は、単一の物体を特定するための質問文を生成して問い合わせを行い、単一の物体を特定する（ステップＳ１１２）。その後、特定部１４０は、処理をステップＳ１１０に移行させる。これにより、本フローチャートに係る処理が終了する。

　なお、上記の実施形態では、一例として、情報処理装置が移動体１に搭載され、その走行に活用される例について説明した。しかし、本発明は、そのような構成に限定されず、より一般的に、情報処理装置は、少なくとも、撮像画像と、入力指示文と、ジェスチャ情報とに基づいて、指示された物体を特定し、指示された物体の候補が複数存在する場合には、追加的に質問文を生成して問い合わせを行うことによって、最終的に、単一の物体を特定するものであれば良い。例えば、本発明に係る情報処理装置は、ＶＲ（virtual reality）空間においてユーザが指示した物体の特定にも活用することができる。

　以上の通り説明した本実施形態によれば、撮像画像と、入力指示文と、ジェスチャ情報を取得し、撮像画像から生成された確率的シーングラフと、入力指示文から抽出された指示と、ジェスチャ情報から生成された推定分布とに基づいて、乗員が指示した物体を特定し、乗員が指示した物体の候補が複数存在する場合には、単一の物体を特定するための質問文を生成して、乗員に問い合わせる。これにより、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる。

　上記説明した実施形態は、以下のように表現することができる。
　コンピュータによって読み込み可能な命令（computer-readable instructions）を格納する記憶媒体（storage medium）と、
　前記記憶媒体に接続されたプロセッサと、を備え、
　前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより（the processor executing the computer-readable instructions to:）
　移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の乗員によって入力された入力指示文と、前記乗員によって行われたジェスチャに関するジェスチャ情報を取得し、
　前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、
　前記ジェスチャ情報に第２所定処理を施すことによって、前記乗員が指示した位置に関する推定分布を生成し、
　前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、
　前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記乗員が指示した物体を特定する、
　ように構成されている、情報処理装置。

　以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１０　外界検知デバイス
１２　移動体センサ
１４　操作子
１６　内部カメラ
１８　測位装置
２０　ＨＭＩ
２２　モード切替スイッチ
３０　移動機構
４０　駆動装置
５０　外部報知装置
７０　記憶装置
７２　ナビゲーション地図情報
１００　制御装置
１１０　取得部
１２０　抽出部
１３０　生成部
１４０　特定部
１５０　制御部

Claims

　移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、
　前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、
　前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第１生成部と、
　前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第２生成部と、
　前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備える、
　情報処理装置。
　前記第１所定処理は、前記入力指示文に、少なくとも係り受け解析（dependency parser）と属性分類を施す処理である、
　請求項１に記載の情報処理装置。
　前記第２所定処理は、前記ジェスチャ情報に含まれる前記人のキーポイントに基づいて、前記推定分布を生成する処理である、
　請求項１に記載の情報処理装置。
　前記特定部は、抽出された前記一以上の指示を用いて、逐次的に前記確率的シーングラフに含まれる各物体の前記確率を更新することによって、前記物体を特定する、
　請求項１から３のいずれか１項に記載の情報処理装置。
　前記第２生成部は、前記推定分布に基づいて、前記確率的シーングラフに含まれる各物体に付される前記確率の初期値を設定する、
　請求項４に記載の情報処理装置。
　前記特定部は、前記更新によって複数の前記物体を特定した場合、複数の前記物体のうちの１つの物体を特定するための質問を生成する、
　請求項４に記載の情報処理装置。
　コンピュータが、
　移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得し、
　前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、
　前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成し、
　前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、
　前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する、
　情報処理方法。
　コンピュータに、
　移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得させ、
　前記入力指示文に第１所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出させ、
　前記ジェスチャ情報に第２所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成させ、
　前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成させ、
　前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定させる、
　プログラム。