WO2023248613A1

WO2023248613A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2023248613A1
Application number: PCT/JP2023/016564
Authority: WO
Inventors: 貴芬田
Original assignee: ソニーグループ株式会社
Priority date: 2022-06-20
Filing date: 2023-04-27
Publication date: 2023-12-28

Abstract

本技術に係る情報処理装置は、処理部を具備する。前記処理部は、認識対象に対して、特徴量抽出が共通する第１のタスクと第２のタスクを含む複数のタスクを処理することが可能である。前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無を決定する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、情報処理装置、情報処理方法及びプログラムに関する。

　車両の運転時等の安全性を高めるため、車両に複数のカメラを搭載し、車両の周囲の情報を得ることが知られている。例えば、特許文献１には、車両に搭載したカメラの画像を用いて認識処理して移動を伴うオブジェクトを検出することが記載されている。

特開２０１２－１２３４７０号公報

　車両の全周囲を精度高く認識するため、車両に搭載された複数のカメラそれぞれで取得される画像に対して常に同様の認識処理を行うと、全体の演算量が大きくなるという課題があった。
　このように、認識処理の分野において、認識精度を落とすことなく演算量を削減することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、認識精度を落とすことなく演算量を削減することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、処理部を具備する。
　前記処理部は、認識対象に対して、特徴量抽出が共通する第１のタスクと第２のタスクを含む複数のタスクを処理することが可能である。
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無を決定する。

　このような構成によれば、第１のタスク処理による認識結果に基づいて第２のタスクの処理の実行の有無が決定されるため、認識精度を落とすことなく、全体の認識処理の演算量を削減することができる。

　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクのパラメータを生成してもよい。

　前記処理部は、生成した前記パラメータを用いて前記第２のタスクのニューラルネットワークを構成してもよい。

　前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。

　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含んでもよい。

　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。

　前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
　前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味してもよい。

　前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトであってもよい。

　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行してもよい。

　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
　　前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される１以上の特徴量を用いるように、前記パラメータを生成してもよい。

　前記移動体には測距部が搭載され、
　前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定されてもよい。

　前記測距部は、ＬｉＤＡＲ（Light Detection and Ranging）、ステレオカメラ及びミリ波レーダから選択される１以上を含んでもよい。

　前記撮像部は、前記移動体に複数搭載され、
　前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第１のタスク処理による画像の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。

　前記撮像部は、ステレオカメラ又は単眼カメラであってもよい。

　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備してもよい。

　前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される１以上が搭載され、
　前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも１つを制御してもよい。

　前記移動体は、自律移動可能な移動体であり、
　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備してもよい。

　前記認識対象は画像であり、
　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される１以上を含んでもよい。

　本技術の一形態に係る情報処理方法は、認識対象に対して第１のタスクを処理し、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定することを情報処理装置が実行する。

　本技術の一形態に係るプログラムは、以下のステップを、情報処理装置に実行させる。
　認識対象に対して第１のタスクを処理するステップ。
　前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定するステップ。

本技術の各実施形態に係る情報処理装置の処理部の構成例を示す模式図である。上記処理部での画像認識処理方法（情報処理方法）を示すフロー図である。車両の上面図であり、センサ部の搭載位置例を示す図である。第２実施形態に係わる情報処理システムの構成例を示す模式図である。第２及び第３実施形態における画像認識処理方法（情報処理方法）を示すフロー図である。特徴量抽出のニューラルネットワークを説明するための模式図である。セマンティックセグメンテーションのニューラルネットワークを説明するための模式図である。インスタンスセグメンテーション（オブジェクト検出）のニューラルネットワークを説明するための模式図である。オプティカルフロー（動き検出）のニューラルネットワークを説明するための模式図である。る。距離検出のニューラルネットワークを説明するための模式図である。各実施形態に係わる画像認識処理方法（情報処理方法）を示すフロー図である。図１１のフロー図のステップ４の第２のタスク決定処理の詳細を示すフロー図である。第２のタスク決定処理の具体例を説明するための図である。図１１のフロー図のステップ５のパラメータ生成処理の詳細を示すフロー図である。パラメータ生成の具体例を説明するための図である。パラメータ生成の具体例を説明するための図である。ニューラルネットワークの構成例を説明するための図である。距離検出を例にあげ、再構成されたニューラルネットワークによって、デコーダ側の演算量が削減できることを説明するための図である。第３実施形態に係わる情報処理システムの構成例を示す模式図である。

　以下、本技術に係る各実施形態を、図面を参照しながら説明する。以下の説明において、同様の構成については同様の符号を付し、既出の構成については説明を省略する場合がある。また、情報処理方法の説明において、同様のステップについては同様のステップ番号を付し、既出のステップについては説明を省略する場合がある。

　本技術では、認識対象に対して特徴量抽出が共通する複数の異なるタスクを処理することが可能な情報処理装置による認識対象の認識処理において、１つのタスクで得られる認識結果に基づいて、残りの他のタスクの実行の有無が決定される。このような構成とすることで、認識精度を落とすことなく、演算量を削減することができる。

　以下の説明では、認識対象が画像（カメラ画像）である例を挙げる。後述する第１～第３実施形態では、移動体としての自動四輪車（以下、単に「車両」ということがある。）に搭載される撮像部で取得される画像の認識処理に本技術を適用する例を挙げる。画像には車両の周囲情報（車外情報）が含まれており、該画像から車両の走行シーン（移動シーン）を推定することができる。

　第１実施形態では、本技術の特徴的な構成を中心に説明する。第１実施形態では、１つの画像（以下、入力画像ということがある。）に対して行われる画像認識処理の概要を説明する。

　第２及び第３実施形態では、複数の撮像部が車両に搭載されて車両の全周囲をセンシングする場合を例にあげ、複数の撮像部それぞれで取得される画像の認識処理に本技術が適用される例をあげる。本技術を適用した画像認識処理については、第２実施形態で、より具体的に説明する。

　尚、第１、第２及び第３実施形態それぞれに係わる情報処理装置での画像認識処理は同じである。第２実施形態では、画像認識処理結果を基に、車両の操作者であるドライバへの運転支援が行われる例を挙げる。第３実施形態では、車両が自律移動可能である例をあげ、画像認識処理結果を基に、車両の走行ルート計画、車両の行動計画が行われる例を挙げる。自律移動は、ドライバの操作に拠らずに自律的に移動する、いわゆる自動運転のことである。典型的には、車両では、手動運転と自動運転とがドライバによって切り替え可能となっている。「運転」とは、「移動体の移動」である。
　尚、第２実施形態で説明する運転支援及び第３実施形態で説明する自動運転制御の双方が可能な構成であってもよい。

　以下の説明において、「右」、「左」は、車両に乗車したドライバからみた「右」、「左」をいい、「前」とは車両の進行方向を示し、「後」とは進行方向とは反対の方向を示す。

＜第１実施形態＞
　図１は、第１実施形態に係わる情報処理装置１０の処理部３の構成例を示す模式図である。図２は、処理部３での画像処理方法（情報処理方法）例を示すフロー図である。尚、後述する第２実施形態に係わる情報処理装置１０ａの処理部３及び第３実施形態に係わる情報処理装置１０ｂの処理部３は、情報処理装置１０の処理部３と同様の構成である。

［情報処理装置］
　情報処理装置１０は、１つの画像に対して画像認識処理に関する複数のタスクを実行することができる。該画像は、認識対象であり、車両に搭載される撮像部によって取得される。以下、認識対象の画像を「入力画像」ということがある。本実施形態の情報処理装置１０では、１つの入力画像に対して、特徴量抽出が共通する複数のタスクを同時に処理することが可能となっている。つまり、情報処理装置１０では、同じ特徴量抽出器（Feature Extractor）により抽出された複数の特徴量を用いて、複数の異なるタスク処理を行うことができる。以下、特徴量抽出器には符号３７を付す。詳細については第２実施形態で説明する。
　尚、図２では、タスク数をＮとしている。

　本実施形態及び後述する第２及び第３実施形態では、認識タスクとして、セマンティックセグメンテーションによるクラス分類、インスタンスセグメンテーションによるオブジェクト検出、オプティカルフローによる動き検出及び距離検出の４つのタスクを処理する例をあげる。

　情報処理装置１０により実行可能な複数のタスク（本実施形態では４つ）は、第１のタスクと第２のタスクとに分類される。第１のタスク及び第２のタスクは、認識タスクであり、より詳細には、本実施形態においては画像認識タスクである。車両に搭載される撮像部で取得される画像に対して画像認識タスクを実行し、その認識処理結果を用いて、運転支援提示や自動運転制御等を行うことができる。

　セマンティックセグメンテーション（クラス分類）は、第１のタスクである。インスタンスセグメンテーション（オブジェクト検出）、オプティカルフロー（動き検出）及び距離検出は、第２のタスクである。

　第１のタスクとしてのセマンティックセグメンテーションは、クラス分類である。セマンティックセグメンテーションでは、入力画像の画素それぞれが、どのオブジェクトクラス（カテゴリー）に属するかに分類される。

　第２のタスクとしてのインスタンスセグメンテーションは、オブジェクト検出（インスタンス検出ともいう。）である。インスタンスセグメンテーションでは、入力画像中のオブジェクトが検出される。以下の説明では、主に「オブジェクト検出」と称する。

　第２のタスクとしてのオプティカルフローは、動き検出である。オプティカルフローでは、入力画像内のオブジェクトの動きが検出される。具体的には、オプティカルフローでは、時間的に連続した２枚の入力画像フレーム間における注目オブジェクトの動きが推定される。以下の説明では、主に「動き検出」と称する。

　第２のタスクとしての距離検出では、特徴量抽出器３７で抽出された特徴量と、測距部（後述する）としてのＬｉＤＡＲ（Light Detection and Ranging）により取得されるＬｉＤＡＲ点群とを用いて、オブジェクトと車両（撮像部が搭載される車両）との距離が推定される。
　各タスク処理の詳細については、後述する第２実施形態で説明する。

　情報処理装置１０の処理部３による画像認識処理では、セマンティックセグメンテーション（第１のタスク）で得られる認識結果に基づいて、残りの他のタスク（第２のタスク）である、オブジェクト検出（インスタンスセグメンテーション）、動き検出（オプティカルフロー）及び距離検出それぞれの実行の有無が決定される。このような構成とすることで、演算量を削減することができる。具体例については第２実施形態で説明する。

　図１に示すように、情報処理装置１０は、画像取得部３０と、処理部３と、を有する。処理部３は、特徴量抽出部３１と、第１のタスク推定部３２と、第２のタスク決定部３３と、パラメータ生成部３４と、第２のタスクニューラルネットワーク構成部３５と、第２のタスク推定部３６と、を有する。

　画像取得部３０は、撮像部で取得された画像（入力画像）を取得する。

　特徴量抽出部３１は、入力画像から、複数のタスク（第１のタスク及び第２のタスク）の共通の特徴量を複数抽出する。特徴量抽出部３１は、特徴量抽出器３７（例えば図６等参照）から構成される。

　第１のタスク推定部３２は、入力画像に対して深層学習を用いてセマンティックセグメンテーションを行い、画素単位でオブジェクトのクラス分類を行う。

　セマンティックセグメンテーション結果（第１のタスク処理による入力画像の認識結果）から入力画像のシーン特徴を推定することができる。例えば、セマンティックセグメンテーション結果から、運転シーン特徴（移動シーン特徴）が得られる。以下、「運転シーン特徴」を単に「シーン特徴」という。

　シーン特徴は、運転の支障となるオブジェクトの存在があるか否か、該オブジェクトが動き可能なオブジェクトであるか否かを示す。以下、「運転の支障となるオブジェクト」を「注目オブジェクト」ということがある。

　運転の支障となるオブジェクトとは、例えば自動四輪車、自動二輪車、自転車、電車といった車両、電柱、交通信号機、ごみ箱、ポール、ヒト、動物等である。一方、運転の支障とならないオブジェクトとは、例えば、路面、空等である。
　運転の支障となるオブジェクトは、更に、動き可能なオブジェクトと、動き不可能なオブジェクト（所謂、静止体）に分類され得る。動き可能のオブジェクトとは、例えば車両、ヒト、動物等である。

　第２のタスク決定部３３は、セマンティックセグメンテーション結果に基づいて、第２のタスクである、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かを決定する。第２のタスク決定部３３は、セマンティックセグメンテーション結果から得られるシーン特徴に基づいて、自動運転や運転支援などに必要な情報を取得するために必要な画像認識処理結果を得るために、実行する第２のタスクを決定する。

　第２のタスク決定部３３は、入力画像内に注目オブジェクト（運転の支障となるオブジェクト）が何も存在していない場合、オブジェクト検出及び動き検出は実行せず、距離検出のみを実行することを決定する。

　第２のタスク決定部３３は、入力画像内に注目オブジェクトは存在するが、動き可能なオブジェクトは存在しない場合、動き検出は実行せず、オブジェクト検出及び距離検出のみを実行することを決定する。

　第２のタスク決定部３３は、動き可能な注目オブジェクトが存在する場合、オブジェクト検出、動き検出及び距離検出の全ての第２のタスクを実行することを決定する。

　このように、セマンティックセグメンテーション結果から得られるシーン特徴に応じて、必要な画像認識処理結果が得られるように、実行する第２のタスク（画像認識タスク）が決定されるため、認識精度を落とすことなく、認識処理の演算量を削減することができる。

　パラメータ生成部３４は、セマンティックセグメンテーション結果を用いて、実行すると決定した第２のタスクのパラメータを動的に生成する。第２のタスクのパラメータとしては、第２のタスクを実行する処理対象画像と、第２のタスク実行時に用いる特徴量とがある。処理対象画像は注目オブジェクトを含む最小の矩形の画像領域である（後述する）。第２のタスク実行時に用いる特徴量は、注目オブジェクトの画素数に応じて決定される。

　セマンティックセグメンテーション結果から、注目オブジェクトのカテゴリ、注目オブジェクトが存在する画像領域を把握することができる。
　パラメータ生成部３４は、オブジェクト検出において、セマンティックセグメンテーション結果を用いて、注目オブジェクトが存在する画像領域の画素数及びオブジェクトカテゴリに対応する部分的なニューラルネットワークを処理するように、オブジェクト検出のパラメータを生成する。

　パラメータ生成部３４は、距離検出において、注目オブジェクトが存在する場合は、該注目オブジェクトを含む画像領域（処理対象画像）だけを処理するように、かつ、注目オブジェクトの画素数に応じた部分的なニューラルネットワークを処理するように、距離検出のパラメータを生成する。
　一方、パラメータ生成部３４は、距離検出において、注目オブジェクトが存在しない場合は、入力画像全体を処理するように、かつ、特徴量全てを用いるように、距離検出のパラメータを生成する。

　パラメータ生成部３４は、動き検出において、動き可能な注目オブジェクトが存在する場合は、該動き可能な注目オブジェクトを含む画像領域（処理対象画像）だけを処理するように、かつ、注目オブジェクトの画素数に応じた部分的なニューラルネットワークを処理するように、動き検出のパラメータを生成する。

　第２のタスクニューラルネットワーク構成部３５は、パラメータ生成部３４で生成されたパラメータを用いて、第２のタスクであるオブジェクト検出、動き検出及び距離検出それぞれのニューラルネットワークを構成する。
　また、第２のタスクニューラルネットワーク構成部３５は、パラメータ生成部３４により、パラメータとして全ての特徴量ｆ１～ｆ５が生成された場合、基準のニューラルネットワークを、第２のタスク処理に用いるニューラルネットワークとする。実施形態において、「基準のニューラルネットワーク」とは、後述する図７～図９それぞれに示す、全ての特徴量ｆ１～ｆ５を用いるように構成されるニューラルネットワークを指す。

　第２のタスク推定部３６は、構成されたオブジェクト検出のニューラルネットワークを用いて、オブジェクト検出（インスタンスセグメンテーション）を実行する。
　第２のタスク推定部３６は、構成された距離検出のニューラルネットワークを用いて、距離検出を実行し、距離を推定する。
　第２のタスク推定部３６は、構成された動き検出のニューラルネットワークを用いて、動き検出（オプティカルフロー）を実行し、オブジェクトの動きを推定する。

　情報処理装置１０は、例えばＣＰＵ（Central processing unit）やメモリ（ＲＡＭ，ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。情報処理装置１０では、ＣＰＵが図示しない記憶部に記憶されているプログラムをＲＡＭにロードして実行することにより、種々の処理が実行される。記憶部には本実施形態に係わる画像認識処理を実行するためのプログラムが記憶されている。

［情報処理方法（画像認識処理方法）］
　図２を用いて、本実施形態の情報処理装置１０の処理部３で行われる情報処理方法（画像認識処理方法）を説明する。図２では、互いに異なる複数の第２のタスクを、第２のタスクａ、第２のタスクｂ、第２のタスクｃ・・・第２のタスクＮと示している。Ｎは、第２のタスク数に対応する。例えば、図２において、第２のタスクａはオブジェクト検出（インスタンスセグメンテーション）を示し、第２のタスクｂは動き検出（オプティカルフロー）を示し、第２のタスクｃは距離検出を示すものとする。尚、第２のタスクの数は特に限定されず、１以上であればよい。

　図２に示すように、処理部３に画像が入力されると、特徴量抽出部３１により入力画像の特徴量が複数抽出される（Ｓ２）。

　次に、第１のタスク推定部３２により、Ｓ２で抽出された複数の特徴量を用いて第１のタスク（本実施形態ではセマンティックセグメンテーション）が実行される（Ｓ３）。セマンティックセグメンテーション結果（第１のタスク処理結果）は、第２のタスク決定部３３へ出力される。セマンティックセグメンテーション結果を用いて、入力画像のシーン特徴を推定することができる。

　次に、第２のタスク決定部３３により、セマンティックセグメンテーション結果を用いて、第２のタスクａ、ｂ、ｃ～Ｎそれぞれを実行するか否かが決定される（Ｓ４）。本実施形態では、第２のタスク決定部３３により、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かが決定される。その他の第２のタスクがある場合は、その第２のタスクの実行の有無も決定される。

　次に、パラメータ生成部３４により、第２のタスクのパラメータが生成される（Ｓ５）。

　図２では、第２のタスクａ（オブジェクト検出）のパラメータを生成するパラメータ生成のステップをＳ５ａと表す。第２のタスクｂ（動き検出）のパラメータを生成するパラメータ生成のステップをＳ５ｂと表す。第２のタスクｃ（距離検出）のパラメータを生成するパラメータ生成のステップをＳ５ｃと表す。第２のタスクＮのパラメータを生成するパラメータ生成のステップをＳ５Ｎと表す。これらＳ５ａ、Ｓ５ｂ、Ｓ５ｃ・・・Ｓ５Ｎというように、区別する必要がない場合はＳ５とする。

　本実施形態では、図２に示すように、セマンティックセグメンテーション結果を用いて、第２のタスクａのパラメータが生成される（Ｓ５ａ）。セマンティックセグメンテーション結果を用いて、第２のタスクｂのパラメータが生成される（Ｓ５ｂ）。セマンティックセグメンテーション結果を用いて、第２のタスクｃのパラメータが生成される（Ｓ５ｃ）。セマンティックセグメンテーション結果を用いて、第２のタスクＮのパラメータが生成される（Ｓ５Ｎ）。

　次に、第２のタスクニューラルネットワーク構成部３５により、Ｓ５で生成されたパラメータを用いて第２のタスクのニューラルネットワークが構成される（Ｓ６）。
　ここで構成されるニューラルネットワークは、基準のニューラルネットワーク、又は、一部の特徴量のみが用いられるように再構成されたニューラルネットワークである。

　図２では、第２のタスクａのニューラルネットワークを構成するステップをＳ６ａと表す。第２のタスクｂのニューラルネットワークを構成するステップをＳ６ｂと表す。第２のタスクｃのニューラルネットワークを構成するステップをＳ６ｃと表す。第２のタスクＮのニューラルネットワークを構成するステップをＳ６Ｎと表す。これらＳ６ａ、Ｓ６ｂ、Ｓ６ｃ・・・Ｓ６Ｎというように、区別する必要がない場合はＳ６とする。

　本実施形態では、図２に示すように、Ｓ５ａで生成されたパラメータを用いて第２のタスクａのニューラルネットワークが構成される（Ｓ６ａ）。Ｓ５ｂで生成されたパラメータを用いて第２のタスクｂのニューラルネットワークが構成される（Ｓ６ｂ）。Ｓ５ｃで生成されたパラメータを用いて第２のタスクｃのニューラルネットワークが構成される（Ｓ６ｃ）。Ｓ５Ｎで生成されたパラメータを用いて第２のタスクｂのニューラルネットワークが構成される（Ｓ６Ｎ）。

　次に、第２のタスク推定部３６により、Ｓ６で構成されたニューラルネットワークを用いて、第２のタスクが実行される（Ｓ７）。

　図２では、構成された第２のタスクａのニューラルネットワークを用いた推定のステップをＳ７ａと表す。構成された第２のタスクｂのニューラルネットワークを用いた推定のステップをＳ７ｂと表す。構成された第２のタスクｃのニューラルネットワークを用いた推定のステップをＳ７ｃと表す。構成された第２のタスクＮのニューラルネットワークを用いた推定のステップをＳ７Ｎと表す。これらＳ７ａ、Ｓ７ｂ、Ｓ７ｃ・・・Ｓ７Ｎというように、区別する必要がない場合はＳ７とする。

　本実施形態では、図２に示すように、構成された第２のタスクａ（オブジェクト検出）のニューラルネットワークを用いて、インスタンスセグメンテーションが実行され（Ｓ７ａ）、オブジェクト検出結果（第２のタスクａの認識処理結果）が出力される。
　構成された第２のタスクｂ（動き検出）のニューラルネットワークを用いて、オプティカルフローが実行され（Ｓ７ｂ）、動き検出結果（第２のタスクｂの認識処理結果）が出力される。
　構成された第２のタスクｃ（距離検出）のニューラルネットワークを用いて、距離検出が実行され（Ｓ７ｃ）、距離検出結果（第２のタスクｃの認識処理結果）が出力される。

　出力された認識処理結果（セマンティックセグメンテーション結果、オブジェクト検出結果、動き検出結果、距離検出結果）を用いることで、運転支援（第２実施形態で詳細を説明する。）、自動運転（第３実施形態で詳細を説明する。）を、消費電力を低減しつつ、精度の高いものとすることが可能となる。

　本実施形態、後述の第２及び第３実施形態においては、処理部が４つのタスク処理を実行する例をあげるが、タスク数は４つに限定されず、２以上あればよく、１つの第１のタスクと１以上の第２のタスクを含んでいればよい。

　第１のタスクの処理結果は、他の第２のタスクの実行の有無を決定するために用いられる。第１のタスクは、他の第２のタスクの実行の有無を決定するための必須のタスクである。画像認識処理において、第１のタスクとして、典型的には、セマンティックセグメンテーションが用いられる。

　第２のタスクは１以上あればよい。第２のタスクの実行の有無は、第１のタスクの処理結果に基づいて決定される。本技術を用いた画像処理において、第２のタスクとして、オブジェクト検出（インスタンスセグメンテーション）、動き検出（オプティカルフロー）、距離検出、法線（Ｎｏｒｍａｌ）推定、姿勢（Ｐｏｓｅ）推定、軌道（Ｔｒａｊｅｃｔｏｒｙ）推定等から選択される１以上のタスクを用いることができる。
　第１～第３実施形態においては、第２のタスクとして、オブジェクト検出（インスタンスセグメンテーション）、動き検出（オプティカルフロー）及び距離検出の３つのタスクを例に挙げる。

　以上のように、本技術では、セマンティックセグメンテーション結果（第１のタスク処理による認識対象の認識結果）に応じて、実行する第２のタスクが決定され、更に、該第２のタスクのパラメータが生成される。そして、生成されたパラメータを用いて、第２のタスクのニューラルネットワークが構成され、構成されたニューラルネットワークを用いて画像認識タスクが行われる。

　本技術では、セマンティックセグメンテーション結果を用いて実行する第２のタスクが決定されるため、画像認識に必要な認識タスクのみを実行することができ、認識精度を落とすことなく全体の認識処理の演算量を削減することができる。

　更に、本技術では、ニューラルネットワークが、セマンティックセグメンテーション結果を用いて生成されたパラメータを用いて構成されることで、シーン特徴に応じて部分的なネットワークだけを処理することが可能となり、より一層、高い認識精度を維持しつつも認識処理の演算量を削減することができる。

　これにより、消費電力の低減が可能となるとともに処理遅延が抑制され、認識精度の高いリアルタイムの認識処理結果を得ることができる。そして、このような認識処理結果を用いることで、的確なタイミングで精度の高い運転支援や自動運転制御が可能となる。

　また、本技術は、後述する第２及び第３実施形態のように、複数の画像それぞれをリアルタイムに画像認識処理するシステムにおいて、演算量削減に非常に効果的である。
　例えば、車両に複数の撮像部が搭載され、車両の周囲情報を広範囲で取得する全周囲センシングステムでは、各撮像部で取得される画像それぞれに対して４つの認識タスクが常に実行されると、演算量が莫大になってしまう。しかしながら、各撮像部で取得される画像それぞれに対して本技術の画像認識処理方法（情報処理方法）を適用することで、高い認識精度を維持しつつ全体の認識処理の演算量を削減することができる。これにより、全周囲センシングステムのような複数の画像それぞれをリアルタイムに画像認識処理する必要がある形態において、消費電力の低減が可能となるとともに処理遅延が抑制され、的確なタイミングで精度の高い運転支援や自動運転制御が可能となる。

＜第２実施形態＞
　第２実施形態では、第１実施形態で説明した技術を、車両に搭載される複数の撮像部それぞれが取得する各画像の画像認識処理に適用し、画像認識処理結果を運転支援に用いる例を挙げる。

［車両例］
　図３は、車両の上面図であり、車両に搭載される複数のセンサ部２の位置例を示す。詳細については後述するが、各センサ部２は、撮像部２０と、測距部２１と、を有する。尚、図３に示すセンサ部２の位置は一例であり、これに限定されない。また、これら複数のセンサ部２を区別して説明する必要がない場合は、センサ部２という。

　図３に示すように、車両１には、例えば、前方センサ部２Ｆ、２つの前方センサ部２Ｆａ、右前方センサ部２ＦＲ、左前方センサ部２ＦＬ、右側方センサ部２ＳＲ、左側方センサ部２ＳＬ、後方センサ部２Ｒ及び後方センサ部２Ｒａが搭載される。いずれのセンサ部２も車両の周囲情報を取得することが可能である。

　前方センサ部２Ｆは、フロントバンパー付近に配置され、車両前方の周囲情報を取得する。
　２つの前方センサ部２Ｆａは、ルーフ前方に配置され、車両前方の車両周囲情報を取得する。
　右前方センサ部２ＦＲは、車両の右側方部の前方に配置され、車両の右斜め前方の車両周囲情報を取得する。
　左前方センサ部２ＦＬは、車両の左側方部の前方に配置され、車両の左斜め前方の車両周囲情報を取得する。
　右側方センサ部２ＳＲは、右前方センサ部２ＦＲよりも後方に配置され、車両の右横の車両周囲情報を取得する。
　左側方センサ部２ＳＬは、左前方センサ部２ＦＬよりも後方に配置され、車両の左横の車両周囲情報を取得する。
　後方センサ部２Ｒは、リアバンパー付近に配置され、車両後方の車両周囲情報を取得する。
　後方センサ部２Ｒａは、ルーフ後方に配置され、車両後方の車両周囲情報を取得する。

　第２及び第３実施形態では、便宜的に、前方センサ部２Ｆ、右前方センサ部２ＦＲ、左前方センサ部２ＦＬ、右側方センサ部２ＳＲ及び左側方センサ部２ＳＬの５つのセンサ部それぞれの撮像部２０でのセンシング結果（画像）の認識処理に本技術を適用する例をあげる。尚、本技術を適用するセンサ部２の数はこれに限定されず、１以上あればよい。

［情報処理システム］
　図４は、本実施形態に係わる情報処理システム１００の概略構成図である。情報処理システム１００では、車両１に搭載される複数の撮像部２０の取得画像の認識処理結果を用いた運転支援処理が行われる。本実施形態の情報処理システム１００は運転支援システムと言い換えることができる。

　図４に示すように、情報処理システム１００は、複数のセンサ部２と、情報処理装置１０ａと、車両状態検出部５と、提示部６と、を有する。これらはいずれも車両１に搭載される。

（センサ部）
　各センサ部２は、撮像部２０と、測距部２１と、を含む。

　撮像部２０は、画像を取得するものであり、例えばＣＭＯＳセンサにより構成される。本実施形態の撮像部２０は、車両１の周囲の画像を取得する。撮像部２０には、単眼カメラ、ステレオカメラ等を用いることができる。

　測距部２１は、撮像部２０が搭載される車両１と車両１の周囲にあるオブジェクトとの間の距離を測定可能に構成される。測距部２１としては、ＬｉＤＡＲ、ステレオカメラ、ミリ波レーダ等を用いることができ、測距部２１は、これらから選択される１以上を含んで構成される。本実施形態では、測距部２１として、ＬｉＤＡＲを用いる例を挙げる。

　センサ部２の撮像部２０で取得される画像及び測距部２１としてのＬｉＤＡＲで取得される三次元の点群情報は、情報処理装置１０ａへ出力される。

　尚、各センサ部２において、典型的には、撮像部２０と測距部２１は近接して配置される。一般的に、カメラ（撮像部）とＬｉＤＡＲ（測距部）の設置位置は異なるため、カメラ位置を原点とするカメラ座標系と、ＬｉＤＡＲ位置を原点とするＬｉＤＡＲ座標系との対応情報が予め取得され、記憶されている。この対応情報を用いて、カメラで取得される画像と、ＬｉＤＡＲで取得される３次元点群とを対応づけて、距離検出に係わる画像認識処理をすることができる。

（提示部）
　提示部６は、車両１のドライバに対して、視覚情報又は聴覚情報を出力し提示することが可能な装置を備える。提示部６は車両１に搭載される。提示部６は、車両１のドライバに対して、車両周囲情報の報知、注意や警告を促す、好ましい速度や走行ルートの提案といった運転支援に関する情報を提示することができる。

　提示部６は、例えば、表示部６０と、音出力部６１と、発光部６２と、を含む。表示部６０、音出力部６１及び発光部６２から選択される１以上を用いて、運転支援が行われてもよい。表示部６０での表示や発光部６２での点灯や点滅により運転支援情報がドライバに視覚提示される。音出力部６１での音声出力により運転支援情報がドライバに聴覚提示される。

　提示部６によるドライバに対する視覚的又は聴覚的な運転支援情報の提示は、センサ部２で取得された画像の処理部３での画像認識処理結果を用いて行われる。

　運転支援情報は、例えば、車両の運転時における事故などを未然に防ぐための有効な情報である。運転支援の一例として、障害物警告、自車両の衝突警告、自車両の車線逸脱警告、運転操作命令、速度変更命令、車両追い越し推奨、車線変更推奨、走行条件情報の報知等がある。ドライバは、提示部６から提示される運転支援情報を基に、より安全な運転をすることができる。

　表示部６０は、ドライバの視野内に視覚情報を表示する。表示部６０は、例えば、表示装置、インストルメントパネル、ドライバが装着する眼鏡型ディスプレイ等のウェアラブルデバイス、プロジェクタ等を備える。表示部６０は、後述する提示制御部４の制御のもと表示を行う。

　音出力部６１は、例えば、スピーカ、アラーム、ブザー等を備える。音出力部６１は、後述する提示制御部４の制御のもと、音声情報、通知音、警告音等の出力を行う。

　発光部６２は、例えば、ランプ等の発光装置を備える。発光部６２は例えば警告灯として機能することができ、発光部６２は、後述する提示制御部４の制御のもと、ドライバへの各種の情報の通知や警告等を目的とする光の点灯または点滅を行う。

（車両状態検出部）
　車両状態検出部５は、車両の状態を検出する。車両状態検出部５は、例えば、ジャイロセンサ、加速度センサ、及び、アクセルペダルの操作量、ブレーキペダルの操作量、操舵角、エンジン回転数、モータ回転数、若しくは、車両の回転速度等を検出するためのセンサなどを含んで構成される。車両状態検出部５で検出された車両１の速度、操舵角等の車両情報は、後述する提示制御部４へ出力される。

（情報処理装置）
　情報処理装置１０ａは、例えばＣＰＵやメモリ（ＲＡＭ，ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。情報処理装置１０ａでは、ＣＰＵが後述する記憶部７に記憶されているプログラムをＲＡＭにロードして実行することにより、本技術に係わる画像認識処理を含む種々の処理が実行される。

　情報処理装置１０ａでは、複数のセンサ部２それぞれの撮像部２０からの入力画像毎に、セマンティックセグメンテーション（第１のタスク）が行なわれる。そして、セマンティックセグメンテーション結果を用いて、画像認識処理に用いるタスク（第２のタスク）が決定され、該タスクのパラメータが生成される。
　情報処理装置１０ａは、処理部３と、画像取得部３０と、提示制御部４と、記憶部７と、状況分析部８と、を備える。

（（画像取得部））
　画像取得部３０は、各センサ部２の撮像部２０で取得された画像を取得する。画像は、処理部３へ出力される。

（（処理部））
　処理部３は、画像取得部３０で取得された画像（入力画像）の認識処理を行う。この際、第１実施形態で説明したように、処理部３は、入力画像に対して行った第１のタスクの実行の結果を用いて、第２のタスクの実行の有無の決定及び第２のタスクのパラメータの生成を行う。

　本実施形態においても、第１実施形態と同様に、第１のタスクがセマンティックセグメンテーションであり、第２のタスクが、オブジェクト検出（インスタンスセグメンテーション）、動き検出（オプティカルフロー）及び距離検出である例を説明する。図４において、これら第２のタスクを区別するために、オブジェクト検出を第２のタスクａ、動き検出を第２のタスクｂ、距離検出を第２のタスクｃとする。
　以下、詳細に説明する。

　処理部３は、特徴量抽出部３１と、第１のタスク推定部３２と、第２のタスク決定部３３と、パラメータ生成部３４と、第２のタスクニューラルネットワーク構成部３５と、第２のタスク推定部３６と、を備える。

　特徴量抽出部３１は、特徴量抽出器３７により入力画像の特徴量を複数抽出する。特徴量抽出の詳細については後述する。
　第１のタスク推定部３２は、第１のタスクとしてのセマンティックセグメンテーションを実行する。セマンティックセグメンテーション結果は第２のタスク決定部３３及び状況分析部８へ出力される。セマンティックセグメンテーションの詳細については後述する。
　第２のタスク決定部３３は、セマンティックセグメンテーション結果を基に、第２のタスクａ、第２のタスクｂ及び第２のタスクｃそれぞれについて実行するか否かを決定する。具体的な第２のタスク決定については後述する。
　パラメータ生成部３４は、セマンティックセグメンテーション結果を基に、実行すると決定された第２のタスクを実行する際のパラメータを生成する。生成されたパラメータは記憶部７に保存される。具体的なパラメータ生成については後述する。
　第２のタスクニューラルネットワーク構成部３５は、パラメータ生成部３４で生成されたパラメータを記憶部７から読み出し、該パラメータを用いて第２のタスクのニューラルネットワークを構成する。

　第２のタスク推定部３６は、構成されたニューラルネットワークを用いて第２のタスク処理を実行する。第２のタスクの処理結果（入力画像の認識結果）は、状況分析部８へ出力される。

　第２のタスク推定部３６は、第２のタスクａ推定部３６１と、第２のタスクｂ推定部３６２と、第２のタスクｃ推定部３６３と、を有する。第２のタスクａ推定部３６１は、インスタンスセグメンテーションを行い、オブジェクトを検出する。第２のタスクｂ推定部３６２は、オプティカルフローを行い、オブジェクトの動きを検出する。第２のタスクｃ推定部３６３は、距離検出を実行する。オブジェクト検出、動き検出及び距離検出の詳細については後述する。

　図５は、処理部３で行われる、第２及び第３実施形態における車両１に搭載される複数のセンサ部２それぞれで取得される画像の画像認識処理例を示す概略フロー図である。

　図５に示すように、前方センサ部２Ｆ、右前方センサ部２ＦＲ、左前方センサ部２ＦＬ、右側方センサ部２ＳＲ及び左側方センサ部２ＳＬの５つのセンサ部それぞれで取得される画像に対して、本技術の画像認識処理（情報処理）が適用される。つまり、処理部３では、第１の実施形態で説明したＳ１～Ｓ６の処理が、複数のセンサ部２からの入力画像それぞれに対して行われる。
　複数のセンサ部２で取得された画像それぞれの画像認識処理において、第１のタスクの認識処理結果に基づいて、他のタスクである第２のタスクの実行の有無が決定される。このため、認識精度を落とすことなく全体の認識処理の演算量を削減することができ、消費電力の低減及び処理遅延の抑制が可能となる。

（（状況分析部））
　状況分析部８は、第１のタスクの認識処理結果（セマンティックセグメンテーション結果）、第２のタスクの認識処理結果（オブジェクト検出結果、動き検出結果及び距離検出結果から選択される１以上の処理結果）に基づいて、車両の周囲状況の分析処理を行う。分析結果は提示制御部４へ出力される。

（（提示制御部））
　提示制御部４は、状況分析部８から出力された分析結果及び車両状態検出部５で検出された車両１の状態情報を用いて、運転支援情報を生成し、該運転支援情報を提示する提示部６を制御する。

　提示制御部４は、例えば、表示制御部４０と、音声制御部４１と、発光制御部４２と、を備える。
　表示制御部４０は、表示部６０での表示を制御する。
　音声制御部４１は、音出力部６１での音声出力を制御する
　発光制御部４２は、発光部６２の点灯を制御する。

　上述の状況分析部８による分析結果は、処理部３での画像認識処理結果を用いて生成されるものである。上述の通り、処理部３では、演算量を削減しつつも高い認識精度を維持した画像認識処理が可能であるため、精度の高い画像認識処理結果を用いて行われる車両の周囲状況の分析結果は精度の高い情報である。そして、このような精度の高い情報を用いて生成される運転支援情報は、車両１が置かれている状況に適した情報であり、ドライバは、運転支援情報を利用してより安全な運転をすることができる。
　そのうえ、本技術の情報処理装置１０ａの処理部３では、画像認識処理の演算量を削減することができるため、処理遅延が抑制され、より的確なタイミングで的確な運転支援情報の提示が可能となる。

（（記憶部））
　記憶部７は、情報処理装置１０ａでの処理に必要な各種プログラムやデータを記憶する。例えば、記憶部７は、本技術の処理部３で行われる画像認識処理に係る一連の処理を実行するためのプログラムを記憶する。例えば、記憶部７は、画像認識処理に係る処理で用いる各種パラメータや車両の走行等に関するログ等を記憶する。例えば、記憶部７は、状況分析部８や提示制御部４で行われる一連の処理を実行するためのプログラムを記憶する。

　記憶部７は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disc Drive）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。

［特徴量抽出］
　特徴量抽出部３１による特徴量抽出について説明する。
　図６は、情報処理装置１０ａの処理部３による画像認識処理の構成を模式的に示す図であり、特徴量抽出のニューラルネットワークを説明するための模式図である。

　図６に示すように、センサ部２で取得された入力画像９から、特徴量抽出部３１を構成する特徴量抽出器（Feature Extractor）３７により、４つのタスクに共通する複数の特徴量ｆ１～ｆ５が抽出される。４つのタスクの共通特徴量として、入力画像の色特徴、エッジ特徴が、ニューラルネットワークの特徴量抽出器３７によって抽出される。

　特徴量抽出器３７により、入力画像９から、互いに異なる複数の畳み込み演算と活性化関数との組み合わせレイヤでの処理を用いて、解像度が異なる基本特徴マップｂ０、ｂ１、ｂ２、ｂ３が得られる。
　入力画像により近いレイヤの基本特徴マップであるｂ０、ｂ１は、相対的に解像度が高く、画像の細かい構造情報を有する。一方、入力画像からより遠いレイヤの基本特徴マップであるｂ２、ｂ３は、相対的に解像度が低く、画像の大まかな構造情報を有する。

　更に、隣接する２つの基本特徴マップから、畳み込み演算で、特徴量ｆ１～ｆ５を抽出する。該特徴量ｆ１～ｆ５は、最終的な特徴マップであり、基本特徴マップと区別して、本明細書では「特徴量」という。
　例えば、基本特徴マップｂ０とｂ１を用いて、畳み込み演算で特徴量ｆ１を抽出する。基本特徴マップｂ２と特徴量ｆ１を用いて、畳み込み演算で特徴量ｆ２を抽出する。基本特徴マップｂ３と特徴量ｆ２を用いて、畳み込み演算で特徴量ｆ３を抽出する。特徴量ｆ３を用いて、畳み込み演算で特徴量ｆ４を抽出する。特徴量ｆ４を用いて、畳み込み演算で特徴量ｆ５を抽出する。
　特徴量ｆ１、ｆ２は、相対的に解像度が高く、より詳細な色、エッジ情報を有し、特徴量ｆ３～ｆ５は、相対的に解像度が低いが、より広い範囲のエッジ情報を有する。特徴量は、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５といくにしたがって、解像度が低くなっていく。

　特徴量抽出器３７では、セマンティックセグメンテーション、オブジェクト検出（インスタンスセグメンテーション）、動き検出（オプティカルフロー（Optical flow））及び距離（depth）検出の４つのタスクの損失関数の和を学習し、全てのタスクの損失関数を最小化することで、４つのタスクの共通の特徴量ｆ１～ｆ５を抽出する。

　情報処理装置１０ａでは、抽出した特徴量ｆ１～ｆ５を用いて、セマンティックセグメンテーション、オブジェクト検出、動き検出及び距離検出の４つのタスク処理が実行可能となっている。
　図６に示すように、セマンティックセグメンテーションにより、画像認識処理結果としてセマンティックセグメンテーション結果１１が得られる。セマンティックセグメンテーション結果１１は、画像内の全画素にラベル又はカテゴリを関連づけた画像である。
　オブジェクト検出（インスタンスセグメンテーション）により、画像認識処理結果としてオブジェクト検出結果１２が得られる。
　動き検出（オプティカルフロー）により、画像認識処理結果としてオプティカルフロー結果１３が得られる。
　距離検出により、画像認識処理結果として距離検出結果１４が得られる。

［セマンティックセグメンテーション（クラス分類）］
　図７は、セマンティックセグメンテーションのニューラルネットワーク１０１を模式的に示す図である。第１のタスク推定部３２は、セマンティックセグメンテーション（第１のタスク）用のニューラルネットワーク１０１を用いて、セマンティックセグメンテーションを行う。

　第１のタスク推定部３２は、セマンティックセグメンテーションを行い、入力画像９を、路面、歩道、空、歩行者、車両、サイクリスト、建物、縁石、植物、ガードレール、電柱、標識、交通信号機、動物、ごみ箱、ポール等の領域に、画素単位で分割する。

　セマンティックセグメンテーションでは、事前に１～ＮのＮ個のクラスを定義し、画素毎に各クラス１～Ｎとなる確率を推定し、最も確率が高いクラスを、その画素のクラスの推定結果とする。各クラスにはクラスＩＤが付与されている。より詳細には、推定は次のように行われる。

　図７に示すように、特徴量抽出器３７から出力された入力画像９の特徴量ｆ１～ｆ５それぞれが、対応するデコーダに出力される。つまり、特徴量ｆ１は、第１デコーダ１１１に出力される。特徴量ｆ２は、第２デコーダ１１２に出力される。特徴量ｆ３は、第３デコーダ１１３に出力される。特徴量ｆ４は、第４デコーダ１１４に出力される。特徴量ｆ５は、第５デコーダ１１５に出力される。

　次に、各デコーダの畳み込みニューラルネットワークを用いて、画素毎のクラス推定用特徴マップが推定される。

　次に、各デコーダで推定された、解像度が異なる５つのクラス推定用特徴マップは、特徴統合（Feature Aggregation）部１１６によって統合される。統合は、画素毎の和又は５つのクラス推定用特徴マップをチャンネル方向で連結することで行われる。

　次に、クラス予測（Class predictor）部１１７により、特徴統合部１１６で統合された特徴マップのチャンネル数がクラス数のＮとなるように畳み込み演算で、画素毎に各クラス１～Ｎとなる確率を算出する。Ｎ個の確率値のうち、最も高い確率に対応するクラスＩＤが、セマンティックセグメンテーション結果（推定結果）となる。

　このように、入力画像９中の全ての画素のクラスＩＤが推定され、セマンティックセグメンテーション結果１１が得られる。

［オブジェクト検出（インスタンスセグメンテーション）］
　図８は、オブジェクト検出（インスタンスセグメンテーション）のニューラルネットワーク１０２を模式的に示す図である。第２のタスクａ推定部３６１は、オブジェクト検出用のニューラルネットワーク１０２を用いて、インスタンスセグメンテーションを行う。

　インスタンスセグメンテーションでは、入力画像９に含まれるオブジェクト毎のマスクが検出され、その領域の種類（クラス）も推測される。インスタンスセグメンテーションでは、同一クラスの複数オブジェクトが隣接していても、オブジェクト毎のマスクを検出することができる。

　図８に示すように、特徴量抽出器３７から出力された入力画像９の特徴量ｆ１～ｆ５それぞれは、対応するデコーダへ出力される。つまり、特徴量ｆ１は、第１オブジェクトデコーダ１２１へ出力される。特徴量ｆ２は、第２オブジェクトデコーダ１２２へ出力される。特徴量ｆ３は、第３オブジェクトデコーダ１２３へ出力される。特徴量ｆ４は、第４オブジェクトデコーダ１２４へ出力される。特徴量ｆ５は、第５オブジェクトデコーダ１２５へ出力される。
　次に、各デコーダの畳み込みニューラルネットワークを用いて、オブジェクト毎のバウンディングボックス及びバウンディングボックスのクラスが推定される。
　次に、各デコーダで推定されたバウンディングボックスの位置から、バウンディングボックスに対応する特徴量（ｆ１～ｆ５のいずれか）からバウンディングボックス領域の特徴量を切り出して、切り出した特徴量をマスク推定（Mask Predictor）部１２７に出力する。
　次に、マスク推定部１２７により、バウンディングボックス領域の特徴量から、オブジェクト領域毎のクラスが推定される。
　以上により、入力画像９から、画像認識処理されたオブジェクト検出結果１２が得られる。

［動き検出（オプティカルフロー）］
　図９は、動き検出（オプティカルフロー）のニューラルネットワーク１０３を模式的に示す図である。第２のタスクｂ推定部３６２は、動き検出用のニューラルネットワーク１０３を用いて、オプティカルフロー推定を行う。

　図９に示すように、オプティカルフローでは、２枚の入力画像９ａ、９ｂ間の画素毎の移動量が計算される。２枚の入力画像９ａ、９ｂは、同じセンサ部２で取得された画像であり、例えば、現在のフレームの画像と１フレーム前の画像である。

　図９に示すように、２枚の入力画像９ａ、９ｂそれぞれから、特徴量抽出器３７により、特徴量ｆ１～ｆ５が抽出される。

　次に、入力画像９ａから抽出した特徴量ｆ５と入力画像９ｂから抽出した特徴量ｆ５とが、特徴量マッチング（feature matching）部１３６により、マッチングされる。特徴量マッチング部１３６では、異なる画像でそれぞれ抽出した特徴量の対応付けが行われる。マッチング結果は、第５オプティカルフローデコーダ（optical flow decoder）１３５に入力される。第５オプティカルフローデコーダ１３５により、特徴量ｆ５と同じ解像度のオプティカルフローが算出される。

　次に、入力画像９ａから抽出した特徴量ｆ４と入力画像９ｂから抽出した特徴量ｆ４とが、特徴量マッチング部１３６により、マッチングされる。マッチング結果は、第４オプティカルフローデコーダ１３４へ出力される。更に、第５オプティカルフローデコーダ１３５により算出された後、アップサンプリング部１３７によりアップサンプリングされて拡大されたオプティカルフローが、第４オプティカルフローデコーダ１３４へ出力される。そして、第４オプティカルフローデコーダ１３４により、特徴量ｆ４と同じ解像度のオプティカルフローが算出される。ここで、第４オプティカルフローデコーダ１３４によるオプティカルフロー算出に際し、第５オプティカルフローデコーダ１３５により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。

　次に、入力画像９ａから抽出した特徴量ｆ３と入力画像９ｂから抽出した特徴量ｆ３とが、特徴量マッチング部１３６により、マッチングされる。マッチング結果は、第３オプティカルフローデコーダ１３３へ出力される。更に、第４オプティカルフローデコーダ１３４により算出された後、アップサンプリング部１３７によりアップサンプリングされて拡大されたオプティカルフローが、第３オプティカルフローデコーダ１３３へ出力される。そして、第３オプティカルフローデコーダ１３３により、特徴量ｆ３と同じ解像度のオプティカルフローが算出される。上記と同様に、第３オプティカルフローデコーダ１３３によるオプティカルフロー算出に際し、第４オプティカルフローデコーダ１３４により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。

　次に、入力画像９ａから抽出した特徴量ｆ２と入力画像９ｂから抽出した特徴量ｆ２とが、特徴量マッチング部１３６により、マッチングされる。マッチング結果は、第２オプティカルフローデコーダ１３２へ出力される。更に、第３オプティカルフローデコーダ１３３により算出された後、アップサンプリング部１３７によりアップサンプリングされて拡大されたオプティカルフローが、第２オプティカルフローデコーダ１３２へ出力される。そして、第２オプティカルフローデコーダ１３２により、特徴量ｆ２と同じ解像度のオプティカルフローが算出される。上記と同様に、第２オプティカルフローデコーダ１３２によるオプティカルフロー算出に際し、第３オプティカルフローデコーダ１３３により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。

　次に、入力画像９ａから抽出した特徴量ｆ１と入力画像９ｂから抽出した特徴量ｆ１とが、特徴量マッチング部１３６により、マッチングされる。マッチング結果は、第１オプティカルフローデコーダ１３１へ出力される。更に、第２オプティカルフローデコーダ１３２により算出された後、アップサンプリング部１３７によりアップサンプリングされて拡大されたオプティカルフローが、第１オプティカルフローデコーダ１３１へ出力される。そして、第１オプティカルフローデコーダ１３１により、特徴量ｆ１と同じ解像度のオプティカルフローが算出される。上記と同様に、第１オプティカルフローデコーダ１３１によるオプティカルフロー算出に際し、第２オプティカルフローデコーダ１３２により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。このように、前段で算出されたオプティカルフローデコータの出力と合わせてオプティカルフローが算出されることで、精度の高いオプティカルフロー結果（動き検出結果）を得ることができる。
　以上により、入力画像９ａ及び９ｂから、オプティカルフロー結果１３が得られる。

［距離検出］
　図１０は、距離検出のニューラルネットワーク１０４を模式的に示す図である。第２のタスクｃ推定部３６３は、距離検出（第２のタスク）用のニューラルネットワーク１０４を用いて、距離推定を行う。距離推定では、入力画像９から画素毎の奥行（デプス）情報（オブジェクトと車両との距離情報）を推定する。

　図１０に示すように、距離検出用のニューラルネットワーク１０４では、入力画像９から抽出された解像度の異なる複数の特徴量ｆ１～ｆ５それぞれと、測距部２１で取得されたＬｉＤＡＲ点群１５から抽出された特徴量とが統合された後、距離推定のデコーダであるデプスデコーダにより画素毎の距離（オブジェクトと車両（より詳細には撮像部）との距離）が算出される。以下、詳細に説明する。

　図１０に示すように、特徴量抽出器３７により、センサ部２の撮像部２０で取得された入力画像９から、特徴量ｆ１～ｆ５が抽出される。また、同じセンサ部２の測距部２１で取得されたＬｉＤＡＲ点群１５に対し、ＲｅｓｔＮｅｔ（He, Kaiming, et al. "Deep residual learning for image recognition. "Proceedings of IEEE conference on computer vision and pattern recognition. 2016.）１６を用いて、ＬｉＤＡＲの特徴マップ（以下、ＬｉＤＡＲの特徴量という。）が抽出される。

　次に、入力画像９から抽出した特徴量ｆ５と、ＬｉＤＡＲ点群１５から抽出したＬｉＤＡＲの特徴量とが、特徴統合（Feature Aggregation）部１４６によって統合される。統合は、画素毎の和で行われる。もしくは、画素毎の特徴量をチャンネル方向で連結しても良い。統合結果（統合特徴量）は、第５デプスデコーダ（depth decoder）１４５へ出力される。第５デプスデコーダ１４５により、特徴量ｆ５と同じ解像度の距離検出結果が算出される。

　次に、入力画像９から抽出した特徴量ｆ４と、ＬｉＤＡＲ点群１５から抽出したＬｉＤＡＲの特徴量とが、特徴統合部１４６により統合される。統合結果は、第４デプスデコーダ１４４へ出力される。更に、第５デプスデコーダ１４５により算出された後、アップサンプリング部１４７によりアップサンプリングされて拡大された距離検出結果が、第４デプスデコーダ１４４へ出力される。そして、第４デプスデコーダ１４４により、特徴量ｆ４と同じ解像度の距離検出結果が算出される。ここで、第４デプスデコーダ１４４による距離算出に際し、第５デプスデコーダ１４５により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。

　次に、入力画像９から抽出した特徴量ｆ３と、ＬｉＤＡＲ点群１５から抽出したＬｉＤＡＲの特徴量とが、特徴統合部１４６により統合される。統合結果は、第３デプスデコーダ１４３へ出力される。更に、第４デプスデコーダ１４４により算出された後、アップサンプリング部１４７によりアップサンプリングされて拡大された距離検出結果が、第３デプスデコーダ１４３へ出力される。そして、第３デプスデコーダ１４３により、特徴量ｆ３と同じ解像度の距離検出結果が算出される。ここで、第３デプスデコーダ１４３による距離算出に際し、第４デプスデコーダ１４４により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。

　次に、入力画像９から抽出した特徴量ｆ２と、ＬｉＤＡＲ点群１５から抽出したＬｉＤＡＲの特徴量とが、特徴統合部１４６により統合される。統合結果は、第２デプスデコーダ１４２へ出力される。更に、第３デプスデコーダ１４３により算出された後、アップサンプリング部１４７によりアップサンプリングされて拡大された距離検出結果が、第２デプスデコーダ１４２へ出力される。そして、第２デプスデコーダ１４２により、特徴量ｆ２と同じ解像度の距離検出結果が算出される。ここで、第２デプスデコーダ１４２による距離算出に際し、第３デプスデコーダ１４３により算出された後、拡大された距離も用いられることで、より正確な距離を算出することができる。

　次に、入力画像９から抽出した特徴量ｆ１と、ＬｉＤＡＲ点群１５から抽出したＬｉＤＡＲの特徴量とが、特徴統合部１４６により統合される。統合結果は、第１デプスデコーダ１４１へ出力される。更に、第２デプスデコーダ１４２により算出された後、アップサンプリング部１４７によりアップサンプリングされて拡大された距離検出結果が、第１デプスデコーダ１４１へ出力される。そして、第１デプスデコーダ１４１により、特徴量ｆ１と同じ解像度の距離検出結果１４が算出される。ここで、第１デプスデコーダ１４１による距離算出に際し、第２デプスデコーダ１４２により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。このように、前段で算出されたデプスデコータの出力と合わせて距離検出結果が算出されることで、精度の高い距離検出結果を得ることができる。
　以上により、画像９から、距離検出結果１４が得られる。

　以上のように、情報処理装置１０ａの処理部３では、４つのタスク（セマンティックセグメンテーション、オブジェクト検出、動き検出、距離検出）は、共通の特徴量抽出器３７を用いて実行可能となっている。

［情報処理方法（画像認識処理方法）］
　情報処理装置１０ａにおける情報処理方法（画像認識処理方法）について図１１を用いて説明する。図１１に示す情報処理は、各センサ部２で取得される画像それぞれに対して行われる。

　画像取得部３０により、センサ部２の撮像部２０で撮像された画像９が取得される（Ｓ１）。
　次に、特徴量抽出部３１により、画像９の特徴量が複数（ｆ１～ｆ５）抽出される（Ｓ２）。

　次に、第１のタスク推定部３２により、Ｓ２で抽出された複数の特徴量を用いて第１のタスク（セマンティックセグメンテーション）が実行される（Ｓ３）。

　次に、第２のタスク決定部３３により、第１のタスク結果に基づいて、第２のタスクを実行するか否かが決定される（Ｓ４）。本実施形態では、第２のタスク決定部３３により、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かが決定される。

　次に、パラメータ生成部３４により、実行が決定された第２のタスクのパラメータが、セマンティックセグメンテーション結果を用いて、生成される（Ｓ５）。

　次に、第２のタスクニューラルネットワーク構成部３５により、Ｓ５で生成されたパラメータを用いて第２のタスクのニューラルネットワークが構成される（Ｓ６）。

　次に、第２のタスク推定部３６により、Ｓ６で構成されたニューラルネットワークを用いて、第２のタスク（本実施形態では、オブジェクト検出、動き検出及び距離検出から選択される１以上のタスク）が実行される（Ｓ７）。

［第２のタスクの決定］
　図１２は、処理部３の第２のタスク決定部３３で行われる、図１１のステップ４（Ｓ４）の第２のタスク決定処理のフロー図である。以下、図１２を用いて、実行する第２のタスクをどのように決定するかを説明する。第２のタスク決定処理は、第１のタスク処理結果（セマンティックセグメンテーション結果）に基づいて行われる。

　図１２に示すように、第２のタスク決定処理が開始すると、画素毎のクラスＩＤ情報が含まれるセマンティックセグメンテーション結果から、ユニーククラスＩＤリスト（以下、単にＩＤリストという。）が取得される（Ｓ１）。

　次に、ＩＤリストを用いて、注目オブジェクトのクラスＩＤがあるかが判定される（Ｓ４２）。注目オブジェクトがあると判定されると、Ｓ４３に進む。注目オブジェクトがないと判定されると、距離検出のみ実行することが決定される（Ｓ４４）。

　ここで、一例として、電柱、交通信号機、交通標識、ごみ箱、ポール、車両（自動四輪車）、ヒト、動物、自転車、バイク（自動二輪車）、電車、バス、トラックそれぞれに事前に付与されるクラスＩＤを１～１３とする。これらのオブジェクトは、注目オブジェクト（運転に支障となるオブジェクト）である。このうち、クラスＩＤが６である車両、クラスＩＤが７であるヒト、クラスＩＤが８である動物、クラスＩＤが９である自転車、クラスＩＤが１０であるバイク、クラスＩＤが１１である電車、クラスＩＤが１２であるバス、クラスＩＤが１３であるトラックは、動き可能な注目オブジェクトである。一方、クラスＩＤが１の電柱、クラスＩＤが２の交通信号機、クラスＩＤが３の交通標識、クラスＩＤが４のごみ箱、クラスＩＤが５であるポールは、動き可能でない注目オブジェクトである。

　例えば、Ｓ４２において、ＩＤリスト中に１～１３のクラスＩＤが存在する場合、Ｓ４３に進む。一方、ＩＤリスト中に１～１３のクラスＩＤが存在しない場合、Ｓ４４に進み、距離検出のタスクのみ実行することが決定される。

　Ｓ４３において、ＩＤリスト中に、動き可能な注目オブジェクトのクラスＩＤがあるか否かが判定される。
　あると判定されると、オブジェクト検出、動き検出及び距離検出の３つのタスクの実行が決定される（Ｓ４６）。
　一方、ないと判定されると、オブジェクト検出及び距離検出の２つのタスクの実行が決定される（Ｓ４５）。

　例えば、上述の例では、ＩＤリスト中に５～１３のクラスＩＤが存在する場合、Ｓ４６に進み、オブジェクト検出、動き検出及び距離検出の３つのタスクの実行が決定される。
　一方、ＩＤリスト中に５～１３のクラスＩＤが存在しない場合、Ｓ４５に進み、オブジェクト検出及び距離検出の２つのタスクの実行が決定される。

　このように、本実施形態では、第１のタスクの処理結果（セマンティックセグメンテーション結果）に基づき、第２のタスクであるオブジェクト検出、動き検出及び距離検出それぞれの実行の有無が決定される。

　次に、図１３を用いて、第２のタスク決定処理の具体例について説明する。
　図１３は、第２のタスク決定処理の具体例を説明するための図である。図１３は、車両に搭載される複数のセンサ部２それぞれの撮像部２０で取得された画像９に対する第１のタスク処理結果に応じて、どのように第２のタスクの実行の有無が決定されるかを説明するための図である。第２のタスク決定処理では、セマンティックセグメンテーションから得られるシーン特徴を用いて、実行する第２のタスクを決定する。

　図１３に示す例では、左側方センサ部２ＳＬの撮像部２０で取得される画像９ＳＬと、左前方センサ部２ＦＬの撮像部２０で取得される画像９ＦＬは、いずれも注目オブジェクトが存在しない画像である。
　このため、画像９ＳＬ及び９ＦＬそれぞれに対する第１のタスク推定結果であるセマンティックセグメンテーション結果１１ＳＬ及び１１ＦＬそれぞれから取得されるＩＤリストには、注目オブジェクトのクラスＩＤが含まれないので、距離検出のみの実行が決定される。
　このように、注目オブジェクトが存在しない場合、距離検出のみが実行されることで、例えば路面と車両（撮像部が搭載される車両）との距離を推定することができる。この推定された障害物とならないオブジェクトとの距離情報を用いて、ドライバに対して、運転操作命令、速度変更、車両追い越し推奨、車線変更推奨等の運転支援情報を提示することが可能となる。

　図１３に示す例では、前方センサ部２Ｆの撮像部２０で取得される画像９Ｆと、右前方センサ部２ＦＲの撮像部２０で取得される画像９ＦＲは、いずれも動き可能な注目オブジェクトである車両が存在する画像である。
　このため、画像９Ｆ及び９ＦＲそれぞれに対する第１のタスク推定結果であるセマンティックセグメンテーション結果１１Ｆ及び１１ＦＲそれぞれから取得されるＩＤリストには、動き可能な注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出、動き検出、距離検出のタスクの実行が決定される。
　このように、動き可能な注目オブジェクトが存在する場合、オブジェクト検出、動き検出及び距離検出が実行されることで、各オブジェクトの動き及び距離（オブジェクトと車両との距離）を推定することができる。この推定された各オブジェクトの動き情報及び距離情報、つまり画像認識処理結果を用いて、ドライバに対して、障害物警告、運転操作命令、速度変更、車両追い越し推奨、車線変更推奨等の運転支援情報を提示することが可能となる。

　図１３に示す例では、右側方センサ部２ＳＲの撮像部２０で取得される画像９ＳＲは、動き可能でない注目オブジェクトである消火栓が存在する画像である。
　このため、画像９ＳＲに対する第１のタスク推定結果であるセマンティックセグメンテーション結果１１ＳＲから取得されるＩＤリストには、動き可能でない注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出及び距離検出の実行が決定される。
　このように、消火栓、壁、縁石、ポール等の、動き可能でない静止的な注目オブジェクトが存在する場合、オブジェクト検出及び距離検出が実行されることで、これらのオブジェクトと車両との距離を推定することができる。この推定された距離情報、つまり画像認識処理結果を用いて、ドライバに対して、障害物警告、障害物との衝突を避けるための運転操作命令等の運転支援情報を提示することが可能となる。

　ここで、車両に複数の撮像部が搭載され、車両の周囲情報を広範囲で取得する全周囲センシングシステムでは、例えば１つの入力画像に対して４つのタスクが常に実行されると、演算量が莫大になって処理遅延が生じやすく、リアルタイムな画像認識処理及び該画像認識結果に基づく運転支援が困難となってしまう。
　これに対し、本実施形態では、各撮像部で取得される画像それぞれに対して本技術の画像処理方法（情報処理方法）を適用することで、例えば、図１３に示す前方センサ部や右前方センサ部で取得された画像のように、動き可能な障害物となるオブジェクトが存在する場合にのみ、３つの第２のタスク全てを実行し、その他の場合では２つ又は１つの第２のタスクのみを実行することで、画像認識処理の演算量の削減及び処理遅延の抑制が可能となる。

［第２のタスクのパラメータ生成］
　図１４は、処理部３のパラメータ生成部３４で行われる、図１１のステップ５（Ｓ５）の第２のタスクパラメータ生成処理のフロー図である。
　図１５は、パラメータ生成の具体例を説明するための図である。
　以下、図１４に沿って、図１５を用いながら、第２のタスクの実行時に用いるパラメータをどのように生成するかを説明する。パラメータ生成処理は、第１のタスク処理結果（セマンティックセグメンテーション結果）を用いて行われる。

　図１４に示すように、パラメータ生成処理が開始すると、セマンティックセグメンテーション結果から画像内に注目オブジェクトがあるか否かが判定される（Ｓ５１）。詳細には、セマンティックセグメンテーション結果から取得されるＩＤリストを用いて、注目オブジェクトのクラスＩＤがあるか否かを判定することで、注目オブジェクトの有無を判定することができる。
　Ｓ５１で注目オブジェクトがないと判定されると、Ｓ５３に進む。
　Ｓ５１で注目オブジェクトがあると判定されると、Ｓ５２に進む。

　Ｓ５３において、入力画像９の全領域を、全ての特徴量ｆ１～ｆ５を利用して認識処理するように、パラメータが生成される。生成されたパラメータは、記憶部７に保存される（Ｓ５８）。
　上述の第２のタスク決定処理で説明したように、注目オブジェクトがないと判定された場合は、距離検出のみの実行が決定される。つまり、注目オブジェクトがない場合は、距離検出だけの実行が決定され、距離検出のニューラルネットワークに対して最適化を行わず、入力画像９の全領域を全ての特徴量ｆ１～ｆ５を用いて距離検出が行われる。換言すると、基準のニューラルネットワークを用いて距離検出が行われることになる。

　Ｓ５２において、注目オブジェクトのカテゴリが取得される。詳細には、ＩＤリストを用いて注目オブジェクトのクラスＩＤを確認することで、カテゴリを取得することができる。カテゴリの取得結果には、複数のオブジェクトが存在していてもよい。カテゴリの取得結果は、注目オブジェクトのクラスＩＤリストである。

　次に、Ｓ５４及びＳ５６に進む。

　Ｓ５４において、注目オブジェクトが存在する画像領域が取得される。取得される画像領域は、複数のオブジェクトそれぞれの領域を含む。注目オブジェクトを囲む矩形の枠（バウンディングボックスともいう。）を設け、枠の大きさが最小となったときの枠の領域（最小領域という。）を、最終的な画像領域とする。この最終的な画像領域を「処理対象画像」という。処理対象画像は、第２のタスク処理を行う処理対象領域である。

　次に、処理対象画像の座標のパラメータが生成される（Ｓ５５）。生成されたパラメータは、記憶部７に保存される（Ｓ５８）。
　処理対象画像の座標は、パラメータ（ｘ１、ｙ１、ｗ、ｈ）という形で表される。パラメータ（ｘ１、ｙ１、ｗ、ｈ）は、矩形の枠（バウンディングボックス）の左上角の座標（ｘ１、ｙ１）と、矩形の横と縦の画素数を示す（ｗ、ｈ）とを用いて表される。

　Ｓ５６において、Ｓ５２で取得される注目オブジェクト毎の画素数が算出され、注目オブジェクトのカテゴリ毎の最少画素数が含まれるように最少画素数リストが生成される。

　次に、注目オブジェクトの最少画素数リストを用いて、第２のタスクに利用する特徴量を表すパラメータが生成される（Ｓ５７）。生成されたパラメータは、記憶部７に保存される（Ｓ５８）。

　パラメータ生成は、例えば図１５に示す表に従い、特徴量のパラメータを生成する。
　図１５に示す例では、オブジェクトカテゴリが自動四輪車の場合、画素数がＴ０以下では利用する特徴量がｆ１、ｆ２、ｆ３、画素数がＴ０より大きくＴ１以下では利用する特徴量がｆ２、ｇ３、ｆ４、画素数がＴ１より大きくＴ２以下では利用する特徴量がｆ３、ｆ４、ｆ５となるようにパラメータが生成される。
　オブジェクトカテゴリが歩行者の場合、画素数がＴ３以下では利用する特徴量がｆ１、ｆ２、ｆ３、画素数がＴ３より大きくＴ４以下では利用する特徴量がｆ２、ｇ３、ｆ４、画素数がＴ４より大きくＴ５以下では利用する特徴量がｆ４、ｆ５となるようにパラメータが生成される。
　注目オブジェクトのカテゴリがサイクリストの場合、画素数がＴ６以下では利用する特徴量がｆ１、ｆ２、ｆ３、画素数がＴ６より大きくＴ７以下では利用する特徴量がｆ２、ｇ３、ｆ４、画素数がＴ７より大きくＴ８以下では利用する特徴量がｆ４、ｆ５となるようにパラメータが生成される。

　次に、図１６を用いて、パラメータ生成の具体例について説明する。

　図１６（Ａ）は、車両１に搭載される複数のセンサ部２それぞれの撮像部で取得された画像９、画像９に対するセマンティックセグメンテーション結果、オブジェクト検出結果、動き検出結果、距離検出結果を示す図である。図２において、オブジェクト検出結果、動き検出結果及び距離検出結果は、セマンティックセグメンテーション結果に基づいて生成されたパラメータにて再構成されて最適化されたニューラルネットワーク、或いは、基準のニューラルネットワークを用いた認識処理結果である。

　図１６（Ｂ）は、図１６（Ａ）に示すセマンティックセグメンテーション結果に基づく実行する第２のタスクの決定及びパラメータ生成の例を示す図である。

　図１６（Ａ）に示す例では、左側方センサ部２ＳＬの撮像部２０で取得される画像９ＳＬは、動き可能な注目オブジェクトが存在する画像である。
　このため、図１６（Ｂ）に示すように、画像９ＳＬに対するセマンティックセグメンテーション結果から取得されるＩＤリストには動き可能な注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第２のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Ａの座標を示すパラメータ［ｘａ、ｙａ、ｗａ、ｈａ］が生成され、特徴量ｆ１、ｆ２、ｆ３が利用されるようにパラメータが生成される。特徴量のパラメータ生成は、上述したように、図１５に従って、注目オブジェクトの画素数に応じて生成され、以下同様である。

　図１６（Ａ）に示す例では、左前方センサ部２ＦＬの撮像部２０で取得される画像９ＦＬは、注目オブジェクトが存在しない画像である。
　このため、図１６（Ｂ）に示すように、画像９ＦＬに対するセマンティックセグメンテーション結果から取得されるＩＤリストには注目オブジェクトのクラスＩＤが含まれないので、距離検出のみの実行が決定される。また、画像全域を処理対象画像とし、全ての特徴量ｆ１～ｆ５が利用されるように、パラメータが生成される。図１６（Ｂ）では、画像全域の処理対象画像の座標をパラメータ［０、０、ｗ、ｈ］と表現している。

　図１６（Ａ）に示す例では、前方センサ部２Ｆの撮像部２０で取得される画像９Ｆは、動き可能な注目オブジェクトが存在する画像である。
　このため、図１６（Ｂ）に示すように、画像９Ｆに対するセマンティックセグメンテーション結果から取得されるＩＤリストには動き可能な注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第２のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Ｂの座標を示すパラメータ［ｘｂ、ｙｂ、ｗｂ、ｈｂ］と領域Ｃの座標を示すパラメータ［ｘｃ、ｙｃ、ｗｃ、ｈｃ］が生成される。また、領域Ｂに対して特徴量ｆ１、ｆ２、ｆ３が利用されるようにパラメータが生成され、領域Ｃに対して特徴量ｆ３、ｆ４、ｆ５を利用するようにパラメータが生成される。

　図１６（Ａ）に示す例では、右前方センサ部２ＦＲの撮像部２０で取得される画像９ＦＲは、動き可能な注目オブジェクトが存在する画像である。
　このため、図１６（Ｂ）に示すように、画像９ＦＲに対するセマンティックセグメンテーション結果から取得されるＩＤリストには動き可能な注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第２のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Ｄの座標を示すパラメータ［ｘｄ、ｙｄ、ｗｄ、ｈｄ］が生成され、特徴量ｆ１、ｆ２、ｆ３が利用されるようにパラメータが生成される。

　図１６（Ａ）に示す例では、右側方センサ部２ＳＲの撮像部２０で取得される画像９ＳＲは、動き可能な注目オブジェクトが存在する画像である。
　このため、図１６（Ｂ）に示すように、画像９ＳＲに対するセマンティックセグメンテーション結果から取得されるＩＤリストには動き可能な注目オブジェクトのクラスＩＤが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第２のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Ｅの座標を示すパラメータ［ｘｅ、ｙｅ、ｗｅ、ｈｅ］と領域Ｆの座標を示すパラメータ［ｘｆ、ｙｆ、ｗｆ、ｈｆ］が生成される。また、領域Ｅに対して特徴量ｆ１、ｆ２、ｆ３を利用するようにパラメータが生成され、領域Ｆに対して特徴量ｆ３、ｆ４、ｆ５を利用するようにパラメータが生成される。

［第２のタスクのニューラルネットワーク構成］
　図１７は、処理部３の第２のタスクニューラルネットワーク構成部３５で行われるニューラルネットワーク構成の一例を示す図である。
　図１７は、図１６（Ａ）で示した各入力画像に対する認識タスクにおいて、図１６（Ｂ）に示す、実行決定された第２のタスク及びパラメータを用いて、ニューラルネットワークが構成される一例を示す。

　生成されたパラメータを用いて第２のタスクのニューラルネットワークを再構成することにより、Ｓ３３で実行が決定された第２のタスクの推定処理を、入力画像に映る注目オブジェクトの大きさに応じて、少ない演算量で行うことができ、推定処理をより最適化することができる。ニューラルネットワークの構成では、生成されたパラメータを用いて、各第２のタスクのデコーダを選択するように構成が変化する。
　以下、図１７を用いて具体例について説明する。

　左側方センサ部２ＳＬで取得される画像９ＳＬに対して、上述したように、第２のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の３つ全ての認識タスク（第２のタスク）の実行が決定される。
　これらの３つの第２のタスクの実行に際し、図１７に示すように、処理対象画像は領域Ａ［ｘａ、ｙａ、ｗａ、ｈａ］だけとなる。また、領域Ａには、遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量ｆ１、ｆ２及びｆ３だけが生成されるように構成され、更に、これに伴い、第２のタスクの処理で用いられるデコーダが、ｆ１、ｆ２及びｆ３に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークが再構成される。より詳細には、オブジェクト検出では、第１、第２及び第３オブジェクトデコーダ１２１～１２３だけを用いるように再構成される。動き検出では、第１、第２及び第３オプティカルフローデコーダ１３１～１３３だけを用いるように再構成される。距離検出では、第１、第２及び第３デプスデコーダ１４１～１４３だけを用いるように再構成される。

　左前方センサ部２ＦＬで取得される画像９ＦＬに対して、上述したように、第２のタスク決定処理により距離検出のみの実行が決定される。該距離検出の実行に際し、図１７に示すように、処理対象画像は全領域となり、特徴量ｆ１～ｆ５が生成されるように、距離検出のニューラルネットワークが構成され、更に、これに伴い、距離検出で用いられるデコーダが、ｆ１～ｆ５に対応するものから構成されるように、距離検出のニューラルネットワークが構成される。より詳細には、第１～第５デプスデコーダ１４１～１４５を用いるように構成される。つまり、最適化は行われず、基準のニューラルネットワークを用いて距離検出が行われることになる。

　前方センサ部２Ｆで取得される画像９Ｆに対して、上述したように、第２のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の３つ全ての認識タスク（第２のタスク）の実行が決定される。
　これらの３つの第２のタスクの実行に際し、図１７に示すように、処理対象画像は領域Ｂ［ｘｂ、ｙｂ、ｗｂ、ｈｂ］及び領域Ｃ［ｘｃ、ｙｃ、ｗｃ、ｈｃ］だけとなる。
　領域Ｂにおいては、領域Ｂには遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量ｆ１、ｆ２及びｆ３だけが生成されるように構成され、更に、これに伴い、第２のタスクで用いられるデコーダが、ｆ１、ｆ２及びｆ３に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークは再構成される。
　一方、領域Ｃにおいては、領域Ｃには近くに位置する大きなオブジェクトが存在するため、解像度は低いが広い範囲のエッジ情報を持つ特徴量ｆ２、ｆ３、ｆ４だけが生成されるように構成され、更に、これに伴い、第２のタスクで用いられるデコーダが、ｆ２、ｆ３及びｆ４に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークは再構成される。
　詳細には、オブジェクト検出では、領域Ｂにおいて第１、第２及び第３オブジェクトデコーダ１２１～１２３だけを用い、領域Ｃにおいて第２、第３及び第４オブジェクトデコーダ１２２～１２４だけを用いるように再構成される。動き検出では、領域Ｂにおいて第１、第２及び第３オプティカルフローデコーダ１３１～１３３だけを用いるように構成され、領域Ｃにおいて第２、第３及び第４オプティカルフローデコーダ１３２～１３４だけを用いるように再構成される。距離検出では、領域Ｂにおいて第１、第２及び第３デプスデコーダ１４１～１４３だけを用いるように構成され、領域Ｃにおいて第２、第３及び第４デプスデコーダ１４２～１４４だけを用いるように再構成される。

　左側方センサ部２ＳＬで取得される画像９ＳＬに対して、上述したように、第２のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の３つ全ての認識タスク（第２のタスク）の実行が決定される。
　これらの３つの第２のタスクの実行に際し、図１７に示すように、処理対象画像は領域Ｄ［ｘｄ、ｙｄ、ｗｄ、ｈｄ］だけとなる。また、領域Ｄには、遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量ｆ１、ｆ２及びｆ３だけが生成されるように構成され、更に、これに伴い、第２のタスクで用いられるデコーダが、ｆ１、ｆ２及びｆ３に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークは再構成される。より詳細には、オブジェクト検出では、第１、第２及び第３オブジェクトデコーダ１２１～１２３だけを用いるように再構成される。動き検出では、第１、第２及び第３オプティカルフローデコーダ１３１～１３３だけを用いるように再構成される。距離検出では、第１、第２及び第３デプスデコーダ１４１～１４３だけを用いるように再構成される。

　右側方センサ部２ＳＲで取得される画像９ＳＲに対して、上述したように、第２のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の３つ全ての認識タスク（第２のタスク）の実行が決定される。
　これらの３つの第２のタスクの実行に際し、図１７に示すように、処理対象画像は領域Ｅ［ｘｅ、ｙｅ、ｗｅ、ｈｅ］及び領域Ｆ［ｘｆ、ｙｆ、ｗｆ、ｈｆ］だけとなる。
　領域Ｅにおいては、領域Ｅには遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量ｆ１、ｆ２及びｆ３だけが生成されるように構成され、更に、これに伴い、第２のタスクで用いられるデコーダが、ｆ１、ｆ２及びｆ３に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークは再構成される。
　一方、領域Ｆにおいては、領域Ｆには近くに位置する大きなオブジェクトが存在するため、解像度は低いが広い範囲のエッジ情報を持つ特徴量ｆ２、ｆ３、ｆ４だけが生成されるように構成され、更に、これに伴い、第２のタスクで用いられるデコーダが、ｆ２、ｆ３及びｆ４に対応するものだけから構成されるように、各第２のタスクのニューラルネットワークは再構成される。
　詳細には、オブジェクト検出では、領域Ｅにおいて第１、第２及び第３オブジェクトデコーダ１２１～１２３だけを用い、領域Ｆにおいて第２、第３及び第４オブジェクトデコーダ１２２～１２４だけを用いるように構成される。動き検出では、領域Ｅにおいて第１、第２及び第３オプティカルフローデコーダ１３１～１３３だけ用い、領域Ｆにおいて第２、第３及び第４オプティカルフローデコーダ１３２～１３４だけを用いるように構成される。距離検出では、領域Ｅにおいて第１、第２及び第３デプスデコーダ１４１～１４３だけを用い、領域Ｆにおいて第２、第３及び第４デプスデコーダ１４２～１４４だけを用いるように構成される。

　以上のように、本技術では、複数のタスクで共通して用いることができる５つの特徴量ｆ１～ｆ５を抽出することで演算量を削減することができる。加えて、第１のタスクの処理結果に応じて実行する第２のタスクを決定しパラメータを生成することが可能となっているため、第２のタスクのニューラルネットワークを最適化することができる。これにより、例えばデコーダ側の演算量を、基準のニューラルネットワークでの処理よりも削減することが可能となる。

　図１８を参照して、距離検出を例にあげ、デコーダ側の演算量を削減できることの説明をする。
　ここでは、図１６で示した左側方センサ部２ＳＬで取得された、動き可能な注目オブジェクトが存在する画像９ＳＬに対して行なわれる距離検出を例にあげる。
　図１８（Ａ）は基準のニューラルネットワーク１０４を示す図であり、上述の図１０と同様の構成である。
　図１８（Ｂ）は、セマンティックセグメンテーション結果に基づいて、距離検出のみが実行されることが決定され、パラメータとして生成された特徴量ｆ１、ｆ２及びｆ３を用いて再構成されたニューラルネットワーク１０４ａを示す図である。

　図１８（Ａ）及び（Ｂ）に示すように、再構成された距離検出のニューラルネットワーク１０４ａでは、用いるデコーダの数が基準のニューラルネットワーク１０４と比べて少なくなっている。これにより、距離検出処理（第２のタスク処理）が最適化され、デコーダ側の演算量を削減することができる。
　また、オブジェクト検出及び動き検出においても、同様にニューラルネットワークを再構成することができ、基準のニューラルネットワークと比べて用いるデコーダの数を削減することでデコーダ側の演算量を削減することができる。
　尚、注目オブジェクトが存在しない場合は、基準のニューラルネットワークを用いてタスク処理が行われる。

　以上のように、本技術では、セマンティックセグメンテーション結果に基づくシーン特徴に応じて必要な認識タスク（第２のタスク）のみが処理される。更に、セマンティックセグメンテーション結果を用いてパラメータが生成され、該パラメータを用いて第２のタスクのニューラルネットワークが最適化される。これにより、精度の高い画像認識処理を実現しつつ、画像認識処理の演算量を削減することができ、消費電力の低減及び処理遅延の抑制が可能となる。その結果、車両の周囲センシングシステムの演算量を削減しつつ、高精度な画像認識処理結果に基づく適切かつリアルタイムな運転支援情報の提示が可能となる。

＜第３実施形態＞
　第３実施形態では、第１実施形態で説明した技術を、車両に搭載される複数の撮像部それぞれが取得する各画像の画像認識処理に適用し、画像認識処理結果を自動運転に用いる例を挙げる。第２実施形態と第３実施形態とは、画像認識処理結果の適用先が主に異なり、その他の構成はほぼ同様である。以下、主に異なる点について説明する。

［情報処理システム］
　図１９は、本実施形態に係わる情報処理システム２００の概略構成図である。情報処理システム２００では、上記車両１に搭載される複数の撮像部の取得画像の認識処理結果を用いた自動運転処理が行われる。本実施形態の情報処理システムは自動運転システムと言い換えることができる。

　図１９に示すように、情報処理システム２００は、複数のセンサ部２と、情報処理装置１０ｂと、車両状態検出部５と、駆動系システム２６と、を有する。これらはいずれも車両１に搭載される。

（センサ部）
　各センサ部２は、撮像部２０と、測距部２１と、を含む。
　撮像部２０は、画像を取得する。撮像部２０には、単眼カメラ、ステレオカメラ等を用いることができる。
　測距部２１は、車両１と車両１の周囲にあるオブジェクトとの間の距離を測定可能に構成されている。測距部２１としては、ＬｉＤＡＲ、ステレオカメラ、ミリ波レーダ等を用いることができ、測距部２１は、これらから選択される１以上を含んで構成される。本実施形態では、測距部２１として、ＬｉＤＡＲを用いる例を挙げる。

　センサ部２の撮像部２０で取得される画像及び測距部２１としてのＬｉＤＡＲで取得される三次元の点群情報は、情報処理装置１０ｂへ出力される。

（車両状態検出部）
　車両状態検出部５は、車両の状態を検出する。車両状態検出部５は、例えば、ジャイロセンサ、加速度センサ、慣性計測装置（ＩＭＵ）、及び、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転数、モータ回転数、若しくは、車両の回転速度等を検出するためのセンサ等を含んで構成される。車両状態検出部５で検出された車両１の速度、操舵角等の情報は、後述する計画部２４へ出力される。

（駆動系システム）
　駆動系システム２６は、車両（自車両）１の駆動系に係わる各種の装置を備える。例えば、駆動系システムは、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、舵角を調節するステアリング機構、制動力を発生させる制動装置、ＡＢＳ（Antilock Brake System）、ＥＳＣ（Electronic Stability Control）、並びに、電動パワーステアリング装置等を備える。

　駆動系システム２６は、後述する駆動系制御部２５から供給された各種の制御信号に基づいて、制御される。

（情報処理装置）
　情報処理装置１０ｂは、例えばＣＰＵやメモリ（ＲＡＭ，ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。ＣＰＵが後述する記憶部２７に記憶されているプログラムをＲＡＭにロードして実行することにより、本技術に係わる画像認識処理を含む種々の処理が実行される。

　情報処理装置１０ｂでは、複数のセンサ部２それぞれの撮像部２０からの入力画像毎に、セマンティックセグメンテーション（第１のタスク）が行なわれる。そして、セマンティックセグメンテーション結果を用いて、画像認識処理に用いるタスク（第２のタスク）が決定され、該タスクのパラメータが生成される。
　情報処理装置１０ｂは、処理部３と、画像取得部３０と、状況分析部８と、計画部２４と、駆動系制御部２５と、記憶部２７と、を備える。

（（処理部））
　処理部３は、画像取得部３０で取得された画像（入力画像）の認識処理を行う。この際、第１及び第２実施形態で説明したように、処理部３は、入力画像に対して行った第１のタスクの実行の結果を用いて、第２のタスクの実行の有無及び第２のタスクのパラメータの生成を行う。

（（状況分析部））
　状況分析部８は、第１のタスクの認識処理結果（セマンティックセグメンテーション結果）、第２のタスクの認識処理結果（オブジェクト検出結果、動き検出結果及び距離検出結果から選択される１以上の処理結果）に基づいて、車両の周囲状況の分析処理を行う。分析結果は計画部２４へ出力される。

（（計画部））
　計画部２４は、目的地までのルートを時間内で安全に走行するための車両１のルート及び行動を計画する。計画部２４では、自動運転による車両走行時において、自車両の衝突回避或いは衝撃緩和、車間距離に基づく追従走行、車速維持走行等が行われるように、ルート及び行動が計画される。
　計画部２４は、ルート計画部２４０と、行動計画部２４１と、を有する。

　ルート計画部２４０は、マップ情報及び車両状態検出部５で検出された車両１の状態情報等を用いて、目的地までのルートを計画する。また、ルート計画部２４０は、状況分析部８の分析結果を用いて、適宜ルートを変更する。ルート計画部２４０は、計画したルートを示すデータを行動計画部２４１へ出力する。

　行動計画部２４１は、ルート計画部２４０により計画されたルートを計画された時間内で安全に走行するための車両１の行動を計画する。行動計画部２４１は、例えば、発進、停止、進行方向（例えば、前進、後退、左折、右折、方向転換等）、走行車線、走行速度、及び、追い越し等の計画を行う。行動計画部２４１は、計画した車両１の行動を示すデータを駆動系制御部２５に供給する。また、行動計画部２４１は、状況分析部８の分析結果を用いて、適宜行動計画を変更する。

　例えば、入力画像に動き可能でない注目オブジェクトのみが存在すると認識されると、入力画像の認識処理においてオブジェクト検出及び距離検出が行われる。そして、距離検出によって推定される注目オブジェクトと車両との距離情報に応じて、該注目オブジェクトと衝突しないように、操舵角やブレーキを自動的に制御することができる。
　一方、入力画像に動き可能な注目オブジェクトが存在すると認識されると、入力画像の認識処理において、オブジェクト検出、動き検出及び距離検出が行われる。そして、各検出によって推定される注目オブジェクトの動き情報及び距離情報に応じて、該注目オブジェクトと衝突しないように、操舵角やブレーキを自動的に制御することができる。
　このように、本実施形態に係わる画像認識処理では、動き可能でない注目オブジェクトのみが存在する場合は、動き検出は行われないため、認識精度を落とすことなく画像認識処理の演算量の削減が可能となる。そして、画像認識結果を用いて、自動操舵機能及び自動ブレーキ機能を実現することができる。

　上述の状況分析部８による車両の周囲状況の分析結果は、処理部３での画像認識処理結果を用いて生成されるものである。本実施形態の情報処理装置１０ｂの処理部３では、画像認識精度を落とすことがなく、画像認識処理を行うことができる。したがって、精度の高い画像認識処理結果を用いて行われる車両の周囲状況の分析結果は精度の高い情報である。そして、この精度の高い情報を用いて行われるルート計画及び行動計画は、車両１が置かれている状況により適したものとなっており、自動運転の安全性がより向上する。
　そのうえ、本技術の情報処理装置１０ｂの処理部３では、画像認識処理の演算量を削減することができるため、処理遅延が抑制され、より的確なタイミングで、より的確なルート計画及び行動計画に基づく自動運転が可能となる。

（（駆動系制御部））
　駆動系制御部２５は、行動計画部２４１で計画された車両１の行動を示すデータに基づいて、各種の制御信号を生成し、駆動系システム２６に供給する。

（（記憶部））
　記憶部２７は、情報処理装置１０ｂでの処理に必要な各種プログラムやデータを記憶する。例えば、記憶部２７は、本技術の処理部３で行われる画像認識処理に係る一連の処理を実行するためのプログラムを記憶する。例えば、記憶部２７は、画像認識処理に係る処理で用いる各種パラメータや車両の走行等に関するログを記憶する。例えば、記憶部２７は、状況分析部８、計画部２４及び駆動系制御部２５それぞれで行われる一連の処理を実行するためのプログラムを記憶する。

　記憶部２７は、例えば、ＲＯＭ、ＲＡＭ、ＨＤＤ等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。

　処理部３における一連の情報処理方法は第２実施形態と同様である。

　本実施形態においても、第１及び第２実施形態と同様に、複数のタスクで共通して用いることができる５つの特徴量ｆ１～ｆ５を抽出することで演算量を削減することができる。加えて、第１のタスクの処理結果に応じて実行する第２のタスクを決定しパラメータを生成することが可能となっているため、第２のタスクのニューラルネットワークを最適化することができる。これにより、例えばデコーダ側の演算量を、基準のニューラルネットワークでの処理よりも削減することが可能となる。

　このような構成とすることで、精度の高い画像認識処理を実現しつつ、画像認識処理に係わる演算量の削減が可能となる。これにより、消費電力の低減が可能となるとともに処理遅延の抑制が可能となり、画像認識処理結果に基づいて行われる自動運転（自律走行）制御を的確かつリアルタイムに行うことができる。

＜その他＞
　以上、本発明の実施形態について説明したが、本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

　上述の実施形態では、測距部としてＬｉＤＡＲを用いる例をあげたが、例えばＬｉＤＡＲに替えてステレオカメラを用い、ステレオカメラで取得されたステレオ画像から得られる３次元点群を用いて画像認識処理が行われてもよい。この構成では、セマンティックセグメンテーション（第１のタスク）結果を用いることで、ステレオ視差推定の演算を削減することができ、演算量を削減することができる。
　或いは、ステレオカメラで取得されたステレオ画像から深度マップを予測し、次に、各画素をＬｉＤＡＲ座標に投影することで、深度マップ画像から点群に変換された疑似的なＬｉＤＡＲ点群を得るようにしてもよい。

　上述の実施形態では、本技術の画像認識処理を行う画像を取得する撮像部が、移動体としての自動四輪車に搭載される例をあげたが、これに限定されない。撮像部が搭載される移動体は、自動二輪車両等の他の車両、お掃除ロボット、玩具型ロボット、ドローン等であってもよい。

　また、上述の実施形態では、本技術に係わる画像認識処理を行う処理部３が車両（移動体）に搭載される例をあげたが、これに限定されず、例えば外部ネットワーク上に存在するサーバであってもよい。尚、処理遅延を抑制する観点からは、撮像部が搭載される移動体に処理部が設けられることが好ましい。

　本技術は、以下の構成をとることもできる。
（１）
　認識対象に対して、特徴量抽出が共通する第１のタスクと第２のタスクを含む複数のタスクを処理可能な処理部を具備し、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無を決定する
　情報処理装置。
（２）
　上記（１）に記載の情報処理装置であって、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクのパラメータを生成する
　情報処理装置。
（３）
　上記（２）に記載の情報処理装置であって、
　前記処理部は、生成した前記パラメータを用いて前記第２のタスクのニューラルネットワークを構成する
　情報処理装置。
（４）
　上記（２）又は（３）に記載の情報処理装置であって、
　前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
（５）
　上記（４）に記載の情報処理装置であって、
　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含む
　情報処理装置。
（６）
　上記（２）～（５）のうちいずれか１つに記載の情報処理装置であって、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
（７）
　上記（６）に記載の情報処理装置であって、
　前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
　前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味する
　情報処理装置。
（８）
　上記（７）に記載の情報処理装置であって、
　前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトである
　情報処理装置。
（９）
　上記（７）又は（８）に記載の情報処理装置であって、
　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行する
　情報処理装置。
（１０）
　上記（９）に記載の情報処理装置であって、
　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
　　前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される１以上の特徴量を用いるように、前記パラメータを生成する
　情報処理装置。
（１１）
　上記（９）又は（１０）に記載の情報処理装置であって、
　前記移動体には測距部が搭載され、
　前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定される
　情報処理装置。
（１２）
　上記（１１）に記載の情報処理装置であって、
　前記測距部は、ＬｉＤＡＲ（Light Detection and Ranging）、ステレオカメラ及びミリ波レーダから選択される１以上を含む
　情報処理装置。
（１３）
　上記（７）～（１２）のいずれか１つに記載の情報処理装置であって、
　前記撮像部は、前記移動体に複数搭載され、
　前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第１のタスク処理による画像の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
（１４）
　上記（７）～（１３）のいずれか１つに記載の情報処理装置であって、
　前記撮像部は、ステレオカメラ又は単眼カメラである
　情報処理装置。
（１５）
　上記（７）～（１４）のいずれか１つに記載の情報処理装置であって、
　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備する
　情報処理装置。
（１６）
　上記（１５）に記載の情報処理装置であって、
　前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される１以上が搭載され、
　前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも１つを制御する
　情報処理装置。
（１７）
　上記（７）～（１６）のいずれか１つに記載の情報処理装置であって、
　前記移動体は、自律移動可能な移動体であり、
　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備する
　情報処理装置。
（１８）
　上記（１）～（１７）のいずれか１つに記載の情報処理装置であって、
　前記認識対象は画像であり、
　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される１以上を含む
　情報処理装置。
（１９）
　認識対象に対して第１のタスクを処理し、
　前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定する
　ことを情報処理装置が実行する情報処理方法。
（２０）
　認識対象に対して第１のタスクを処理するステップと、
　前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定するステップと
　を情報処理装置に実行させるプログラム。

　１…車両（移動体）
　３…処理部
　４…提示制御部
　　４０…表示制御部
　　４１…音声制御部
　　４２…発光制御部
　６…提示部
　　６０…表示部
　　６１…音出力部
　　６２…発光部
　９…画像、入力画像（認識対象）
　１０、１０ａ、１０ｂ…情報処理装置
　２０…カメラ（撮像部）
　２１…ＬｉＤＡＲ（測距部）
　２４…計画部
　１０２…オブジェクト検出のニューラルネットワーク（第２のタスクのニューラルネットワーク）
　１０３…動き検出のニューラルネットワーク（第２のタスクのニューラルネットワーク）
　１０４、１０４ａ…距離検出のニューラルネットワーク（第２のタスクのニューラルネットワーク）

Claims

　認識対象に対して、特徴量抽出が共通する第１のタスクと第２のタスクを含む複数のタスクを処理可能な処理部を具備し、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無を決定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクのパラメータを生成する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記処理部は、生成した前記パラメータを用いて前記第２のタスクのニューラルネットワークを構成する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含む
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記処理部は、前記第１のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
　前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトである
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
　　前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記パラメータは、前記第２のタスクの処理対象領域と、前記複数の特徴量から選択される１以上の特徴量を含み、
　前記処理部は、
　　前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
　　前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される１以上の特徴量を用いるように、前記パラメータを生成する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記移動体には測距部が搭載され、
　前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定される
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記測距部は、ＬｉＤＡＲ（Light Detection and Ranging）、ステレオカメラ及びミリ波レーダから選択される１以上を含む
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記撮像部は、前記移動体に複数搭載され、
　前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第１のタスク処理による画像の認識結果を用いて、前記第２のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記撮像部は、ステレオカメラ又は単眼カメラである
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備する
　情報処理装置。
　請求項１５に記載の情報処理装置であって、
　前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される１以上が搭載され、
　前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも１つを制御する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記移動体は、自律移動可能な移動体であり、
　前記処理部は、生成した前記パラメータを用いて構成した前記第２のタスクのニューラルネットワークを用いて前記画像に対して前記第２のタスクを実行し、
　前記第２のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備する
　情報処理装置。
　請求項１記載の情報処理装置であって、
　前記認識対象は画像であり、
　前記第１のタスクは、セマンティックセグメンテーションであり、
　前記第２のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される１以上を含む
　情報処理装置。
　認識対象に対して第１のタスクを処理し、
　前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定する
　ことを情報処理装置が実行する情報処理方法。
　認識対象に対して第１のタスクを処理するステップと、
　前記第１のタスク処理による前記認識対象の認識結果を用いて、前記第１のタスクと特徴量抽出が共通する第２のタスクを実行するか否かを決定するステップと
　を情報処理装置に実行させるプログラム。