WO2019230339A1

WO2019230339A1 - 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置

Info

Publication number: WO2019230339A1
Application number: PCT/JP2019/018724
Authority: WO
Inventors: 晋彦千葉; 雄介関川; 鈴木　幸一郎
Original assignee: 株式会社デンソー
Priority date: 2018-06-01
Filing date: 2019-05-10
Publication date: 2019-12-05
Also published as: JP6766844B2; US20210081681A1; US11734918B2; JP2019211900A

Abstract

物体識別装置は、撮像部が所定の撮影視点（ＰＶＰ）から撮影した外界の画像（ＩＭ）を取得する画像取得部（４０ａ）と、畳み込みニューラルネットワークを構成し、画像のデータが畳み込みニューラルネットワークに入力され、畳み込みニューラルネットワークを経て、画像を撮影視点とは別の視点に変換した視点変換マップ（ＭＢ）を出力する視点変換マップ生成部（６０，２６０）と、を備える。視点変換マップ生成部は、第１座標系（ＣＶ）における物体の特徴マップを抽出する特徴抽出処理部（６１，２６１，２６６）と、物体が識別された視点変換マップを出力する出力処理部（６５，６６，２７１）と、を有する。

Description

物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置

関連出願の相互参照

　本出願は、２０１８年６月１日に出願された日本国特許出願２０１８－１０６０８７号に基づくものであり、ここにその記載内容を参照により援用する。

　本開示は、物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置に関する。

　特許文献１は、先進運転支援システムに用いられる画像認識方法として、撮像部で撮影した入力画像を畳み込みニューラルネットワークに入力し、入力画像中の物体（認識対象）の中央領域を推定させ、当該中央領域を示す値を出力させる方法を開示している。

ＪＰ２０１７－５９２０７　Ａ

　特許文献１では、画像上で一部重なっている複数の物体をそれぞれ正しく識別することが可能とされている。しかしながら、特許文献１では、撮像部の撮影視点に撮影座標系において物体を認識するものであり、このような手法で認識された物体は、奥行き等の位置（又は複数の物体の位置関係）を把握し難いおそれがある。

　本願発明者は、識別された物体の位置をより把握し易くすることが求められていることを見出した。

　本開示は、物体をより適切に把握可能な物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置を提供することを目的とする。

　本開示の一態様によれば、移動体に搭載された撮像部と通信可能に接続され、移動体の外界の物体を識別する物体識別装置は、撮像部が所定の撮影視点から撮影した外界の画像を取得する画像取得部と、畳み込みニューラルネットワークを構成し、画像取得部が取得した画像のデータが畳み込みニューラルネットワークに入力され、畳み込みニューラルネットワークを経て、画像を撮影視点とは別の視点に変換した視点変換マップを出力する視点変換マップ生成部と、を備える。視点変換マップ生成部は、画像のデータに、畳み込みニューラルネットワークの畳み込み演算を適用し、撮影視点に基づく第１座標系における物体の特徴マップを抽出する特徴抽出処理部と、別の視点に基づく第２座標系の位置が、第１座標系のどの位置に対応しているかを関係付けるワープ関数を、特徴抽出処理部により抽出された特徴マップに適用し、第２座標系の領域における物体が識別された視点変換マップを出力する出力処理部と、を有する。

　本開示の別態様によれば、移動体に用いられる移動体システムは、移動体に搭載され、所定の撮影視点から移動体の外界を撮影して画像を生成する撮像部と、撮像部と通信可能に接続され、移動体の外界の物体を識別する物体識別装置と、を具備する。物体識別装置は、畳み込みニューラルネットワークを構成し、画像のデータが畳み込みニューラルネットワークに入力され、畳み込みニューラルネットワークを経て、画像を撮影視点とは別の視点に変換した視点変換マップを出力する視点変換マップ生成部を、備える。視点変換マップ生成部は、画像のデータに、畳み込みニューラルネットワークの畳み込み演算を適用し、撮影視点に基づく第１座標系における物体の特徴マップを抽出する特徴抽出処理部と、別の視点に基づく第２座標系の位置が、第１座標系のどの位置に対応しているかを関係付けるワープ関数を、特徴抽出処理部により抽出された特徴マップに適用し、第２座標系の領域における物体が識別された視点変換マップを出力する出力処理部と、を有する。

　これらの態様によると、撮像部が撮影した画像が畳み込みニューラルネットワークを経て、当該画像を撮影視点とは別の視点に基づく視点変換マップが出力される。視点変換マップを参照することで、移動体に搭載された撮像部の撮影視点にとらわれずに物体を識別することができるので、識別された物体の位置の把握は、容易なものとなる。

　このような視点変換マップの生成において、画像のデータに畳み込み演算を適用して得られた撮影視点に基づく第１座標系の特徴マップに、別の視点に基づく第２座標系の位置が、第１座標系のどの位置に対応しているかを関係づけるワープ関数を適用する。ワープ関数の適用によって、第１座標系での局所的な関係性を演算する畳み込み演算を、補完するように、第２座標系の領域での物体の識別を行うことができるので、ニューラルネットワーク構造が深くなり過ぎることを抑制しつつ、物体の識別における汎化性能を向上させることができる。以上により、移動体の外界の物体をより適切に把握可能な物体識別装置又は移動体用システムを提供することができる。

　本開示の別態様によれば、物体識別方法は、撮影視点から物体が撮影された撮影画像のデータを畳み込みニューラルネットワークに入力し、撮影画像のデータに畳み込み演算を適用して、撮影視点に基づく第１座標系における特徴マップを抽出することと、撮影視点とは別の視点に基づく第２座標系の位置が、第１座標系のどの位置に対応しているかを関連付けるワープ関数を、特徴マップに適用することと、ワープ関数が適用された特徴マップに基づいて、撮影画像のデータが撮影視点から別の視点に変換されていると共に、物体が識別された視点変換マップを得ることと、を含む。

　このような態様によると、画像のデータに畳み込み演算を適用して得られた撮影視点に基づく第１座標系の特徴マップに、別の視点に基づく第２座標系の位置が、第１座標系のどの位置に対応しているかを関係づけるワープ関数を適用する。ワープ関数の適用によって、第１座標系での局所的な関係性を演算する畳み込み演算を、補完するように、第２座標系の領域での物体の識別を行うことができるので、ニューラルネットワーク構造が深くなり過ぎることを抑制しつつ、物体の識別における汎化性能を向上させることができる。したがって、ワープ関数が適用された特徴マップに基づいて得られたマップであって、撮影視点から別の視点において物体が識別された視点変換マップは、より信頼性の高いものとなる。

　本開示の別態様によれば、物体識別モデルの学習方法は、畳み込みニューラルネットワークと、畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造と、を構成する物体識別モデルにおいて、別の座標系の位置が、ワープ前の座標系のどの位置に対応しているかを関係付けるためのワープパラメータをワープ構造に用意することと、物体識別モデルに物体が撮影された撮影画像を入力すると、別の座標系において物体が識別された視点変換マップが出力されるように、ワープパラメータを学習させることと、を含む。

　このような態様によると、別の座標系の位置が、ワープ前の座標系のどの位置に対応しているかを関係付けるためのワープパラメータを学習させるので、物体識別モデルにおいて出力されるマップを、ワープ前の座標系から、別の座標系へと、円滑に変換することができる。こうして視点変換マップを参照することで、撮影画像の撮影視点にとらわれずに物体を識別することができる。故に、物体をより適切に把握可能な物体識別モデルを実現することができる。

　本開示の別態様によれば、物体識別モデルの学習装置は、物体識別モデルを学習する学習装置であって、畳み込みニューラルネットワークと、畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造と、を構成する物体識別モデルの演算処理を実行可能に構成された演算回路と、撮影視点から物体が撮影された撮影画像のデータと、撮影視点とは別の視点に基づく座標系において物体が識別された出力マップのデータとの組を、設定する教師データ設定部と、撮影画像を物体識別モデルに入力した場合に、正解データにより近いデータを出力するように、畳み込みニューラルネットワークのカーネルに用いるカーネルのパラメータ及びワープ構造に用いるワープパラメータを学習する学習部と、学習部が学習したカーネルのパラメータ及びワープパラメータを、記憶するためのメモリ装置と、を備える。

　このような態様によると、物体識別モデルを学習させるにあたり、畳み込みニューラルネットワークと、畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造とを構成する物体識別モデルの演算処理を実行可能に構成された演算回路を設け、この演算回路を利用するようにした。ここで、撮影画像を当該物体識別モデルに入力した場合に、正解データにより近いデータを出力するように、カーネルのパラメータとワープパラメータを学習し、学習後にメモリ装置に記憶可能とした。したがって、ワープ構造を含む物体識別モデルの学習を、円滑に行うことができるので、より汎化性能の高い学習モデルとして物体識別モデルを構築可能となる。以上により、物体をより適切に把握可能な物体識別モデルを実現することは、容易に可能となる。

　本開示の別態様によれば、物体識別装置は、移動体に搭載されたカメラと通信可能に接続され、移動体の外界の物体を識別する物体識別装置であって、カメラと接続され、カメラが撮影した外界の画像を取得する画像取得部と、学習値が保存された学習値メモリと、学習値メモリからカーネルパラメータを読み込んで、複数の特徴量抽出ユニットを備えるエンコーダ部と、複数の識別ユニットを備えるデコーダ部とからなる畳み込みニューラルネットワークを構成し、エンコーダ部によって、画像取得部が取得した画像のデータから物体の特徴量の特徴マップを抽出し、学習値メモリからワープパラメータを読み込んで、複数の識別ユニットに対応する複数のワープ関数を作成し、特徴マップに複数のワープ関数を適用してそれぞれ対応する識別ユニットに読み込ませることにより、デコーダ部によってカメラが撮影した視点とは別の視点に変換した視点変換マップを生成する演算装置と、を有する。

　このような態様によると、学習値が保存された学習値メモリから、カーネルパラメータを読み込んで、エンコーダ部とデコーダ部とからなる畳み込みニューラルネットワークが構成される。そして、学習値メモリからワープパラメータを読み込んで、デコーダ部の複数の識別ユニットに対応する複数のワープ関数が作成される。特徴マップへの複数のワープ関数の適用においては、局所的な関係性を考慮して演算が適用される畳み込みニューラルネットワークを補完するように、デコーダ部の識別ユニットに、別の視点に基づいた局所的な関係性を考慮させるように、ワープ関数が作用する。この結果、デコーダ部での識別過程での別の視点に基づいた局所的な関係性が十分に反映された視点変換マップを出力することができる。

　本開示についての上記および他の目的、特徴や利点は、添付図面を参照した下記詳細な説明から、より明確になる。添付図面において、
第１実施形態の車両システムのシステム構成を示すブロック図であり、図１のＥＣＵの回路構成を概略的に示すブロック図であり、第１実施形態の撮像部が撮影した画像の一例であり、図３の画像が視点変換マップ生成部に入力されて、生成された視点変換マップの一例であり、第１実施形態の撮像座標系と鳥瞰座標系とを説明するための図であり、第１実施形態における統合認識の一例を説明するための図であり、第１実施形態における歩行者の位置の推測を説明するための図であり、第１実施形態の車両システムによる画像表示処理を示すフローチャートであり、第１実施形態の車両システムによる車両走行制御処理を示すフローチャートであり、第１実施形態の視点変換マップ生成部ないしは物体識別モデルを説明するための図であり、第１実施形態の物体識別モデルの学習方法を示すフローチャートであり、第１実施形態の学習装置の回路構成を概略的に示すブロック図であり、図１２の学習装置のシステム構成を示すブロック図であり、図１３の学習装置によるフローチャートであり、第２実施形態の車両システムのシステム構成を示すブロック図であり、第２実施形態の視点変換マップ生成部ないしは物体識別モデルを説明するための図であり、第２実施形態の物体識別モデルの学習方法の一例を示すフローチャートである。

　以下、複数の実施形態を図面に基づいて説明する。なお、各実施形態において対応する構成要素には同一の符号を付すことにより、重複する説明を省略する場合がある。各実施形態において構成の一部分のみを説明している場合、当該構成の他の部分については、先行して説明した他の実施形態の構成を適用することができる。また、各実施形態の説明において明示している構成の組み合わせばかりではなく、特に組み合わせに支障が生じなければ、明示していなくても複数の実施形態の構成同士を部分的に組み合せることができる。

　（第１実施形態）
　本開示の第１実施形態による移動体用システムは、図１に示すように、移動体としての車両に用いられる車両システム９であって、当該車両１に搭載されている。ここでいう車両１とは、他車両４と区別する上では、厳密には自車両を意味しているが、以下の説明において、自車両を単に「車両」と記載し（一部の例外を除く）、他車両を「他車両」と記載することとする。車両システム９は、撮像部１０、自律センサ部１５、ＨＭＩ機器部２０、車両走行制御部３０、及びＥＣＵ（Electronic Control Unit）４０等により構成されている。

　撮像部１０は、複数のカメラ１１を有している。各カメラ１１は、撮像素子、レンズ、及び制御部としての回路ユニット１２を有している。撮像素子は、光電変換により光を電気信号に変換する素子であり、例えばＣＣＤイメージセンサないしはＣＭＯＳイメージセンサを採用することができる。撮像素子は、画素を２次元に配列した矩形状の領域を形成している。レンズは、撮影対象を撮像素子上に結像させるために、撮像対象と撮影素子との間に配置されている。

　回路ユニット１２は、少なくとも１つのプロセッサ、メモリ装置、入出力インターフェースを含む電子回路である。プロセッサは、メモリ装置に記憶されているコンピュータプログラムを実行する演算回路である。メモリ装置は、例えば半導体メモリ等によって提供され、プロセッサによって読み取り可能なコンピュータプログラム及びデータを非一時的に格納するための非遷移的実体的記憶媒体である。回路ユニット１２は、撮像素子と電気的に接続されていることにより、撮像素子を制御すると共に、画像ＩＭを各画素の検出結果からなるデータとして生成し、ＥＣＵ４０へ向けて当該データを電気信号として出力する。

　このようにして、撮像部１０の各カメラ１１は、車両１の外界を、その配置に基づく所定の撮影視点ＰＶＰから逐次撮影して画像ＩＭのデータを生成する。本実施形態では、複数のカメラ１１は、互いに異なる撮影視点ＰＶＰにて、車両１の外界のうち互いに異なる方向を撮影するようになっている。複数のカメラ１１には、車両１のフロント部に配置され、車両１の外界のうち前方を撮影するカメラ１１が含まれている（図５も参照）。

　自律センサ部１５は、撮像部１０を補助するように、車両１の外界における歩行者、他車両４、路上の落下物、交通信号、ガードレール、縁石、道路標識、道路表示、及び区画線等の物体を検出する。自律センサ部１５は、例えばライダユニット、ミリ波レーダ、ソナー等のうち少なくとも１つの自律センサを有している。自律センサ部１５は、ＥＣＵ４０と通信可能となっていることにより、各自律センサ部１５の検出結果データを、ＥＣＵ４０へ向けて電気信号として出力する。

　ＨＭＩ機器部２０は、ＨＭＩ（Human Machine Interface）を実現するための機器群を主体として構成されている。具体的にＨＭＩ機器部２０は、情報提示部２１、警報部２２及び振動部２３を有している。

　情報提示部２１は、主に視覚的情報を車両１の乗員へ向けて提示する。情報提示部２１は、例えば画像を表示する表示器を備えたコンビネーションメータ、画像を車両１のウインドシールド等に投影して虚像表示するヘッドアップディスプレイ、ナビゲーション画像を表示可能に構成されたカーナビゲーション用ディスプレイ等のうち、少なくとも１つのディスプレイを有している。情報提示部２１は、ＥＣＵ４０と通信可能となっていることにより、ＥＣＵ４０からの電気信号の入力に応じた視覚的情報の提供を行う。

　警報部２２は、車両１の乗員へ向けた警報を行う。警報部２２は、例えばスピーカ、ブザー等のうち、少なくとも１つの音発振装置を有している。警報部２２は、ＥＣＵ４０と通信可能となっていることにより、ＥＣＵ４０からの電気信号の入力に応じた警報を行う。

　振動部２３は、車両１の乗員へ向けて振動による情報提供又は警報を行う。振動部２３は、例えば車両１の操舵ハンドルを振動させるアクチュエータ、乗員が着座する座席を振動させるアクチュエータ等のうち、少なくとも１つのアクチュエータを有している。振動部２３は、ＥＣＵ４０と通信可能となっていることにより、ＥＣＵ４０から電気信号の入力に応じた振動を行う。

　上記ＨＭＩ機器部２０には、情報提示部２１、警報部２２及び振動部２３を制御する制御部としての回路ユニット２０ａを設けることができる。回路ユニット２０ａは、少なくとも１つのプロセッサ、メモリ装置、入出力インターフェースを含む電子回路である。プロセッサは、メモリ装置に記憶されているコンピュータプログラムを実行する演算回路である。メモリ装置は、例えば半導体メモリ等によって提供され、プロセッサによって読み取り可能なコンピュータプログラム及びデータを非一時的に格納するための非遷移的実体的記憶媒体である。回路ユニット２０ａは、ＥＣＵ４０からの電気信号を、情報提示部２１、警報部２２及び振動部２３に対応した信号に変換することができ、情報提示処理及び警報処理の一部を分担することができる。

　車両走行制御部３０は、少なくとも１つのプロセッサ、メモリ装置、入出力インターフェースを含む電子回路として構成されている。プロセッサは、メモリ装置に記憶されているコンピュータプログラムを実行する演算回路である。メモリ装置は、例えば半導体メモリ等によって提供され、プロセッサによって読み取り可能なコンピュータプログラム及びデータを非一時的に格納するための非一時的実体的記憶媒体である。車両走行制御部３０は、ＥＣＵ４０、車両１の駆動装置、制動装置及び操舵装置と通信可能となっていることにより、ＥＣＵ４０からの電気信号が入力されるようになっていると共に、車両１の駆動装置、制動装置及び操舵装置へ向けて電気信号を出力するようになっている。

　車両走行制御部３０は、コンピュータプログラムの実行により発現される機能ブロックとして、自動運転制御部３１、駆動制御部３２、制動制御部３３及び操舵制御部３４を有している。

　自動運転制御部３１は、車両１の運転操作のうち少なくとも一部範囲を乗員としての運転者から代行可能な自動運転機能を備えている。自動運転制御部３１は、自動運転機能が作動している場合に、ＥＣＵ４０の統合メモリ５２から自動運転に有用な情報を取得し、当該情報を利用して、車両１の自動運転制御を実施する。具体的に、自動運転制御部３１は、駆動制御部３２を介して車両１の駆動装置を制御し、制動制御部３３を介して車両１の制動装置を制御し、操舵制御部３４を介して車両１の操舵装置を制御する。自動運転制御部３１は、駆動装置、制動装置及び操舵装置を互いに連携させて、車両１の走行を制御し、車両１の外界の状況によっては、当該車両１に来襲し得る危険を回避する。

　ＥＣＵ４０は、いわゆるコンピュータであり、車両１の外界における物体を識別する物体識別装置として機能している。ＥＣＵ４０は、図２に示すように、少なくとも１つのプロセッサ４０ｂ、メモリ装置４０ｃ、入出力インターフェース（例えば画像取得部４０ａ）を含む電子回路を主体として構成されている。プロセッサ４０ｂは、メモリ装置４０ｃに記憶されているコンピュータプログラムを実行する演算回路である。メモリ装置４０ｃは、例えば半導体メモリ等によって提供され、プロセッサ４０ｂによって読み取り可能なコンピュータプログラム及びデータを非一時的に格納するための非遷移的実体的記憶媒体である。コンピュータプログラムのうち少なくとも一部は、ニューラルネットワークを用いた人工知能アルゴリズムに置き換えることができ、本実施形態においても、一部の機能がニューラルネットワークによって実現されている。

　図１に示すようにＥＣＵ４０は、上述のように、撮像部１０、自律センサ部１５、ＨＭＩ機器部２０及び車両走行制御部３０と通信可能に接続されている。加えて、ＥＣＵ４０は、通信を用いた電気信号の入力によって、車両１の走行情報、車両１の制御情報、車両１の自己位置情報、クラウド３からの情報及び他車両４からの情報を取得可能に構成され、さらにはクラウド３及び他車両４へ情報を提供することが可能となっている。ここでクラウド３とは、クラウドコンピューティングにより実現されたネットワーク及びネットワークにより接続されたコンピュータの一方又は両方を意味し、データを共有したり、車両１に対する各種サービスを提供することができる。

　なお、本実施形態においてＥＣＵ４０と各要素との間の通信は、例えばＣＡＮ（登録商標）等の車内ネットワーク、及び例えば携帯電話網、インターネット等の公衆通信ネットワークにより提供されるが、有線通信、無線通信を問わず各種の好適な通信方式が採用され得る。

　なお、図１において、クラウド３は、便宜上、２箇所に記載されているが、これらは互いに同一のクラウドであってもよいし、互いに別のクラウドであってもよい。他車両４についても同様である。本実施形態では、これらは同一であるとして、同じ符号を付して説明を続ける。車両１と通信を行う他車両４とは別の他車両には、別の符号を付すか、符号を付さないで区別する。

　ＥＣＵ４０は、機能ブロックとして、自車両情報理解部４１、他車両情報理解部４２、視点変換マップ生成部６０、統合認識部４８及び将来情報推測部４９を有している。またＥＣＵ４０は、メモリ装置４０ｃの一部を占有するメモリ領域により規定された学習値メモリ５１を有している。またＥＣＵ４０は、メモリ装置４０ｃの一部を占有するメモリ領域により規定された統合メモリ５２を有している。

　自車両情報理解部４１は、自律センサ部１５からの情報、車両１の走行情報、制御情報及び自己位置情報、すなわち自車両に関する情報を、入出力インターフェースを介して逐次取得し、これら情報を整理及び理解する。

　他車両情報理解部４２は、クラウド３からの情報及び他車両４からの情報、まとめていえば他車両４に関する情報を、入出力インターフェースを介して逐次取得し、これら情報を整理及び理解する。

　視点変換マップ生成部６０は、コンピュータを用いた演算装置として機能し、撮像部１０が所定の撮影視点ＰＶＰから撮影した図３に示すような外界の画像ＩＭが入力され、当該画像ＩＭを当該撮影視点ＰＶＰとは別の視点に変換した図４に示すような視点変換マップＭＢを出力する。画像ＩＭの入力は、撮像部１０からの画像データを取得する入出力インターフェース及び信号変換回路である画像取得部４０ａを介して行われる。

　具体的に、所定の撮影視点ＰＶＰとは、図５に示すように、撮像部１０の各カメラ１１が車両１に搭載されているので、車両１から当該車両１の外界へ向けた視点である。一方、変換後の別の視点とは、車両１から当該車両１の外界へ向けた視点とは異なった視点であり、例えば上空から車両１の外界を鳥瞰した視点が採用される。

　すなわち、撮影視点ＰＶＰに基づく第１座標系（以下、撮像座標系ＣＶという）の画像データが別の視点に基づく第２座標系（以下、鳥瞰座標系ＣＢ）の視点変換マップＭＢに変換された上、出力される。鳥瞰座標系ＣＢは、車両１の移動可能方向を含む２次元空間の座標系であり、特に本実施形態では車両１の縦中心面に垂直な仮想の面に沿った２次元空間の座標系として定義される。

　視点変換マップ生成部６０は、視点変換マップＭＢにおける領域を、その性質に基づいて区分し、区分された領域に当該性質に対応したラベルを付与する。ここでいう性質とは、物体の存在有無又は物体の存在可能性、さらに物体が存在している可能性が高い場合のその物体の種類を意味する。ラベルは、物体の種類に準じた記号、例えば歩行者（pedestrian）、他車両（car）、車道（road）、歩道（sidewalk）、電柱（pole）等である。このような領域の区分手法は、セマンティックセグメンテーション（Semantic Segmentation）と称される。この区分によって、物体が識別されることとなる。

　統合認識部４８は、図１に示すように、視点変換マップ生成部６０が生成した視点変換マップＭＢに加えて、自車両情報理解部４１が理解した情報及び他車両情報理解部４２が理解した情報、さらには撮像部１０が過去に撮影した画像ＩＭから得られた視点変換マップＭＢを統合して認識することにより、領域及び物体の識別精度を高める。

　具体的に、統合認識部４８は、自車両情報理解部４１が理解した情報を加味する。例えば、自律センサ部１５が、撮影視点ＰＶＰから物体の死角となる死角領域ＢＳの内部の一部を検出している場合、その検出された領域の物体の識別精度を高めることができる。そして、統合認識部４８は、この検出結果等の情報を視点変換マップＭＢに反映させることができる。

　統合認識部４８は、他車両情報理解部４２が理解した情報を加味する。例えば、他車両４に搭載された撮像部１０が、車両１の撮像部１０による死角領域ＢＳの内部の一部を認識している場合、その領域及び物体の識別精度を高めることができる。そして、統合認識部４８は、この他車両４からの情報を視点変換マップＭＢに反映させることができる。

　例えば図６に示すように、車両１の撮像部１０が当該車両１の前方を撮影した画像ＩＭから得られた視点変換マップＭＢと、当該車両１よりも前方に位置する他車両４の撮像部１０が当該他車両４の後方を撮影した画像から得られた視点変換マップＭＢとが、統合される。これにより、車両１と他車両４との間にさらに別の他車両４Ｘ及び電柱等の物体が存在していたとしても、死角領域ＢＳが狭められて、精度の高い識別結果を得ることができる。

　将来情報推測部４９は、統合認識部４８と連携して、将来の予測を行う。例えば、将来情報推測部４９は、現在の視点変換マップＭＢにおける死角領域ＢＳの内部にて歩行者の存在可能性が高い位置ＰＰと、当該歩行者の過去の移動速度及び移動方向から、当該歩行者が何時ごろ死角領域ＢＳの内部から死角領域ＢＳの外部へ現出するかを推測することができる。

　具体的に図７に示すように、車両１に対する前方の他車両４Ｙが、例えば赤信号等により停止しており、当該他車両４Ｙが死角領域ＢＳを形成している場合を考える。過去である時刻ｔ－ｎの領域データ（但しｎは１より大きい任意の数）と、過去である時刻ｔ－１の領域データにおいて、死角領域ＢＳの外部に識別されている歩行者の位置ＰＰから、歩行者の移動速度及び移動方向が割り出される。そして、現在である時刻ｔの画像ＩＭにおいて歩行者が認識されなかったとしても、割り出された移動速度及び移動方向に基づいて、死角領域ＢＳの内部に歩行者の存在可能性が高い位置が推測される。さらには、将来である時刻ｔ＋ｎに、歩行者が再び死角領域ＢＳの外部に現出することが推測される。

　こうして推測結果が付加された視点変換マップＭＢは、図１に示すように、統合メモリ５２に記憶され、蓄積される。

　また統合認識部４８は、歩行者等の存在可能性に基づいてＨＭＩ機器部２０の警報部２２による警報及び振動部２３による振動が必要であるか否かを判定する。

　統合メモリ５２に記憶された視点変換マップＭＢは、ＨＭＩ機器部２０、車両走行制御部３０、クラウド３及び他車両４へ向けて、通信を用いた電気信号として出力可能となっている。

　視点変換マップＭＢの出力先であるＨＭＩ機器部２０の情報提示部２１は、ＥＣＵ４０の統合メモリ５２から、情報の提示に必要なデータ、例えば最新の視点変換マップＭＢ等を取得する（図８のＳ１１参照）。情報提示部２１は、取得した視点変換マップＭＢを可視化した視覚的情報として、車両１の乗員へ向けて提示する。具体的に、図４に示されるような視点変換マップＭＢが視覚的情報として、コンビネーションメータの表示器、ヘッドアップディスプレイ及びカーナビゲーション用ディスプレイのうち例えば１つにより、画像として表示される（図８のＳ１２参照）。

　ＨＭＩ機器部２０の警報部２２は、警報が必要であると判定された場合に、ＥＣＵ４０の統合メモリ５２を介して、警報の内容を取得する。そして、警報部２２は、車両１の乗員に向けた警報を行う。具体的に、スピーカが発する音声による警報、又はブザーが発する警報音による警報が実施される。

　ＨＭＩ機器部２０の振動部２３は、振動が必要であると判定された場合に、ＥＣＵ４０の統合メモリ５２を介して、振動の内容を取得する。そして、振動部２３は、車両１の乗員が感知できるような形態で、振動を発生させる。振動部２３は、警報部２２による警報と連動していることが好ましい。

　視点変換マップＭＢの出力先である車両走行制御部３０の自動運転制御部３１は、ＥＣＵ４０の統合メモリ５２から、自動運転に必要なデータ、例えば最新の視点変換マップＭＢ等を取得する（図９のＳ２１参照）。自動運転制御部３１は、取得したデータを用いて、車両１の走行の制御を行う。

　ここで、視点変換マップＭＢには、車両１の外界を鳥瞰した視点に基づいた、車両１の移動可能方向を含む２次元空間の座標系が採用されているので、車両１が移動不可能な鉛直方向の情報は排除されている。その分、視点変換マップＭＢのデータ量の増大が抑制されていることとなる。故に、車両１の走行を制御することに適した２次元空間の情報を、遅延少なく自動運転制御部３１に提供でき、自動運転制御部３１での情報処理時間を低減できるため、高度な自動運転機能を実現することができる。

　自動運転制御部３１において、将来情報推測部４９の推測結果も加味されると、より自動運転機能の妥当性を高めることができる。

　以上説明した車両システム９において、視点変換マップ生成部６０による処理を、以下により詳細に説明する。

　視点変換マップ生成部６０は、より機能が細分化されたサブ機能ブロックとして、エンコーダ部６１、ワープ適用部６５、及びデコーダ部６６を有している。図１０に示すように、第１実施形態では、エンコーダ部６１及びデコーダ部６６によって、ひとかたまりとみなすことが可能なニューラルネットワーク（より詳細には畳み込みニューラルネットワーク）が構成されており、ワープ適用部６５によるワープ構造を含む視点変換マップ生成部６０全体として、当該ニューラルネットワークを主体とした人工知能アルゴリズムによる物体識別モデルが構成されている。物体識別モデルは、エンコーダ部６１、ワープ適用部６５、及びデコーダ部６６が以下に説明する機能を発揮するように、コンピュータを機能させる。

　エンコーダ部６１は、複数（例えば５つ）の特徴抽出ユニット６２ａ，６２ｂ，６２ｃ，６２ｄ，６２ｅを、入力側から出力側へ直列的に接続するように有している。各特徴抽出ユニット６２ａ～ｅは、畳み込み層（Convolutional Layer）６３ａ，６３ｂ，６３ｃ，６３ｄ，６３ｅと、当該各畳み込み層６３ａ～ｅの出力側に配置されたプーリング層（Pooling Layer）６４ａ，６４ｂ，６４ｃ，６４ｄ，６４ｅとを、互いに直列的に接続するように有している。なお、図１０では、プーリング層６４ａ～ｅを畳み込み層６３ａ～ｅと区別して図示するために、プーリング層６４ａ～ｅにドットのハッチングが付与されている。

　同じ特徴抽出ユニット６２ａ～ｅに属する各層６３ａ～ｅ，６４ａ～ｅでの幅及び高さ（すなわちマップの行列のサイズ）は、互いに実質同一となっている。一方、特徴抽出ユニット６２ａ～ｅが出力側に位置する程、サイズは、小さくなっている。

　最も入力側に位置する特徴抽出ユニット６２ａに属する各層６３ａ～ｅ，６４ａ～ｅでのサイズは、撮像部１０のカメラ１１の画素の配列数に対応しており、例えば画像取得部４０ａにより取得された画像ＩＭにおける各画素の検出結果（例えばピクセル値）からなるデータが、画素の配列を相対的に維持した行列状に入力可能となるように、設定されている。もちろん、画像取得部４０ａ等で画像ＩＭの解像度が低減されていれば、それに合わせてサイズを小さくすることは可能である。こうして最も入力側に位置する特徴抽出ユニット６２ａにおける畳み込み層６３ａ～ｅに、画像取得部４０ａによって取得された画像データが入力されることとなる。

　各畳み込み層６３ａ～ｅは、それぞれ入力されるデータに対して、各畳み込み層６３ａ～ｅ毎に定められた所定のサイズ（例えば３×３、５×５）を有する局所的なフィルタ（これをカーネル又は特徴抽出器という）を畳み込む演算を行う。例えば、カーネルの各要素に対応する位置に入力された入力値と、カーネルに予め設定された重み係数とを各要素毎に乗算し、これら要素毎の乗算値の線形和が算出される。この線形和に、カーネルに予め設定されたバイアスを加算することで、畳み込み演算が行なわれる。本実施形態では、重み係数と、バイアスとを総称して、ワープパラメータξと区別するために、カーネルのパラメータと呼ぶこととする。

　このような畳み込み演算の結果は、活性化関数で変換される。活性化関数としては、例えばＲｅＬＵ（Rectified Linear Unit）が採用され得る。

　畳み込み層６３ａ～ｅは、上述の畳み込み演算及び活性化関数による変換を複数回行うことで、図１０の図示のように、多層化することができる。例えば本実施形態では、畳み込み層６３ａ～ｅが２～３層に多層化されている。このようにして、エンコーダ部６１に入力された画像ＩＭから特徴マップを得ることができる。

　プーリング層６４ａ～ｅは、個別に対応し、入力側に接続された上位層である畳み込み層６３ａ～ｅから出力された特徴マップの局所の統計量を計算する。具体的に、上位層の位置に対応する所定のサイズ（例えば２×２、３×３）のウインドウを設定し、ウインドウ内の入力値から局所の統計量を算出する。局所の統計量としては、例えば最大値が採用され得る。すなわち、ウインドウ内の入力値の最大値をプーリングの結果として採用することで、ウインドウ内の入力値を統合することができる。

　このプーリング演算に設定されたウインドウは、畳み込み演算に設定されたカーネルとは異なり、互いに位置を重複させない場合が多い（ただし、一部重複させてもよい）。この結果、プーリング層６４ａ～ｄから出力される特徴マップのサイズは、ウインドウのサイズに応じて縮小される。これをダウンサンプリングと称する。

　プーリング層が最も出力側の特徴抽出ユニット６２ｅに属するプーリング層６４ｅでない場合、プーリング層６４ａ～ｄから出力される特徴マップは、次の特徴抽出ユニット６２ｂ～ｅの畳み込み層６３ｂ～ｅに入力される。プーリング層６４ａ～ｄにて特徴マップがダウンサンプリングされているため、次の特徴抽出ユニット６２ｂ～ｅのサイズは、ダウンサンプリング後の特徴マップが行列状に入力可能な、入力側より小さなサイズであればよいこととなる。

　プーリング層が最も出力側の特徴抽出ユニット６２ｅに属するプーリング層６４ｅである場合、プーリング層６４ｅから出力される特徴マップは、例えばそのままエンコーダ部６１から出力され、デコーダ部６６に入力される。

　このようにして、エンコーダ部６１は、ダウンサンプリングされた特徴マップを出力する。このダウンサンプリングにより、エンコーダ部６１は、特徴マップを圧縮（encode）しているといえる。ここで、エンコーダ部６１の各層６３ａ～ｅ，６４ａ～ｅは、画素の配列を相対的に維持した行列状に入力された画像データを、２次元空間の相対位置を崩さずに処理しているので、エンコーダ部６１は、撮像座標系ＣＶにおける外界の領域における物体の特徴を、特徴マップという形態にて抽出しているといえる。

　プーリング層が最も出力側の特徴抽出ユニット６２ｅに属するプーリング層６４ｅでない場合、プーリング層６４ａ～ｄから出力される特徴マップは、エンコーダ部６１から出力され、ワープ適用部６５に入力される。すなわち、エンコーダ部６１の中間層の特徴マップがワープ適用部６５へと出力される。本実施形態では、最も出力側のプーリング層６４ｅを除く４つの特徴抽出ユニット６２ａ～ｄのプーリング層６４ａ～ｄから、４つの特徴マップがワープ適用部６５へと出力される。

　ワープ適用部６５は、入力された特徴マップに、鳥瞰座標系ＣＢの位置が、撮像座標系ＣＶのどの位置に対応しているかを関係付けるワープ関数を適用し、ワープドコピー（Warped Copy）を生成する。具体的に、ワープ適用部６５は、以下の数１で表されるワープ関数に基づいて、ワープドコピーを生成する。

　数１において、ｉ，ｊは、変換後の特徴マップにおける行列のｉ行目ｊ列を表し、鳥瞰座標系ＣＢにおける位置を示している。ハット付のｉ，ハット付のｊは、変換前の特徴マップにおける行列のｉ行目ｊ列を表し、撮像座標系ＣＶにおける位置を示している。ｋは、位置（ｉ，ｊ）又は位置（ハット付のｉ，ハット付のｊ）に対応する特徴マップの成分に対応している。

　Ｆ_ｂ（ｉ，ｊ，ｋ）は、ワープドコピー、すなわち変換後の特徴マップである。ｗ（数１の下付き文字の記載は省略）は、変換前の特徴マップの位置に対応して予め設定された重みを表すパラメータである。ξ_ｖ，ξ_ｕ（以下、２つを纏めて単にξと記載する）は、撮像座標系ＣＶの位置（ハット付のｉ，ハット付のｊ）から鳥瞰座標系ＣＢの位置（ｉ，ｊ）へのワープを実施するための変数（以下、ワープパラメータ）である。

　すなわち、ワープドコピーは、ワープパラメータξによってワープされた特徴マップＦ_ｖを、パラメータｗによって補正することによって、生成される。すなわち、位置（ｉ，ｊ）は、当然に離散的な値（整数）であるから、ワープパラメータξによって返された値を整数にしなければ、変換前の行列の位置と変換後の行列の位置との対応関係が不明確となる。この対応関係を明確にするために、パラメータｗは、ワープパラメータξによって返された値を整数に補正するための係数として機能する。

　このようなワープドコピーは、最も出力側の特徴抽出ユニット６２ｅを除く各特徴抽出ユニット６２ａ～ｄのプーリング層６４ａ～ｄ毎に、生成され、ワープ適用部６５から出力され、デコーダ部６６へと入力される。

　なお、各特徴抽出ユニット６２ａ～ｄから出力された特徴マップは、互いにサイズが異なっているため、ワープ関数のワープパラメータξとしては、各特徴抽出ユニット６２ａ～ｄに個別に対応して、互いに異なるパラメータが用意される。しかしながら、ワープパラメータξの相違は、適用対象の特徴マップのサイズに起因する解像度の違いによるものであり、各ワープ関数は、互いに相似な機能を発揮する。

　本実施形態におけるワープとは、ワープパラメータξと呼ばれる奥行きに相当する変数を用いて、抽出した特徴を、撮像座標系ＣＶから鳥瞰座標系ＣＢへと変換することを意味する。分かり易く換言すると、鳥瞰座標系ＣＢの各位置でのピクセル値を、撮像座標系ＣＶのどのピクセル値から取得してくればよいのかを、ワープ関数が示していることとなる。

　ここで注意すべきは、ワープにおいて、撮像座標系ＣＶの全ての位置のピクセル値がワープドコピーを介してデコーダ部６６にコピーされないということである。例えば、エンコーダ部６１に入力される画像ＩＭにおいて、空が撮影されている画素が存在している場合、その画素は、鳥瞰座標系ＣＢの視点変換マップＭＢにおいては全く不要な情報であるから、コピーされない。逆に、鳥瞰座標系ＣＢの視点変換マップＭＢの奥行きを表現する上で、鳥瞰座標系ＣＢの複数の位置において、物体が撮影されている同じ画素（撮像座標系ＣＶの位置）が重複して選択される場合がある。すなわち、物体が撮影されている画像ＩＭ上の１つの位置から、鳥瞰座標系ＣＢの複数の位置に、コピーされることがある。

　なお、このワープパラメータξは、数１に開示されるように撮像座標系ＣＶの位置の関数であるが、エンコーダ部６１に入力される入力画像ＩＭの関数でもある。また、ワープパラメータξは、自律センサ部１５の自律センサの検出値又はこの検出値を補正した値を参照するように構成される場合には、加えて、自律センサの検出値（検出された物体の奥行き値）の関数となる。

　デコーダ部６６は、複数（例えば特徴抽出ユニット６２ａ～ｅと同数である５つ）の識別ユニット６７ｅ，６７ｄ，６７ｃ，６７ｂ，６７ａを、入力側から出力側へ直列的に接続するように有していると共に、最も出力側にソフトマックス層（Softmax Layer）７０を有している。各識別ユニット６７ｅ～ａは、逆プーリング層（Unpooling Layer）６８ｅ，６８ｄ，６８ｃ，６８ｂ，６８ａと、当該逆プーリング層６８ｅ～ａの出力側に配置された逆畳み込み層（Deconvolution Layer）６９ｅ，６９ｄ，６９ｃ，６９ｂ，６９ａとを、互いに直列的に接続するように有している。

　各識別ユニット６７ａ～ｅは、各特徴抽出ユニット６２ａ～ｅと対をなすように構成されている。最も入力側の特徴抽出ユニット６２ａから出力側に数えてｎ番目（但しｎは自然数）の特徴抽出ユニット６２ｂ～ｅと、最も出力側の識別ユニット６７ｅから入力側に数えてｎ番目の識別ユニット６７ｄ～ａとは、対をなし、１対１で個別に対応付けられている。

　このように、各逆プーリング層６８ａ～ｅは、特徴抽出ユニット６２ａ～ｅの各プーリング層６４ａ～ｅと、１対１で個別に対応付けられ、対応付けられた対は、実質同じサイズである。逆プーリング層６８ｅ～ａは、エンコーダ部６１にてダウンサンプリングされた特徴マップのサイズを再び拡大する。これをアップサンプリングと称し、逆プーリング層６８ｅ～ａをアップサンプリング層とも呼ぶこととする。

　最も入力側の識別ユニット６７ｅに属する逆プーリング層６８ｅには、特徴抽出ユニット６２ｅからの特徴マップがワープ処理されずに入力される。このとき、この上位層に位置するプーリング層６４ｅからの入力値は、逆プーリング層６８において、サイズの拡大に応じた隣接する範囲（例えばサイズを４倍にする場合２×２の範囲）を構成する複数の位置に、それぞれ入力される。したがって、本実施形態の逆プーリング層６８は、密なマップ（値が０の要素が少ないマップ）を構成する。

　最も入力側の識別ユニット６７ｅに属する逆プーリング層を除く逆プーリング層６８ｄ～ａには、入力側に接続されている逆畳み込み層６９ｅ～ｂからの入力値と、ワープドコピーとを、結合する（concatenate）ために、複数（例えば２つ）のチャンネルが設定されている。すなわち、逆プーリング層６８ｄ～ａの１つのチャンネルに、上位層からの入力値が格納される。逆プーリング層６８ｄ～ａの他の１つのチャンネルに、個別に対応したプーリング層６４ｄ～ａから出力された特徴マップを、ワープ処理したワープドコピーが格納される。

　逆畳み込み層６９ｅ～ａは、入力された特徴マップに対して、逆畳み込み（転置畳み込みともいう）演算を行う。逆畳み込み演算とは、入力された特徴マップが特定のカーネルを用いて畳み込み演算された結果であるという推定の下、畳み込み演算される前の特徴マップを復元する演算である。この演算では、例えば、特定のカーネルから生成された行列の転置行列と入力された特徴マップとの積を算出することで、出力用の特徴マップを生成することができる。

　逆畳み込み層６９ｅ～ａは、畳み込み層６３ａ～ｅと同様に、多層化することが可能であり、例えば本実施形態では、逆畳み込み層６９ｅ～ａが２～３層に多層化されている。

　エンコーダ部６１では、畳み込み層６３ａ～ｅの畳み込み演算を演算の主体としていることにより、撮像部１０により撮像された画像ＩＭにおいて、互いに近い画素の関係性が演算対象となっており、互いに離れた画素の関係性が十分に考慮されない。すなわち、鳥瞰座標系ＣＢにおいて互いに隣接する位置同士は、本来、強い関係性があるはずであるが、これが考慮されない。これに対して、逆畳み込み層６９ｅ～ａでは、ワープドコピーがコピー及び結合された逆プーリング層６８ｅ～ａを入力値として、逆畳み込み演算が行なわれることにより、鳥瞰座標系ＣＢでの考慮すべき関係性を結果に反映させることができる。

　デコーダ部６６において最も出力側の最終層には、ソフトマックス層７０が設けられている。ソフトマックス層７０は、入力側に接続された逆畳み込み層６９ａからの入力値に、ソフトマックス関数を適用することにより、各位置（画素）毎での、物体を識別するためのラベルの確率を出力する。つまり本実施形態における物体の識別とは、物体のラベルが一意的に決定されてなくてもよく、ラベルの確率が決定されているだけであってもよい。

　デコーダ部６６におけるアップサンプリングの過程で、撮像座標系ＣＶの特徴マップを鳥瞰座標系ＣＢにワープさせたワープドコピーが逆プーリング層６８ｄ～ａを介して逆畳み込み層６９ｄ～ａに作用するので、デコーダ部６６のソフトマックス層７０から最終的に出力される特徴マップは、鳥瞰座標系ＣＢの領域における物体が識別された視点変換マップＭＢとなっている。本実施形態において畳み込みニューラルネットワークを経て出力される視点変換マップＭＢは、上空から車両１の外界を鳥瞰した視点の平面的なマップである。アップサンプリングにより、デコーダ部６６は、特徴マップを復元（decode）しているといえる。

　サイズの異なる複数のワープドコピーが個別に対応する各逆プーリング層６８ｄ～ａに作用することにより、最終的に出力される視点変換マップＭＢにおいて、低周波の情報と、高周波の情報とが両方反映されることとなる。

　ここで、視点変換マップＭＢにて識別結果を出力するためには、視点変換マップ生成部６０が物体識別モデルとして学習されたものであることが好ましい。視点変換マップ生成部６０による畳み込みニューラルネットワークにて、カーネルのパラメータは、事前の機械学習によって設定され、学習値メモリ５１に非一時的に記憶されている。これと共に、ワープパラメータξも、事前の機械学習によって設定され、学習値メモリ５１に非一時的に記憶されている。

　本実施形態のワープ構造を含む物体識別モデルにおける機械学習では、当該物体識別モデル自体が非凸関数であるため、入力される画像ＩＭ及び出力される視点変換マップＭＢに教師を与えても、カーネルのパラメータと、ワープパラメータξとを、全て同時に学習させることは困難である。

　このため、本実施形態では、図１１のフローチャートにも示されているような、以下に説明する学習方法が採用されている。

　この方法では、まず、エンコーダ部６１に入力させる入力画像ＩＭのデータと、当該入力画像ＩＭのデータに対応した正解データである視点変換マップＭＢのデータとの組を、複数用意する（図１１のＳ３１参照）。このデータの組が教師となる。

　次に、用意した各組に対して、入力画像ＩＭ上に映り込んでいる物体の奥行き（撮像部１０から物体までの距離）を示す奥行きデータを、用意する（図１１のＳ３２参照）。この奥行きデータも、実質的に教師として使用される。なお、Ｓ３１とＳ３２とは、順序を入れ替えてもよい。

　この奥行きデータを参照して、ワープパラメータξのうち一部の変位量を、確定する（図１１のＳ３３参照）。すなわち、奥行きデータによって、入力画像ＩＭにおいて物体が映り込んでいる画素の位置と、視点変換マップＭＢにおいて、物体の車両１側を向く表層部の位置とが、対応していることを確定することができる。換言すると、視点変換マップＭＢの死角領域ＢＳの外部位置に対応するワープパラメータξの変位量を、確定することができる。

　ここでいう変位量の確定とは、ワープパラメータξ（ハット付のｉ，ハット付のｊ）を変数から定数に固定するものであるが、ワープパラメータξが自律センサの検出値の関数になっている場合には、この検出値を変数から定数に固定するものであってもよい。

　そして、ワープパラメータξのうち一部の変位量が、確定された状態で、入力画像ＩＭをこの物体識別モデルに入力した場合に、当該入力画像ＩＭと組をなし、正解データとして存在する視点変換マップＭＢのデータに、より近いデータが、物体識別モデルから出力されるように、カーネルのパラメータと、ワープパラメータξのうち非確定状態の他部とを、同時に学習させる（図１１のＳ３４参照）。

　具体的に、入力画像ＩＭをこの物体識別モデルに入力し、当該物体識別モデルから出力されたデータと、正解データとの差分を算出する。この差分としては、例えば、確率分布間の差異を計る尺度であるＫＬ情報量（KL divergence）を用いることができる。この各組に対して算出されたＫＬ情報量の和を取ってコスト（目的関数）とし、例えば勾配降下法等を用いて、このコストを最小にするようなカーネルのパラメータと、ワープパラメータξのうち非確定状態の他部と、探索して算出する。

　このコスト計算において、ワープパラメータξのうち死角領域ＢＳの外部位置に対応する一部の変位量が、確定されているので、カーネルのパラメータとワープパラメータξの関数であるコストにおいて、局所的最小解の数を低減することができる。この結果、カーネルのパラメータ及びワープパラメータξより最適な値に収束させることができるので、物体識別モデルの汎化性能を高めることができる。

　このワープパラメータξの機械学習が意味するところは、鳥瞰座標系ＣＢの視点変換マップＭＢにおける死角領域ＢＳの各位置のラベルを、撮像座標系ＣＶの入力画像ＩＭのどの画素に対応させるかという問題を解くことである。この問題を学習することによって、この物体識別モデルは、撮像部１０により撮影された画像上の物体の死角となる死角領域ＢＳを、推測することが可能となる。詳細に、物体識別モデルは、物体の裏側の奥行き及び形状を推測することによって、鳥瞰座標系ＣＢの視点変換マップＭＢにおける死角領域ＢＳを、物体の存在可能性が高い領域（すなわち、物体の奥行き分に相当する領域）と、物体が存在しない可能性が高い領域（すなわち、物体の裏側の空間）とを区別することが可能となるのである。

　より詳細に、上述の探索においては、死角領域ＢＳに対応する視点変換マップＭＢ上の位置が、入力画像ＩＭ上のどの位置に対応しているかを、探索することとなる。具体的に、死角領域ＢＳに対応する視点変換マップＭＢ上の位置（ｉ，ｊ）について、ランダムな初期値に基づいて位置（ハット付のｉ，ハット付のｊ）を指定する。そして、位置（ハット付のｉ，ハット付のｊ）が位置（ｉ，ｊ）にワープされるようなワープパラメータξのときのコストを算出していき、コストがより小さくなるような位置（ハット付のｉ，ハット付のｊ）に位置を少しずつ変更しながら、コストを最小にするようなワープパラメータξが探索される。

　機械学習は、例えば図１２，１３に示す学習装置８０によって実施することができる。また、学習装置８０により実施されるフローチャートが図１４に示されている。

　学習装置８０は、図１２に示すように、いわゆるコンピュータであり、少なくとも１つのプロセッサ８１、メモリ装置８２、入出力インターフェースを含む電子回路を主体として構成されている。プロセッサ８１は、メモリ装置８２に記憶されているコンピュータプログラムを実行する演算回路である。メモリ装置８２は、例えば半導体メモリによって提供され、プロセッサ８１によって読み取り可能なコンピュータプログラム及びデータを非一時的に格納するための非遷移的実体的記憶媒体である。プロセッサ８１は、上述の物体識別モデル８３の演算処理を実行可能に構成されている。

　学習装置８０は、図１３に示すように、物体識別モデル８３の演算処理を実行するプロセッサ８１又は他の追加のプロセッサを用いて構築される機能ブロックとして、教師データ設定部８４及び学習部８５を有している。

　教師データ設定部８４は、教師とするための上述のデータの組を、設定する（図１４のＳ４１参照）。この設定とは、例えば学習装置８０を操作する操作者が入力したデータの組を、学習部８５が学習に用いることが可能な形態に変換することであってもよい。またこの設定とは、学習装置８０が車両１等の外部装置又はクラウド３等と通信可能に接続されている場合には、教師データ設定部８４がこれらの外部装置又はクラウド３から、データの組を収集し、学習部８５が学習に用いることが可能な形態に変換することであってもよい。

　学習部８５は、入力画像ＩＭをこの物体識別モデル８３に入力した場合に、当該入力画像ＩＭと組をなし、正解データとして存在する視点変換マップＭＢのデータに、より近いデータが、物体識別モデル８３から出力されるように、カーネルのパラメータ及びワープパラメータξを学習する（図１４のＳ４２参照）。学習手順の詳細は、上述の学習方法の説明にてした通りである。

　こうして学習したカーネルのパラメータ及びワープパラメータξは、メモリ装置８２に記憶される（図１４のＳ４３参照）。このメモリ装置８２に記憶されたカーネルのパラメータ及びワープパラメータξは、入出力インターフェース等を介して学習装置８０の外部に取り出すことができる。

　以上説明した第１実施形態の作用効果を以下に説明する。

　第１実施形態のＥＣＵ４０又は車両システム９によると、撮像部１０が撮影した画像ＩＭが畳み込みニューラルネットワークを経て、当該画像ＩＭを撮影視点ＰＶＰとは別の視点に基づく視点変換マップＭＢが出力される。視点変換マップＭＢを参照することで、車両１に搭載された撮像部１０の撮影視点ＰＶＰにとらわれずに物体を識別することができるので、識別された物体の位置の把握は、容易なものとなる。

　このような視点変換マップＭＢの生成において、画像データに畳み込み演算を適用して得られた撮影視点ＰＶＰに基づく撮像座標系ＣＶの特徴マップに、別の視点に基づく鳥瞰座標系ＣＢの位置が、撮像座標系ＣＶのどの位置に対応しているかを関係づけるワープ関数を適用する。ワープ関数の適用によって、撮像座標系ＣＶでの局所的な関係性を演算する畳み込み演算を、補完するように、鳥瞰座標系ＣＢの領域での物体の識別を行うことができるので、ニューラルネットワーク構造が深くなり過ぎることを抑制しつつ、物体の識別における汎化性能を向上させることができる。以上により、車両１の外界の物体をより適切に把握可能とすることができる。

　第１実施形態によると、別の視点に基づく鳥瞰座標系ＣＢは、車両１の移動可能方向を含む２次元空間の座標系である。このように、車両１の移動可能方向を含む２次元空間の鳥瞰座標系ＣＢの視点変換マップＭＢが出力されることにより、３次元空間よりも情報量を削減して迅速な物体識別を可能とすると共に、車両１の移動（走行）において障害物となり得る物体を適切に把握可能となる。故に、車両１の円滑な移動を支援することができる。

　第１実施形態によると、メモリ装置４０ｃが畳み込みニューラルネットワークのカーネルに用いるカーネルのパラメータと、ワープ関数のワープパラメータξと、を記憶し、プロセッサ４０ｂがカーネルのパラメータを用いた畳み込み演算と、ワープパラメータを用いたワープ関数の適用演算と、を処理する。故に、カーネルのパラメータ及びワープパラメータξを、畳み込み演算及びワープ関数の適用演算に、適切かつ迅速に活用することができるため、車両１の外界の物体を識別するＥＣＵ４０を、容易に実現することができる。

　第１実施形態によると、視点変換マップ生成部６０にて、ワープ関数を、エンコーダ部６１により抽出された特徴マップに適用するワープ適用部６５と、ワープ関数が適用されたワープドコピーを畳み込みニューラルネットワークに結合し、鳥瞰座標系ＣＢの領域における物体が識別された視点変換マップＭＢを出力するデコーダ部６６と、が設けられている。ワープドコピーが畳み込みニューラルネットワークに結合されて、さらに演算されることで、鳥瞰座標系ＣＢでの互いに隣接する位置同士の関係性が十分に考慮された視点変換マップＭＢを生成可能となる。故に、視点変換マップＭＢが出力する識別結果の精度を高めることができる。

　第１実施形態によると、逆プーリング層６８ａ～ｅによるアップサンプリングの過程で、入力側に接続された逆畳み込み層６９ａ～ｅからの出力結果と、ワープドコピーとが結合される。このような結合データに基づいて、また逆畳み込み演算が順次適用されていくので、デコーダ部６６にて徐々に解像度を高めながら、鳥瞰座標系ＣＢでの互いに隣接する位置同士の関係性が十分に考慮された視点変換マップＭＢを出力可能となる。故に、視点変換マップＭＢが出力する識別結果の精度を高めることができる。

　第１実施形態によると、学習値が保存された学習値メモリ５１から、カーネルパラメータを読み込んで、エンコーダ部６１とデコーダ部６６とからなる畳み込みニューラルネットワークが構成される。そして、学習値メモリ５１からワープパラメータξを読み込んで、デコーダ部６６の複数の識別ユニット６７ａ～ｅに対応する複数のワープ関数が作成される。特徴マップへの複数のワープ関数の適用においては、局所的な関係性を考慮して演算が適用される畳み込みニューラルネットワークを補完するように、デコーダ部６６の識別ユニット６７ａ～ｅに対して、別の視点に基づいた局所的な関係性を考慮させるように、ワープ関数が作用する。この結果、デコーダ部６６での識別過程での別の視点に基づいた局所的な関係性が十分に反映された視点変換マップＭＢを出力することができる。

　第１実施形態によると、画像表示部としての情報提示部２１によって、視点変換マップＭＢを可視化した画像が表示される。このような視点変換マップＭＢは、２次元情報としての物体の距離関係を理解し易いので、可視化された画像の視認者は、車両１の外界の物体をより適切に把握可能となる。

　第１実施形態によると、移動制御部としての車両走行制御部３０によって、視点変換マップＭＢを用いた車両１の走行の制御が実施される。この態様では、車両走行制御部３０が２次元情報としての物体の距離関係を迅速に理解及び処理可能となるので、リアルタイムかつ高度な車両１の走行の制御を実現することができる。

　第１実施形態の物体識別方法によると、画像データに畳み込み演算を適用して得られた撮影視点ＰＶＰに基づく撮像座標系ＣＶの特徴マップに、別の視点に基づく鳥瞰座標系ＣＢの位置が、撮像座標系ＣＶのどの位置に対応しているかを関係づけるワープ関数を適用する。ワープ関数の適用によって、撮像座標系ＣＶでの局所的な関係性を演算する畳み込み演算を、補完するように、鳥瞰座標系ＣＢの領域での物体の識別を行うことができるので、ニューラルネットワーク構造が深くなり過ぎることを抑制しつつ、物体の識別における汎化性能を向上させることができる。したがって、ワープ関数が適用された特徴マップに基づいて得られたマップであって、撮影視点ＰＶＰから別の視点において物体が識別された視点変換マップＭＢは、より信頼性の高いものとなる。

　第１実施形態の物体識別モデル８３の学習方法によると、ワープ後の座標系ＣＢの位置が、ワープ前の座標系ＣＶのどの位置に対応しているかを関係付けるためのワープパラメータξを学習させるので、物体識別モデルにおいて出力されるマップＭＢを、ワープ前の座標系ＣＶから、別の座標系ＣＢへと、円滑に変換することができる。視点変換マップＭＢを参照することで、撮影画像ＩＭの撮影視点ＰＶＰにとらわれずに物体を識別することができる。故に、物体をより適切に把握可能な物体識別モデルを実現することができる。

　第１実施形態の学習方法によると、カーネルのパラメータと、ワープパラメータξとを、共通のデータの組を用いて学習させるので、学習のための工数を低減することができる。また、視点変換モデルにおいて、畳み込みニューラルネットワークとワープ構造とがより一体的に機能し、汎化性能の高い学習モデルとして物体識別モデルを構築可能となる。故に、物体をより適切に把握可能な物体識別モデルを実現することができる。

　第１実施形態の学習方法によると、学習時に、ワープパラメータξのうち一部の変位量であって、入力画像ＩＭ上の物体の死角となる死角領域ＢＳ外の位置に対応する変位量を、確定した状態で、カーネルのパラメータと、ワープパラメータξのうち非確定状態の他部とを、同時に学習させる。このようにワープパラメータξのうち一部の変位量を確定させると、学習に用いるコストにおいて、局所的最小解の数を低減させることができるので、カーネルのパラメータと、ワープパラメータξをより最適な値に収束させて、物体識別モデルの汎化性能を高めることができる。

　第１実施形態の学習方法によると、学習時に、死角領域ＢＳに対応する出力マップ上の位置が、入力画像ＩＭ上のどの位置に対応しているかを、探索する。このような探索によって、ワープ関数における両位置の関係付けがより適切なものとなるので、体識別モデルの汎化性能を高めることができる。

　第１実施形態の物体識別モデル８３の学習装置８０によると、物体識別モデル８３を学習させるにあたり、畳み込みニューラルネットワークと、畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造とを構成する物体識別モデル８３の演算処理を実行可能に構成された演算回路としてのプロセッサ８１を設け、このプロセッサ８１を利用するようにした。ここで、撮影画像ＩＭを当該物体識別モデル８３に入力した場合に、正解データにより近いデータを出力するように、カーネルのパラメータとワープパラメータを学習し、学習後にメモリ装置８２に記憶可能とした。したがって、ワープ構造を含む物体識別モデル８３の学習を、円滑に行うことができるので、より汎化性能の高い学習モデルとして物体識別モデル８３を構築可能となる。以上により、物体をより適切に把握可能な物体識別モデル８３を実現することは、容易に可能となる。

　なお、第１実施形態では、エンコーダ部６１が「特徴抽出処理部」に相当し、ワープ適用部６５及びデコーダ部６６が「出力処理部」に相当する。また、デコーダ部６６が「識別処理部」に相当する。

　（第２実施形態）
　図１５～１７に示すように、第２実施形態は第１実施形態の変形例である。第２実施形態について、第１実施形態とは異なる点を中心に説明する。

　第２実施形態の視点変換マップ生成部２６０は、図１５，１６に示すように、エンコーダ部２６１、デコーダ部２６６、及びワープ変換部２７１を有している。

　エンコーダ部２６１は、第１実施形態と同様に、複数（例えば５つ）の特徴抽出ユニット６２ａ～ｅを、入力側から出力側へ直列的に接続するように有している。各特徴抽出ユニット６２ａ～ｅは、畳み込み層６３ａ～ｅと、当該畳み込み層６３ａ～ｅの出力側に配置されたプーリング層６４ａ～ｅとを、互いに直列的に接続するように有している。

　デコーダ部２６６は、第１実施形態と同様に、複数（例えば特徴抽出ユニット６２ａ～ｅと同数である５つ）の識別ユニット６７ａ～ｅを、入力側から出力側へ直列的に接続するように有していると共に、最も出力側にソフトマックス層７０を有している。各識別ユニット６７ａ～ｅは、逆プーリング層６８ａ～ｅと、当該逆プーリング層６８ａ～ｅの出力側に配置された逆畳み込み層６９ａ～ｅとを、互いに直列的に接続するように有している。

　エンコーダ部２６１及びデコーダ部２６６の各層におけるカーネルのパラメータは、ワープ構造が異なるので、第１実施形態と同じ値である必要はない。

　第１実施形態とは異なり、各プーリング層６４ａ～ｄから出力される特徴マップは、ワープ処理されずに、単なるコピーによって、各プーリング層６４ａ～ｄに個別に対応する逆プーリング層６８ｄ～ａに入力される。この単なるコピーは、逆プーリング層６８ｄ～ａにおいて、入力側に隣接する逆畳み込み層６９ｅ～ｂからの入力値と、結合される。

　そして、第２実施形態のデコーダ部２６６のソフトマックス層７０から最終的に出力される特徴マップは、セマンティックセグメンテーションによって物体が識別されているものの、撮像座標系ＣＶに基づいた、すなわち視点変換されていない視点無変換マップＭＶとなっている。

　ワープ変換部２７１は、デコーダ部２６６から出力された視点無変換マップＭＶを、鳥瞰座標系ＣＢの位置が、撮像座標系ＣＶのどの位置に対応しているかを関係づけるワープ関数によって変換する。このワープ関数は、第１実施形態の数１と同様であるが、ワープパラメータξは、第１実施形態と異なるものであってもよい。

　この変換によって、ワープ変換部２７１は、最終的に出力される特徴マップとして、鳥瞰座標系ＣＢの領域における物体が識別された視点変換マップＭＢを生成して出力することができる。

　第２実施形態の視点変換マップ生成部２６０による物体識別モデルの学習方法においても、第１実施形態と同様の方法を採用し、第１実施形態と同様の学習装置８０によって学習することが可能である。また、図１７のフローチャートに示すように、先にエンコーダ部２６１及びデコーダ部２６６を主体としている構成されている畳み込みニューラルネットワークのカーネルのパラメータの学習を実施し、その後、ワープ関数のワープパラメータξを学習する学習方法を採用することも可能である。

　まず、畳み込みニューラルネットワークのカーネルのパラメータを学習させる。詳細に、エンコーダ部２６１に入力させる入力画像ＩＭのデータと、当該入力画像ＩＭのデータに対応した正解データである上述の視点無変換マップＭＶのデータとの組を、複数用意する（図１７のＳ５１参照）。このデータの組が、畳み込みニューラルネットワークに対する教師となる。

　そして、入力画像ＩＭをこの畳み込みニューラルネットワークに入力した場合に、当該入力画像ＩＭと組をなし、正解データとして存在する視点無変換マップＭＶのデータに、より近いデータが、畳み込みニューラルネットワークから出力されるように、カーネルのパラメータを、学習させる（図１７のＳ５２参照）。具体的に、入力画像ＩＭをこの畳み込みニューラルネットワークに入力し、当該畳み込みニューラルネットワークから出力されたデータと、正解データとの差分を算出してコストを最小化するカーネルのパラメータを求める。これにより、物体識別モデルのうち畳み込みニューラルネットワークの部分の学習を完了する。

　次に、ワープパラメータξを学習させる。詳細に、ワープ処理前の視点無変換マップＭＶのデータと、当該視点無変換マップＭＶに対応する正解データである視点変換マップＭＢのデータとの組を、複数用意する（図１７のＳ５３参照）。

　そして、視点無変換マップＭＶをワープ変換部２７１に入力した場合に、当該入力画像ＩＭと組をなし、正解データとして存在する視点変換マップＭＢのデータに、より近いデータが、ワープ変換部２７１から出力されるように、ワープパラメータξを学習させる（図１７のＳ５４参照）。具体的に、視点無変換マップＭＶをこのワープ変換部２７１に入力し、当該ワープ変換部２７１から出力されたデータと、正解データとの差分を算出してコストを最小化するワープパラメータξを求める。これにより、物体識別モデルのうちワープ構造の部分の学習を完了する。

　以上説明した第２実施形態によると、エンコーダ部２６１及びデコーダ部２６６は、撮像座標系ＣＶの領域における物体が識別された視点無変換マップＭＶを出力し、ワープ変換部２７１は、ワープ関数を、視点無変換マップＭＶに適用して、鳥瞰座標系ＣＢの領域における物体が識別された視点変換マップＭＢとして出力させる。このようにすると、エンコーダ部２６１及びデコーダ部２６６により構成される部分と、ワープ変換部２７１により構成される部分とを、別々に学習又はメンテナンスすることが容易となる。故に、ＥＣＵ４０の物体識別装置としての実現及び利用が容易なものとなる。

　なお、第２実施形態では、エンコーダ部２６１及びデコーダ部２６６が便宜上「特徴抽出処理部」に相当し、ワープ変換部２７１が「出力処理部」に相当する。

　（他の実施形態）
　以上、複数の実施形態について説明したが、本開示は、それらの実施形態に限定して解釈されるものではなく、本開示の要旨を逸脱しない範囲内において種々の実施形態及び組み合わせに適用することができる。

　具体的に、変形例１としては、ＥＣＵ４０、車両走行制御部３０及び学習装置８０等がハードウエアである電子回路によって提供される場合、それは多数の論理回路を含むデジタル回路、又はアナログ回路によって提供することができる。

　変形例２としては、メモリ装置４０ｃ，８２は、複数の記憶媒体を組み合わせて構成されていてもよい。

　変形例３としては、車両走行制御部３０又はＨＭＩ機器部２０が有する少なくとも一部の機能は、ＥＣＵ４０により実現されていてもよい。この例として、ＥＣＵ４０と車両走行制御部３０が１つの装置に統合されていてもよい。逆に、ＥＣＵ４０が有する一部の機能が、車両走行制御部３０又はＨＭＩ機器部２０により実現されていてもよい。

　変形例４としては、車両システム９に、ＨＭＩ機器部２０が含まれていなくてもよい。この例として、視点変換マップ生成部６０が生成した視点変換マップＭＢを、専ら自動運転制御部３１による車両１の走行の制御に利用するようにしてもよい。

　変形例５としては、車両システム９に、車両走行制御部３０が含まれていなくてもよい。この例として、視点変換マップ生成部６０が生成した視点変換マップＭＢを、専らＨＭＩ機器部２０による視覚的情報の提供、警報及び振動のうち少なくとも１つに利用するようにしてもよい。

　変形例６としては、ＥＣＵ４０は、クラウド３及び他車両４のうち少なくとも１つと情報のやりとりをしないものであってもよい。

　第１実施形態に関する変形例７としては、エンコーダ部６１の最も出力側のプーリング層６４ｅから、デコーダ部６６の最も入力側の逆プーリング層６８ｅへの特徴マップの受け渡しの際に、当該特徴マップにワープ関数を適用するようにしてもよい。

　第１実施形態に関する変形例８としては、プーリング層６４ａ～ｄではなく、畳み込み層６３ａ～ｅが出力する特徴マップがワープ適用部６５に出力されて、そのワープドコピーがデコーダ部６６へ入力されるようにしてもよい。

　第２実施形態に関する変形例９としては、エンコーダ部２６１及びデコーダ部２６６を主体として構成されている畳み込みニューラルネットワークの構造として、種々の構造が採用され得る。この例として、全層畳み込みニューラルネットワークを採用することができる。

　変形例１０としては、ＥＣＵ４０は、車両１に搭載された撮像部１０と通信可能に接続されていれば、車両１に搭載されていなくてもよい。

　変形例１１としては、撮影視点ＰＶＰとは別の視点に基づく、車両１の移動可能方向を含む２次元空間の鳥瞰座標系ＣＢとして、縦中心面に垂直な仮想の面に沿う座標系、すなわち車両１を基準とした座標系でなく、重力方向に垂直な水平面に沿う座標系、すなわち地球を基準とした座標系が採用されてもよい。

　変形例１２としては、物体識別装置は、車両以外の、船舶、飛行機等の各種移動体に適用することができる。物体識別装置が飛行機に適用された場合には、撮影視点ＰＶＰとは別の視点に基づく、移動体の移動可能方向を含む２次元空間の座標系として、重力方向を含む面に沿った座標系が採用されてもよい。このような座標系を採用した視点変換マップを用いると、重力方向の物体の位置を識別することができるので、飛行機の運航高度をより的確に設定することが可能となる。また、物体識別装置は、無人の搬送車、ドローン等の無人の移動体に適用することもできる。

　車両システム９は、移動体用システムの一例に相当する。ＥＣＵ４０は、物体識別装置の一例に相当する。視点変換マップ生成部６０，２６０は、演算装置の一例に相当する。特徴抽出ユニット６２ａ～ｅは、特徴量抽出ユニットの一例に相当する。プロセッサ８１は、演算回路の一例に相当する。鳥瞰座標系ＣＢは、第２座標系の一例に相当する。撮像座標系ＣＶは、第１座標系の一例に相当する。

　本開示に記載の制御及びその手法は、コンピュータプログラムにより具体化された１つ乃至は複数の機能を実行するようにプログラムされたプロセッサを構成する専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の装置及びその手法は、専用ハードウエア論理回路により、実現されてもよい。もしくは、本開示に記載の装置及びその手法は、コンピュータプログラムを実行するプロセッサと１つ以上のハードウエア論理回路との組み合わせにより構成された１つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。

　ここで本願に記載されるフローチャート、あるいは、フローチャートの処理は、複数のステップ（あるいはセクションと言及される）から構成され、各ステップは、たとえば、Ｓ１１と表現される。さらに、各ステップは、複数のサブステップに分割されることができる、一方、複数のステップが合わさって一つのステップにすることも可能である。

　以上、本開示の一態様に係る物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置の実施形態、構成、態様を例示したが、本開示に係る実施形態、構成、態様は、上述した各実施形態、各構成、各態様に限定されるものではない。例えば、異なる実施形態、構成、態様にそれぞれ開示された技術的部を適宜組み合わせて得られる実施形態、構成、態様についても本開示に係る実施形態、構成、態様の範囲に含まれる。

Claims

　移動体（１）に搭載された撮像部（１０）と通信可能に接続され、前記移動体の外界の物体を識別する物体識別装置であって、
　前記撮像部が所定の撮影視点（ＰＶＰ）から撮影した前記外界の画像（ＩＭ）を取得する画像取得部（４０ａ）と、
　畳み込みニューラルネットワークを構成し、前記画像取得部が取得した前記画像のデータが前記畳み込みニューラルネットワークに入力され、前記畳み込みニューラルネットワークを経て、前記画像を前記撮影視点とは別の視点に変換した視点変換マップ（ＭＢ）を出力する視点変換マップ生成部（６０，２６０）と、を備え、
　前記視点変換マップ生成部は、
　前記画像のデータに、前記畳み込みニューラルネットワークの畳み込み演算を適用し、前記撮影視点に基づく第１座標系（ＣＶ）における前記物体の特徴マップを抽出する特徴抽出処理部（６１，２６１，２６６）と、
　前記別の視点に基づく第２座標系（ＣＢ）の位置が、前記第１座標系のどの位置に対応しているかを関係付けるワープ関数を、前記特徴抽出処理部により抽出された前記特徴マップに適用し、前記第２座標系の領域における前記物体が識別された前記視点変換マップを出力する出力処理部（６５，６６，２７１）と、を有する物体識別装置。
　前記第２座標系は、前記移動体の移動可能方向を含む２次元空間の座標系である請求項１に記載の物体識別装置。
　前記畳み込みニューラルネットワークのカーネルに用いるカーネルのパラメータと、前記ワープ関数のワープパラメータと、を記憶しているメモリ装置（４０ｃ）と、
　前記カーネルのパラメータを用いた前記畳み込み演算と、前記ワープパラメータを用いた前記ワープ関数の適用演算と、を処理する演算回路（４０ｂ）とを、さらに備える請求項１又は２に記載の物体識別装置。
　前記出力処理部は、
　前記ワープ関数を、前記特徴抽出処理部により抽出された前記特徴マップに適用するワープ適用部（６５）と、
　前記ワープ関数が適用された前記特徴マップを前記畳み込みニューラルネットワークに結合し、前記第２座標系の領域における前記物体が識別された前記視点変換マップを出力する識別処理部（６６）と、を有する請求項１から３のいずれか１項に記載の物体識別装置。
　前記特徴抽出処理部は、前記畳み込み演算を行う畳み込み層（６３ａ～ｅ）と、前記畳み込み層からの出力結果をプーリングを用いてダウンサンプリングするプーリング層（６４ａ～ｅ）とを有する複数の特徴抽出ユニット（６２ａ～ｅ）を、直列的に接続し、
　前記識別処理部は、アップサンプリングするアップサンプリング層（６８ａ～ｅ）と、前記アップサンプリング層からの出力結果に対して逆畳み込み演算を適用する逆畳み込み層（６９ａ～ｅ）とを有する複数の識別ユニット（６７ａ～ｅ）を、直列的に接続し、
　前記ワープ関数が適用された前記特徴マップは、前記アップサンプリング層に入力され、
　前記アップサンプリング層は、入力側に接続された前記逆畳み込み層からの出力結果と、前記ワープ関数が適用された前記特徴マップとを、結合して出力する請求項４に記載の物体識別装置。
　前記特徴抽出処理部は、前記第１座標系の領域における前記物体が識別された前記特徴マップを出力し、
　前記出力処理部は、前記ワープ関数を、前記第１座標系の領域における前記物体が識別された前記特徴マップに適用して、前記視点変換マップとして出力させる請求項１から３のいずれか１項に記載の物体識別装置。
　移動体（１）に用いられる移動体用システムであって、
　前記移動体に搭載され、所定の撮影視点（ＰＶＰ）から前記移動体の外界を撮影して画像（ＩＭ）を生成する撮像部（１０）と、
　前記撮像部と通信可能に接続され、前記移動体の外界の物体を識別する物体識別装置（４０）と、を具備し、
　前記物体識別装置は、畳み込みニューラルネットワークを構成し、前記画像のデータが前記畳み込みニューラルネットワークに入力され、前記畳み込みニューラルネットワークを経て、前記画像を前記撮影視点とは別の視点に変換した視点変換マップ（ＭＢ）を出力する視点変換マップ生成部（６０）を、備え、
　前記視点変換マップ生成部は、
　前記画像のデータに、前記畳み込みニューラルネットワークの畳み込み演算を適用し、前記撮影視点に基づく第１座標系（ＣＶ）における前記物体の特徴マップを抽出する特徴抽出処理部（６１，２６１，２６６）と、
　前記別の視点に基づく第２座標系（ＣＢ）の位置が、前記第１座標系のどの位置に対応しているかを関係付けるワープ関数を、前記特徴抽出処理部により抽出された前記特徴マップに適用し、前記第２座標系の領域における前記物体が識別された前記視点変換マップを出力する出力処理部（６５，６６，２７１）と、を有する移動体用システム。
　前記視点変換マップを可視化した画像を表示する画像表示部（２１）をさらに具備する請求項７に記載の移動体用システム。
　前記視点変換マップを用いて、前記移動体の移動を制御する移動制御部（３０）をさらに具備する請求項７又は８に記載の移動体用システム。
　撮影視点（ＰＶＰ）から物体が撮影された撮影画像（ＩＭ）のデータを畳み込みニューラルネットワークに入力し、前記撮影画像のデータに畳み込み演算を適用して、前記撮影視点に基づく第１座標系（ＣＶ）における特徴マップを抽出することと、
　前記撮影視点とは別の視点に基づく第２座標系（ＣＢ）の位置が、前記第１座標系のどの位置に対応しているかを関連付けるワープ関数を、前記特徴マップに適用することと、
　前記ワープ関数が適用された前記特徴マップに基づいて、前記撮影画像のデータが前記撮影視点から前記別の視点に変換されていると共に、前記物体が識別された視点変換マップ（ＭＢ）を得ることと、を含む物体識別方法。
　畳み込みニューラルネットワークと、前記畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造と、を構成する物体識別モデルにおいて、前記別の座標系（ＣＢ）の位置が、前記ワープ前の座標系（ＣＶ）のどの位置に対応しているかを関係付けるためのワープパラメータを前記ワープ構造に用意することと、
　前記物体識別モデルに物体が撮影された撮影画像（ＩＭ）を入力すると、前記別の座標系において前記物体が識別された視点変換マップ（ＭＢ）が出力されるように、前記ワープパラメータを学習させることと、を含む物体識別モデルの学習方法。
　前記学習させることの前に、前記物体が撮影された前記撮影画像のデータと、前記撮影画像のデータに対応した正解データである前記別の座標系において前記物体が識別された前記視点変換マップのデータとの組を、用意することを、さらに含み、
　前記学習させることにおいては、前記撮影画像のデータを前記物体識別モデルに入力した場合に、前記正解データにより近いデータを出力するように、前記畳み込みニューラルネットワークに用いるカーネルのパラメータと、前記ワープパラメータとを、同時に学習させる請求項１１に記載の物体識別モデルの学習方法。
　前記撮影画像上の前記物体の奥行きを示す奥行きデータを、用意することと、
　前記学習させることの前に、前記ワープパラメータのうち一部の変位量であって、前記撮影画像上の前記物体の死角となる死角領域（ＢＳ）外の位置に対応する前記変位量を、前記奥行きデータを参照して確定することと、をさらに含み、
　前記学習させることにおいて、前記一部の変位量を確定した状態で、前記畳み込みニューラルネットワークに用いるカーネルのパラメータと、前記ワープパラメータのうち非確定状態の他部とを、同時に学習させる請求項１１又は１２に記載の物体識別モデルの学習方法。
　前記学習させることにおいて、前記死角領域に対応する前記視点変換マップ上の位置が、前記撮影画像上のどの位置に対応しているかを、探索する請求項１３に記載の物体識別モデルの学習方法。
　物体識別モデル（８３）を学習する学習装置であって、
　畳み込みニューラルネットワークと、前記畳み込みニューラルネットワークにて抽出された特徴マップを別の座標系にワープするワープ構造と、を構成する前記物体識別モデルの演算処理を実行可能に構成された演算回路（８１）と、
　撮影視点（ＰＶＰ）から物体が撮影された撮影画像（ＩＭ）のデータと、正解データである前記撮影視点とは別の視点に基づく座標系（ＣＢ）において前記物体が識別された出力マップ（ＭＢ）とを、設定する教師データ設定部（８４）と、
　前記撮影画像を前記物体識別モデルに入力した場合に、前記正解データにより近いデータを出力するように、前記畳み込みニューラルネットワークのカーネルに用いるカーネルのパラメータ及び前記ワープ構造に用いるワープパラメータを学習する学習部（８５）と、
　前記学習部が学習した前記カーネルのパラメータ及び前記ワープパラメータを、記憶するためのメモリ装置（８２）と、を備える物体識別モデルの学習装置。
　移動体（１）に搭載されたカメラ（１１）と通信可能に接続され、前記移動体の外界の物体を識別する物体識別装置であって、
　前記カメラと接続され、前記カメラが撮影した前記外界の画像（ＩＭ）を取得する画像取得部（４０ａ）と、
　学習値が保存された学習値メモリ（５１）と、
　前記学習値メモリからカーネルパラメータを読み込んで、複数の特徴量抽出ユニット（６２ａ～ｅ）を備えるエンコーダ部（６１）と、複数の識別ユニット（６７ａ～ｅ）を備えるデコーダ部（６６）とからなる畳み込みニューラルネットワークを構成し、前記エンコーダ部によって、前記画像取得部が取得した前記画像のデータから前記物体の特徴量の特徴マップを抽出し、前記学習値メモリからワープパラメータを読み込んで、前記複数の識別ユニットに対応する複数のワープ関数を作成し、前記特徴マップに前記複数のワープ関数を適用してそれぞれ対応する前記識別ユニットに読み込ませることにより、前記デコーダ部によって前記カメラが撮影した視点とは別の視点に変換した視点変換マップ（ＭＢ）を生成する演算装置（６０）と、を有する物体識別装置。