WO2023021755A1

WO2023021755A1 - 情報処理装置、情報処理システム、モデル及びモデルの生成方法

Info

Publication number: WO2023021755A1
Application number: PCT/JP2022/010155
Authority: WO
Inventors: 圭大石
Original assignee: ソニーグループ株式会社
Priority date: 2021-08-20
Filing date: 2022-03-09
Publication date: 2023-02-23
Also published as: CN117836818A; JPWO2023021755A1

Abstract

複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器（３７０）を備え、前記学習器には、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理装置を提供する。

Description

情報処理装置、情報処理システム、モデル及びモデルの生成方法

　本開示は、情報処理装置、情報処理システム、モデル及びモデルの生成方法に関する。

　近い将来、自動運転技術を利用した移動体（例えば、自動走行車）や高度な知的ロボットが日常的に使用されると考えられ、当該移動体やロボットには、周囲の環境を撮像する複数のセンサが搭載されることが想定される。このような背景から、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の１つとして、これら複数のセンサの情報を正確に、且つ、容易に位置合わせするための技術がさらに求められている。

Ｄａｎｉｅｌ　ＤｅＴｏｎｅ、Ｔｏｍａｓｚ　Ｍａｌｉｓｉｅｗｉｃｚ、Ａｎｄｒｅｗ　Ｒａｂｉｎｏｖｉｃｈ、ＳｕｐｅｒＰｏｉｎｔ：Ｓｅｌｆ－Ｓｕｐｅｒｖｉｓｅｄ　Ｉｎｔｅｒｅｓｔ　Ｐｏｉｎｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｄｅｓｃｒｉｐｔｉｏｎ、Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）Ｗｏｒｋｓｈｏｐｓ、２０１８、ｐｐ．２２４－２３６

　しかしながら、複数のセンサの情報を正確に、且つ、容易に位置合わせするための従来技術においては、同一の種のセンサから得られる画像間での特徴点マッチングを行うことを前提にしている。従って、従来技術では、種類が異なるセンサから得られる画像間での特徴点マッチングを精度よく行うことが難しかった。

　そこで、本開示では、種類の異なるセンサから得られる画像間での特徴点マッチングを精度よく行うことができる、情報処理装置、情報処理システム、モデル及びモデルの生成方法を提案する。

　本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、前記学習器には、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理装置が提供される。

　また、本開示によれば、第１の撮像部と、第２の撮像部と、情報処理装置と、を含み、前記情報処理装置は、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、前記学習器には、前記第１の撮像部から取得された第１の画像、及び、前記第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理システムが提供される。

　また、本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得らえる、モデルが提供される。

　さらに、本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、モデルの生成方法が提供される。

本開示の実施形態に係る情報処理システム１０の構成例を説明する説明図である。本開示の実施形態に係る情報処理装置３００の構成の一例を示すブロック図（その１）である。本開示の実施形態に係る情報処理方法の一例を説明するフローチャート（その１）である。本開示の実施形態に係る情報処理方法の一例を説明するフローチャート（その２）である。本開示の実施形態を創作するに至る背景を説明する説明図である。本開示の実施形態に係る情報処理方法の一例を説明するフローチャート（その３）である。本開示の実施形態に係る入力データの一例を説明する説明図である。本開示の実施形態に係る情報処理装置３００の構成の一例を示すブロック図（その２）である。本開示の実施形態に係るマスクの生成の一例を説明する説明図である。本開示の実施形態に係る情報処理装置３００の構成の一例を示すブロック図（その３）である。本開示の実施形態に係る正解ラベルの生成の一例を説明する説明図（その１）である。本開示の実施形態に係る正解ラベルの生成の一例を説明する説明図（その２）である。本開示の実施形態に係る情報処理装置３００の構成の一例を示すブロック図（その４）である。本開示の実施形態に係る学習部３７０の構成の一例を示すブロック図である。本開示の実施形態に係る学習の一例を説明する説明図（その１）である。本開示の実施形態に係る学習の一例を説明する説明図（その２）である。情報処理装置３００の機能を実現するコンピュータの一例を示すハードウェア構成図である。車両制御システムの構成例を示すブロック図である。センシング領域の例を示す図である。

　以下に、添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。また、本明細書及び図面において、実質的に同一又は類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、実質的に同一又は類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、以下の説明においては、特徴点とは、画像内の被写体の中心点、分岐点、交差点及び輪郭上の端点等、被写体の形状等の特徴が示されている個所及びその座標情報のことをいう。さらに、特徴量とは、上記特徴点の特徴を数値化して示すことができる、例えば、特徴点の、形状、向き及び広がり等の情報のことをいう。

　なお、説明は以下の順序で行うものとする。
１．　本開示の実施形態を創作するに至る背景
　　　１．１　情報処理システムの概要
　　　１．２　情報処理装置の詳細構成
　　　１．３　情報処理方法
　　　１．４　背景
２．　実施形態
　　　２．１　情報処理方法
　　　２．２　入力データの生成
　　　２．３　正解ラベルの生成
　　　２．４　学習
３．　まとめ
４．　ハードウェア構成について
５．　応用例
６．　補足

　＜＜１．　本開示の実施形態を創作するに至る背景＞＞
　まずは、本開示の実施形態を説明する前に、本発明者が本開示の実施形態を創作するに至る背景について説明する。

　先に説明したように、近い将来、自動運転技術を利用した移動体（例えば、自動走行車）や高度な知的ロボットが日常的に使用されると考えられ、当該移動体やロボットには、周囲の環境を撮像する複数のセンサが搭載されることが想定される。このような背景から、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の１つとして、これら複数の異なる種類のセンサを正確に、且つ、容易に位置合わせするための技術がさらに求められている。まずは、このような技術が用いられることとなる情報処理システムの概要を説明する。

　＜１．１　情報処理システムの概要＞
　まずは、本開示の実施形態に係る情報処理システム１０の概略について、図１を参照して説明する。図１は、本実施形態に係る情報処理システム１０の構成例を説明する説明図である。

　図１に示すように、本実施形態に係る情報処理システム１０は、ＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）（第１の撮像部）１００と、カメラ（第２の撮像部）と、情報処理装置３００とを含み、これらは互いにネットワークを介して通信可能に接続される。詳細には、当該ネットワークで用いられる通信方式は、有線又は無線（例えば、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等）を問わず任意の方式を適用することができるが、安定した動作を維持することができる通信方式を用いることが望ましい。なお、ＬｉＤＡＲ１００と、カメラと、情報処理装置３００とは、図示しない基地局等（例えば、携帯電話機の基地局、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）のアクセスポイント等）を介してネットワークに接続されてもよい。以下、本実施形態に係る情報処理システム１０に含まれる各装置の概要について順次説明する。

　（ＬｉＤＡＲ１００）
　ＬｉＤＡＲ１００は、レーザー光を、走査しながら被写体に照射してその散乱や反射光を観測することで、被写体までの距離(相対座標)を計測したり、被写体の形状を特定したりすることができる。本明細書においては、ＬｉＤＡＲ１００で取得した反射光による画像を、反射強度画像（第１の画像）と呼ぶ。なお、本開示の実施形態においては、ＬｉＤＡＲ１００の代わりに、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサ（図示省略）を用いてもよい。ＴｏＦセンサも、パルス光を被写体に照射して、当該被写体によって反射された光の戻り時間等を観測することで、被写体までの距離を計測したり、被写体の形状を特定したりすることができる。

　（カメラ２００）
　カメラ２００は、被写体からの放射光に基づく、被写体の画像を取得するために、被写体からの放射光を検出し、画像信号を出力することができるイメージセンサである。詳細には、カメラ２００は、ＲＧＢイメージセンサからなり、具体的には、可視光である、青色光、緑色光、赤色光をそれぞれ検出することができる複数の画素がＢａｙｅｒ配列に従って配列するカラー撮影可能なイメージセンサである。本明細書においては、カメラ２００で取得した可視光による画像を、可視光画像（第２の画像）と呼ぶ。なお、本実施形態においては、ＲＧＢイメージセンサの代わりに、単色（モノクローム）のイメージセンサを用いてもよい。

　（情報処理装置３００）
　情報処理装置３００は、例えば、コンピュータ等により構成される。情報処理装置３００は、例えば、ＬｉＤＡＲ１００やカメラ２００で取得した画像を処理したり、当該処理により得られた画像等を他のデバイスに出力したりする。また、情報処理装置３００は、ＬｉＤＡＲ１００やカメラ２００の位置合わせ（キャリブレーション）を行ったりすることができる。なお、情報処理装置３００の詳細については後述する。

　なお、本実施形態においては、情報処理装置３００は、複数の装置から構成されていてもよく、特に限定されるものではない。

　なお、図１においては、本実施形態に係る情報処理システム１０は、１つのＬｉＤＡＲ１００及びカメラ２００を含むものとして示されているが、本実施形態においてはこれに限定されるものではない。例えば、本実施形態に係る情報処理システム１０は、複数のＬｉＤＡＲ１００及びカメラ２００を含んでもよい。さらに、本実施形態に係る情報処理システム１０は、例えば、特定の波長の光を観測して画像を生成する他のイメージセンサを含んでもよく、特に限定されるものではない。

　＜１．２　情報処理装置の詳細構成＞
　次に、本実施形態に係る情報処理装置３００の詳細構成について、図２を参照して説明する。図２は、本実施形態に係る情報処理装置３００の構成の一例を示すブロック図である。ここでは、情報処理装置３００の、ＬｉＤＡＲ１００やカメラ２００の位置合わせを行う機能を中心に説明する。先に説明したように、情報処理装置３００は、例えばコンピュータ等により構成される。詳細には、図２に示すように、情報処理装置３００は、反射強度画像取得部３０２と、可視光画像取得部３０４と、反射強度画像処理部３０６と、可視光画像処理部３０８と、特徴点取得部３１０と、位置情報取得部３１２と、キャリブレーション部３１４とを主に有する。以下に、情報処理装置３００の各機能部の詳細について順次説明する。

　（反射強度画像取得部３０２）
　反射強度画像取得部３０２は、ＬｉＤＡＲ１００からの反射強度画像のデータを取得し、後述する反射強度画像処理部３０６へ出力する。

　（可視光画像取得部３０４）
　可視光画像取得部３０４は、カメラ２００からの可視光画像のデータを取得し、後述する可視光画像処理部３０８へ出力する。

　（反射強度画像処理部３０６）
　反射強度画像処理部３０６は、反射強度画像取得部３０２からの反射強度画像データから、所定の位置（視点）、所定のサイズ、且つ、所定の視野角（ＦＯＶ）となるように画像を切り取り、入力データとなる反射強度画像を生成する。さらに、反射強度画像処理部３０６は、生成した反射強度画像を後述する特徴点取得部３１０へ出力する。この際、反射強度画像処理部３０６は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整（ガンマ調整）を行ってもよい。

　（可視光画像処理部３０８）
　可視光画像処理部３０８は、可視光画像取得部３０４からの可視光画像データから、所定の位置（視点）、所定のサイズ、且つ、所定の視野角（ＦＯＶ）となるように画像を切り取り、入力データとなる可視光画像を生成する。さらに、可視光画像処理部３０８は、生成した可視光画像を後述する特徴点取得部３１０へ出力する。この際、可視光画像処理部３０８は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整（ガンマ調整）を行ってもよい。

　（特徴点取得部３１０）
　特徴点取得部３１０は、後述する本実施形態に係るモデルを用いて、複数の画像における特徴点及び特徴量を取得し、取得した特徴点及び特徴量に基づき、複数の画像間に共通する前特徴点のマッチングを行うことができる。例えば、以下に説明する本実施形態においては、特徴点取得部３１０は、反射強度画像と可視光画像との間で特徴点のマッチングを行うこともでき、さらには、複数の反射強度画像間、又は、複数の可視光画像間でも特徴点のマッチングを行うことができる。ただし、ここでは、ＬｉＤＡＲ１００とカメラ２００とを位置合わせする場合での使用について説明しているため、可視光画像と反射強度画像との間に共通する特徴点のマッチングについてのみ説明する。そして、特徴点取得部３１０は、マッチングされた特徴点（画像内の座標情報等）の情報を、後述するキャリブレーション部３１４に出力する。例えば、本実施形態におけるマッチングにおいては、各特徴点の特徴量として、ノルムを算出し、複数の画像間で互いに距離が最小となる特徴点をマッチングする。なお、本実施形態に係るモデルの生成の詳細については、後述する。

　（位置情報取得部３１２）
　位置情報取得部３１２は、ＬｉＤＡＲ１００によって検出された、照射した光が被写体によって反射され戻ってくる時間に基づき、被写体までの距離や被写体の相対位置座標を取得し、取得した距離等を後述するキャリブレーション部３１４に出力することができる。なお、本実施形態においては、上記距離等の算出は、ＬｉＤＡＲ１００で行われてもよい。

　（キャリブレーション部３１４）
　キャリブレーション部３１４は、ＬｉＤＡＲ１００とカメラ２００との間の空間的差異（位置関係）及び光学的な差異をキャリブレーション（補正）することができる。例えば、キャリブレーション部３１４は、ＬｉＤＡＲ１００とカメラ２００とが配置された位置の間の差（視差、被写体までの距離）や、ＬｉＤＡＲ１００とカメラ２００との、画角の違いやレンズ収差に基づいて、ＬｉＤＡＲ１００とカメラ２００とから出力される画像における位置情報の差分（ずれ）をなくすように、ＬｉＤＡＲ１００とカメラ２００との外部パラメータ（位置パラメータ）、及び／又は、内部パラメータ（光学的パラメータ）を補正する。この際、キャリブレーション部３１４は、上述した特徴点取得部３１０でマッチングされた特徴点の、上述した位置情報取得部３１２による位置情報（グローバル座標系又は相対座標系での座標情報）を用いて、補正を行うことができる。

　なお、本実施形態においては、情報処理装置３００の構成は、図２に示されるものに限定されるものではなく、例えば、図示しない機能ブロック等がさらに含まれていてもよい。

　＜１．３　情報処理方法＞
　次に、図３及び図４を参照して、本開示の実施形態に係る情報処理方法について説明する。ここでは、情報処理装置３００によって実行される、ＬｉＤＡＲ１００やカメラ２００の位置合わせを行う処理について説明する。図３及び図４は、本実施形態に係る情報処理方法の一例を説明するフローチャートである。

　詳細には、図３に示すように、本実施形態に係る情報処理方法は、ステップＳ１００からステップＳ４００までの複数のステップを主に含むことができる。以下に、本実施形態に係るこれら各ステップの詳細について順次説明する。

　まずは、情報処理装置３００は、カメラ２００から１つ又は複数の可視光画像を収集する（ステップＳ１００）。次に、情報処理装置３００は、ＬｉＤＡＲから１つ又は複数の反射強度画像を収集する（ステップＳ２００）。

　そして、情報処理装置３００は、上述したステップＳ１００及びステップＳ２００で収集した可視光画像及び反射強度画像における特徴点及び特徴量を取得し、取得した特徴点及び特徴量に基づき、可視光画像と反射強度画像との間に共通する特徴点のマッチングを行う（ステップＳ３００）。さらに、情報処理装置３００は、ＬｉＤＡＲ１００とカメラ２００との間の空間的差異（位置関係）及び光学的な差異をキャリブレーション（補正）する（ステップＳ４００）。この際、情報処理装置３００は、マッチングされた特徴点の位置情報（グローバル座標系又は相対座標系での座標情報）を用いて、補正することができる。

　さらに、詳細には、図３のステップＳ３００は、図４に示すステップＳ３０１からステップＳ３０３までの複数のステップを主に含むことができる。以下に、これら各ステップの詳細について順次説明する。

　まずは、情報処理装置３００は、後述する本実施形態に係るモデルを用いて、ステップＳ１００で収集した可視光画像から、特徴点及び特徴量を取得する（ステップＳ３０１）。次に、情報処理装置３００は、上記モデルを用いて、ステップＳ２００で収集した反射強度画像から、特徴点及び特徴量を取得する（ステップＳ３０２）。

　情報処理装置３００は、上述したステップＳ３０１及びステップＳ３０２で取得した特徴点及び特徴量に基づき、反射強度画像と可視光画像との間で特徴点のマッチングを行う（ステップＳ３０３）。例えば、情報処理装置３００は、各特徴点の特徴量として、ノルムを算出し、画像間で互いに距離が最小となる特徴点を共通する特徴点としてマッチングする。

　なお、図３及び図４に示すフローは、本実施形態に係る情報処理の一例であり、本実施形態に係る情報処理は、これに限定されるものではない。

　＜１．４　背景＞
　次に、図５を参照して、本発明者が本開示の実施形態を創作するに至る背景について説明する。図５は、本実施形態を創作するに至る背景を説明する説明図である。

　先に説明したように、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の１つとして、これら複数のセンサを正確に、且つ、容易に位置合わせするための技術がさらに求められている。このような技術として、ＬｉＤＡＲ１００とカメラ２００とで取得された画像間で特徴点マッチングを行うことが挙げられる。

　例えば、Ｓｃａｌｅ-Ｉｎｖａｒｉａｎｔ　Ｆｅａｔｕｒｅ　Ｔｒａｎｓｆｏｒｍ（ＳＩＦＴ）は、特徴点検出及び特徴量記述のアルゴリズムの１つあり、Ｌａｐｌａｃｉａｎ　ｏｆ　Ｇａｕｓｓｉａｎ（ＬｏＧ）を近似したＤｉｆｆｅｒｅｎｃｅｓ　ｏｆ　Ｇａｕｓｓｉａｎ（ＤｏＧ）を用いて畳み込んだ平滑化画像の差分から特徴点を検出し、その周辺の画素情報から得られる１２８次元の勾配ベクトルを特徴量として記述する。ＳＩＦＴでは、検出した特徴点に対して、画像の回転・スケール変化・照明変化等に対してロバストに特徴量を記述することができるため、イメージモザイク等の画像のマッチングや物体認識・検出に用いることができる。しかしながら、ＳＩＦＴは、人間が考えるルールベースのアルゴリズムからなるハンドクラフト的な手法であり、煩雑である。

　「Ｓｕｐｅｒｐｏｉｎｔ：Ｓｅｌｆ-ｓｕｐｅｒｖｉｓｅｄ　ｉｎｔｅｒｅｓｔ　ｐｏｉｎｔ　ｄｅｔｅｃｔｉｏｎ　ａｎｄ　ｄｅｓｃｒｉｐｔｉｏｎ」は、特徴点検出及び特徴量記述を行う、機械学習を利利用したアルゴリズムの１つである。Ｓｕｐｅｒｐｏｉｎｔにおいては、ある画像に対し、そのままの画像とランダムな射影を加えた画像とからなるペアを入力データとしてディープニューラルネットワーク（ＤＮＮ）に入力する。そして、Ｓｕｐｅｒｐｏｉｎｔでは、特徴点に関しては正解ラベル（教師データ）によって学習し、特徴量に関してはペアの画像間において位置が対応する画素間で似たベクトルが算出されるように学習を行うことで、複数の画像間の共通する特徴点をマッチングするアルゴリズム（モデル）を生成することができる。

　こうした従来技術は、同一の種類のセンサから得られる画像間での特徴点マッチングを行うことを前提にしており、拡大・縮小、回転などの射影に対してはロバストな特徴を持つ。しかしながら、従来技術は、ＬｉＤＡＲ１００とカメラ２００といった異なるセンサ（異なるドメイン）から得られる画像間での特徴点マッチングでは、図５に示されるように、反射強度画像４００と可視光画像５００とでマッチングする特徴点（図中丸で示される）が精度よく検出できなかったり、反射強度画像４００と可視光画像５００との間で共通する特徴点をマッチングできなかったりと、その精度が落ちる。

　そこで、本発明者は、このような状況を鑑みて、以下に説明する本開示の実施形態を創作するに至った。本発明者が創作した本開示の実施形態においては、異なる種類のセンサから得られた複数の画像（具体的には、反射強度画像と可視光画像と）に共通する特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル（アルゴリズム）を、ディープニューラルネットワーク（ＤＮＮ）により生成する。その際、ＤＮＮは、大量の反射強度画像及び可視光画像だけでなく、これら画像を射影した画像を、入力データとして用いて機械学習する。このような本開示の実施形態によれば、異なる種類のセンサから得られた画像であっても、精度よく、且つ、容易に、特徴点のマッチングを可能にするモデル（アルゴリズム）を得ることができる。以下、本発明者が創作した本開示の実施形態の詳細を説明する。

　＜＜２．　実施形態＞＞
　＜２．１　情報処理方法＞
　まずは、異なるセンサから得られた反射強度画像４００と可視光画像５００とから特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル（アルゴリズム）を生成する、大まかな処理の流れを説明する。なお、ここでは、上述した情報処理装置３００がモデルを生成するものとして説明するが、本実施形態においては、情報処理装置３００とは異なる情報処理装置（図示省略）で行われてもよく、特に限定されるものではない。

　図６を参照して、本開示の実施形態に係る情報処理方法であって、モデルを生成するための処理方法について説明する。図６は、本実施形態に係る情報処理方法の一例を説明するフローチャートである。詳細には、図６に示すように、本実施形態に係る情報処理方法は、ステップＳ５００からステップＳ９００までの複数のステップを主に含むことができる。以下に、本実施形態に係るこれら各ステップの詳細について順次説明する。

　まずは、情報処理装置３００は、カメラ２００から１つ又は複数の可視光画像５００を収集する（ステップＳ５００）。次に、情報処理装置３００は、ＬｉＤＡＲから１つ又は複数の反射強度画像４００を収集する（ステップＳ６００）。

　そして、情報処理装置３００は、上述したステップＳ５００及びステップＳ６００で収集した、同一視点の可視光画像５００と反射強度画像４００とを用いて、入力データとなるペアを生成する（ステップＳ７００）。

　次に、情報処理装置３００は、可視光画像５００と反射強度画像４００とで共通する正解ラベル（教師データ）を生成する（ステップＳ８００）。

　さらに、情報処理装置３００は、可視光画像５００と反射強度画像４００とをランダムに射影させながら機械学習を行う（ステップＳ９００）。

　以下、ステップＳ７００からステップＳ９００の、入力データの生成、正解ラベルの生成、学習の各ステップの詳細について、順次説明する。

　＜２．２　入力データの生成＞
　図７を参照して、本実施形態の入力データの生成の詳細について説明する。図７は、本実施形態に係る入力データの一例を説明する説明図である。本実施形態においては、先に説明したように、ステップＳ７００にて、入力データとなる反射強度画像４０４と可視光画像５０４とのペアを生成する。この際、本実施形態においては、図７に示すように、ＬｉＤＡＲ１００とカメラ２００とから、広域の画像である反射強度パノラマ画像（第１の広域画像）４０２と可視光パノラマ画像（第２の広域画像）５０２とを使用する。

　詳細には、情報処理装置３００は、これら反射強度パノラマ画像４０２及び可視光パノラマ画像５０２のそれぞれから、同一位置（同一視点）、同一サイズ、且つ、同一視野角（ＦＯＶ）となるように画像を切り取る。この際、情報処理装置３００は、画像中の光学的な歪み等を補正してもよい。このようにすることで、情報処理装置３００は、反射強度画像４０４と可視光画像５０４とのペアからなる入力データ７０４を生成することができる。本実施形態によれば、パノラマ画像から切り取ることで、入力データを生成することにより、ずれの少ない反射強度画像４０４と可視光画像５０４とのペアを大量に、且つ、容易に生成することができる。

　反射強度パノラマ画像４０２及び可視光パノラマ画像５０２中に、動く被写体によるノイズ（図中では、車両の像）や、反射強度パノラマ画像４０２と可視光パノラマ画像５０２との取得時間差による整合性が欠如している個所であるノイズ等が存在することがある。そこで、本実施形態においては、このようなノイズを機械学習の対象にしないようにするために、反射強度パノラマ画像４０２及び可視光パノラマ画像５０２のノイズ部分を覆うマスクを含むマスク画像６０２を生成する。そして、本実施形態においては、生成したマスク画像６０２から、同一位置（同一視点）、同一サイズ、且つ、同一視野角（ＦＯＶ）となるように画像を切り取ることにより、入力データ７０４に含まれる反射強度画像４０４及び可視光画像５０４と対となる、マスク画像６０４を生成する。本実施形態によれば、このようなマスクを用いて、整合性の欠如した個所を機械学習の対象から外すことにより、機械学習の精度や効率をより向上させることができる。

　次に、本実施形態に係る情報処理装置３００の詳細構成について、図８及び図９を参照して説明する。図８は、本実施形態に係る情報処理装置３００の構成の一例を示すブロック図であり、図９は、本実施形態に係るマスクの生成の一例を説明する説明図である。ここでは、情報処理装置３００の、モデルの生成のうち、入力データの生成段階に関わる機能を中心に説明する。詳細には、図８に示すように、情報処理装置３００は、反射強度画像取得部３２２と、可視光画像取得部３２４と、反射強度画像処理部（画像処理部）３２６と、可視光画像処理部（画像処理部）３２８と、マスク生成部（マスク部）３３０と、入力データ生成部３３２とを主に有する。以下に、情報処理装置３００の各機能部の詳細について順次説明する。

　（反射強度画像取得部３２２）
　反射強度画像取得部３２２は、ＬｉＤＡＲ１００からの反射強度パノラマ画像（第１の広域画像）４０２のデータを取得し、後述する反射強度画像処理部３２６及びマスク生成部３３０へ出力する。

　（可視光画像取得部３２４）
　可視光画像取得部３２４は、カメラ２００からの可視光パノラマ画像（第２の広域画像）５０２のデータを取得し、後述する可視光画像処理部３２８及びマスク生成部３３０へ出力する。

　（反射強度画像処理部３２６）
　反射強度画像処理部３２６は、反射強度画像取得部３２２からの反射強度パノラマ画像４０２から、所定の位置（視点）、所定のサイズ、且つ、所定の視野角（ＦＯＶ）となるように画像を切り取り、入力データ７０４となる反射強度画像４０４を生成する。さらに、反射強度画像処理部３２６は、生成した反射強度画像４０４を後述する入力データ生成部３３２へ出力する。また、反射強度画像処理部３２６は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整（ガンマ調整）を行ってもよい。

　（可視光画像処理部３２８）
　可視光画像処理部３２８は、可視光画像取得部３２４からの可視光パノラマ画像５０２から、所定の位置（視点）、所定のサイズ、且つ、所定の視野角（ＦＯＶ）となるように画像を切り取り、入力データ７０４となる可視光画像５０４を生成する。さらに、可視光画像処理部３２８は、生成した可視光画像５０４を後述する入力データ生成部３３２へ出力する。また、可視光画像処理部３２８は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整（ガンマ調整）を行ってもよい。

　（マスク生成部３３０）
　本実施形態においては、上記マスク画像６０２の生成は、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＣＮＮ）によって、自動的に行う。このようにすることで、本実施形態によれば、容易に、且つ、大量に、マスク画像６０２、６０４を生成し、ひいては入力データ７０４を生成することができる。詳細には、マスク生成部３３０は、図９に示すように、ＣＮＮ等からなり、位置合わせされた（アライメントが調整された）反射強度パノラマ画像４０２及び可視光パノラマ画像５０２を入力データとして、マスク画像６０２を生成する。さらに、マスク生成部３３０は、生成したマスク画像６０２から、所定の位置（視点）、所定のサイズ、且つ、所定の視野角（ＦＯＶ）となるように画像を切り取り、入力データ７０４となるマスク画像６０４を生成し、後述する入力データ生成部３３２へ出力する。例えば、ＣＮＮ３３０は、例えば、被写体を１つのＢＯＸの塊と捉え、当該ＢＯＸの中心点の位置座標とその画像特徴量とで被写体を表現し、被写体認識を行うような「Ｏｂｊｅｃｔｓ　ａｓ　Ｐｏｉｎｔｓ」等の被写体検出アルゴリズムを使用することで、マスク画像６０２を生成することができる。このように、本実施形態においては、整合性の欠如した個所を機械学習の対象から外すためのマスクを自動的に生成することができる。

　（入力データ生成部３３２）
　入力データ生成部３３２は、上述した反射強度画像処理部３２６、可視光画像処理部３２８及びマスク生成部３３０から出力された、同一位置（同一視点）、同一サイズ、且つ、同一視野角（ＦＯＶ）の反射強度画像４０４、可視光画像５０４及びマスク画像６０４を１つのグループ（ペア）の入力データ７０４として、後述する機能部（詳細には、図１０及び図１３に示される反射強度画像取得部３４２、３６２及び可視光画像取得部３４４、３６４）へ出力する。なお、本実施形態においては、反射強度画像４０４及び可視光画像５０４に、ノイズが存在しない場合には、マスク画像６０４は、入力データのグループに含まれていなくてもよい。

　なお、本実施形態においては、情報処理装置３００の、モデルの生成のうち、入力データ７０４の生成段階に関わる機能のブロックについては、図８に示されるような構成に限定されるものではない。

　＜２．３　正解ラベルの生成＞
　次に、本実施形態の正解ラベル（教師データ）の生成の詳細について説明する。１つの画像には、特徴点が数１０個から数１００個存在する。従って、機械学習のための正解ラベルを生成する際には、正解ラベルとなる特徴点を手動で１つずつ検出することは現実的ではない。そこで、本実施形態においては、ＤＮＮ等を用いて自動的に正解ラベルを生成する。

　まずは、本実施形態に係る情報処理装置３００の詳細構成について、図１０を参照して説明する。図１０は、本実施形態に係る情報処理装置３００の構成の一例を示すブロック図である。ここでは、情報処理装置３００の、モデルの生成のうち、正解ラベル（教師データ）の生成段階に関わる機能を中心に説明する。詳細には、図１０に示すように、情報処理装置３００は、反射強度画像取得部３４２と、可視光画像取得部３４４と、反射強度画像射影部３４６と、可視光画像射影部３４８と、正解ラベル生成部（教師データ生成部）３５０とを主に有する。以下に、情報処理装置３００の各機能部の詳細について順次説明する。

　（反射強度画像取得部３４２）
　反射強度画像取得部３４２は、図８の入力データ生成部３３２から、反射強度画像４０４とマスク画像６０４とを取得し、後述する反射強度画像射影部３４６へ出力する。なお、本実施形態においては、反射強度画像取得部３４２は、反射強度画像４０４にノイズが存在しない場合には、マスク画像６０４を取得及び出力しなくてもよい。

　（可視光画像取得部３４４）
　可視光画像取得部３４４は、図８の入力データ生成部３３２から、可視光画像５０４とマスク画像６０４とを取得し、後述する可視光画像射影部３５８へ出力する。なお、本実施形態においては、可視光画像取得部３４４は、可視光画像５０４にノイズが存在しない場合には、マスク画像６０４を取得及び出力しなくてもよい。

　（反射強度画像射影部３４６）
　反射強度画像射影部３４６は、取得した反射強度画像４０４（必要に応じてマスク画像６０４）を、ランダムに回転させたり、左右、上下、斜めに視点ずらしたりすることで、射影を行う。例えば、反射強度画像射影部３４６は、ランダムに与えるホモグラフィ行列Ｈによって射影を行うことができる。そして、反射強度画像射影部３４６は、射影によって得らえた射影反射強度画像（第１の射影画像）を、反射強度画像４０４とともに後述する正解ラベル生成部３５０へ出力する。

　（可視光画像射影部３４８）
　可視光画像射影部３４８は、取得した可視光画像５０４（必要に応じてマスク画像６０４）を、ランダムに回転させたり、左右、上下、斜めに視点ずらしたりすることで、射影を行う。例えば、可視光画像射影部３４８は、ランダムに与えるホモグラフィ行列Ｈによって射影を行うことができる。そして、可視光画像射影部３４８は、射影によって得らえた射影可視光画像（第２の射影画像）を、可視光画像５０４とともに後述する正解ラベル生成部３５０へ出力する。

　（正解ラベル生成部３５０）
　正解ラベル生成部３５０は、後述する学習部３７０（図１３　参照）で使用する正解ラベル（教師データ）を生成する。例えば、正解ラベル生成部３５０は、射影反射強度画像及び反射強度画像４０４と、射影可視光画像及び可視光画像５０４とを用いて、反射強度画像４０４及び可視光画像５０４の特徴点を検出し、さらに、各特徴点の尤度マップ（各特徴点と、当該特徴点の確からしさとプロットしたもの）を取得する。さらに、正解ラベル生成部３５０は、各尤度マップを統合することにより、反射強度画像のための正解ラベルと、可視光画像のための正解ラベルとを生成する。なお、本実施形態においては、正解ラベル生成部３５０は、例えば、入力されたデータを次元圧縮するエンコーダ（図示省略）と、特徴点を検出するディテクター（図示省略）とから構成することができる。

　なお、本実施形態においては、情報処理装置３００の、モデルの生成のうち、正解ラベルの生成段階に関わる機能のブロックについては、図１０に示されるような構成に限定されるものではない。

　次に、図１１及び図１２を参照して、本実施形態に係る正解ラベルの生成の詳細について説明する。図１１及び図１２は、本実施形態に係る正解ラベルの生成の一例を説明する説明図である。

　本実施形態においては、正解ラベル生成部３５０は、図１１に示すように、事前に準備したＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）画像７００を用いて事前に機械学習を行い、正解ラベル８００を生成する。そして、情報処理装置３００は、生成した正解ラベル８００と、事前に手動によって生成されたＣＧ画像７００の特徴点を含む正解ラベル９００とを比較し、その差分（ディテクターロス）を正解ラベル生成部３５０にフィードバックして、差分を小さくするように強化学習を行う。

　しかしながら、このように得られたアルゴリズム（モデル）（正解ラベル生成部３５０）では、ＣＧ画像７００と実際に使用する実画像（反射強度画像、可視光画像）との間には隔たりが存在するため、見え方（視点位置）が変化した画像に対して、ロバストに特徴点を検出することが難しい（例えば、検出すべき特徴点が検出できない）。そこで、本実施形態においては、正解ラベル生成部３５０は、反射強度画像及び可視光画像のそれぞれに対してランダムな射影を加え、射影された画像を用いて機械学習を行うことで、ロバストに特徴点を検出することができるようになる。詳細には、本実施形態においては、正解ラベル生成部３５０は、反射強度画像及び可視光画像のそれぞれに対してランダムな射影を加え、射影された画像からも特徴点を検出することにより、特徴点が検出される確率（尤度）を取得する。次に、本実施形態においては、反射強度画像及び可視光画像の各特徴点の尤度がマッピングされた尤度マップを統合することにより、反射強度画像及び可視光画像に共通する正解ラベルを生成する。そして、本実施形態においては、このような反射強度画像及び可視光画像に共通する正解ラベルを後述する学習段階で用いることで、反射強度画像及び可視光画像に両方から特徴点をロバストに検出することが可能なモデル（アルゴリズム）を得ることができる。

　より具体的には、図１２に示されるように、ＣＧ画像７００による機械学習を行った正解ラベル生成部３５０は、反射強度画像４０６と射影反射強度画像４１０とに基づいて、特徴点と当該特徴点の尤度からなる尤度マップ８０２を生成する。次に、正解ラベル生成部３５０は、可視光画像５０６と射影可視光画像５１０とに基づいて、特徴点と当該特徴点の尤度からなる尤度マップ８０２を生成する。さらに、正解ラベル生成部３５０は、２つの尤度マップを統合することにより、反射強度画像のための正解ラベル９０４と、可視光画像のための正解ラベル９０４とを生成する。加えて、正解ラベル生成部３５０は、生成した正解ラベル９０４を用いて、上述の機械学習を繰り返すことにより、最終的な正解ラベル９０４を得ることができる。なお、本実施形態における正解ラベル９０４の生成は、上述した非特許文献１に記載の技術と似ているが、異なるセンサ（異なるドメイン）から得られる反射強度画像と可視光画像とで共通する特徴点を、見え方（視点）が変化してもロバストに検出することができるための正解ラベル９０４を生成することができる点で異なる。

　＜２．４　学習＞
　次に、本実施形態に係る学習によるモデルの生成の詳細について説明する。ここでは、異なるセンサ（異なるドメイン）から得られる反射強度画像と可視光画像とで共通する特徴点や特徴点マッチングを、見え方（視点）が変化してもロバストに実行するためのモデル（アルゴリズム）を機械学習で生成する。

　まずは、本実施形態に係る情報処理装置３００の詳細構成について、図１３及び図１４を参照して説明する。図１３は、本開示の実施形態に係る情報処理装置３００の構成の一例を示すブロック図であり、図１４は、本実施形態に係る学習部３７０の構成の一例を示すブロック図である。ここでは、情報処理装置３００の、学習によってモデルの生成を行う機能を中心に説明する。詳細には、図１３に示すように、情報処理装置３００は、反射強度画像取得部３６２と、可視光画像取得部３６４と、反射強度画像射影部３６６と、可視光画像射影部３６８と、学習部（学習器）３７０とを主に有する。以下に、情報処理装置３００の各機能部の詳細について順次説明する。

　（反射強度画像取得部３６２）
　反射強度画像取得部３６２は、図８の入力データ生成部３３２から、反射強度画像４０４とマスク画像６０４とを取得し、後述する反射強度画像射影部３６６へ出力する。なお、本実施形態においては、反射強度画像取得部３６２は、反射強度画像４０４にノイズが存在しない場合には、マスク画像６０４を取得及び出力しなくてもよい。

　（可視光画像取得部３６４）
　可視光画像取得部３６４は、図８の入力データ生成部３３２から、可視光画像５０４とマスク画像６０４とを取得し、後述する可視光画像射影部３６８へ出力する。なお、本実施形態においては、可視光画像取得部３６４は、可視光画像５０４にノイズが存在しない場合には、マスク画像６０４を取得及び出力しなくてもよい。

　（反射強度画像射影部３６６）
　反射強度画像射影部３６６は、取得した反射強度画像４０４（必要に応じてマスク画像６０４）の射影を行う。例えば、反射強度画像射影部３６６は、ランダムに与えるホモグラフィ行列Ｈによって射影を行うことができる。そして、反射強度画像射影部３６６は、射影によって得らえた射影反射強度画像（第１の射影画像）４１０を、反射強度画像４０４とともに後述する学習部３７０へ出力する。

　（可視光画像射影部３６８）
　可視光画像射影部３６８は、取得した可視光画像５０４（必要に応じてマスク画像６０４）の射影を行う。例えば、可視光画像射影部３６８は、ランダムに与えるホモグラフィ行列Ｈによって射影を行うことができる。そして、可視光画像射影部３６８は、射影によって得らえた射影可視光画像（第２の射影画像）５１０を、可視光画像５０４とともに後述する学習部３７０へ出力する。

　（学習部３７０）
　学習部３７０は、反射強度画像４０４及び可視光画像５０４から特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル（アルゴリズム）を生成する。詳細には、例えば、学習部３７０には、反射強度画像４０４及び射影可視光画像５１０の入力データ７０４のペア、及び／又は、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペアが入力される。もしくは、例えば、学習部３７０には、可視光画像５０４及び射影可視光画像５１０の入力データ７０４のペア、及び、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペアが入力されてもよい。もしくは、例えば学習部３７０には、反射強度画像４０４及び射影反射強度画像４１０の入力データ７０４のペア、及び、反射強度画像４０４及び射影可視光画像５１０の入力データ７０４のペアが入力されてもよい。さらに、学習部３７０には、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペア、反射強度画像４０４と射影可視光画像５１０の入力データのペア、可視光画像５０４及び射影可視光画像５１０の入力データ７０４の入力データ７０４のペア、反射強度画像４０４及び射影反射強度画像４１０の入力データ７０４のペアが入力されてもよい。すなわち、本実施形態においては、種類の異なるセンサに由来する２つの画像を含む入力データのペアが入力される。そして、学習部３７０は、入力データを用いて機械学習を行うことにより、種類の異なるセンサから得られる反射強度画像と可視光画像とで共通する特徴点のマッチングを、見え方が変化してもロバストに実行するためのモデルを生成することができる。

　より詳細には、学習部３７０は、図１４に示すように、入力データ７０４のペアを次元圧縮（例えば、１／８）するエンコーダ部３７２と、圧縮された入力データ７０４のペアから特徴点（画像内の被写体の中心点、分岐点、交差点及び輪郭上の端点等、被写体の形状等の特徴が示されている個所及びその座標情報）を検出するディテクター部３７４と、圧縮された入力データ７０４のペアから特徴量（上記特徴点の特徴を数値化して示すことができる、例えば、特徴点の、形状、向き及び広がり等の情報）を取得（記述）するディスクリプター部（特徴量取得部）３７６とを有する。そして、学習部３７０は、異なるセンサに由来する画像の共通する特徴点を、特徴量に基づきマッチングしたり、各画像から取得された特徴点及び特徴量と正解ラベル（教師データ）８０４とを比較し、比較結果を学習部３７０にフィードバックしたりすることにより、機械学習を行う。

　なお、本実施形態においては、情報処理装置３００の、モデルの生成段階に関わる機能のブロックについては、図１３及び図１４に示されるような構成に限定されるものではない。

　（実施例１）
　次に、図１５を参照して、学習部３７０の具体的な機械学習の実施例を説明する。図１５は、本実施形態に係る学習の一例を説明する説明図である。

　この例では、例えば、学習部３７０には、反射強度画像４０４及び射影可視光画像５１０の入力データ７０４のペア、及び／又は、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペアが入力される。もしくは、例えば、学習部３７０には、可視光画像５０４及び射影可視光画像５１０の入力データ７０４のペア、及び、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペアが入力されてもよい。もしくは、例えば、学習部３７０には、反射強度画像４０４及び射影反射強度画像４１０の入力データ７０４のペア、及び、反射強度画像４０４及び射影可視光画像５１０の入力データ７０４のペアが入力されてもよい。さらに、学習部３７０には、可視光画像５０４及び射影反射強度画像４１０の入力データ７０４のペア、反射強度画像４０４と射影可視光画像５１０の入力データのペア、可視光画像５０４及び射影可視光画像５１０の入力データ７０４の入力データ７０４のペア、反射強度画像４０４及び射影反射強度画像４１０の入力データ７０４のペアが入力されてもよい。

　より具体的には、図１５に示す例では、反射強度画像４０６及び射影可視光画像５１０の入力データ７１０ａのペアと、可視光画像５０６及び射影反射強度画像４１０の入力データ７１０ｂのペアとが入力されるものとする。

　そして、本実施例では、重みづけ等が同一である、エンコーダ部３７２、ディテクター部３７４及びディスクリプター部３７６からなる組を２つ含む学習部３７０を準備し、入力データ７１０ａ、７１０ｂのペアから特徴点及び特徴量を取得する。詳細には、学習部３７０においては、各ディテクター部３７４により取得された特徴点からな結果データ８１０ａ、８１０ｂを上述の正解ラベル８０４と比較し、両者の差分である損失（ディテクターロス）Ｌ_ｐを算出する。さらに、本実施例においては、各学習部３７０は、各ディスクリプター部３７６から取得された特徴量からなる結果データ８１２に基づき、特徴点をマッチングし、比較することで、両者の差分である損失（ディスクリプターロス）Ｌ_ｄを算出する。

　ここで、ペアである画像と射影画像とからの特徴点の尤度マップをそれぞれχ、χ´とし、画像と射影画像とからの特徴量Ｄ、Ｄ´とした場合、最終的な損失の値Ｌは、定数λを用いて以下の数式（１）により示すことができる。

　なお、数式（１）においては、Ｙは、特徴点の正解ラベル８０４、ｓは２つの画像間の画素の対応関係を示す。

　また、ディテクター部３７４の損失（ディテクターロス）Ｌ_ｐは、正解ラベル８０４とのクロスエントロピーによって計算され、以下の数式（２）により示すことができる。なお、射影画像は、ランダムに与えるホモグラフィ行列Ｈによって射影されるものとする。

　また、ディスクリプター部３７６の損失（ディスクリプターロス）Ｌ_ｄは、ヒンジロスを使用し、入力画像の各画素の特徴量ｄ_ｈｗ（ｄ_ｈｗは集合Ｄの元）と、当該入力画像の射影画像の特徴量ｄ´_ｈｗ（ｄ´_ｈｗは集合Ｄ´の元）とによって、以下の数式（３）により示すことができる。なお、数式（３）では、ポジティブマージンをｍ_ｐ、ネガティブマージンをｍ_ｎとし、λ_ｄは、は正対応と誤対応のバランスをとる定数である。この時、対応関係（マッチング）ｓは、以下の数式（４）により定義される。

　なお、ｐ_ｈｗは、ディスクリプター部３７６による特徴量に対応する画像上の画素位置である。また、Ｈ_ｐｈｗは、ホモグラフィ行列Ｈによってワープさせた画素位置である。さらに、ディスクリプター部３７６による特徴量は入力画像に対し１/８に圧縮されていることから、対応する画素の距離が８ｐｉｘ以内の場合に対応している画素とみなすものとしている。

　以上のように、学習部３７０は、最終的な損失Ｌを算出し、Ｌを最小にするようにフィードバックすることにより、最終的には、異なるセンサ（異なるドメイン）から得られる反射強度画像と可視光画像とで共通する特徴点や特徴点マッチングを、見え方（視点）が変化してもロバストに実行することができるモデル（アルゴリズム）を生成することができる。

　（実施例２）
　さらに、図１６を参照して、学習部３７０の具体的な機械学習の他の実施例を説明する。図１６は、本実施形態に係る学習の一例を説明する説明図である。

　本実施例においては、図１７に示すＳｈａｒｅｄ　Ｅｎｃｏｄｅｒ（Ｅ_ｓ）は、上述のエンコーダ部３７２と同様の機能をもつ。さらに、本実施例においては、反射強度画像に由来する画像のためのＰｒｉｖａｔｅ　Ｅｎｃｏｄｅｒ（Ｅｐ）（第１のエンコーダ部）と、可視光画像に由来する画像のためのＰｒｉｖａｔｅ　Ｅｎｃｏｄｅｒ（Ｅｐ）（第２のエンコーダ部）とを準備する。さらに、本実施例では上記Ｓｈａｒｅｄ　ＥｎｃｏｄｅｒとＰｒｉｖａｔｅ　Ｅｎｃｏｄｅｒの出力を加算したものを入力データとするＳｈａｒｅｄ　Ｄｅｃｏｄｅｒを準備する。

　より具体的には、図１６に示す例では、反射強度画像４０６及び射影可視光画像５１０の入力データ７１２ａのペアと、可視光画像５０６及び射影反射強度画像４１０の入力データ７１２ｂのペアとが入力されるものとする。

　この実施例における最終的な損失の値Ｌは、５つの損失関数（Ｌ_ｐ、Ｌ_ｄ、Ｌ_ｒ、Ｌ_ｆ、Ｌ_ｓ）の合計からなる。５つの損失関数のうち、Ｌ_ｐ、Ｌ_ｄについては、上述した実施例１と同様である。また、損失Ｌ_ｒは、Ｓｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｓ（Ｉ））とＰｒｉｖａｔｅ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｐ（Ｉ））からなる出力画像Ｉと入力画像とを比較し、互いを同じにするためのＲｅｃｏｎｓｔｒｕｃｔｉｏｎ　損失である。また、損失Ｌ_ｆは、Ｐｒｉｖａｔｅ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｐ（Ｉ））とＳｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｓ（Ｉ））とを異なるものとするＤｉｆｆｅｒｅｎｃｅ　損失である。さらに、損失Ｌ_ｓは、Ｓｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力が可視光画像と反射強度画像のどちらの出力かわからないようにするＳｉｍｉｌａｒｉｔｙ　損失である。

　そして、最終的な損失の値Ｌは、５つの損失関数（Ｌ_ｐ、Ｌ_ｄ、Ｌ_ｒ、Ｌ_ｆ、Ｌ_ｓ）と定数α、β、γとを用いて以下の数式（５）のように定義することができる。

　Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ　損失Ｌ_ｒは、Ｓｈａｒｅｄ　Ｄｅｃｏｄｅｒの出力が入力画像と一致するように、以下の数式（６）により定義される。

　数式（６）においては、ｋは、入力画像の画素数、１_ｋは、要素が１、長さがｋのベクトルである。数式（６）中、ノルムで表現された箇所は、Ｌ２ノルムを２乗した値を意味する。

　Ｄｉｆｆｅｒｅｎｃｅ　損失Ｌ_ｆは、Ｐｒｉｖａｔｅ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｐ（Ｉ））とＳｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力（Ｅ_ｓ（Ｉ））とを異なるものとするように、以下の数式（７）により定義される。

　数式（７）においては、ノルムで表現された箇所は、フロベニウスノルムを２乗した値を意味する。

　Ｓｉｍｉｌａｒｉｔｙ　損失Ｌ_ｓは、Ｓｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力が可視光画像と反射強度画像のどちらの出力かわからないように、混同させるよう学習するための損失である。本実施例においては、上記混同を最大化するためＧｒａｄｉｅｎｔ　Ｒｅｖｅｒｓａｌ　Ｌａｙｅｒ（ＧＲＬ）を使用する。ＧＲＬは、ある関数に対して出力は同じであるが、その勾配方向が反転する。従って、ＧＲＬは、下記の数式（８）により定義される。

　Ｓｈａｒｅｄ　Ｅｎｃｏｄｅｒの出力Ｅ_ｐ（Ｉ）は、ドメイン識別器Ｚ（Ｑ（Ｅ_ｐ（Ｉ）；θ_ｚ）→ｄ（ｄにはキャレットが付されている）に入力され、可視光画像なのか反射強度画像なのか判別する。この時、θ_ｚは、ドメイン識別器Ｚのパラメータ、ｄ(ｄにはキャレットが付されている)は、集合｛０、１｝の元である。学習時、ＧＲＬによって、θ_ｚがドメイン識別器Ｚの識別能力を向上させようとするのに対し、勾配の反転によって、Ｓｈａｒｅｄ　Ｅｎｃｏｄｅのパラメータは、ドメイン識別器の識別能力が低下するように学習される。そのため、Ｓｉｍｉｌａｒｉｔｙ　損失Ｌｓは、下記の数式（９）により定義される。

　＜＜３．　まとめ＞＞
　以上のように、本開示の実施形態によれば、種類の異なるセンサ（ドメイン）から得られる画像間での特徴点マッチングを精度よく行うことができる。その結果、本実施形態によれば、これら複数のセンサの情報を正確に、且つ、容易に位置合わせすることが可能となる。詳細には、本実施形態によれば、ＬｉＤＡＲ１００とカメラ２００とが配置された位置の間の差（視差、被写体までの距離）や、ＬｉＤＡＲ１００とカメラ２００との、画角の違いやレンズ収差に基づいて、ＬｉＤＡＲ１００とカメラ２００とから出力される画像における位置情報の差分（ずれ）をなくすように、ＬｉＤＡＲ１００とカメラ２００との外部パラメータ（位置パラメータ）、及び／又は、内部パラメータ（光学的パラメータ）を精度よく補正することができる。なお、本実施形態により得られるモデル（アルゴリズム）による特徴点のマッチングは、複数のセンサのキャリブレーション（位置合わせ）に利用されることに限定されるものではなく、モーフィング（時系列的に連続する２つの画像の間に位置する画像をコンピューターグラフィクスによって新たに生成する技術）等に適用することも可能である。

　また、本実施形態は、ＬｉＤＡＲ１００とカメラ２００との組み合わせに適用することに限定されるものではなく、例えば、特定の波長の光を観測して画像を生成する他のイメージセンサの組み合わせにも適用することができる。すなわち、本実施形態は、異なる種類のセンサであれば、特に限定されるものではなく、適用することができる。

　＜＜４．　ハードウェア構成について＞＞
　上述してきた各実施形態に係る情報処理装置３００は、例えば、ＬｉＤＡＲ１００及びカメラ２００とネットワークによって接続された、図１７に示すような構成のコンピュータ１０００によって実現されてもよい。図１７は、情報処理装置３００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る測距プログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が本開示の実施形態に係る情報処理装置３００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムやモデルを実行することにより、学習部３７０等の機能を実現する。また、ＨＤＤ１４００には、本開示の実施形態に係るプログラム等が格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　また、本実施形態に係る情報処理装置３００は、例えばクラウドコンピューティング等のように、ネットワークへの接続（または各装置間の通信）を前提とした、複数の装置からなるシステムに適用されてもよい。

　＜＜５．　応用例＞＞
　図１８を参照して、本開示で提案した技術が適用され得る移動装置制御システムの一例について説明する。図１８は、本技術が適用される移動装置制御システムの一例である車両制御システム１１の構成例を示すブロック図である。

　車両制御システム１１は、車両１に設けられ、車両１の走行支援及び自動運転に関わる処理を行う。

　車両制御システム１１は、車両制御ＥＣＵ（Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）２１、通信部２２、地図情報蓄積部２３、位置情報取得部２４、外部認識センサ２５、車内センサ２６、車両センサ２７、記憶部２８、走行支援・自動運転制御部２９、ＤＭＳ（Ｄｒｉｖｅｒ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ）３０、ＨＭＩ（Ｈｕｍａｎ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｒｆａｃｅ）３１、及び、車両制御部３２を有する。

　車両制御ＥＣＵ２１、通信部２２、地図情報蓄積部２３、位置情報取得部２４、外部認識センサ２５、車内センサ２６、車両センサ２７、記憶部２８、走行支援・自動運転制御部２９、ドライバモニタリングシステム（ＤＭＳ）３０、ヒューマンマシーンインタフェース（ＨＭＩ）３１、及び、車両制御部３２は、通信ネットワーク４１を介して相互に通信可能に接続されている。通信ネットワーク４１は、例えば、ＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＩＮ（Ｌｏｃａｌ　Ｉｎｔｅｒｃｏｎｎｅｃｔ　Ｎｅｔｗｏｒｋ）、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＦｌｅｘＲａｙ（登録商標）、イーサネット（登録商標）といったデジタル双方向通信の規格に準拠した車載通信ネットワークやバス等により構成される。通信ネットワーク４１は、伝送されるデータの種類によって使い分けられてもよい。例えば、車両制御に関するデータに対してＣＡＮが適用され、大容量データに対してイーサネットが適用されるようにしてもよい。なお、車両制御システム１１の各部は、通信ネットワーク４１を介さずに、例えば、近距離無線通信（ＮＦＣ（Ｎｅａｒ　Ｆｉｅｌｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ））やＢｌｕｅｔｏｏｔｈ（登録商標）といった比較的近距離での通信を想定した無線通信を用いて直接的に接続されてもよい。

　なお、以下、車両制御システム１１の各部が、通信ネットワーク４１を介して通信を行う場合、通信ネットワーク４１の記載を省略するものとする。例えば、車両制御ＥＣＵ２１と通信部２２が通信ネットワーク４１を介して通信を行う場合、単に車両制御ＥＣＵ２１と通信部２２とが通信を行うと記載する。

　車両制御ＥＣＵ２１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）といった各種のプロセッサにより構成される。車両制御ＥＣＵ２１は、車両制御システム１１全体又は一部の機能の制御を行うことができる。

　通信部２２は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行うことができる。このとき、通信部２２は、複数の通信方式を用いて通信を行ってもよい。

　ここで、通信部２２が実行可能な車外との通信について概略的に説明する。通信部２２は、例えば、５Ｇ（第５世代移動通信システム）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、ＤＳＲＣ（Ｄｅｄｉｃａｔｅｄ　Ｓｈｏｒｔ　Ｒａｎｇｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ）等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク上に存在するサーバ（以下、外部のサーバと呼ぶ）等と通信を行うことができる。通信部２２が通信を行う外部ネットワークは、例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク等である。通信部２２が外部ネットワークに対して行う通信方式は、所定以上の通信速度、且つ、所定以上の距離間でデジタル双方向通信が可能な無線通信方式であれば、特に限定されるものではない。

　また、例えば、通信部２２は、Ｐ２Ｐ（Ｐｅｅｒ　Ｔｏ　Ｐｅｅｒ）技術を用いて、自車の近傍に存在する端末と通信を行うことができる。自車の近傍に存在する端末は、例えば、歩行者や自転車等の比較的低速で移動する移動体が装着する端末、店舗等に位置が固定されて設置される端末、又は、ＭＴＣ（Ｍａｃｈｉｎｅ　Ｔｙｐｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ）端末を挙げることができる。さらに、通信部２２は、Ｖ２Ｘ通信を行うこともできる。Ｖ２Ｘ通信とは、例えば、他の車両との間の車車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｖｅｈｉｃｌｅ）通信、路側器等との間の路車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｉｎｆｒａｓｔｒｕｃｔｕｒｅ）通信、家との間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｈｏｍｅ）の通信、及び、歩行者が所持する端末等との間の歩車間（Ｖｅｈｉｃｌｅ　ｔｏ　Ｐｅｄｅｓｔｒｉａｎ）通信等の、自車と他との通信のことをいう。

　通信部２２は、例えば、車両制御システム１１の動作を制御するソフトウエアを更新するためのプログラムを外部から受信することができる（Ｏｖｅｒ　Ｔｈｅ　Ａｉｒ）。さらに、通信部２２は、地図情報、交通情報、車両１の周囲の情報等を外部から受信することができる。また、例えば、通信部２２は、車両１に関する情報や、車両１の周囲の情報等を外部に送信することができる。通信部２２が外部に送信する車両１に関する情報としては、例えば、車両１の状態を示すデータ、認識部７３による認識結果等を挙げることができる。さらに、例えば、通信部２２は、ｅコール等の車両緊急通報システムに対応した通信を行うこともできる。

　例えば、通信部２２は、電波ビーコン、光ビーコン、ＦＭ多重放送等の道路交通情報通信システム（ＶＩＣＳ（Ｖｅｈｉｃｌｅ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｓｙｓｔｅｍ）（登録商標））により送信される電磁波を受信することもできる。

　さらに、通信部２２が実行可能な車内との通信について、概略的に説明する。通信部２２は、例えば無線通信を用いて、車内の各機器と通信を行うことができる。通信部２２は、例えば、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ、ＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）といった、無線通信により所定以上の通信速度でデジタル双方向通信が可能な通信方式により、車内の機器と無線通信を行うことができる。これに限らず、通信部２２は、有線通信を用いて車内の各機器と通信を行うこともできる。例えば、通信部２２は、図示しない接続端子に接続されるケーブルを介した有線通信により、車内の各機器と通信を行うことができる。通信部２２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＨＤＭＩ（Ｈｉｇｈ-Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）（登録商標）、ＭＨＬ（Ｍｏｂｉｌｅ　Ｈｉｇｈ-ｄｅｆｉｎｉｔｉｏｎ　Ｌｉｎｋ）といった、有線通信により所定以上の通信速度でデジタル双方向通信が可能な通信方式により、車内の各機器と通信を行うことができる。

　ここで、車内の機器とは、例えば、車内において通信ネットワーク４１に接続されていない機器を指す。車内の機器としては、例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。

　地図情報蓄積部２３は、外部から取得した地図及び車両１で作成した地図の一方又は両方を蓄積することができる。例えば、地図情報蓄積部２３は、３次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。

　高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップ等である。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の４層からなる地図であり、外部のサーバ等から車両１に提供される。ポイントクラウドマップは、ポイントクラウド（点群データ）により構成される地図である。ベクターマップは、例えば、車線や信号機の位置といった交通情報等をポイントクラウドマップに対応付け、ＡＤＡＳ（Ａｄｖａｎｃｅｄ　Ｄｒｉｖｅｒ　Ａｓｓｉｓｔａｎｃｅ　Ｓｙｓｔｅｍ）やＡＤ（Ａｕｔｏｎｏｍｏｕｓ　Ｄｒｉｖｉｎｇ）に適合させた地図である。

　ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、カメラ５１、レーダ５２、ＬｉＤＡＲ５３等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両１で作成され、地図情報蓄積部２３に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両１がこれから走行する計画経路に関する、例えば数百メートル四方の地図データが外部のサーバ等から取得される。

　位置情報取得部２４は、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）衛星からＧＮＳＳ信号を受信し、車両１の位置情報を取得することができる。取得した位置情報は、走行支援・自動運転制御部２９に供給される。なお、位置情報取得部２４は、ＧＮＳＳ信号を用いた方式に限定されず、例えば、ビーコンを用いて位置情報を取得してもよい。

　外部認識センサ２５は、車両１の外部の状況の認識に用いられる各種のセンサを有し、各センサからのセンサデータを車両制御システム１１の各部に供給することができる。外部認識センサ２５が有するセンサの種類や数は、特に限定されるものではない。

　例えば、外部認識センサ２５は、カメラ５１、レーダ５２、ＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ、Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）５３、及び、超音波センサ５４を有する。これに限らず、外部認識センサ２５は、カメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４のうち１種類以上のセンサを有する構成であってもよい。カメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４の数は、現実的に車両１に設置可能な数であれば特に限定されない。また、外部認識センサ２５が備えるセンサの種類は、この例に限定されず、外部認識センサ２５は、他の種類のセンサを有してもよい。外部認識センサ２５が有する各センサのセンシング領域の例については、後述する。

　なお、カメラ５１の撮影方式は、特に限定されない。例えば、測距が可能な撮影方式であるＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった各種の撮影方式のカメラを、必要に応じてカメラ５１に適用することができる。これに限らず、カメラ５１は、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。

　また、例えば、外部認識センサ２５は、車両１に対する環境を検出するための環境センサを有することができる。環境センサは、天候、気象、明るさ等の環境を検出するためのセンサであって、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等の各種センサを含むことができる。

　さらに、例えば、外部認識センサ２５は、車両１の周囲の音や音源の位置の検出等に用いられるマイクロフォンを有する。

　車内センサ２６は、車内の情報を検出するための各種のセンサを有し、各センサからのセンサデータを車両制御システム１１の各部に供給することができる。車内センサ２６が備える各種センサの種類や数は、現実的に車両１に設置可能な種類や数であれば特に限定されない。

　例えば、車内センサ２６は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサのうち１種類以上のセンサを有することができる。車内センサ２６が備えるカメラとしては、例えば、ＴｏＦカメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった、測距可能な各種の撮影方式のカメラを用いることができる。これに限らず、車内センサ２６が備えるカメラは、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。車内センサ２６が備える生体センサは、例えば、シートやステアリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。

　車両センサ２７は、車両１の状態を検出するための各種のセンサを有し、各センサからのセンサデータを車両制御システム１１の各部に供給することができる。車両センサ２７が備える各種センサの種類や数は、現実的に車両１に設置可能な種類や数であれば特に限定されない。

　例えば、車両センサ２７は、速度センサ、加速度センサ、角速度センサ（ジャイロセンサ）、及び、それらを統合した慣性計測装置（ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ））を有することができる。例えば、車両センサ２７は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを有する。例えば、車両センサ２７は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを有する。例えば、車両センサ２７は、バッテリの残量及び温度を検出するバッテリセンサ、並びに、外部からの衝撃を検出する衝撃センサを有する。

　記憶部２８は、不揮発性の記憶媒体及び揮発性の記憶媒体のうち少なくとも一方を含み、データやプログラムを記憶することができる。記憶部２８は、例えばＥＥＰＲＯＭ(Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ)及びＲＡＭ(Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ)として用いられ、記憶媒体としては、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）といった磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイスを適用することができる。記憶部２８は、車両制御システム１１の各部が用いる各種プログラムやデータを記憶する。例えば、記憶部２８は、ＥＤＲ（Ｅｖｅｎｔ　Ｄａｔａ　Ｒｅｃｏｒｄｅｒ）やＤＳＳＡＤ（Ｄａｔａ　Ｓｔｏｒａｇｅ　Ｓｙｓｔｅｍ　ｆｏｒ　Ａｕｔｏｍａｔｅｄ　Ｄｒｉｖｉｎｇ）を有し、事故等のイベントの前後の車両１の情報や車内センサ２６によって取得された情報を記憶する。

　走行支援・自動運転制御部２９は、車両１の走行支援及び自動運転の制御を行うことができる。例えば、走行支援・自動運転制御部２９は、分析部６１、行動計画部６２、及び、動作制御部６３を有する。

　分析部６１は、車両１及び周囲の状況の分析処理を行うことができる。分析部６１は、自己位置推定部７１、センサフュージョン部７２、及び、認識部７３を有する。

　自己位置推定部７１は、外部認識センサ２５からのセンサデータ、及び、地図情報蓄積部２３に蓄積されている高精度地図に基づいて、車両１の自己位置を推定することができる。例えば、自己位置推定部７１は、外部認識センサ２５からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両１の自己位置を推定する。車両１の位置は、例えば、後輪対車軸の中心を基準とすることができる。

　ローカルマップは、例えば、ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）等の技術を用いて作成される３次元の高精度地図、占有格子地図（Ｏｃｃｕｐａｎｃｙ　Ｇｒｉｄ　Ｍａｐ）等である。３次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両１の周囲の３次元又は２次元の空間を所定の大きさのグリッド（格子）に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部７３による車両１の外部の状況の検出処理及び認識処理にも用いられる。

　なお、自己位置推定部７１は、位置情報取得部２４により取得される位置情報、及び、車両センサ２７からのセンサデータに基づいて、車両１の自己位置を推定してもよい。

　センサフュージョン部７２は、複数の異なる種類のセンサデータ（例えば、カメラ５１から供給される画像データ、及び、レーダ５２から供給されるセンサデータ）を組み合わせて、新たな情報を得るセンサフュージョン処理を行うことができる。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等を挙げることができる。

　認識部７３は、車両１の外部の状況の検出を行う検出処理、及び、車両１の外部の状況の認識を行う認識処理を実行することができる。

　例えば、認識部７３は、外部認識センサ２５からの情報、自己位置推定部７１からの情報、センサフュージョン部７２からの情報等に基づいて、車両１の外部の状況の検出処理及び認識処理を行う。

　具体的には、例えば、認識部７３は、車両１の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複することがある。

　例えば、認識部７３は、レーダ５２又はＬｉＤＡＲ５３等によるセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両１の周囲の物体を検出する。これにより、車両１の周囲の物体の有無、大きさ、形状、位置が検出される。

　例えば、認識部７３は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両１の周囲の物体の動きを検出する。これにより、車両１の周囲の物体の速度及び進行方向（移動ベクトル）が検出される。

　例えば、認識部７３は、カメラ５１から供給される画像データに基づいて、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示等を検出又は認識する。また、認識部７３は、セマンティックセグメンテーション等の認識処理を行うことにより、車両１の周囲の物体の種類を認識してもよい。

　例えば、認識部７３は、地図情報蓄積部２３に蓄積されている地図、自己位置推定部７１による自己位置の推定結果、及び、認識部７３による車両１の周囲の物体の認識結果に基づいて、車両１の周囲の交通ルールの認識処理を行うことができる。認識部７３は、この処理により、信号機の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線等を認識することができる。

　例えば、認識部７３は、車両１の周囲の環境の認識処理を行うことができる。認識部７３が認識対象とする周囲の環境としては、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。

　行動計画部６２は、車両１の行動計画を作成する。例えば、行動計画部６２は、経路計画、経路追従の処理を行うことにより、行動計画を作成することができる。

　なお、経路計画（Ｇｌｏｂａｌ　ｐａｔｈ　ｐｌａｎｎｉｎｇ）とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、計画した経路において、車両１の運動特性を考慮して、車両１の近傍で安全かつ滑らかに進行することが可能な軌道生成（Ｌｏｃａｌ　ｐａｔｈ　ｐｌａｎｎｉｎｇ）を行う処理も含まれる。

　経路追従とは、経路計画により計画された経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。行動計画部６２は、例えば、この経路追従の処理の結果に基づき、車両１の目標速度と目標角速度を計算することができる。

　動作制御部６３は、行動計画部６２により作成された行動計画を実現するために、車両１の動作を制御することができる。

　例えば、動作制御部６３は、後述する車両制御部３２に含まれる、ステアリング制御部８１、ブレーキ制御部８２、及び、駆動制御部８３を制御して、軌道計画により計算された軌道を車両１が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部６３は、衝突回避又は衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のＡＤＡＳの機能実現を目的とした協調制御を行う。例えば、動作制御部６３は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。

　ＤＭＳ３０は、車内センサ２６からのセンサデータ、及び、後述するＨＭＩ３１に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行うことができる。認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。

　なお、ＤＭＳ３０が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、ＤＭＳ３０が、車内センサ２６からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。

　ＨＭＩ３１は、各種のデータや指示等の入力と、各種のデータの運転者等への提示を行うことができる。

　ＨＭＩ３１によるデータの入力について、概略的に説明する。ＨＭＩ３１は、人がデータを入力するための入力デバイスを有する。ＨＭＩ３１は、入力デバイスにより入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム１１の各部に供給する。ＨＭＩ３１は、入力デバイスとして、例えばタッチパネル、ボタン、スイッチ、及び、レバーといった操作子を有する。これに限らず、ＨＭＩ３１は、音声やジェスチャ等により手動操作以外の方法で情報を入力可能な入力デバイスをさらに有してもよい。さらに、ＨＭＩ３１は、例えば、赤外線又は電波を利用したリモートコントロール装置や、車両制御システム１１の操作に対応したモバイル機器又はウェアラブル機器等の外部接続機器を入力デバイスとして用いてもよい。

　ＨＭＩ３１によるデータの提示について、概略的に説明する。ＨＭＩ３１は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成を行う。また、ＨＭＩ３１は、生成された各情報の出力、出力内容、出力タイミング及び出力方法等を制御する出力制御を行う。ＨＭＩ３１は、視覚情報として、例えば、操作画面、車両１の状態表示、警告表示、車両１の周囲の状況を示すモニタ画像等の画像や光により示される情報を生成及び出力する。また、ＨＭＩ３１は、聴覚情報として、例えば、音声ガイダンス、警告音、警告メッセージ等の音により示される情報を生成及び出力する。さらに、ＨＭＩ３１は、触覚情報として、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報を生成及び出力する。

　ＨＭＩ３１が視覚情報を出力する出力デバイスとしては、例えば、自身が画像を表示することで視覚情報を提示する表示装置や、画像を投影することで視覚情報を提示するプロジェクタ装置を適用することができる。なお、表示装置は、通常のディスプレイを有する表示装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）機能を備えるウエアラブルデバイスといった、搭乗者の視界内に視覚情報を表示する装置であってもよい。また、ＨＭＩ３１は、車両１に設けられるナビゲーション装置、インストルメントパネル、ＣＭＳ（Ｃａｍｅｒａ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ）、電子ミラー、ランプ等が有する表示デバイスを、視覚情報を出力する出力デバイスとして用いることも可能である。

　ＨＭＩ３１が聴覚情報を出力する出力デバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホンを適用することができる。

　ＨＭＩ３１が触覚情報を出力する出力デバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子を適用することができる。ハプティクス素子は、例えば、ステアリングホイール、シートといった、車両１の搭乗者が接触する部分に設けられる。

　車両制御部３２は、車両１の各部の制御を行うことができる。車両制御部３２は、ステアリング制御部８１、ブレーキ制御部８２、駆動制御部８３、ボディ系制御部８４、ライト制御部８５、及び、ホーン制御部８６を有する。

　ステアリング制御部８１は、車両１のステアリングシステムの状態の検出及び制御等を行うことができる。ステアリングシステムは、例えば、ステアリングホイール等を含むステアリング機構、電動パワーステアリング等を有する。ステアリング制御部８１は、例えば、ステアリングシステムの制御を行うステアリングＥＣＵ、ステアリングシステムの駆動を行うアクチュエータ等を有する。

　ブレーキ制御部８２は、車両１のブレーキシステムの状態の検出及び制御等を行うことができる。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ＡＢＳ（Ａｎｔｉｌｏｃｋ　Ｂｒａｋｅ　Ｓｙｓｔｅｍ）、回生ブレーキ機構等を有する。ブレーキ制御部８２は、例えば、ブレーキシステムの制御を行うブレーキＥＣＵ、ブレーキシステムの駆動を行うアクチュエータ等を有する。

　駆動制御部８３は、車両１の駆動システムの状態の検出及び制御等を行うことができる。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を有する。駆動制御部８３は、例えば、駆動システムの制御を行う駆動ＥＣＵ、駆動システムの駆動を行うアクチュエータ等を有する。

　ボディ系制御部８４は、車両１のボディ系システムの状態の検出及び制御等を行うことができる。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を有する。ボディ系制御部８４は、例えば、ボディ系システムの制御を行うボディ系ＥＣＵ、ボディ系システムの駆動を行うアクチュエータ等を有する。

　ライト制御部８５は、車両１の各種のライトの状態の検出及び制御等を行うことができる。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部８５は、ライトの制御を行うライトＥＣＵ、ライトの駆動を行うアクチュエータ等を有する。

　ホーン制御部８６は、車両１のカーホーンの状態の検出及び制御等を行うことができる。ホーン制御部８６は、例えば、カーホーンの制御を行うホーンＥＣＵ、カーホーンの駆動を行うアクチュエータ等を有する。

　図１９は、図１８の外部認識センサ２５のカメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４等によるセンシング領域の例を示す図である。なお、図１９において、車両１を上面から見た様子が模式的に示され、左端側が車両１の前端（フロント）側であり、右端側が車両１の後端（リア）側となっている。

　センシング領域１０１Ｆ及びセンシング領域１０１Ｂは、超音波センサ５４のセンシング領域の例を示している。センシング領域１０１Ｆは、複数の超音波センサ５４によって車両１の前端周辺をカバーしている。センシング領域１０１Ｂは、複数の超音波センサ５４によって車両１の後端周辺をカバーしている。

　センシング領域１０１Ｆ及びセンシング領域１０１Ｂにおけるセンシング結果は、例えば、車両１の駐車支援等に用いられる。

　センシング領域１０２Ｆ乃至センシング領域１０２Ｂは、短距離又は中距離用のレーダ５２のセンシング領域の例を示している。センシング領域１０２Ｆは、車両１の前方において、センシング領域１０１Ｆより遠い位置までカバーしている。センシング領域１０２Ｂは、車両１の後方において、センシング領域１０１Ｂより遠い位置までカバーしている。センシング領域１０２Ｌは、車両１の左側面の後方の周辺をカバーしている。センシング領域１０２Ｒは、車両１の右側面の後方の周辺をカバーしている。

　センシング領域１０２Ｆにおけるセンシング結果は、例えば、車両１の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域１０２Ｂにおけるセンシング結果は、例えば、車両１の後方の衝突防止機能等に用いられる。センシング領域１０２Ｌ及びセンシング領域１０２Ｒにおけるセンシング結果は、例えば、車両１の側方の死角における物体の検出等に用いられる。

　センシング領域１０３Ｆ乃至センシング領域１０３Ｂは、カメラ５１によるセンシング領域の例を示している。センシング領域１０３Ｆは、車両１の前方において、センシング領域１０２Ｆより遠い位置までカバーしている。センシング領域１０３Ｂは、車両１の後方において、センシング領域１０２Ｂより遠い位置までカバーしている。センシング領域１０３Ｌは、車両１の左側面の周辺をカバーしている。センシング領域１０３Ｒは、車両１の右側面の周辺をカバーしている。

　センシング領域１０３Ｆにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム、自動ヘッドライト制御システムに用いることができる。センシング領域１０３Ｂにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステムに用いることができる。センシング領域１０３Ｌ及びセンシング領域１０３Ｒにおけるセンシング結果は、例えば、サラウンドビューシステムに用いることができる。

　センシング領域１０４は、ＬｉＤＡＲ５３のセンシング領域の例を示している。センシング領域１０４は、車両１の前方において、センシング領域１０３Ｆより遠い位置までカバーしている。一方、センシング領域１０４は、センシング領域１０３Ｆより左右方向の範囲が狭くなっている。

　センシング領域１０４におけるセンシング結果は、例えば、周辺車両等の物体検出に用いられる。

　センシング領域１０５は、長距離用のレーダ５２のセンシング領域の例を示している。センシング領域１０５は、車両１の前方において、センシング領域１０４より遠い位置までカバーしている。一方、センシング領域１０５は、センシング領域１０４より左右方向の範囲が狭くなっている。

　センシング領域１０５におけるセンシング結果は、例えば、ＡＣＣ（Ａｄａｐｔｉｖｅ　Ｃｒｕｉｓｅ　Ｃｏｎｔｒｏｌ）、緊急ブレーキ、衝突回避等に用いられる。

　なお、外部認識センサ２５が含むカメラ５１、レーダ５２、ＬｉＤＡＲ５３、及び、超音波センサ５４の各センサのセンシング領域は、図１９以外に各種の構成をとってもよい。具体的には、超音波センサ５４が車両１の側方もセンシングするようにしてもよいし、ＬｉＤＡＲ５３が車両１の後方をセンシングするようにしてもよい。また、各センサの設置位置は、上述した各例に限定されない。また、各センサの数は、１つでもよいし、複数であってもよい。

　本開示の技術は、例えば、カメラ５１やＬｉＤＡＲ５３等に適用することができる。例えば、本開示の技術を車両制御システム１１のカメラ５１及びＬｉＤＡＲ５３からのデータを処理するセンサフュージョン部７２に適用することにより、カメラ５１及びＬｉＤＡＲ５３の内部パラメータ又は外部パラメータをキャリブレーションすることが可能となる。

　＜＜６．　補足＞＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、上述した本開示の実施形態は、例えば、コンピュータを本実施形態に係る情報処理装置として機能させるためのプログラム（モデル）、及びプログラム（モデル）が記録された一時的でない有形の媒体を含みうる。また、本開示の実施形態においては、プログラム（モデル）をインターネット等の通信回線（無線通信も含む）を介して頒布してもよい。

　また、上述した本開示の実施形態の処理における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。さらに、本開示の実施形態においては、各ステップの処理方法についても、必ずしも記載された方法に沿って処理されなくてもよく、例えば、他の機能部によって他の方法で処理されていてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本開示の実施形態においては、例えば、１つの装置として説明した構成を分割し、複数の装置として構成するようにしてもよい。逆に、以上において複数の装置として説明した構成をまとめて１つの装置として構成されるようにしてもよい。また、各装置の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置の構成の一部を他の装置の構成に含めるようにしてもよい。なお、上記システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。従って、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムとして把握される。

　なお、本技術は以下のような構成も取ることができる。
（１）
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
　前記学習器には、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
　情報処理装置。
（２）
　前記射影画像は、前記第１の画像を射影して得られる第１の射影画像、又は、前記第２の画像を射影して得られる第２の射影画像である、上記（１）に記載の情報処理装置。
（３）
　前記学習器には、複数の前記一対の入力データが入力される、上記（２）に記載の情報処理装置。
（４）
　前記学習器には、前記第１の画像と前記第１の射影画像とからなる他の一対の入力データ、及び、前記第２の画像と前記第２の射影画像とからなる他の一対の入力データのうちの少なくとも１つがさらに入力される、上記（３）に記載の情報処理装置。
（５）
　前記学習器は、
　前記一対の入力データを次元圧縮するエンコーダ部と、
　圧縮された前記一対の入力データから前記特徴点を検出するディテクター部と、
　前記圧縮された前記一対の入力データから前記特徴量を取得する特徴量取得部と、
　を含む、上記（２）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記学習器は、
　前記ディテクター部から出力された前記特徴点と、教師データの前記特徴点と比較し、
　前記特徴量取得部から出力された、前記一対の入力データからの複数の前記特徴量を比較する、
　上記（５）に記載の情報処理装置。
（７）
　前記エンコーダ部は、
　前記第１の画像及び前記第１の射影画像が入力される第１のエンコーダ部と、
　前記第２の画像及び前記第２の射影画像が入力される第２のエンコーダ部と、
　を含む、
　上記（６）に記載の情報処理装置。
（８）
　前記教師データを生成する教師データ生成部をさらに備え、
　前記教師データ生成部は、
　前記第１及び第２の画像と前記第１及び第２の射影画像とから前記特徴点の尤度マップを取得し、
　前記尤度マップを統合する、
　上記（６）又は（７）に記載の情報処理装置。
（９）
　前記教師データ生成部は、事前にＣＧ画像を用いた機械学習を行う、上記（８）に記載の情報処理装置。
（１０）
　前記第１の撮像部から取得された第１の広域画像と、前記第２の撮像部から取得された第２の広域画像とを、同一視点からの画像となるように切り取ることにより、前記学習器に入力するための画像を生成する画像処理部をさらに備える、
　上記（１）～（９）のいずれか１つに記載の情報処理装置。
（１１）
　アライメントが調整された前記第１の広域画像と前記第２の広域画像とに基づき、これら広域画像内のノイズのマスクを生成する、畳み込みニューラルネットワークからなるマスク部をさらに備える、上記（１０）に記載の情報処理装置。
（１２）
　前記モデルを用いて、前記複数の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う特徴点抽出部をさらに備える、上記（１）～（１１）のいずれか１つに記載の情報処理装置。
（１３）
　前記特徴点抽出部は、異なる前記撮像部から新たに取得された前記第１及び第２の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、上記（１２）に記載の情報処理装置。
（１４）
　前記特徴点抽出部は、新たに取得された複数の前記第１の画像又は複数の前記第２の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、上記（１２）に記載の情報処理装置。
（１５）
　前記第１の画像を取得する第１の撮像部と、前記第２の画像を取得する第２の撮像部との位置関係に基づき、前記第１及び第２の撮像部に関するパラメータのキャリブレーションを行うキャリブレーション部をさらに備え、
　前記キャリブレーション部は、マッチングされた前記特徴点の位置情報を用いて、キャリブレーションを行う、
　上記（１２）～（１４）のいずれか１つ記載の情報処理装置。
（１６）
　前記第１の撮像部は、ＬｉＤＡＲ又はＴｏＦセンサからなり、
　前記第２の撮像部は、イメージセンサからなる、
　上記（１）～（１５）のいずれか１つに記載の情報処理装置。
（１７）
　第１の撮像部と、第２の撮像部と、情報処理装置と、を含み、
　前記情報処理装置は、
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
　前記学習器には、前記第１の撮像部から取得された第１の画像、及び、前記第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
　情報処理システム。
（１８）
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、
　情報処理装置が、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得られる、
　モデル。
（１９）
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、
　情報処理装置が、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、
　モデルの生成方法。

　　１　　車両
　　１０　　情報処理システム
　　１１　　車両制御システム
　　２１　　車両制御ＥＣＵ（Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）
　　２２　　通信部
　　２３　　地図情報蓄積部
　　２４　　位置情報取得部
　　２５　　外部認識センサ
　　２６　　車内センサ
　　２７　　車両センサ
　　２８　　記憶部
　　２９　　走行支援・自動運転制御部
　　３０　　ドライバモニタリングシステム（ＤＭＳ）
　　３１　　ヒューマンマシーンインタフェース（ＨＭＩ）
　　３２　　車両制御部
　　４１　　通信ネットワーク
　　５１、２００　　カメラ
　　５２　　レーダ
　　５３、１００　　ＬｉＤＡＲ
　　５４　　超音波センサ
　　６１　　分析部
　　６２　　行動計画部
　　６３　　動作制御部
　　７１　　自己位置推定部
　　７２　　センサフュージョン部
　　７３　　認識部
　　８１　　ステアリング制御部
　　８２　　ブレーキ制御部
　　８３　　駆動制御部
　　８４　　ボディ系制御部
　　８５　　ライト制御部
　　８６　　ホーン制御部
　　３００　　情報処理装置
　　３０２、３２２、３４２、３６２　　反射強度画像取得部
　　３０４、３２４、３４４、３６４　　可視光画像取得部
　　３０６、３２６　　反射強度画像処理部
　　３０８、３２８　　可視光画像処理部
　　３１０　　特徴点取得部
　　３１２　　位置情報取得部
　　３１４　　キャリブレーション部
　　３３０　　マスク生成部
　　３３２　　入力データ生成部
　　３４６、３６６　　反射強度画像射影部
　　３４８、３６８　　可視光画像射影部
　　３５０　　正解ラベル生成部
　　３７０　　学習部
　　３７２　　エンコーダ部
　　３７４　　ディテクター部
　　３７６　　ディスクリプター部
　　４００、４０４、４０６　　反射強度画像
　　４０２　　反射強度パノラマ画像
　　４１０　　射影反射強度画像
　　５００、５０４、５０６　　可視光画像
　　５０２　　可視光パノラマ画像
　　５１０　　射影可視光画像
　　６０２、６０４　　マスク画像
　　７００　　ＣＧ画像
　　７０４、７１０ａ、７１０ｂ、７１２ａ、７１２ｂ　　入力データ
　　８００、９００、９０４　　正解ラベル
　　８０２　　尤度マップ
　　８１０ａ、８１０ｂ、８１２　　結果データ

Claims

　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
　前記学習器には、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
　情報処理装置。
　前記射影画像は、前記第１の画像を射影して得られる第１の射影画像、又は、前記第２の画像を射影して得られる第２の射影画像である、請求項１に記載の情報処理装置。
　前記学習器には、複数の前記一対の入力データが入力される、請求項２に記載の情報処理装置。
　前記学習器には、前記第１の画像と前記第１の射影画像とからなる他の一対の入力データ、及び、前記第２の画像と前記第２の射影画像とからなる他の一対の入力データのうちの少なくとも１つがさらに入力される、請求項３に記載の情報処理装置。
　前記学習器は、
　前記一対の入力データを次元圧縮するエンコーダ部と、
　圧縮された前記一対の入力データから前記特徴点を検出するディテクター部と、
　前記圧縮された前記一対の入力データから前記特徴量を取得する特徴量取得部と、
　を含む、請求項２に記載の情報処理装置。
　前記学習器は、
　前記ディテクター部から出力された前記特徴点と、教師データの前記特徴点と比較し、
　前記特徴量取得部から出力された、前記一対の入力データからの複数の前記特徴量を比較する、
　請求項５に記載の情報処理装置。
　前記エンコーダ部は、
　前記第１の画像及び前記第１の射影画像が入力される第１のエンコーダ部と、
　前記第２の画像及び前記第２の射影画像が入力される第２のエンコーダ部と、
　を含む、
　請求項６に記載の情報処理装置。
　前記教師データを生成する教師データ生成部をさらに備え、
　前記教師データ生成部は、
　前記第１及び第２の画像と前記第１及び第２の射影画像とから前記特徴点の尤度マップを取得し、
　前記尤度マップを統合する、
　請求項６に記載の情報処理装置。
　前記教師データ生成部は、事前にＣＧ画像を用いた機械学習を行う、請求項８に記載の情報処理装置。
　前記第１の撮像部から取得された第１の広域画像と、前記第２の撮像部から取得された第２の広域画像とを、同一視点からの画像となるように切り取ることにより、前記学習器に入力するための画像を生成する画像処理部をさらに備える、
　請求項１に記載の情報処理装置。
　アライメントが調整された前記第１の広域画像と前記第２の広域画像とに基づき、これら広域画像内のノイズのマスクを生成する、畳み込みニューラルネットワークからなるマスク部をさらに備える、請求項１０に記載の情報処理装置。
　前記モデルを用いて、前記複数の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う特徴点抽出部をさらに備える、請求項１に記載の情報処理装置。
　前記特徴点抽出部は、異なる前記撮像部から新たに取得された前記第１及び第２の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、請求項１２に記載の情報処理装置。
　前記特徴点抽出部は、新たに取得された複数の前記第１の画像又は複数の前記第２の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、請求項１２に記載の情報処理装置。
　前記第１の画像を取得する第１の撮像部と、前記第２の画像を取得する第２の撮像部との位置関係に基づき、前記第１及び第２の撮像部に関するパラメータのキャリブレーションを行うキャリブレーション部をさらに備え、
　前記キャリブレーション部は、マッチングされた前記特徴点の位置情報を用いて、キャリブレーションを行う、
　請求項１２に記載の情報処理装置。
　前記第１の撮像部は、ＬｉＤＡＲ又はＴｏＦセンサからなり、
　前記第２の撮像部は、イメージセンサからなる、
　請求項１に記載の情報処理装置。
　第１の撮像部と、第２の撮像部と、情報処理装置と、を含み、
　前記情報処理装置は、
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
　前記学習器には、前記第１の撮像部から取得された第１の画像、及び、前記第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
　情報処理システム。
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、
　情報処理装置が、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得られる、
　モデル。
　複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、
　情報処理装置が、第１の撮像部から取得された第１の画像、及び、第２の撮像部から取得された第２の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、
　モデルの生成方法。