WO2021220658A1

WO2021220658A1 - 情報処理装置およびプログラム

Info

Publication number: WO2021220658A1
Application number: PCT/JP2021/011196
Authority: WO
Inventors: 淳入江; クリストファーライト; ボウマンベルナデットエリオット; ハームクローニー
Original assignee: ソニーグループ株式会社
Priority date: 2020-04-30
Filing date: 2021-03-18
Publication date: 2021-11-04
Also published as: JPWO2021220658A1; CN115428013A; EP4145386A1; EP4145386A4; US20230169754A1

Abstract

【課題】スチューデントネットワークを用いた推定の精度をより向上させる。【解決手段】大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置が提供される。

Description

情報処理装置およびプログラム

　本開示は、情報処理装置およびプログラムに関する。

　近年、脳神経系の仕組みを模した数学モデルであるニューラルネットワークが注目されている。また、ニューラルネットワークによる学習を効率化するための技術も多く提案されている。例えば、非特許文献１には、ティーチャーネットワーク（Teacher Network）の学習に用いられた学習データが利用できない場合であっても、当該ティーチャーネットワークからスチューデントネットワーク（Student Network）を生成する技術が開示されている。

Kartikeya Bhardwaj、外２名、「Dream Distillation: A Data-Independent Model Compression Framework」、２０１９年５月１７日、［Online］、［令和２年４月１日検索］、インターネット<https://arxiv.org/pdf/1905.07072.pdf>

　非特許文献１に記載の技術のように、ティーチャーネットワークを用いて生成したイメージをスチューデントネットワークの学習に用いる場合、スチューデントネットワークによる推定の精度を向上させるためには、当該イメージの質を上げることが重要となる。

　本開示のある観点によれば、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置が提供される。

　また、本開示の別の観点によれば、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、を備え、前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、情報処理装置が提供される。

　また、本開示の別の観点によれば、コンピュータを、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置、として機能させるためのプログラムが提供される。

スチューデントネットワークを用いたオブジェクトクラスの推定について説明するための図である。本開示の一実施形態に係る複数モダリティにより取得された実環境イメージを用いシンセティックイメージの生成について説明するための図である。同実施形態に係る４つのフェーズについて概要を説明するための図である。同実施形態に係る第１学習装置１０の構成例を示すブロック図である。同実施形態に係る画像生成装置２０の構成例を示すブロック図である。同実施形態に係る画像生成部２１０を用いたシンセティックイメージ生成の流れを示すフローチャートである。同実施形態に係る第２学習装置３０の構成例を示すブロック図である。同実施形態に係る異なるモダリティ間における類似度の高いシンセティックイメージについて説明するための図である。同実施形態に係るモダリティ間における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。同実施形態に係る同一のモダリティ内における類似度の高いシンセティックイメージについて説明するための図である。同実施形態に係るモダリティ内における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。同実施形態に係るフュージョンイメージの一例を示す図である。同実施形態に係る同一のモダリティ内に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。同実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明するための図である。同実施形態に係る異なるモダリティ間に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。同実施形態に係る各モダリティに係る特徴量分布を類似させる処理の一例を示す図である。同実施形態に係る推定装置４０の構成例を示すブロック図である。同実施形態に係る推定装置４０による処理の流れを示すフローチャートである。同実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．背景
　　１．２．ティーチャーネットワークの生成
　　１．３．シンセティックイメージの生成
　　１．４．スチューデントネットワークの生成
　　１．５．スチューデントネットワークを用いた推定
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．背景＞＞
　まず、本開示の一実施形態の概要について説明する。上述したように、近年、ニューラルネットワークによる学習を効率化するための技術が多く提案されている。このような技術には、例えば、ナレッジディスティレーション（knowledge distillation）と呼ばれる技術が挙げられる。

　ナレッジディスティレーションとは、ある高精度の学習済みネットワークがある場合において、当該ネットワーク（ティーチャーネットワーク）から、求められる仕様に応じた新たなネットワーク（スチューデントネットワーク）を生成する技術である。

　ナレッジディスティレーションは、例えば、大規模なイメージデータベースより提供されるイメージを用いて学習を行った汎用的なティーチャーネットワークから、実環境により則したスチューデントネットワークを生成したい場合等に用いられる。

　しかし、ナレッジディスティレーションを実施するためには、一般的にティーチャーネットワークの学習に用いられた学習データが求められる。このため、ティーチャーネットワークの学習に用いられた学習データが利用できない場合や、利用できる学習データの量が十分ではない場合、スチューデントネットワークを生成することが困難となったり、生成されるスチューデントネットワークの精度が低下したりする場合がある。

　一方、上述の非特許文献１には、ティーチャーネットワークの学習に用いられた学習データを用いずに、スチューデントネットワークを生成する技術が開示されている。

　非特許文献１に開示される技術は、実環境において取得された実環境イメージをティーチャーネットワークに入力することシンセティックイメージ（Synthetic Image）を生成し、当該シンセティックイメージを学習データとした機械学習を行い、スチューデントネットワークを生成するものである。

　係る技術によれば、ティーチャーネットワークの生成に用いられた学習データが利用できない状況でも、当該ティーチャーネットワークに基づくスチューデントネットワークを生成することが可能となる。なお、シンセティックイメージの詳細については別途後述する。

　ここで、上記のようなシンセティックイメージを用いたスチューデントネットワークの生成において、生成されるスチューデントネットワークの精度をさらに高めるには、学習データとして用いるシンセティックイメージの質を上げることが重要となる。

　ここでは、入力されるイメージに含まれるオブジェクトのオブジェクトクラスを推定するスチューデントネットワークを生成する場合を想定する。

　図１は、スチューデントネットワークを用いたオブジェクトクラスの推定について説明するための図である。図１には、シンセティックイメージを用いて生成したスチューデントネットワークを用いた推定を行う推定装置（図示しない）が自動車等の移動体Ｖに搭載される場合が例示されている。

　移動体Ｖに搭載される推定装置は、例えば、入力される撮影イメージに含まれるオブジェクトＯのオブジェクトクラスをリアルタイムに推定し、推定の結果を出力する。オブジェクトＯは、例えば、ウサギ等の野生動物であってもよい。上記のような推定によれば、移動体Ｖの進行方向にウサギが飛び出したこと等を検出し、移動体Ｖに回避動作等を取らせることが可能となる。

　しかし、ここで、スチューデントネットワークを用いたオブジェクトクラスの推定精度は、学習時に用いられたデータに大きく影響を受ける。例えば、学習データとして用いられたイメージの撮影環境（場所、照度、距離、ノイズ、オブジェクト種類など）と、実際に推定が行われる実環境で取得されるイメージの撮影環境との乖離が大きい場合、スチューデントネットワークは、オブジェクトＯのオブジェクトクラスを誤推定する可能性がある。

　このため、スチューデントネットワークの生成において用いられる学習データは、実環境中で実際に撮影されるイメージと近いものであることが求められる。これは、上述のシンセティックイメージを学習データとして用いる場合にも同様である。

　本開示に係る技術思想は上記の点に着目して発想されたものであり、スチューデントネットワークを用いた推定の精度をより向上させることを可能とする。

　このために、本開示の一実施形態では、実環境において複数のモダリティにより取得された実環境イメージを用いてシンセティックイメージを生成し、当該シンセティックイメージを用いてスチューデントネットワークの生成を行ってよい。

　図２は、本開示の一実施形態に係る複数モダリティにより取得された実環境イメージを用いシンセティックイメージの生成について説明するための図である。図２には、異なる３つのモダリティに対応したティーチャーネットワークＴ１～Ｔ３を用いて、それぞれ異なるモダリティに係るシンセティックイメージＳ１～Ｓ３を生成する場合の一例が示されている。

　ここで、本開示の一実施形態に係るモダリティとは、イメージの撮影手段を指す。なお、当該表現は、例えば医療分野等においても同様の意味を表すものとして広く用いられている。本実施形態に係るモダリティの一例としては、ＲＧＢカメラ、ＴｏＦカメラ、ＬｉＤＡＲ、偏光カメラ等が挙げられる。

　例えば、図２に示すＭｏｄａｌｉｔｙ　１がＲＧＢカメラである場合、ティーチャーネットワークＴ１では、実環境においてＲＧＢカメラで撮影された複数のＲＧＢイメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークＴ１に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、ＲＧＢイメージを模倣したシンセティックイメージＳ１が更新されていき、取得される。

　また、例えば、図２に示すＭｏｄａｌｉｔｙ　２がＴｏＦカメラである場合、ティーチャーネットワークＴ２では、実環境においてＴｏＦカメラで撮影された複数のＴｏＦイメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークＴ２に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、ＴｏＦイメージを模倣したシンセティックイメージＳ２が更新されていき、取得される。

　また、例えば、図２に示すＭｏｄａｌｉｔｙ　３が偏光カメラである場合、ティーチャーネットワークＴ３では、実環境において偏光カメラで撮影された複数の偏光イメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークＴ３に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、偏向イメージを模倣したシンセティックイメージＳ３が更新されていき、取得される。

　なお、図２に示すシンセティックイメージＳ１～Ｓ３では、テクスチャの種別または有無によりモダリティの違いが表現されている。

　このように、本開示の一実施形態に係るシンセティックイメージは、異なる複数のモダリティにより取得された実環境イメージとティーチャーネットワークとを用いて生成されてよい。

　本実施形態に係るシンセティックイメージは、例えば、図２に示すように、単一のモダリティに対応した複数のティーチャーネットワークＴ１～Ｔ３のそれぞれに、対応するモダリティにより取得された実環境イメージを入力することに基づいて生成され得る。

　また、本開示の一実施形態に係るスチューデントネットワークは、上記のように生成されたシンセティックイメージを学習データとして用いることで生成されることを特徴の一つとする。

　上記特徴によれば、各モダリティにより取得したイメージに出現し得るオブジェクトＯの特性（例えば、形状、色、距離、偏向に関する情報など）を、広く効果的にスチューデントネットワークに学習させることができ、当該スチューデントネットワークによる推定精度を向上させることが可能となる。

　本開示の一実施形態に係るスチューデントネットワークを用いた推定の実現は、主に４つのフェーズに大別される。図３は、本開示の一実施形態に係る４つのフェーズについて概要を説明するための図である。

　本開示の一実施形態に係るフェーズＦ１は、ティーチャーネットワークを生成するためのフェーズである。

　本開示の一実施形態に係るフェーズＦ２は、フェーズＦ１において生成したティーチャーネットワークを用いてシンセティックイメージを生成するためのフェーズである。

　本開示の一実施形態に係るフェーズＦ３は、フェーズＦ２において生成したシンセティックイメージを用いてティーチャーネットワークを生成するためのフェーズである。

　本開示の一実施形態に係るフェーズＦ４は、フェーズＦ３において生成したスチューデントネットワークを用いた推定を行うフェーズである。

　以下、上記の各フェーズにおける処理について詳細に説明する。

　＜＜１．２．ティーチャーネットワークの生成＞＞
　まず、フェーズＦ１におけるティーチャーネットワークの生成手法について述べる。本実施形態に係るフェーズＦ１においては、第１学習装置１０を用いてティーチャーネットワークが生成される。

　図４は、本実施形態に係る第１学習装置１０の構成例を示すブロック図である。図４に示すように、本実施形態に係る第１学習装置１０は、少なくとも第１学習部１１０を備える。なお、第１学習装置１０は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。

　（第１学習部１１０）
　本実施形態に係る第１学習部１１０は、大規模ＤＢ５０に保存されるイメージを学習データとする機械学習を行い、ティーチャーネットワークを生成する。

　第１学習部１１０によるティーチャーネットワークの生成については、一般に広く用いられる手法が採用されてよいことから、詳細なフローの説明は省略する。なお、ティーチャーネットワークの生成に用いられる大規模ＤＢ５０は、例えば、インターネット上において公開され、機械学習分野における研究開発において広く利用されている各種のデータベースが挙げられる。推定精度の高いデータを用いてティーチャーネットワークを生成することにより、後に生成されるスチューデントネットワークによる推定の精度を向上させることが可能である。

　なお、第１学習装置１０は、後述する画像生成装置２０や第２学習装置３０とは異なる環境に設定されてもよい。

　＜＜１．３．シンセティックイメージの生成＞＞
　次に、フェーズＦ２におけるシンセティックイメージの生成手法について述べる。本実施形態に係るフェーズＦ２においては、画像生成装置２０を用いてシンセティックイメージが生成される。

　図５は、本実施形態に係る画像生成装置２０の構成例を示すブロック図である。図５に示すように、本実施形態に係る画像生成装置２０は、少なくとも画像生成部２１０を備える。なお、第１学習装置１０は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。

　また、本実施形態に係る画像生成装置２０は、主たる開発現場に設置される。上記開発現場には、クラウド環境が含まれる。

　（画像生成部２１０）
　本実施形態に係る画像生成部２１０は、フェーズＦ１において生成されたティーチャーネットワークと、フェーズ３において生成されるスチューデントネットワークによる推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いてシンセティックイメージを生成する。

　本実施形態に係る画像生成部２１０は、例えば、実環境ＤＢ６０に保存される実環境イメージを用いてシンセティックイメージの生成を行い、生成したシンセティックイメージを生成画像ＤＢ７０に保存させる。

　本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成されてもよい。

　以下、本実施形態に係る画像生成部２１０によるシンセティックイメージの生成について詳細に説明する。図６は、本実施形態に係る画像生成部２１０を用いたシンセティックイメージ生成の流れを示すフローチャートである。

　本実施形態に係るフェーズＦ２では、まず、生成するシンセティックイメージに係るモダリティとオブジェクラスの指定が行われる（Ｓ２０２）。当該指定は、ユーザ（開発者等）により行われてよい。

　次に、画像生成部２１０は、ステップＳ２０２において指定されたモダリティとオブジェクトクラスに基づいて、対応する実環境イメージを実環境ＤＢ６０から取得する（Ｓ２０４）。

　次に、画像生成部２１０は、ティーチャーネットワークにステップＳ２０４において取得した実環境イメージを入力し特徴量を取得する（Ｓ２０６）。当該特徴量は、ティーチャーネットワークにおけるアベレッジプーリング（Average Pooling）後の特徴量であってもよい。

　次に、画像生成部２１０は、ステップＳ２０６において取得した特徴量をｔ－ＳＮＥなどを用いてある空間に射影する（Ｓ２０８）。

　なお、画像生成部２１０は、十分なデータ数となるまでステップＳ２０４～Ｓ２０８における処理を繰り返し実行する。

　ここで、十分なデータ数が集まった場合、画像生成部２１０は、規定数のクラスタ中心を取得し、Ｋ－ｍｅａｎｓを実施する（Ｓ２１０）。

　次に、画像生成部２１０は、ステップＳ２１０において得られたクラスタデータに対して主成分（Principal Components）を求める（Ｓ２１２）。なお、上記のｔ－ＳＮＥなどを用いた空間への射影は、必ずしもステップＳ２０８において実行されなくてもよい。

　次に、画像生成部２１０は、ステップＳ２１２において求めた主成分方向にノイズを乗せて新たな特徴量を生成する（Ｓ２１４）。

　すなわち、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、といえる。

　続いて、画像生成部２１０は、ステップＳ２０６において取得した特徴量と、ステップＳ２１４において生成した特徴量との差が小さくなるようなシンセティックイメージを生成する（Ｓ２１６）。

　すなわち、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、といえる。

　上記の処理は、下記の数式（１）により表すことができる。

・・・（１）

　なお、上記数式（１）におけるＸ_ｉは、生成されるシンセティックイメージを、ｇ（Ｘ_ｉ）は、Ｘを入力した際のティーチャーネットワークにおけるアベレッジプーリング後の特徴量を、ｔ_ｉは、主成分方向にノイズを付与して生成した特徴量をそれぞれ表す。

　本実施形態に係る画像生成部２１０は、定められた数のシンセティックイメージが生成されるまで、ステップＳ２１４およびＳ２１６における処理を繰り返し実行する。

　また、別のモダリティやオブジェクトクラスに係るシンセティックイメージを生成する場合、画像生成部２１０は、ステップＳ２０２に復帰し、以下の処理を繰り返し実行してもよい。

　以上、本実施形態に係るシンセティックイメージ生成の流れについて説明した。なお、より詳細な手法については、上述の非特許文献１を参照されたい。

　＜＜１．４．スチューデントネットワークの生成＞＞
　次に、フェーズＦ３におけるスチューデントネットワークの生成手法について述べる。本実施形態に係るフェーズＦ３においては、第２学習装置３０を用いてスチューデントネットワークが生成される。本実施形態に係る第２学習装置３０は、フェーズＦ２において生成されたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する情報処理装置の一例である。

　図７は、本実施形態に係る第２学習装置３０の構成例を示すブロック図である。図７に示すように、本実施形態に係る第２学習装置３０は、少なくとも第２学習部３１０を備える。なお、第１学習装置１０は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。

　また、本実施形態に係る第２学習装置３０は、主たる開発現場に設置される。上記開発現場には、クラウド環境が含まれる。

　（第２学習部３１０）
　本実施形態に係る第２学習部３１０は、大規模ＤＢ５０に保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部の一例である。また、本実施形態に係る第２学習部３１０は、ティーチャーネットワークと、スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する、ことを特徴の一つとする。

　例えば、本実施形態に係る第２学習部３１０は、フェーズＦ２において生成されたシンセティックイメージを生成画像ＤＢ７０から取得し、当該シンセティックイメージを学習データとして用いることで、スチューデントネットワークを生成する。また、第２学習部３１０は、実環境ＤＢに保存される実環境イメージを学習データとして用いてもよい。

　なお、この際、本実施形態に係る第２学習部３１０は、生成画像ＤＢ７０に保存されるシンセティックイメージのうちスチューデントネットワークによる推定の精度をより向上させると予測されるシンセティックイメージと、実環境イメージのみを学習データとして用いてもよい。

　上記のようなシンセティックイメージの選択によれば、生成されるスチューデントネットワークによる推定の精度をより効果的に向上させることが可能となる。

　例えば、本実施形態に係る第２学習部３１０は、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超えるシンセティックイメージを学習データとして用いてもよい。

　図８は、本実施形態に係る異なるモダリティ間における類似度の高いシンセティックイメージについて説明するための図である。図８には、オブジェクトクラス「ウサギ」に係るシンセティックイメージＳ１１～Ｓ１３、Ｓ２１～Ｓ２３、Ｓ３１～Ｓ３３が例示されている。ここで、シンセティックイメージＳ１１～Ｓ１３と、Ｓ２１～Ｓ２１と、Ｓ３１～Ｓ３３とは、それぞれ異なるモダリティに係るものとする。

　図８に示す一例の場合、シンセティックイメージＳ２２およびＳ３２では、被写体であるウサギの片耳が欠けおり、シンセティックイメージＳ１２との類似度が低いものとなっている。このように、異なるモダリティ間における類似度が低いシンセティックイメージは、学習データから排除されてもよい。

　上記のような異なるモダリティ間における類似度に基づくシンセティックイメージの採否判定によれば、生成されるスチューデントネットワークによる推定の精度が効果的に向上することが予想される。

　また、上記のような採否判定は、すべてのモダリティにおいてほぼ同じ形状のデータが取得できる場合に、特に有効であることが予想される。

　なお、上記の類似度は、例えば、テンプレートマッチング、特徴点マッチングなどの技術を用いて計算されてもよい。また、上記の類似度計算には、類似画像を判定するディープラーニングなどが用いられてもよい。

　図９は、本実施形態に係るモダリティ間における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。

　まず、第２学習部３１０は、生成されたシンセティックイメージに対し、異なるモダリティ間で類似度を計算する（Ｓ３０２）。

　次に、第２学習部３１０は、ステップＳ３０２で計算した類似度が閾値以下のシンセティックイメージを除外する（Ｓ３０４）。

　次に、第２学習部３１０は、残ったシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する（Ｓ３０６）。

　以上説明したように、本実施形態に係るスチューデントネットワークは、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超えるシンセティックイメージを用いた機械学習により生成されてもよい。

　一方、本実施形態に係る第２学習部３１０は、生成されたシンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超えるシンセティックイメージを学習データとして用いてもよい。

　図１０は、本実施形態に係る同一のモダリティ内における類似度の高いシンセティックイメージについて説明するための図である。図１０には、オブジェクトクラス「ウサギ」に係るシンセティックイメージＳ１１～Ｓ１３、Ｓ２１～Ｓ２３、Ｓ３１～Ｓ３３が例示されている。ここで、シンセティックイメージＳ１１～Ｓ１３と、Ｓ２１～Ｓ２１と、Ｓ３１～Ｓ３３とは、それぞれ異なるモダリティに係るものとする。

　図１０に示す一例の場合、シンセティックイメージＳ２３は、被写体であるウサギの片耳が欠けおり、同一のモダリティに係るシンセティックイメージＳ２１およびＳ２２との間の類似度が低いものとなっている。同様に、シンセティックイメージＳ３１は、被写体であるウサギの片耳が欠けおり、同一のモダリティに係るシンセティックイメージＳ３２およびＳ３３との間の類似度が低いものとなっている。このように、同一のモダリティ内における類似度が低いシンセティックイメージは、学習データから排除されてもよい。

　上記のような同一のモダリティ内における類似度に基づくシンセティックイメージの採否判定によれば、生成されるスチューデントネットワークによる推定の精度が効果的に向上することが予想される。

　また、上記のような採否判定は、モダリティ内における形状変化が小さいときに特に有効であることが予想される。また、この場合、同一のモダリティ内における類似度に基づく採否判定は、異なるモダリティ間における類似度に基づく採否判定とは異なり、各モダリティの特徴量分布が類似していない場合にも有効である。

　図１１は、本実施形態に係るモダリティ内における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。

　まず、第２学習部３１０は、生成されたシンセティックイメージに対し、同一のモダリティ内で類似度を計算する（Ｓ３１２）。

　次に、第２学習部３１０は、ステップＳ３１２で計算した類似度が閾値以下のシンセティックイメージを除外する（Ｓ３１４）。

　次に、第２学習部３１０は、残ったシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する（Ｓ３１６）。

　以上説明したように、本実施形態に係るスチューデントネットワークは、生成されたシンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超えるシンセティックイメージを用いた機械学習により生成されてもよい。

　なお、上記では、生成された複数のシンセティックイメージから学習データとして採用するシンセティックイメージを取捨選択する場合について述べた。反対に、本実施形態に係る第２学習部３１０は、生成された複数のシンセティックイメージをフュージョン（Fusion）することにより、新たなシンセティックイメージを生成し、当該新たなシンセティックイメージを学習データとして用いてもよい。以下においては、上記新たなシンセティックイメージをフュージョンイメージと称する。

　すなわち、本実施形態に係るスチューデントネットワークは、生成された複数のシンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成されてもよい。

　図１２は、本実施形態に係るフュージョンイメージの一例を示す図である。図１２には、同一のモダリティに係るシンセティックイメージＳ１１およびＳ１２をフュージョンすることにより生成されたフュージョンイメージＳ１３が例示されている。同様に、図１２には、同一のモダリティに係るシンセティックイメージＳ２１およびＳ２２をフュージョンすることにより生成されたフュージョンイメージＳ２３が例示されている。同様に、図１２には、同一のモダリティに係るシンセティックイメージＳ３１およびＳ３２をフュージョンすることにより生成されたフュージョンイメージＳ３３が例示されている。

　図１２に例示するように、本実施形態に係るフュージョンイメージは、生成されたシンセティックイメージのうち、同一のオブジェクトクラスに係る複数のシンセティックイメージをフュージョンすることにより生成されてもよい。

　また、本実施形態に係るフュージョンイメージは、生成された同一のモダリティ内に係るシンセティックイメージのうち、類似度が閾値を超える複数のシンセティックイメージをフュージョンすることにより生成されてもよい。

　なお、上記の場合、類似度を上げるために、位置合わせや回転などの処理が施されてもよい。

　また、十分に類似度が高い場合には、異なるモダリティ間に係るシンセティックイメージをフュージョンさせることで、フュージョンイメージが生成されてもよい。

　上記のようなフュージョンイメージの生成によれば、通常、特徴量空間内において表現できないデータをでき、学習データの多様性が向上する可能性がある。

　図１３は、本実施形態に係る同一のモダリティ内に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。

　まず、第２学習部３１０は、生成されたシンセティックイメージに対し、同一のモダリティ内で類似度を計算する（Ｓ３２２）。

　次に、第２学習部３１０は、ステップＳ３２２で計算した類似度が閾値を超えるシンセティックイメージをフュージョンしてフュージョンイメージを生成する（Ｓ３２４）。

　次に、第２学習部３１０は、ステップＳ３２４において生成したフュージョンイメージを含むシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する（Ｓ３２６）。なお、この場合、複数の実環境イメージをフュージョンしたイメージが学習データとして用いられてもよい。

　続いて、本実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明する。図１４は、本実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明するための図である。

　図１４には、それぞれ異なるモダリティに係るシンセティックイメージであるシンセティックイメージＳ１１、Ｓ２１、およびＳ３１と、シンセティックイメージＳ１１、Ｓ２１、およびＳ３１を連結（Concatenation）することにより生成されたフュージョンイメージＳ４１が例示されている。

　このように、本実施形態に係るフュージョンイメージは、複数の異なるモダリティに係るシンセティックイメージを連結することにより生成されてもよい。

　より詳細には、本実施形態に係るフュージョンイメージは、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数のシンセティックイメージを、チャンネル方向に連結することにより生成されてもよい。

　上記のようなフュージョンイメージの生成は、すべてのモダリティにおいてほぼ同じ形状のデータが取得できる場合に、特に有効であることが予想される。また、上記のようなフュージョンイメージによれば、すべてのモダリティの情報が活用できることから、生成されるスチューデントネットワークによる推定の精度が向上する可能性が高いと予想される。

　図１５は、本実施形態に係る異なるモダリティ間に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。

　まず、第２学習部３１０は、生成されたシンセティックイメージに対し、異なるモダリティ間で類似度を計算する（Ｓ３３２）。

　次に、第２学習部３１０は、ステップＳ３３２で計算した類似度が閾値を超えるシンセティックイメージをチャンネル方向に連結してフュージョンイメージを生成する（Ｓ３３４）。

　次に、第２学習部３１０は、ステップＳ３３４において生成したフュージョンイメージを含むシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する（Ｓ３３６）。なお、この場合、異なるモダリティに係る複数の実環境イメージをチャンネル方向に連結したイメージが学習データとして用いられてもよい。

　以上、本実施形態に係るシンセティックイメージの生成例について具体例を挙げて説明した。なお、上記で述べたようなシンセティックイメージを学習データとして用いることで、生成されるスチューデントネットワークによる推定の精度を効果的に向上させることが可能となる。

　なお、上記で例示したような、異なるモダリティ間に係るシンセティックイメージの類似度に基づく処理を行う場合には、各モダリティの特徴量分布が類似していることが望ましい。

　しかし、実際には、モダリティ間で特徴量分布が一致している保証はない。このため、何らの処理も行わない場合、類似するイメージが得られない可能性や、シンセティックイメージの生成に用いるノイズの値が同一であっても、特徴量空間上で異なる距離や方向を意味してしまう可能性がある。

　上記に鑑み、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成されてもよい。当該処理は、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージを対象として実施されてよい。

　上記の処理によれば、モダリティ間の特徴量分布の差異を吸収し、学習データとしてより有用なシンセティックイメージを生成することが可能となる。

　図１６は、本実施形態に係る各モダリティに係る特徴量分布を類似させる処理の一例を示す図である。当該処理においては、まず同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージが取得される。

　また、図１６に示す一例の場合、第１学習部１１０は、上記のように取得された複数の実環境イメージをチャネル方向に連結したイメージＥ１１を生成し、イメージＥ１１を学習データとする機械学習によりティーチャーネットワークＴ４を生成する。

　上記のように生成されるティーチャーネットワークＴ４を用いることにより、イメージＥ１１の生成に用いられたすべてのモダリティに係るシンセティックイメージＳ４１を生成することが可能なる。

　また、各モダリティに係る特徴量分布を類似させる処理は、あるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量と、モダリティとは異なるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理を含んでもよい。

　上記処理には、例えば、ドメイン適応（Domain Adaptation）が挙げられる。例えば、Ｘ_ｓをＲＧＢカメラにより取得した実環境イメージから得られる特徴量、Ｘ_ｔをＴｏＦカメラにより取得した実環境イメージから得られる特徴量とした場合、第１学習部１１０は、Ｘ_ｓの分布とＸ_ｔの分布とが近づくように学習を行ってよい。

　また、各モダリティに係る特徴量分布を類似させる処理は、あるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量に変換する処理を含んでもよい。

　本実施形態に係る第１学習部１１０は、例えば、あるモダリティに係る特徴量を別のモダリティに係る特徴量に射影する変換行列を機械学習手法等を用いて求め、当該変換行列を用いて特徴量の変化を行ってもよい。

　例えば、Ｘ_ｓをＲＧＢカメラにより取得した実環境イメージから得られる特徴量、Ｘ_ｔをＴｏＦカメラにより取得した実環境イメージから得られる特徴量とした場合、第１学習部１１０は、Ｘ_ｔ＝Ａ_Ｘｓ＋Ｂ、を満たすようなＡおよびＢを求めることで、特徴量の変化を実現することができる。なお、ここでは、一例として線形回帰問題を示したが、変換行列は非線形回帰問題により求められてもよい。

　以上、本実施形態に係る各モダリティに係る特徴量分布を類似させる処理について具体例を示した。なお、上記はあくまで一例であり、各モダリティに係る特徴量分布の類似度の向上には、他の手段が用いられてもよい。

　＜＜１．５．スチューデントネットワークを用いた推定＞＞
　次に、フェーズＦ４におけるスチューデントネットワークを用いた推定について述べる。本実施形態に係るフェーズＦ４においては、フェーズＦ３において生成されたスチューデントネットワークを用いた推定が実施される。本実施形態に係る推定装置４０は、スチューデントネットワークを用いてオブジェクトクラスを推定する情報処理装置の一例である。

　図１７は、本実施形態に係る推定装置４０の構成例を示すブロック図である。図１７に示すように、本実施形態に係る推定装置４０は、少なくとも取得部４１０と、推定部４２０とを備える。なお、推定装置４０は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。また、推定装置４０は、例えば、自動車等の移動体に搭載されてもよい。

　（取得部４１０）
　本実施形態に係る取得部４１０は、実環境においてイメージを取得する。より具体的には、本実施形態に係る取得部４１０は、推定部４２０が用いるスチューデントネットワークの学習に用いられたシンセティックイメージの生成に利用された実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する。

　例えば、シンセティックイメージの生成に利用された実環境イメージの取得に、ＲＧＢカメラとＴｏＦカメラとが用いられた場合、取得部４１０は、ＲＧＢカメラまたはＴｏＦカメラのうち少なくとも一つを用いてイメージを取得する。

　（推定部４２０）
　本実施形態に係る推定部４２０は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する。

　例えば、本実施形態に係る推定部４２０は、取得部４１０が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定してもよい。本実施形態に係る推定部４２０は、シンセティックイメージの生成に利用された実環境イメージの取得に用いられたモダリティのうち、少なくとも一つのモダリティにより取得されたイメージがあれば、当該イメージをスチューデントネットワークに入力し、推定結果を出力することができる。

　以下、本実施形態に係る推定装置４０による推定の流れについて説明する。図１８は、本実施形態に係る推定装置４０による処理の流れを示すフローチャートである。

　図１８に示すように、まず、取得部４１０が、シンセティックイメージの生成に利用された実環境イメージの取得に用いられたモダリティと同一のモダリティでイメージを取得する（Ｓ４０２）。

　次に、推定部４２０が、ステップＳ４０２において取得されたイメージをスチューデントネットワークに入力し、当該イメージに含まれるオブジェクトのオブジェクトクラス推定を行う（Ｓ４０６）。

　続いて、推定部４２０は、推定結果を出力する（Ｓ４０６）。当該推定結果は、例えば、推定装置４０または移動体が備える表示部などに表示されてもよいし、移動体が備える各装置（例えば、ブレーキや、ステアリング等）の制御に用いられてもよい。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る第１学習装置１０、画像生成装置２０、第２学習装置３０、および推定装置４０に共通するハードウェア構成例について説明する。図１９は、本開示の一実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。情報処理装置９０は、上記各装置と同等のハードウェア構成を有する装置であってよい。図１９に示すように、情報処理装置９０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る推定装置４０は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部４２０を備える。

　また、本開示の一実施形態に係る第２学習装置３０は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する第２学習部３１０を備える。本開示の一実施形態に係る第２学習部３１０は、ティーチャーネットワークと、スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する、ことを特徴の一つとする。

　上記の構成によれば、スチューデントネットワークを用いた推定の精度をより向上させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、本技術は、音源を可視化したイメージに適用されてもよい。近年においては、音源からイメージを生成する各種の技術が開発されている。例えば、画像生成装置２０は、音源を可視化したイメージを用いてシンセティックイメージを生成し、第２学習装置３０は、当該シンセティックイメージを用いてスチューデントネットワークを生成してもよい。この場合、推定装置４０は、上記のように生成されたスチューデントネットワークを用いることで、音源に係るクラスを推定することも可能である。

　また、本明細書において説明した処理に係る各ステップは、必ずしもフローチャートやシーケンス図に記載された順序に沿って時系列に処理される必要はない。例えば、各装置の処理に係る各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体（非一時的な媒体：ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｍｅｄｉａ）に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にＲＡＭに読み込まれ、各種のプロセッサにより実行される。上記記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
　を備え、
　前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
情報処理装置。
（２）
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成される、
前記（１）に記載の情報処理装置。
（３）
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、
前記（２）に記載の情報処理装置。
（４）
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に前記主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、
前記（３）に記載の情報処理装置。
（５）
　前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記スチューデントネットワークは、生成された複数の前記シンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成される、
前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、類似度が閾値を超える複数の前記シンセティックイメージをフュージョンすることにより生成される、
前記（７）に記載の情報処理装置。
（９）
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、同一のオブジェクトクラスに係る複数の前記シンセティックイメージをフュージョンすることにより生成される、
前記（７）または（８）に記載の情報処理装置。
（１０）
　前記フュージョンイメージは、複数の異なるモダリティに係る前記シンセティックイメージを連結することにより生成される、
前記（７）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数の前記シンセティックイメージを、チャンネル方向に連結することにより生成される、
前記（１０）に記載の情報処理装置。
（１２）
　前記シンセティックイメージは、単一のモダリティに対応した複数の前記ティーチャーネットワークのそれぞれに、対応するモダリティにより取得された前記実環境イメージを入力することに基づいて生成される、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成される、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１４）
　前記シンセティックイメージは、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージをチャンネル方向に連結したイメージを学習データとする機械学習により生成された前記ティーチャーネットワークを用いて生成される、
前記（１３）に記載の情報処理装置。
（１５）
　前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量と、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理に基づいて生成される、
前記（１３）に記載の情報処理装置。
（１６）
　前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量に変換する処理に基づいて生成される、
前記（１３）に記載の情報処理装置。
（１７）
　前記実環境においてイメージを取得する取得部、
　をさらに備え、
　前記推定部は、前記取得部が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する、
前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記取得部は、前記シンセティックイメージの生成に利用された前記実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する、
前記（１７）に記載の情報処理装置。
（１９）
　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、
　を備え、
　前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、
情報処理装置。
（２０）
　コンピュータを、
　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
　を備え、
　前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
　情報処理装置、
として機能させるためのプログラム。

　１０　　　第１学習装置
　１１０　　第１学習部
　２０　　　画像生成装置
　２１０　　画像生成部
　３０　　　第２学習装置
　３１０　　第３学習部
　４０　　　推定部
　４１０　　取得部
　４２０　　推定部
　５０　　　大規模ＤＢ
　６０　　　実環境ＤＢ
　７０　　　生成画像ＤＢ

Claims

　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
　を備え、
　前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
情報処理装置。
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成される、
請求項１に記載の情報処理装置。
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、
請求項２に記載の情報処理装置。
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に前記主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、
請求項３に記載の情報処理装置。
　前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
請求項１に記載の情報処理装置。
　前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
請求項１に記載の情報処理装置。
　前記スチューデントネットワークは、生成された複数の前記シンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成される、
請求項１に記載の情報処理装置。
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、類似度が閾値を超える複数の前記シンセティックイメージをフュージョンすることにより生成される、
請求項７に記載の情報処理装置。
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、同一のオブジェクトクラスに係る複数の前記シンセティックイメージをフュージョンすることにより生成される、
請求項７に記載の情報処理装置。
　前記フュージョンイメージは、複数の異なるモダリティに係る前記シンセティックイメージを連結することにより生成される、
請求項７に記載の情報処理装置。
　前記フュージョンイメージは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数の前記シンセティックイメージを、チャンネル方向に連結することにより生成される、
請求項１０に記載の情報処理装置。
　前記シンセティックイメージは、単一のモダリティに対応した複数の前記ティーチャーネットワークのそれぞれに、対応するモダリティにより取得された前記実環境イメージを入力することに基づいて生成される、
請求項１に記載の情報処理装置。
　前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成される、
請求項１に記載の情報処理装置。
　前記シンセティックイメージは、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージをチャンネル方向に連結したイメージを学習データとする機械学習により生成された前記ティーチャーネットワークを用いて生成される、
請求項１３に記載の情報処理装置。
　前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量と、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理に基づいて生成される、
請求項１３に記載の情報処理装置。
　前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量に変換する処理に基づいて生成される、
請求項１３に記載の情報処理装置。
　前記実環境においてイメージを取得する取得部、
　をさらに備え、
　前記推定部は、前記取得部が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する、
請求項１に記載の情報処理装置。
　前記取得部は、前記シンセティックイメージの生成に利用された前記実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する、
請求項１７に記載の情報処理装置。
　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、
　を備え、
　前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、
情報処理装置。
　コンピュータを、
　大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
　を備え、
　前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
　情報処理装置、
として機能させるためのプログラム。