WO2023106252A1

WO2023106252A1 - 情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体

Info

Publication number: WO2023106252A1
Application number: PCT/JP2022/044680
Authority: WO
Inventors: 智佐藤; 一生登; 俊介安木
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-12-09
Filing date: 2022-12-05
Publication date: 2023-06-15
Also published as: US20240320495A1; CN118382877A; JPWO2023106252A1

Abstract

第３モデル訓練部（１３）は、訓練した第１ニューラルネットワークモデルと第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルに第２センシングデータ及び第１動作パラメータを入力して第３ニューラルネットワークモデルから出力された識別結果と、第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第２ニューラルネットワークモデルを訓練し、第２動作パラメータ取得部（１５）は、誤差逆伝播法により第１ニューラルネットワークモデルから第１動作パラメータを更新した第２動作パラメータを取得する。

Description

情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体

　本開示は、機械学習により識別モデルを生成するとともに、識別モデルに入力するセンシングデータを得るためセンサの動作パラメータを最適化する技術に関する。

　自動運転の車両及びロボットにおいて、周囲の物体を識別し、環境を認識する技術は重要である。近年、物体識別のために、ディープラーニング（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ）と呼ばれる技術が注目されている。ディープラーニングとは、多層構造のニューラルネットワークを用いた機械学習であり、大量の訓練データを使用することで、従来の機械学習と比べて、より高精度な識別性能を実現することが可能である。そして、このような物体識別において、画像情報は特に有効である。例えば、非特許文献１では、画像情報を入力としたディープラーニングによって、従来の物体識別能力を大幅に向上させる手法が開示されている。

　このような情報処理システムでは、画像情報を入力するための入力デバイスとしてカメラが広く使われている。通常、このようなカメラは市販のカメラが使われている。しかし、市販のカメラは人が見ることを目的に開発されたものであり、ディープラーニングなどの入力デバイスとしては最適ではない。例えば、非特許文献２では、通常のカメラでは不要とされてきた色収差又は非点収差が奥行推定又は３次元物体検出を目的としたディープラーニングでは重要であることが開示されている。また、例えば、非特許文献２では、屈折又は回折を表現可能な波動光学を利用して、カメラの結像を微分可能なモデルとして定式化し、このモデルと奥行推定のためのディープラーニングモデルとを誤差逆伝播法により訓練することで、色収差又は非点収差などの動作パラメータを最適に設計する方法が開示されている。

　また、例えば、非特許文献３では、時空間圧縮センシング画像から行動識別を実施する際、時空間圧縮センシングをＥｎｃｏｄｉｎｇ　ｎｅｔｗｏｒｋとしてディープラーニングで表現することで行動識別に最適な圧縮センシングパターンと識別モデルとを同時に最適化する手法が開示されている。

　しかしながら、上記従来の技術では、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することが困難であるとともに、ニューラルネットワークモデルの識別精度を向上させることが困難であり、更なる改善が必要とされていた。

Ａ．Ｋｒｉｚｈｅｖｓｋｙ、Ｉ．Ｓｕｔｓｋｅｖｅｒ、及びＧ．Ｅ．Ｈｉｎｔｏｎ、「ＩｍａｇｅＮｅｔ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｗｉｔｈ　Ｄｅｅｐ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ」、ＮＩＰＳ’１２：Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２５ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎｅｕｒａｌ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｓｔｅｍｓ、Ｖｏｌｕｍｅ　１、ｐｐ．１０９７－１１０５、２０１２年１２月Ｊｕｌｉｅ　Ｃｈａｎｇ、及びＧｏｒｄｏｎ　Ｗｅｔｚｓｔｅｉｎ、「Ｄｅｅｐ　Ｏｐｔｉｃｓ　ｆｏｒ　Ｍｏｎｏｃｕｌａｒ　Ｄｅｐｔｈ　Ｅｓｔｉｍａｔｉｏｎ　ａｎｄ　３Ｄ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ」、Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ、ｐｐ．１０１９３－１０２０２、２０１９年Ｔａｄａｓｈｉ　Ｏｋａｗａｒａ、Ｍｉｃｈｉｔａｋａ　Ｙｏｓｈｉｄａ、Ｈａｊｉｍｅ　Ｎａｇａｈａｒａ、及びＹａｓｕｓｈｉ　Ｙａｇｉ、「Ａｃｔｉｏｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　ｆｒｏｍ　ａ　Ｓｉｎｇｌｅ　Ｃｏｄｅｄ　Ｉｍａｇｅ」、Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｐｈｏｔｏｇｒａｐｈｙ、２０２０年

　本開示は、上記の問題を解決するためになされたもので、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる技術を提供することを目的とするものである。

　本開示に係る情報処理方法は、コンピュータが、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得する。

　本開示によれば、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる。

本開示の実施形態にかかる訓練システムの構成を示すブロック図である。第１センサの一例であるレンズレスマルチピンホールカメラの構造を模式的に示す図である。本開示の実施形態に係る訓練システムによる訓練処理について説明するためのフローチャートである。本実施形態における第１ニューラルネットワークモデルの訓練を説明するための模式図である。本実施形態における第３ニューラルネットワークモデルの訓練を説明するための模式図である。複数のピンホールが形成されたマルチピンホールマスクの一例を示す模式図である。複数の視点位置から画像を撮像する第２センサの一例を示す模式図である。第１センサの他の例である符号化開口カメラの構造を模式的に示す図である。

　（本開示の基礎となった知見）
　上記の非特許文献２では、最適な色収差又は非点収差を求めるために、カメラの結像を微分可能なモデルで表現しているが、このような微分可能なモデルで表現できる入力デバイスは限られている。実際、非特許文献２においても、カメラの結像を微分可能なモデルとするために、被写体の奥行を量子化した層構造で近似したり、実際にはイメージセンサ上の場所によって異なるボケを均一であると近似したりしている。そのため、このモデルの物体検出精度は、高精度な奥行情報を利用した３次元物体検出精度には及ばない。

　また、非特許文献３では、圧縮センシングの符号化露光パターンを１層のネットワークとして実装しているが、カメラの結像など、より複雑な撮像システムには実装が難しい。さらに、モデルが未知のデバイスは利用することができなかった。

　一方、本開示における、入力デバイスを利用した情報処理方法は、入力デバイスとその動作パラメータとからそのデバイス出力の回帰モデルを利用することで、動作パラメータを最適化する。回帰モデルはディープラーニングなど機械学習を利用して訓練される。回帰モデルは、ディープラーニングを利用して訓練されるため、微分可能であり、非特許文献２のような近似を利用しなくてもよい。また、入力デバイスの形態に依存せずに回帰モデルが訓練で取得されるため、複雑なモデルにも、未知のモデルにも対応することができる。そのため、入力デバイスに依存せずに、最適な動作パラメータを設計することができる。

　上記の課題を解決するために、下記の技術が開示される。

　（１）本開示の一態様に係る情報処理方法は、コンピュータが、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得する。

　この構成によれば、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし第１動作パラメータを用いた第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルが訓練される。そして、訓練された第１ニューラルネットワークモデルの出力が、第１センシングデータを入力とし第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、第１ニューラルネットワークモデルと第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルが生成される。そして、第３ニューラルネットワークモデルに第２センシングデータ及び第１動作パラメータが入力されて第３ニューラルネットワークモデルから出力された識別結果と、第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第２ニューラルネットワークモデルが訓練される。そして、誤差逆伝播法により第１ニューラルネットワークモデルから第１動作パラメータを更新した第２動作パラメータが取得される。したがって、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる。

　（２）上記（１）記載の情報処理方法において、前記第１センサは、符号化開口カメラであり、前記第１動作パラメータは、符号化マスクとイメージセンサとの距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも１つであってもよい。

　第１動作パラメータである、符号化マスクとイメージセンサとの距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも１つによって、符号化開口カメラによる撮像画像は大きく変化するため、最適な第１動作パラメータを決定する必要がある。この構成によれば、第２ニューラルネットワークモデルの識別結果が向上するように、第１動作パラメータが最適化されるので、第２ニューラルネットワークモデルの識別性能を向上させることができる。

　（３）上記（１）記載の情報処理方法において、前記第１センサは、レンズレスマルチピンホールカメラであり、前記第１動作パラメータは、前記レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも１つであってもよい。

　第１動作パラメータである、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも１つによって、レンズレスマルチピンホールカメラによる撮像画像は大きく変化するため、最適な第１動作パラメータを決定する必要がある。この構成によれば、第２ニューラルネットワークモデルの識別結果が向上するように、第１動作パラメータが最適化されるので、第２ニューラルネットワークモデルの識別性能を向上させることができる。

　（４）上記（１）～（３）のいずれか１つに記載の情報処理方法において、前記第２センシングデータは、前記第１センシングデータと比較して、ボケの少ない画像であってもよい。

　この構成によれば、第２センシングデータは、第１センシングデータと比較して、ボケの少ない画像である。そのため、第１動作パラメータと第２センシングデータとが第１ニューラルネットワークモデルに入力されることで、第１ニューラルネットワークモデルから、第１動作パラメータを用いた第１センサの動作により得られるボケのある画像を第１センシングデータとして出力させることができる。

　（５）上記（４）記載の情報処理方法において、前記第２センサは、レンズ、１つの絞り及び撮像素子を備えるカメラであってもよい。

　この構成によれば、レンズ、１つの絞り及び撮像素子を備えるカメラにより、第１センシングデータと比較して、ボケの少ない画像を得ることができる。

　（６）上記（４）記載の情報処理方法において、前記第２センサは、ピンホールカメラであってもよい。

　この構成によれば、ピンホールカメラは、マルチピンホールカメラに対して周辺減光又は撮像素子のノイズ特性などが近似した画像を取得することができる。そのため、第１動作パラメータとピンホールカメラで撮像された第２センシングデータとが第１ニューラルネットワークモデルに入力されることにより、第１ニューラルネットワークモデルはより高精度の第１センシングデータを出力できる。

　（７）上記（１）～（６）のいずれか１つに記載の情報処理方法において、前記第２センシングデータは、異なる視点位置で撮像された画像であってもよい。

　この構成によれば、第１ニューラルネットワークモデルは、異なる視点位置で撮像された画像から、異なる視点位置で撮像された画像を重畳した画像を第１センシングデータとして生成することができる。

　（８）上記（７）記載の情報処理方法において、前記第２センシングデータは、複数の視点位置で撮像された画像であってもよい。

　この構成によれば、第１ニューラルネットワークモデルは、複数の視点位置で撮像された画像から、複数の視点位置で撮像された画像を重畳した画像を第１センシングデータとして生成することができる。

　（９）上記（８）記載の情報処理方法において、前記第１センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像であり、前記第２センシングデータは、前記複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像であってもよい。

　この構成によれば、第２センシングデータは、複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像であるので、第２センサは、第１センサと同様の奥行情報を取得することができる。このように、奥行情報を与えることができる第２センサが利用されることで、第１ニューラルネットワークモデルはより高精度の第１センシングデータを出力できる。

　また、本開示は、以上のような特徴的な処理を実行する情報処理方法として実現することができるだけでなく、情報処理方法が実行する特徴的な方法に対応する特徴的な構成を備える情報処理システムなどとして実現することもできる。また、このような情報処理方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の情報処理方法と同様の効果を奏することができる。

　（１０）本開示の他の態様に係る情報処理システムは、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練する第１訓練部と、訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成する生成部と、前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練する第２訓練部と、前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得する取得部と、を備える。

　（１１）本開示の他の態様に係る情報処理プログラムは、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得するようにコンピュータを機能させる。

　（１２）本開示の他の態様に係るコンピュータ読み取り可能な非一時的な記録媒体は、情報処理プログラムを記録しており、前記情報処理プログラムは、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得するようにコンピュータを機能させる。

　以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

　（実施形態）
　図１は、本開示の実施形態にかかる訓練システム１０の構成を示すブロック図である。

　訓練システム１０は、具体的には図示されていないマイクロプロセッサ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びハードディスクなどから構成される。ＲＡＭ、ＲＯＭ又はハードディスクは、コンピュータプログラムを記憶しており、マイクロプロセッサがコンピュータプログラムに従って動作することにより、訓練システム１０の機能が実現される。

　図１に示す訓練システム１０は、第１モデル訓練部１１、第３モデル生成部１２、第３モデル訓練部１３、第２モデル取得部１４、第２動作パラメータ取得部１５、出力部１６、訓練データ記憶部２１、第１モデル記憶部２２及び第２モデル記憶部２３を備える。

　訓練データ記憶部２１は、第１ニューラルネットワークモデル及び第２ニューラルネットワークモデルを訓練するために利用するデータを記憶している。訓練データ記憶部２１は、第１センサの動作に用いられる第１動作パラメータと、第２センサの動作により得られる第２センシングデータと、第１動作パラメータを用いた第１センサの動作により得られる第１センシングデータと、第２センシングデータに対応する正解識別情報（アノテーション情報）とを対応付けて記憶している。

　本実施形態において、第１センサは、レンズレスマルチピンホールカメラである。第１動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも１つである。第２センサは、レンズ、１つの絞り及び撮像素子を備える通常カメラである。第２センシングデータは、通常カメラの撮像により取得される第２訓練用画像である。第２訓練用画像は、第２ニューラルネットワークモデルの識別対象である被写体を含む画像である。第１センシングデータは、レンズレスマルチピンホールカメラの撮像により取得される第１訓練用画像である。第１センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像である。第２センシングデータは、第１センシングデータと比較して、ボケの少ない画像である。第１訓練用画像は、ボケのある画像であり、第２訓練用画像は、ボケのない画像である。第１訓練用画像は、第２訓練用画像と同じ場面を撮像した画像である。

　なお、第１センサは、例えば、レンズレスカメラ、符号化開口カメラ（Ｃｏｄｅｄ　Ａｐｅｒｔｕｒｅ　Ｃａｍｅｒａ）又はライトフィールドカメラなどの他の計算撮像カメラであってもよい。第１センサは、撮像によりボケ画像を取得する。本実施形態における第１センサは、複数のピンホールが形成されたマスクパターンを有するマスクが撮像素子の受光面を覆うように配置されたレンズレスマルチピンホールカメラである。言い換えると、マスクパターンは、被写体と受光面との間に配置されるともいえる。

　第１センサは、ボケのない通常の画像を撮像する通常のカメラと異なり、ボケのある画像である計算撮像画像を撮像する。計算撮像画像は、意図的に作り出されたボケによって撮像画像自体を人が見ても被写体を認識できない画像である。

　また、第２センサは、通常カメラでなくてもよく、例えばピンホールカメラであってもよく、第１センサと比較して、ボケの小さな画像を取得できればよい。正解識別情報は、識別タスクごとに異なる。例えば、識別タスクが物体検出であれば、正解識別情報は、検出対象が画像上に占める領域を表すバウンディングボックスである。また、例えば、識別タスクが物体識別であれば、正解識別情報は、分類結果である。また、例えば、識別タスクが画像の領域分割であれば、正解識別情報は、画素ごとの領域情報である。

　図２は、第１センサの一例であるレンズレスマルチピンホールカメラ２００の構造を模式的に示す図である。図２は、レンズレスマルチピンホールカメラ２００を上から見た図である。

　図２に示すレンズレスマルチピンホールカメラ２００は、マルチピンホールマスク２０１と、ＣＭＯＳなどのイメージセンサ２０２とを有する。マルチピンホールマスク２０１は、イメージセンサ２０２の受光面から一定距離離れて配置されている。レンズレスマルチピンホールカメラ２００の焦点距離は、マルチピンホールマスク２０１とイメージセンサ２０２との間の距離である。マルチピンホールマスク２０１は、ランダム又は等間隔に配置された複数のピンホール２１１，２１２を有している。複数のピンホール２１１，２１２は、マルチピンホールとも呼ばれる。イメージセンサ２０２は、各ピンホール２１１，２１２を通じて被写体の画像を取得する。ピンホールを通じて取得される画像は、ピンホール画像とも呼ばれる。

　各ピンホール２１１，２１２の位置及び大きさによって被写体のピンホール画像は異なる。そのため、イメージセンサ２０２は、複数のピンホール画像がわずかにずれて重なり合った状態（多重像）の重畳画像を取得する。複数のピンホール２１１，２１２の位置関係は、イメージセンサ２０２上に投影される複数のピンホール画像の位置関係（つまり多重像の重畳の度合い）に影響を与える。ピンホール２１１，２１２の大きさは、ピンホール画像のボケの度合いに影響を与える。また、ピンホール２１１，２１２の数は、ピンホール画像の重畳数となり、撮像画像のボケの度合いに影響を与える。

　マルチピンホールマスク２０１が用いられることによって、位置及びボケの程度が異なる複数のピンホール画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮像画像は多重像かつボケ画像となり、これらのボケによって被写体のプライバシーが保護された画像を取得することができる。

　また、複数のピンホールの数、複数のピンホールの位置、及び複数のピンホールの大きさが変更されることで、ボケ方の異なる画像が取得可能となる。つまり、マルチピンホールマスク２０１は、ユーザによって容易に脱着できる構造であってもよい。マスクパターンが異なる複数種類のマルチピンホールマスク２０１が予め用意されていてもよい。マルチピンホールマスク２０１は、画像識別時に使用されるレンズレスマルチピンホールカメラのマスクパターンに応じて、ユーザによって自由に交換されてもよい。

　なお、このようなマルチピンホールマスク２０１の変更は、マルチピンホールマスク２０１の交換以外にも、以下の様々な方法で実現可能である。例えば、マルチピンホールマスク２０１は、イメージセンサ２０２の前に回動自在に取り付けられていてもよく、ユーザによって任意に回転されてもよい。また、例えば、マルチピンホールマスク２０１は、イメージセンサ２０２の前に取り付けられている板の任意の箇所に、ユーザによって穴が開けられることにより、作成されてもよい。また、例えば、マルチピンホールマスク２０１は、空間光変調器などを利用した液晶マスクであってもよい。マルチピンホールマスク２０１内の各位置の透過率が任意に設定されることにより、所定の数のピンホールが所定の位置に形成されてもよい。さらに、例えば、マルチピンホールマスク２０１は、ゴムなどの伸縮可能な材質を用いて成形されてもよい。ユーザは、外力の印加によってマルチピンホールマスク２０１を物理的に変形させ、各ピンホールの位置及び大きさを変えてもよい。

　つまり、第１動作パラメータであるレンズレスマルチピンホールカメラ２００の焦点距離、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置によって、撮像画像は大きく変化する。そのため、最適な第１動作パラメータを決定する必要がある。本実施形態の訓練システム１０では、第２ニューラルネットワークモデルの識別結果が向上するように、第１動作パラメータを最適化する。これにより、第２ニューラルネットワークモデルの識別結果が向上する。

　なお、図２では、２つのピンホール２１１，２１２が水平方向に並んで配置されているが、本開示は特にこれに限定されず、レンズレスマルチピンホールカメラ２００は、３つ以上のピンホールを備えてもよい。また、２つのピンホール２１１，２１２は、垂直方向に並んで配置されてもよい。

　第１モデル記憶部２２は、第１ニューラルネットワークモデルを記憶している。第１ニューラルネットワークモデルは、第１センサを模擬したデバイスシミュレータである。第１動作パラメータ及び第２センシングデータが第１ニューラルネットワークモデルに入力されると、第１ニューラルネットワークモデルは、第１動作パラメータを用いて第１センサが動作することにより第２センシングデータから得られる第１センシングデータを出力する。

　第２モデル記憶部２３は、第２ニューラルネットワークモデルを記憶している。第１センシングデータ又は第１ニューラルネットワークモデルの出力が第２ニューラルネットワークモデルに入力されると、第２ニューラルネットワークモデルは、識別結果を出力する。

　第１モデル訓練部１１は、第１ニューラルネットワークモデルを第１モデル記憶部２２から取得する。また、第１モデル訓練部１１は、第１センシングデータ、第１動作パラメータ及び第２センシングデータを訓練データ記憶部２１から取得する。

　第１モデル訓練部１１は、第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし第１動作パラメータを用いた第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練する。

　第３モデル生成部１２は、第２ニューラルネットワークモデルを第２モデル記憶部２３から取得する。第３モデル生成部１２は、訓練した第１ニューラルネットワークモデルの出力が、第１センシングデータを入力とし第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、第１ニューラルネットワークモデルと第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成する。

　第３モデル訓練部１３は、第３ニューラルネットワークモデルに第２センシングデータ及び第１動作パラメータを入力して第３ニューラルネットワークモデルから出力された識別結果と、第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第２ニューラルネットワークモデルを訓練する。

　第２モデル取得部１４は、第３モデル訓練部１３によって訓練された第２ニューラルネットワークモデルを取得する。

　第２動作パラメータ取得部１５は、誤差逆伝播法により第１ニューラルネットワークモデルから第１動作パラメータを更新した第２動作パラメータを取得する。

　出力部１６は、第２動作パラメータ取得部１５によって取得された第２動作パラメータを出力する。

　続いて、本開示の実施形態に係る訓練システム１０による訓練処理について説明する。

　図３は、本開示の実施形態に係る訓練システム１０による訓練処理について説明するためのフローチャートである。

　まず、第１モデル訓練部１１は、第１ニューラルネットワークモデルを第１モデル記憶部２２から取得する（ステップＳ１０１）。

　次に、第１モデル訓練部１１は、第１ニューラルネットワークモデルの訓練に必要なデータである、第１センシングデータ、第１動作パラメータ及び第２センシングデータを訓練データ記憶部２１から取得する（ステップＳ１０２）。具体的には、第１モデル訓練部１１は、第１センサであるレンズレスマルチピンホールカメラにより撮像された第１訓練用画像と、第１訓練用画像の撮像に用いられたレンズレスマルチピンホールカメラの第１動作パラメータと、第１訓練用画像と同じ場面を第２センサである通常カメラにより撮像した第２訓練用画像とを取得する。第１動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置である。

　次に、第１モデル訓練部１１は、訓練データ記憶部２１から取得した第１センシングデータ、第１動作パラメータ及び第２センシングデータを利用して、第１ニューラルネットワークモデルを訓練する（ステップＳ１０３）。第１モデル訓練部１１は、訓練データ記憶部２１から取得した第１動作パラメータ及び第２センシングデータを入力データとし、訓練データ記憶部２１から取得した第１センシングデータを教師データとし、第１動作パラメータ及び第２センシングデータが入力されると第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練する。第１モデル訓練部１１は、例えば、ディープラーニングにおけるアルゴリズムの１つである誤差逆伝播法（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）により第１ニューラルネットワークモデルを訓練する。

　図４は、本実施形態における第１ニューラルネットワークモデルの訓練を説明するための模式図である。

　第１モデル訓練部１１は、第１動作パラメータであるレンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置と、第２センシングデータである通常カメラにより撮像された第２訓練用画像とを入力データとして第１ニューラルネットワークモデル１０１に与える。そして、第１モデル訓練部１１は、第２訓練用画像と同じ場面を第１動作パラメータで設計されたレンズレスマルチピンホールカメラが仮想的に撮像した場合に得られる推定画像を出力データとして第１ニューラルネットワークモデル１０１から取得する。そして、第１モデル訓練部１１は、第１ニューラルネットワークモデル１０１から出力された推定画像と、第２訓練用画像と同じ場面を第１動作パラメータで設計されたレンズレスマルチピンホールカメラが実際に撮像することにより得られた第１訓練用画像との誤差が最小となるように、第１ニューラルネットワークモデル１０１の重みを更新する。

　なお、第１モデル訓練部１１は、第１動作パラメータを属性として出力画像を生成する訓練方法として、例えば、Ｃｏｎｄｉｔｉｏｎａｌ　ＧＡＮ又はＣｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　ＧＡＮなどを利用してもよく、第１動作パラメータを多次元潜在変数として第１ニューラルネットワークモデルを訓練すればよい。Ｃｏｎｄｉｔｉｏｎａｌ　ＧＡＮについては、既存の文献（Ｍｅｈｄｉ　Ｍｉｒｚａ、及びＳｉｍｏｎ　Ｏｓｉｎｄｅｒｏ、「Ｃｏｎｄｉｔｉｏｎａｌ　Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｓ」、ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１４１１．１７８４、２０１４年）に開示されており、Ｃｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　ＧＡＮについては、既存の文献（Ｔａｋｕｈｉｒｏ　Ｋａｎｅｋｏ、Ｋａｏｒｕ　Ｈｉｒａｍａｔｓｕ、及びＫｕｎｉｏ　Ｋａｓｈｉｎｏ、「Ｇｅｎｅｒａｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｃｏｎｔｒｏｌｌｅｒ　ｗｉｔｈ　Ｃｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋｓ」、Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ、ｐｐ．６０８９－６０９８、２０１７年）に開示されている。

　このように、第１ニューラルネットワークモデルが訓練されることで、第１動作パラメータ及び第２センシングデータが第１ニューラルネットワークモデルに与えられることで、第２センシングデータである通常カメラで撮像された画像を第１動作パラメータのレンズレスマルチピンホールカメラで撮像した際の推定画像が第１ニューラルネットワークモデルから出力可能になる。

　なお、第１モデル訓練部１１は、訓練した第１ニューラルネットワークモデルを第１モデル記憶部２２に出力し、訓練した第１ニューラルネットワークモデルを第１モデル記憶部２２に記憶してもよい。第１モデル訓練部１１は、第１モデル記憶部２２に記憶されている第１ニューラルネットワークモデルを訓練済みの第１ニューラルネットワークモデルに更新してもよい。

　図３に戻り、次に、第３モデル生成部１２は、第２ニューラルネットワークモデルを第２モデル記憶部２３から取得する（ステップＳ１０４）。

　次に、第３モデル生成部１２は、第１モデル訓練部１１によって訓練された第１ニューラルネットワークモデルの出力が、第２モデル記憶部２３から取得した第２ニューラルネットワークモデルに入力されるように、第１ニューラルネットワークモデルと第２ニューラルネットワークモデルとを連結して第３ニューラルネットワークモデルを生成する（ステップＳ１０５）。

　次に、第３モデル訓練部１３は、第３ニューラルネットワークモデルの訓練に必要なデータである、第２センシングデータ、第１動作パラメータ及び第２センシングデータに対応する正解識別情報を訓練データ記憶部２１から取得する（ステップＳ１０６）。具体的には、第３モデル訓練部１３は、第２センサである通常カメラにより撮像された第２訓練用画像と、第１センサであるレンズレスマルチピンホールカメラの第１動作パラメータと、第２訓練用画像に対する正解識別情報とを取得する。第１動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置である。

　次に、第３モデル訓練部１３は、訓練データ記憶部２１から取得した第２センシングデータ、第１動作パラメータ及び正解識別情報を利用して、第３ニューラルネットワークモデルを訓練する（ステップＳ１０７）。第３モデル訓練部１３は、訓練データ記憶部２１から取得した第１動作パラメータ及び第２センシングデータを第１ニューラルネットワークモデルに入力し、第１ニューラルネットワークモデルから出力された第１センシングデータを、第２ニューラルネットワークモデルの入力データとし、第２センシングデータに対応する正解識別情報を第２ニューラルネットワークモデルの教師データとし、第１動作パラメータ及び第２センシングデータが第１ニューラルネットワークモデルに入力されると、第２ニューラルネットワークモデルから識別結果を出力するように第２ニューラルネットワークモデルを訓練する。第３モデル訓練部１３は、例えば、ディープラーニングにおけるアルゴリズムの１つである誤差逆伝播法により第３ニューラルネットワークモデルを訓練する。

　図５は、本実施形態における第３ニューラルネットワークモデルの訓練を説明するための模式図である。

　第３モデル訓練部１３は、第１動作パラメータであるレンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置と、第２センシングデータである通常カメラにより撮像された第２訓練用画像とを入力データとして第３ニューラルネットワークモデル１０３の第１ニューラルネットワークモデル１０１に与える。そして、第３モデル訓練部１３は、第２訓練用画像と同じ場面を第１動作パラメータで設計されたレンズレスマルチピンホールカメラが仮想的に撮像した場合に得られる推定画像を出力データとして第１ニューラルネットワークモデル１０１から取得する。

　そして、第３モデル訓練部１３は、第１ニューラルネットワークモデル１０１から出力した推定画像を入力データとして第３ニューラルネットワークモデル１０３の第２ニューラルネットワークモデル１０２に与える。そして、第３モデル訓練部１３は、第２ニューラルネットワークモデル１０２から出力された識別結果と、第２訓練用画像に対応する正解識別情報との誤差が最小となるように、第２ニューラルネットワークモデル１０２の重みを更新する。また、第３モデル訓練部１３は、第２ニューラルネットワークモデル１０２から出力された識別結果と、第２訓練用画像に対応する正解識別情報との誤差が最小となるように誤差逆伝播することで、第１ニューラルネットワークモデル１０１から第１動作パラメータを更新した第２動作パラメータを取得する。第２動作パラメータは、最適な第１動作パラメータである。第３モデル訓練部１３は、訓練済みの第１ニューラルネットワークモデル１０１の重みを更新することなく、後述する多次元潜在変数である第１動作パラメータのみを更新し、更新した多次元潜在変数を第２動作パラメータとして取得する。

　また、第２ニューラルネットワークモデルは、それぞれの識別タスクによってどのようなネットワークモデルが利用されてもよい。第２ニューラルネットワークモデルは、例えば、ＣｅｎｔｅｒＮｅｔ又はＹＯＬＯｖ４であってもよい。ＣｅｎｔｅｒＮｅｔについては、既存の文献（Ｘｉｎｇｙｉ　Ｚｈｏｕ、Ｄｅｑｕａｎ　Ｗａｎｇ、及びＰｈｉｌｉｐｐ　Ｋｒａｈｅｎｂｕｈｌ、「Ｏｂｊｅｃｔｓ　ａｓ　Ｐｏｉｎｔｓ」、ａｒＸｉｖ：１９０４．０７８５０、２０１９年）に開示されており、ＹＯＬＯｖ４については、既存の文献（Ａｌｅｘｅｙ　Ｂｏｃｈｋｏｖｓｋｉｙ、Ｃｈｉｅｎ－Ｙａｏ　Ｗａｎｇ、及びＨｏｎｇ－Ｙｕａｎ　Ｍａｒｋ　Ｌｉａｏ、「ＹＯＬＯｖ４：Ｏｐｔｉｍａｌ　Ｓｐｅｅｄ　ａｎｄ　Ａｃｃｕｒａｃｙ　ｏｆ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ」、ａｒＸｉｖ：２００４．１０９３４、２０２０年）に開示されている。

　また、第３モデル訓練部１３は、第３ニューラルネットワークモデルを訓練する際、第２ニューラルネットワークモデルのみを訓練し、第１ニューラルネットワークモデルを訓練しない。つまり、誤差逆伝播法により、重み情報が更新されるのは、第２ニューラルネットワークモデルのみである。

　図３に戻り、次に、第２モデル取得部１４は、第３モデル訓練部１３によって訓練された第３ニューラルネットワークモデルから、第２ニューラルネットワークモデルを取得する（ステップＳ１０８）。第２モデル取得部１４は、取得した第２ニューラルネットワークモデルの重みを第２ニューラルネットワークモデルの重みとして決定する。

　なお、第２モデル取得部１４は、取得した第２ニューラルネットワークモデルを第２モデル記憶部２３に出力し、取得した第２ニューラルネットワークモデルを第２モデル記憶部２３に記憶してもよい。第２モデル取得部１４は、第２モデル記憶部２３に記憶されている第２ニューラルネットワークモデルを訓練済みの第２ニューラルネットワークモデルに更新してもよい。第２モデル取得部１４は、第２ニューラルネットワークモデルを外部のコンピュータへ送信してもよい。

　次に、第２動作パラメータ取得部１５は、第３モデル訓練部１３の訓練の際に、誤差逆伝播法により算出された第１ニューラルネットワークモデルの第１動作パラメータに対応する多次元潜在変数を第２動作パラメータとして取得する（ステップＳ１０９）。

　次に、出力部１６は、第２動作パラメータ取得部１５によって取得された第２動作パラメータを出力する（ステップＳ１１０）。出力部１６は、第２動作パラメータを訓練システム１０の内部のメモリに出力して記憶してもよいし、第２動作パラメータを外部のコンピュータへ送信してもよい。

　第２動作パラメータ取得部１５は、取得した第２動作パラメータを、最適な第１動作パラメータに決定する。第２動作パラメータは、第２ニューラルネットワークモデルの識別に最適な第１センサの動作パラメータである。第２動作パラメータ取得部１５によって取得された第２動作パラメータを用いて第１センサ（レンズレスマルチピンホールカメラ）が設計される。そして、設計された第１センサ（レンズレスマルチピンホールカメラ）により取得された第１センシングデータ（撮像画像）に対して、第２モデル取得部１４によって取得された第２ニューラルネットワークモデルが識別処理を行う。

　本実施形態の訓練システム１０は、識別タスクの第２ニューラルネットワークモデルだけでなく、第２ニューラルネットワークモデルによる識別処理に最適な第１動作パラメータも訓練により決定することができるため、より高精度な識別タスクのための訓練を実現することができる。

　なお、本実施形態において、第３モデル訓練部１３は、第１動作パラメータ及び第２センシングデータを取得せず、第１訓練用画像である第１センシングデータと、第２センサである通常カメラで撮像された第２訓練用画像に対応する正解識別情報とを、訓練データ記憶部２１から取得してもよい。この場合、第３モデル訓練部１３は、第３ニューラルネットワークモデルの第２ニューラルネットワークモデルに第１センシングデータを入力し、正解識別情報が出力されるように第２ニューラルネットワークモデルを訓練してもよい。

　次に、訓練データ記憶部２１に記憶されているデータと第１センサの第１動作パラメータとについて説明する。

　前述の通り、第１センサは、例えば、レンズレスマルチピンホールカメラである。ここで、レンズレスマルチピンホールカメラの複数のピンホールの位置は、９つのピンホール位置のうちの少なくとも２つであり、複数のピンホールの数は、２つ以上９つ以下であるとする。つまり、第１動作パラメータは、複数のピンホールの数及び複数のピンホールの位置である。

　図６は、複数のピンホールが形成されたマルチピンホールマスク２０１の一例を示す模式図である。

　マルチピンホールマスク２０１には、３Ｘ３のマトリックス状に並んだ９つのピンホール位置２０１１～２０１９のうちの少なくとも２つの位置にピンホールが形成される。第１動作パラメータの複数のピンホールの位置は、９つのピンホール位置２０１１～２０１９のうちの少なくとも２つの位置を表す。

　訓練データ記憶部２１は、９つのピンホール位置２０１１～２０１９のうちの少なくとも１つの位置にピンホールが形成された第１センサであるレンズレスマルチピンホールカメラで撮像した第１訓練用画像を第１センシングデータとして記憶する。

　また、訓練データ記憶部２１は、第１センシングデータを撮像したレンズレスマルチピンホールカメラにおいて、９つのピンホール位置２０１１～２０１９のうちのいずれの位置にピンホールが形成されているかを示す情報を第１動作パラメータとして記憶する。

　また、訓練データ記憶部２１は、第１センシングデータを撮像した場面と同一の場面を通常カメラで撮像した第２訓練用画像を第２センシングデータとして記憶する。

　また、訓練データ記憶部２１は、第２センシングデータである通常カメラで撮像した第２訓練用画像に対する正解識別情報を記憶する。

　第１モデル訓練部１１は、Ｃｏｎｄｉｔｉｏｎａｌ　ＧＡＮを利用し、９か所のピンホール位置のうち、ピンホールが形成されている位置を１とし、ピンホールが形成されていない位置を０とした第１動作パラメータを多次元潜在変数として入力するとともに、第２センシングデータを入力し、第１センシングデータが出力されるように第１ニューラルネットワークモデルを訓練する。

　また、第３モデル訓練部１３は、第２ニューラルネットワークモデルとしてＣｅｎｔｅｒＮｅｔなどを利用し、第１センサの第１動作パラメータと第２センサの第２センシングデータとが入力されると、第１動作パラメータを用いた第１センサの動作により得られる第１センシングデータの推定データを出力する第１ニューラルネットワークモデルの出力を第２ニューラルネットワークモデルの入力データとし、第２センサである通常カメラで撮像された第２訓練用画像に対応する正解識別情報が出力されるように第３ニューラルネットワークモデルを訓練する。

　もちろん、訓練データ記憶部２１に記憶されているデータは上記に限らない。例えば、第２センサは、ピンホールカメラ又はレンズレスピンホールカメラであってもよく、第２センシングデータとして、ピンホールカメラ又はレンズレスピンホールカメラで撮像された画像データが利用されてもよい。これは、例えば、図６に示したマルチピンホールマスク２０１において、マスクの中央のピンホール位置２０１５のみにピンホールが形成されたレンズレスピンホールカメラの撮像画像を利用すればよい。このようなレンズレスピンホールカメラは、レンズレスマルチピンホールカメラに対して周辺減光又はイメージセンサのノイズ特性などが近似した画像を取得することができる。そのため、第１動作パラメータとピンホールカメラ又はレンズレスピンホールカメラで撮像された第２センシングデータとが第１ニューラルネットワークモデルに入力されることにより、第１ニューラルネットワークモデルはより高精度の第１センシングデータを出力できる。

　また、第２センシングデータは、異なる視点位置で撮像された画像であってもよい。第２センシングデータは、複数の視点位置で撮像された画像であってもよい。例えば、第２センシングデータは、レンズレスマルチピンホールカメラで想定している９か所のピンホール位置と同様の位置関係を有する、複数の視点位置で撮像された画像であってもよい。

　図７は、複数の視点位置から画像を撮像する第２センサの一例を示す模式図である。

　図７において、第２センサは、９眼ステレオカメラであり、３Ｘ３のマトリックス状に配置された９つの通常カメラ３０１～３０９を含む。

　図６において、ピンホール位置２０１５は、マルチピンホールマスク２０１の中心に存在する。ピンホール位置２０１１はピンホール位置２０１５の左上方に存在する。ピンホール位置２０１２はピンホール位置２０１５の上方に存在する。ピンホール位置２０１３はピンホール位置２０１５の右上方に存在する。ピンホール位置２０１４はピンホール位置２０１５の左方に存在する。ピンホール位置２０１６はピンホール位置２０１５の右方に存在する。ピンホール位置２０１７はピンホール位置２０１５の左下方に存在する。ピンホール位置２０１８はピンホール位置２０１５の下方に存在する。ピンホール位置２０１９はピンホール位置２０１５の右下方に存在する。

　図７の第２センサである９眼ステレオカメラの複数の通常カメラ３０１～３０９は、マルチピンホールマスク２０１のピンホール位置と同様の位置に配置されている。

　すなわち、通常カメラ３０５は、ステレオカメラの中心に存在する。通常カメラ３０１は通常カメラ３０５の左上方に存在する。通常カメラ３０２は通常カメラ３０５の上方に存在する。通常カメラ３０３は通常カメラ３０５の右上方に存在する。通常カメラ３０４は通常カメラ３０５の左方に存在する。通常カメラ３０６は通常カメラ３０５の右方に存在する。通常カメラ３０７は通常カメラ３０５の左下方に存在する。通常カメラ３０８は通常カメラ３０５の下方に存在する。通常カメラ３０９は通常カメラ３０５の右下方に存在する。

　レンズレスマルチピンホールカメラは、複数の視点位置の画像を重畳して撮像する。そのため、撮像画像には、通常カメラ画像には含まれない被写体の奥行情報が、各視点間の視差として含まれる。図７に示す第２センサでは、図６に示すマルチピンホールマスク２０１を備えるレンズレスマルチピンホールカメラの複数のピンホール位置２０１１～２０１９と同様の位置に通常カメラ３０１～３０９が配置されている。第２センシングデータは、複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像である。そのため、第２センサは、第１センサと同様の奥行情報を取得することができる。このように、奥行情報を与えることができる第２センサが利用されることで、第１ニューラルネットワークモデルはより高精度の第１センシングデータを出力できる。

　もちろん、第２センシングデータが、複数の視点位置で撮像された画像である場合、視点位置の数はマルチピンホールカメラで想定されるピンホール位置の数と一致させる必要はない。第２センサの視点位置の数は、ピンホール位置の数より少なくてもよく、ピンホール位置の数より多くてもよい。第２センサの視点位置の数が少なくなると、データ数を減らすことができ、コストを低減することができる。また、第２センサの視点位置の数が多くなると、第１ニューラルネットワークモデルはより高精度の第１センシングデータを出力できる。また、第２センシングデータが、複数の視点位置で撮像された画像である場合、正解識別情報は、複数の視点位置のいずれか１つの視点位置で撮像された画像に対応する正解識別情報であってもよく、又は複数の視点位置それぞれで撮像された複数の画像それぞれに対応する正解識別情報であってもよい。

　また、第２センシングデータは、２次元の画像データである必要はなく、奥行情報が付与された３次元の画像データであってもよい。このような３次元の画像データとしては、例えば、ポイントクラウドデータなどがある。

　また、第１動作パラメータが、複数のピンホールの大きさを示す情報を含む場合、第１モデル訓練部１１は、第１ニューラルネットワークモデルとしてＣｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　ＧＡＮを利用する。この場合、第１モデル訓練部１１は、９か所のピンホール位置のうち、ピンホールが形成されていない位置のピンホールの大きさを０とし、ピンホールが形成されている位置のピンホールの大きさをピンホールの直径が大きくなるほど値が大きくなる値とした第１動作パラメータを多次元潜在変数として入力するとともに、第２センシングデータを入力し、第１センシングデータが出力されるように第１ニューラルネットワークモデルを訓練してもよい。

　また、第１動作パラメータがレンズレスマルチピンホールカメラの焦点距離を示す情報を含む場合、第１モデル訓練部１１は、第１ニューラルネットワークモデルとしてＣｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　ＧＡＮを利用する。この場合、第１モデル訓練部１１は、第１動作パラメータである焦点距離を０以上１以下に正規化し、正規化した焦点距離を潜在変数として入力するとともに、第２センシングデータを入力し、第１センシングデータが出力されるように第１ニューラルネットワークモデルを訓練してもよい。

　また、第１動作パラメータであるピンホールの位置は、前述のように事前に設定した位置ではなく、マルチピンホールマスク２０１上の座標値であってもよい。この場合、第１モデル訓練部１１は、第１ニューラルネットワークモデルとしてＣｏｎｄｉｔｉｏｎａｌ　Ｆｉｌｔｅｒｅｄ　ＧＡＮを利用する。第１モデル訓練部１１は、マルチピンホールマスク２０１上の２次元座標（ｕ，ｖ）の座標値を０以上１以下に正規化し、正規化した座標値を多次元潜在変数として入力するとともに、第２センシングデータを入力し、第１センシングデータが出力されるように第１ニューラルネットワークモデルを訓練する。

　本実施形態の第３モデル訓練部１３は、訓練された第１ニューラルネットワークモデルに第１動作パラメータ及び第２センシングデータを入力することにより、訓練データ記憶部２１に記憶されていない第１センシングデータを推定している。この場合、第３モデル訓練部１３は、第１動作パラメータに関係なく、第２センシングデータに対する正解識別情報を利用すればよい。これにより、訓練時に問題となる正解識別情報を付加するためのコストを下げつつ、訓練データ記憶部２１に記憶されていない第１センシングデータに対しても第２ニューラルネットワークモデルを訓練することができる。そのため、より多くの訓練データを利用した第３ニューラルネットワークモデルの訓練が可能となり、より高精度の推定を実現することができる。

　また、第３モデル訓練部１３は、第２ニューラルネットワークモデルの入力データとして第１ニューラルネットワークモデルの出力を利用するのではなく、第１センシングデータを利用してもよい。訓練に十分な量の第１センシングデータが訓練データ記憶部２１に記憶されている場合、第３モデル訓練部１３は、第１ニューラルネットワークモデルの推定結果を利用せずに、第３ニューラルネットワークモデルを訓練することができる。ただし、後述するように、第２動作パラメータの取得には、訓練済みの第１ニューラルネットワークモデルが必要であるため、この場合も、ステップＳ１０３において、第１ニューラルネットワークモデルは訓練される。

　以上の説明では、第１センサとしてレンズレスマルチピンホールカメラが利用される場合について説明したが、第１センサは別のセンサであってもよい。例えば、第１センサは、レンズを有する符号化開口（Ｃｏｄｅｄ　Ａｐｅｒｔｕｒｅ）カメラであってもよい。

　図８は、第１センサの他の例である符号化開口カメラ２１０の構造を模式的に示す図である。

　図８に示す符号化開口カメラ２１０は、マルチピンホールマスク２０１と、ＣＭＯＳなどのイメージセンサ２０２と、複数のレンズ２１３，２１４とを有する。もちろん、レンズの数は２枚である必要はなく、何枚であってもよい。マルチピンホールマスク２０１は、イメージセンサ２０２と被写体との間に配置される。この場合、第１動作パラメータは、マルチピンホールマスク２０１とイメージセンサ２０２との距離Ｌ（図８に図示）、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも１つである。

　符号化開口カメラ２１０において、マルチピンホールマスク２０１は符号化マスクとも呼ばれ、絞りに相当する。そのため、符号化開口カメラ２１０のぼけ方を示すＰｏｉｎｔ　Ｓｐｒｅａｄ　Ｆｕｎｃｔｉｏｎ（ＰＳＦ）はマルチピンホールマスク２０１に依存する。例えば、マルチピンホールマスク２０１が２つのピンホールを有する場合、符号化開口カメラ２１０で撮像された画像は、合焦位置以外では２つの被写体がずれて重なり合った状態（多重像）の重畳画像となる。つまり、複数のピンホールの位置関係は、イメージセンサ２０２上に投影される複数の画像の位置関係（つまり多重像の重畳の度合い）に影響を与える。ピンホールの大きさは、絞りの大きさとなり、画像のボケの度合いに影響を与える。また、ピンホールの数は、画像の重畳数となり、撮像画像のボケの度合いに影響を与える。

　合焦位置から外れた被写体を、マルチピンホールマスク２０１を用いた符号化開口カメラ２１０が撮影することで、位置及びボケの程度が異なる複数の画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮像画像は多重像かつボケ画像となり、これらのボケによって被写体のプライバシーが保護された画像を取得することができる。

　第１動作パラメータであるマルチピンホールマスク２０１とイメージセンサ２０２との距離Ｌ、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置によって、撮像画像は大きく変化する。そのため、最適な第１動作パラメータを決定する必要がある。本実施形態の訓練システム１０では、第２ニューラルネットワークモデルの識別結果が向上するように、第１動作パラメータを最適化する。これにより、第２ニューラルネットワークモデルの識別結果が向上する。

　本実施形態の第３モデル訓練部１３は、訓練された第１ニューラルネットワークモデルに第１動作パラメータ及び第２センシングデータを入力することにより、訓練データ記憶部２１に記憶されていない第１センシングデータを推定し、推定した第１センシングデータを用いて第３ニューラルネットワークモデルを訓練することができる。そのため、より多くの訓練データを利用した第３ニューラルネットワークモデルの訓練が可能となり、より高精度の推定を実現することができる。

　なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。

　本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

　また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

　また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　本開示に係る技術は、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができるので、機械学習により識別モデルを生成するとともに、識別モデルに入力するセンシングデータを得るためセンサの動作パラメータを最適化する技術として有用である。

Claims

　コンピュータが、
　第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、
　訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、
　前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、
　前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得する、
　情報処理方法。
　前記第１センサは、符号化開口カメラであり、
　前記第１動作パラメータは、符号化マスクとイメージセンサとの距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも１つである、
　請求項１に記載の情報処理方法。
　前記第１センサは、レンズレスマルチピンホールカメラであり、
　前記第１動作パラメータは、前記レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも１つである、
　請求項１に記載の情報処理方法。
　前記第２センシングデータは、前記第１センシングデータと比較して、ボケの少ない画像である、
　請求項１～３のいずれか１項に記載の情報処理方法。
　前記第２センサは、レンズ、１つの絞り及び撮像素子を備えるカメラである、
　請求項４に記載の情報処理方法。
　前記第２センサは、ピンホールカメラである、
　請求項４に記載の情報処理方法。
　前記第２センシングデータは、異なる視点位置で撮像された画像である、
　請求項１～３のいずれか１項に記載の情報処理方法。
　前記第２センシングデータは、複数の視点位置で撮像された画像である、
　請求項７に記載の情報処理方法。
　前記第１センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像であり、
　前記第２センシングデータは、前記複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像である、
　請求項８に記載の情報処理方法。
　第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練する第１訓練部と、
　訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成する生成部と、
　前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練する第２訓練部と、
　前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得する取得部と、
　を備える情報処理システム。
　第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、
　訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、
　前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、
　前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得するようにコンピュータを機能させる、
　情報処理プログラム。
　情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体であって、
　前記情報処理プログラムは、
　第１センサの動作に用いられる第１動作パラメータと第２センサの動作により得られる第２センシングデータとを入力とし前記第１動作パラメータを用いた前記第１センサの動作により得られる第１センシングデータを出力するように第１ニューラルネットワークモデルを訓練し、
　訓練した前記第１ニューラルネットワークモデルの出力が、前記第１センシングデータを入力とし前記第１センシングデータに対する識別結果を出力とする第２ニューラルネットワークモデルに入力されるように、前記第１ニューラルネットワークモデルと前記第２ニューラルネットワークモデルとが連結された第３ニューラルネットワークモデルを生成し、
　前記第３ニューラルネットワークモデルに前記第２センシングデータ及び前記第１動作パラメータを入力して前記第３ニューラルネットワークモデルから出力された識別結果と、前記第２センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第２ニューラルネットワークモデルを訓練し、
　前記誤差逆伝播法により前記第１ニューラルネットワークモデルから前記第１動作パラメータを更新した第２動作パラメータを取得するようにコンピュータを機能させる、
　コンピュータ読み取り可能な非一時的な記録媒体。