WO2022014306A1

WO2022014306A1 - 学習方法、画像識別方法、学習装置、及び画像識別システム

Info

Publication number: WO2022014306A1
Application number: PCT/JP2021/024221
Authority: WO
Inventors: 智佐藤; 育規石井
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2020-07-16
Filing date: 2021-06-25
Publication date: 2022-01-20
Also published as: US20230134491A1; CN115843371A; JPWO2022014306A1

Abstract

学習装置（２０）は、ボケのある画像を撮像する計算撮像カメラ（１０１）に関する計算撮像情報を取得し、ボケのない又は小さい画像を撮像する通常カメラによって撮像された通常画像と、通常画像に付与されている正解ラベルとを取得し、計算撮像情報と通常画像とに基づいてボケのある画像を生成し、ボケのある画像と正解ラベルとを用いた機械学習を行うことによって、計算撮像カメラ（１０１）によって撮像された画像を識別するための画像識別モデルを作成する。

Description

学習方法、画像識別方法、学習装置、及び画像識別システム

　本開示は、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別方法及び画像識別システム、並びに、当該画像識別に使用される画像識別モデルを作成するための学習方法及び学習装置に関する。

　下記特許文献１には、ライトフィールドカメラなどによって撮像された計算撮像画像を識別器に入力することにより、識別器が、学習済みの識別モデルを用いて、当該計算撮像画像に含まれている物体を識別する画像識別システムが開示されている。

　計算撮像画像は、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくい等の影響により、意図的に作り出されたボケによって人間による視覚的な認識が困難な画像である。そのため、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別システムの構築のために、計算撮像画像を用いることは好適である。

　一方で、計算撮像画像は人間による視覚的な認識が困難であることから、識別モデルを作成するための機械学習において、ライトフィールドカメラなどによって撮像された計算撮像画像に対して正確な正解ラベルを付与することは困難である。その結果、学習効率が低下する。

　下記特許文献１によると、この課題に対して何ら対策がとられていないため、有効な技術的対策を実現することによって学習効率の向上を図ることが望まれる。

国際公開第２０１９／０５４０９２号

　本開示は、画像識別システムにおいて、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能な技術を提供することを目的とする。

　本開示の一態様に係る学習方法は、学習装置としての情報処理装置が、ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得し、前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを取得し、前記計算撮像情報と前記第３の画像とに基づいて、ボケのある第４の画像を生成し、前記第４の画像と前記正解ラベルとを用いた機械学習を行うことによって、前記第１のカメラによって撮像された画像を識別するための画像識別モデルを作成するものである。

第１実施形態にかかる画像識別システムの構成を示す模式図である。画像識別システムの主要な処理の手順を示すフローチャートである。計算撮像カメラの一例として、レンズレスで構成されたマルチピンホールカメラの構造を模式的に示す図である。マルチピンホールカメラにおいて複数のピンホールの位置関係を示す図である。マルチピンホールカメラによる撮像画像の一例を示す図である。マルチピンホールカメラによる撮像画像の一例を示す図である。学習装置の主要な処理の手順を示すフローチャートである。第２実施形態にかかる画像識別システムの構成を示す模式図である。画像識別システムの主要な処理の手順を示すフローチャートである。差分画像の作成処理を説明するための図である。差分画像の作成処理を説明するための図である。差分画像の作成処理を説明するための図である。計算撮像情報としてＬＴＭを利用する場合の計算撮像情報取得部の主要な処理の手順を示すフローチャートである。複数のＰＳＦを示す模式図である。第３実施形態にかかる画像識別システムの構成を示す模式図である。画像識別システムの主要な処理の手順を示すフローチャートである。画像識別システムの主要な処理の手順を示すフローチャートである。画像識別システムの主要な処理の手順を示すフローチャートである。第４実施形態にかかる画像識別システムの構成を示す模式図である。学習装置の主要な処理の手順を示すフローチャートである。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。変形例に係るマルチピンホールカメラの構成を示す模式図である。

　（本開示の基礎となった知見）
　家庭内又は屋内などにおいて、環境内人物の行動認識や機器操作者の人物認識など、さまざまな認識技術は重要である。近年、物体識別のために、ディープラーニングと呼ばれる技術が注目されている。ディープラーニングとは、多層構造のニューラルネットワークを用いた機械学習であり、大量の学習データを利用することで、従来法と比べて、より高精度な識別性能を実現することが可能である。このような物体識別において、画像情報は特に有効である。入力デバイスにカメラを利用し、画像情報を入力としたディープラーニングを行うことによって、従来の物体識別能力を大幅に向上させるさまざまな手法が提案されている。

　しかし、家庭内などにカメラを配置することは、ハッキングなどにより撮影画像が外部に漏れた場合、プライバシーが侵害されるという課題があった。従って、仮に撮影画像が外部に漏れた場合であっても、被写体のプライバシーを保護するための対策が必要である。

　ライトフィールドカメラなどによって撮像される計算撮像画像は、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくい等の影響により、意図的に作り出されたボケによって人間による視覚的な認識が困難な画像である。そのため、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別システムの構築のために、計算撮像画像を用いることは好適である。

　上記特許文献１に開示された画像識別システムでは、ライトフィールドカメラなどによって対象エリアを撮影し、その撮影によって取得された計算撮像画像を識別器に入力する。これにより、識別器が、学習済みの識別モデルを用いて、当該計算撮像画像に含まれている物体を識別する。このように、計算撮像画像を撮像するライトフィールドカメラなどによって対象エリアを撮影することにより、仮に撮影画像が外部に漏れた場合であっても、計算撮像画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。

　上記特許文献１に開示された画像識別システムにおいて、識別器が用いる識別モデルは、ライトフィールドカメラなどにより撮像された計算撮像画像を学習用データとして用いた機械学習を行うことによって作成される。しかし、計算撮像画像は人間による視覚的な認識が困難であることから、識別モデルを作成するための機械学習において、ライトフィールドカメラなどによって撮像された計算撮像画像に対して正確な正解ラベルを付与することは困難である。学習用の計算撮像画像に対して誤った正解ラベルが付与されてしまうと、機械学習の学習効率が低下する。

　かかる課題を解決すべく、本発明者は、学習用データを蓄積する段階では、計算撮像画像のようなボケのある画像（以下「ボケ画像」）ではなくボケのない画像（以下「通常画像」）を用い、その後の学習段階では、使用カメラの計算撮像情報に基づき通常画像を変換したボケ画像を用いて機械学習を行うことを発案した。これにより、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることができるとの知見を得て、本開示を想到するに至った。

　また、プライバシー保護の別の観点としては、画像認識装置によって撮像されるユーザの心理的負荷を低減させることも重要である。ボケ画像を撮像することによって、被写体のプライバシーが保護されていることはアピールできる。しかし、ユーザと無関係な領域（メーカの工場等）で計算撮像情報が設定されている場合、メーカであればボケ画像から通常画像を復元できるのではないかという疑念から、ユーザの心理的負荷が増大する可能性がある。一方、撮像されるユーザ自身によって計算撮像情報を変更することができれば、この心理的負荷を低下させることができると考え、本開示を想到するに至った。

　次に、本開示の各態様について説明する。

　本開示において、「ボケ」とは、ライトフィールドカメラ又はレンズレスカメラなどによって撮像されることにより、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくいなどの影響により、人間による視覚的な認識が困難な状態、又は、単純に被写体が合焦していない状態を示す。「ボケのある画像」とは、人間による視覚的な認識が困難な画像、又は、被写体が合焦していない画像を意味する。「ボケが大きい」とは、人間による視覚的な認識の困難度が大きい、又は、被写体が合焦していない度合いが大きいことを意味し、「ボケが小さい」とは、当該困難度又は当該度合いが小さいことを意味する。「ボケのない画像」とは、人間による視覚的な認識が容易な画像、又は、被写体が合焦している画像を意味する。

　この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第１のカメラによって撮像される。従って、仮に第１のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第３の画像は、ボケのない又は小さい画像を撮像する第２のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第３の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第１のカメラに関する計算撮像情報は、点灯状態の点光源を含む第１の画像と、消灯状態の点光源を含む第２の画像との差分画像である。従って、実際に使用される第１のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、機械学習に使用される第４の画像を、当該計算撮像情報と第３の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。

　上記態様において、前記第１のカメラは、領域ごとに透過率が異なるマスクパターンを有するマスクを備えた符号化開口カメラ、複数のピンホールが形成されたマスクパターンを有するマスクがイメージセンサの受光面に配置されたマルチピンホールカメラ、及び、被写体からのライトフィールドを取得するライトフィールドカメラ、のいずれかであるとよい。

　この構成によれば、第１のカメラとして、符号化開口カメラ、マルチピンホールカメラ、及びライトフィールドカメラのいずれかを用いることによって、人間による視覚的な認識が困難であるボケのある画像を適切に撮像することができる。

　上記態様において、前記第１のカメラは、被写体からの光をイメージセンサ上に結像させる光学系を有しないとよい。

　この構成によれば、第１のカメラは被写体からの光をイメージセンサ上に結像させる光学系を有しないため、第１のカメラによる撮像画像に意図的にボケを作り出すことができる。その結果、当該撮像画像に含まれている被写体の識別がさらに困難となるため、被写体のプライバシーの保護効果をより高めることが可能となる。

　上記態様において、前記マスクは、前記マスクパターンが異なる他のマスクに変更可能であるとよい。

　この構成によれば、マスクを変更することによって第１のカメラの計算撮像情報も変化するため、例えば各ユーザが任意にマスクを変更することにより、ユーザごとに計算撮像情報を異ならせることができる。その結果、第三者による第４の画像から第３の画像への逆変換が困難となるため、被写体のプライバシーの保護効果をより高めることが可能となる。

　上記態様において、前記計算撮像情報は、Point Spread Function、及び、Light Transport Matrixのいずれかであるとよい。

　この構成によれば、ＰＳＦ及びＬＴＭのいずれかを用いることにより、第１のカメラに関する計算撮像情報を簡易かつ適切に取得することが可能となる。

　上記態様において、前記情報処理装置が、前記点光源の点灯制御を行うとともに前記第１のカメラによる前記第１の画像の撮像制御を行い、前記点光源の消灯制御を行うとともに前記第１のカメラによる前記第２の画像の撮像制御を行うとよい。

　この構成によれば、情報処理装置が点光源及び第１のカメラの動作を制御することにより、点光源の点灯又は消灯のタイミングと、第１のカメラによる撮像のタイミングとを、正確に同期させることができる。

　上記態様において、前記情報処理装置が、前記差分画像の画質が許容値未満である場合に、前記第１のカメラによる前記第１の画像及び前記第２の画像の再撮像制御を行うとよい。

　この構成によれば、差分画像の画質が許容値未満である場合に、情報処理装置が第１のカメラによる再撮像制御を行うことにより、点光源の輝度値が適切に調整された差分画像を取得できる。その結果、第１のカメラに関する適切な計算撮像情報を取得することが可能となる。

　上記態様において、前記情報処理装置は、前記再撮像制御において、前記第１の画像及び前記第２の画像の各々に関して、最大輝度値が所定範囲内となるように、前記第１のカメラの露光時間及びゲインの少なくとも一方を修正するとよい。

　この構成によれば、第１のカメラの露光時間及びゲインの少なくとも一方を修正することにより、再撮像制御によって、点光源の輝度値が適切に調整された差分画像を取得することが可能となる。

　本開示の一態様に係る画像識別方法は、識別部を有する識別装置において、ボケのある画像を撮像する第１のカメラによって撮像された画像を前記識別部に入力し、前記識別部が、学習済みの画像識別モデルに基づいて、入力された前記画像を識別し、前記識別部による識別の結果を出力し、前記画像識別モデルは、上記態様に係る学習方法によって作成された画像識別モデルである。

　本開示の一態様に係る学習装置は、ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得する取得部と、前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを記憶する記憶部と、前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第３の画像とに基づいて、ボケのある第４の画像を生成する画像生成部と、前記画像生成部が生成した前記第４の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、前記第１のカメラによって撮像された画像を識別するための画像識別モデルを作成する学習部と、を備えるものである。

　この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第１のカメラによって撮像される。従って、仮に第１のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第３の画像は、ボケのない又は小さい画像を撮像する第２のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第３の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第１のカメラに関する計算撮像情報は、点灯状態の点光源を含む第１の画像と、消灯状態の点光源を含む第２の画像との差分画像である。従って、実際に使用される第１のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、画像合成部は、機械学習に使用される第４の画像を、当該計算撮像情報と第３の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。

　本開示の一態様に係る画像識別システムは、ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得する取得部と、前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを記憶する記憶部と、前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第３の画像とに基づいて、ボケのある第４の画像を生成する画像生成部と、前記画像生成部が生成した前記第４の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、画像識別モデルを作成する学習部と、前記第１のカメラによって撮像された画像を、前記学習部が作成した前記画像識別モデルに基づいて識別する識別部と、前記識別部による識別結果を出力する出力部と、を備えるものである。

　本開示は、このような方法に含まれる特徴的な各構成をコンピュータに実行させるためのコンピュータプログラムとして実現し、あるいは、このコンピュータプログラムに基づいて動作する装置又はシステムとして実現することもできる。また、このようなコンピュータプログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な不揮発性の記録媒体として流通させ、あるいは、インターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

　なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。

　以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。

　（第１実施形態）
　図１は、本開示の第１実施形態にかかる画像識別システム１０の構成を示す模式図である。画像識別システム１０は、学習装置２０と識別装置３０とを備えている。識別装置３０は、計算撮像カメラ１０１と、識別部１０６と、出力部１０７とを有している。識別部１０６は、ＣＰＵなどのプロセッサ及び半導体メモリなどのメモリを含む。出力部１０７は、表示装置又はスピーカなどである。また、学習装置２０は、学習データベース１０２と、計算撮像情報取得部１０３と、データベース修正部１０４と、学習部１０５とを有している。学習データベース１０２は、ＨＤＤ、ＳＳＤ、又は半導体メモリなどの記憶部である。計算撮像情報取得部１０３、データベース修正部１０４、及び学習部１０５は、ＣＰＵなどのプロセッサである。

　図２は、画像識別システム１０の主要な処理の手順を示すフローチャートである。当該フローチャートには、識別装置３０による画像の識別処理の流れが示されている。まず計算撮像カメラ１０１は、対象エリアを撮影し、その撮影によって得られた計算撮像画像を識別部１０６に入力する（ステップＳ１０１）。次に識別部１０６は、学習済みの画像識別モデルを使用して、当該計算撮像画像を識別する（ステップＳ１０２）。この画像識別モデルは、学習装置２０による学習によって作成された画像識別モデルである。次に出力部１０７は、識別部１０６による識別の結果を出力する。各ステップの処理の詳細については後述する。

　計算撮像カメラ１０１は、ボケのない通常の画像を撮像する通常のカメラと異なり、ボケのある画像である計算撮像画像を撮像する。計算撮像画像は、意図的に作り出されたボケによって撮像画像自体を人が見ても被写体を認識できないが、撮像した計算撮像画像に対して画像処理を実施することで、人が認識又は識別部１０６が識別できる画像を生成することができる画像である。

　図３は、計算撮像カメラ１０１の一例として、レンズレスで構成されたマルチピンホールカメラ３０１の構造を模式的に示す図である。図３に示すマルチピンホールカメラ３０１は、マルチピンホールマスク３０１ａと、ＣＭＯＳなどのイメージセンサ３０１ｂとを有する。マルチピンホールマスク３０１ａは、イメージセンサ３０１ｂの受光面から一定距離離れて配置されている。マルチピンホールマスク３０１ａは、ランダム又は等間隔に配置された複数のピンホール３０１ａａを有している。複数のピンホール３０１ａａのことを、マルチピンホールとも呼ぶ。イメージセンサ３０１ｂは、各ピンホール３０１ａａを通じて被写体３０２の画像を取得する。ピンホールを通じて取得される画像を、ピンホール画像と呼ぶ。

　各ピンホール３０１ａａの位置及び大きさによって被写体３０２のピンホール画像は異なるため、イメージセンサ３０１ｂは、複数のピンホール画像がわずかにずれて重なり合った状態（多重像）の重畳画像を取得する。複数のピンホール３０１ａａの位置関係は、イメージセンサ３０１ｂ上に投影される複数のピンホール画像の位置関係（つまり多重像の重畳の度合い）に影響を与え、ピンホール３０１ａａの大きさは、ピンホール画像のボケの度合いに影響を与える。

　マルチピンホールマスク３０１ａを用いることによって、位置及びボケの程度が異なる複数のピンホール画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮影される画像は多重像かつボケ画像となり、これらのボケによって被写体３０２のプライバシーが保護された画像を取得することができる。また、各ピンホールの数、位置、及び大きさを変えることで、ボケ方の異なる画像を取得することができる。つまり、ユーザによってマルチピンホールマスク３０１ａを容易に脱着できる構造とし、マスクパターンが異なる複数種類のマルチピンホールマスク３０１ａを予め用意しておき、使用するマルチピンホールマスク３０１ａをユーザが自由に交換できる構成としてもよい。

　なお、このようなマスクの変更は、マスクの交換以外にも、
・イメージセンサの前に回動自在に取り付けられているマスクを、ユーザが任意に回転させる、
・イメージセンサの前に取り付けられている板の任意の箇所に、ユーザが穴を開ける、
・空間光変調器などを利用した液晶マスクなどを用いることにより、マスク内の各位置の透過率を任意に設定する、
・ゴムなどの伸縮可能な材質を用いてマスクを成形し、外力の印加によってマスクを物理的に変形させることによって、穴の位置及び大きさを変える、
など、様々な方法で実現できる。以下、これらの変形例について順に説明する。

　＜ユーザがマスクを任意に回転させる変形例＞
　図１７Ａ～１７Ｄは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１の構成を示す模式図である。図１７Ａは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１の概観を示し、図１７Ｂはその断面の模式図を示している。マルチピンホールカメラ３０１は、その筐体４０１に対して回転可能なマルチピンホールマスク３０１ａを有し、マルチピンホールマスク３０１ａには把持部４０２が接続されている。ユーザは、把持部４０２を把持して操作することにより、筐体４０１に対してマルチピンホールマスク３０１ａを固定又は回転することが可能である。このような機構は、把持部４０２にネジを設け、そのネジを締めることでマルチピンホールマスク３０１ａを固定し、ネジを緩めることでマルチピンホールマスク３０１ａを回転可能とすればよい。図１７Ｃおよび図１７Ｄは、把持部４０２を９０度回転させた際に、マルチピンホールマスク３０１ａが９０度回転する模式図を示している。このように、この把持部４０２をユーザが動かすことにより、マルチピンホールマスク３０１ａを回転させることができる。

　また、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１においては、マルチピンホールマスク３０１ａは、図１７Ｃに示すように、回転に対して非対称なピンホール配置としてもかまわない。このようにすることで、ユーザがマスクを回転することで、様々なマルチピンホールパターンを実現することが可能である。

　もちろん、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１の構成は、把持部４０２を有しない構成であってもかまわない。図１８Ａ，１８Ｂは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１の別の構成例を示した模式図である。図１８Ａは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ３０１の別の構成例の概観を示し、図１８Ｂはその断面の模式図を示している。マルチピンホールマスク３０１ａは鏡筒４１１に固定されている。また、イメージセンサ３０１ｂは、別の鏡筒４１２に設置されており、鏡筒４１１と鏡筒４１２とはネジの構成で回転可能な状態となっている。すなわち、鏡筒４１１の外側に鏡筒４１２があり、その接合部である鏡筒４１１の外側にはオスネジが、鏡筒４１２の内側にはメスネジがきられている。また、鏡筒４１１のオスネジには、まず、固定具４１３が装着され、その後、鏡筒４１２が装着されている。固定具４１３にも、鏡筒４１２同様、メスネジがきられている。このような構成とすることで、鏡筒４１１を鏡筒４１２へねじ込む際、固定具４１３の鏡筒４１１へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールカメラ３０１の回転角を変更することができる。

　図１８Ｃ，１８Ｄは、固定具４１３の鏡筒４１１へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールカメラ３０１の回転角が変化することを示す模式図である。図１８Ｃは、固定具４１３を鏡筒４１１の奥までねじ込んだ場合の模式図であり、図１８Ｄは、固定具４１３を鏡筒４１１の途中までしかねじ込まない場合の模式図である。図１８Ｃに示したように、固定具４１３を鏡筒４１１の奥までねじ込んだ場合は、鏡筒４１２は鏡筒４１１の奥までねじ込むことができる。一方、図１８Ｄに示したように、固定具４１３を鏡筒４１１の途中までしかねじ込まない場合は、鏡筒４１２は鏡筒４１１の途中までしかねじ込むことができない。そのため、固定具４１３の鏡筒４１１へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールマスク３０１ａの回転角を変化させることができる。

　＜ユーザがマスクに穴を開ける変形例＞
　図１９は、イメージセンサ３０１ｂの前に取り付けられているマスク３０１ａｂの任意の箇所に、ユーザが穴を開けられるマルチピンホールカメラ３０１の断面の模式図である。図１９において、図１７と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。マスク３０１ａｂには当初、ピンホールは存在しない。このマスク３０１ａｂに、ユーザが針などを用いて任意の箇所に複数の穴を開けることで、任意の形状のマルチピンホールマスクを作成することができる。

　＜空間光変調器を利用し、マスク内の各位置の透過率を任意に設定する変形例＞
　図２０は、空間光変調器４２０を利用し、マスク内の各位置の透過率を任意に設定する構成のマルチピンホールカメラ３０１の断面の模式図である。図２０において、図１９と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。空間光変調器４２０は液晶などで構成され、画素ごとの透過率を変更することができる。この空間光変調器４２０が、マルチピンホールマスクとして機能する。透過率の変更は、図略の空間光変調器制御部によって制御することができる。そのため、事前に用意した複数の透過率パターンから、ユーザが任意のパターンを選択することで、様々なマスクパターン（マルチピンホールパターン）を実現することができる。

　＜外力の印加によってマスクを変形させる変形例＞
　図２１，２２Ａ～２２Ｆは、外力の印加によってマスクを変形する構成のマルチピンホールカメラ３０１の断面の模式図である。図２１において、図１９と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。マルチピンホールマスク３０１ａｃは複数のマスク３０１ａ１、３０１ａ２，３０１ａ３から構成され、各マスクは独立に外力を印加する駆動部（図示せず）を有している。図２２Ａ～２２Ｃはマルチピンホールマスク３０１ａｃを構成する３枚のマスク３０１ａ１、３０１ａ２，３０１ａ３を説明するための模式図である。ここで、各マスクは扇型と円環が組み合わされた形状である。もちろん、この構成は一例であり、形状は扇形に限らず、構成する枚数も３枚に限らない。各マスクには、１個又は複数個のピンホールが形成されている。なお、マスクにはピンホールが形成されていなくても構わない。マスク３０１ａ１には２つのピンホール３０１ａａ１，３０１ａａ２が形成されており、マスク３０１ａ２には１つのピンホール３０１ａａ３が形成されており、マスク３０１ａ３には２つのピンホール３０１ａａ４，３０１ａａ５が形成されている。これら３つのマスク３０１ａ１～３０１ａ３を外力の印加によって動かすことで、様々なマルチピンホールパターンを作成することができる。

　図２２Ｄ～２２Ｆは３枚のマスク３０１ａ１～３０１ａ３で構成された３種類のマルチピンホールマスク３０１ａｃを示している。図略の各駆動部が各マスク３０１ａ１～３０１ａ３を異なる態様で動かすことによって、図２２Ｄ，２２Ｅでは５個のピンホールを有するマスクが構成され、図２２Ｆでは４個のピンホールを有するマスクが構成されている。このようなマスクの駆動部は、オートフォーカスなどで広く利用されている超音波モータやリニアモータを用いて実現することができる。このように、外力の印加によってマルチピンホールマスク３０１ａｃにおけるピンホールの数や位置を変化させることができる。

　もちろん、マルチピンホールマスクはピンホールの数や位置だけではなく、その大きさも変化させるようにしても構わない。図２３Ａ～２３Ｃは、外力の印加によってマスクを変形する構成のマルチピンホールカメラ３０１におけるマルチピンホールマスク３０１ａｄの構成を説明するための模式図である。マルチピンホールマスク３０１ａｄは複数のピンホールを有し、弾性を有する材質で構成され、四隅を独立に制御可能な４個の駆動部４２１～４２４を有する。もちろん、駆動部の数は４個である必要はない。各駆動部４２１～４２４を動かすことにより、マルチピンホールマスク３０１ａｄにおけるピンホールの位置や大きさを変化させることができる。

　図２３Ｂは、駆動部４２１～４２４を同じ向きに動かした場合の様子を示した模式図である。この図において、駆動部４２１～４２４に示した矢印の向きが、各駆動部の駆動方向を示している。この場合、マルチピンホールマスク３０１ａｄは駆動部の駆動方向に平行移動する。一方、図２３Ｃは、駆動部４２１～４２４をマルチピンホールマスク３０１ａｄの中心部から外向きの方向に動かした場合の様子を示した模式図である。この場合、マルチピンホールマスク３０１ａｄは弾性に従って引き延ばされるため、ピンホールのサイズが大きくなる。このような駆動部４２１～４２４は、オートフォーカスなどで広く利用されている超音波モータやリニアモータを用いて実現することができる。このように、外力の印加によってマルチピンホールマスク３０１ａｃにおけるピンホールの位置や大きさを変化させることができる。

　図４Ａは、マルチピンホールカメラ３０１において複数のピンホール３０１ａａの位置関係を示す図である。この例では、直線状に並ぶ３つのピンホール３０１ａａが形成されている。左端のピンホール３０１ａａと中央のピンホール３０１ａａとの間隔はＬ１に設定されており、中央のピンホール３０１ａａと右端のピンホール３０１ａａとの間隔はＬ２（＜Ｌ１）に設定されている。

　図４Ｂ及び図４Ｃは、マルチピンホールカメラ３０１による撮像画像の一例を示す図である。図４Ｂには、マルチピンホールカメラ３０１と被写体３０２との距離が比較的遠く、被写体像が小さい場合の撮像画像の例を示している。図４Ｃには、マルチピンホールカメラ３０１と被写体３０２との距離が比較的近く、被写体像が大きい場合の撮像画像の例を示している。間隔Ｌ１，Ｌ２を異ならせたことにより、マルチピンホールカメラ３０１と被写体３０２との距離に拘わらず、視点の異なる複数の画像が重畳されることによって複数の被写体像が個別認識不能な態様で重なり合った状態の重畳画像が撮像される。

　計算撮像カメラ１０１としては、マルチピンホールカメラ３０１のほかに、
・領域ごとに透過率が異なるマスクパターンを有するマスクがイメージセンサと被写体との間に配置された符号化開口カメラ、
・イメージセンサの受光面にマイクロレンズアレイが配置された構成を有し、ライトフィールドを取得するライトフィールドカメラ、
・時空間で画素情報を重み付け加算して撮像する圧縮センシングカメラ
などの周知のカメラを使用することもできる。

　また、計算撮像カメラ１０１においては、被写体からの光をイメージセンサ上に結像させるための光学系（レンズ、プリズム、ミラー等）を有しないことが望ましい。光学系を省略することにより、カメラの小型軽量化、コスト削減、及びデザイン性の向上を図ることができるとともに、当該カメラによる撮像画像に意図的にボケを作り出すことができる。

　識別部１０６は、学習装置２０の学習結果である画像識別モデルを利用して、計算撮像カメラ１０１によって撮像された対象エリアの画像に関して、その画像に含まれている人物（その行動及び表情などを含む）、自動車、自転車、又は信号などの被写体のカテゴリ情報と、各被写体の位置情報とを識別する。画像識別モデルを作成するための学習には、多層ニューラルネットワークを用いたDeep Learningなどの機械学習を利用すればよい。

　出力部１０７は、前記識別部１０６が識別した結果を出力する。これは、インターフェイス部を有し、画像、テキスト、又は音声などによって識別結果をユーザに提示してもよいし、機器制御部を有して識別結果によって制御方法を変更するようにしてもかまわない。

　学習装置２０は、学習データベース１０２と、計算撮像情報取得部１０３と、データベース修正部１０４と、学習部１０５とを有する。学習装置２０は、実際に対象エリアの撮像に使用される計算撮像カメラ１０１に関する計算撮像情報に対応させて、識別部１０６が使用する画像識別モデルを作成するための学習を行う。

　また、図５は、画像識別システム１０の学習装置２０の主要な処理の手順を示すフローチャートである。

　まず、計算撮像情報取得部１０３は、計算撮像カメラ１０１によってどのようなボケ画像が撮像されるのか、そのボケの態様を表す情報である計算撮像情報を取得する（ステップＳ２０１）。これは、計算撮像カメラ１０１が送信部を、計算撮像情報取得部１０３が受信部を有し、有線または無線で計算撮像情報をやり取りしても構わないし、計算撮像情報取得部１０３がインターフェイスを有し、ユーザが計算撮像情報取得部１０３に計算撮像情報を入力するようにしても構わない。

　計算撮像情報としては、例えば、計算撮像カメラ１０１がマルチピンホールカメラ３０１であれば、二次元の計算撮像の状態を示すＰＳＦ（Point Spread Function）を利用すればよい。ＰＳＦは、マルチピンホールカメラ又は符号化開口カメラなどのカメラの伝達関数であり、以下の関係で表現される。

　ｙ＝ｋ＊ｘ

　ここで、ｙはマルチピンホールカメラ３０１で撮影されたボケのある計算撮像画像、ｋはＰＳＦ、ｘは撮影したシーンをボケのない通常のカメラで撮影した通常画像である。また、＊は畳み込み演算子である。

　また、計算撮像情報として、ＰＳＦではなく、四次元以上（カメラ側で二次元及び被写体側で二次元以上）の計算撮像情報を示すＬＴＭ（Light Transport Matrix）を利用しても構わない。ＬＴＭは、ライトフィールドカメラで利用される伝達関数である。

　例えば、計算撮像カメラ１０１がマルチピンホールカメラ３０１である場合には、ＰＳＦは、点光源をマルチピンホールカメラ３０１で撮影することで取得することができる。これは、ＰＳＦがカメラのインパルス応答に対応することからわかる。つまり、点光源をマルチピンホールカメラ３０１で撮像することによって得られた点光源の撮像画像そのものが、マルチピンホールカメラ３０１の計算撮像情報としてのＰＳＦである。ここで、点光源の撮像画像としては点灯時と消灯時との差分画像を使用することが望ましく、これについては後述の第２実施形態にて説明する。

　次に、データベース修正部１０４は、学習データベース１０２に含まれるボケのない通常画像を取得し、学習部１０５は、学習データベース１０２に含まれるアノテーション情報を取得する（ステップＳ２０２）。

　次にデータベース修正部１０４（画像生成部）は、計算撮像情報取得部１０３が取得した計算撮像情報を利用して、学習データベース１０２を修正する（ステップＳ２０３）。例えば、識別部１０６が環境内の人物の行動を識別する場合、学習データベース１０２は、ボケのない通常のカメラで撮影した複数の通常画像と、各画像において人物がどの位置でどんな行動をしていたかという、各画像に付与されるアノテーション情報（正解ラベル）とを保持している。通常のカメラを利用する場合、そのカメラで撮影した画像に対してアノテーション情報を付与すればよいが、マルチピンホールカメラ又はライトフィールドカメラなど、計算撮像画像を取得する場合、その画像を人が見ても何が写っているかがわからないため、アノテーション情報を付与することが難しい。また、計算撮像カメラ１０１と大きく異なる通常カメラで撮影した画像で学習処理を実施しても、識別部１０６は識別精度が高くならない。そこで、通常のカメラで撮影した画像に対して事前にアノテーション情報を付与したデータベースを学習データベース１０２として保持し、計算撮像カメラ１０１の計算撮像情報に合わせて撮影画像のみを変形させることで、その計算撮像カメラ１０１に合わせた学習データセットを作成し、学習処理を実施することで識別精度を向上させる。そのために、データベース修正部１０４は、事前に用意した通常のカメラでの撮影画像ｚに対して、計算撮像情報取得部１０３が取得した計算撮像情報であるＰＳＦを利用して、以下の補正画像ｙを計算する。

　ｙ＝ｋ＊ｚ

　ここで、ｋは計算撮像情報取得部１０３が取得した計算撮像情報であるＰＳＦを示しており、＊は畳み込み演算子を示している。

　学習部１０５は、こうしてデータベース修正部１０４で計算した補正画像と、学習データベース１０２から取得したアノテーション情報とを利用して、学習処理を実施する（ステップＳ２０４）。例えば、識別部１０６が多層のニューラルネットワークによって構築されている場合には、補正画像及びアノテーション情報を教師データとして用いて、Deep Learningによる機械学習を行う。予測誤差の補正アルゴリズムとしては、Back Propagation法などを用いればよい。これにより、学習部１０５は、計算撮像カメラ１０１によって撮像された画像を識別部１０６が識別するための画像識別モデルを作成する。補正画像は、計算撮像カメラ１０１の計算撮像情報に合致した画像となっているため、こうした学習により、計算撮像カメラ１０１に適合した学習が可能になり、識別部１０６は高精度の識別処理ができる。

　本実施形態にかかる画像識別システム１０によれば、画像識別対象の被写体３０２が所在する対象エリアは、ボケのある画像である計算撮像画像を撮像する計算撮像カメラ１０１（第１のカメラ）によって撮像される。従って、仮に計算撮像カメラ１０１による撮像画像が外部に漏れた場合であっても、計算撮像画像は人間による視覚的な認識が困難であるため、被写体３０２のプライバシーを保護することができる。また、学習データベース１０２に蓄積される通常画像（第３の画像）は、ボケのない画像（又は計算撮像画像よりボケの小さい画像）を撮像する通常のカメラ（第２のカメラ）によって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、通常画像に対して正確なアノテーション情報（正解ラベル）を容易に付与することができる。その結果、被写体３０２のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。

　また、計算撮像カメラ１０１として、符号化開口カメラ、マルチピンホールカメラ、及びライトフィールドカメラのいずれかを用いることによって、人間による視覚的な認識が困難であるボケのある画像を適切に撮像することができる。

　また、計算撮像カメラ１０１において、被写体３０２からの光をイメージセンサ３０１ｂ上に結像させる光学系を省略することにより、計算撮像カメラ１０１による撮像画像に意図的にボケを作り出すことができる。その結果、当該撮像画像に含まれている被写体３０２の識別がさらに困難となるため、被写体３０２のプライバシーの保護効果をより高めることが可能となる。

　また、使用するマルチピンホールマスク３０１ａをユーザが自由に変更できる構成とした場合には、マスクを変更することによって計算撮像カメラ１０１の計算撮像情報も変化するため、例えば各ユーザが任意にマスクを変更することにより、ユーザごとに計算撮像情報を異ならせることができる。その結果、第三者による補正画像（第４の画像）から通常画像（第３の画像）への逆変換が困難となるため、被写体３０２のプライバシーの保護効果をより高めることが可能となる。

　また、計算撮像情報としてＰＳＦ及びＬＴＭのいずれかを用いることにより、計算撮像カメラ１０１に関する計算撮像情報を簡易かつ適切に取得することが可能となる。

　（第２実施形態）
　図６は、本開示の第２実施形態にかかる画像識別システム１１の構成を示す模式図である。図６において、図１と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム１１の学習装置２１は、制御部１０８を有する。また、画像識別システム１１は、計算撮像カメラ１０１によって撮影される対象エリア（環境）内に存在する発光部１０９を有する。発光部１０９は、環境内に存在する点光源とみなせる光源であり、例えば、電気機器に搭載されたＬＥＤ、又は照明用ＬＥＤである。また、ＬＥＤモニタなどのモニタの一部の光のみを点灯及び消灯させることにより、発光部１０９として機能させてもかまわない。制御部１０８が発光部１０９及び計算撮像カメラ１０１を制御することで、計算撮像情報取得部１０３が計算撮像情報を取得する。

　また、図７は、画像識別システム１１の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報取得部１０３が計算撮像カメラ１０１の計算撮像情報を取得する処理の流れが示されている。

　まず制御部１０８は、環境内に存在する発光部１０９に、点灯の指示を出す（ステップＳ１１１）。

　次に発光部１０９は、制御部１０８の指示にしたがい、点灯を実施する（ステップＳ１１２）。

　次に制御部１０８は、計算撮像カメラ１０１へ撮像を実施するように指示を出す（ステップＳ１１３）。これにより、発光部１０９及び計算撮像カメラ１０１は、同期をとりながら動作することができる。

　次に計算撮像カメラ１０１は、制御部１０８の指示にしたがい、撮像を実施する（ステップＳ１１４）。撮像された画像（第１画像）は、計算撮像カメラ１０１から計算撮像情報取得部１０３に入力されて、計算撮像情報取得部１０３によって一時的に保持される。

　次に制御部１０８は、発光部１０９に消灯の指示を出す（ステップＳ１１５）。

　次に発光部１０９は、制御部１０８の指示にしたがい、消灯を実施する（ステップＳ１１６）。

　次に制御部１０８は、計算撮像カメラ１０１へ撮像を実施するように指示を出す（ステップＳ１１７）。

　次に計算撮像カメラ１０１は、制御部１０８の指示にしたがい、撮像を実施する（ステップＳ１１８）。撮像された画像（第２画像）は、計算撮像カメラ１０１から計算撮像情報取得部１０３に入力される。

　次に計算撮像情報取得部１０３は、第１画像と第２画像との差分画像を作成する（ステップＳ１１９）。このように発光部１０９の点灯時の第１画像と消灯時の第２画像との差分画像を求めることで、環境内の他の被写体の影響を受けず、点灯状態の発光部１０９のみの画像であるＰＳＦを取得することができる。

　次に計算撮像情報取得部１０３は、作成した差分画像を、計算撮像カメラ１０１の計算撮像情報として取得する（ステップＳ１２０）。

　このように計算撮像情報としてＰＳＦを利用する場合、計算撮像カメラ１０１は、発光部１０９が点灯しているシーン及び消灯しているシーンの２枚の画像を撮像する。この時撮影する点灯時の画像と消灯時の画像とは、できるだけ時間差がないように撮影することが望ましい。

　図８Ａ～図８Ｃは、差分画像の作成処理を説明するための図である。図８Ａは、発光部１０９の点灯時に計算撮像カメラ１０１が撮影した画像である。発光部１０９の輝度値が高くなっていることがわかる。図８Ｂは、発光部１０９の消灯時に計算撮像カメラ１０１が撮影した画像である。発光部１０９の輝度値が点灯時と比較して低くなっていることがわかる。図８Ｃは、発光部１０９の点灯時に計算撮像カメラ１０１が撮影した画像である図８Ａから、発光部１０９の消灯時に計算撮像カメラ１０１が撮影した画像である図８Ｂを減算することによって得られる差分画像を示している。発光部１０９以外の被写体に影響されず、点光源である発光部１０９のみが撮影されるため、ＰＳＦが取得できていることがわかる。

　また、計算撮像情報としてＬＴＭを利用する場合には、環境内に分散して配置された複数の発光部１０９を用い、複数の位置でのＰＳＦを取得し、それをＬＴＭとしてもかまわない。

　図９は、計算撮像情報としてＬＴＭを利用する場合の計算撮像情報取得部１０３の主要な処理の手順を示すフローチャートである。まず、各発光部１０９に対応するＰＳＦを取得する（ステップＳ３０１）。これは、前述の通り、各発光部１０９の点灯時と消灯時との差分画像を利用して取得すればよい。このようにすることで、画像上での複数の位置でのＰＳＦを取得することができる。図１０はこのようにして取得した複数のＰＳＦの模式図を示している。この例の場合には、画像上の６点でＰＳＦが取得されている。

　計算撮像情報取得部１０３は、こうして取得した複数のＰＳＦに対して補間処理を実施することで、画像のすべての画素でのＰＳＦを計算し、それをＬＴＭとする（ステップＳ３０２）。このような補間処理は、モーフィングなどの一般的な画像処理を利用すればよい。また、発光部１０９はユーザのスマートフォンや携帯電話のライトでも構わない。この場合、制御部１０８の代わりに発光部１０９の点灯や消灯をユーザが実現してもかまわない。

　また、計算撮像情報としてＬＴＭを利用する場合、複数の発光部１０９を配置するのではなく、少数の発光部１０９を利用し、移動によって発光部１０９の位置を変更させるようにしてもかまわない。これは、例えばスマートフォン又は携帯電話のライトを発光部１０９と利用し、ユーザが場所を変えながら点灯及び消灯を実現してもかまわない。または、ドローン又は掃除機ロボットなどの移動体に搭載されたＬＥＤを利用してもかまわない。または、計算撮像カメラ１０１を移動体などに設置し、あるいはユーザが向きや位置を変更することで、計算撮像画像上の発光部１０９の位置を変更させるようにしてもかまわない。

　本実施形態にかかる画像識別システム１１によれば、計算撮像カメラ１０１（第１のカメラ）に関する計算撮像情報は、点灯状態の点光源を含む第１の画像と、消灯状態の点光源を含む第２の画像との差分画像である。従って、実際に使用される計算撮像カメラ１０１に関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、機械学習に使用される補正画像（第４の画像）を、当該計算撮像情報と通常画像（第３の画像）とに基づいて正確に生成することができる。

　また、学習装置２１の制御部１０８が発光部１０９及び計算撮像カメラ１０１の動作を制御することにより、発光部１０９の点灯又は消灯のタイミングと、計算撮像カメラ１０１による撮像のタイミングとを、正確に同期させることができる。

　（第３実施形態）
　図１１は、本開示の第３実施形態にかかる画像識別システム１２の構成を示す模式図である。図１１において、図６と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム１２の学習装置２２は、計算撮像情報判定部１１０を有する。計算撮像情報判定部１１０は、計算撮像情報取得部１０３が取得した計算撮像情報の画質の状態を判定する。学習装置２２は、計算撮像情報判定部１１０の判定結果に応じて、処理の内容を切り替える。

　また、図１２は、画像識別システム１２の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部１１０による画質判定処理の前後の処理の流れが示されている。

　まず計算撮像情報取得部１０３は、上記第２実施形態のステップＳ１１９（図７）と同様の手法により、発光部１０９の点灯時の第１画像と消灯時の第２画像との差分画像を作成する（ステップＳ１２１）。

　次に計算撮像情報判定部１１０は、計算撮像情報取得部１０３によって作成された差分画像の画質が許容値以上であるか否かを判定する（ステップＳ１２２）。ＰＳＦには点光源以外のものが写っていない必要があるため、点灯時と消灯時との差分画像が利用される。しかし、点灯時の撮影と消灯時の撮影との間で、人が大きく動く又は環境内の明るさが劇的に変化するなどのシーンの変更があった場合、その変更分が差分画像に表れてしまい、正確なＰＳＦを取得することができなくなる。そこで、計算撮像情報判定部１１０は、差分画像において一定値以上の輝度を有する画素数をカウントし、その画素数が閾値以上の場合にはＰＳＦの画質は許容値未満であると判定し、その画素数が閾値未満の場合にはＰＳＦの画質は許容値以上であると判定する。

　差分画像の画質は許容値未満であると計算撮像情報判定部１１０が判定した場合（ステップＳ１２２：ＮＯ）は、次に制御部１０８は、再度の撮影を行うべく、発光部１０９への発光及び消灯の指示と、計算撮像カメラ１０１への再撮像の指示とを行う（ステップＳ１２３）。一方、差分画像の画質は許容値以上であると計算撮像情報判定部１１０が判定した場合（ステップＳ１２２：ＹＥＳ）は、次にデータベース修正部１０４は、計算撮像情報取得部１０３が差分画像として取得した計算撮像情報（ＰＳＦ）を利用して、学習データベース１０２を修正する（ステップＳ１２４）。

　ここで、差分画像の画質が劣化する原因の一つとして、計算撮像カメラ１０１の設定が適切でないことが考えられる。例えば、計算撮像カメラ１０１の露光時間が短すぎる場合又は信号増幅のゲインが小さすぎる場合には、画像が全体的に暗くなり、発光部１０９の輝度がノイズに埋もれてしまう。逆に、計算撮像カメラ１０１の露光時間が長すぎる場合又は信号増幅のゲインが大きすぎる場合には、画像内の高輝度領域の輝度値がセンシングレンジの上限値を超えて飽和し、発光部１０９の周囲がいわゆる白飛びの状態となってしまう。そこで、計算撮像情報判定部１１０は、発光部１０９の点灯時及び消灯時の各々の画像の最大輝度値を確認し、それが上限値を超える場合又は下限値未満の場合（つまり所定範囲外となる場合）には、差分画像の画質が許容値未満であると判定するようにしてもかまわない。計算撮像情報判定部１１０が発光部１０９の点灯時の画像に関して最大輝度値が上限値を超えるかどうかで差分画像の画質を判定することにより、発光部１０９の輝度がセンシングレンジを超えて飽和しているかどうかを判定できる。また、計算撮像情報判定部１１０が発光部１０９の点灯時の画像に関して最大輝度値が下限値未満かどうかで差分画像の画質を判定することにより、発光部１０９の輝度がノイズに埋もれているかどうかを判定できる。また、発光部１０９の輝度が飽和している又はノイズに埋もれていると判定された場合には、制御部１０８は、再撮影において、最大輝度値が上記所定範囲内となるように、計算撮像カメラ１０１の設定を変更するように制御してもかまわない。

　図１３は、画像識別システム１２の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部１１０による画質判定処理の前後の処理の流れが示されている。

　まず計算撮像情報取得部１０３は、発光部１０９の点灯時に計算撮像カメラ１０１によって撮像された第１画像を取得する（ステップＳ１３１）。

　次に計算撮像情報判定部１１０は、計算撮像情報取得部１０３が取得した第１画像の最大輝度値が上限値Ｔｈ１を超えるか否かを確認することで、その画像の輝度が飽和しているか否かを判定する（ステップＳ１３２）。

　最大輝度値が上限値Ｔｈ１を超えている場合、すなわち画像の輝度が飽和している場合（ステップＳ１３２：ＹＥＳ）は、次に制御部１０８は、計算撮像カメラ１０１に露光時間をより短くして再度撮影を実施するよう指示する（ステップＳ１３３）。一方、最大輝度値が上限値Ｔｈ１以下である場合（ステップＳ１３２：ＮＯ）は、次に計算撮像情報判定部１１０は、計算撮像情報取得部１０３が取得した第１画像の最大輝度値が下限値Ｔｈ２未満であるか否かを確認することで、発光部１０９の輝度がノイズに埋もれているか否かを判定する（ステップＳ１３４）。

　最大輝度値が下限値Ｔｈ２未満である場合、すなわち発光部１０９の輝度がノイズに埋もれている場合（ステップＳ１３４：ＹＥＳ）は、次に制御部１０８は、計算撮像カメラ１０１に露光時間をより長くして再度撮影を実施するよう指示する（ステップＳ１３５）。一方、最大輝度値が下限値Ｔｈ２以上である場合（ステップＳ１３４：ＮＯ）は、次に計算撮像情報判定部１１０は、計算撮像情報取得部１０３が取得した第１画像の画質は現状の露光時間で十分に高いと判定する。この場合、制御部１０８は、発光部１０９に消灯するよう指示し、また、計算撮像カメラ１０１に上記現状の露光時間で撮影するよう指示する。これにより、計算撮像情報取得部１０３は発光部１０９の消灯時の第２画像を取得する（ステップＳ１３６）。なお、制御部１０８は、取得した第２画像に関しても、上記第１画像と同様に、最大輝度値が所定範囲内となるように計算撮像カメラ１０１の露光時間を制御してもよい。

　もちろん、制御部１０８は計算撮像カメラ１０１の露光時間以外の設定を変更するようにしてもかまわない。例えば、ゲインを変更してもよい。

　図１４は、画像識別システム１２の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部１１０による画質判定処理の前後の処理の流れが示されている。

　ステップＳ１３２の判定において、最大輝度値が上限値Ｔｈ１を超えている場合、すなわち画像の輝度が飽和している場合（ステップＳ１３２：ＹＥＳ）は、次に制御部１０８は、計算撮像カメラ１０１にゲインをより小さくして再度撮影を実施するよう指示する（ステップＳ１３７）。

　ステップＳ１３４の判定において、最大輝度値が下限値Ｔｈ２未満である場合、すなわち発光部１０９の輝度がノイズに埋もれている場合（ステップＳ１３４：ＹＥＳ）は、次に制御部１０８は、計算撮像カメラ１０１にゲインをより大きくして再度撮影を実施するよう指示する（ステップＳ１３８）。

　また、制御部１０８は、計算撮像カメラ１０１の露光時間又はゲインではなく、発光部１０９の輝度を制御するようにしてもかまわない。つまり、計算撮像情報判定部１１０によって発光部１０９の輝度が飽和していると判定された場合には、制御部１０８は、輝度を下げるよう発光部１０９を制御する。逆に、計算撮像情報判定部１１０によって発光部１０９の輝度がノイズに埋もれていると判定された場合には、制御部１０８は、輝度を上げるよう発光部１０９を制御する。発光部１０９の輝度を上げることで、ノイズとの輝度差がひろがる。

　また、制御部１０８は、計算撮像情報判定部１１０によって差分画像の画質が許容値未満であると判定された場合には、対象エリア内に存在する別の発光部を選択し、当該別の発光部に対して発光及び消灯を指示するようにしてもかまわない。これは、指向性を有する光源の場合、計算撮像カメラ１０１と発光部１０９との位置関係によっては、どうしても画質が低下してしまう場合があり、このような場合に有効である。

　本実施形態にかかる画像識別システム１２によれば、差分画像の画質が許容値未満である場合に、制御部１０８が計算撮像カメラ１０１による再撮像制御を行うことにより、点光源の輝度値が適切に調整された差分画像を取得できる。その結果、計算撮像カメラ１０１に関する適切な計算撮像情報を取得することが可能となる。

　また、再撮像制御においては、制御部１０８が計算撮像カメラ１０１の露光時間及びゲインの少なくとも一方を修正することにより、点光源の輝度値が適切に調整された差分画像を取得することが可能となる。

　（第４実施形態）
　図１５は、本開示の第４実施形態にかかる画像識別システム１３の構成を示す模式図である。図１５において、図１と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム１３の学習装置２３は、学習済みの複数の画像識別モデルが格納された記憶部１１２と、当該複数の画像識別モデルの中から一の画像識別モデルを選択するモデル選択部１１１とを有する。画像識別システム１３の学習装置２３は、データベース修正部１０４によって修正された学習データベース１０２を学習部１０５が学習するのではなく、モデル選択部１１１を有し、事前に学習した複数の画像識別モデルの中から、計算撮像カメラ１０１の計算撮像情報に対応する最適な画像識別モデルを選択する。例えば、上記のようにマスクパターンが異なる複数種類のマルチピンホールマスク３０１ａが予め用意されている場合には、各マルチピンホールマスク３０１ａの装着状態での撮像画像を用いて学習された画像識別モデルが予め作成されて、それら複数の画像識別モデルが記憶部１１２に格納されている。モデル選択部１１１は、記憶部１１２に格納されている複数の画像識別モデルの中から、計算撮像カメラ１０１の計算撮像情報に対応する一の画像識別モデルを選択する。

　また、図１６は、画像識別システム１３の学習装置２３の主要な処理の手順を示すフローチャートである。当該フローチャートには、モデル選択部１１１が画像識別モデルを選択する処理の流れが示されている。

　まず、計算撮像情報取得部１０３は、計算撮像カメラ１０１の計算撮像情報を取得する（ステップＳ２０１）。

　次に、モデル選択部１１１は、記憶部１１２に格納されている複数の画像識別モデルの中から、計算撮像情報取得部１０３が取得した計算撮像情報に対応する一つの画像識別モデルを選択する（ステップＳ２１１）。これは、事前に様々な計算撮像情報で学習した画像識別モデルを準備しておき、その計算撮像情報に最も近い計算撮像情報で学習した画像識別モデルを選択するようにすればよい。

　こうして選択された画像識別モデルは、計算撮像カメラ１０１に適合する画像識別モデルとなっている。選択された画像識別モデルは、識別部１０６が使用する画像識別モデルとして、識別部１０６に設定される。識別部１０６は、当該画像識別モデルを使用することにより、高精度の識別処理が可能となる。

　本実施形態にかかる画像識別システム１３によれば、学習装置２３は、学習済みの複数の画像識別モデルの中から、計算撮像カメラ１０１の計算撮像情報に対応する一の画像識別モデルを選択する。従って、学習装置２３が新たに学習を行う必要はないため、学習装置２３の処理負荷を軽減できるとともに、識別装置３０の運用を早期に開始することが可能となる。

　本開示に係る学習方法及び識別方法は、被写体のプライバシー保護が必要な環境での画像識別システムに特に有用である。

Claims

　学習装置としての情報処理装置が、
　ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得し、
　　前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、
　ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを取得し、
　前記計算撮像情報と前記第３の画像とに基づいて、ボケのある第４の画像を生成し、
　前記第４の画像と前記正解ラベルとを用いた機械学習を行うことによって、前記第１のカメラによって撮像された画像を識別するための画像識別モデルを作成する、学習方法。
　前記第１のカメラは、
　領域ごとに透過率が異なるマスクパターンを有するマスクを備えた符号化開口カメラ、
　複数のピンホールが形成されたマスクパターンを有するマスクがイメージセンサの受光面に配置されたマルチピンホールカメラ、及び、
　被写体からのライトフィールドを取得するライトフィールドカメラ、
のいずれかである、請求項１に記載の学習方法。
　前記第１のカメラは、被写体からの光をイメージセンサ上に結像させる光学系を有しない、請求項１又は２に記載の学習方法。
　前記マスクは、前記マスクパターンが異なる他のマスクに変更可能である、請求項２に記載の学習方法。
　前記計算撮像情報は、Point Spread Function、及び、Light Transport Matrixのいずれかである、請求項１～４のいずれか一つに記載の学習方法。
　前記情報処理装置が、前記点光源の点灯制御を行うとともに前記第１のカメラによる前記第１の画像の撮像制御を行い、前記点光源の消灯制御を行うとともに前記第１のカメラによる前記第２の画像の撮像制御を行う、請求項１～５のいずれか一つに記載の学習方法。
　前記情報処理装置が、
　前記差分画像の画質が許容値未満である場合に、前記第１のカメラによる前記第１の画像及び前記第２の画像の再撮像制御を行う、請求項６に記載の学習方法。
　前記情報処理装置は、前記再撮像制御において、前記第１の画像及び前記第２の画像の各々に関して、最大輝度値が所定範囲内となるように、前記第１のカメラの露光時間及びゲインの少なくとも一方を修正する、請求項７に記載の学習方法。
　識別部を有する識別装置において、
　ボケのある画像を撮像する第１のカメラによって撮像された画像を前記識別部に入力し、
　前記識別部が、学習済みの画像識別モデルに基づいて、入力された前記画像を識別し、
　前記識別部による識別の結果を出力し、
　前記画像識別モデルは、請求項１～８のいずれか一つに記載の学習方法によって作成された画像識別モデルである、画像識別方法。
　ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得する取得部と、
　　前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、
　ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを記憶する記憶部と、
　前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第３の画像とに基づいて、ボケのある第４の画像を生成する画像生成部と、
　前記画像生成部が生成した前記第４の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、前記第１のカメラによって撮像された画像を識別するための画像識別モデルを作成する学習部と、
を備える、学習装置。
　ボケのある画像を撮像する第１のカメラに関する計算撮像情報を取得する取得部と、
　　前記計算撮像情報は、前記第１のカメラによって撮像された、点灯状態の点光源を含む第１の画像と消灯状態の前記点光源を含む第２の画像との差分画像であり、
　ボケのない画像又は前記第１のカメラよりもボケの小さい画像を撮像する第２のカメラによって撮像された第３の画像と、前記第３の画像に付与されている正解ラベルとを記憶する記憶部と、
　前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第３の画像とに基づいて、ボケのある第４の画像を生成する画像生成部と、
　前記画像生成部が生成した前記第４の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、画像識別モデルを作成する学習部と、
　前記第１のカメラによって撮像された画像を、前記学習部が作成した前記画像識別モデルに基づいて識別する識別部と、
　前記識別部による識別結果を出力する出力部と、
を備える、画像識別システム。