WO2021075527A1

WO2021075527A1 - カメラ及びイメージングシステム

Info

Publication number: WO2021075527A1
Application number: PCT/JP2020/039020
Authority: WO
Inventors: 一長原; カイントゥオングエン
Original assignee: 国立大学法人大阪大学
Priority date: 2019-10-18
Filing date: 2020-10-16
Publication date: 2021-04-22
Also published as: JPWO2021075527A1

Abstract

イメージングシステム（１）は、感光素子からなる画素が複数配列された面状の撮像素子（４）と、撮像素子（４）の前面に配置され、入射光を変調するパターンが形成されたマスク（２）と、撮像された被写体の撮像画像を読み出す読出部（５）と、読み出された撮像画像から被写体の付属情報に対する性別判定を行う認識部（１２）とを備える。パターンは、被写体からの光線のうち、複数方向からの光線を１つの画素に導く各々の透光部（２１）が複数配列されたものを含む。これにより、被写体の個体認識を不可にする一方、所期の用途に対する、個体の付属情報の認識を可能にしてプライバシー保護を図る。

Description

カメラ及びイメージングシステム

　本発明は、被写体の映像を個体認識不能レベルまで変調させて撮像するプライバシー保護が可能なカメラ技術に関する。

　従来、カメラは、レンズを通して撮像素子上に網膜像、すなわち人が理解可能な結集光像を射影、すなわち撮像素子の各画素で受光輝度を計測することで、光学映像をデジタル化して撮像している。撮像された画像データは、一般的にはラスタースキャンの順番で空間的な関係を維持したまま読み出され、さらに例えばインターネット回線を介して転送され、またデータファイルとして保存される。転送や保存の間に情報がハッキングや漏洩された場合、内容は容易に観察できる。今日、かかるデータ漏洩や第三者による一方的な公表などによる画像のプライバシー問題は深刻化している。例えば、カメラを搭載したメガネ型IoT機器がレストランなどで使用禁止されて発売が中止になったケースや、第三者がSNS上にアップロードした画像の削除を求めるケースのような社会問題も発生している。

　また、近年、レンズレスカメラ乃至フラットカメラが提案されている（例えば特許文献１）。この種のカメラは、レンズに代えて透過光を変調する板状の変調器を設けたもので、これにより撮像装置の薄層化を実現している。撮像装置は、同心円状に形成された第１のパターンによって光強度の変調を行う変調器と、変調器を透過した光像を画像データに変換する画像センサと、画像センサから出力された画像データと第２のパターンを示すパターンデータとの相互相関演算を実行する画像処理部とを備えて、被写体像の復元を可能にしている。

特開２０１８－６１１０９号公報

　監視カメラなどは防犯目的で個人を特定するために適用されるが、現在のスマートフォンやスマートスピーカ、IoT機器の多くは、必ずしも個人特定や証拠記録を目的としておらず、個人の表情やジェスチャー、行動認識などのためのセンサ、モニタとして用いられてきている。また、ドローンや自動走行用のカメラも、環境認識や障害物検知のためのセンサであり、そこに映り込む人々のプライバシーを記録する必要はない。このように、本来、プライバシー情報の記録や保存を目的としていないカメラの利用形態が存在している一方で、カメラを用いること自体がプライバシー侵害の憂慮要因になってその利用が制限され、単にジェスチャー認識のためのセンサとしてカメラを用いることができず、来るIoT、Society5.0時代に向けての応用やサービスが始まらないというジレンマが存在する。かかる問題を解決する一般的な方法として、画像を撮影したあとに、エッジ側で符号化して転送を行い、サーバ側で認識前に複号化することが提案されている。しかしながら、このような方法でも、符号化前の撮影画像及び復号後の画像がハッキングや情報漏洩などによって流出する虞があるとの心配は完全には払拭されない。

　また、特許文献１に記載の撮像装置では、画像センサで取得されたデータが復元性のある画像情報であるため、第三者によるハッキングや漏洩を経て公表される虞があるなど、プライバシー保護の観点はない。

　本発明は、上記に鑑みてなされたもので、被写体である個体のプライバシーの保護を図りながら、個体の付属情報の認識（識別）を可能にするカメラ及びイメージングシステムを提供することを目的とする。

　本発明に係るカメラは、感光素子からなる画素が複数配列された面状の撮像素子と、前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、前記パターンは、被写体からの光線のうち、複数方向からの光線を１つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするものである。

　本発明によれば、被写体からの光線は変調素子で光学的に変調された後、撮像素子で撮像される。撮影画像は、光学的網膜像のような空間的射影情報は破壊されるが、本質的に認識に必要な情報は保持可能となる。これにより、記録又は万が一漏洩したデータ列からは視覚的に内容を認識することが困難であるため、プライバシーは保護される。

　本発明によれば、被写体の個体認識を不可にする一方、所期の用途に対する、個体の付属情報の認識を可能にしてプライバシー保護を図る撮影が可能となる。

本発明に係るイメージングシステムの構成を示す側面視で一部断面の概略構成図である。変調素子のパターンと撮像素子の画素との関連を示す図である。変調素子の有無及び種類と撮像画像との関係を説明する図で、（Ａ）はレンズレスの場合、（Ｂ）は針穴状の孔（ピンホール：pin hole）が穿設されている場合、（Ｃ）は表面に複数又は異なる大きさの透光部を有するマスクを介在させた場合である。変調素子の他のパターンを示す図で、（Ａ）はサイズの異なる透光部が形成されたマスクであり、（Ｂ）は透光部がランダム乃至粗密状に形成されたマスクである。変調素子の他の実施形態を示す図である。画像とコード化された平面の間の距離が小さい場合と大きい場合のレンズレスイメージング図で、（Ａ）は距離が小さい場合の図、（Ｂ）は距離が大きい場合の図である。レンズレスイメージングによる顔認識のための視覚的なプライバシー保護を説明するシステム図である。様々な画像システムの視覚的比較を示す図で、測定とパターンの上の尺度は、ぼやけと露出との比を示し、固定パターンの次元はｍ＝32×32である。、複数のH_iおよびR_iに対するLwoC-woRecの混同行列を示す図で、（i,j）の各値は、i番目のコード化パターンH_iの入力レンズレス測定でのj番目の認識機能R_jのTop１精度（％）を示している。コード化されたパターンのサイズｍ＝32×32におけるコード化された画像サイズn＝63×63（図１０（Ａ））と、127×127（図１０（Ｂ））でのVGG-Face2のTop１精度（％）を示す図である。学習パターンと様々な重みでの人間の視覚プライバシー保護の測定を説明する図で、ｎ＝63×63、ｍ＝32×32である。 VGG-Face2での学習パターンH_iと認識機能R_iとの混同行列を示す図で、10クラスで、ｎ＝63×63、ｂ＝32×32である。レンズレスイメージングのためのハードウェア実装の他の実施形態を示す図である。表示された画像、空間光変調器で実際にコード化されたパターンおよび実際にキャプチャされた測定値（視覚的品質を高めるために最大値と最小値に再スケーリングされている）を示す図である。

　図１は、本発明に係るイメージングシステム１の構成を示す側面視で一部断面の概略構成図である。図１において、イメージングシステム１は、カメラ１１と認識部１２とを含む。カメラ１１は、光軸方向の前側から順に変調素子の一実施形態であるマスク２と、撮像素子４とを有し、かつマスク２と撮像素子４とを光学的に接合する薄層の接合層３と、撮像素子４で撮像された画像データを各画素から読み出す読出部５とを備える。なお、カメラ１１は、説明の便宜上、被写体Ｐに対してサイズを誇張して示している。また、接合層３は一体型の形態では接着層のみでもよく、さらに物理的な連結構造を採用してもよい。

　カメラ１１は、撮像素子４を備えたデジタルカメラである。撮像素子４は、典型的には四角形をした板状（面状）の本体部４１の前面に画素４２がマトリクス状に多数配列されて構成されている。各画素４２は、CCDなどの微小な感光素子で、受光輝度に応じた電圧信号を発生する。

　マスク２は、撮像素子４と対応するサイズを有するシート状乃至薄層の板状体である。マスク２は、遮光性を有する一方、表面の適所に複数の孔乃至透光域からなる透光部２１が形成されたものである。また、マスク２は、逆に、透光性を有する一方、表面の、前記透光部２１以外の個所に遮光処理が施されたものでもよい。

　図２は、マスク２の透光部２１のパターン（変調パターン）と撮像素子４の画素４２との配置関連を示す図である。透光部２１は、好ましくは画素４２に対応して設けられ、画素４２の行列方向の少なくとも一方向に対して所定ピッチ毎に形成されている。

　透光部２１のサイズは均一である必要はなく、全部または一部は画素４２のサイズ以上の大きさであることが好ましい。図１及び図２では、透光部２１のサイズは、画素４２のサイズの数倍程度であるが、さらに数十倍～数百倍以上であってもよい。マスク２の透光部２１として前記のような大サイズのものを含むことで、被写体Ｐの複数の方向から入射する光線Ｌ１，Ｌ２（あるいはさらに他の光線）を同一の画素４２に入射させるようにしている。このように、複数の方向からの光線を同一の画素４２に入射させて、すなわち変調させて、すなわち網膜像を形成することなく空間的射影情報を光学的に破壊して撮像することで、撮像画像自体から被写体Ｐの個人認識が再現できないレベルに低下させている。

　図３は、マスク２の有無及び種類と撮像画像との関係を説明する図である。図３（Ａ）は、レンズレスで、かつマスク２０Ａを介在させずに撮像素子４で被写体映像を撮像するものである。図３（Ａ）では、被写体の各方向からの光線はすべての画素４２に均等に入射するため、撮像画像は、一面に均一で、全く意味をなさない画像になっている。一方、図３（Ｂ）のように、マスク２０Ｂにひとつだけ針穴状の孔（ピンホール：pin hole）が穿設されている場合、ピンホールカメラ（針穴写真機）の原理で、被写体の一方向からの入射光だけがピンホールを通って入ってきて、異なる輝度を計測するため、通常の写真のように完全に結像した、網膜像と同様の画像となる。

　図３（Ｃ）は、表面に複数又は異なる大きさの透光部２１ａを有するマスク２ａを介在させることで、画素４２１及び画素４２２のそれぞれに、複数の透光部２１ａを透過した光線を組み合わせて導き、また、画素４２１と画素４２２の双方に、同一の透光部２１ａを透過した光線を組み合わせて導いて撮像を行うようにしたものである。

　上記において、図３（Ａ）の場合は、視覚的に完全に情報が落ちているためプライバシー保護が完全にできる一方、情報が残っていない、すなわちすべての画素が同じように積分（平均）されていることから分離不能なために、画像の認識など被写体画像として何が映っているか判別不能となる。図３（Ｂ）の場合は、反対に被写体映像そのものが映っているためデータの欠落はなく、却ってプライバシーに対する脆弱性が高い。

　一方、図３（Ｃ）の場合のように、マスク２ａを使ってこの中間状態にすると、撮像画像を視覚的には何が映っているか分からなくすることができる。したがって、この場合、撮像画像自体がハッキング乃至漏洩されても、意味不明状態は維持され、しかも撮像画像とマスクの情報を盗用して再生のための画像処理を施しても個人認識のレベルまでの再生は不可であるため、依然としてプライバシー保護が確保される。例えば図３（Ｃ）のように中間状態にした場合、その撮像画像Ｇから分かるように、濃淡模様が計測されて、被写体の位置情報のような付属情報が認識可能であるとしても、被写体自体の再生はできない。

　図４、図５は、変調素子の他の態様を示す図で、図４はマスクの他のパターンを示し、図５は、他の実施形態を示す。図４（Ａ）は、サイズの異なる透光部２１ｂ、２２ｂが形成されたマスク２ｂであり、図４（Ｂ）は、透光部２１ｃがランダム乃至粗密状に形成されたマスク２ｃである。また、透光部の形状は、四角形（スリット状含む）、多角形、円形を問わない。

　図５は、変調素子の一例としてのマスク２に代えて透光性を有する薄層の板状体２ｄである。板状体２ｄは、シート状であってもよい。板状体２ｄは、少なくとも表裏の一方面が凸凹状の粗面２１ｄ（透光部に相当）に形成されている。粗面２１ｄの凸凹状には、微小な凸レンズ状、凹レンズ状を含めてもよい。粗面２１ｄを形成する凸凹面の面方向におけるサイズは、画素４２のサイズに対応したサイズ乃至その数倍から百倍程度であってもよい。なお、粗面２１ｄを形成する凸凹面は、透光部に対応する。

　板状体２ｄは、規則的な集光を可能にする集光レンズではなく、図５に示すように、複数の方向からの、例えば光線Ｌ１１，Ｌ１２，Ｌ１３を、板状体２ｄ内で屈折して不規則な方向へ向ける。すなわち、粗面２１ｄは、透過した光線Ｌ１１，Ｌ１２，Ｌ１３を、同一の画素４２に入射させたり、飛び越した別の画素４２に入射させたりと、対応しない位置関係にある画素４２に入射させるものである。これにより被写体からの映像は空間的射影情報が光学的に破壊されて、撮像画像から個人認識不能な意味をなさない情報にする。

　図１に戻って、読出部５は、撮像素子４の各画素４２で生成された電圧信号（計測信号）を出力する。読出部５は、各画素４２の信号を、配列方向に沿って所定の順で、例えばラスタースキャンに対応させて順番に読み出す。また、読出部５は、撮像素子４からの信号読み出し時に、ランダムな順序で、あるいは複数の画素の信号を加算して読み出すようにして電子的な暗号化を施すことで、人が見てもさらに何が映っているか理解できない画像を出力するような態様としてもよく、この画像を機械学習により、例えば被写体の性別判定の用途に合うパラメータを有する認識部１２により、認識（判定）を効果的に行う。認識部１２は、カメラ１１と一体乃至は半一体構造としてもよいし、有線又は無線、又はインターネット回線を介した遠隔場所（例えばモニタ室）に配置された態様でもよい。

　認識部１２は、入力画像情報に対して、機械学習を経て取得したパラメータを用いて認識（判定）を行い、その結果を出力する。認識部１２は、目的とする特定の用途に特化した認識（判定）を効果的に行う。認識部１２のパラメータ記憶部１２１に格納されているパラメータは、機械学習を経てモデル化したものである。機械学習としては、いわゆる、教師あり学習、教師なし学習、強化学習、また深層学習の少なくとも１つの学習方法を採用したものである。

　機械学習は、ニューロンネットワークを模擬（モデル化）した入力層、出力層、及びその間の少なくとも１層の隠れ層を有し、各層は、複数のノードがエッジで結ばれた構造となっている。パラメータは各層の各エッジの重み値をいう。例えば、教師あり学習で、カメラ１１で撮像された画像から被写体の性別を認識（判定）する場合、本カメラ１１で複数の被写体を撮像させて得た各画像を、模擬ネットワークの入力層に入力し、対応して解答（ラベル）を提示して、その際のフィードバック時に重み値を更新して学習させる。かかる学習を、多数の被写体について行うことで、被写体毎の特徴量がパラメータに反映されて判定精度を高めることとなる。

　また、例えば深層学習のフレームワークにより、変調素子及び撮像素子４からの読み出しの信号と認識部１２とを同時に学習させることが好ましい。その場合、深層学習に際して、撮像画像ができるだけ視覚的に意味を持たないように、敵対的学習の枠組みを用いて学習させることが好ましく、これにより認識機能を落とすことなく、人に対して理解不能な、さらには認識部１２でも個人認識不能な画像を撮影できる。このように、機械学習の枠組みでソフトウェアである認識部１２のパラメータと、変調素子２のパターンであるハードウェア設計の最適化を双方に関連させて行うことで、カメラ１１と認識部１２のセットを設計する。

　このように、１つの透光部を透過した光線を複数の画素に入射させる構成、または複数の透光部を透過した各光線を１つの画素に入射させる構成で変調パターンを実質的に設計することで、個体認識を不能にする一方、個体の付属情報を認識可能にする変調素子が制作可能となる。

　また、本発明は、以下の態様を含む。

（１）本カメラ１１は、通常のカメラの撮影レンズの前後面の一方に本変調素子を配置することでも構成することができる。この場合、変調素子は、撮影レンズの結像性能を考慮して光像の変調を行うように設計すればよい。

（２）本イメージングシステム１の目的とする特定の用途としては、性別判定、年齢判定、ジェスチャー（アクション）、個人ＩＤ、その他、被写体本人の特定に繋がらない各種の付属情報が想定される。認識部１２からの判定結果を表示する表示器、スピーカなどをさらに備えることで判定結果を報知できる。また、本イメージングシステム１は、人以外の動物などの個体に対しても適用することができる。従って、本イメージングシステム１は、携行式の他、設置式でも適用可能である。

（３）変調素子の表面の変調パターンは不規則であってもよいし、または、あるサイズ毎に１種類又は複数種類の変調パターンを縦横の少なくとも一方に繰り返し配置する態様とすることが制作上好ましい。分割型の変調パターンのサイズは、認識用途にもよるが、例えば画素４２の個数との関係では、数十～数百個程度の面積に対応するサイズ、例えば100×100個分の配列領域、乃至それ以下又はそれ以上であってもよい。また、変調素子のパターンの一部として、図３（Ｂ）のようなピンホールを隣接して形成し、両方のピンホールを通過した光線を同一の画素に導くような態様を含めてもよい。

（４）マスク２は、固定型に代えて変調パターンを可変させる部材、例えば液晶表示素子（ＬＣＤ）パネルを採用することができる。変調パターンを可変式とすることで、用途に応じて予め設定されたパターンとなるように電気信号で切り替え制御することができ、また同一用途でも経時方向に対して切り替えることができ、いずれの場合もプライバシー性能をより高めることができる。

　続いて、実験に関連して、（Ａ）レンズレス取得をモデル化し、様々なレンズレスイメージング方式を評価した点、（Ｂ）人間とマシンビジョンに対するカスタム損失機能と、コード化されたパターンと認識機能の一意のペアをトレーニングする方法によって、視覚的なプライバシー保護機能を保護した点、（Ｃ）ハードウェアの実現とともに実験を示し、（Ｄ）その実験結論について説明する。

（Ａ）安全なレンズレスイメージング
　まず、視覚的なプライバシー保護のためのレンズレスイメージングの背景と、顔認識のためのイメージングシステムを説明する。

（１）コード化レンズレスイメージ
　レンズレスイメージングは、複雑なレンズシステムを使用せずに画像をキャプチャする新しい手法である。コード化されたパターンは、単一のまたは複数のピクセルで入射光を変調するために使用される。後者のアプローチは、パターンを変更せずにシングルショットの画像のキャプチャを可能にするため、より一般的である。レンズレスイメージングは、図６に示すように、画像とコード化された平面の間の距離d1が短い場合（Ａ）と長い場合（Ｂ）の値で示されている。景色xとコード化パターンＨが与えられると、レンズなし測定値yは、（式１）で表される。

　ここに、＊は畳み込み演算子で、ηは加法性ノイズである。距離d1が短くなると、カメラはFlatCam（すなわち、レンズ無しで撮影できるカメラ）のように薄くなる可能性があるが、センサ４の画素（ピクセル）の視野によって入射光線の角度も制限される。距離が大きくなると、視野は、カメラの入射瞳、マスク２の直径によって定義される。バイナリパターンＨと同じ解像度で、カーネルサイズが大きい場合、距離d1を大きくすると画像がぼやけ、視覚的なプライバシー保護が向上する。したがって、大きな距離d1が採用される。コード化されたイメージングをバイナリ畳み込みとしてモデル化することにより、バイナリパターンＨを学習する。

（２）顔認識のためのレンズレスイメージングシステム
　図７に示すイメージングシステム１は、マスク２とセンサ４とを備えたレンズレスカメラ１１を使用して画像をキャプチャし、それをResNet18（深さ18層を有する畳み込みニューラルネットワーク）に基づく認識部１２に再構成せずに送信する。

　まず、従来のコーディングされたイメージング（固定パターンと学習パターンを使用）を含むイメージングシナリオを評価した。固定レンズレスイメージングでは、ピンホール、デフォーカスパターン、および再構成なしのランダムパターン（Rand-woRec）を使用した。学習したレンズレスイメージングの場合、パターンは制約なしで、かつ学習なしで学習された（LwoC-woRec）。再構成ネットワークについては、後で説明する。

　表１は、ResNet18を使用した様々なサンプリング方式をTop１精度（％）で示したもので、LwC-MSEの場合はα＝10^－８、LwC-TVの場合はα＝10^－６である。なお、Top１精度（％）とは認識率の表現で、一番目の候補の認識率をいう。表１の結果に示すように、従来のイメージングまたはピンホールイメージングのいずれかが最高の精度を実現している。デフォーカスとランダムにコード化されたイメージングにより、精度が20％～40％失われている。

　図７に示すように、認識結果bは正しいことに越したことはないが、同時に撮像画像yがボケている(人が理解できない)ことが求められている。単純に、認識率の向上を最適化すれば、撮影画像yはボケなくなり（表１でpineholeが性能がよい）、yをぼかすと認識率が低下するというトレードオフがある（表１でDefocusやrandomは性能が低い)。本手法では、マスク２のパターン(ぼかすための)と認識部１２とを同時に最適化することで、このトレードオフを解決する。LwC-TVは、画像がボケている割には性能が高いまたは、pineholeより性能が高い場合もある。すなわち、人には分からなくても機械にはわかるパターン生成を実現する。

　また、図８は、様々な画像システムの視覚的比較を示す図で、測定とパターンの上の尺度は、ぼやけと露出との比を示すものである。図８では、従来のピンホールイメージングでは画像の詳細が明らかになるが、デフォーカスとランダムパターンによるイメージングでは明らかにならない。したがって、精度と視覚的なプライバシー保護の間にはトレードオフがある。すなわち、学習パターンはピンホールや従来のイメージングと比較して約5％の損失で認識精度を大幅に向上させるが、視覚的に保護された測定を保証するものではない。図８に示すように、コード化された比率rが小さい場合（すなわち、r=1/16）、LwoC-woRecはサブジェクトのＩＤを明らかにする。したがって、精度とプライバシーのトレードオフを制御する方法が望まれる。

（Ｂ）安全な学習レンズレスイメージング
（１）人間の視覚からプライバシーを保護
　レンズレス画像から人物を識別できないようにするために、高い認識機能を維持しながらも、撮像画像がデフォーカスパターン撮像の画像と同じになるように符号化パターンを学習したいと考えた。そのために、（式２）の平均二乗誤差（MSE）を最小化することにより、キャプチャした画像のぼやけを最大化する。

　ここで、ｌ_ｍは、すべて値１の行列を示す。これは、デフォーカスイメージングのコード化されたパターンである。逆に、図８に示すように、学習パターンはより小さな局所領域（またはより小さな変動）に収束する可能性がある。したがって、測定値は、画像の小さな領域から畳み込み、より多くの情報を明らかにする。その結果、コード化されたパターンの総変動（TV）を（式３）のように最大化する。

　ここで、Δ_ｘおよびΔ_ｙは、それぞれ水平および垂直勾配演算子を表す。TV損失を使用する場合、学習パターンはMSE損失を使用する場合よりも多様である必要がある。

（２）マシンビジョンからプライバシーを保護
　セキュリティアプリケーションでは、パターンH_iと認識機能R_iのペアは一意である必要がある。すなわち、正しい｛R_i,H_i｝では、認識機能が高いが、不一致の｛R_i,H_j｝とのペアは、認識機能が低いことを示している。より分かりやすい例で示すと、パターンH_iと認識機能R_iとが鍵のように作用することを示している。すなわち、鍵H_iと鍵穴R_iとが一致した場合のみ精度が高く、一致しない場合は、精度が低くなるということを示している。ある鍵H_iと鍵穴R_iが公開鍵であっても、iが不明であれば、H_iで撮影された画像を盗聴したとしても、その組み合わせのR_iが特定できないので、そこから直接、情報を盗聴することができない。これを応用すれば、例えば液晶パネルでH_iを時間的に変化させ、これにサーバ側のR_iを同期させれば、ＡＴＭ（AutomaticTeller MacHine）の暗号表のように適用でき、さらにセキュリティを高めることができる。

　前記（Ｂ）．（１）のように最適化すると、人には分からないが、機械にはわかりやすいパターンが生成される。すなわち、どのような学習器でも簡単に見破れる画像になっている可能性がある（例えば、極端な例として、人物Ａの場合には横縞、人物Ｂの場合には縦縞になるマスク）。これを防止するために、下記の（式４）の条件を加えて、あるパターンH_iで符号化された画像は、それと同時に最適化されたR_iのみで判別でき、それ以外のR_iでは判別しにくいように最適化をすることで、パターンH_iを知らない認識機能R_jでは識別できないようにする。すなわち、認識率とボケとマシーンプライバシー（撮影画像の変化とラベルとの相関が分かりにくくなること）を同時に実現するマスク２のパターンの生成を実現する。

　例えば、予め複数種類のパターンH_iと、各種のパターンに対して最適化されている認識機能R_iとが予め組み合わせとして図略の記憶部、例えば認識部１２内の記憶部に記憶（準備）され、図略の制御部（認識部１２含む）が、これらの組み合わせ情報を記憶し、制御するようにしている。ある撮影に際して、認識部１２が、または図略の制御部が、パターンH_iのマスク２を選択した場合、対応しない認識機能R_jではなく、組としての認識機能R_iを選択して認識処理に適用することで、所期の、すなわち最適化状態での認識処理が実行される。このように、暗号表のように適用できることで、さらにセキュリティを高めることができる。

　ただし、前述した方法は、プライバシーを人間の視覚から保護するだけで、複数の事例をトレーニングすると、同様のパターンと認識機能のペアが生成される。これは、対角線について高精度を示す図９で確認できる。なお、図９は、複数のH_iおよびR_iに対するLwoC-woRecの混同行列を示す図で、（i,j）の各値は、i番目のコード化パターンH_iの入力レンズレス測定でのj番目の認識機能R_jのTop１精度を示している。ユニークなペア｛R_i,H_i｝をトレーニングするには、マシンビジョンのプライバシー保護が必要である。Ｌ_ｒｅｇが入力xとラベルbのクロスエントロピー損失関数を表す場合、（式４）によって不一致ペアの精度を低くすることが容易である。

　（式４）は、一意のペアＭの数が増えるにつれて、R_iの複数の推論を伴う大量の計算を必要とする。最後に、トレーニングの損失は、（式５）で表されるような、人間の視覚とマシンビジョンの視覚的なプライバシーを保護する損失の組み合わせである。

　コード化されたパターンHとRの新しいペアの場合、より複雑な損失が追加される。

（Ｃ）シミュレーションデータの実験結果
（１）データセットとトレーニング
（１－１）データセット
　ここでは、VGG-Face2データセット（学習済みモデル）の主な結果を紹介する。また、調整されたMicrosoft（登録商標）Celeb（MS-Celeb）およびCASIAデータセットについて追加の実験を行った。すべてのデータセットで、画像数が最も多い10個のクラスを選択し、それらを95：5の比率でトレーニングセットとテストセットとに分けた。データを補足するために、ランダムクロッピングと垂直フリッピングとを採用した。

（１－２）トレーニング
　ここでは、顔認識にResNet18を使用した。ネットワークは、確率的勾配降下オプティマイザーを用いてトレーニングした。ミニバッチサイズは128とした。３つの設定として画像サイズｎ＝｛63×63,127×127｝、およびコード化パターンサイズｍ＝｛32×32,64×64｝を用いた。コード化された比率は、ｒ＝ｎ／ｍと定義され、開口率は、パターン領域全体に対するパターン内の「1」要素の総数で表される。トレーニング後、最高のTop１テスト精度を持つネットワークを最終的なソリューションとして選択した。重み係数α、βについては、10^－２から10^－８までの様々な組み合わせをテストした。再構成のために、17個の残差ブロックを使用して、Div2K（学習画像及びテスト画像）のデータセットからクリーンな画像とキャプチャした画像との間の残差を学習した。

（２）人間の視覚プライバシーパフォーマンス
　人間の目が物体を認識する能力を測定する方法に関する研究が不足しているため、視覚的プライバシーを評価することは非常に困難である。一般に、画像がぼやけていると、人間は被写体を認識しにくくなる。そこで、非参照ブラーメトリック（non-reference blur metric）を採用して、視覚的なプライバシー品質を評価した。前記した表１に示すように、すべての学習パターンスキームは、従来のピンホールイメージングと比較して、5％未満の損失で高い認識精度を生み出した。さらに、再構成は認識に必要ではないが、精度が低下する。より良い再構成法は精度を高めることに注意する必要がある。しかしながら、それらの方法では固定されたコード化パターンを必要とするため、本方式には適していない。逆に、プロセスの途中で再構築を行うと、セキュリティリスクが高まる可能性がある。さらに、最近、直接認識が最初の再構成よりも優れていることも示唆されている。

　図１０（Ａ）（Ｂ）から、MSE損失はデフォーカスイメージングと制約なしのイメージング（LwoC-woRec）との間のトレードオフを提供するが、TV損失はRand-woRecとLwoC-woRecとの間でトレードオフがあることを容易に観察できる。重みが小さいほど、制約なしの結果に近い結果となる。曲線が右上に移動するにつれて、TV損失はMSE損失よりもわずかに良い結果をもたらす。なお、図１０（Ａ）、（Ｂ）では、マスクパターンはどちらも同じ32x32であるが、画像サイズが異なる（画素数により情報量が違う）ため、認識率が異なる。（Ｂ）の方が、（Ａ）よりも解像度が高いため、同じ光学ボケ量でも認識率が高くなっている。

　重み係数の影響を図１１に示す。重みが小さいほど、開口率が小さくなり、精度が高くなるが、より多くの情報が明らかになる。視覚的には、MSEとTVの両方の損失関数は、正確性を犠牲にして視覚的なプライバシーを確保できる。逆に、開口率を小さくすると、光効率が低下する。本シミュレーションではこの影響を考慮していないが、これは実際の測定からの認識の精度に大きく影響する。

　本実験の結果は、重み係数αが、TV損失では10^－４～10^－６で、MSE損失では10^－６～10^－８で適切に機能したことを示した。本実験に基づいて、優れたトレードオフパフォーマンスとプライバシー保護のためにα＝10^－４のTV損失を選択し、より高い精度のためにα＝10^－５を選択した。

（３）マシンの視覚的なプライバシーとセキュリティのパフォーマンス
　セキュリティアプリケーションの場合、パターンと認識機能の混同行列の２つの客観的スコアを定義する。これらを自己精度と相互精度とする。自己精度は、（式６）で示され、混同行列の対角線の平均として定義される。これは、正しいペアHとRを使用した平均精度である。

　相互精度は、混同行列の非対角線の平均精度であり、学習パターンと認識機能との不一致ペアが使用された場合のパフォーマンスを表す。一般的に、自己精度は高く、相互精度は低い方が望ましい。自己精度と相互精度のパフォーマンスの差が大きいほど優れている。さまざまな方法の混同行列を図１２に示す。

　また、表２は、ResNet18を使用した様々なサンプリング方式のTop１精度（％）で、LwC-MSEの場合はα＝10^－８、LwC-TVの場合はα＝10^－６、LwC-TV-Regの場合はα＝10^－４、β＝10^－６である。

　表２の結果が示すように、制約がない場合、LwoC-woRecは最高の自己精度を達成するが、相互精度も高くなっている。MSEとTVによる人間の視覚の喪失は人間の視覚に関する視覚的プライバシーを改善するが、マシンビジョンに対する保護には役立たない。そのため、平均（70％）と最大（80％）の相互精度の高い値が報告された。逆に、（式４）で示されたＬ^reg _mvによるマシンビジョンの視覚的なプライバシー保護の損失は、高い精度を維持しながら相互精度を低下させるのに役立つ。ML損失は、Ｍ＝３まで有効であり、自己精度と相互精度の間に40％の精度のギャップがある。一方、LwoCでは18％、LwCでは4％、LwC-TVでは12％である。残念ながら、Ｍの一意のペアの数が増えると、相互精度が上がるにつれてML損失の効果が低下する。１つの理由は、トレーニングフレームワークがシーケンシャルであるため、新しい一意のペアをトレーニングすることがより困難になることにある。ただし、精度は、まだ最適化されていないハイパーパラメータαおよびβによっても大きく影響される。

（４）実データの実験結果
（ハードウェアの実現）
　提案した方法を検証するために、図１３に示すようなプロトタイプのイメージングシステムを実装した。本カメラは、モノクロイメージングセンサ４（Grasshoper3モデルGS3-U3-41C6M-C、2048×2048）と、マスク２Ｂとで構成されている。マスク２Ｂは、空間光変調器２０Ｂ（SLM;LC 2012、1024×768）と、空間光変調器２０Ｂの前後に配置された偏光子２０ｆ、２０ｂとで構成され、両者の相対角を調整して入射光を輝度変調する。センサ４とマスク２Ｂのコード面との間の距離は約17mmである。SLMから約１m離れたところに画像を表示するモニタ（Plasmadisplay）が設置されている。

　コード化されたパターンは、32×32から716×716に再スケーリングされ、SLMのサイズが1024×768になるようにゼロが埋め込まれている。図１４に示すように、マスク２に関して５種類の符号化パターンを評価した。開口率の違いを補正するために、シャッター時間を手動で選択した。顔面テスト画像も、画像センサの中央に表示されるようにディスプレイ画面で再スケーリングおよびキャリブレーションされた。ただし、イメージセンサとSLMの間にはまだ相互反射がある。したがって、SLMのアパーチャが近いキャプチャ画像が補正に使用された。さらに、ノイズと光効率の低下の影響を低減するために、認識機能の入力として、平均１０倍のキャプチャ測定を採用した。

　まず、測定値は図１４に示す様々なパターンで、１６ビットグレースケールでキャプチャした。シミュレーションとは異なり、実際のイメージングシナリオでは、ピンホールイメージングは光量が非常に少ないため品質が非常に低くなる。キャプチャで可視画像を観察することもできる。シミュレーションと同様に、デフォーカスとランダムパターン（露出率50％）の測定からプライバシー情報は観察されなかった。さらに、制約なしで、学習パターンLwoCは、TV損失の制約よりも多くの情報を明らかにした。

　顔認識アプリケーションの場合、CASIAトレインとテストセットでそれぞれ70枚と20枚の最高解像度画像のサブセットを選択して、実際のレンズなし測定値をキャプチャした。顔認識の前に、実際にキャプチャされた画像が正規化され、中央の顔領域の80％にさらにトリミングを施した。すべてゼロのマスクを使用して、各画像の背景画像をキャプチャした。背景画像を差し引いて、漏れる光を補正した。最終的なトレーニング画像は、トレーニング用に128×128にサイズ変更した。さらにシミュレーションで学習したresNet18を上記実際の撮影データを用いて再トレーニングすることで、モデルを実際の画像（実画像）に合わせてリファイメントした。

　シミュレーションでは高いパフォーマンスが得られるが、コード化された比率が小さいと、効率の悪い光がキャプチャされるため、ピンホールイメージングは実際のデータセットではパフォーマンスが低いことがわかる。ピンホール画像は他の画像よりもノイズが多いため、パフォーマンスが制限される。また、ピンホール画像には、ぼやけスコアが0.140と小さく、多くの詳細が含まれている。デフォーカスイメージングでは、認識のパフォーマンスが低下する。キャプチャされた画像には、情報がないためにぼやけスコアが小さいことが示されている。また、ランダムマスクは少し優れたパフォーマンスを示したが、LwoCおよびLwC-TVの学習済みマスクよりも最悪である。

　表３は、選択したCASIA10の面データセットを使用したTop１精度（％）を示している。表３は、実画像における実験結果を示しており、シミュレーションと同様に提案しているLowC-TVの性能が画像のボケが大きい、すなわち見かけのプライバシーが保護されているのに対して認識率が十分高いことが示された。また、実実装における画像のコントラスト低下は、背景差分(撮影画像から何も写っていない画像の輝度値を引く)を用いることで改善が見られることが示された。

（Ｄ）結論と考察
　以上、人間の視覚モデルと対象となるマシンビジョンモデルの両方から視覚的プライバシーを保護するために、学習したレンズレスイメージングシステムを提案した。視覚的なプライバシーを人間の視覚から保護するために、MSEを使用して測定のぼやかしを最大化し、TV損失を使用して学習パターンの変動を最大化した。本実験を通じて、本方法は、レンズレスイメージングの視覚的なプライバシー保護と認識精度とのトレードオフへの対応を可能にすることを確認した。精度が少し低下するが、この方法では視覚的なプライバシーを十分に保護できる。さらに、認識損失を使用して、マシンビジョンモデルから視覚的なプライバシーを保護した。シーケンシャルトレーニングフレームワークが提示され、コード化されたパターンの複数の一意のペアとディープラーニングベースの認識機能をトレーニングすることで、セキュリティアプリケーションを有効にした。

　ここでは、ぼやけた画像が少ないほど、人間がオブジェクトを認識しにくくなるという単純な仮説に基づいている。ただし、オブジェクトを認識するためのぼやかしメトリックのしきい値は明確ではなく、コード化された比率に依存する。一方、ブラインドイメージのブレ除去技術を使用して、元のイメージを再構築できる。主観的な品質評価と学習したカーネルの影響とに関するさらなる研究が奨励される。

　本逐次訓練方法は、コード化されたパターンと認識機能とのユニークなペアを学ぶことができた。ただし、フレームワークは、処理できる一意のペア（すなわち、キースペース）の数に制限がある。HとRとの多数の一意のペア（すなわち、Ｍの増加）の場合の処理方法は未解決の問題である。さらに、敵対的なサンプルに関する技術をさらに統合して、より優れたトレーニング方法を提供できる。固定パターンを使用した以前の技術とは異なり、コード化されたパターンを学習して、より高い認識精度を実現する。ただし、システムはシミュレートされたデータのみでトレーニングされた。

　以上説明したように、本発明に係るカメラは、感光素子からなる画素が複数配列された面状の撮像素子と、前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、前記パターンは、被写体からの光線のうち、複数方向からの光線を１つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするものである。

　本発明によれば、被写体からの光線は変調素子で光学的に変調された後、撮像素子で撮像される。撮影画像は、光学的網膜像のような空間的射影情報を破壊されるが、本質的に認識に必要な情報は保持可能となる。これにより、記録又は万が一漏洩したデータ列から視覚的に内容を認識することが困難であるため、プライバシーは保護される。

　また、前記透光部は、透過する複数の方向からの光線を複数の画素に導くものを含むことが好ましい。この構成によれば、１つの透光部を透過した光線を分散的にすることで、さらに空間的射影情報は破壊されて、プライバシーは保護される。

　また、前記透光部は、遮光用のマスク面に孔が穿設されたものであることが好ましい。この構成によれば、孔を穿設することにより容易に変調素子が制作可能となる。

　また、前記孔は、前記画素のサイズよりも大きいことが好ましい。この構成によれば、複数の光線を透過さえることができ、その分、空間的射影情報が壊される。

　また、前記透光部は、表面が凸凹状に形成された透光性を有する板状体であることが好ましい。この構成によれば、マスク以外の、例えば透光性部材の表面加工で変調素子が制作可能となる。

　また、本発明に係るイメージングシステムは、前記カメラで撮像された被写体の撮像画像を読み出す読出部と、読み出された撮像画像から被写体の付属情報に対する所定の認識を行う認識器とを備えることが好ましい。本発明によれば、網膜像に復元することなく、直接認識器で認識することで、全く視覚的に理解可能な画像を介さないのでプライバシー保護の優位性がある。

　また、前記変調素子と前記認識器とは、前記変調素子のパターンを経て撮像される被写体の画像のボケ具合と前記認識器の認識率との両性能が最適化されていることが好ましい。この構成によれば、パターンを経た撮像画像のボケと認識部での認識率とが同時にベストの状態で処理可能となる。

　また、複数種類のパターンH_i（i＝1,2,…）と、各種のパターンに対して最適化されている認識機能R_iとを予め組み合わせとして記憶した記憶部と、撮像時に組み合わせのパターンと認識機能（H_i,R_i）を選択する制御部とを備えることが好ましい。この構成によれば、いわゆる暗号表のように適用できることで、さらにセキュリティを高めることができる。

　１　イメージングシステム
　１１　カメラ
　１２　認識部（認識器）
　２，２ａ，２ｂ、２ｃ、２Ｂ　マスク（変調素子）
　２０Ｂ　空間光変調器（変調素子）
　２１，２１ｃ、２１ｂ、２２ｂ、２１ｃ　透光部
　２ｄ　板状体（変調素子）
　２１ｄ　粗面（一部が透光部）
　４　撮像素子
　４２　画素

Claims

　感光素子からなる画素が複数配列された面状の撮像素子と、
　前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、
　前記パターンは、被写体からの光線のうち、複数方向からの光線を１つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするカメラ。
　前記透光部は、透過する複数の方向からの光線を複数の画素に導くものを含む請求項１に記載のカメラ。
　前記透光部は、遮光用のマスク面に孔が穿設されたものである請求項１又は２に記載のカメラ。
　前記孔は、前記画素のサイズよりも大きいことを特徴とする請求項３に記載のカメラ。
　前記透光部は、表面が凸凹状に形成された透光性を有する板状体である請求項１又は２に記載のカメラ。
　請求項１～５のいずれかに記載のカメラで撮像された被写体の撮像画像を読み出す読出部と、
　読み出された撮像画像から被写体の付属情報に対する所定の判定を行う認識器とを備えたイメージングシステム。
　前記変調素子と前記認識器とは、前記変調素子のパターンを経て撮像される被写体の画像のボケ具合と前記認識器の認識率との両性能が最適化されていることを特徴とする請求項６に記載のイメージングシステム。
　複数種類のパターンH_i（i＝1,2,…）と、各種のパターンに対して最適化されている認識機能R_iとを予め組み合わせとして記憶した記憶部と、
　撮像時に組み合わせのパターンと認識機能（H_i,R_i）を選択する制御部とを備えた請求項６又は７に記載のイメージングシステム。