WO2020246010A1

WO2020246010A1 - 画像認識システム、画像認識サーバ、及び画像認識方法

Info

Publication number: WO2020246010A1
Application number: PCT/JP2019/022641
Authority: WO
Inventors: 孝之仲地; イトオウ
Original assignee: 日本電信電話株式会社
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-10
Also published as: US20220343691A1; JPWO2020246010A1

Abstract

本発明は、セキュリティが高く、且つマルチデバイスによるダイバーシチを活用できる新たなフレームワークを有する画像認識システム、画像認識サーバ、及び画像認識方法を提供することを目的とする。本発明に係る画像認識システムは、ランダムユニタリ変換に基づく低演算な暗号化アルゴリズムを搭載しており、セキュリティを高めている。また、本画像認識システムは、アンサンブル学習を通して各デバイスの辞書に基づく認識結果を統合することで高い認識性能を達成する。

Description

画像認識システム、画像認識サーバ、及び画像認識方法

　本開示は、エッジクラウドコンピューティングを利用した画像認識のための画像認識システム、画像認識サーバ、及び画像認識方法に関する。

　顔認識は理論とその実用的重要性の両方により、仮想現実アプリケーションやＩｏＴネットワークなど広範囲の領域において、長い間活発な研究が行われている。人間の視覚システムのスパース性メカニズムから着想を得て、スパース表現に基づく分類アルゴリズムは大きな注目を集めている。例えば、非特許文献１は、特徴辞書を学習するためＫ－ＳＶＤアルゴリズムを採用し、テスト画像のスパース表現を見つけるために直交マッチング追跡法（ＯＭＰ）を適用し、顔認識のためにサポートベクトルマシン（ＳＶＭ）を使用することが開示される。

　顔認識のために一般的に採用されているもう一つの技術はディープラーニングであり、これは深い階層的特徴を抽出するのに有効であることが証明されている。例えば、視覚特徴を抽出するためにディープラーニングの一つＣｏｎｖＮｅｔｓを採用し、顔認識の性能を向上させることができる。しかしながらディープラーニングは学習のために膨大な演算と膨大な学習データを必要とする。

　一方、エッジコンピューティングとクラウドコンピューティングは、コアネットワークとバックホールネットワークにおけるエッジとクラウド間のトラヒックボトルネックを低減しながら、モバイルユーザに近接するエッジでクラウドコンピューティング能力を提供する有望な技術である。このエッジクラウドコンピューティングは、演算負荷の増加に対応するだけでなく、モバイルデバイスからデータを収集することで、多様なサービスを提供することができる。例えば、上記の顔認識であれば、エッジクラウドコンピューティングを利用することで、計算タスクの一部をエッジおよびクラウドにオフロードし、顔認識の計算効率を改善（演算負荷を軽減）することができる。

Ｙ．　Ｘｕ，　Ｚ．　Ｌｉ，　Ｊ．　Ｙａｎｇ，　ａｎｄ　Ｄ．　Ｚｈａｎｇ，　"Ａ　ｓｕｒｖｅｙ　ｏｆ　ｄｉｃｔｉｏｎａｒｙ　ｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｆａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ，"　ＩＥＥＥ　Ａｃｃｅｓｓ，　ｖｏｌ．　５，　ｐｐ．　８５０２－８５１４，Ａｐｒ．　２０１７．Ｊ．　Ｗｒｉｇｈｔ，　Ａ．　Ｙａｎｇ，　Ａ．　Ｇａｎｅｓｈ，　Ｓ．　Ｓａｓｔｒｙ，　ａｎｄ　Ｙ．　Ｍａ，　"Ｒｏｂｕｓｔ　ｆａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ｖｉａ　ｓｐａｒｓｅ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ，"　ＩＥＥＥ　Ｔｒａｎｓ．　Ｐａｔｔｅｒｎ　Ａｎａｌ．　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌ．，　ｖｏｌ．　３１，　ｎｏ．　２，　ｐｐ．　２１０－２２７，　Ｆｅｂ．　２００９．Ｔ．　Ｎａｋａｃｈｉ，　Ｈ．　Ｉｓｈｉｈａｒａ，　ａｎｄ　Ｈ．　Ｋｉｙａ，　"Ｐｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇ　ｎｅｔｗｏｒｋ　ＢＭＩ　ｄｅｃｏｄｉｎｇ　ｏｆ　ｃｏｖｅｒｔ　ｓｐａｔｉａｌ　ａｔｔｅｎｔｉｏｎ，"　Ｐｒｏｃ．　ｏｆ　ＩＥＥＥ　ＩＣＳＰＣＳ　２０１８，　ｐｐ．　１－８，　Ｄｅｃ．　２０１８．

　しかし、顔認識においてエッジクラウドコンピューティングを利用することは、次のような課題が存在している。
（１）人的ミスやアクシンデントでデータが流出するため、プライバシー保護などのセキュリティを高める必要がある。
（２）マルチデバイスによるダイバーシチの活用（認識精度の向上）ができていない。

　そこで、本発明は、前記課題を解決するために、セキュリティが高く、且つマルチデバイスによるダイバーシチを活用できる新たなフレームワークを有する画像認識システム、画像認識サーバ、及び画像認識方法を提供することを目的とする。

　上記目的を達成するために、本発明に係る画像認識システムは、ランダムユニタリ行列を用いることで、エンドツーエンドでセキュリティを確保し、各デバイス（ユーザ端末）の結果をアンサンブル学習することで認識精度を高めることとした。

　具体的には、本発明に係る画像認識システムは、
　Ｎ台の端末（Ｎは２以上の整数）、Ｍ台の転送サーバ（Ｍは１以上の整数）、及び画像認識サーバを備える画像認識システムであって、
　ｉを識別する画像のクラス、ｊ及びｋ（ｋ∈ｊ）を前記端末の番号とし、画像ｙ_ｉ ^ｊがＫ個（Ｋ＞Ｍ）の基底を要素とするＭ×Ｋ行列である辞書行列Ｄ_ｉ ^ｊとＫ次元のベクトルであるスパース係数Ｘ_ｉ ^ｊを用いて、ｙ_ｉ ^ｊ＝Ｄ_ｉ ^ｊ・Ｘ_ｉ ^ｊと表せるとき、
　前記端末は、
　鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化して暗号化テスト画像を生成し、前記暗号化テスト画像を指定されている１台の前記転送サーバへ転送し、
　前記転送サーバは、
　前記暗号化テスト画像をダウンサンプリングするとともに１次元の暗号化画像ベクトルへ変換し、前記暗号化画像ベクトルを前記画像認識サーバへ転送し、
　前記画像認識サーバは、
　異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書を用い、前記暗号化辞書毎に前記数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する
ことを特徴とする。

　また、本発明に係る画像認識サーバは、
　鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化した暗号化テスト画像がダウンサンプリングされ、さらに１次元に変換された暗号化画像ベクトル、及び、異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書が入力される入力部と、
　前記暗号化辞書毎に前記数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて、前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する判定部と、
を備える。

　また、本発明に係る画像認識方法は、
　Ｎ台の端末（Ｎは２以上の整数）、Ｍ台の転送サーバ（Ｍは１以上の整数）、及び画像認識サーバを備える画像認識システムで行う画像認識方法あって、
　ｉを識別する画像のクラス、ｊ及びｋ（ｋ∈ｊ）を前記端末の番号とし、画像ｙ_ｉ ^ｊがＫ個（Ｋ＞Ｍ）の基底を要素とするＭ×Ｋ行列である辞書行列Ｄ_ｉ ^ｊとＫ次元のベクトルであるスパース係数Ｘ_ｉ ^ｊを用いて、ｙ_ｉ ^ｊ＝Ｄ_ｉ ^ｊ・Ｘ_ｉ ^ｊと表せるとき、
　前記端末で、鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化して暗号化テスト画像を生成し、前記暗号化テスト画像を指定されている１台の前記転送サーバへ転送し、
　前記転送サーバで、前記暗号化テスト画像をダウンサンプリングするとともに１次元の暗号化画像ベクトルへ変換し、前記暗号化画像ベクトルを前記画像認識サーバへ転送し、
　前記画像認識サーバで、異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書を用い、前記暗号化辞書毎に前記数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する
ことを特徴とする。

　本画像認識システムは、ランダムユニタリ変換に基づく低演算な暗号化アルゴリズムを搭載しており、辞書作成ステージから認識ステージに至るまで全て暗号化領域で作業することでセキュリティを高めている。また、本画像認識システムは、辞書作成ステージにおいてＫ－ＳＶＤのような複雑な方法を使わず、暗号化された訓練画像だけで機械学習するので、簡単に辞書を作成できる。さらに、本画像認識システムは、アンサンブル学習を通して各デバイスの辞書に基づく認識結果を統合することで高い認識性能を達成する。

　従って、本発明は、セキュリティが高く、且つマルチデバイスによるダイバーシチを活用できる新たなフレームワークを有する画像認識システム、画像認識サーバ、及び画像認識方法を提供することができる。

　本発明は、セキュリティが高く、且つマルチデバイスによるダイバーシチを活用できる新たなフレームワークを有する画像認識システム、画像認識サーバ、及び画像認識方法を提供することができる。

スパースコーディングを説明する図である。スパースコーディングは、少数の基底ベクトルの重み付き線形和で表現する線形システムである。本発明に係るスパースコーディングの秘匿演算方法で行う事前準備を説明する図である。ローカル処理部で辞書学習とその秘匿を行う。本発明に係るスパースコーディングの秘匿演算方法を説明する図である。エッジ／クラウド部でスパースコーディングの秘匿演算を行う。本発明に係るスパースコーディングの秘匿演算装置を説明する図である。本発明に係るスパースコーディングの秘匿演算装置を説明する図である。本発明に係るスパースコーディングの秘匿演算方法を説明するフローチャートである。画像認識技術を説明する図である。画像認識技術を説明する図である。画像認識技術を説明する図である。本発明に係る画像認識システムを説明する図である。本発明に係る画像認識システムが行う画像の暗号化を説明する図である。暗号化を行った場合と行わない場合の顔認識の性能を比較する図である。本発明に係る画像認識システムが行う画像認識の動作を説明する図である。本発明に係る画像認識システムが行う辞書学習を説明する図である。本発明に係る画像認識システムが行う辞書学習を説明する図である。本発明に係る画像認識システムが行う画像認識動作を説明する図である。本発明に係る画像認識システムが行う画像認識動作を説明する図である。本発明に係る画像認識システムの効果を説明する図である。本発明に係る画像認識システムの効果を説明する図である。本発明に係る画像認識システムの効果を説明する図である。本発明に係る画像認識システムの効果を説明する図である。本発明に係る画像認識システムの効果を説明する図である。

　添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

（実施形態１）
　本実施形態は、プライバシー保護を目的として、スパースコーディングの秘匿演算の方法ならびに装置について説明する。

　本方法は、エッジ／クラウドでの利用を想定し広く普及した多くのアプリケーションソフトウェアが直接利用可能で、かつユーザーのプライバシーの保護を考慮したスパースコーディングの秘匿演算法である。以下の順で説明していく。

（１）スパースコーディングの定式化
（２）スパースコーディングの秘匿演算をエッジ／クラウドで実行する際のシステム構成
（３）係数選択のアルゴリズムとして広く用いられている直交マッチング追跡法（Ｏｒｔｈｏｇｏｎａｌ　Ｍａｔｃｈｉｎｇ　Ｐｕｒｓｕｉｔ：ＯＭＰ）の秘匿演算法

１．スパースコーディングの定式化
　スパースコーディングでは、図１に示すように、Ｍ次元の観測信号ベクトル

が、Ｋ個の基底の線形結合で表せると仮定する。

ただし、

は列ベクトルである基底ｄ_ｉ（１≦ｉ≦K）を要素とするＭ×Ｋの辞書行列であり、

はスパース係数である。なお、「Ｋ」は式（１）の線形結合に用いる基底の個数を表している。

　スパース係数は少数の係数のみが非ゼロの値を取り、残りの大部分の係数はゼロの値を取る。このように、非ゼロ要素が全体に対して少数である状態をスパース（Ｓｐａｒｓｅ：疎）と呼ぶ。辞書行列Ｄは事前に与えられるか、または観測データに基づき学習により適応的に推定される。

　一般的にＫ＞Ｍ（基底の数が、観測信号の次元よりも大きい）であり、過完備な辞書行列を用いる。信号の次元より多い基底による表現ｙ＝Ｄｘではｘの一意性を保証することができないため、通常は観測信号ｙの表現に利用される基底をＤのうちの一部に制限する。つまり、

でｘのｌ_０ノルム、すなわちベクトルｘの非ゼロ成分の数を表すとして、スパースコーディングは典型的には最適化問題

として定式化される。

　しかしながら、この問題は全ての基底の組み合わせを試さないと最適解が得られない組合せ最適化問題であり、ＮＰ困難であることが知られている。そこで、ｌ_１ノルムへの緩和問題

を考えることが多い。このｌ_１ノルム正則化問題は線型計画問題として表現することが可能である。

　なお、スパースコーディングは「辞書設計の問題（Ｄの設計）」と「スパース係数の選択（ｘ）」の２つに分けて考えることができる。

　辞書設計の問題では、辞書行列は離散コサイン変換やフーリエ変換、ウェーブレット変換あるいはカーブレット変換のように予め基底を用意しておく方法と、信号から基底を学習する方法がある。スパースコーディングのための辞書学習の代表的な手法がＭＯＤ（Ｍｅｔｈｏｄ　ｏｆ　Ｏｐｔｉｍａｌ　Ｄｉｒｅｃｔｉｏｎ）とＫ－ＳＶＤ（Ｋ－Ｓｉｎｇｕｌａｒ　Ｖａｌｕｅ　Ｄｅｃｏｍｐｏｓｉｔｉｏｎ）である。ＭＯＤはｙとＤｘの間の二乗誤差の最小化に疑似逆行列を使用する。Ｋ－ＳＶＤはｋ－ｍｅａｎｓ法を一般化したものと位置づけられ、ＭＯＤより高速な反復的アルゴリズムとして提案された。

　スパース係数の選択アルゴリズムとして直交マッチング追跡法（ＯＭＰ）と反復再重み付け最小二乗法（Ｉｔｅｒａｔｉｖｅ．　Ｒｅｗｅｉｇｈｔｅｄ　Ｌｅａｓｔ　Ｓｑｕａｒｅｓ：ＩＲＬＳ）はよく知られている。

２．スパースコーディングの秘匿演算のシステム構成
　エッジ／クラウド処理部１２でスパースコーディングの秘匿演算を行うアーキテクチャを図２ならびに図３に示す。

　図２の事前準備では、ローカル処理部１１において辞書行列Ｄを予め用意またはＫ－ＳＶＤ法などを用い学習して生成する。その後、辞書行列Ｄを秘匿辞書行列

へ変換しエッジ／クラウド処理部１２へ伝送する。なお、本明細書では秘匿辞書行列を「D＾」と記載することがある。
　つまり、事前準備では、ローカル処理部１１が予め与えられた又は観測信号から学習した辞書行列Ｄを鍵ｐによって生成されるＭ×Ｍ行列であるランダムユニタリ行列Ｑ_Ｐを用いて秘匿化して秘匿辞書行列Ｄ＾に変換して保存する辞書行列変換手順を行う。

　図３のスパースコーディングの秘匿演算の実行では、最初にローカル処理部１１において観測信号ｙを秘匿観測信号

へ変換しクラウドへ伝送する。なお、本明細書では秘匿観測信号「ｙ＾」と記載することがある。
　つまり、スパースコーディングの秘匿演算の実行では、ローカル処理部１１が観測信号ベクトルｙを前記ランダムユニタリ行列Ｑ_Ｐを用いて秘匿化して秘匿観測信号ｙ＾に変換する観測信号変換手順を行う。
　次に、エッジ／クラウド処理部１２で、事前に転送された秘匿辞書行列D＾と秘匿観測信号ｙ＾を用いてＯＭＰのアルゴリズムを実行してスパース係数が推定される。つまり、スパースコーディングの秘匿演算の実行では、エッジ／クラウド処理部１２が前記秘匿観測信号ｙ＾と保存されている前記秘匿辞書行列Ｄ＾を用いて数Ｃ１で表される最適化問題を直交マッチング追跡法によって解き、前記スパース係数ｘに近似するスパース係数ｘ＾を計算する演算手順を行う。

　なお、エッジ／クラウド処理部１２ではポスト処理を行ってもよい。ポスト処理は、推定したスパース係数を用いて、画像・音響信号などのメディア信号処理、脳波・脳血流・ｆＭＲＩなどの生体信号の解析、機械学習などアプリケーションごとに必要な処理である。

３．直交マッチング追跡法（ＯＭＰ）の秘匿演算法
〔直交マッチング追跡法（ＯＭＰ）〕
　観測信号ｙと辞書Ｄが与えられた時、ｙをＤｘで近似するような係数ｘを求める問題を（狭義の）スパースコーディング問題と呼ぶ。ここでは式（２）の最適化問題を再構成誤差を一定の閾値以下に抑えた上でできるだけ少ない数の基底の線型結合で信号を近似する問題

として考える。ここで、εは辞書行列Ｄとスパース係数ｘの積とサンプル信号ｙとの誤差の目標値である。
　この問題に対する解法として、貪欲法に基づく方法やｌ_０ノルム制約をｌ_１ノルム制約で緩和した上で解く方法など、数多くのアルゴリズムが提案されている。

　本発明では、スパース係数の選択アルゴリズムとして、広く用いられている直交マッチング追跡法（ＯＭＰ）の秘匿演算について提案する。直交マッチング追跡法は、観測信号の近似に利用する係数の添字集合の中から「サポート」、すなわち非ゼロ係数の添字集合Ｓを見つけ出すアルゴリズムである。初めはサポートは空集合であるとして、観測信号ｙを基底の線型結合で近似した時の残差を最小にするように新たな基底をサポート集合に一つ一つ追加していき、サポートに含まれる基底のみで信号を近似した時の残差がε以下になったら停止する。残差の低減に寄与する基底を順次選択していく貪欲法であり、解の最適性は保証されないが、多くの場合優れた近似を与えることが知られている。

　図６は、直交マッチング追跡法の演算アルゴリズムを説明する図である。本演算アルゴリズムは、初期化ステップＳ０１とメインループ（ステップＳ０２～Ｓ０７）からなる。
（ステップＳ０１）
　各パラメータを初期化する。

　ここで、ｋについて説明する。スパースコーディングでは、式（１）のように観測信号yを基底ｄ_ｉの線形結合で近似する。ＯＭＰアルゴリズムでは、K個の基底ｄ_ｉ（ｉ＝１，２，．．，Ｋ）の中から、最もよく近似できる基底から順次サポートＳに追加していく。その時の基底の個数を表す変数が「k」である。
　例えば、ｋ＝１は一つの基底を使って観測信号ｙを表すことを意味し、そのときのｄ_ｉはｄ_１の場合、あるいはそれ以外のｄ_３の場合などもある。また、ｋ＝２のときは２つの基底を使って観測信号ｙを表すことを意味し、そのときのｄ_ｉはｄ_１とｄ_５の場合、あるいはそれ以外のｄ_１とｄ_３の場合などもある。
　ステップＳ０１は初期化なので、ｋ＝０、スパース係数ｘをゼロベクトル、残差ｒを観測信号ｙ、サポートＳを空集合とする。

（ステップＳ０２）
　ｋをｋ＋１とする。
（ステップＳ０３）
　ｋ個目の基底ｄ_ｉをサポートＳに追加した時の誤差を算出する。

（ステップＳ０４）
　サポートＳを更新する。

（ステップＳ０５）
　サポートＳ内での最良解ｘ^－ｋを探索する。

（ステップＳ０６）
　残差ｒを更新する。

（ステップＳ０７）
　更新した残差ｒが目標値ε内であるかを確認する。

　更新した残差ｒが目標値内であれば、ステップＳ０５で探索した結果を解とする。

　引き続く解析を容易にするために、ここで基底ベクトルｄ_ｉを

で定義する。但しδ_ｉは

のｉ番目の要素が１でそれ以外の要素はゼロの列ベクトルである。δ_ｉを用いて、式（５）の近似誤差を以下のように表現する。

　本発明のランダムユニタリ行列に基づいた直交マッチング追跡法（ＯＭＰ）の秘匿演算について説明する前に、ランダムユニタリ行列を説明する。

〔ランダムユニタリ行列〕
　ランダムユニタリ行列に基づいた秘匿演算の基本性質について述べる。先行研究において、キャンセラブルバイオメトリクスのための一方法として、ランダムユニタリ変換に基づくテンプレート保護法が研究されている。一般的にランダムユニタリ行列に基づく秘匿演算では、鍵ｐによって生成されるランダムユニタリ行列Ｑ_ｐを用いた変換Ｔ（・）により、N次元の信号ｆ_ｚ（ｚ＝１、・・・、Ｌ）がN次元の秘匿信号

へ変換される。なお、本明細書では秘匿信号「ｆ_ｚ＾」と記載することがある。
但し、Ｑ_ｐはＮ×Ｎ行列

であり、

を満たす。ここで［・］^＊はエルミート転置、Ｉは単位行列を表す。Ｎは任意の自然数であるが、本実施形態ではＮ＝Ｍである。また、「Ｌ」は信号数（サンプル数）である。例えば、音声信号の場合にはｚは時刻に相当し、信号ｆ_ｚ（要素数はN個）は時刻ｚ＝１～ＬまでのＬ個のサンプル信号となる（N個の要素を持つ信号ｆ_ｚが、L個存在する。）。また、画像の場合には、例えばｚは画像ごとのインデックスと定義でき、ｆ_１からｆ_ＬまでのＬ個の画像信号となる。また、１枚の画像を小ブロックに分けて、それぞれの小ブロックごとにインデックスを割り当ててもよい。

　ランダムユニタリ行列Ｑ_ｐの生成は、グラムシュミットの直交化を用いる方法や、複数のユニタリ行列を組み合わせることでＱ_ｐを生成する方法が検証されている。２つの観測信号ｆ_ｚとｆ_ｗをベクトルａとｂと考えると、ランダムユニタリ行列Ｑ_ｐで変換したベクトルａ＾とｂ＾との間に次の関係が成り立つ。
特徴１：ユークリッド距離の保存

特徴２：内積の保存

特徴３：相関係数の保存

特徴4：ノルム不変

〔直交マッチング追跡法（ＯＭＰ）の秘匿演算〕
　本実施形態のスパースコーディングの秘匿演算では、次式のように秘匿された観測信号ｙ＾ならびに辞書行列Ｄ＾を生成する。

　ｙ＾とＤ＾が与えられたとき、式（４）に代わり、次式の最適化問題を考える。

上式を直交マッチング追跡法によって解き、スパース係数

を得る。なお、本明細書では式（１８－１）のスパース係数を「ｘ＾」と記載することがある。

　ここで、スパース係数ｘ＾が、観測信号ｙと辞書行列Ｄを秘匿しない場合に得られたスパース係数ｘと等しくなることを証明する。直交マッチング追跡法の秘匿演算アルゴリズムは、図６の通りである。
（ステップＳ０１）
　各パラメータを初期化する。

　ステップＳ０１は初期化なので、ｋ＝０、スパース係数ｘをゼロベクトル、残差ｒ＾を秘匿された観測信号ｙ＾、サポートＳを空集合とする。

（ステップＳ０２）
　ｋをｋ＋１とする。
（ステップＳ０３）
　ｋ個目の基底ｄ_ｉをサポートＳに追加した時の誤差を算出する。ここで、式（５Ａ）で辞書行列Ｄと残差ｒ^ｋ－１を秘匿したＤ＾とｒ＾^ｋ－１で置き換え、式（１６）と式（１７）の関係式を用いると、近似誤差は次式で表される。

　前述したランダムユニタリ行列の性質より、ノルム不変であるから

、内積保存であるから

が成立する。
　このため、式（１９）は次のように書き換えることができる。

　式（２０）は、式（５Ａ）と等しい。つまり、秘匿信号ｙ＾やＤ＾を用いて計算される近似誤差ε＾（ｉ）は原信号（ｙ及びＤ）を用いて計算される近似誤差ε（ｉ）と等しくなる。

（ステップＳ０４）
　サポートＳを更新する。ε＾（ｉ）＝ε（ｉ）より、次式が成立する。

（ステップＳ０５）
　サポートＳ内での最良解ｘ＾^ｋを探索する。

　式（２２）内の式（２２－１）に関する最小化

を解くことにより、次式が得られる。

　式（１４）の内積の保存の関係より

が成立することから、式（２３）は次式のように書き換えることができる。

　式（２４）は式（７）と等しい。つまり、秘匿信号ｙ＾やＤ＾を用いて得られるサポート内での最良解ｘ＾^ｋは原信号（ｙ及びＤ）を用いた場合の最良解ｘ^－ｋと等しくなる。

（ステップＳ０６）
　残差ｒ＾を更新する。式（８）を秘匿信号に置き換えると次式となる。

　式（１６）及び式（１７）の定義式及びサポート内での最良解ｘ＾^ｋ＝ｘ^－ｋより、次式が得られる。

　ここで、式（８）が成立することから、式（２５）は原信号を用いた場合の誤差ｒ^ｋを用いて次式のように表すことができる。

（ステップＳ０７）
　更新した残差ｒ＾が目標値ε内であるかを確認する。

　式（２５－２）を満たすとき終了となるが、式（２５－１）及びノルム不変の性質より、

が成立する。つまり、秘匿信号ｙ＾やＤ＾での停止条件は原信号（ｙ及びＤ）での停止条件と等しくなる。

　以上より、秘匿信号を用いて計算されるスパース係数ｘ＾は、原信号を用いて計算されるスパース係数ｘと等しいことが証明された。

４．スパースコーディングの秘匿演算のシステムの具体的構成
　図４及び図５は、スパースコーディングの秘匿演算のシステムを説明する具体的構成図である。スパースコーディングの秘匿演算のシステムは、ローカル処理部１１とエッジ／クラウド処理部１２で構成される。

　図４は、前述した辞書行列変換手順時の図である。
　ローカル処理部１１は、辞書学習部２１、ランダムユニタリ変換部２２、キャッシュ部２３、送信部２４を備える。辞書学習部２１は、学習用の観測信号ｙを受信し、Ｋ－ＳＶＤ法などを用い学習して辞書行列Ｄを生成する。なお、辞書行列Ｄが予め与えられている場合は、辞書学習部２１は不要である。ランダムユニタリ変換部２２は、辞書行列Ｄを鍵ｐによって生成されるＭ×Ｍ行列であるランダムユニタリ行列Ｑ_Ｐを用いて秘匿化して秘匿辞書行列Ｄ＾に変換する。キャッシュ部２３は、ランダムユニタリ変換部２２で生成された秘匿辞書行列Ｄ＾を一時保管する。送信部２４は、当該秘匿辞書行列Ｄ＾をエッジ／クラウド処理部１２へ送信する。

　エッジ／クラウド処理部１２は、受信部２５及びデータベース部２６を備える。送信部２５は、ローカル処理部１１から送信されてきた秘匿辞書行列Ｄ＾を受信する。データベース部２６は、当該秘匿辞書行列Ｄ＾を保存する。

　図５は、前述した観測信号変換手順及び演算手順時の図である。
　これらの手順では、ローカル処理部１１において辞書学習部２１は不要である。ランダムユニタリ変換部２２は、観測信号ベクトルｙを前記ランダムユニタリ行列Ｑ_Ｐを用いて秘匿化して秘匿観測信号ｙ＾に変換する。キャッシュ部２３は、ランダムユニタリ変換部２２で生成された秘匿観測信号ｙ＾を一時保管する。送信部２４は、当該秘匿観測信号ｙ＾をエッジ／クラウド処理部１２へ送信する。

　エッジ／クラウド処理部１２は、受信部２５及びデータベース部２６の他に、メインループ部１３、初期化部３１、及びスパース係数出力部３７を備える。送信部２５は、ローカル処理部１１から送信されてきた秘匿観測信号ｙ＾を受信する。送信部２５は、初めて秘匿観測信号ｙ＾を受信したときに、初期化部３１へ転送し、図６の直交マッチング追跡法において秘匿演算アルゴリズムのステップＳ０１をさせる。以降送信部２５は、受信した秘匿観測信号ｙ＾をメインループ部１３へ転送する。

　メインループ部１３は、秘匿観測信号ｙ＾とデータベース部２６が保存する秘匿辞書行列Ｄ＾を用いて、スパース係数ｘ＾を演算する。メインループ部１３は、近似誤差算出部３２、サポート更新部３３、最良解探索部３４、残差更新部３５及び演算停止部３６を有する。

　近似誤差算出部３２は、データベース部２６が保存する秘匿辞書行列Ｄ＾と、秘匿観測信号ｙ＾（初期化された残差）、初期解ｘ^０、及び解の初期サポートＳ^０、もしくは秘匿観測信号ｙ＾、直前に演算された解ｘ^ｋ－１、残差ｒ＾^ｋ－１、解のサポートＳ^ｋ－１を用いて、近似誤差ε＾（ｉ）を演算する（図６のステップＳ０３）。サポート更新部３３は、近似誤差算出部３２が演算した近似誤差ε＾（ｉ）を用いてサポートＳを更新する（図６のステップＳ０４）。

　最良解探索部３４は、サポート更新部３３が更新したサポートＳとデータベース部２６が保存する秘匿辞書行列Ｄ＾を用いてサポートＳ内での最良解ｘ＾^ｋを探索する（図６のステップＳ０５）。残差更新部３５は、最良解探索部３４が探索した最良解ｘ＾^ｋとデータベース部２６が保存する秘匿辞書行列Ｄ＾を用いて残差ｒ＾^ｋを更新する（図６のステップＳ０６）。演算停止部３６は、残差更新部３５が更新した残差ｒ＾^ｋが目標値εに収まっているか否かを判断し、収まっていれば、最良解探索部３４が探索した最良解ｘ＾^ｋをスパース係数出力部３７に出力させる。一方、収まっていなければ、演算停止部３６は、残差ｒ＾^ｋ及び最良解ｘ＾^ｋを近似誤差算出部３２に引き渡し、再度演算を繰り返させる。

　つまり、本実施形態で説明したスパースコーディングの秘匿演算方法は、観測信号ｙをランダムユニタリ行列Ｑｐで秘匿化した秘匿観測信号ｙ＾と、辞書行列ＤをＱｐで秘匿化した秘匿辞書行列Ｄ＾とを用い、直交マッチング追跡法ＯＭＰにより最適化問題を解くことで、スパース係数ｘの近似値を計算する方法である。

５．本秘匿演算方法の効果
　本実施形態で説明したスパースコーディングの秘匿演算方法は、プライバシーを保護しつつエッジ／クラウドの計算資源を利用したスパースコーディングの実行が可能である。本実施形態で説明したスパースコーディングの秘匿演算方法は、プライバシー保護のため観測信号と辞書行列を秘匿した状態でスパース係数を推定でき、かつ普及したアプリケーションでの利用が可能である。

（実施形態２）
　本実施形態は、実施形態１で説明したスパースコーディングの秘匿演算方法を画像認識、特に人物の顔を特定する顔画像認識に適用した画像認識システムである。

　スパースコーディングを用いて顔画像のクラス分類を行う顔画像認識技術は、例えば、非特許文献２に開示されている。図７～図９は、非特許文献２に開示されている顔画像認識技術を説明する図である。図７に説明するように、同じクラス（人物）について、照明や顔の向きなどが異なる低次元（解像度が低い）の複数の画像がある。任意の一枚の画像は、同じクラス（人物）のその他の複数画像の重ね合わせによって表現される。例えば、図８のように、辞書Ｄが９個の列ベクトルの基底ｄｉ（ｉ＝１～９）を要素とする行列（３クラスで各クラス３つのサンプル画像である）、Ｘをスパース係数とすると、任意の１クラスに属するテストサンプル（観測信号ベクトル）Ｙを
Ｙ＝ＤＸ
で表現できる。

　図９（Ａ）に示す式はテストサンプルＹ（数式では“ｙ”）をクラス分類するときの計算式である。まず、クラスｉの辞書を利用して、テストサンプルＹとの再生誤差を計算する（図９（Ｂ））。辞書に適合しないテストサンプルは、より大きな再生誤差が発生する。このため、テストサンプルＹと全てのクラスｉとの再生誤差を計算して、もっとも再生誤差が小さいクラス（計算した再生誤差に最も近いスパースコーディングのクラス）に、テストサンプルＹを分類する。

［１］システムモデル
　本節ではまずエッジとクラウドを用いたシステムのアーキテクチャについて説明する。図１０は、本実施形態の画像認識システム３０１を説明する図である。画像認識システム３０１は、Ｎ台の端末１１１（Ｎは２以上の整数）、Ｍ台の転送サーバ１１２（Ｍは１以上の整数）、及び画像認識サーバ１１３を備える画像認識システムである。
　ｉを識別する画像のクラス、ｊ及びｋ（ｋ∈ｊ）を端末１１１の番号とし、画像ｙ_ｉ ^ｊがＫ個（Ｋ＞Ｍ）の基底を要素とするＭ×Ｋ行列である辞書行列Ｄ_ｉ ^ｊとＫ次元のベクトルであるスパース係数Ｘ_ｉ ^ｊを用いて、ｙ_ｉ ^ｊ＝Ｄ_ｉ ^ｊ・Ｘ_ｉ ^ｊと表せるとする。
　端末１１１は、
　鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化して暗号化テスト画像を生成し、前記暗号化テスト画像を指定されている１台の転送サーバ１１２へ転送する。
　転送サーバ１１２は、
　前記暗号化テスト画像をダウンサンプリングするとともに１次元の暗号化画像ベクトルへ変換し、前記暗号化画像ベクトルを画像認識サーバ１１３へ転送する。
　画像認識サーバ１１３は、
　異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書を用い、前記暗号化辞書毎に前記数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する
ことを特徴とする。

　まず、スパース表現に基づく顔認識のための方法について述べ、プライバシー制約のもと（暗号化を施した状態）での最適化問題の定式化を行う。なお、以下の説明では、「端末」を「デバイス」、「転送サーバ」を「エッジサーバ」、「画像認識サーバ」を「クラウド」と記載することがある。

Ａ．エッジおよびクラウドシステム
　システム３０１では、Ｎ個のモバイルデバイス１１１が、Ｍ個のエッジサーバ１１２を介して、１個のリモートクラウドサーバ１１３に接続されている。モバイルデバイス１１１は、インタラクティブゲームや仮想現実アプリケーションのような顔認識を含むアプリケーションを実行する。

　各モバイル機器ｊは、“Ｌ”で示されるＬ個のクラスの人物のうちクラスｉのためのＢ_ｉ ^ｊ個のトレーニングサンプルを有する（非特許文献２を参照。）。各エッジサーバ１１２は無線アクセスポイントに配置された軽量コンピューティングである。一方、リモートクラウド１１３はより強力なプロセッサを搭載し、バックボーンネットワークを使用してエッジサーバ１１２と接続する。

　エッジとクラウドを利用したコンピューティングでは、モバイルデバイス１１１は、ワイヤレスチャネルを介して近接しているエッジサーバ１１２にその計算タスクをオフロードする。クラウドサーバ１１３とともにエッジサーバ１１２がモバイルデバイス１１１の代わりに計算タスクを実行する。

Ｂ．顔画像のスパース表現
　顔認識は、L個の異なるクラスからのラベル付きトレーニングサンプル（L人の顔画像）を用いて、新しいテストサンプルが属するクラスを決定することである。本実施形態では、非特許文献２に以下のように定義されている部分空間モデルを採用する。
〔定義１〕（顔部分空間モデル）

とする。
　トレーニングサンプルＢ_ｉ ^ｊは、ｂ個の列ベクトルｄ_{（ｉ，ｎ）} ^ｊの積み重ね（正確には、iのクラス（i番目の人）のデバイスjでは、b個の列ベクトルの重み付き線形和）として表すことができる。辞書Ｄ_ｉ ^ｊは数２－０で定式化することができる。数２－１で表せる、同じクラスｙ_ｉ ^ｊからのいずれのテストサンプルも、ほぼＢ_ｉ ^ｊの範囲のサブスペースにある。

ここで、Ｘ_ｉ ^ｊは各要素のウエイトである。

－定義１終わり－

　なお、「サブスペース」とは、式（２－０）で表現される辞書Ｄ_ｉ ^ｊと対応する係数Ｘ_ｉ ^ｊとの線形重み和で表される空間である。換言すると、「サブスペース」とは、iのクラス（i番目の人）のデバイスjを表現する、式（１）で定義される空間のことである。

　デバイスｊの辞書Ｄ^ｊは次のように定義される。

定義１によれば、どのテスト画像ｙも辞書Ｄ^ｊ上にまばらに表すことができる。

ここで、Ｘ^ｊはスパース係数である。

　もし、数２－３ａであり、Ｄ^ｊが過完備な行列である場合、式（２－３）において、解は一意に求めることができない。この問題は以下のｌ_０最小化問題を解くことで解決できる。

　ここで、εはｓｐａｒｓｉｔｙ制約（誤差の目標値）を表す。上記の最適化問題は、直交マッチング追跡法（ＯＭＰ）を用いて効率的に解くことができる。

Ｃ．問題の定式化
　サンプルデータｙ^ｊ，ｊ∈Ｎが与えられたときに、数２－４でスパース係数Ｘ＾^ｊを計算する。理想的には、Ｘ＾^ｊの要素が非ゼロの場合は、１つのクラスの辞書Ｄ^ｊ列に関連付けられる。たとえば、

と指定すると、ｙ^ｊをクラスｉに代入できる。しかし、ノイズとモデリングエラーのため、他のクラスに関連付けられた非ゼロの小さなエントリが存在する。この問題に対処するために、

を定義する。この非ゼロの項目は、Ｘ^ｊの項目に対応するだけでなく、ｌ番目のクラスにのみ関連する。ｌ番目のクラスに対応する係数だけを使って、テストサンプルｙ^ｊを数２－４ｃで近似し、数２－５の最適化問題に従ってｙ^ｊを分類することができる。

ここで、ｒ_ｌ ^ｉ（ｙ^ｊ）は、各クラス固有の近似誤差を表す。

　このような方式は顔認識において有効であることが非特許文献２に示されている。しかし、このクラス分類はデバイス毎の辞書のみに基づいて行われるため、ノイズおよびモデリングエラーに対して脆弱である。

　本発明の目的は、上述のように、エッジおよびクラウドシステムにおいて、セキュリティを保証する一方で、マルチデバイスダイバーシチを利用することによって再生誤差を最小化するためのフレームワークを構築することである。そして、それは形式的に以下のように定式化できる。

　数２－６において、一段目の式は、再生誤差の最小化を図るフレームワーク、二段目と三段目の式は、セキュリティ（暗号化）の確保、四段目の式は、平文領域と暗号化領域で演算の精度さが無いことを意味する。

［２］安全なスパース表現
　本節では、顔認識のためのエッジおよびクラウドを用いたセキュリティを確保したスパース表現のためのフレームワークを説明する。式（６）のプライバシー保護の制約を満足するランダムユニタリ変換を紹介し、３つの重要な性質について述べる。その性質に基づいて顔認識の結果がランダムユニタリ変換で影響を受けないことを説明する。そして、マルチデバイスダイバーシチを利用するための、アンサンブル学習のフレームワークを説明する。スパース表現および関連する再生誤差は、クラウドの各辞書に従って計算され、それはメンバ分類器として機能する。これらのメンバ分類器は、クラス判定の精度を向上させるために、式（６）を解き、その結果を判定器に通知する。

Ａ．ランダムユニタリ変換
　システムのプライバシー保護だけでなく、暗号領域で動作するアルゴリズムを可能にするために、ランダムユニタリ変換は一つの有望な方法である。これはバイオメトリックテンプレート保護とネットワークＢＭＩ符号化に有効であることが証明されている（例えば、非特許文献３を参照。）。

　秘密鍵ｐを有するランダムユニタリ行列Ｑｐ∈Ｃ^ｍ×ｍによって暗号化された任意のベクトルｖ∈Ｒ^ｍ×ｌは以下のように表すことができる。

ここで、［・］^＊はエルミート転置行列、Ｉは単位行列を表す。Ｑｐの生成にはグラムシュミット直交化を用いることができる。暗号化されたベクトルには、次のような３つの特性がある。

・ユークリッド距離の保存

・ノルム不変

・内積の保存

B．安全なスパース表現と認識
　ランダムユニタリ変換を用いることで、トレーニングサンプル

とテスト用のサンプル

は、次式のように暗号化される。

　数１２は、図１１のように画像を暗号化することを意味する。

　さらに、数２－２によって辞書は次式のように暗号化される。

　安全なスパース表現を得るために、暗号化領域での最適化問題を定式化する。

なお、数２－１４の解Ｘ＾^{（ｊ、ｋ）}は、暗号化を施さない場合の解Ｘ^{（ｊ、ｋ）}と同じになる。

　ここで、次の定理において、顔認識の結果が暗号化の有無で影響されないことを証明する。
〔定理１〕数２－6を解くことによる結果（数２－１４ａ）は、数２－１５を解くことによる結果（数２－１４ｂ）と同じである。

証明：（数２－１４ａ）が通常小さいことを観測すると、数２－１６が得られる。

　ユニタリ変換の性質から

を得る。従って、数２－１６は次のように変換できる。

これは、数２－１４ｂと同じである。

　図１２は、暗号化を行った場合と行わない場合の顔認識の性能を比較する図である。横軸はデバイスの数、縦軸は認識の正確性（１に近いほど正確）である。このように、暗号化を行った場合と行わない場合で、顔認識の性能に差がないことを確認できた。したがって、ユニタリランダム変換を採用することによって、本発明のアルゴリズムは、性能を低下させることなく暗号化領域で動作するという結論を得られる。

Ｃ．アンサンブル学習フレームワーク
　ここで、「アンサンブル学習」とは、個々に別々のメンバ分類器を用いて学習させたものを融合させることで、未学習のデータに対しての予測能力を向上させる学習である。アンサンブル学習の具体例としては、複数の暗号化辞書Ｄ＾^ｊのそれぞれを用いて推定したクラスのうち、同じクラスと推定されたものが最も多いクラスを最終的なクラスとして判定（多数決投票）するようにしてもよい。また、複数の暗号化辞書Ｄ＾^ｊのそれぞれについて数２－６の最適化問題を解いてｙ＾^ｋの再生誤差（数２－１８）を求め、複数の暗号化辞書Ｄ＾^ｊのそれぞれを用いて推定したクラスのうち、数２－６の値が最も小さくなるときのクラスを最終的なクラスとして判定するようにしてもよい。

　アンサンブル学習フレームワークは、辞書学習と認識のステージから構成される図１３のアルゴリズム１を備える。当該アルゴリズム１のステップ２において、トレーニングイメージｄ_{（ｉ，ｎ）} ^ｊのｎは次の意味である。ｉのクラス（ｉ番目の人）のデバイスｊのトレーニングイメージは、b_ｉ ^ｊ個の列ベクトルの重み付き線形和で表現されており、ｎはそのときの列ベクトルの任意の要素を表す（ｎ＝１，２，・・・，b_ｉ ^ｊ）。具体的には、トレーニングイメージをb_ｉ ^ｊ個の列ベクトル

で表すとき、ｄ_{（ｉ，ｎ）} ^ｊはその中の任意のトレーニングイメージを指す。

［辞書学習のステージ］
　辞書学習のステージは、図１４及び図１５に示すように３ステップで構成されている。まず、それぞれデバイスｊは、全てのトレーニングサンプルを暗号化し、定められたエッジサーバ１１２へ転送する。次に、暗号化トレーニングサンプルをダウンサンプリングして縮小化し、暗号化辞書Ｄ＾^ｊ，∀_ｊ∈Ｎは数２－１３で定式化される。最後に暗号化辞書Ｄ＾^ｊはクラウドサーバへ転送される。なお、数２－１３は暗号化辞書と平文の辞書との関係を示したもので、実際には図１４のように暗号化トレーニングサンプルのみから暗号化辞書を作成する。例えば、図７では、ある人物が３つの画像の線形重み和で表されており、これら３つの画像をそれぞれ暗号化したものが暗号化トレーニングサンプルである。そして、暗号化辞書の各要素は、暗号化トレーニングサンプル（ｄ１、ｄ２、ｄ３）そのもので構成される（各人物の要素の列を並べると暗号化辞書となる。）。
　暗号化辞書はトレーニングサンプルよりもデータサイズが小さい。トレーニング画像はクラウドに直接送信されないため、エッジサーバとクラウド間に必要なネットワーク帯域幅を低減できる。

［認識のステージ］
　図１６及び図１７は認識のステージを説明する図である。クラウドサーバ１１３は、複数のメンバ分類器（１２１－１～１２１－N）、及び判定器１２２を備える。さらに、クラウドサーバ１１３は、複数の暗号化辞書（D＾^１～D＾^N）を保持する。

　まず、デバイスｋがテスト画像を暗号化して指定エッジサーバ１１２に送信する。次に、エッジサーバ１１２は、暗号化テスト画像をダウンサンプリングして縮小化し、さらに１次元の暗号化テストベクトルｙ＾^ｋを作成する。エッジサーバ１１２は、当該暗号化テストベクトルｙ＾^ｋをクラウドサーバ１１３に送信する。

　そして、暗号化された各辞書は、アンサンブル学習フレームワークのメンバー分類器として機能する。クラウドサーバ１１３は、暗号化テストベクトルｙ＾^ｋを受信すると、メンバ分類器１２１－ｊ（ｊ∈Ｎ）が数２－１４を解き、スパース表現X＾^{（ｊ、ｋ）}を計算する。さらに、メンバ分類器１２１－ｊは、ＯＭＰを使用して数２－５（もしくは数２－１７）を解くことで暗号化テストベクトルのクラスを分類し、再生誤差（数２－１４ａ）を計算する。分類結果と再生誤差は判定器１２２へ渡される。最後に、判定器１２２が、それぞれのメンバ分類器からの分類結果と再生誤差について数２－６を解くことによってメンバ分類器の結果を結合（アンサンブル学習）して、最も再生誤差が小さいクラスに決定する。

（実施例１）
　実施形態で説明した画像認識方法と他の画像識別方法とを比較したシミュレーション結果を図１８と図１９に示す。他の画像識別方法は、比較例１がすべての訓練画像を利用して辞書を設計する方法（ＬＤ：Ｌａｒｇｅ　Ｄｉｃｔｉｏｎａｒｙ）、比較例２がアンサンブル学習において、多数決の投票でクラス分けを決定する方法（Ｖｏｔｅ）、比較例３が非特許文献２に記載される方法（ＳＲＣ）である。図１８は、デバイス数に対する認識の正確性を比較した図、図１９はトレーニングサンプル数に対する認識の正確性を比較した図である。いずれの図においても、実施形態で説明した画像認識方法は他の画像識別方法よりも高い認識性能を有している。

（実施例２）
　図２０は、認識の正確性をシミュレーションした結果である。図２０の“Ｃｌｏｕｄ”が実施形態で説明した画像認識方法である。図２０の“デバイス１から５”はそれぞれのデバイスのみで構成した辞書を用いた場合の認識の正確性である。図２０より、実施形態で説明した画像認識方法は各デバイスのみ構成される辞書を用いた方法よりも認識性能が高いことがわかる。さらに、実施形態で説明した画像認識方法はすべてのトレーニングサンプルを利用して辞書を作成した場合（ＬＤ）よりも顔画像の認識性能が高い。これはアンサンブル学習の効果といえる。

（実施例３）
　図２１は、認識の正確性をシミュレーションした結果である。所望の認識の正確性を得るために要求されるトレーニングサンプル数について実施形態で説明した画像認識方法と他の画像識別方法とを比較している。要求されるトレーニングサンプル数が少ない方が認識の正確性の高い方法といえる。他の画像識別方法は、比較例１がディープラーニング（ＳＰＣＮＥＴ）による辞書学習方法であり、比較例２がＬＣ－ＫＳＶＤによる辞書学習方法である。図２１より、実施形態で説明した画像認識方法は、他の画像識別方法より、学習データが少ない時でも認識性能が高く、学習データが多い場合でもほぼ同等の認識性能を示している。

（実施例４）
　図２２は、演算量について実施形態で説明した画像認識方法と他の画像識別方法とを比較した結果である。他の画像識別方法は、比較例１がディープラーニング（ＳＰＣＮＥＴ）による辞書学習方法であり、比較例２がＬＣ－ＫＳＶＤによる辞書学習方法である。図２２より、実施形態で説明した画像認識方法は、他の画像識別方法より、辞書学習時の演算もテスト画像認識時の演算も演算時間が短い。

［付記］
　本発明に係る画像認識システムは、マルチデバイスによるダイバーシチを活用することで、エッジとクラウドコンピューティングの利点を最大限に活用する。顔認識の性能を改善するために、各デバイスからの辞書に基づく結果を組み合わせることによって、認識性能を向上せることとした。
　また、特にクラウドによる計算結果の共有を可能にする場合、プライバシー漏洩を防止することは非常に重要である。本発明に係る画像認識システムは、プライバシーを考慮したスパース表現に基づくエッジ及びクラウドを顔認識のためのフレームワークを搭載している。

（１）ランダムユニタリ変換によってプライバシーを保護すること
　プライバシーを保護する一つの方法として、データを暗号化したたま計算する方法、いわゆる秘密計算が盛んに研究されている。秘密計算は一般にマルチパーティプロトコルや準同型暗号に基づき実行される。しかし、除算の困難性、計算効率及び計算精度などに課題があり、ソーティング処理や幾つかの統計解析に限定されるなど、十分な普及には至っていない。この問題に対処するために、ランダムユニタリ変換に基づく低演算な暗号化アルゴリズムがある。本実施形態で、このような暗号化が顔認識の結果に影響しないことを理論とシミュレーションの両方で証明した。
（２）アンサンブル学習によるマルチデバイスダイバーシチを活用すること
　辞書ベースの顔認識アルゴリズムの性能は、トレーニングサンプル数に大きく依存する。その場合、帯域幅とストレージのコストによりクラウドで全てのトレーニングサンプルを集めることは困難である。本実施形態では、クラウドによって提供されるダーバーシティを用いて、各デバイスから生成される辞書に基づく認識結果のみをアンサンブル学習を通して統合することとした。そして、シミュレーション結果を通して認識率が高くロバスト（雑音に強い）であることを証明した。

１１：ローカル処理部
１２：エッジ／クラウド処理部
１３：メインループ部
２１：辞書学習部
２２：ランダムユニタリ変換部
２３：キャッシュ部
２４：送信部
２５：受信部
２６：データベース部
３１：初期化部
３２：近似誤差算出部
３３：サポート更新部
３４：最良解探索部
３５：残差更新部
３６：演算停止部
３７：スパース係数出力部
１１１：端末（デバイス）
１１２：転送サーバ（エッジサーバ）
１１３：画像認識サーバ（クラウドサーバ）
１２１：メンバ分類器
１２２：判別器
３０１：画像認識システム

Claims

　Ｎ台の端末（Ｎは２以上の整数）、Ｍ台の転送サーバ（Ｍは１以上の整数）、及び画像認識サーバを備える画像認識システムであって、
　ｉを識別する画像のクラス、ｊ及びｋ（ｋ∈ｊ）を前記端末の番号とし、画像ｙ_ｉ ^ｊがＫ個（Ｋ＞Ｍ）の基底を要素とするＭ×Ｋ行列である辞書行列Ｄ_ｉ ^ｊとＫ次元のベクトルであるスパース係数Ｘ_ｉ ^ｊを用いて、ｙ_ｉ ^ｊ＝Ｄ_ｉ ^ｊ・Ｘ_ｉ ^ｊと表せるとき、
　前記端末は、
　鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化して暗号化テスト画像を生成し、前記暗号化テスト画像を指定されている１台の前記転送サーバへ転送し、
　前記転送サーバは、
　前記暗号化テスト画像をダウンサンプリングするとともに１次元の暗号化画像ベクトルへ変換し、前記暗号化画像ベクトルを前記画像認識サーバへ転送し、
　前記画像認識サーバは、
　異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書を用い、前記暗号化辞書毎に数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する
ことを特徴とする画像認識システム。
　鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化した暗号化テスト画像がダウンサンプリングされ、さらに１次元に変換された暗号化画像ベクトル、及び、異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書が入力される入力部と、
　前記暗号化辞書毎に数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて、前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する判定部と、
を備える画像認識サーバ。
　Ｎ台の端末（Ｎは２以上の整数）、Ｍ台の転送サーバ（Ｍは１以上の整数）、及び画像認識サーバを備える画像認識システムで行う画像認識方法あって、
　ｉを識別する画像のクラス、ｊ及びｋ（ｋ∈ｊ）を前記端末の番号とし、画像ｙ_ｉ ^ｊがＫ個（Ｋ＞Ｍ）の基底を要素とするＭ×Ｋ行列である辞書行列Ｄ_ｉ ^ｊとＫ次元のベクトルであるスパース係数Ｘ_ｉ ^ｊを用いて、ｙ_ｉ ^ｊ＝Ｄ_ｉ ^ｊ・Ｘ_ｉ ^ｊと表せるとき、
　前記端末で、鍵ｐを用いて生成されるランダムユニタリ行列Ｑｐでテスト画像を暗号化して暗号化テスト画像を生成し、前記暗号化テスト画像を指定されている１台の前記転送サーバへ転送し、
　前記転送サーバで、前記暗号化テスト画像をダウンサンプリングするとともに１次元の暗号化画像ベクトルへ変換し、前記暗号化画像ベクトルを前記画像認識サーバへ転送し、
　前記画像認識サーバで、異なるトレーニング画像を用いて生成された複数の辞書を前記ランダムユニタリ行列Ｑｐで暗号化した複数の暗号化辞書を用い、前記暗号化辞書毎に数Ｃ１で表される最適化問題を直交マッチング追跡法で解いて前記暗号化画像ベクトルのクラスを前記暗号化辞書毎に推定し、前記暗号化辞書毎に推定した前記クラスに対してアンサンブル学習を行って前記暗号化画像ベクトルのクラスを１つ判定する
ことを特徴とする画像認識方法。