WO2021029091A1

WO2021029091A1 - 情報処理システム、および情報処理方法

Info

Publication number: WO2021029091A1
Application number: PCT/JP2020/006491
Authority: WO
Inventors: 正和藤尾; 陽介加賀; 高橋　健太; 中村　渉
Original assignee: 株式会社日立製作所
Priority date: 2019-08-09
Filing date: 2020-02-19
Publication date: 2021-02-18
Also published as: JP7190987B2; JP2021028739A

Abstract

撮影画像から対象領域を効率よく抽出する。　情報処理システムは、撮影画像と、当該撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、撮影画像を上記の機械学習モデルに入力することにより領域記述データを推定する。上記の領域記述データは、撮影画像から背景分離画像を生成し、生成した背景分離画像に基づき生成されたものであり、情報処理システムは、撮影画像を機械学習モデルに入力することにより領域記述データを推定し、領域記述データに基づき背景分離画像を復元する。

Description

情報処理システム、および情報処理方法

　本発明は、情報処理システム、および情報処理方法に関する。

　本出願は、２０１９年８月９日に出願された日本特許出願２０１９－１４７２５０号に基づく優先権を主張し、その開示全体を援用して本出願に取り込むものである。

　特許文献１には、生体を撮影して生体画像を取得する画像入力部と、生体画像を処理する認証処理部と、生体から得られる生体特徴に関する登録情報を記憶する記憶部と、を備えた生体認証装置が開示されている。当該生体認証装置の認証処理部は、登録情報を用い、登録時と認証時の生体画像間の色差を最小化する色変換を行い、色変換後の生体画像を用いて生体の認証を行う。

特開２０１８－１８０６６０号公報

　近年、ＩＤやパスワード等の文字列を用いた個人認証技術に代わる、より安全で便利な個人認証技術として、生体認証技術が注目されている。生体認証技術は、ユーザの生体特徴（指紋、静脈パターン、光彩パターン等）を認証情報として用いる。生体認証技術は、文字列を用いた個人認証技術と同様に、例えば、金融サービスにおいて、スマートフォン等のモバイル端末からの口座開設、残高照会、口座振込み、ＡＴＭ利用時の個人認証等に利用することができる。

　生体認証技術の応用例として、指紋センサを備えたモバイル端末、ユーザの指静脈パターンを検出するＡＴＭ等がある。しかし例えば指紋を用いた個人認証は、モバイル端末等の情報処理システムに指紋センサが搭載されていなければ利用することができない。また指静脈パターンを用いた個人認証は、指静脈専用の赤外線センサが必要である。そこで、特許文献１にも開示されているように、汎用カメラ（例えば、スマートフォン等のモバイル端末に標準搭載されているカメラ）をセンサとして用い、汎用カメラによって撮影された画像の情報から生体認証に用いる生体情報を抽出する技術が提案されている。

　特許文献１に記載の生体認証装置は、汎用カメラによって撮影された画像（以下、「撮影画像」と称する。）の情報から、指等の生体特徴が含まれる身体の所定の部位に対応する領域を目的の対象領域として、その対象領域を機械学習の技術を用いて対象領域のオブジェクト種別を推定している。しかし従来の対象領域の推定方式は、対象領域のピクセルごとにクラス推定するため処理負荷が大きく、スマートフォン等のようにリソースが限定された環境において実用的な速度で認証機能を動作させるには撮影画像から対象領域を効率よく抽出できるようにする必要がある。

　本発明はこうした背景に鑑みてなされたものであり、撮影画像から対象領域を効率よく抽出することが可能な、情報処理システム、および情報処理方法を提供することを目的する。

　上記目的を達成するための本発明の一つは、情報処理システムであって、撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する。

　その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。

　本発明によれば、撮影画像から対象領域を効率よく抽出することができる。

生体認証システムの構成を示す図である。生体認証システムの動作（全体処理）を説明するフローチャートである。学習動作を説明する図である。領域記述データ生成処理を説明する図である。領域記述データ生成処理を説明するフローチャートである背景分離画像復元処理を説明するフローチャートである。背景分離画像の一例を示す図である。背景分離画像を回転させた例を示す図である。背景分離画像の回転角度を決定する手順を説明する図である。ある射影軸について射影したときの白画素の出現頻度を示すヒストグラムの一例である。ロス関数を説明する図である。領域記述データの数値列を表現したグラフの一例である。領域記述データの数値列を表現したグラフの他の一例である。

　以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。

　図１に、一実施形態として示す情報処理システムである生体認証システム１０の概略的な構成を示している。生体認証システム１０は、一つ以上の情報処理装置を用いて構成される。上記の情報処理装置は、例えば、スマートフォン、タブレット、パーソナルコンピュータ（デスクトップ型又はノートブック型）である。また上記の情報処理装置は、例えば、クラウドシステムにより提供されるクラウドサーバのように仮想的な情報処理資源を用いて実現されるものであってもよい。

　同図に示すように、生体認証システム１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、表示装置１５、撮影装置１６、および通信インタフェースを備える。

　プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＡＩ（Artificial Intelligence）チップ、ＦＰＧＡ（Field Programmable Gate Array）、ＳｏＣ（System on Chip）、ＡＳＩＣ（Application Specific Integrated Circuit）等を用いて構成される。

　主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

　補助記憶装置１３は、プログラムやデータを格納する装置であり、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶媒体（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ＩＣカード、ＳＤカード、クラウドが提供する仮想的な記憶領域等である。

　入力装置１４は、外部からのユーザ入力やデータ入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(例えば、マイクロホン)等である。

　表示装置１５は、生体認証システム１０におけるデータ処理の経過やその処理結果等の各種情報を出力するユーザインタフェースである。表示装置１５は、例えば、上記の各種情報を、画像によって出力する表示装置、音声によって出力する音声出力装置、紙媒体に印刷する印刷装置等である。

　撮影装置１６は、ＣＣＤ等の撮像素子を備えたデジタルカメラやビデオカメラであり、例えば、スマートフォンが備えるカメラや通信インタフェース１７を介して接続されるカメラである。撮影装置１６は、生体認証システム１０の入力装置１４に対するユーザの撮影指示を受け付けて動画や静止画を撮影し、撮影した動画や静止画のデータ（以下、「撮影画像」と称する。）を出力する。

　通信インタフェース１７は、無線又は有線により外部の装置との間で通信を行う装置であり、無線又は有線の通信モジュール（無線通信モジュール、ネットワークアダプタ、ＵＳＢモジュール等）である。

　主記憶装置１２は、オペレーティングシステム１００、領域表現圧縮プログラム１０１、訓練プログラム１０２、推定処理プログラム１０３、領域表現復元プログラム１０４、および認証プログラム１０５の各プログラムを記憶する。これらのプログラムは、例えば、補助記憶装置１３から主記憶装置１２に読み込まれる。プロセッサ１１は、主記憶装置１２が記憶するこれらのプログラムを実行することにより各種の機能を実現する。

　以下、領域表現圧縮プログラム１０１、訓練プログラム１０２、推定処理プログラム１０３、領域表現復元プログラム１０４、および認証プログラム１０５の夫々によって実現される機能のことを、順に、領域表現圧縮部、訓練部、推定処理部、領域表現復元部、および認証部と称する。

　補助記憶装置１３は、教師データ１１１、認証参照情報１１２、および機械学習モデル１１３の各データを記憶する。これらのデータは、上記各種機能により生成もしくは参照される。

　上記機能のうち、領域表現圧縮部は、入力画像から所定の画像領域（被認証者の手が写っている画像領域。以下、「切出画像」と称する。）を切り出し、切出画像から背景分離画像を生成し、生成した背景分離画像を１次元の数値列に圧縮表現したデータである領域記述データを生成する。領域記述データは、例えば、一本の指等、一方向に突出した形状の２次元の物体（以下、「凸オブジェクト」と称する。）を、一次元数値列で表現したものである。領域記述データは、例えば、凸オブジェクトが指であれば、指の幅（以下、「指幅」と称する。）と指幅方向の中心位置という２種類の数値列で圧縮表現したデータである。

　背景分離画像は、生体情報の抽出対象となる画像領域（被認証者の指が写っている画像領域等）を対象領域とし、当該対象領域とその背景領域とが分離された状態で表現された画像である。背景分離画像は、例えば、対象領域における画素と背景領域における画素とが異なる値で表現された二値画像である。例えば、対象領域の各画素は「１」で表現され、背景領域の各画素は「０」で表現される。

　訓練部は、切出画像と領域記述データとを対応づけた情報を含む教師データ１１１を用いて、切出画像から領域記述データを推定する機械学習モデル１１３の学習を行う。尚、機械学習モデル１１３は、例えば、回帰推定や深層学習を行うモデルであるが、機械学習モデル１１３の種類は必ずしも限定されない。

　推定処理部は、生体認証に際し、入力画像から切出画像を切り出し、機械学習モデル１１３を用いて切出画像から領域記述データを推定する。

　領域表現復元部は、推定処理部が推定した領域記述データに基づき背景分離画像を復元する。

　認証部は、領域表現復元部が復元した背景分離画像と、当該背景分離画像の生成元の切出画像とに基づき被認証者の生体情報を抽出し、抽出した生体情報に基づき被認証者の認証処理を行う。

　続いて、生体認証システム１０の動作について説明する。生体認証システム１０の動作は、機械学習モデルの学習フェーズにおける動作（以下、「学習動作」と称する。）と、学習済の機械学習モデル１１３を用いて被認証者の認証を行う認証フェーズにおける動作（以下、「認証動作」と称する。）と、を含む。

　上記の学習フェーズにおいて、生体認証システム１０は、動画を構成する個々のフレーム画像における所定の領域内の画像から背景分離画像を生成する。生体認証システム１０は、例えば、所定領域内の画像におけるＲＧＢやＹＵＶ等の色空間情報の値の範囲に基づき、その画像から対象領域を抽出して背景分離画像を生成する。また生体認証システム１０は、生成した背景分離画像を用いて領域記述データを生成する。生体認証システム１０は、生成した領域記述データと、当該領域記述データの生成元の切出画像とを含む教師データ１１１を生成する。そして、生体認証システム１０は、生成した教師データ１１１を用いて機械学習モデル１１３の学習を行う。

　一方、上記の認証フェーズにおいて、生体認証システム１０は、撮影装置１６の撮影画像から抽出した切出画像を機械学習モデル１１３に入力して領域記述データを推定する。また生体認証システム１０は、推定した領域記述データから背景分離画像を復元し、当該背景分離画像の生成元の切出画像に含まれている生体情報を抽出する。そして生体認証システム１０は、抽出した生体情報と、例えば、補助記憶装置１３に登録済みの正規の認証参照情報１１２とを照合して補助記憶装置１３に格納されている情報へのアクセスや所定のプログラムの実行を許可する。生体認証システム１０は、例えば、最初に抽出した生体情報を正規の認証参照情報１１２として補助記憶装置１３に記憶する。生体認証システム１０が抽出した生体情報は、外部の情報処理装置の認証手続に利用することもできる。例えば、生体認証システム１０は、抽出した生体情報を外部の情報処理装置に照会する。外部の情報処理装置は、例えば、照会された生体情報が自身の記憶装置に記憶されている認証参照情報１１２と一致すると、生体認証システム１０に自身へのアクセスを許可する。

　図２は、学習フェーズ及び認証フェーズにおいて生体認証システム１０が行う処理（以下、「全体処理Ｓ２００」と称する。）を説明するフローチャートである。同図において、符号ｓ２０で示す破線枠内の処理は学習フェーズにおける処理であり、符号ｓ４０で示す破線枠内の処理は認証フェーズにおける処理である。

＜学習動作＞
　まず学習フェーズにおける学習動作（ｓ２０）ついて説明する。学習動作（ｓ２０）において、生体認証システム１０は、まず入力画像から切出画像を切り出す（ｓ２１～ｓ２３）。即ち、生体認証システム１０は、撮影装置１６から入力される動画からフレーム画像３０を抽出し（ｓ２１，ｓ２２）、フレーム画像３０の所定領域の画像を切出画像として抽出する（ｓ２３）。

　図３（ａ）に示すように、生体認証システム１０は、表示装置１５の画面上に、予め設定された切出領域３１を、手３２を翳す（かざす）位置を示す矩形の枠等のガイドによって表示する。ユーザ３３は、撮影に際し、ガイドで示された切出領域３１内に自身の手３２における所定の指３４が収まるように撮影装置１６に手３２を翳す。この例では、ユーザ３３は、人差し指から小指までの４本の指３４が枠内に収まるように手３２を翳している。尚、切出画像は、公知の画像認識技術を用いて自動的に抽出してもよい。

　図２に戻り、続いて、生体認証システム１０は、切出画像から背景分離画像を抽出する（Ｓ２３～Ｓ２７）。具体的には、生体認証システム１０は、まず切出画像のＲＧＢやＹＵＶ等の色空間情報（例えば肌色情報）に基づき、白抜きで示した手に対応する領域（以下、手領域４１）と斜線で示した背景領域４２とが二値画像で表現された手領域画像４０を生成する（図３（ｂ））。

　続いて、生体認証システム１０は、手領域４１と背景領域４２とが分離された手領域画像４０を処理し、手領域４１の輪郭追跡を行い（ｓ２５）、各指４３の指先４４と指股４５をキーポイント４６として抽出する（ｓ２６）（図３（ｂ））。

　続いて、生体認証システム１０は、抽出したキーポイント４６と手領域４１の輪郭とに基づき、指４３単位の領域を背景分離画像２０として抽出する（ｓ２７）（図３（ｃ））。

　続いて、生体認証システム１０は、抽出した指単位の複数の背景分離画像２０の夫々から上記の領域記述データを生成し、生成した領域記述データと、当該領域記述データの起源となった切出画像とをセットにした教師データ１１１を生成する（ｓ２８）。尚、背景分離画像２０のから領域記述データを生成する処理の詳細については後述する。

　続いて、生体認証システム１０は、教師データ１１１のサンプル数が所定数に達したか否かを判定する（ｓ２９）。教師データ１１１のサンプル数が所定数に達した場合（ｓ２９：ＹＥＳ）、処理はｓ３０に進む。教師データ１１１のサンプル数が所定数に達していない場合（ｓ２９：ＮＯ）、処理はｓ２１に戻る。

　ｓ３０では、生体認証システム１０は、教師データ１１１を用いて機械学習モデルの学習を行う。以上が学習フェーズにおける処理の説明である。

＜認証動作＞
　次に、認証フェーズにおける認証動作（ｓ４０）について説明する。認証動作（ｓ４０）において、生体認証システム１０は、まず学習動作（ｓ２０）におけるｓ２１～ｓ２３の処理と同様の手順で、被認証者について撮影された入力画像から切出画像を抽出する（ｓ４１～ｓ４３）。

　続いて、生体認証システム１０は、切出画像から領域記述データを生成する（ｓ４４）。

　続いて、生体認証システム１０は、生成した領域記述データに基づき背景分離画像を復元する（ｓ４５）。尚、この復元処理の詳細については後述する。

　続いて、生体認証システム１０は、復元した背景分離画像に基づき、フレーム画像３０における、指２２ａに対応する対象領域２２から生体情報として指静脈パターンを抽出し（ｓ４６）、抽出した生体情報を認証参照情報１１２と照合して認証処理を行う（ｓ４７）。以上が認証フェーズにおける処理の説明である。

＜領域記述データの生成＞
　図４は、図２のＳ２８において生体認証システム１０が背景分離画像から領域記述データを生成する処理（以下、「領域記述データ生成処理Ｓ２８」と称する。）を説明する図である。

　同図に示すように、背景分離画像２０は、矩形領域２１内に、図中白抜きで示した指２２ａに対応する対象領域２２と、図中斜線のハッチングで示した、対象領域２２以外の背景領域２３とを二値で表現した画像である。

　生体認証システム１０は、背景分離画像２０から、対象領域２２に対応する画素の位置を一次元数値列で表現した領域記述データを生成する。

　背景分離画像２０は、Ｘ軸方向とＹ軸方向の夫々に所定の画素数を有する一定のサイズの矩形領域２１内に上述した対象領域２２と背景領域２３とを示す領域符号が対応付けされたデータである。本例では、紙面左上のコーナーの画素を原点ｏとしている。また矩形領域２１内に、指２２ａが下方から上方に向けて突出するように対象領域２２が配置されている。また紙面右方向に向かってＸ軸が、紙面下方向に向かってＹ軸が設定されている。

　領域記述データの生成に際し、生体認証システム１０は、矩形領域２１を原点ｏからＸ軸方向に走査し、走査によって矩形領域２１を横断し終えたならば、原点ｏからＹ軸方向に１画素分ずらした画素の座標を走査開始点として、矩形領域２１を、再度Ｘ軸方向に走査する。このようにして、矩形領域２１の全領域を走査する。

　続いて、点線矢印で示すように、生体認証システム１０は、走査の過程で、各画素の領域符号が、背景領域に相当する「０」であるか、対象領域に相当する「１」であるのかを判別する。生体認証システム１０は、このような走査を矩形領域２１の全領域にわたって行うことで、対象領域２２を構成する画素の位置を取得し、対象領域２２の座標を、データ量の少ない一次元数値列からなる領域記述データに変換する。

　図５は、領域記述データ生成処理Ｓ２８を説明するフローチャートである。まず生体認証システム１０は、背景分離画像２０が入力されると（ｓ１）、Ｘ方向への走査を開始する際のＹ座標を初期化（原点ｏをｘ軸方向への走査開始点として設定）する（ｓ２）。

　続いて、生体認証システム１０は、背景分離画像をＸ軸方向に沿って走査する（ｓ３）。矩形領域２１の端部まで走査し終えると、生体認証システム１０は、走査開始点のＹ座標を再設定する（ｓ４～ｓ９→ｓ１０→ｓ１１）。即ち原点ｏの画素に対して１画素分Ｙ軸方向に移動させた画素を走査開始点に設定する。

　生体認証システム１０は、走査過程で画素の値が対象領域２２であることを示す値（ここでは「１」）が出現すると、その画素（図４、符号２５）の座標を、対象領域の開始Ｘ座標として記録し（ｓ４→ｓ５）、同じ走査機会において、画素の値が「１」から背景領域であることを表す値（ここでは、「０」）が変化したならば、その「０」に変化した座標、あるいは「０」に変化した座標の一つ左の画素（図４、符号２６）を、対象領域２２の終了Ｘ座標位置として記録する（ｓ６→ｓ７）。さらに、生体認証システム１０は、一回の走査機会において、開始Ｘ座標位置と終了Ｘ座標位置とを記録した場合、開始Ｘ座標位置と終了Ｘ座標位置との中間を示すＸ座標を中心座標として計算し、開始Ｘ座標位置と終了Ｘ座標位置との差の絶対値を指幅として計算する（ｓ８）。

　生体認証システム１０は、背景分離画像２０に対応する矩形領域２１の全領域を走査し終えると、背景分離画像を原点ｏからＸ軸方向に走査したときの順番を１番目とし、走査開始点の設定機会ごとに順番を一つ繰り上げる。そして、生体認証システム１０は、順番に従って中心座標を記入してゆき、中心座標の一次元数値列を生成する。生体認証システム１０は、指幅についても同様にして一次元数値列を生成する。

　以上により、ｋを自然数とすると、ｋ番目の走査機会に相当する、ｋ番目の位置に中心座標が記述された一次元数値列（中心座標ベクトルCenter_vec）と、ｋ番目の位置に指幅が記述された一次元数値列（指幅ベクトルW_vec）とからなる領域記述データが生成される（ｓ１０→ｓ１２）。中心座標ベクトルCenter_vecと指幅ベクトルW_vecの一例を次に示す。

　数１に示した一次元数値系列（Center_vec，W_vec）における各数値の順番は、Ｙ座標の位置に対応している。このように背景分離画像２０が一次元数値列で表現されているため、生体認証システム１０は、撮影画像から対象領域２２を抽出する処理を回帰推定問題として取り扱うことができる。また生体認証システム１０は、背景分離画像２０における対象領域２２を、２つの単純な一次元数値列からなる領域記述データという冗長性の少ないデータの状態で取り扱うので、背景分離画像２０を表現するデータに対し、データのサイズが圧倒的に小さくなる。そのため、生体認証システム１０は、入力された画像から対象領域２２を推定する処理や、機械学習モデル１１３の学習を、軽負荷かつ高速度で実行することができる。

＜背景分離画像復元処理＞
　図６は、図２のｓ４５の処理（以下、「背景分離画像復元処理ｓ４５」と称する。）を説明するフローチャートである。

　まず生体認証システム１０は、主記憶装置１２に、復元後の背景分離画像２０を格納するための記憶領域を確保する（ｓ５１）。例えば、生体認証システム１０は、図４に示した矩形領域２１に相当する記憶領域を確保する。

　続いて、生体認証システム１０は、矩形領域２１の四隅の一つに配置される画素に原点ｏを設定し、矩形の一辺に沿う方向をＸ軸方向とし、Ｘ軸と直交するＹ軸方向として、Ｘ軸方向に沿う各画素に対し、対象領域２２を示す「１」、あるいは背景領域２３を示す「０」を書き込む際のＹ座標の位置を初期化し（ｓ５２）、原点ｏを書込開始点とする。

　続いて、生体認証システム１０は、当該書込開始点からＸ軸方向に沿って矩形領域２１を走査する際、領域記述データにおいて対応する順番に、対象領域２２に対応する中心座標や指幅の数値が記述されていれば、開始点中心座標と指幅とに基づき、上記の開始Ｘ座標位置と終了Ｘ座標位置とを算出する（ｓ５３→ｓ５４、ｓ５５）。

　続いて、生体認証システム１０は、書込開始点からＸ軸方向に向かって走査しつつ、背景領域２３に対応する「０」、あるいは対象領域２２に対応する「１」を書き込んでいく（ｓ５６）。

　書込開始点から矩形領域２１の対辺に位置する画素まで「０」または「１」を書き込むと、生体認証システム１０は、書込開始点となるＹ座標位置をＹ軸に沿って一画素分移動し（ｓ５７→ｓ５８）、再度、対辺に位置する画素まで「０」または「１」を書き込んでいく（ｓ５３～ｓ５６）。

　全てのＹ座標に対するＸ座標の位置について「０」または「１」を書き込むと、生体認証システム１０は、「０」が書き込まれた画素を対象領域２２とし、「１」が書き込まれた画素を背景領域２３とした背景分離画像２０を出力する（ｓ５７→ｓ５９）。

＜効果＞
　以上のように、本実施形態に係る生体認証システム１０は、撮影画像から生体特徴を抽出すべき対象領域２２を、冗長性の少ない一次元数値列からなる領域記述データとして圧縮表現するので、撮影画像から領域記述データを推定する機械学習モデル１１３のサイズを小さくすることができる。そのため、機械学習モデル１１３は、スマートフォン等のリソースが限られた情報処理装置にも実装可能であり、こうした情報処理装置において低負荷かつ高速で撮影画像から領域記述データを推定することができ、被認証者の認証を効率よく行うことができる。

＜背景分離画像の回転＞
　以上の実施形態では、背景分離画像２０に含まれる指２２ａ等の凸オブジェクトが、概ねＹ軸方向に沿って配置されている場合、即ち、背景分離画像２０が、Ｘ軸方向に走査された際、その走査線上に凸オブジェクトがあれば、開始Ｘ座標位置と終了Ｘ座標位置とが一つずつ取得される場合を例示した。

　しかし例えば、図７示すように、切出画像から生成した背景分離画像２０において、図２に示した指２２ａ等の凸オブジェクトがＸ軸方向に沿って配置されている場合、即ち、点線矢印で示した走査線上に、開始Ｘ座標位置と終了Ｘ座標位置に対応する画素（符号２５，符号２６）が夫々複数存在する場合もあり、その場合、生体認証システム１０は、学習動作において対象領域２２を一次元数値列の形式で適切に表現できない可能性がある。

　そこで、例えば、生体認証システム１０が、背景分離画像２０の走査に先立ち、背景分離画像２０を適切な角度で回転させるようにしてもよい。例えば、図７に示した背景分離画像２０であれば、図８に示すようにその背景分離画像２０を９０゜回転させれば、指２２ａなどの凸オブジェクトがＹ軸に沿った形状となり、走査機会に対象領域２２を横断したとき、開始Ｘ座標位置と終了Ｘ座標位置とが一つずつ取得できるようになる。尚、背景分離画像２０を回転させる角度は、例えば、次のようにして決定する。

　図９は、背景分離画像２０を回転させる角度を決定する手順を説明する図である。同図に示すように、生体認証システム１０は、図２の背景分離画像２０の抽出処理（ｓ２７）で得られた背景分離画像２０に対し、Ｘ軸に対し、例えば、１０゜の間隔で０゜から±９０゜等、適宜な範囲で回転させた射影軸５０を設定し、各射影軸について対象領域２２に対応する画素（以下、白画素であるものとする。）の出現頻度（ヒストグラム）を取得する。

　図１０は、背景分離画像２０を、ある回転角度において射影したときの白画素の出現頻度を示すヒストグラムの一例を示す図である。例示するヒストグラムにおいて、横軸は、背景分離画像２０を射影軸方向に走査したときの射影軸の位置を表し、縦軸は、射影軸に射影された白画素の出現頻度を表す。生体認証システム１０は、回転させた各射影軸５０について上記のヒストグラムを求め、ヒストグラムの分散が最も大きくなったときの射影軸５０の回転角度を背景分離画像２０の回転角度として決定する。

　このように、生体認証システム１０は、背景分離画像２０を適宜に回転させることで、図２の学習動作（ｓ２０）において、不適切な領域記述データが生成される可能性を低減させることができる。また背景分離画像２０を有効に利用することができる。

＜ロス関数＞
　ところで、機械学習モデル１１３の学習は、例えば、各数値列の値の差の２乗和等のロス関数を用いて行ってもよい。また以下に示すロス関数を用いて機械学習モデル１１３を学習するようにしてもよい。

　図１１は上記のロス関数を説明する図である。同図において、実線は教師データ１１１の領域記述データに基づく対象領域２２ｂ（以下、「正解領域」と称する。）の輪郭であり、点線は機械学習モデル１１３が推定した領域記述データに基づく対象領域２２ｃ（以下、「推定領域」と称する。）の輪郭である。２つの対象領域２２ｂ，２２ｃが重複する領域２２ｄ（以下、「重複領域」と称する。）以外の領域２２ｅは誤差に相当する。生体認証システム１０は、例えば、正解領域のピクセル数と、推定領域のピクセル数と、重複領域のピクセル数とをパラメータとする、次式で示すロス関数を用いて機械学習モデル１１３の学習を行う。

＜マスク情報＞
　ところで、教師データ１１１の領域記述データは、図４の背景分離画像２０を例として説明すると、Ｙ軸方向の位置において、原点ｏに対応する１番目から、指先２４に対応する位置に対応する順番までは、全て背景領域２３に対応する「０」が記述され、指先２４の位置のＹ座標に対応する順番から数値が突然記述され始めることになる。

　図１２は、横軸をＹ軸方向の位置とし、縦軸を中心位置や指幅に対応する数値として領域記述データをグラフ化したものである。この例では、実線（数値を結んだ実線）で示すように、指先２４に対応する順番における数値とその一つ前の順番における数値とが不連続となっている。この場合、機械学習モデル１１３を用いて領域指定データの推定を行うと、指先２４の形状が、本来の形状とは乖離したものになってしまう可能性がある。

　上記の問題は、例えば、中央位置ベクトルCenter_vecもしくは指幅ベクトルW_vecに、夫々の各順番の数値の採否を指定するマスク情報を作用させることで解決することができる。数３は上記マスク情報の一例である。例示するマスク情報は、一次元数値列からなる領域記述データに記入された各順番の数値について、採用を指定する「１」と不採用を指定した「０」とが記入された、一次元数値列（マスクベクトルM_vec）で表現されている。数３のマスクベクトルM_vecは、指先２４が出現する順番まで数値を採用しない旨を指示する「０」が記入された一次元数値列となっている。

　生体認証システム１０は、教師データ１１１にマスクベクトルM_vecを含めて機械学習モデル１１３の学習を行う。この場合、生体認証システム１０は、例えば、次式に示すロス関数の値が小さくなるように機械学習モデル１１３の学習を行う。

　上式において、Cg、およびWgは、正解中心座標ベクトルおよび正解指幅ベクトルであり、教師データ１１１における中心座標ベクトルCenter_vecおよび指幅ベクトルW_vecである。またCpおよびWpは、推定中心座標ベクトル、および推定指幅ベクトルであり、回帰推定によって出力された中心座標ベクトルCenter_vecおよび指幅ベクトルW_vecである。またMgおよびMpは、正解マスクベクトルおよび推定マスクベクトルであり、数３に示したように、領域記述データにおける各順番の数値の採否を一次元数値列で表現したものである。

　上記の問題の別の解決方法として、例えば、指幅０部分の中心位置について、指幅１以上の領域のＹ座標のデータに基づき回帰直線（傾きと切片）を求め、求めた回帰直線から指幅０部分の正解の１次元数値列を補完（代替）するようにしてもよい。

　図１３は、この解決方法を説明する図であり、横軸をＹ軸方向の位置とし、縦軸を中心位置や指幅に対応する数値として領域記述データをグラフ化したものである。同図において、観測データ１３０１は、指幅が正の値を持つ位置ｙにおける中心座標位置の例である。補完データ１３０２は、観測データ１３０１を用いて求めた回帰直線に基づき、指幅が０の値を持つ、位置ｙ₀における推定中心座標を表す。回帰直線を用いた推定中心座標は次式から求めることができる。

　本解決方法によれば、指先２４に対応する順番における数値とその一つ前の順番における数値とが不連続となっている部分を連続関数として表わすことができ、推定精度を高めることができる。

＜その他の実施形態＞
　以上の説明では、入力された画像に含まれる凸オブジェクト（一本の指２２ａ等）は、領域記述データにおいて指２２ａの中心線の位置と指幅という２種類の一次元数値列（Center_vec，W_vec）で圧縮表現していたが、凸オブジェクトを、例えば、開始Ｘ座標位置と指幅、あるいは開始Ｘ座標位置と終了Ｘ座標位置等で表現してもよい。

　また領域記述データは、一種類の一次元数値列で表現することもできる。例えば、領域記述データを、順番毎に小数点以下が所定桁数となる小数の数値を記入した一次元数値列とし、小数の整数部分の数値が中心幅等を表現し、所定桁数の小数部分の数値が指幅等を表現することとすれば、生体認証システム１０は、領域記述データを一つの一次元数値列で扱うことができる。小数点以下の桁数については、背景分離画像２０のＸ軸方向の画素数によって決めればよい。Ｘ軸方向の画素数が６４０画素であれば、小数点以下を３桁とし、小数点以下の数値を１０００倍すれば、小数点以下の数値を、画素のＸ座標位置を表現する整数に戻すことができる。

　生体認証システム１０は、例えば、分散型の情報処理システムを用いて実現してもよい。例えば、生体認証システム１０は、学習動作（ｓ２０）を行う情報処理装置と、認証動作（ｓ４０）を行う情報処理装置を通信可能に接続した情報処理システムにより実現してもよい。

　尚、以上の仕組みは、生体認証とは異なる分野においても利用可能であり、例えば、撮影画像から特定の物体を分離する技術にも適用することができる。

　また以上に説明した生体認証システム１０は、本発明に係る情報処理システムの一実施形態であり、本発明の技術的範囲は、実施形態に係る生体認証システム１０によって限定されるものではない。上記実施形態は、本発明を分かりやすく説明するための一例である。したがって、本発明の概念は、上記実施形態に対する様々な変形形態や応用形態を含むものでる。また上記実施形態の構成の一部を他の実施形態の構成に置き換えたり、ある実施形態の構成に他の実施形態の構成を加えたりすることが可能である。また各実施形態の構成の一部について、他の構成を追加、削除、置換することも可能である。

　上記の各構成、機能等は、それらの一部又は全部は、例えば、集積回路を用いたハードウェアによって実現されるものであってもよいし、夫々の構成や機能を実現するプログラムを実行して所定のデータを処理するソフトウェアによって実現されるものであってもよい。

１０　生体認証システム、１１　プロセッサ、１２　主記憶装置、１３　補助記憶装置、１４　入力装置、１５　表示装置、１６　撮影装置、２０　背景分離画像、　２２　対象領域、２３　背景領域、１０１　領域表現圧縮プログラム、１０２　訓練プログラム、
１０３　推定処理プログラム、１０４　領域表現復元プログラム、１０５　認証プログラム、１１１　教師データ、１１２　認証参照情報、１１３　機械学習モデル

Claims

　撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、
　撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する、
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記領域記述データは、前記撮影画像から背景分離画像を生成し、生成した前記背景分離画像に基づき生成されたものであり、
　撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定し、
　前記領域記述データに基づき背景分離画像を復元する、
　情報処理システム。
　請求項２に記載の情報処理システムであって、
　前記撮影画像は、生体認証の対象となる物体を写した画像であり、
　前記撮影画像と復元した前記背景分離画像とに基づき認証に用いる生体情報を抽出し、
　前記生体情報を予め記憶している認証情報と照合することにより認証を行う、
　情報処理システム。
　請求項３に記載の情報処理システムであって、
　前記領域記述データは、前記背景分離画像を走査したときの走査機会毎の前記物体の幅を順に記述した一次元数値列と、前記背景分離画像を走査したときの前記物体の幅方向の中心位置を順に記述した一次元数値列とを含む、
　情報処理システム。
　請求項４に記載の情報処理システムであって、
　前記認証の対象となる物体は人の指である、
　情報処理システム。
　請求項２に記載の情報処理システムであって、
　前記背景分離画像に対し、方向の異なる複数の射影軸の夫々について夫々の前記対象領域の画素の出現頻度を示すヒストグラムを生成し、
　前記背景分離画像を前記ヒストグラムの分散が最大となる前記射影軸の方向に走査することにより前記領域記述データを生成する、
　情報処理システム。
　請求項１乃至６のいずれか一項に記載の情報処理システムであって、
　前記教師データにおける前記対象領域と、前記機械学習モデルにより推定された対象領域との重なり具合をパラメータとして用いたロス関数を用いて前記機械学習モデルを学習する、
　情報処理システム。
　請求項１乃至６のいずれか一項に記載の情報処理システムであって、
　前記教師データは、前記一次元数値列における各数値の採否を指定するマスク情報を含み、
　前記機械学習モデルは、前記一次元数値列に前記マスク情報を作用させつつ前記領域記述データと前記マスク情報を推定し、
　前記機械学習モデルの学習に際し、前記マスク情報をパラメータとして用いたロス関数を用いる、
　情報処理システム。
　情報処理装置が、
　撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、
　撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する、
　情報処理方法。
　請求項９に記載の情報処理方法であって、
　前記領域記述データは、前記撮影画像から背景分離画像を生成し、生成した前記背景分離画像に基づき生成されたものであり、
　前記情報処理装置が、
　撮影画像を前記機械学習モデルに入力することにより前記領域記述データを生成し、
　前記領域記述データに基づき背景分離画像を復元する、
　情報処理方法。
　請求項１０に記載の情報処理方法であって、
　前記撮影画像は、認証の対象となる物体を写した画像であり、
　前記情報処理装置が、
　認証の対象となる物体を撮影した撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定し、
　推定した前記領域記述データに基づき背景分離画像を復元し、
　前記入力した撮影画像と復元した前記背景分離画像とに基づき認証に用いる生体情報を抽出し、
　前記生体情報を予め記憶している認証情報と照合することにより認証を行う、
　情報処理方法。
　請求項１１に記載の情報処理方法であって、
　前記領域記述データは、前記背景分離画像を走査したときの走査機会毎の前記物体の幅を順に記述した一次元数値列と、前記背景分離画像を走査したときの前記物体の幅方向の中心位置を順に記述した一次元数値列とを含む、
　情報処理方法。
　請求項１２に記載の情報処理方法であって、
　前記認証の対象となる物体が人の指である、
　情報処理方法。
　請求項１０に記載の情報処理方法であって、
　前記情報処理装置が、
　前記背景分離画像に対し、方向の異なる複数の射影軸の夫々について夫々の前記対象領域の画素の出現頻度を示すヒストグラムを生成し、
　前記背景分離画像を前記ヒストグラムの分散が最大となる前記射影軸の方向に走査することにより前記領域記述データを生成する、
　情報処理方法。
　請求項９乃至１４のいずれか一項に記載の情報処理方法であって、
　前記情報処理装置が、前記教師データにおける前記対象領域と、前記機械学習モデルにより推定された対象領域との重なり具合をパラメータとして用いたロス関数を用いて前記機械学習モデルを学習する、
　情報処理方法。