WO2022244357A1

WO2022244357A1 - 生体の認証システムおよび認証方法

Info

Publication number: WO2022244357A1
Application number: PCT/JP2022/006798
Authority: WO
Inventors: 直人三浦; 渓一郎中崎; 友輔松田; 洋野々村; 晃朗長坂
Original assignee: 株式会社日立製作所
Priority date: 2021-05-18
Filing date: 2022-02-18
Publication date: 2022-11-24
Also published as: US20240126853A1; JP2022177762A; EP4343689A1

Abstract

複数の生体を用いたマルチモーダル生体認証において、複数の生体を撮像する時の姿勢変動を抑制し、かつ複数の生体特徴を処理するための計算量を抑え、高精度な認証を実現する。　利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、生体を撮影する撮影装置と、撮影装置から入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、撮影装置は、第１の期間で、第１の利用者の第１の生体を撮影し、第１の期間とは異なる第２の期間で、第１の利用者の第２の生体及び第３の生体とを撮影する。認証処理装置は、第１の期間において撮影した第１の生体から第１の特徴量を算出し、第２の期間において撮影した第２の生体及び第３の生体から、第２の特徴量と第３の特徴量をそれぞれ算出し、記憶装置に記憶された利用者毎の生体の特徴量とを照合する。

Description

生体の認証システムおよび認証方法

　本発明は、生体情報を用いて個人を認証する認証システムおよび認証方法に関する。

　近年、スマートフォンやノートＰＣなどのモバイル端末に対する情報漏洩や不正利用のリスクを低減するための一手段として生体認証技術が用いられている。特に、リモート環境で利用されるモバイル端末は、他者によって不正に利用されるリスクが高い。そのため、端末や情報システムにアクセスする際は、その都度、本人認証を行うことが求められる。しかしながら、毎回パスワードを入力することは煩わしく、またパスワードの忘却や漏洩のリスクもあることから、簡単で確実な生体認証を導入するケースが増加している。

　また、コンビニエンスストアなどの小売店や飲食店などにおいては、キャッシュレス決済が普及しつつある。キャッシュレス決済は、その場で現金を支払う煩わしさがないため利便性が高く、様々なポイントサービスとの連携により顧客の購買を促進できるため、店舗側の導入メリットも大きい。このようなキャッシュレス決済として生体認証を利用すると、カードなどを持ち歩く必要が無く、また確実にその本人であることが確認できることから、便利で効果的なサービスを提供できる。

　このように、不正アクセスの抑制やキャッシュレス決済の実現に際して生体認証を導入するメリットは高いものの、専用の生体認証装置が追加で必要となると導入コストが高まるため普及を妨げている。

　そこで、スマートフォンやノートＰＣなどに搭載されている汎用のカメラで撮影された生体の映像を用いて生体認証が実施できれば生体認証の導入障壁を下げることができる。さらに、認証操作が非接触で実施できれば、昨今の社会問題である感染症拡大のリスクも下げられることから、安心して導入、利用できると考えられる。

　生体による本人認証は、指、手、顔などの利用者自身の生体を認証端末にかざし、事前に登録した生体情報との照合を経て登録者本人であることを確認する。登録者として認証された場合にのみログインや決済などを実施するものである。特に、様々な生体認証技術の中でも、指静脈をはじめとする生体内部の特徴に基づく生体認証は高精度な認証を実現できるものとして知られている。指静脈認証は、指内部の複雑な血管パターンを使用するため優れた認証精度を実現し、かつ指紋認証に比べて偽造及び改ざんが困難であることによって、高度なセキュリティを実現できる。

　汎用カメラを用いた生体認証は、生体の撮影に特化した専用センサによる生体認証と比較して好適な条件での撮影が難しく、画質の劣化により認証精度が低下する傾向にある。この精度劣化を補う技術として、複数の生体情報を利用することで認証精度を向上させるマルチモーダル生体認証技術が有効である。基本的には、同時に撮影することが比較的容易であり、各々の生体特徴の相関あるいは撮影条件の相関が低い複数の生体特徴を組み合わせ、各々の生体特徴で互いに相補的な役割を担うことで効果的に認証精度を高めることが可能となる。

　汎用カメラを用いたマルチモーダル生体認証の一つとして、顔と手指の生体情報をフロントカメラにかざす方式が提案されている。従来では、顔を撮影した後に指を撮影する方式や、顔をかざす位置と指をかざす位置とをそれぞれ別途設けて同時に撮影する方式がある。

　前者は撮影時間が長く掛かる傾向があり、また後者は同時に生体をかざす操作の難しさが課題となる。特に、後者においては手指を所定の位置にかざすために画面をのぞき込んだ結果として顔が傾いてしまったり、あるいはかざした手指が顔を遮蔽してしまったりする場合がある。

　このように、複数の生体を同時にかざすマルチモーダル生体認証を実現するためには、生体のかざされる姿勢の変動や遮蔽の影響を受けにくい認証技術を提供することが課題となる。

　また、複数の生体を利用することから演算時間が長くなる傾向にあるため、できるだけ高速に認証処理が実施できることが望まれる。

　顔および指紋の照合を同時に実施するマルチモーダル認証技術として特許文献１がある。また、顔と指紋を認証に用いながらも顔の映像の平面度を計測する技術として特許文献２がある。

特開２００９－２０７３５号公報特開２００４－６２８４６号公報

　複数の生体を同時に提示するマルチモーダル生体認証においては、姿勢変動や遮蔽によって状態の良好な生体特徴の撮影が困難となる場合があり、認証精度が劣化する課題がある。また、複数の生体特徴を処理する必要があるため認証時間が長くなる課題もある。

　特許文献１では、顔データを用いて顔の照合を行う第１フェーズと、指の照合と顔の撮影を行う第２フェーズとを有し、第２フェーズでは指照合処理と平行して顔画像を撮影しながら顔画像の顔の向き(上下左右)を検出する技術が開示されている。しかしながら特許文献１では第２フェーズでの顔画像撮影は顔認証ではなくジェスチャー判定に用いており、マルチモーダル認証の精度向上や高速化に関する課題を解決する技術についての言及はない。

　特許文献２では、指紋センサに指を置いたタイミングで顔に向けて撮影用照明を点灯し、カメラにて顔を撮影する。顔認証の各特徴量と指紋認証の各特徴量を同じカテゴリーにし、最小距離による識別法等を使って個人認証を行う技術が開示されている。特許文献２では、顔と指紋とを用いた高精度なマルチモーダル生体認証を実施する観点について開示されているものの、指紋センサが必要となることに加え、姿勢変動を抑制することで精度向上を図る技術に関する言及はない。

　上述した問題点は、顔と手指のマルチモーダル生体認証に限らず、虹彩、耳介、顔静脈、結膜下血管、掌静脈、手の甲静脈、掌紋、指内外の関節紋、指背面の静脈、などの様々な生体についても同様のことが言える。このように従来技術では、様々な生体を用いたマルチモーダル生体認証において、姿勢変動や遮蔽により正しく生体が観測できず、認証精度の低下を招く課題がある。

　本発明は、マルチモーダル生体撮像時の姿勢変動や遮蔽が生じる場合でも、高精度かつ高速な認証を実現することが可能な生体の認証システムおよび生体認証方法を提供することを目的とする。

　本発明の生体認証装置の好ましい例では、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、生体を撮影する撮影装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、前記撮影装置は、第１の期間で、第１の利用者の第１の生体を撮影し、前記第１の期間とは異なる第２の期間で、第１の利用者の第２の生体及び第３の生体とを撮影する。前記認証処理装置は、前記第１の期間において撮影した第１の生体から第１の特徴量を算出し、前記第２の期間において撮影した第２の生体及び第３の生体から、第２の特徴量と第３の特徴量をそれぞれ算出し、前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第１の特徴量、前記２の特徴量及び前記第３の特徴量とを照合することで利用者の認証を行う。

　本発明によれば、複数の生体を同時に提示するマルチモーダル生体認証における生体撮像時の姿勢変動や遮蔽が生じる場合でも、高精度な認証を実現することが可能となる。

実施例１に係る、生体認証システムの全体の構成を示す図である。実施例１に係る、メモリに格納されているプログラムの機能構成の一例を示す図である。実施例１に係る、汎用フロントカメラによるマルチモーダル生体認証装置の構成を示す概略図である。実施例１に係る、生体認証システムの登録処理部の処理フローの一例を示す図である。実施例１に係る、生体認証システムの認証処理部の処理フローの一例を示す図である。顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。実施例１に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。実施例１に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。実施例１に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。実施例１に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。実施例１に係る、顔の特徴量のバッファリングと選択処理の一手法の説明図である。実施例１に係る、顔と指の特徴量のバッファリングと選択処理の一手法の説明図である。実施例１に係る、顔と指の特徴量による特徴ペア生成の一手法の説明図である。実施例１に係る、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例を示した説明図である。実施例１に係る、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例を示した説明図である。実施例２に係る、顔および指を単体で照合できる生体認証システムの認証処理部の処理フローの一例を示す図である。実施例２に係る、顔または手指の処理を割愛したマルチモーダル生体認証技術の一例を示した説明図である。

　以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

　図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。

　また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）および／またはインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路（例えばＦＰＧＡ（Field-Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit））を含んでいてもよい。

　なお、本明細書において、生体特徴とは、指静脈、指紋、関節模様、皮膚模様、指輪郭形状、脂肪小葉紋、各指の長さの比率、指幅、指面積、メラニン模様、掌静脈、掌紋、手の甲静脈、顔静脈、耳静脈、あるいは顔、耳、虹彩、などの解剖学的に異なる生体の特徴を意味する生体情報である。

　図１Ａは、本実施例において生体特徴を用いた生体の認証システム１０００の全体の構成の一例を示す図である。尚、本実施例の構成は認証システムとしてではなく、全てまたは一部の構成を筐体に搭載した認証装置としての構成としてもよいことは言うまでも無い。認証装置は、認証処理を含めた個人認証装置としても良いし、認証処理は装置外部で行い、指の画像の取得に特化した指画像取得装置、指の特徴画像抽出装置としてもよい。また、端末としての実施形態であってもよい。

　少なくとも、認証装置は、生体を撮影する撮像部と、撮影された画像を処理し、生体の認証を行う認証処理部を備える構成を生体認証装置と、生体を撮影する撮像部とをネットワークで接続され、認証処理を行う装置であり、認証装置を含むシステムを生体の認証システムあるいは生体認証システムと呼び。生体認証システムは、生体認証装置や生体認証システムを含む。

　図１Ａに示す本実施例の生体の認証システム１０００は、撮像部である入力装置２、認証処理装置１０、記憶装置１４、表示部１５、入力部１６、スピーカ１７及び画像入力部１８を含む。入力装置２は、筐体内部に設置された撮像装置９を含み、その筐体に設置された光源３が含まれていても良い。認証処理装置１０は画像処理機能を備える。

　光源３は、例えば、ＬＥＤ（Light Emitting Diode）などの発光素子であり、入力装置２に提示された利用者の一定領域の生体として、顔４および指１に光を照射する。光源３は実施形態によって様々な波長が照射できるものであっても良く、また生体の透過光を照射できるものであっても良く、また生体の反射光を照射できるものであっても良い。

　撮像装置９は、入力装置２に提示された指１および顔４の画像を撮影する。なお、同時に虹彩、手の甲、掌などの生体を撮影しても良い。撮像装置９は、単一あるいは複数の波長の光を撮影できる光学センサであり、モノクロカメラであってもカラーカメラであってもよく、可視光に加えて紫外光あるいは赤外光が同時に撮影できるマルチスペクトルカメラであってもよい。また被写体の距離が計測できる距離カメラでもよく、また同じカメラを複数組み合わせたステレオカメラの構成でも良い。

　入力装置２は複数の撮像装置を含んでいても良い。さらに、指１は複数本であっても良く、両手の複数指を同時に含んでも良い。

　画像入力部１８は、入力装置２内の撮像装置９で撮影された画像を取得し、取得した画像を認証処理装置１０へ出力する。画像入力部１８としては、例えば、画像を読み取るための各種リーダ装置(例えば、ビデオキャプチャボード)を用いることができる。

　認証処理装置１０は、例えば、中央処理部（ＣＰＵ）１１、メモリ１２、及び種々のインターフェイス（ＩＦ）１３を含むコンピュータから構成される。ＣＰＵ１１は、メモリ１２に記憶されているプログラムを実行することによって認証処理などの各機能部を実現する。

　図１Ｂは、認証処理装置１０の各機能を実現するために、メモリ１２に格納されているプログラムの機能構成の一例を示す図である。

　図１Ｂに示すように、認証処理装置１０は、個人の生体特徴を個人ＩＤと紐づけて予め登録する登録処理部２０、撮像して抽出した生体特徴を登録されている生体特徴に基づいて認証して認証結果を出力する認証処理部２１、入力された画像に対して生体の位置検出や不要な背景の除去などを行う生体検出部２２、提示された生体を適切な条件で撮影する撮影制御部２３、生体が撮影された画像の画質や生体の姿勢などの品質を判断する品質判定部２４、登録処理や認証処理の際に生体の姿勢を適切に補正して生体特徴を抽出する特徴抽出部２５、生体特徴の類似度を比較する照合部２６、複数の生体特徴の照合結果から認証の結果を判定する認証判定部２７、の各種処理ブロックを含む。これらの各種処理については後で詳述する。メモリ１２は、ＣＰＵ１１によって実行されるプログラムを記憶する。また、メモリ１２は、画像入力部１８から入力された画像などを一時的に記憶する。

　インターフェイス１３は、認証処理装置１０と外部の装置とを接続する。具体的には、インターフェイス１３は、入力装置２、記憶装置１４、表示部１５、入力部１６、スピーカ１７、及び画像入力部１８などと接続するためのポート等を有した機器である。

　また、インターフェイス１３は、通信部として機能し、認証処理装置１０が通信ネットワーク（図示せず）経由で外部の装置と通信を行うためのものである。通信部は、通信ネットワークが有線ＬＡＮであればＩＥＥＥ８０２．３規格に則った通信を行う装置であり、通信ネットワーク３０が無線ＬＡＮであればＩＥＥＥ８０２．１１規格に則った通信を行う装置である。

　記憶装置１４は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）から構成され、利用者の登録データなどを記憶する。登録データは、登録処理時に得られ、利用者を照合するための情報であり、利用者毎に複数の生体の特徴量を対応付けて記憶される。例えば、利用者識別情報として登録者ＩＤに紐づけられた顔の特徴量、指の特徴量や指静脈パターンなどの画像や生体特徴のデータである。

　指静脈パターンの画像は、指の皮下に分布する血管である指静脈を暗い影のパターンもしくはやや青み掛かったパターンとして撮影した画像である。また指静脈パターンの特徴データは、静脈部分の画像を２値ないし８ビット画像に変換したデータ、あるいは静脈の屈曲部、分岐、端点などの特徴点の座標もしくは特徴点周辺の輝度情報から生成した特徴量からなるデータ、あるいはそれらを暗号化して解読できない状態に変換したデータ、である。

　表示部１５は、例えば、液晶ディスプレイであり、認証処理装置１０から受信した情報および生体の姿勢誘導情報および姿勢判定結果を表示する出力装置である。

　入力部１６は、例えば、キーボードやタッチパネルであり、利用者から入力された情報を認証処理装置１０に送信する。なお、表示部１５はタッチパネルなどの入力機能を有していても良い。スピーカ１７は、認証処理装置１０から受信した情報を、例えば音声などの音響信号で発信する出力装置である。

　図２は、本実施例で説明する汎用フロントカメラによるマルチモーダル生体認証装置の構成を示す概略図である。ここでは利用者がノートＰＣにログインする際に、顔と左手の指の生体特徴を用いたマルチモーダル生体認証を行う例として説明する。

　利用者は、ノートＰＣでの作業を行うにあたり、ＰＣにログインするための認証機能を起動する。このとき、利用者はノートＰＣ４１の正面に位置することが多く、また一般的なノートＰＣ４１では利用者の顔４を撮影しやすくするため、カメラ９がディスプレイ４２の上部に設置される。カメラ９は、ディスプレイ４２の前面付近を撮影できるよう、すなわち利用者の顔４や左手４５が全体的に撮影されるよう、設置されている。これにより、利用者の顔４がカメラ９の映像の画角の中央付近に撮影される。

　認証システムは、カメラ９を起動して利用者の生体特徴を撮影するが、利用者がどのように生体をかざせば良いかを把握しやすくするため、カメラ９によって撮影された映像をディスプレイ４２に表示すると共に、顔ガイド４３および指ガイド４４をディスプレイ４２にオーバレイした映像であるプレビュー画像４７を表示することができる。ただし、生体を任意の位置にかざしても認証が実施できる場合など、特にガイドを表示する必要がない場合ではガイド表示を割愛してもよい。必要に応じてガイドを表示することで利用者の認証操作が容易となり利便性を向上する効果が得られる。

　利用者は、このプレビュー画像４７を見ながら表示されたガイド位置に顔４と左手４５および指１を合わせる。このとき、それぞれの生体を提示することを利用者に明示するため、ガイドメッセージ４６をプレビュー画面上に表示しても良い。認証システムは、生体が提示されたことを検知すると複数の生体特徴に基づき認証を行い、予め登録されている利用者であると判定できた場合は、ノートＰＣ４１をログイン状態に遷移させる。以下、登録および認証の具体的な方法について詳述する。

　図３、および図４は、それぞれ本実施例で説明する複数の生体特徴を用いたマルチモーダル生体認証技術の登録処理と認証処理の概略フローの一例を示す図である。

　この登録処理と認証処理は、例えば、上述した認証処理装置１０のＣＰＵ１１が実行するプログラムによって実現される。なお、本実施例では利用者の顔および左手の４本の指を撮影することを前提として説明するが、顔については顔全体ではなく顔の部分的な特徴であってもよい。また指に関しては１本の指あるいはそれ以外の任意の指の本数であっても、複数の手の指であってもよい。また顔および指以外の一般的に広く知られている虹彩、静脈、指紋、掌紋など、任意の種類の任意の数の生体特徴であってもよい。

　初めに、図３の登録処理の流れについて説明する。

　利用者による登録処理の指示により登録処理部２０が起動され、まず、認証システムは、利用者に生体を登録する旨を説明するプレビュー画像を表示部１５に表示する（Ｓ３０１）。利用者は、表示されたプレビュー画像により、登録処理に一連の流れを把握することができる。プレビュー画像により、利用者は、顔および指を４本かざす理想的なかざし方やかざす手順や「はじめに顔を撮影し、続いて左手の４本指をかざします」などの文章を示すことで、登録処理の流れを説明する。これにより、登録操作の誤りを減らすことができる。

　また、自分がカメラで撮影されていることを視認できるよう、現在のカメラ映像をプレビュー画像として表示部１５に表示する。表示は全画面に対して行っても良く、画面の一部分に小さく表示しても良い。このとき、利用者の左右と画像の左右が一致するよう、カメラ映像を左右反転して表示することで利用者が自身の生体をかざしやすくなる。

　次に、顔の特徴量の登録を行う前処理である顔検出処理を行う（Ｓ３０２）。その一実施例として、予め顔画像と顔の位置および顔の器官（顔のパーツあるいはランドマーク)の位置との関係性を学習した深層ニューラルネットワークを用意し、このネットワークに顔画像を入力して、顔を含む矩形の顔領域（バウンディングボックス）もしくは顔ＲＯＩ画像（ROI：Region of Interest）を獲得する技術を利用することができる。顔のランドマークは例えば目の中心、目頭や目尻の先端、まぶたの縁（アイライン）、鼻先、口の左右の口角、眉間の中心位置、などから構成されろ。また、これらを包含する矩形を顔領域と定義することができる。本実施例では、利用者が生体特徴として顔を撮影していることを認識することなく、顔に関する生体特徴を登録する。図２に示したようなＰＣにログインする場合など、通常、利用者はＰＣの正面に位置することが多く、利用者が意識することなく、顔の生体特徴が登録できる。但し、顔の検出が実施されていることが利用者に分かるよう、プレビュー画像の上に重畳して顔のバウンディングボックスの枠を表示しても良い。また「顔を正面に向けてください」などのガイドを表示しても良い。さらには顔の輪郭を模した顔ガイドを表示し、現在顔を撮影するフェーズであることや顔をかざす場所を視覚的に理解出るようにしても良い。

　次に、撮影制御部２３を起動して、カメラの露光時間やゲイン、ホワイトバランス、フォーカスなどのカメラパラメータを適切に調整しながら顔を撮影する、顔の撮影制御を実施する（Ｓ３０３）。ここでは、検出された顔ＲＯＩ画像の内部に白飛びや黒潰れが生じないようにカメラの露光時間を調整したり、カメラの焦点が顔に合うようにフォーカスを調整したりする。

　また、画像全体の平均色が環境照明の色であることを仮定した灰色仮説などの手法に基づき、画像全体のホワイトバランスを自動調整する。なお、露光時間の調整についてはカメラの露光時間を調整しても良いが、複数の連続する画像フレームの画素値を重み付け積分するなどでソフト的に露光時間を調整しても良い。ソフト的な露光調整手法では、画像の露光を部分的に補正することができるため、例えば顔と複数の手指のそれぞれの生体を独立して最適に露光補正できる利点を有する。

　次に、獲得した顔ＲＯＩ画像を正規化する（Ｓ３０４）。正規化の一実施例として、顔の大きさ（顔ＲＯＩの面積など）が一定になるように拡大縮小を行う、顔の向きを正面向きに補正するため透視投影変換によって正面顔を疑似的に生成する、顔の明るさが一定値になるように定数を乗算する、などがある。この正規化は、後段で実施する顔の特徴抽出の結果を安定させるために行う前処理となる。

　続いて、顔の特徴抽出を実施する（Ｓ３０５）。顔の特徴抽出の一例として、顔ＲＯＩ画像を入力として任意の固定長特徴ベクトルを出力する深層ニューラルネットワークを用いる。この深層ニューラルネットワークに対し、同一の顔である複数の顔ＲＯＩ画像から得られる特徴ベクトルのＬ１距離が互いに最小化され、かつ異なる顔である顔ＲＯＩ画像から得られる特徴ベクトルに対するＬ１距離が最大化されるように学習を行う。深層ニューラルネットワークを用いて顔ＲＯＩ画像から特徴ベクトルを獲得する。

　これによると、同一の顔画像から獲得される特徴量は互いにＬ１距離が小さく、別の顔画像から得られる特徴量はＬ１距離が大きく変換される。そのため、顔画像が同一か否かをパターン間の距離（相違度）によって評価できるようになる。ここではＬ１距離について記載したが任意の距離空間でも良く、一般的に本人と他人とを分類するためには特徴量の距離学習が行われる。広く知られている具体的な手法としては、ＴｒｉｐｌｅｔＬｏｓｓを用いる手法や、一般的なクラス分類問題を学習させるだけで距離学習が実現できるＡｒｃＦａｃｅなどの手法を用いることができる。

　次に、顔画像の品質値を算出する（Ｓ３０６）。顔画像の品質値の具体的な算出方法の一実施例として、顔の大きさ、顔領域の明るさ、顔の向き、顔の表情、顔の移動速度、顔画像から抽出される顔特徴量の時間的変動、の各項目を数値化し、これらの重み付け和に基づいて判定される。顔の大きさは上述の顔ＲＯＩ画像の大きさであり、これが小さい場合は顔が十分な大きさで撮影されていないと判断できるため品質値を小さくする。

　また、顔の明るさは正規化前の顔ＲＯＩ画像の平均輝度から求められ、想定より暗い場合、あるいは明るすぎる場合、あるいは白飛び画素が多いなどは品質値が低いと判断できる。

　また、顔の向きは上述の顔のランドマークに対し、平均的な正面顔で生じるランドマーク位置を基準として３次元的な回転角を推定し、顔のピッチング回転角、ローリング回転角、ヨーイング回転角の重み付け総和が０に近い場合は品質が高いとし、値が大きい場合は正面顔ではないとしてその品質値が低いと判断する。

　また、顔の表情については無表情であることが理想的であるとし、一般的な機械学習手法によって笑顔度などを算出し、無表情であるほど品質値が高まるようにする。

　顔の移動速度は時間的に前後するフレーム画像の顔ＲＯＩの中心点の移動量が大きい場合は顔が静止していないため品質値が低いと判定する。顔特徴量の時間的変動については、上述の通り顔ＲＯＩ画像から顔の特徴量を抽出し、時間的に前後するフレーム画像に対する顔特徴量の類似度を総当たりで判定し、そのバラつきが大きい場合は抽出される特徴量が不安定であるとして顔画像の品質値が低いと判断する。

　これらの各評価項目についてそれぞれ数値化を行い、重み付けによって合計して値を融合し、これを顔画像の最終的な品質値として獲得する。

　また、別の手法として、時系列に並べられた複数の顔ＲＯＩ画像を入力とし、任意のスカラ値を出力とする深層ニューラルネットワークを用いる。この深層ニューラルネットワークに対し、同一顔同士の顔の特徴量の距離が大きい傾向にある顔ＲＯＩの時系列画像が入力された場合には、スカラ値として低い値（例えば１０）を出力し、逆に距離が小さい傾向にある場合は高い値（例えば１０００）を出力するように学習を行う。これにより、認証に成功する傾向の高い顔ＲＯＩの時系列画像が入力された場合に高い値を獲得できる。このように獲得した値は認証に好適であるほど高い値になるため、品質値として利用できる。この方式では前述のような各評価項目を人手で列挙する必要がないため開発効率が高められ、かつ品質値と認証成功の相関を高め易い利点がある。

　なお、顔の品質値の評価項目の中に、瞬きを検出する項目を含めても良い。顔画像を撮影する前に、「何度か瞬きをしてください」などのガイダンスを表示した上で一定時間瞬きを行う時間を設け、その期間中に瞬きが検出できたと判定された場合は本物の顔であることとして品質値を上昇させ、そうでない場合は印刷物などの偽物の顔であるとして品質値を低下させる。これにより、少なくとも瞬きが実施できない偽物の顔画像は品質値が低いものとして棄却することが可能となる。

　次に、顔の登録判定を行う(Ｓ３０７)。顔画像の品質値は画質や顔の姿勢が登録や認証に適していることを判断する基準となるため、この品質値によって現在獲得している顔の特徴量の登録の適合不適合を判定できる。そのため、顔画像の品質値に対して所定の閾値を設け、これを超えた場合に登録可能と判定することができる。

　ただし、偶発的に品質値が高まってしまった場合にそのデータを登録すると認証が不安定となる場合があるため、連続で所定の閾値を超えた場合、あるいは現時点の顔画像の品質値を時間的に積分していき一定値を超えた場合に、顔の特徴量を登録可能と判定しても良い。

　このとき、顔の品質値が所定の閾値を超えた特徴量が複数生じるが、最終的な登録データの決定方法の一例として、最も品質値の高いものを選択する方法、あるいは、それぞれの特徴量を総当たりで照合した際に、最も相違度の合計が低いものを登録する方法がある。後者の方法では、顔画像の画質や顔の姿勢などに揺らぎが生じた場合でも平均して最も安定に認証できる特徴量を選択することになるため、認証精度が向上する利点がある。

　次に、登録判定によって顔の登録データが獲得できたかを判定する（Ｓ３０８）。前段の登録判定において登録データが一意に決定できなかった場合は、再度顔の検出からやり直す。顔の登録データを決定した場合は、それを一時的にメモリ等に記憶しておき次のステップである指の登録へと移る。なお、図示はしていないが、登録処理にタイムアウト時間を設定し、その時間が経過してもなお顔の登録データが獲得できなかった場合は登録失敗（Ｓ３２１）へと遷移して処理を抜けても良い。

　続いて指の登録を実施する。まず、図６Ｃに示すように、画面上に利用者のカメラ映像であるプレビュー映像にオーバレイする形で指ガイドを表示する(Ｓ３０９)。利用者は画面に映る指ガイドと自身のプレビュー映像を確認しながら、指ガイドに合わせるよう左手をかざす。このとき「左手をかざしてください」などのガイドメッセージを表示しても良い。

　次に指の検出処理を行う(Ｓ３１０)。指の検出処理では、まず指と背景とを分離し、次に指単位で指を切り出す指のＲＯＩ画像を獲得する。背景分離処理の一例としては、指をかざしたカメラ画像を入力として指領域だけが１でそれ以外が０となる指のマスク画像を出力する深層ニューラルネットワークに対し、あらゆる入力画像に対して正しく指のマスク画像が出力されるように学習を行い、そのネットワークによって指のマスク画像を獲得して背景をマスクする（除去する）方法がある。

　また、指単位で指を切り出す指のＲＯＩ画像の獲得の一手法として、上述の顔のランドマーク検出手法と同様に、指先や指根元、指の関節といった指のランドマークを抽出できる深層学習に基づき指を矩形に切り出すことができる。

　その後、指の撮影制御を行う（Ｓ３１１）。ここでは指のＲＯＩ画像の領域内が適切な明るさで、かつ適切なホワイトバランスや適切なフォーカスに制御することを除けば上述の顔の撮影処理と同様の処理となるため説明を割愛する。

　続いて、指画像の正規化を行う（Ｓ３１２）。指画像の正規化の一例としては、指の太さや３次元的な傾きを透視投影変換に基づいて一定値に補正する方法や、また上述のように顔の正規化で実施したランドマークに基づく方法で補正しても良い。例えば、検出されたすべての指の太さと向きとを正規化する姿勢補正処理として、各指の指先の点および両側面の指股の２点を内部に含み、かつ指の中心軸が画像の横軸と平行となるように回転し、かつ各指の指幅が一定値となるように拡大縮小した画像を生成するものとする。これにより、すべての指のＲＯＩ画像に映る画像上の指の向きと太さとが統一化される。

　続いて、特徴抽出部２６を起動して、指の特徴抽出を行う（Ｓ３１３）。指の特徴抽出は上述の顔の特徴抽出と同様に実施できる。なお、指の特徴量としては、指静脈、指紋、関節紋、表皮紋、メラニン紋、脂肪紋、などをそれぞれ独立して抽出してもよく、それらが混合していても良い。

　また、別の特徴抽出方法としては、一般的なエッジ強調フィルタ、ガボールフィルタ、マッチドフィルタなどのフィルタリング処理により、表皮や血管の線パターン特徴や、脂肪小葉の斑点特徴などの生体特徴を強調し、その結果を２値化あるいは３値化するなどで生体特徴を獲得することができる。あるいはＳＩＦＴ（Scale-Invariant Feature Transform）特徴量などのキーポイントから輝度勾配特徴を抽出する手法で獲得しても良い。いずれにしても、画像から生体特徴を抽出し、それらの互いの類似度を算出できるいかなる特徴量であっても良い。

　次に、指画像の品質値の算出を行う（Ｓ３１４）。指画像の品質値算出の一例として、指の映像の中から複数の指の指先、指根元、指幅の情報を取り出す指姿勢検知を行い、その時の指の姿勢が適正かどうかを判定する方法がある。指の姿勢判定では、指姿勢検知の結果に基づき、表示した指ガイドから大幅にずれていないことを確認するなどにより指が適切な位置に存在していることや、指が一定時間静止していることを評価項目とする。

　指静止検知の一実施例として、指先の位置などの指姿勢情報が時間的に変化しないことを確認すればよい。なお、指を完全に静止することは困難であるため、ある一定の移動量の範囲に収まっている場合は指静止されていると判定しても良い。それでもなお、指が静止していない場合や指の見え方が遠すぎる場合(カメラから指が離れていて、手が小さく見える場合)など、適切な姿勢ではない場合はその旨をガイド表示し、図示は省略するが、改めて指の提示を促す処理（Ｓ３０９）に戻ってもよい。

　また、この処理の中で抽出されたパターンが適切なものであることと、撮影された指が異物や偽造物ではないことを検出するデータ適正判定を実施しても良い。もしこの判定結果が不適正である場合は品質値を大きく低下させ、候補として選択されないようにする。データ適正判定処理の一実施例としては、血管パターンのような線特徴でありながらも連続性の高いパターンが抽出できなかったり、あるいは本物の指では観測されることのない強いエッジが原画像から観測されたりした場合は、パターンの抽出に失敗したか、あるいは偽造物が入力されたとして棄却することができる。あるいは、指の血流の変化に伴う画像輝度の脈動を動画像から検知し、脈動が検出できない場合は棄却する方法であっても良い。

　続いて、指の登録判定を行う（Ｓ３１５）。この判定は上述の通り指画像の品質値に基づいて実施するが、その方法は上述の顔画像の品質値に基づく方式と同様に実施できる。

　そして、これら(Ｓ３０９～Ｓ３１５)を繰り返して登録候補が３回分蓄積されたかどうかを判定し（Ｓ３１６）、３回蓄積された場合は登録選択処理を行う（Ｓ３１７）。尚、登録候補の数は、３回に限定されるものではない。

　登録選択処理の一実施例としては、３回分の登録候補の特徴データを総当たりで照合して各候補間の類似度を算出し、他の候補との２件の類似度の合計が最も高い１つの登録候補を登録データとして選択する手法がある。この手法によると３回撮影したなかで最も再現されやすい安定した特徴データが登録されるため、認証精度が向上する。

　ただし、このとき選択された登録データと他の候補との２件の類似度が両方とも同一パターンと認められない値だった場合は、３回分の登録候補がいずれも不安定な生体特徴であったものとみなし、登録データが決定しなかったものとする。そして登録に適したとされる１つの特徴データが決定したかどうかを判定し（Ｓ３１８）、決定した場合はそのときの指の特徴データと前段で取得した顔の特徴データとを、登録処理の開始時に登録者により入力された登録者ＩＤに紐づけて生体特徴の登録データとして記憶装置１４に保存し（Ｓ３１９）する。一方、決定しなかった場合は、タイムアウトまで処理を繰り返し（Ｓ３２０）、タイムアウトとなった場合は登録に失敗した状況を報告して終了する（Ｓ３２１）。

　続いて、図４の認証処理の流れについて説明する。認証処理は、既に、登録処理によって個人の生体特徴を登録している利用者（基本的に認証処理中において同一の利用者であることが前提である）が、生体認証システム１０００に登録本人であることを認証させる処理である。

　認証処理は、利用者が提示した生体を撮像して、生体の特徴量を抽出して、登録データの各特徴データと照合して、本人と判定できる登録データが在る場合は認証成功結果と登録者ＩＤを出力し、本人と判定できる登録データが無い場合は認証失敗通知を出力する。

　利用者による認証処理の指示により認証処理部２１が起動され、認証が開始された旨を表示するプレビュー画像を表示（Ｓ４０１）する。例えば「左手の撮影を開始します」と表示する。利用者は、表示されたプレビュー画像により、認証処理に一連の流れを把握することができる。

　認証では顔と手を撮影するが、前述の図２にて記載した通り、利用者はノートＰＣなどの端末の正面に位置することが多いため、顔の撮影は利用者が特に撮影を意識することなく実施できるため、利用者には左手の撮影のみをガイダンスすることができる。これにより利用者は左手をかざす準備を予め行うことができ、スムーズに生体認証が実施できる。また、登録処理と同様にカメラのプレビュー画像を表示する。

　次に、予め定めた一定時間の間、顔の検出処理（Ｓ４０２）から顔画像の品質値の算出（Ｓ４０６）を行う。これらの処理は図３の登録処理の顔の検出処理（Ｓ３０２）から顔画像の品質値の算出（Ｓ３０６）と同様であるため説明を割愛する。

　そして、予め定めた一定の基準を上回る顔画像の品質値を有する顔特徴量を、認証処理装置１０のメモリ１２（バッファ）に記録する（Ｓ４０７）。そして、ここまでの処理を一定時間だけ繰り返す（Ｓ４０８）。なお、これらの処理中も前述のガイド文の表示は引き続き実施してもよい。

　この一連の処理（Ｓ４０２からＳ４０８）は、顔単体の撮影に係る処理であり、ここでは、第１の期間として「顔単体撮影フェーズ」と呼ぶ。

　なお、ここでは顔単体撮影フェーズを一定時間としたが、高品質値の顔特徴量がバッファ内に一定の数だけ集まったり、あるいは顔単体で登録データと照合して成功した時点でこのフェーズを抜けたりしても良い。ただし一定時間とする利点として、仮に品質値の高い顔特徴量が得られるまでループを繰り返すとした場合、品質値が高まりにくい環境で撮影が進められると、このフェーズを抜けるための時間が掛かりすぎる場合があり認証の遅延が生じる。これに対し、このフェーズを一定時間に限定すると遅延しにくくなる利点がある。さらに、品質値の高低によって当該フェーズを抜ける時間が変わると品質値が推測されてしまう可能性があるが、これは偽造物の作成に悪用される場合があるため、これを防止することができる点も利点となる。

　次に、例えば、図６Ｃに示すように、指をかざすことを促す指ガイドの表示（Ｓ４０９）を行い、続いて顔と指の検出処理（Ｓ４１０）から顔画像と指画像の品質値の算出（Ｓ４１４）を行う。これらの処理は図３の登録処理あるいは図４の顔単体撮影フェーズとほぼ同様であり、ここでは顔と指の両方の生体特徴に対して処理する点だけが相違となるため説明を割愛する。

　続いて、顔の特徴量を、認証処理装置１０のメモリ１２（バッファ）にバッファリング（記憶）し、記憶された顔の特徴量の選択処理を行う（Ｓ４１５）。ここでは図３の登録処理と同様、一定上の品質値となった顔の特徴量をバッファリングすると共に、後段で実施する照合処理に利用する顔の特徴量をバッファ内から選択する。

　選択方法の一実施例については後に図７を用いて詳述する。いずれにしても、バッファ内の顔の特徴量のうち認証に成功しやすいものを優先的に選択できれば、早い段階で認証に成功させることが可能となる。

　また、バッファリングされた顔の特徴量のうち顔単体撮影フェーズで撮影されたものは後述の通り顔の姿勢が比較的正面を向きやすく、また手がかざされる前段階であるため遮蔽による顔画像の欠落が生じにくいため、手と顔を同時にかざすときの顔画像を利用するよりも高品質の顔画像が選択されやすい利点がある。

　その後、顔と指の品質値が共に十分高いことを確認するが（Ｓ４１６）、いずれの品質値が一定値より低い場合は再度顔と指の検出処理（Ｓ４１０）からやり直し、認証処理での利用に適した顔および指の特徴量が得られるまで繰り返す。この繰り返し区間を、第２の期間として「マルチ撮影フェーズ」と呼ぶ。「顔単体撮影フェーズ」と「マルチ撮影フェーズ」の顔の特徴量は、同一利用者の同一領域について異なるタイミングで算出したものである。「マルチ撮影フェーズ」における、指の特徴量は、同一利用者の顔とは異なる領域として指の特徴量を算出したものである。

　「顔単体撮影フェーズ」と「マルチ撮影フェーズ」の顔特徴量は、顔を撮影した画像から得られる値である。例えば、撮影した画像が１秒当たり３０フレームの動画の場合、１秒当たり、３０の顔特徴量を算出することができる。「マルチ撮影フェーズ」の指特徴量についても同様である。

　顔および指の画像の品質値が共に高いことが確認されると、顔の特徴量と指の特徴量の融合を行うと共に、照合部２６を起動して、図４に示した処理により獲得した顔の特徴量と指の特徴量の認証データと、予め記憶装置１４に登録されている１件以上の登録データ(通常、複数の登録者が登録されていることを想定する)とを順次照合して照合スコアを獲得する（Ｓ４１７）。

　照合処理は、内部で指特徴量と顔特徴量を分離し、それぞれ登録された各特徴量との相違度として照合スコアを算出し、最後にそれらの照合スコアを重み付け総和した結果として獲得しても良く、また指特徴量と顔特徴量を分離することなく登録データと照合しても良い。また、生体の特徴量を例えばＰＢＩ（Public Biometric Infrastructure）の技術によって暗号化された特徴量に変換した情報に基づき登録データとの一致を確認しても良い。照合スコアは、スカラ値でもベクトル値でもよく、またその値は２値でも多値でも良い。

　最後に、算出された照合スコアに基づき認証判定を行う（Ｓ４１８）。判定の一実施例として、顔特徴量単体の照合スコアと指特徴量の照合スコアとをそれぞれ獲得し、それぞれの照合結果（相違度）がいずれも登録者との類似性が認められる閾値を下回る場合に最終的に登録者本人であると判定するＡＮＤ判定に基づく決定レベル融合判定を行う方法がある。

　この判定方式では、両方の生体特徴がいずれも登録者と類似していることを要請するものであり、非登録の他人を誤って登録者と判定する他人受入率を低減する効果がある。

　また同様に、顔と指の照合スコアのいずれかが登録者との類似性が認められる閾値を下回る場合に登録者本人と判定するＯＲ判定に基づく決定レベル融合判定とすることもできる。この場合はいずれかの生体で認証に成功すれば良いことから、本人が誤って棄却される本人拒否率を低減することが可能となる。

　これらは認証システムのセキュリティポリシーに応じて任意に設定できる。また、各生体の照合スコアを線形結合するスコアレベル融合判定としても良く、さらには各生体の照合スコアを２次元照合スコアベクトルとして扱い、多次元空間に閾値の境界超平面を定義し、前記照合スコアベクトルが本人と判定できる領域に含まれるならば登録データと類似していると判定しても良い。特にベクトルとして扱う方式は認証閾値を柔軟に設定することができ、各生体の照合スコア同士の相関がある場合はその相関に応じた境界を定義できるため、高精度な認証判定を実現することが可能である。

　なお、指の照合処理では、抽出された表皮特徴および静脈特徴についてそれぞれ登録データ(１件の登録データの表皮特徴および静脈特徴)との類似度を算出しても良い。

　最後に、登録データと類似していると判定された場合は、認証成功結果と該当登録データに紐づけられていた登録者ＩＤを出力する（Ｓ４１９）。そうでない場合は認証処理のタイムアウトまでマルチ撮影フェーズを繰り返して認証試行を継続し（Ｓ４２０）、タイムアウトとなった場合は全ての登録データとの認証に失敗した旨の通知(登録者本人とは認証できなかった旨の通知)を出力して認証処理を終了する（Ｓ４２１）。

　なお、ここでは複数の登録者から一意の登録者を決定する１：Ｎ認証として説明したが、認証する前に予め登録者ＩＤを指定したうえでその登録者であることを検証する１：１認証の構成としてもよいことは言うまでもない。

　なお、認証判定（Ｓ４１８）の判定基準として、連続で登録と一致したことを要件としても良い。この場合は１度目の認証判定で登録データと一致しても認証成功とはならず、所定の回数あるいは連続回数だけ一致が確認できた時点で認証成功となる。これにより、他人が偶発的に認証成功となってしまう他人受入エラーを防止することができ、安定性のある高精度な認証が実現できる。

　また、本実施例ではＳ４１７の通り顔と指の特徴量を融合したが、顔単体で照合し、かつ指の特徴量を単体で照合する方式としてもよく、この方式は、図９にて後述する。両特徴量を融合する利点として、多数の顔画像や指画像の偽造物の入力による攻撃への強度を高めることができることがある。顔の特徴量と指の特徴量とを個別に照合できるように認証システムを設計すると、それぞれの照合結果が単体で確認できるため、それぞれ単体で攻撃に成功した偽造物を同時に使用すればマルチモーダル認証についても攻撃に成功してしまう。一方、特徴量を融合して単体では照合できないようにすると、両者が同時に攻撃に成功して初めてマルチモーダル認証の攻撃に成功できるため、両者の組合せ方を無数に試行する必要が生じ、組合せ爆発が生じるため攻撃の難易度を高めることができる。このような不正を抑制するためには、両方の特徴量を融合した上で照合を行う特徴レベル融合の方式が有効となる。

　図５Ａ－Ｅは、顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。ここでは、上述の図４で示したものとは異なり、顔単体撮影フェーズを設けずに顔と手指とを同時にガイドし、かつ顔画像のバッファリングを行わない場合に発生する典型的な認証失敗時の事例を説明する。

　図５Ａは、利用者がノートＰＣにログインするために認証画面を起動した直後のプレビュー画像４７である。前述の通り、利用者は端末の前に位置することが多く、またカメラ９がディスプレイ４２の正面付近を中心に撮影するため、撮影される映像の中央付近に利用者の顔４が撮影されている。

　次に、図５Ｂに示されるように、顔と手を同時にかざすための顔ガイド４３および指ガイド４４を表示する。利用者の顔と左手とを同時にかざすように誘導するため、画面の左側に指ガイド４４を、画面の右側に顔ガイド４３を表示し、その枠内にそれぞれの生体を合わせてかざすようにガイドメッセージ４６などにより誘導する。

　利用者はまず、図５Ｃに示すようにプレビュー画像４７内の自身の顔４と顔ガイド４３とを確認しながら正しい位置に顔をかざす。

　続いて、図５Ｄに示すように利用者の左手４５を指ガイド４４に合わせるようにかざす。このとき、利用者は顔の前方に左手をかざすことになるが、このとき自身の左手が視界を遮ることで画面が見えにくくなることがある。そのため視界を確保するために図５Ｄに示すように首を傾げて顔４を横に倒してしまうことがある。この場合、顔が正しく検出できなかったり、登録時とは異なる姿勢で顔が撮影されるため顔の特徴量が変動し、登録された顔と認識されにくくなったりすることがある。

　あるいは、図５Ｅに示すように、視界を確保するために左手の指と指との間から画面を覗き見る状態になることもあるが、この場合は顔が手によって隠れてしまうため、正しく顔画像を撮影できなくなる。また指の色は顔の色と類似している場合が多いが、指のすぐ後ろに顔が重なって存在すると指と顔の境界が曖昧になり、その影響で指の検出が困難となり、指検出が正確に実施できなくなる場合もある。いずれにおいても、少なくとも登録された顔画像と同じ品質の顔画像が撮影できなくなる。

　このように、顔と手を同時にかざすフェーズのみの顔と手のマルチモーダル生体認証技術においては、複数の生体を同時にかざすことによる認証精度の劣化が課題である。

　図６Ａ－Ｅは、上述の図４にて示した通り、顔単体撮影フェーズを含んだ顔と手指のマルチモーダル生体認証技術の画面遷移図の一例である。ここでは上述の図５と同じノートＰＣにログインする事例について説明する。

　まず図６Ａに示す通り、利用者はノートＰＣにログインするために認証画面を起動すると、認証システムはカメラ９を起動して生体を撮影する。そのときの映像をプレビュー画像４７として利用者に提示する点は上述の図５と同様である。

　次に、図６Ｂに示す通り、認証を実施する旨を表示するためのプレビュー画像４７として、ガイドメッセージ４６を一定時間だけ表示する。一定時間とは例えば１秒間であり、任意の秒数を設定できる。このとき、利用者は特に顔や手をガイドに合わせる操作を行う必要はないが、ここは図４で示した顔単体撮影フェーズとなっており、認証システムとしては顔の撮影、特徴抽出、品質値の算出を裏で実施している。前述の通り、顔単体撮影フェーズで利用者はノートＰＣの正面に位置しており、また特に手をかざしてはいない。そのため顔をあえて傾けることもなく、また手によって遮蔽されることもない。従って、利用者にとっては何らかの操作を意識させることもなく品質の高い顔画像が撮影できる。

　一定時間が経過した後はマルチ撮影フェーズに移行する。図６Ｃに示すように左手をかざすための指ガイド４４を表示する。マルチ撮影フェーズでは左手を高品質に撮影することが目的となるため、本実施例では顔ガイドは表示を省略しても良い。

　利用者は、図６Ｄに示すように自身の映像と左手用のガイドとを確認しながら正しい位置に左手をかざす。前述の通り、顔の前方に手をかざすことになるためガイド画面が見えにくくなることがあり、手によって遮られている視界を確保するために首を横方向に倒してしまう場合がある。本実施例では顔単体撮影フェーズにて比較的高品質な顔画像が撮影されてバッファリングされているため、このフェーズで顔の姿勢がばらついても大きな影響はない。

　最終的に、バッファ内の顔画像とマルチ撮影フェーズで撮影された指画像との組み合わせでマルチモーダル生体認証を実施し、両者とも品質の高い特徴量にて認証が実施できる。もちろん、マルチ撮影フェーズで撮影された顔画像が一定の品質値を超えるものであれば、マルチ撮影フェーズで撮影された顔画像を用いて認証処理を行うこともできる。つまり、顔画像については、「顔単体撮影フェーズ」と「マルチ撮影フェーズ」で撮影された顔画像を認証のための情報とすることができ、登録された認証データ（顔の特徴量）と比較できるデータを増やすことで、高精度かつ高速な認証処理を実現することができる。

　従って、図４および図６にて例示した本実施例では、手をかざす際の顔の傾きの変動が生じた場合でも、その影響を受けずに認証が成功する可能性が高くなり、また複数の生体を同時にかざす場合でも手をかざすことだけに専念できるため、高精度で利便性の高いマルチモーダル生体認証を提供することができる。また、顔単体撮影フェーズとマルチ撮影フェーズとで分ける別の利点として、一般的に手をかざす位置は顔をかざす位置よりも前に来ることが多いが、その際、手と顔それぞれのカメラからの距離が異なるため、カメラのフォーカス制御の都合により手と顔の両方で同時にピントを合わせることが難しい場合がある。そこで本実施例のように、顔単体撮影フェーズでは顔にフォーカスを当て、マルチ撮影フェーズでは手にフォーカスを当てることで、両方の生体を最適に撮影できるようになる。なお、顔と手だけに関わらず、複数の生体特徴を同時に最適なフォーカスで撮影するため、例えば焦点の異なる複数の映像を短時間に撮影し、各映像間のぼけの程度の違いからＰＳＦ（Point Spread Function; 点広がり関数）を推定することで画像全体のぼけを補正し、すべての被写体の焦点が合焦した全焦点画像を生成しても良い。これにより、複数の生体特徴が鮮明に撮影できるようになる。

　なお、本実施例では顔単体フェーズは、一定時間で次のマルチ撮影フェーズに遷移するとしたが、顔単体フェーズにて顔の登録データとの照合を単体で行い、顔が登録データと一致することが確認できた時点で次のフェーズに移行してもよい。また、所定の品質値を超える顔画像が所定の枚数だけ集められた時点で次のフェーズに移行しても良い。

　その場合は、顔認証が確実に成功することが決定したか、あるいは顔認証に成功する可能性が高まった時点で次フェーズに移ることになり、少なくとも顔認証の認証精度の劣化は抑制しながらも撮影時間を短縮できる利点がある。

　ただし、顔単体で照合する方式の欠点としては前述の通り偽造物の作成に利用される情報が漏れる可能性が生じる点である。そのため常に一定時間の顔単体フェーズを設け、顔の認証が成功したかどうかを利用者に推測させないことで、例えば多数の顔画像を偽造して提示した場合に少なくとも顔単体で認証が成功するかどうかを認証システムの挙動から推察できなくすることで、偽造をより困難にできる。どちらの方法を採用するべきかについては認証システムのセキュリティポリシーに応じて任意の方法を採用できる。

　なお、図６Ｃで示した通り、マルチ撮影フェーズでは指ガイド４４のみを表示したが、別の実施例としては併せて顔ガイドを右側に表示してもよい。その場合は顔を右側に移動させる効果が得られる。さらに別の実施例として、一定時間指ガイド４４だけを表示して顔と指のマルチモーダル認証を繰り返し、一定時間経っても認証に成功しない場合は顔ガイドを追加表示するようにしても良い。この方法では、初めは手ガイドのみ表示されるので利用者は手の位置を合わせることに注力でき、一方で顔の撮影に失敗していてマルチモーダルでの認証が成功できない場合には、途中で顔ガイドを表示することによって利用者が顔の位置を手の位置から遠ざけることが期待されるが、その結果、手の認証に成功しやすくなるか、あるいは顔のバリエーションが増えることから認証が成功する可能性を高めることができる。

　図７Ａ－Ｃは、本実施例で提案する図４における顔の特徴量のバッファリングと選択処理の一手法の説明図である。

　図７Ａは、顔単体撮影フェーズにおいて顔の特徴量と、その品質値を時系列にプロットしたグラフであり、前述の図４におけるＳ４０５～Ｓ４０８の処理に相当する部分を模式的に表している。

　横軸は時間、縦軸は品質値であり、時刻tにおける顔特徴量をＦtとしたときの品質値の推移が示されている。また高品質であると判断できる閾値（高品質閾値）が設定されており、この閾値を上回る特徴量をバッファリングしていく。この図では、顔特徴量Ｆ３、Ｆ４、Ｆ５、Ｆ８、Ｆ９が高品質閾値を上回っており、顔特徴量Ｆ３、Ｆ４、Ｆ５、Ｆ８、Ｆ９を選択して、顔単体撮影フェーズの顔特徴量のバッファ１４１に時系列順に格納されている様子が分かる。

　続いて、マルチ撮影フェーズに入ると、図４におけるＳ４１０～Ｓ４１６の処理にて示される通り、顔と指の２つの特徴量を抽出する。図７Ｂに示されるように顔特徴量と指特徴量の２つに対して時系列的に品質値をプロットすることができる。本実施例では、顔特徴量はＦ１０、Ｆ１４、Ｆ１７、Ｆ１８が高品質であるものとし、マルチ撮影フェーズの顔特徴量のバッファ１４２に格納されている様子が分かる。なお、図７Ｂには示していないが、顔特徴量のＦ１０、Ｆ１４、Ｆ１７、Ｆ１８も、顔特徴量のバッファ１４１に時系列順に格納される。

　また、Ｈtは指特徴量を示しており、ここではＨ１２、Ｈ１５、Ｈ１７、Ｈ１８、Ｈ１９が高品質値を上回ったものとする。なお、本実施例では顔単体およびマルチ撮影フェーズのそれぞれに応じてバッファを明示的に分けて示したが、同一のバッファで管理しても良いことは言うまでもない。また、本実施例では指の特徴量に対するバッファは設けていないが、指についても顔と同様にバッファリングし、後述の選択方式に倣って利用する指の特徴量を選択しても良い。

　その後、図４のＳ４１５およびＳ４１６で実施される顔と指の特徴量の選択処理を行う。図７Ａおよび図７Ｂで示したように、顔と指の各特徴量は常に高品質であるとは限らず、片方だけが高品質であったり、両方とも高品質ではなかったり、両方とも高品質であったりする。このとき、両方とも高品質であった場合にのみ認証を実施する設計とすると、特に特徴量をバッファリングする必要はないが、その反面、この実施例では図７Ｂに示される通り時刻tが１７および１８のときの２回しか認証する機会が生じない。そのため、認証に失敗しやすくなる。

　そこで、本実施例では、図７Ｃで示されるように、バッファリングされた特徴量の中から顔特徴量と指特徴量とを選択して組み合わせる、つまり、特徴ペア（融合特徴量）を生成することで認証の機会を増やし、できるだけ早いタイミングで、かつできるだけ多くの認証処理を行い、認証の成功率を高める。

　ここで、図７Ｃにて図示されている本実施例における特徴ペアの選択方法について説明する。

　まず、指特徴量で品質値が閾値よりも高い場合は常に選択の候補とする。また、そのペアとなる顔の特徴量の選択方法として、まずは顔単体撮影フェーズのバッファより顔特徴量を選択し、次の機会ではマルチ撮影フェーズのバッファより選択する、といった形で２つのフェーズに対するバッファを交互に選択する方式とする。また、各バッファでは時間的に過去のものから新しいものへと順に選択する。ただし、直近に選択された特徴量が時系列的に連続している場合、両者の特徴量は類似している可能性が高いため、その次に格納された特徴量を選択するものとする。

　図７Ｃに示されるように、まずＨ１２が指特徴量として選択されるが、これとペアとなる顔特徴量は、まず顔単体撮影フェーズのバッファのうち最も過去に保存されたＦ３が選択される。まずは時刻t＝１２において、このＨ１２の指特徴量とＦ３の顔特徴量がペアとなって照合処理が実施される。つまり、特徴ペアを用いて、記憶装置に記憶された利用者毎の顔特徴量及び指特徴量に基づいて照合処理を行う。

　これで認証に成功しなかった場合、次はＨ１５が指特徴量として選択されるが、これとペアとなる顔特徴量は、先ほど顔単体撮影フェーズのバッファより選択したので、ここではマルチ撮影フェーズのバッファより選択され、その中で最も過去に保存されたＦ１０を選ぶ。

　これでもなお認証に成功しなかった場合、続いて時刻t＝１7においてＨ１７が選択されるが、これとペアになる顔特徴量は交互にバッファを切り替えるため顔単体撮影フェーズのバッファより選ぶ。先ほどはＦ３を選択したので、時系列順に選択を行うとするとＦ４が候補となり得るが、上述の通りＦ３とＦ４は時間的に連続しているため一つ飛ばしてＦ５を選択する。すなわち、Ｈ１７とＦ５がペアとなって照合処理が実施される。

　同様に、Ｈ１８のペアとなる顔特徴量はマルチ撮影フェーズのバッファより選ばれ、先にＦ１０を選んだことから今回は次のＦ１４を選ぶ。そして最後にＨ１９とＦ８がペアとして選択される。

　このように、顔単体撮影フェーズの顔の特徴量とマルチ撮影フェーズの顔特徴量とを交互に選択する方法の利点として、過去にバッファリングした顔単体撮影フェーズの顔画像だけでなく、顔の姿勢が異なることが想定される現時点のマルチ撮影フェーズの顔画像も合間に取り入れることで顔の特徴量のバリエーションを増やすことができる。そのため、認証に成功する可能性が高められる効果が期待できる点である。

　また同様に、バッファリングされた顔の特徴量のうち、時刻的に連続するフレームから抽出した特徴量を飛ばすことによって、顔の特徴量の変化量が小さいものを利用するより特徴量のバリエーションを増加させる効果があり、認証の成功率を高め、かつ認証に成功するまでの時間が短縮できる効果が期待できる。

　なお、本実施例では時間的にタイミングの異なる顔特徴量と指特徴量とを組み合わせて照合を行うが、偽造物による攻撃をより強固に防止する観点として、登録データと類似する複数の生体特徴が同時に観測された（同じ画像内に同時に存在する）場合にのみ認証成功とする方法が考えられる。そこで、たとえば図７Ｃにおいて指特徴Ｈ１７が得られた時刻において、同時刻に得られた顔特徴Ｆ１７を活用し、指特徴Ｈ１７と組み合わせることになる顔特徴Ｆ５がＦ１７と同一人物である（類似性が高い）ことを確認する処理を実施しても良い。これにより、現在時刻の顔画像と顔単体撮影フェーズで撮影した顔画像とが差し替えられていた場合は不正が行われたものとして認証を成功させないなどの処理が実施でき、より安全な認証システムとすることができる。

　なお、上述の実施例ではバッファリングした顔の特徴量は時系列順に並べたが、顔画像の品質値の高い順に並べてその順番に利用しても良い。登録では品質値ができるだけ高まるように顔画像を選択しているため、顔画像の品質値が高い場合は登録データに類似している可能性が高い。従って品質値の高い順に顔の特徴量を融合することで、できるだけ早い段階で認証に成功する確率を高めることができる。このとき、特徴量や品質値と同様に獲得した時刻もバッファリングし、上述のように現在選択しようとしている特徴量と前回選択した特徴量とが時間的に近接している場合は一つ飛ばして選択しても良い。また、バッファ内の顔の特徴量同士を相互に照合し、類似性の高い特徴量が選択されないようにして（間引いて）も良い。また、品質値には顔の向きに関するパラメータが含まれるが、顔の向きにある程度のばらつきが生じるように選択してもよい。例えば、顔のピッチング角が正面より僅かに上向きの画像を選んだ次は下向きの画像を優先的に選んだり、顔のヨーイング角が正面より僅かに左向きの画像と右向きの画像とを交互に抽出したりすることも考えられる。これにより、顔の向きが異なる特徴量を網羅的に照合に用いることができるため、早い段階で認証の成功率が高められる効果が得られる。

　いずれの選択方法においても、顔の特徴量が類似したものを連続的に選択することを避け、できるだけ早い段階で多くのバリエーションの顔の特徴量を認証に利用でき、早い段階において認証成功率を高める効果がある。

　なお、上述のバッファ内の顔の特徴量をすべて利用した場合、改めてバッファ内の顔特徴量を先頭から順に再利用しても良い。このとき、上述の通り選択されなかった特徴量がある場合はそれらを優先的に利用しても良く、各特徴量が選択された回数を記録しておき、選択回数が少ないものを優先的に再利用しても良い。

　以上の通り、認証処理において、登録された顔の特徴量（顔特徴）や指の特徴量（指特徴）と照合される認証データ（顔特徴、指特徴）の特徴ペアは、マルチ撮影フェーズで取得した指特徴に対し、顔単体撮影フェーズで取得した顔特徴とマルチ撮影フェーズで取得した顔特徴とを組み合わせて得られる。これにより、上述した効果が得られる。特に、特徴量のバリエーションを増加させる効果があり、認証の成功率を高め、かつ認証に成功するまでの時間が短縮できる効果がある。

　図８Ａ－Ｂは、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例の説明図である。

　上述の通り、マルチ撮影フェーズにおいて利用者は顔および手を同時にかざし、顔の検出および顔の特徴抽出、指の検出および指の特徴抽出を経てマルチモーダル生体認証を実施する。このとき、顔および指の処理を同時に実施することでパフォーマンスが低下する場合が考えられる。

　そこで、本実施例では、図８Ａに示すように、指の特徴抽出を１フレーム飛ばして実施する。横軸は時間ｔの経過を表し、ＦｔおよびＨｔは顔特徴量および指特徴量を示しており、時刻ｔ＝２における指特徴量は時刻ｔ＝１の時と同じくＨ１が利用されている様子が分かる。すなわち、時刻ｔ＝２では指に関する検出処理や特徴抽出処理を実施せず、時刻ｔ＝１の指特徴量をそのまま利用している。本実施例では指の特徴抽出は最大で4指分の処理を行うこと、また照合においては指を1本ずつ総当たりで照合を行うことから、顔の照合に比べて処理時間が掛かる。そのため、時間的に近い特徴量は大きく変化しにくいという時間的局所性を利用して1フレームおきに指特徴量の抽出処理を簡略化する。これにより、認証精度をできるだけ低下させずに処理の簡略化、すなわち認証処理の高速化が実現できる。

　また、図８Ｂに示す通り、指の処理だけでなく、顔に関する処理も1フレームおきに簡略化することもできる。指特徴量は図８Ａと同様に時刻が偶数の場合にひとつ前の指特徴量を再利用しているが、顔特徴量の場合は時刻が奇数の場合にひとつ前の顔特徴量を再利用する。それぞれが交互に処理されるため、特徴ペアとしては常に新しいものが生成される。これにより、常に新しい特徴ペアを生成しながらも平均的な処理時間が1/2に低減でき、認証精度をほとんど劣化させることなく体感速度を向上することが可能となる。

　上述の実施例１においては、顔の特徴量と指の特徴量の両方を同時に利用する特徴レベル融合による照合方式を採用する場合の処理例について記載したが、顔単体の照合、および指単体の照合が独立して実施できる場合は特徴ペアを生成する必要が無く、また別の方式を採用することができる。実施例２では各生体が単独で照合できる場合の実施例について説明する。

　図９は、顔と指とを独立に照合するマルチモーダル生体認証の処理フローの一例である。上述の図４では顔と指のパターンを融合する一例であったが、図９は顔単体あるいは指単体で照合を実施し、その結果をスコアレベル融合した場合の処理フローとなる。なお、登録処理については図３と同様に実施できるため説明を割愛する。

　まず、指の提示を促すガイド文の表示から顔画像の品質値の算出まで（Ｓ９０１～Ｓ９０６）は図４と同等のため説明を割愛する。そして品質値が基準よりも高い場合（Ｓ９０７）には顔特徴量単体で登録データと照合を行い、そのときの顔照合結果を保持する（Ｓ９０８）。顔照合結果は、登録データとの類似性を示す照合スコアであってもよく、また照合スコアに対する閾値処理によって判定される登録データとの一致あるいは不一致の結果であってもよい。

　次に、顔照合結果の有効期限に応じた結果のリセット処理を行う（Ｓ９０９）。本実施例では、ある時間において得た顔照合結果を予め定めた一定時間だけ保持し、それ以降はその結果を無効化する。ここでは結果を保持する一定時間を有効期限と呼び、結果を無効化することをリセットと呼ぶこととする。

　複数の生体特徴を独立に照合する方式のマルチモーダル生体認証では複数のモーダルごとに照合の成否が得られるが、完全に同一のタイミングですべてのモーダルで成功するまで照合を繰り返すと認証時間が長く掛かる場合がある。これに対し、各照合結果に有効期限を設け、一度照合に成功すればその有効期限内であれば常に照合成功とみなすことで、すべてのモーダルで認証成功となる可能性が高まるため、認証の成功率を高めると共に認証までの処理時間を短縮する効果が得られる。このとき、一度成功した照合を永続的に有効にしてしまうと、例えば他人が偶発的に１つのモーダルで認証成功してしまった場合、その結果が永続的に有効となると誤った他人受理が発生しやすくなってしまう。

　そのため、有効期限を超過した結果はリセットにより無効化することで他人受理を抑制する。有効期限は、たとえば０．５秒や１秒などの値を用いることができる。そして一定時間が経過するまでこれを繰り返す（Ｓ９１０）。この繰り返しにより複数の照合結果が得られるが、上述のように有効期限内の照合結果すべてを記録しておく。また、Ｓ９０２～Ｓ９１０のループは図４と同様に顔単体撮影フェーズとなる。

　続いて、指ガイドの表示から顔および指の品質値が十分に高いことを確認する処理（Ｓ９１１～Ｓ９１７）のループに入るが、ここも基本的には図４とほぼ同様の処理である。ただし本実施例では、現時点で有効期限内に照合が成功しているモーダルに対する処理を省略する。つまり、このときすでに顔の特徴量の照合で登録データと十分に類似している、すなわち、有効期限内において顔単体では認証に成功していると判断できる場合は顔の照合を割愛する。また同様に、当該ループにて指の特徴量の照合で登録データと十分に類似していると判断できる結果が有効期限内に存在していれば指の照合を割愛することもできる。このように、顔あるいは指の特徴量のうち登録データと十分に類似したことが確認できていないものに限定して高速に照合処理を実施しながら時系列的に各照合スコアを記録する（Ｓ９１８）。上述と同様に顔および指の照合結果の有効期限に応じた各結果のリセット処理を行う（Ｓ９１９）。そしてこれまでに得られた照合スコア群を用いてスコアレベル融合によって認証判定を行う（Ｓ９２０）。判定の結果、認証成功となった場合は認証成功の処理を実施し（Ｓ９１９Ｓ９２１）、認証処理を終了する。認証できなかった場合はタイムアウトかどうかを判定し（Ｓ９２２）、タイムアウトでない場合は指ガイドの表示から繰り返すが、タイムアウトの場合は認証失敗の処理を実施し（Ｓ９２３）、認証処理を終了する。

　処理Ｓ９２０にて実施される、照合スコア群を用いたスコアレベル融合による認証判定の一実施例として、まず顔と指とでそれぞれ過去に得られた有効期限内の照合スコアのうち相違度が最小となるスコアを取り出し、これが顔及び指のそれぞれで予め定められた認証閾値より下回っているかどうかにより認証を判定する方法がある。例えば、顔および指の両方で閾値を下回った場合にのみ認証成功とするＡＮＤ判定、あるいはいずれか一方で閾値を下回った場合に認証成功とするＯＲ判定としても良い。また、同様に最小となるスコアをそれぞれ取り出したうえで予め定めた重みを乗じて総和を取ることで融合スコアを獲得し、これが予め定めた閾値を下回った場合に認証成功とするスコアレベル融合を採用することもできる。一般的にはスコアレベル融合の方がＡＮＤ判定やＯＲ判定よりも高精度な認証を実現できるため好適な処理となる。また、時系列に融合スコアを並べた際に連続して認証閾値を下回った場合にのみ認証成功としても良く、これにより他人の偶発的な認証受理エラーを抑制することができる。

　図１０は、顔と指とを独立に照合するマルチモーダル生体認証における、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例の説明図である。

　特徴レベル融合を実施しない方式であれば、各生体単体で照合が実施できるため、上述の図８とはまた別の方法が実施できる。まず時刻ｔ＝１からｔ＝６までは顔単体撮影フェーズであり、顔特徴のみ抽出および照合を行う。ここでは顔特徴量Ｆ１からＦ３までは登録データとの類似性が低く、Ｆ４の時点で類似性が高まった（顔の照合に成功）とし、また上述の有効期限を３と設定する。Ｆ４の時点で類似性の高い結果が得られたため、現時刻ｔ＝４と有効期限の３とを合計して時刻ｔ＝７まではこの結果が保持される。そのため、ここではＦ５からＦ７までの顔特徴量の抽出および照合を簡略化することができる。ただし、顔単体撮影フェーズは顔のみに限定しているため元々の計算量が少ないことから、Ｆ５およびＦ６の処理を実施しても良い。その場合は例えばＦ６でも類似性が高くなれば後段のマルチ撮影フェーズのＦ９までの顔特徴の処理が省略できるので、後段の計算量をより削減できる。

　続いて時刻ｔ＝７からはマルチ撮影フェーズに入り、顔及び指でそれぞれ処理を実施する。ただし、前述の通りｔ＝７までは顔照合の成功の有効期限内であるため、顔特徴量Ｆ７の抽出及び照合を省略できる。そのためここでは指特徴量Ｈ７のみ抽出および照合を行う。ここでは指特徴量Ｈ７が登録データとの類似性が低かったものとし、引き続き指特徴量Ｈ８の処理を行う。それと同時に、顔特徴量の照合成功の有効期限がここで切れるため、顔特徴量Ｆ８の処理も同時に行う。ここでは指特徴量Ｈ８は登録との類似性が高く、一方、顔特徴量Ｆ８は類似性が低かったものとする。このとき指特徴量はすでに登録データと類似していることから時刻ｔ＝９からｔ＝１１までの３期間だけ処理を省略する。一方、顔特徴量Ｆ８は類似性が低いため改めて顔特徴量Ｆ９からＦ１１までの抽出と照合とを行う。このとき、この期間は顔特徴だけの処理に注力することができるため処理速度が向上する。そして、ここではＦ８からＦ１１のいずれも登録データと類似していなかったとする。そして時刻ｔ＝１２の時点では指特徴量Ｈ８で登録データとの類似性が高かったという結果の有効期限が切れ、改めて指特徴量Ｈ１２を抽出して照合を行う。そして顔についてもＦ１２を抽出する。ここで顔特徴量Ｆ１２だけが登録データと類似性が高かったとすると、時刻ｔ＝１３では顔特徴量の抽出を簡略し、指特徴量Ｈ１３のみ抽出と照合を行う。そしてここでＨ１３が登録データと類似していることが確認できたとすると、時刻ｔ＝１２での顔特徴量Ｆ１２が登録データと類似し、かつ指特徴量Ｈ１３が類似していることとなる。Ｆ１２が類似していることは有効期限内であるため、ｔ＝１３の時点で両者の生体が共に類似したものとして認証成功と判定することができる。

　このように、各生体特徴で個別に照合が実施できる場合は特徴レベル融合を行う場合よりも効果的に処理を簡略化できるため、処理速度をより大きく向上できる。なお、前記有効期限を設ける利点として、偶発的に他人が認証成功となってしまった場合でもこれが永続的に続くことを抑制し、誤った他人受入を防止する効果がある。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１　指
２　入力装置
３　光源
４　顔
９　カメラ
１０　認証処理部
１１　中央処理部
１２　メモリ
１３　インターフェイス
１４　記憶装置
１５　表示部
１６　入力部
１７　スピーカ
１８　画像入力部
２０　登録処理部
２１　認証処理部
２２　生体検出部
２３　撮影制御部
２４　品質判定部
２５　特徴抽出部
２６　照合部
２７　認証判定部
４１　ノートＰＣ
４２　ディスプレイ
４３　顔ガイド
４４　指ガイド
４５　左手
４６　ガイドメッセージ
４７　プレビュー画像
１４１　顔単体撮影フェーズの顔特徴量のバッファ
１４２　マルチ撮影フェーズの顔特徴量のバッファ
１０００　生体認証システム

Claims

　生体を撮影する撮影装置と、前記撮影装置に接続され、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、
　前記撮影装置は、
　第１の期間で、第１の利用者の第１の生体を撮影し、
　前記第１の期間とは異なる第２の期間で、第１の利用者の第２の生体及び第３の生体とを撮影し、
　前記認証処理装置は、
　前記第１の期間において撮影した第１の生体から第１の特徴量を算出し、
　前記第２の期間において撮影した第２の生体及び第３の生体から、第２の特徴量と第３の特徴量をそれぞれ算出し、
　前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第１の特徴量、前記第２の特徴量及び前記第３の特徴量とを照合することで利用者の認証を行う
ことを特徴とする認証システム。
　請求項１に記載の認証システムにおいて、
　前記記憶装置は、利用者毎に利用者識別情報と、第１の生体と、第２の生体の特徴量を対応して記憶しており、
　前記第１の期間及び前記第２の期間で、前記撮影装置により撮影される、第１の生体と第２の生体は、同一利用者の同一領域であり、
　前記認証処理装置が算出する第２の特徴量は、同一の利用者であって、第１の生体と異なる領域の特徴量であり、
　前記記憶装置は、前記第１の期間に算出された第１の特徴量と、前記第２の期間に算出された第２の特徴量とを、複数記憶する
ことを特徴とする認証システム。
　請求項２に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第２の期間に算出された第３の特徴量と、前記第１の期間に算出された第１の特徴量、或いは、前記第２の期間に算出された第２の特徴量とで、特徴ペアを生成し、
　前記特徴ペアを用いて、前記記憶装置に記憶された利用者毎の第１の生体の特徴量及び第２の生体の特徴量に基づいて照合処理を行う
ことを特徴とする認証システム。
　請求項３に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第１の特徴量、前記第２の特徴量に対する品質値を算出し、前記品質値が所定の値を超える場合に、前記第１の特徴量、前記第２の特徴量および対応する品質値を、前記記憶装置に記憶する
ことを特徴とする認証システム。
　請求項１に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第１の期間に算出された前記第１の特徴量及び前記第２の期間に算出された第２の特徴量と前記第２の期間に算出された第３の特徴量とを融合した融合特徴量を利用する
ことを特徴とする認証システム。
　請求項４に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第２の期間に算出された第３の特徴量に対する品質値が所定の値を超える第３の特徴量を選択し、
　前記第１の期間に算出された第１の特徴量と、前記第２の期間に算出された第２の特徴量に対する品質値が所定の値を超える特徴量の内、前記第１の期間に算出された第１の特徴量と前記第２の期間に算出された第２の特徴量とを交互に選択して、前記選択された第３の特徴量と前記特徴ペアを生成する
ことを特徴とする認証システム。
　請求項６に記載の認証システムにおいて、
　前記記憶装置に、前記第１の期間に算出された第１の特徴量と前記第２の期間に算出された第２の特徴量に対する品質値が所定の値を超える特徴量を、時系列順に格納し、
　前記認証処理装置は、前記特徴ペアを生成する際、前記第１の期間に算出された第１の特徴量と前記第２の期間に算出された第２の特徴量を、交互に古い順に優先して選択する
ことを特徴とする認証システム。
　請求項６に記載の認証システムにおいて、
　前記記憶装置は、前記第１の特徴量と前記第２の特徴量を品質値の高い順に格納し、
　前記認証処理装置は、前記品質値の高い順に優先して特徴量を選択し、前記第３の特徴量とで特徴ペアを生成する
ことを特徴とする認証システム。
　請求項６に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第２の期間で、第２の特徴量の抽出と第３の特徴量の抽出とを交互に実施する、
ことを特徴とする認証システム。
　請求項１に記載の認証システムにおいて、
　前記認証処理装置は、
　第１の特徴量と第２の特徴量とを独立に照合し、各照合結果を融合する
ことを特徴とする認証システム。
　請求項１０に記載の認証システムにおいて、
　前記認証処理装置は、
　前記第１の特徴量と前記第２の特徴量と、前記第３の特徴量とを独立に照合し、前記照合結果が前記記憶装置に予め登録された特徴量と類似度が高い場合は一定期間だけ当該特徴量の照合を割愛する
ことを特徴とする認証システム。
　生体を撮影する撮影装置と、前記撮影装置に接続され、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムの生体認証方法において、
　前記撮影装置は、
　第１の期間で、第１の利用者の第１の生体を撮影し、
　前記第１の期間とは異なる第２の期間で、第１の利用者の第２の生体及び第３の生体とを撮影し、
　前記認証処理装置は、
　前記第１の期間において撮影した第１の生体から第１の特徴量を算出し、
　前記第２の期間において撮影した第２の生体及び第３の生体から、第２の特徴量と第３の特徴量をそれぞれ算出し、
　前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第１の特徴量、前記第２の特徴量及び前記第３の特徴量とを照合することで利用者の認証を行う
ことを特徴とする生体の認証方法。
　請求項１２に記載の生体の認証方法において、
　前記認証処理装置は、
　前記第２の期間に算出された第３の特徴量と、前記第１の期間に算出された第１の特徴量、或いは、前記第２の期間に算出された第２の特徴量とで、特徴ペアを生成し、
　前記特徴ペアを用いて、前記記憶装置に記憶された利用者毎の第１の生体の特徴量及び第２の生体の特徴量に基づいて照合処理を行う
ことを特徴とする生体の認証方法。