WO2023105611A1

WO2023105611A1 - 焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム

Info

Publication number: WO2023105611A1
Application number: PCT/JP2021/044859
Authority: WO
Inventors: 隆浩青木
Original assignee: 富士通株式会社
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-06-15

Abstract

取得部は、カメラにより撮影された撮像画像を取得する。記憶部は、カメラから撮影対象までの撮影距離と、撮像画像における複数の特徴点のうちの２つの特徴点間の撮影対象についての標準の距離である第１距離とを記憶する。算出部は、当該２つの特徴点間の撮像画像における距離である第２距離を撮像画像から算出し、第１距離と第２距離と撮影距離とに基づいて、カメラの焦点距離を算出する。

Description

焦点距離算出装置、焦点距離算出方法、及び焦点距離算出プログラム

　本発明は、画像の分析の技術に関する。

　例えば顔認証において、頭部姿勢推定（ＨＰＥ：Ｈｅａｄ　Ｐｏｓｅ　Ｅｓｔｉｍａｔｉｏｎ）は、正規化処理（顔姿勢の補正）、誘導（利用者に顔の向きを指示して、適切な向きにしてもらう処理）、姿勢判定等に利用される技術である。ＨＰＥは、認証精度や利便性の面で、顔認証において非常に重要な要素である。

　このＨＰＥに関し、幾つかの技術が提案されている（例えば、非特許文献１及び特許文献１～特許文献３参照）。

　例えば、ＨＰＥを実現する手法として、顔のランドマークを用いて行う手法が提案されている。この提案では、顔の撮影画像から検出した顔のランドマーク（２次元）と、予め設定されている３次元の顔ランドマークモデルとの対応付けが行われ、この対応付けを利用して顔の姿勢（回転、平行移動）の算出が行われる。なお、顔の姿勢の算出にはＯｐｅｎＣＶ（Ｏｐｅｎ　Ｓｏｕｒｃｅ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　Ｌｉｂｒａｒｙ）とＤｌｉｂとが用いられている。ＯｐｅｎＣＶ及びＤｌｉｂは、どちらも、公開されているソフトウェアライブラリであり、画像処理や機械学習等の処理を行うためのものとして広く知られている。

　また、表示装置を目視する被験者の画像から、被験者が眼鏡レンズを通して表示装置を目視した場合の仮想的な視野の画像を作成する技術が知られている。この技術では、被験者の顔画像から抽出した特徴点を用いたＨＰＥにより顔の向きを算出し、撮像素子の焦点面の縦横のサイズと焦点距離とから、撮像部から被験者までの距離を求めるという手法が用いられている。

　また、単眼カメラにより撮影された時系列の撮影画像を用いてＨＰＥを行うという技術が知られている。この技術では、頭部の撮影画像における眼の間の距離と頭部モデルの平均眼幅との比率とカメラの焦点距離とにより特定した、カメラから頭部までの距離がＨＰＥに用いられている。

　また、人物の画像から顔等の所定領域を認識する技術が知られている。この技術では、人物の撮影画像における顔の特徴点位置の間隔から推定した撮影部と顔との間の距離に応じて、当該特徴点位置より抽出した特徴量を更新し、更新後の特徴量と特徴量のデータベースとの比較による検索の結果に基づいた顔の認識が行われている。

国際公開第２０１９／１３８５１５号米国特許出願公開第２０２１／０１６５９９９号明細書特開２０１１－２１００３０号公報

Ｓａｔｙａ　Ｍａｌｉｃｋ、"Ｈｅａｄ　Ｐｏｓｅ　Ｅｓｔｉｍａｔｉｏｎ　ｕｓｉｎｇ　ＯｐｅｎＣＶ　ａｎｄ　Ｄｌｉｂ"、［ｏｎｌｉｎｅ］、２０１６年９月２６日、インターネット、＜ＵＲＬ：ｈｔｔｐｓ：／／ｌｅａｒｎｏｐｅｎｃｖ．ｃｏｍ／ｈｅａｄ－ｐｏｓｅ－ｅｓｔｉｍａｔｉｏｎ－ｕｓｉｎｇ－ｏｐｅｎｃｖ－ａｎｄ－ｄｌｉｂ＞

　前述した顔のランドマークを用いて行うＨＰＥにおいて、顔のランドマークと顔ランドマークモデルとの対応付けを行うためには、顔を撮影するカメラに用いられているレンズの焦点距離の値が必要となる。焦点距離は、カメラに用いられているレンズの仕様を調べれば分かる値ではあるが、一般的には、焦点距離を自動的に取得するような機構をカメラは備えていない。

　ここで、例えば、焦点距離として固定値を用いるようにするという手法が考えられるが、使用するカメラの焦点距離が常に想定していた値であるとは限らない。この焦点距離を自動的に、且つ、高精度に推定することができれば、利便性が向上し、高精度なＨＰＥの利用が可能になる。

　１つの側面において、本発明は、焦点距離の算出精度を向上させることを目的とする。

　１つの案では、焦点距離算出装置は、取得部と記憶部と算出部とを備える。取得部は、カメラにより撮影された撮像画像を取得する。記憶部は、カメラから撮影対象までの撮影距離と、撮像画像における複数の特徴点のうちの２つの特徴点間の撮影対象についての標準の距離である第１距離とを記憶する。算出部は、当該２つの特徴点間の撮像画像における距離である第２距離を撮像画像から算出し、第１距離と第２距離と撮影距離とに基づいて、前記カメラの焦点距離を算出する。

　１つの側面によれば、焦点距離の算出精度を向上させることができる。

撮像画像と顔ランドマークモデルとの間でのランドマークの対応付けを説明する図（その１）である。撮像画像と顔ランドマークモデルとの間でのランドマークの対応付けを説明する図（その２）である。焦点距離の推定手法を説明する図である。焦点距離算出装置の構成の第１の例を示す図である。記憶部に記憶されている記憶情報の例である。コンピュータのハードウェア構成例を示す図である。姿勢推定処理の第１の例の処理内容を示したフローチャートである。焦点距離算出処理の第１の例の処理内容を示したフローチャートである。顔の撮像画像における横長さと縦長さとを説明する図である。焦点距離算出処理の第２の例の処理内容の一部を示したフローチャートである。焦点距離算出処理の第３の例の処理内容の一部を示したフローチャートである。第１、第２、第３、及び第４の線分の長さを説明する図である。動き量算出処理の処理内容を示したフローチャートである。姿勢推定処理の第２の例の処理内容を示したフローチャートである。焦点距離算出装置の構成の第２の例を示す図である。図１５の焦点距離算出装置の使用態様の一例を説明する図である。姿勢推定処理の第３の例の処理内容を示したフローチャートである。

　以下、図面を参照しながら、実施形態を詳細に説明する。

　まず、本実施形態において用いる、顔ランドマークを用いて行うＨＰＥについて説明する。この手法は、例えば、前掲した非特許文献１においても詳細に説明されている。

　この手法では、顔ランドマークモデルが予め用意される。このモデルは、人間の標準的な顔についての三次元形状モデルであって、顔におけるランドマークの三次元の位置情報をモデルデータとして有している。

　顔ランドマークを用いて行うＨＰＥでは、まず、人物の顔をカメラで撮影して得られる撮像画像から、顔における特徴点がランドマークとして複数特定される。そして、特定したランドマークと、当該ランドマークの位置に対応する顔ランドマークモデル上の位置との対応付けが行われる。この対応付けについて、図１を用いて説明する。

　図１における左側のイラストは、撮像画像における顔領域の像の例を表している。この像に付されているＸ印は、顔領域の像から特定したランドマークの位置を表しており、左右の眼と、鼻と、左右の口角との５つをランドマークとして特定した様子を表している。矩形である撮像画像の縦方向と横方向として画像面に定義される二次元座標における、これらのランドマークのそれぞれの位置を表す座標が取得される。

　また、図１における右側のイラストは顔ランドマークモデルを表している。このイラストに付されている点は、左側のイラストにおいて特定されたランドマークのそれぞれに対応するモデル上の位置を表している。これらの各位置を表している三次元の位置情報が、顔ランドマークモデルのモデルデータから取得される。

　ここで、顔ランドマークモデルで表される顔の像をカメラで撮影することによって撮像画像が得られたとする。この場合、撮像画像上のランドマークの位置と、このランドマークに対応する顔ランドマークモデル上の位置との関係は、図２のように表すことができる。

　図２において、点Ｏは、ＵＶＷの各軸で表される三次元の世界座標系におけるカメラの位置を表している。この点Ｏを原点とするＸＹＺの各軸で表される三次元の座標系はカメラ座標系などと称されている。

　また、点ｐは撮像画像上のランドマークの位置を表しており、点Ｐは、点ｐに対応する顔ランドマークモデル上の位置を表している。

　ここで、点Ｐの位置についての世界座標系の座標を（Ｕ，Ｖ，Ｗ）と表す。また、撮像画像の画像面に定義される二次元の座標系である、ｘｙの各軸で表される二次元の画像座標系における、点ｐの位置についての座標を（ｘ，ｙ）と表す。なお、図２において撮像画像上に表されている点Ｃは、点Ｏの位置のカメラによって撮影される撮像画像の画像中心であり、画像座標系での点Ｃの位置の座標を（Ｃｘ，Ｃｙ）と表す。

　このとき、点ｐと点Ｐとの関係は下記の式で表されることが知られている。

　この［数１］式における左辺の係数ｓは、全体のスケールを表す係数であって、スケールファクタなどと称されているものである。

　また、［数１］式における右辺の３つの行列のうちの１番目（左側）の行列及び２番目（中央）の行列は、それぞれ、カメラの内部パラメータ及び外部パラメータなどと称されているものである。

　内部パラメータはカメラ座標系と画像座標系との関係を表すものである。内部パラメータを表す行列の成分において、ｆはカメラの焦点距離を表している。なお、焦点距離の単位は一般的にはミリメートルであるが、［数１］式においては、ｆの値は画素数であり、その単位は「画素」（ピクセル）である。

　例えば、カメラに用いられている撮影素子における１画素に対応する長さ（矩形の撮影素子の１辺の長さを当該１辺に並ぶ画素数で除算した値）が分かればミリメートルからピクセルへの単位の変換は可能である。なお、ここでは、簡単のため、撮影素子における１画素に対応する長さは縦方向と横方向とで同一としている。

　外部パラメータは世界座標系とカメラ座標系との関係を表すものである。外部パラメータを表す行列の成分に関し、下記の式

によって表されるＲ及びｔは、実空間（世界）におけるカメラの動き量を表している。この動き量のうち、Ｒは回転量を表しており、ｔは並進量を表している。この動き量に従って世界座標系を移動させるとカメラ座標系に一致する。見方を変えると、この動き量は、撮像画像の人物の顔の姿勢についての顔ランドマークモデルの姿勢からの違いを表しており、これはすなわち、撮像画像の人物の顔の姿勢を表す姿勢情報となる。

　［数１］式は、撮像画像から特定した１つのランドマークと、顔ランドマークモデルにおける当該１つのランドマークに対応するランドマークとの間で成立する。従って、複数のランドマークのそれぞれについての位置情報を［数１］式に代入することによって、連立式が得られる。この連立式を外部パラメータについて解くことによって、姿勢情報が得られる。この連立式を解くための実際の演算では、ＤＬＴ法（Ｄｉｒｅｃｔ　Ｌｉｎｅａｒ　Ｔｒａｎｓｆｏｒｍａｔｉｏｎ　Ｍｅｔｈｏｄ）と称されている広く知られている手法を利用した最小二乗法を採用することで、外部パラメータの推定が行われる。

　顔ランドマークを用いて行うＨＰＥは以上のようにして行われる。従って、この手法を採用する場合には、カメラの内部パラメータである焦点距離を知る必要がある。しかしながら、例えば、ＨＰＥを利用して顔認証を行う顔認証装置において、使用するカメラの焦点距離を知るための作業は煩雑であり、諸元の不明なカメラを使用する場合もある。

　そこで、本実施形態では、本来はＨＰＥのために用意されている顔ランドマークモデルのモデルデータを活用して、カメラにより撮影された撮像画像から当該カメラの焦点距離の推定を行う。この推定の手法について、図３を用いて説明する。

　図３において、右側はカメラ内部の世界を表しており、左側はカメラ外部の世界（被写体が実在する世界）を表している。図３における焦点距離ｆは、比例関係を利用した下記の式で算出可能である。

　この［数３］式において、画像サイズＨは、矩形である撮像画像の１辺（縦方向）に並ぶ画素列の画素数であり、この画素数を撮像画像から得ることは容易である。当該画素数を画像サイズの値として用いると、焦点距離ｆは「画素」（ピクセル）の単位で値が得られる。

　なお、撮像画像上の２つの特徴点の間の距離ｄと、被写体の位置において当該２つの特徴点にそれぞれ対応する２点間の距離ｄ’との値を用いる下記の式を用いるようにしても、焦点距離ｆを算出することができる。

　これらのどちらの式を用いる場合であっても、画像サイズＨ及び距離ｄは撮像画像から容易に得られるものの、撮影範囲Ｌ若しくは距離ｄ’の値と撮影距離Ｚの値との２つの値が焦点距離ｆの算出には必要である。次に、これらの値の取得の手法について説明する。

　まず、撮像画像において、特定した複数のランドマークのうちから２つを選択し、この２つのランドマークの位置の間の距離（画素数）を取得する。例えば、当該２つのランドマークとして、被写体である人物の顔における左右の眼、あるいは左右の口角を選択すると、これらのランドマークはほぼ撮像画像の横方向に沿って並んでいるので、画素数の取得が容易である。このようにして取得される距離は、前掲した［数４］式における距離ｄである。

　次に、顔ランドマークモデルにおいて、上述の２つのランドマークの位置にそれぞれが対応する２つの点についてのモデルデータを用いて、当該２つの点の間の距離を、例えばミリメートル単位で算出する。このようにして取得される距離は、前掲した［数４］式における距離ｄ’である。

　なお、［数３］式を用いる場合には、距離ｄ’を距離ｄで除算することによって被写体の位置での撮像画像の１画素に相当する長さを算出し、算出された値に画像サイズＨを乗算することによって、画像サイズＨに対応する撮影範囲Ｌを取得することができる。

　次に、撮影距離Ｚの取得の手法について、ここでは２つの手法を説明する。

　まず、第１の手法は、撮影距離の値を予め設定しておくというものである。例えば、ＨＰＥを利用する顔認証機能をラップトップ型のパーソナルコンピュータに搭載する場合であれば、コンピュータが備えているカメラと当該コンピュータのユーザとの間の距離として一定の値が推定可能である。このように、顔認証機能の利用シーンにより撮影距離の値が凡そ定まるような場合には、この値を予め用意しておいて、焦点距離を算出する場合に用いるようにする。

　次に、第２の手法は、撮影距離の値を仮定して焦点距離の推定を行い、得られた推定値を用いてＨＰＥを実行し、ＨＰＥの実行結果を利用して仮定の妥当性を検証するというものである。

　前述したように、顔ランドマークを用いて行うＨＰＥでは、姿勢情報である動き量として、回転量と並進量とが得られる。このうちの並進量の値は、焦点距離の推定に用いる撮影距離の値と一致すると考えられる。そこで、ＨＰＥの実行結果として得られる並進量と撮影距離の仮定値とを比較することで、撮影距離の仮定の妥当性を検証することができる。例えば、ここで並進量と撮影距離の仮定値との差が判断閾値よりも大きい場合には、撮影距離の仮定値を変更して、再度、焦点距離の推定と当該推定値を用いるＨＰＥとを行うようにしてもよい。

　なお、上述した２つの手法の他にも、例えば、距離センサを備えるカメラにより、被写体の撮影と共に、撮影距離を計測するようにしてもよい。また、カメラの撮影に連動するようにカメラと接続された距離センサにより、撮影距離を計測するようにしてもよい。

　本実施形態では、このような手法を用いて取得した撮影距離の値を用いて焦点距離の値の推定を行い、この推定結果を用いて前述したＨＰＥを行う。

　また、焦点距離の値を推定する別の手法として、焦点距離に初期値を一旦設定した上でＨＰＥを利用する顔認証処理を開始し、顔認証処理の結果に基づいて焦点距離を逐次更新するという手法がある。顔認証処理では、撮像画像に顔が映っている人物が認証対象者の本人であることの確からしさを表す顔認証スコアが処理結果として得られる。このスコアは、ＨＰＥで用いた焦点距離の値が真の値に近くなるほど高い値となり、真の値から遠くなるほど低い値となると推定される。そこで、このスコアを焦点距離の値の更新処理における重みとして利用することで、より精度の高い焦点距離の推定値を得ることを可能にする。

　次に、顔ランドマークを用いてＨＰＥを行う焦点距離算出装置の構成について説明する。

　図４は、焦点距離算出装置の構成の第１の例を示している。この焦点距離算出装置１は、人物の顔の姿勢を推定する姿勢推定装置としての機能も有している。

　焦点距離算出装置１にはカメラ２が接続される。カメラ２は、被写体である人物の顔を撮影して、当該人物の顔領域を含む撮像画像を出力する。

　焦点距離算出装置１は、構成要素として、取得部１１、記憶部１２、算出部１３、及び出力部１４を備えている。

　取得部１１は、カメラ２から出力される撮像画像を取得する。

　記憶部１２は、顔ランドマークモデルのモデルデータと、カメラ２から被写体までの撮影距離の値とを記憶している。

　図５は、記憶部１２に記憶されている記憶情報２０の例を示している。この例では、各ランドマークについてのモデル上での位置を表す画像座標系における三次元座標と、撮影距離の値とが、モデルデータ２１及び撮影距離データ２２として、それぞれ示されている。なお、図５では、左眼、右眼、鼻、左側口角、及び右側口角が、ランドマークとして例示されている。

　なお、モデル上の各ランドマークのうちの２つの位置の間の距離は、それぞれのランドマークについての三次元座標に基づいて容易に算出可能であるが、この距離を予め求めておいて記憶部１２に記憶させておき、必要に応じて使用するようにしてもよい。

　算出部１３は、モデル上の各ランドマークのうちの２つの位置の間の距離、例えば、モデル上の左眼と右眼との位置の間の距離を、第１距離として取得する。また、算出部１３は、撮像画像に含まれる顔領域における当該２つのランドマークにそれぞれ対応する２つの位置の間の撮像画像上の距離（画素数）、例えば左眼と右眼との位置の間の撮像画像上の距離を、第２距離として、撮像画像から算出する。算出部１３は、このようにして得られた第１距離及び第２距離と、記憶部１２から読み出すことによって得られる撮影距離データ２２とに基づいて、カメラ２の焦点距離を算出する。算出部１３により算出される焦点距離が、カメラ２の焦点距離の推定結果となる。

　なお、この焦点距離の算出は、前掲した［数４］式におけるｄ’及びｄに第１距離及び第２距離をそれぞれ代入し、Ｚに撮影距離を代入して計算することによって行われる。すなわち、焦点距離は、撮影距離と第１距離とを乗算した値を第２距離で除算することによって算出される。

　算出部１３は、また、上述したようにして算出した焦点距離と、記憶部１２に記憶されているモデルデータ２１とを用いて、取得部１１が取得した撮像画像における被写体である人物の顔の姿勢を算出する。

　算出部１３は、撮像画像の各ランドマークと顔ランドマークモデルとで対応しているそれぞれの位置について、ランドマークの位置を表す二次元座標と、モデル上の位置を表す三次元座標とを、焦点距離の推定値と共に［数１］式に代入して関係式を作成する。なお、この関係式において、撮像画像の画像中心を表す座標（Ｃｘ，Ｃｙ）は撮像画像から求めて代入する。

　算出部１３は、上述したようにして作成される関係式の連立式を、ＤＬＴ法を用いて解くことによって、前掲した［数２］式により表される動き量を、顔の姿勢の推定結果として求める。

　出力部１４は、以上のようにして算出部１３によって算出される、焦点距離の推定結果と顔の姿勢の推定結果とを出力する。

　なお、詳細は後述するが、焦点距離算出装置１が変更部１５を構成要素として更に備えるようにしてもよい。

　変更部１５は、算出部１３により算出される、顔の姿勢の推定結果としての動き量と、カメラ２の焦点距離の推定に用いた撮影距離の値との差を所定の閾値と比較する。ここで、当該差が当該所定の閾値を超える場合には、記憶部１２に記憶されている撮影距離データ２２が適切ではないと判断して、この値を変更する。この値が変更された場合には、算出部１３は、前述した第１距離及び第２距離と、変更後の撮影距離の値とに基づいて、カメラ２の焦点距離の算出を改めて行い、算出された焦点距離を用いて顔の姿勢の推定を改めて行う。

　なお、図４の焦点距離算出装置１を、コンピュータとソフトウェアとの組合せにより構成するようにしてもよい。

　図６はコンピュータ３０のハードウェア構成例を示している。

　コンピュータ３０は、構成要素として、例えば、プロセッサ３１、メモリ３２、記憶装置３３、読取装置３４、通信インタフェース３６、及び入出力インタフェース３７の各ハードウェアを備えている。これらの構成要素はバス３８を介して接続されており、構成要素間で相互にデータの授受を行える。

　プロセッサ３１は、例えば、シングルプロセッサであっても、マルチプロセッサ及びマルチコアであってもよい。プロセッサ３１は、メモリ３２を利用して、例えば、後述する姿勢推定処理の手順を記述した姿勢推定処理プログラムを実行する。

　メモリ３２は、例えば半導体メモリであり、ＲＡＭ領域及びＲＯＭ領域を含んでよい。記憶装置３３は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、ＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略称である。また、ＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略称である。

　読取装置３４は、プロセッサ３１の指示に従って着脱可能記憶媒体３５にアクセスする。着脱可能記憶媒体３５は、例えば、半導体デバイス（ＵＳＢメモリ等）、磁気的作用により情報が入出力される媒体（磁気ディスク等）、光学的作用により情報が入出力される媒体（ＣＤ－ＲＯＭ、ＤＶＤ等）などにより実現される。なお、ＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略称である。ＣＤは、Ｃｏｍｐａｃｔ　Ｄｉｓｃの略称である。ＤＶＤは、Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋの略称である。

　通信インタフェース３６は、例えば、プロセッサ３１の指示に従って通信ネットワーク（不図示）を介してデータを送受信する。

　入出力インタフェース３７は、カメラ２から送られてくる撮像画像の画像データ等の各種のデータを取得する。また、入出力インタフェース３７は、プロセッサ３１から出力される、後述の姿勢推定処理の結果を出力する。

　このコンピュータ３０のプロセッサ３１により実行されるプログラムは、例えば、下記の形態で提供される。

（１）記憶装置３３に予めインストールされている。
（２）着脱可能記憶媒体３５により提供される。
（３）プログラムサーバなどのサーバから通信ネットワークを介して通信インタフェース３６へ提供される。

　なお、コンピュータ３０のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の機能部の一部または全部の機能がＦＰＧＡ及びＳｏＣなどによるハードウェアとして実装されてもよい。なお、ＦＰＧＡは、Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙの略称である。ＳｏＣは、Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐの略称である。

　次に、図４の焦点距離算出装置１により行われる姿勢推定処理について説明する。

　図６のコンピュータ３０とソフトウェアとの組合せにより図４の焦点距離算出装置１を構成する場合には、これより説明する姿勢推定処理の第１の例を記述した姿勢推定プログラムをプロセッサ３１に実行させるようにする。

　図７は、姿勢推定処理の第１の例の処理内容を示したフローチャートである。

　図７において、まず、Ｓ１００では、カメラ２により撮影された、被写体である人物の顔領域を含む撮像画像を取得する処理が行われる。なお、本実施形態では、撮像画像の外周は横長の矩形であるとする。以降の説明では、この矩形の長辺の方向を撮像画像の横方向とする。また、この矩形の短辺の方向（撮像画像の横方向に直交する方向）を撮像画像の縦方向として、撮像画像に表されている人物の頭部の方向を撮像画像の上方向とし、当該人物の胴体の方向を撮像画像の下方向とする。プロセッサ３１は、このＳ１００の処理を実行することで、図４の取得部１１の機能を提供する。

　次に、Ｓ２００において、Ｓ１００の処理により取得された撮像画像から各ランドマークを検出する処理が行われる。前述したＯｐｅｎＣＶやＤｌｉｂには顔の画像から各ランドマークを検出するソフトウェアが用意されており、Ｓ２００の処理では、例えばこのソフトウェアを利用して検出を行う。この処理により検出される各ランドマークは、撮像画像における複数の特徴点の一例である。

　次に、Ｓ３００において、焦点距離算出処理が行われる。この処理はカメラ２の焦点距離の推定値を前述したようにして算出する処理であり、処理の詳細については後述する。

　次に、Ｓ４００において、動き量算出処理が行われる。この処理は、撮像画像とランドマークモデルのモデルデータ２１とを用いて、カメラ座標系についての世界座標系からの動き量を前述したようにして算出する処理であり、この処理の詳細についても後述する。

　プロセッサ３１は、これらのＳ２００、Ｓ３００、及びＳ４００の処理を実行することで、図４の算出部１３の機能を提供する。

　次に、Ｓ５００において、Ｓ４００の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として出力する処理が行われる。また、この処理では、必要に応じて、カメラ２の焦点距離の推定結果として、Ｓ３００の処理により算出された焦点距離を出力する処理も行われる。プロセッサ３１は、このＳ５００の処理を実行することで、図４の出力部１４の機能を提供する。

　Ｓ５００の処理を終えると、姿勢推定処理が終了する。

　次に、図７においてＳ３００として表されている焦点距離算出処理の詳細について説明する。

　図８は、焦点距離算出処理の第１の例の処理内容を示したフローチャートである。

　図８において、まず、Ｓ３１１では、図７のＳ２００の処理により検出されたランドマークのうちからランドマークを２つ抽出する処理が行われる。この第１の例では、抽出対象とする２つのランドマークを選択する手法は任意のものでよい。

　次に、Ｓ３１２において、Ｓ３１１の処理により抽出した２つのランドマークにそれぞれ対応するモデルデータ２１が表す２つの位置の間の距離を、当該２つの位置の間の標準の距離である第１距離として取得する処理が行われる。この第１距離の取得は、例えば、２つのモデルデータ２１がそれぞれ表す位置の座標を用いて算出することによって行われる。この代わりに、各モデルデータ２１が表す位置の間の距離のデータを予め記憶部１２に記憶させておき、このＳ２０２の処理において、該当するデータを記憶部１２から読み出すことで第１距離を取得するようにしてもよい。

　次に、Ｓ３１３において、Ｓ３１１の処理により抽出した２つのランドマークの位置の間の撮像画像上での距離（画素数）を、第２距離として、図７のＳ１００の処理により取得した撮像画像から取得する処理が行われる。

　次に、Ｓ３１４において、記憶部１２に撮影距離データ２２として値が記憶されている、図７のＳ１００の処理により取得した撮像画像の撮影時におけるカメラ２から被写体までの撮影距離を取得する処理が行われる。

　次に、Ｓ３１５において、上述したＳ３１２からＳ３１４までの処理により得られた、第１距離、第２距離、及び撮影距離を用いて、焦点距離を算出する処理が行われる。この焦点距離の算出は、前掲した第１距離、第２距離、及び撮影距離の各値を、［数４］式のｄ’、ｄ、及びＺにそれぞれ代入して計算することによって行われる。

　次に、Ｓ３１６において、Ｓ３１５の処理により算出された焦点距離を、焦点距離の推定結果として出力部１４に出力する処理が行われる。

　Ｓ３１６の処理を終えると、焦点距離算出処理が終了し、プロセッサ３１は、図７の姿勢推定処理へと処理を戻す。

　以上までの処理が焦点距離算出処理の第１の例である。

　次に、焦点距離算出処理の第２の例について説明する。

　この第２の例は、図８にフローチャートで示した第１の例の処理におけるＳ３１１の処理を変更するものである。

　顔ランドマークモデルのモデルデータ２１として用意される、左眼及び右眼の位置、及び、左側と右側とのそれぞれの口角の位置から、左眼と右眼とのそれぞれの位置の間の標準の距離、及び、左側と右側とのそれぞれの口角の位置の間の標準の距離が得られる。また、当該モデルデータ２１として用意される、左眼及び右眼の位置、及び、左側と右側とのそれぞれの口角の位置から、左眼と左側の口角とのそれぞれの位置の間の標準の距離、及び、右眼と右側の口角とのそれぞれの位置の間の距離が得られる。この第２の例は、これらの４つの標準の距離が等しい場合、若しくは、ほぼ等しい場合に特に有効である。

　カメラ２により得られた撮像画像に映っている人物の顔が正面を向いていない場合がある。例えば、撮像画像に映っている顔が横を向いている場合には、撮像画像上に横に並ぶ２つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の当該間隔よりも詰まってしまう。一方、撮像画像に映っている顔が横を向いている場合であっても、撮像画像上に縦に並ぶ２つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の当該間隔から殆ど変化しない。また、例えば、撮像画像に映っている顔が上若しくは下を向いている場合には、撮像画像上に縦に並ぶ２つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の間隔よりも詰まってしまう。一方、撮像画像に映っている顔が上若しくは下を向いている場合であっても、撮像画像上に横に並ぶ２つのランドマークの位置の間隔は、撮像画像に映っている顔が正面を向いている場合の間隔から殆ど変化しない。

　そこで、撮像画像上に横に並ぶ２つのランドマークの位置の間隔と、撮像画像上に縦に並ぶ２つのランドマークの位置の間隔との比較が行われる。ここで、横に並ぶ当該位置の間隔が縦に並ぶ当該位置の間隔よりも広い場合には、当該横に並ぶ２つのランドマークを、焦点距離の算出のために抽出するランドマークとして選択するようにする。また、縦に並ぶ当該位置の間隔が横に並ぶ当該位置の間隔よりも広い場合には、当該縦に並ぶ２つのランドマークを、焦点距離の算出のために抽出するランドマークとして選択するようにする。第２の例では、このようにして、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響の軽減を試みる。

　第２の例では、まず、撮像画像から検出したランドマークの位置を表す情報に基づいて、横長さと縦長さという２つの長さを求める。

　この横長さと縦長さとについて、図９を用いて説明する。

　横長さとは、撮像画像において横方向に並ぶ２つのランドマークのそれぞれの位置の間の距離である。図９の撮像画像例では、例えば、左眼と右眼とのそれぞれの位置の間の距離、若しくは、左側と右側とのそれぞれの口角の位置の間の距離が横長さである。

　また、縦長さとは、撮像画像において縦方向に並ぶ２つのランドマークのそれぞれの位置の間の距離である。図９の撮像画像例では、例えば、左眼と左側の口角とのそれぞれの位置の間の距離、若しくは、右眼と右側の口角とのそれぞれの位置の間の距離が縦長さである。

　第２の例では、この横長さと縦長さとの比較を行う。

　例えば、撮像画像に映っている顔が横を向いている場合、横長さは顔が正面を向いている場合よりも短くなるように見える一方、縦長さは顔が正面を向いている場合と大差なく見える。また、例えば、撮像画像に映っている顔が上若しくは下を向いている場合、横長さは顔が正面を向いている場合と大差なく見える一方、縦長さは顔が正面を向いている場合よりも短くなるように見える。

　第２の例では、横長さが縦長さよりも長い場合には、横長さの定義に用いられるランドマークのペア、すなわち、例えば、左眼と右眼とのペア若しくは左側と右側とのそれぞれの口角のペアを、撮像画像から検出されたランドマークからの抽出対象とする。一方、縦長さが横長さよりも長い場合には、縦長さの定義に用いられるランドマークのペア、すなわち、例えば、左眼と左側の口角とのペア若しくは右眼と右側の口角とペアを、撮像画像から検出されたランドマークから抽出する対象とする。このようにすることで、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響が軽減される。

　ここで図１０について説明する。図１０は、焦点距離算出処理の第２の例の処理内容の一部を示したフローチャートである。

　焦点距離算出処理の第２の例の処理の全体は、図８に示した第１の例のフローチャートにおけるＳ３１１の処理を、図１０のフローチャートで示される処理に置き換えたものである。

　図１０において、まず、Ｓ３２１では、Ｓ１００の処理により取得された撮像画像上での、顔の像における左右の両眼それぞれの位置を表す座標を取得する処理が行われる。この左右の両眼それぞれの位置は、撮像画像における複数の特徴点のうちの第１及び第２の特徴点の一例である。

　次に、Ｓ３２２において、撮像画像上での、顔の像における左側若しくは右側の口角の位置を表す座標を取得する処理が行われる。この処理により取得される座標が表す位置は、撮像画像における複数の特徴点のうちの第３の特徴点の一例である。

　次に、Ｓ３２３において、Ｓ３２１の処理により取得した座標間の距離、すなわち、撮像画像上での、顔の像における左右の両眼それぞれの位置の間の距離を、横長さとして算出する処理が行われる。

　次に、Ｓ３２４において、Ｓ３２２の処理により座標を取得した口角の位置と、Ｓ３２１の処理により座標を取得した左右の両眼のうちで当該口角と同じ側の眼の位置とについての、撮像画像上での距離を、縦長さとして算出する処理が行われる。

　次に、Ｓ３２５において、Ｓ３２３の処理で算出した横長さとＳ３２４の処理で算出した縦長さとの大小を比較し、横長さが縦長さよりも長いか否かを判定する処理が行われる。この判定処理において、横長さが縦長さよりも長いと判定された場合（判定結果がＹＥＳの場合）にはＳ３２６に処理が進み、横長さが縦長さよりも長くはないと判定された場合（判定結果がＮＯの場合）にはＳ３２７に処理が進む。

　Ｓ３２６では、Ｓ３２３の処理において横長さとして距離を算出した左右の両眼を、抽出対象である２つのランドマークとして、図７のＳ２００の処理により検出されたランドマークのうちから、抽出する処理が行われる。

　一方、Ｓ３２７では、Ｓ３２４の処理において縦長さとして距離を算出した、左右のうちの同じ側の片眼と口角とを、抽出対象である２つのランドマークとして、図７のＳ２００の処理により検出されたランドマークのうちから、抽出する処理が行われる。

　上述したＳ３２６及びＳ３２７のどちらかの処理を終えると、その後は図８のＳ３１２に処理が進む。その後、図８のＳ３１６までの処理を終えると、焦点距離算出処理が終了し、プロセッサ３１は、図７の姿勢推定処理へと処理を戻す。

　上述したＳ３２５からＳ３２７までの処理は、第１及び第２の特徴点のペアと第１及び第３の特徴点のペアとのうち、撮像画像における特徴点間の距離が長い方のペアを、撮像画像の複数の特徴点から抽出する２つの特徴点として選択する処理の一例である。

　以上までの処理が焦点距離算出処理の第２の例である。

　なお、図１０のＳ３２１の処理において、撮像画像上での、顔の像における左側と右側とのそれぞれの口角の位置を表す座標を取得するようにしてもよい。但し、このようにする場合には、Ｓ３２２の処理では、撮像画像上での、顔の像における左眼若しくは右眼の位置を表す座標を取得する処理を行うようにする。そして、Ｓ３２３の処理では、撮像画像上での、顔の像における左側と右側とのそれぞれの口角の位置の間の距離を、横長さとして算出するようにする。また、Ｓ３２４の処理では、Ｓ３２２の処理により座標を取得した片眼の位置と、Ｓ３２１の処理により座標を取得した口角のうちで当該片眼と同じ側の口角の位置とについての、撮像画像上での距離を、縦長さとして算出するようにする。そして、Ｓ３２６の処理では、Ｓ３２３の処理において横長さとして距離を算出した左側と右側とのそれぞれの口角を、抽出対象である２つのランドマークとして、図７のＳ２００の処理により検出されたランドマークのうちから、抽出するようにする。

　次に、焦点距離算出処理の第３の例について説明する。

　この第３の例も、第２の例と同様に、図８にフローチャートで示した第１の例の処理におけるＳ３１１の処理を変更するものである。第３の例は、前述した第２の例で前提としていた４つの標準の距離がほぼ等しいとはいえない場合も含めて、撮像画像に映っている顔の向きが焦点距離の推定に及ぼす影響を軽減可能とするものである。

　図１１について説明する。図１１は、焦点距離算出処理の第３の例の処理内容の一部を示したフローチャートである。

　焦点距離算出処理の第３の例のフローチャートの全体は、図８に示した第１の例のフローチャートにおけるＳ３１１の処理を、図１１のフローチャートに置き換えたものである。

　図１１において、まず、Ｓ３３１では、第１、第２、第３、及び第４の線分の長さをそれぞれ算出する処理が行われる。この４つの線分の長さについて、図１２を参照しながら説明する。

　図１２に表されているように、第１の線分の長さとは、モデルデータ２１により表される人物の左右の両眼の位置を結ぶ線分の長さであり、第２の線分の長さとは、モデルデータ２１により表される人物の左側及び右側の口角の位置を結ぶ線分の長さである。また、第３の線分の長さとは、モデルデータ２１により表される人物の左眼の位置と左側の口角の位置とを結ぶ線分の長さであり、第４の線分の長さとは、モデルデータ２１により表される人物の右眼の位置と右側の口角の位置とを結ぶ線分の長さである。

　これらの４つの線分の長さは、モデルデータ２１で表される、人物の左右の両眼の位置と左側及び右側の口角の位置とのそれぞれについての座標から算出可能である。Ｓ３３１の処理では、これらの座標を用いて、４つの線分の長さの算出が行われる。

　なお、これら４つの線分の長さを予め算出して記憶部１２に記憶させておくようにし、Ｓ３３１の処理では、これら４つの線分の長さを記憶部１２から読み出して取得するようにしてもよい。

　図１１において、Ｓ３３１に続くＳ３３２では、Ｓ１００の処理により取得された撮像画像上での、上述した第１、第２、第３、及び第４の線分にそれぞれ対応する画素列の画素数を取得する処理が行われる。

　次に、Ｓ３３３において、Ｓ３３１の処理により得られた４つの線分の長さと、Ｓ３３２の処理により得られた４つの画素列の画素数とを用いて、第１の長さと第２の長さとを算出する処理が行われる。

　ここで、第１の長さとは、撮像画像における第１の方向（例えば横方向）に対応する撮影対象での方向においての撮像画像の１画素に相当する撮影対象での長さである。また、第２の長さとは、撮像画像における第１の方向とは異なる第２の方向（例えば縦方向）に対応する撮影対象での方向においての撮像画像の１画素に相当する撮影対象での長さである。

　Ｓ３３３の処理では、まず、第１の線分の長さを、撮像画像における第１の線分の長さに対応する画素列の画素数で除算した値と、第２の線分の長さを、撮像画像における第２の線分の長さに対応する画素列の画素数で除算した値との平均値が算出される。この平均値が第１の長さとされる。

　また、Ｓ３３３の処理では、第３の線分の長さを、撮像画像における第３の線分の長さに対応する画素列の画素数で除算した値と、第４の線分の長さを、撮像画像における第４の線分の長さに対応する画素列の画素数で除算した値との平均値が算出される。この平均値が第２の長さとされる。

　次に、Ｓ３３４において、Ｓ３３３の処理により算出した第１の長さと第２の長さとの大小を比較し、第１の長さが第２の長さよりも長いか否かを判定する処理が行われる。この判定処理において、第１の長さが第２の長さよりも長いと判定された場合（判定結果がＹＥＳの場合）にはＳ３３５に処理が進み、第１の長さが第２の長さよりも長くはないと判定された場合（判定結果がＮＯの場合）にはＳ３３６に処理が進む。

　Ｓ３３５では、左右の両眼を、若しくは、左右両側の口角を、抽出対象である２つのランドマークとして、図７のＳ２００の処理により検出されたランドマークのうちから、抽出する処理が行われる。

　一方、Ｓ３３６では、左眼と左側の口角とを、若しくは、右眼と右側の口角とを、抽出対象である２つのランドマークとして、図７のＳ２００の処理により検出されたランドマークのうちから、抽出する処理が行われる。

　第１の長さが第２の長さよりも長い場合とは、撮像画像の１画素に相当する撮影対象での長さが、第１の方向（横方向）の方が第２の方向（縦方向）よりも長い場合である。この場合、撮像画像の顔は、第２の方向を向いており、正面を向いている場合よりも第２の方向の実際の長さが詰まっていると推定される。この場合には、撮像画像の顔が第２の方向を向いていることによる影響を受け難い、第１の方向に並んでいる２つのランドマークを、図７のＳ２００の処理により検出されたランドマークのうちから抽出するようにする。すなわち、Ｓ３３５の処理では、撮像画像において横方向に並んでいる、左右の両眼、若しくは、左右両側の口角を、抽出対象の２つのランドマークとする。

　一方、第２の長さが第１の長さよりも長い場合とは、撮像画像の１画素に相当する撮影対象での長さが、第２の方向（縦方向）の方が第１の方向（横方向）よりも長い場合である。この場合、撮像画像の顔は、第１の方向を向いており、正面を向いている場合よりも第１の方向の実際の長さが詰まっていると推定される。この場合には、撮像画像の顔が第１の方向を向いていることによる影響を受け難い、第２の方向に並んでいる２つのランドマークを、図７のＳ２００の処理により検出されたランドマークのうちから抽出するようにする。すなわち、Ｓ３３６の処理では、撮像画像において縦方向に並んでいる、左眼と左側の口角とを、若しくは、右眼と右側の口角とを、抽出対象の２つのランドマークとする。

　上述したＳ３３５とＳ３３６とのどちらかの処理を終えると、その後は図８のＳ３１２に処理が進む。その後、図８のＳ３１６までの処理を終えると、焦点距離算出処理が終了し、プロセッサ３１は、図７の姿勢推定処理へと処理を戻す。

　以上までの処理が焦点距離算出処理の第３の例である。

　次に、図７においてＳ４００として表されている動き量算出処理の詳細について説明する。

　図１３は、動き量算出処理の処理内容を示すフローチャートである。

　図１３において、まず、Ｓ４０１では、図７のＳ３００の処理により算出された焦点距離、すなわち、カメラ２の焦点距離の推定結果を取得する処理が行われる。

　次に、Ｓ４０２において、撮像画像の画像中心についての撮像画像上での位置を表す座標を撮像画像から取得する処理が行われる。

　次に、Ｓ４０３において、図７のＳ２００の処理により検出した各ランドマークについての、撮像画像上での位置を表す座標を、撮像画像から取得する処理が行われる。

　次に、Ｓ４０４において、図７のＳ２００の処理により検出した各ランドマークにそれぞれ対応している顔ランドマークモデルの位置を表す座標を、記憶部１２に記憶されているモデルデータ２１から取得する処理が行われる。

　次に、Ｓ４０５において、図７のＳ２００の処理により検出した各ランドマークについて、撮像画像上の位置を表す座標とモデル上の位置を表す座標との関係式を作成する処理が行われる。

　このＳ４０５の処理では、まず、前掲した［数１］式において、Ｓ４０１の処理で取得した焦点距離の値をｆに代入し、Ｓ４０２の処理で取得した画像中心の座標をＣｘ及びＣｙにそれぞれ代入する。次に、これらの値を代入した［数１］式について、ランドマーク毎のＳ４０３の処理で取得した座標とＳ４０４の処理で取得した座標とを、それぞれ、ｘ及びｙと、Ｕ、Ｖ、及びＷとに代入することによって、ランドマーク毎の関係式を作成する。

　次に、Ｓ４０６において、Ｓ４０５の処理により作成した関係式の連立式を、前述したＤＬＴ法を用いて解くことによって、動き量（［数２］式に示した回転量Ｒ及び並進量ｔ）を、撮像画像における人物の顔の姿勢の結果として算出する処理が行われる。

　Ｓ４０６の処理を終えると、動き量算出処理が終了し、プロセッサ３１は、図７の姿勢推定処理へと処理を戻す。

　以上までの処理が動き量算出処理である。

　以上の姿勢推定処理の第１の例をプロセッサ３１が実行することによって、図６のコンピュータ３０が図４の焦点距離算出装置１として動作し、カメラ２の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。

　次に、姿勢推定処理の第２の例について説明する。

　この第２の例は、前述した撮影距離の取得の第２の手法を採用して、カメラ２の焦点距離の算出と、被写体である人の姿勢についての推定とを行うものである。

　図１４は、姿勢推定処理の第２の例の処理内容を示したフローチャートである。

　このフローチャートで示されている処理のうち、図７に示した第１の例についてのフローチャートで示されているものと同一の処理については、図７と同一の符号を付している。これらの同一の符号を付した処理については説明を省略する。

　図１４に示した第２の例の処理は、図７に示した第１の例の処理に、Ｓ６０１からＳ６０３までの各処理が追加されたものとなっている。

　図１４において、Ｓ６０１の処理は、Ｓ１００からＳ４００までの各処理を終えると開始される。

　Ｓ６０１において、Ｓ４００の処理により算出された動き量のうちの並進量の大きさ（ベクトルの大きさ）と、Ｓ３００の処理として実行される、図８のＳ３１４の処理により記憶部１２から取得した撮影距離データ２２の値との差の値を算出する処理が行われる。

　次に、Ｓ６０２において、Ｓ６０１の処理により算出した差の値が、予め定められている閾値（例えば、記憶部１２に予め記憶されている撮影距離データ２２の値の１０パーセントの値）よりも大きいか否かを判定する処理が行われる。この判定処理において、算出した差の値が閾値よりも大きいと判定した場合（判定結果がＹＥＳのとき）には、Ｓ６０３に処理を進める。一方、この判定処理において、算出した差の値が閾値よりも大きくはないと判定した場合（判定結果がＮＯのとき）には、Ｓ５００に処理を進める。

　Ｓ６０３では、記憶部１２に撮影距離データ２２として記憶されている撮影距離の値を、Ｓ６０１の処理により算出した差の値に応じて変更する処理が行われる。この処理による撮影距離の値の変更量は、差の値が大きいほど大きくし、差の値が小さいほど小さくしてもよい。

　Ｓ６０３の処理を終えた後にはＳ３００に処理を戻して、変更後の撮影距離の値を用いて焦点距離推定処理が行われる。

　プロセッサ３１は、これらのＳ６０１、Ｓ６０２、及びＳ６０３の処理を実行することで、図４の変更部１５の機能を提供する。

　Ｓ５００では、図７に示した第１の例におけるものと同様に、Ｓ４００の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として出力する処理が行われる。

　以上までの処理が姿勢推定処理の第２の例である。

　なお、図１４のＳ６０３の処理において、撮影距離の値を増加させるか減少させるかは、例えば、その後に実行されるＳ４００の動き量算出処理によって得られる並進量の大きさと撮影距離の値との差の値の変化の傾向に応じて決定するようにする。例えば、撮影距離の値を増加させた場合に当該差の値が増加した場合には、その後のＳ６０３の処理では撮影距離の値を減少させるようにする。また、例えば、撮影距離の値を減少させた場合に当該差の値が増加した場合には、その後のＳ６０３の処理では撮影距離の値を増加させるようにする。

　以上の姿勢推定処理の第２の例をプロセッサ３１が実行することによっても、図６のコンピュータ３０が図４の焦点距離算出装置１として動作し、カメラ２の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。

　次に、顔ランドマークを用いてＨＰＥを行う焦点距離算出装置の別の構成について説明する。

　図１５は、焦点距離算出装置の構成の第２の例を示している。この焦点距離算出装置４も、図４に構成を示した焦点距離算出装置１と同様に、人物の顔の姿勢を推定する姿勢推定装置としての機能も有している。

　この焦点距離算出装置４にはカメラ２と顔認証装置３とが接続される。

　カメラ２は、図４に示した焦点距離算出装置１に接続されるものと同様に、被写体である人物の顔を撮影して、当該人物の顔領域を含む撮像画像を出力する。なお、この第２の例では、カメラ２は、一定の時間間隔毎に撮影を行うものとする。

　焦点距離算出装置４は、構成要素として、取得部４１、記憶部４２、算出部４３、出力部４４、及び更新部４５を備えている。

　取得部４１は、カメラ２が撮影を行う度にカメラ２から出力される、カメラ２により撮影された、被写体である人物の顔領域を含む撮像画像を取得する。

　記憶部４２は、顔ランドマークモデルのモデルデータ２１と、カメラ２から被写体までの撮影距離データ２２とを、図４に示した記憶部１２と同様に記憶している。

　算出部４３は、図４に示した算出部１３と同様にして、第１距離及び第２距離を取得し、取得した第１距離及び第２距離と、記憶部４２から得られる撮影距離データ２２の値とに基づいて、カメラ２の焦点距離を、推定結果として算出する。また、算出部４３は、図４に示した算出部１３と同様にして、前掲した［数２］式により表される動き量を、顔の姿勢の推定結果として求める。

　出力部４４は、図４に示した出力部１４と同様に、算出部４３により算出される、焦点距離の推定結果と顔の姿勢の推定結果とを出力する。

　顔認証装置３は、焦点距離算出装置４から出力される顔の姿勢の推定結果に基づき、カメラ２から出力される撮像画像に映っている顔の像に対して姿勢の補正を行う。顔認証装置３は、この補正後の顔の像に対して顔認証処理を実行して、前述した顔認証スコアを実行結果として出力する。

　焦点距離算出装置４の取得部４１は、更に、顔認証装置３から出力される顔認証スコアの取得も行う。

　焦点距離算出装置４の更新部４５は、取得部４１が取得した顔認証スコアに基づいて、カメラ２から被写体までの撮影距離の値を更新する。

　焦点距離算出装置４の算出部４３は、更新部４５が撮影距離の値を更新した後に動き量を求める場合には、当該更新後の値を用いて行う。

　ここで、図１５に示した焦点距離算出装置４の使用態様の一例について、図１６を参照しながら説明する。この態様はゲート入退出の管理における使用態様である。

　この使用態様では、まず、ゲートに向かって歩行している認証対象者をカメラ２が撮影して得られた撮像画像を用いて顔認証処理を認証システム６が繰り返し実行することによって、データベースに多数蓄積されている本人情報の絞り込みを行う。続いて、ゲートに到達した認証対象者に対する掌静脈認証処理を、静脈センサ５を用いて認証システム６が実施して、絞り込みがされた本人情報のいずれかに認証対象者が該当するか否かを判定し、該当すると判定した場合に認証システム６がゲートを開放する。

　図１５の顔認証装置３と焦点距離算出装置４とは認証システム６に備えられている。認証システム６により実行される顔認証処理は、これらの装置によって行われる。この使用態様では、焦点距離算出装置４は歩行中の認証対象者に対する顔認証処理を行うことから、カメラ２から認証対象者（被写体）までの撮影距離は刻々と変化するため、撮影距離を事前に想定することは困難である。

　そこで、焦点距離算出装置４は、記憶部４２に撮影距離データ２２として事前に記憶されている撮影距離の値を初期値として用いて焦点距離の算出と、算出した焦点距離を用いた顔の姿勢の推定とを行う。顔認証装置３は、焦点距離算出装置４による顔の姿勢の推定結果に基づいて撮像画像に映っている顔の像に対して姿勢の補正を行った上で顔認証処理を実行する。顔認証装置３は、この顔認証処理において、認証対象者が本人か否かの判定の基礎とする顔認証スコアを出力する。焦点距離算出装置４は、顔認証装置３から出力される顔認証スコアを、焦点距離の値に対する重みとして利用して焦点距離の値の更新処理を行い、その後に行う顔の姿勢の推定の処理では、更新後の焦点距離の値を用いて行うようにする。以降、焦点距離の値の更新処理と顔の姿勢の推定の処理とを交互に繰り返し行うことで、精度の高い焦点距離の推定値が得られるようになる。

　次に、図１５の焦点距離算出装置４により行われる姿勢推定処理について説明する。

　図１７は、姿勢推定処理の第３の例の処理内容を示したフローチャートである。

　なお、これより説明する姿勢推定処理の第３の例を記述した姿勢推定プログラムをプロセッサ３１に実行させるようにすることで、図６のコンピュータ３０とソフトウェアとの組合せにより図１５の焦点距離算出装置４を構成することも可能である。

　図１６を用いて説明した使用態様では、図１７の処理は、例えば、ゲートに向かって歩行している認証対象者が予め定めておいた地点に到達したことが検知されると開始される。このようにする場合には、例えば、この地点に立つ人物の顔についてのカメラ２からの距離を予め測定しておき、この測定した距離を表す値を、撮影距離データ２２として、記憶部４２に予め記憶させておくようにしてもよい。

　図１７において、まず、Ｓ７０１では、カメラ２により送られてくる、被写体である人物の顔領域を含む撮像画像を取得する処理が行われ、１枚の撮像画像の取得が完了すると、Ｓ７０２に処理が進む。

　次に、Ｓ７０２において、Ｓ７０１の処理により取得された撮像画像から各ランドマークを検出する処理が行われる。この処理は、図７のフローチャートにおけるＳ２００の処理と同様の処理である。

　次に、Ｓ７０３において、この姿勢推定処理の実行が開始されて以降に、後述するＳ７０７の処理による焦点距離の更新が既に行われたか否かを判定する処理が行われる。

　このＳ７０３の判定処理において、焦点距離の更新が既に行われたと判定されたとき（判定結果がＹＥＳのとき）には、Ｓ７０４において、更新後の最新の焦点距離の値を取得する処理が行われる。

　一方、Ｓ７０３の判定処理において、焦点距離の更新は未だ行われていないと判定されたとき（判定結果がＮＯのとき）には、Ｓ３００の焦点距離算出処理が行われる。この焦点距離算出処理は図７のフローチャートにおけるＳ３００の処理と同様の処理である。なお、このＳ３００の処理として行われる図８のＳ３１４の処理では、カメラ２から被写体までの撮影距離の値が、記憶部４２に記憶されている撮影距離データ２２から取得される。

　上述したＳ７０４若しくはＳ３００の処理に続いて、Ｓ４００において動き量算出処理が行われる。この動き量算出処理は図７のフローチャートにおけるＳ４００の処理と同様の処理である。但し、Ｓ７０４の処理に続いてＳ４００の処理が実行される場合には、Ｓ４００の処理として行われる図１３のＳ４０１の処理により、Ｓ７０４の処理で取得された焦点距離の値が、焦点距離の推定結果として取得される。一方、Ｓ３００の処理に続いてＳ４００の処理が実行される場合には、Ｓ４００の処理として行われる図１３のＳ４０１の処理により、Ｓ３００の処理により算出された値が、焦点距離の推定結果として取得される。

　プロセッサ３１は、これらのＳ７０２からＳ７０４の各処理と、Ｓ３００及びＳ４００の各処理とを実行することで、図１５の算出部４３の機能を提供する。

　Ｓ４００の処理に続くＳ７０５において、Ｓ４００の処理により算出された動き量を、被写体である人物の顔の姿勢の推定結果として、顔認証装置３へ出力する処理が行われる。プロセッサ３１は、このＳ７０５の処理を実行することで、図１５の出力部４４の機能を提供する。

　顔認証装置３は、人物の顔の姿勢の推定結果を受け取ると、前述したように、この推定結果に基づいて、カメラ２から受け取った撮像画像に映っている顔の像に対して姿勢の補正を行った上で顔認証処理を実行し、顔認証スコアを実行結果として出力する。顔認証装置３が出力する顔認証スコアは、撮像画像に顔が映っている人物が認証対象者の本人であることの確からしさを表す指標であり、確からしいほどスコアの値が大きくなるものとする。

　Ｓ７０６では、Ｓ７０５の処理により出力された人物の顔の姿勢の推定結果の入力に応じて顔認証装置３が出力した顔認証スコアを取得する処理が行われる。プロセッサ３１は、前述したＳ７０１の処理と、このＳ７０６の処理とを実行することで、図１５の取得部４１の機能を提供する。

　Ｓ７０７では、Ｓ７０６の処理により取得した認証スコアを用いて、焦点距離の値を更新する処理が行われる。この更新処理では、下記の［数５］式の計算を行うことによって、更新後の焦点距離の値ｆが算出される。

　［数５］式において、ｆ０は、焦点距離の更新前の値、すなわち、この処理の直前に実行されたＳ４００の動き量算出処理において動き量の算出に用いた焦点距離の値（Ｓ７０４の処理若しくはＳ３００の処理で得られた値）である。また、ｔは、この処理の直前に実行されたＳ４００の動き量算出処理により算出された動き量のうちの並進量である。

　［数５］式において、αは顔認証スコアを正規化した値であり、０．０以上であって且つ１．０以下の値となる。例えば、αの値が１．０の場合は認証対象者が完全なる本人であることを顔認証スコアが表している場合であり、αの値が０．０の場合は認証対象者が完全なる別人であることを顔認証スコアが表している場合である。

　次に、Ｓ７０８において、Ｓ７０７の処理によらり得られた更新後の焦点距離の値を記憶部４２に記憶させる処理が行われる。この処理により記憶された更新後の焦点距離の値は、この処理の後に実行されるＳ７０４の処理やＳ７０７の処理において使用される。

　プロセッサ３１は、上述したＳ７０７及びＳ７０８の処理を実行することで、図１５の更新部４５の機能を提供する。

　Ｓ７０８の処理を終えた後には、Ｓ７０１に処理を戻し、以降は上述した処理が繰り返される。なお、図１６を用いて説明した使用態様では、例えば、歩行中の認証対象者がゲートに到達し、静脈センサ５による掌静脈の検出が行われることによって、この処理の繰り返しを終了するようにしてもよい。

　以上までの処理が姿勢推定処理の第３の例である。この第３の例の処理をプロセッサ３１が実行することによって、図６のコンピュータ３０が図１５の焦点距離算出装置４として動作し、カメラ２の焦点距離の良好な精度での算出と、被写体である人の姿勢についての良好な推定とを可能にする。

　以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

　　　　１、４　焦点距離算出装置
　　　　２　カメラ
　　　　３　顔認証装置
　　　　５　静脈センサ
　　　　６　認証システム
　　　１１、４１　取得部
　　　１２、４２　記憶部
　　　１３、４３　算出部
　　　１４、４４　出力部
　　　１５　変更部
　　　２０　記憶情報
　　　２１　モデルデータ
　　　２２　撮影距離データ
　　　３０　コンピュータ
　　　３１　プロセッサ
　　　３２　メモリ
　　　３３　記憶装置
　　　３４　読取装置
　　　３５　着脱可能記憶媒体
　　　３６　通信インタフェース
　　　３７　入出力インタフェース
　　　３８　バス
　　　４５　更新部

Claims

　カメラにより撮影された撮像画像を取得する取得部と、
　前記カメラから撮影対象までの撮影距離と、前記撮像画像における複数の特徴点のうちの２つの特徴点間の前記撮影対象についての標準の距離である第１距離とを記憶する記憶部と、
　前記２つの特徴点間の前記撮像画像における距離である第２距離を前記撮像画像から算出し、前記第１距離と前記第２距離と前記撮影離とに基づいて、前記カメラの焦点距離を算出する算出部と
を備えることを特徴とする焦点距離算出装置。
　前記複数の特徴点は、第１、第２、及び第３の特徴点を含み、
　前記第１の特徴点と前記第２の特徴点と間の前記撮影対象についての標準の距離と、前記第１の特徴点と前記第３の特徴点との間の前記撮影対象についての標準の距離とは等しく、
　前記２つの特徴点は、前記第１及び前記第２の特徴点のペアと前記第１及び前記第３の特徴点のペアとのうち、前記撮像画像における特徴点間の距離が長い方のペアを構成する特徴点である、
ことを特徴とする請求項１に記載の焦点距離算出装置。
　前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
　前記第１の特徴点は、前記人物における一方の眼を表す点であり、
　前記第２の特徴点は、前記人物における他方の眼を表す点であり、
　前記第３の特徴点は、前記人物における、前記一方の眼と同じ側の口角を表す点である、
ことを特徴とする請求項２に記載の焦点距離算出装置。
　前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
　前記記憶部は、人物の顔のモデルデータを記憶し、
　前記算出部は、更に、算出した前記焦点距離と、前記モデルデータとを用いて、前記撮像画像における人物の顔の姿勢を算出する
ことを特徴とする請求項１に記載の焦点距離算出装置。
　前記算出部は、前記モデルデータに対する回転量と並進量とを前記姿勢として算出し、
　前記撮影距離と前記並進量との差が所定の閾値を超える場合に、前記記憶部に記憶されている前記撮影距離を変更する変更部を更に備え、
　前記算出部は、前記撮影距離が変更された場合には、前記第１距離と前記第２距離と変更後の前記撮影距離とに基づいた前記焦点距離の算出を行う
ことを特徴とする請求項４に記載の焦点距離算出装置。
　前記撮像画像における第１の方向に対応する前記撮影対象での方向においての前記撮像画像の１画素に相当する前記撮影対象での長さである第１の長さと、前記撮像画像における前記第１の方向とは異なる第２の方向に対応する前記撮影対象での方向においての前記撮像画像の１画素に相当する前記撮影対象での長さである第２の長さとにおいて、
　　前記第１の長さが前記第２の長さよりも長い場合には、前記複数の特徴点のうちで前記第１の方向に並ぶ特徴点のペアを前記２つの特徴点とし、
　　前記第２の長さが前記第１の長さよりも長い場合には、前記複数の特徴点のうちで前記第２の方向に並ぶ特徴点のペアを前記２つの特徴点とする、
ことを特徴とする請求項１に記載の焦点距離算出装置。
　前記取得部は、人物の顔領域を含む前記撮像画像を取得し、
　前記記憶部は、人物の顔のモデルデータを記憶し、
　前記第１の長さは、前記モデルデータにより表される人物の左右の眼の位置を結ぶ第１の線分の長さを前記撮像画像における前記第１の線分に対応する画素列の画素数で除算した値と、前記モデルデータにより表される人物の左右の口角の位置を結ぶ第２の線分の長さを前記撮像画像における前記第２の線分に対応する画素列の画素数で除算した値との平均値であり、
　前記第２の長さは、前記モデルデータにより表される人物の左眼の位置と左側の口角の位置とを結ぶ第３の線分の長さを前記撮像画像における前記第３の線分に対応する画素列の画素数で除算した値と、前記モデルデータにより表される人物の右眼の位置と右側の口角の位置とを結ぶ第４の線分の長さを前記撮像画像における前記第４の線分に対応する画素列の画素数で除算した値との平均値である、
ことを特徴とする請求項６に記載の焦点距離算出装置。
　前記焦点距離は、前記撮影距離と前記第１距離とを乗算した値を前記第２距離で除算することによって算出されることを特徴とする請求項１に記載の焦点距離算出装置。
　前記撮像画像は、人物の顔領域を含む画像であり、
　前記取得部は、前記カメラにより撮影された前記撮像画像を用いて前記人物に対する顔認証処理を行う顔認証装置から出力される、前記人物が認証対象者の本人であることの確からしさを表す顔認証スコアを更に取得し、
　前記顔認証スコアに基づいて、前記記憶部に記憶されている前記撮影距離を更新する更新部を更に備える、
ことを特徴とする請求項１に記載の焦点距離算出装置。
　カメラにより撮影された撮像画像を取得し、
　前記カメラから撮影対象までの撮影距離であって記憶部に記憶されている前記撮影距離と、前記撮像画像における複数の特徴点のうちの２つの特徴点間の前記撮影対象についての標準の距離であって前記記憶部に記憶されている第１距離と、前記２つの特徴点間の前記撮像画像における距離であって前記撮像画像から算出した第２距離とに基づいて、前記カメラの焦点距離を算出する、
処理をコンピュータが行うことを特徴とする焦点距離算出方法。
　カメラにより撮影された撮像画像を取得し、
　前記カメラから撮影対象までの撮影距離であって記憶部に記憶されている前記撮影距離と、前記撮像画像における複数の特徴点のうちの２つの特徴点間の前記撮影対象についての標準の距離であって前記記憶部に記憶されている第１距離と、前記２つの特徴点間の前記撮像画像における距離であって前記撮像画像から算出した第２距離とに基づいて、前記カメラの焦点距離を算出する、
処理をコンピュータに実行させることを特徴とする焦点距離算出プログラム。