WO2020195732A1

WO2020195732A1 - 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体

Info

Publication number: WO2020195732A1
Application number: PCT/JP2020/009917
Authority: WO
Inventors: 和之櫻井
Original assignee: 日本電気株式会社
Priority date: 2019-03-22
Filing date: 2020-03-09
Publication date: 2020-10-01
Also published as: JPWO2020195732A1; JP7151875B2; US11908157B2; EP3944188A4; CN113646806A; EP3944188A1; US20220156959A1

Abstract

画像処理装置（１００）は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出部（１０４）と、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算部（１０６）とを備えることによって、顔画像を用いたなりすましを正確に判定する。

Description

画像処理装置、画像処理方法、およびプログラムが格納された記録媒体

　画像処理装置、画像処理方法、およびプログラムに関し、例えば、人物の顔認証を実行する画像処理装置等に関する。

　空港および競技場などの入退場管理において、保安または本人確認のために、顔認証が利用されている。他人の顔画像（例えば写真の印刷などである）を用いて、顔認証を突破しようと試みる行為が行われる。このような行為は、他人のふりをして行動するなりすましの一例である。

　図８を参照して、なりすましの一例について詳細に説明する。図８に示すように、人物は、写真の印刷またはディスプレイなどを、自分の顔の前に掲げることにより、自分の顔を隠す。印刷またはディスプレイ上には、他人の顔画像が表示される。人物は、印刷またはディスプレイ上に表示された他人の顔画像を用いて、顔認証を不正に通過する。上述のようななりすましを見破るための関連技術が、特許文献１及び非特許文献１に示されている。

　特許文献１に記載の関連技術では、人物の顔を動画で撮影し、時系列の画像間の差分に基づいて、人物のまばたきを検出する。そして、所定期間内に人物のまばたきを一度も検出しなかった場合、人物の顔が本物ではないと判定する。人間の顔が本物ではないとは、その人物本人の顔ではないということである。このようにして、特許文献１に記載の関連技術では、なりすましを判定する。

　非特許文献１に記載の関連技術では、機械学習を利用することによって、なりすましを判定する。具体的には、畳み込みニューラルネットワークを用いて、本物の顔の特徴を学習する。そして、印刷やディスプレイに映る顔画像と、本物の顔とを識別するための識別器を生成する。学習した識別器を用いて、人物の顔が偽物であるか本物であるかを判定する。

特許第５０６１５６３号公報

伊藤康一ほか著、「畳み込みニューラルネットワークを用いた生体検出手法」（電子情報通信学会論文誌Ａ）、２０１７年１２月１日、Vol.J100-A, No. 12, pp. 455-464 SHEN Linlin,"Gabor Features and Support Vector Machine for Face Identification", Biomedical fuzzy and human sciences, the official journal of the Biomedical Fuzzy Systems Association 14(1), pp.61－66, 2009－01－08

　特許文献１に記載の関連技術では、人物のまばたきを検出することによって、なりすましを識別する。そのため、まばたきをする他人の顔を撮影した動画がディスプレイに表示されている場合、特許文献１に記載の関連技術では、ディスプレイに表示されている顔画像が本物であると誤って識別する可能性がある。したがって、悪意ある人物が、他人の顔画像が表示されたディスプレイを図８のように手に持ちながら、顔認証を不正に通過することを防止できない。

　非特許文献１に記載の関連技術では、ディスプレイに表示される顔画像の解像度が高くなるほど、識別器の精度が低下して、顔画像を本物の顔であると誤って識別する可能性が高くなる。

　本発明は、上記の課題に鑑みてなされたものであり、その目的は、顔画像を用いたなりすましを正確に識別できる画像処理装置等を提供することにある。

　本発明の一態様に係わる画像処理装置は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出手段と、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算手段とを備えている。

　本発明の一態様に係わる画像処理方法は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出し、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することを含む。

　本発明の一態様に係わるプログラムは、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出することと、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することとをコンピュータに実行させる。

　本発明の一態様によれば、顔画像を用いたなりすましを正確に識別できる。

実施形態１に係わる画像処理装置の構成を示すブロック図である。人物の頭部／体部の動きと、なりすましとの関係を説明する図である。実施形態１に係わるなりすましを識別するための処理の流れを示すフローチャートである。実施形態２に係わる画像処理装置の構成を示すブロック図である。実施形態２におけるなりすましの判定基準である標準値を示す図である。実施形態２に係わる画像処理装置において、画像の取得からなりすまし判定処理までの流れを示すフローチャートである。実施形態３に係わる装置のハードウェア構成を示す図である。なりすましを行う人物の一例を示す図である。

　以下の説明において参照する図面上に記載する矢印は、ある信号またはデータの流れの方向を端的に示したものであり、その信号あるいはデータが双方向、あるいは矢印の向きとは逆方向に通信されることを排除することを意図していない。

　〔実施形態１〕
　（画像処理装置１００）
　図１は、本実施形態１に係わる画像処理装置１００の構成を示すブロック図である。図１に示すように、画像処理装置１００は、動き検出部１０４、および、指標値計算部１０６を備えている。動き検出部１０４は、動き検出手段の一例である。また、指標値計算部１０６は、指標値計算手段の一例である。

　動き検出部１０４は、時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する。例えば、動き検出部１０４は、深層学習ニューラルネットワークを用いて、時系列の画像から、人物の頭部の動きに関する特徴、および体部の動きに関する特徴を、画像ごとに検出する。

　ここで、人物の頭部とは、人物の首、顔、頭、および後頭部を含む部位である。体部とは、人物全体のうち頭部を除いた部位の少なくとも一部である。具体的には、体部は、胴体、腕、脚、またはそれらの組み合わせである。時系列の画像は、例えば、図示されない１つ以上の撮像装置が人物を撮影することによって得られる動画の複数のフレーム画像のデータである。フレーム画像のデータは、以下、便宜のため画像とも記載される。時系列の画像は、撮像装置が同じ人物を繰り返して撮影することによって得られた複数の静止画であってもよい。

　上述した動き検出部１０４の構成の一例について説明する。動き検出部１０４は、時系列の画像を取得すると、それら画像を解析することにより、人物の頭部の領域および体部の領域をそれぞれ検出する。

　そして、動き検出部１０４は、時系列の画像間における頭部の領域の画像から、頭部の位置の変化を示す第１の情報を検出し、第１の情報から、頭部の動きに関する特徴を抽出する。また、動き検出部１０４は、時系列の画像間における体部の領域の画像から、体部の位置の変化を示す第２の情報を検出し、第２の情報から、体部の動きに関する特徴を抽出する。以下では、動きに関する特徴のことを、動き特徴と略称する。

　頭部の位置の変化を示す第１の情報とは、たとえば、時系列の画像における頭部の領域から検出される追跡点の位置の変化（変位）を示す情報である。また体部の位置の変化を示す第２の情報とは、たとえば、時系列の画像間における体部の領域から検出される追跡点の位置の変化（変位）を示す情報である。

　頭部の動き特徴は、例えば、頭部が動く方向を示す動きベクトルである。動き検出部１０４は、第１の情報に基づいて、一定時間における頭部の位置の変化を計算し、頭部が一定時間に動く方向を計算してもよい。あるいは、頭部の動き特徴は、頭部の変位の大きさであってもよいし、頭部の動きの周期であってもよい。動き検出部１０４は、第１の情報に基づいて、頭部の位置が最頂点から次の最頂点まで変化する平均時間を、頭部の動きの周期として計算してもよい。

　頭部の動き特徴を示す情報は、頭部が動く方向を示す動きベクトルに関するデータ、頭部の変位の大きさを表すデータ、あるいは頭部の動きの周期を表すデータであってよい。たとえば、頭部の動きに関する動きベクトルの情報は、頭部の領域内の追跡点の動きベクトルに関するデータを含む。そのデータは、追跡点が変位する前後の位置座標と、ベクトルの向きおよび大きさを表すデータを含んでもよい。

　一方、体部の動き特徴は、例えば体部が動く方向を示す動きベクトルである。あるいは、体部の動き特徴は、体部の変位の大きさであってもよいし、体部の動きの周期であってもよい。体部の動き特徴を示す情報は、体部が動く方向を示す動きベクトルに関するデータ、体部の変位の大きさを表すデータ、あるいは体部の動きの周期を表すデータである。たとえば、体部の動きに関する動きベクトルの情報には、体部の領域内の追跡点の動きベクトルに関するデータであっても良い。そのデータは、追跡点が変位する前後の位置座標と、ベクトルの向き、大きさを表すデータを含んでも良い。

　動き検出部１０４は、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、指標値計算部１０６へ送信する。

　指標値計算部１０６は、動き検出部１０４から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を受信する。指標値計算部１０６は、頭部の動き特徴を示す情報および体部の動き特徴を示す情報に基づいて、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す指標値を計算する。

　なお、ここでいう整合性とは、人物の頭部の動きと人物の体部の動きとが完全に一致することだけを含む概念ではない。人物の頭部の動き特徴と人物の体部の動き特徴との間の近さを表す類似度も、整合性が意味する概念の範疇に含まれる。

　例えば、指標値計算部１０６が計算する指標値は、頭部が動く方向を示す動きベクトルと体部が動く方向を示す動きベクトルを入力とする、深層学習ニューラルネットワークからの出力である。または、指標値は、頭部が動く方向を示す動きベクトルと、体部が動く方向を示す動きベクトルとの間の距離である。あるいは、指標値は、頭部が動く方向を示す動きベクトルと、体部が動く方向を示す動きベクトルとの間の角度であってもよい。指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示すものであれば、計算の手法は限定されない。指標値計算部１０６が計算する指標値と、人物によるなりすましとの関係を、以下で説明する。

　（指標値となりすましとの関係）
　上述したように、指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。なりすましとは、人物が他人であるふりをする行為である。ここでは、人物が、印刷やディスプレイに表示させた他人の顔画像を用いて、なりすましを行う場合について説明する。

　図２を参照して、指標値と、人物によるなりすましの行為との関係について説明する。図２は、指標値となりすましの有無との関係を説明する図である。

　図２中のケース（ａ）は、指標値が低いケースを示す。指標値が低いことは、頭部の動き特徴と体部の動き特徴との間に矛盾があることを示す。ケース（ａ）では、人物が他人の顔画像を用いてなりすましを行っている。人物は、図８に示す人物のように、ディスプレイを手に持ち、顔の前でディスプレイを掲げている。そのため、ケース（ａ）では、頭部の動きと体部の動きとの間において、一人の人間の動きとして矛盾が生じる場合がある。より具体的には、ウォークスルー認証において、ディスプレイを手に持った人物が歩くときに、体部の動きと腕（肘）の動きとの間で、動きの周期や大きさに関して、当該人物が意図しないずれが生じ、ディスプレイに表示された頭部の動きと、当該人物の体部の動きとの間において、一人の人間の動きとして矛盾が生じる。したがって、指標値が低いほど、人物がなりすましを行っている可能性が高くなる。

　図２中の（ｂ）は、指標値が高いケースを示す。指標値が高いということは、頭部の動き特徴と体部の動き特徴とが整合していることを示す。ケース（ｂ）では、人物はなりすましを行っていない。そのため、人物の頭部の動く方向と体部の動く方向とが同期しており、頭部の変位と体部の変位との間にほとんど差がない。すなわち、ケース（ｂ）では、頭部の動きと体部の動きとが一致しているか、あるいは少なくとも類似している。したがって、指標値が低いほど、人物がなりすましを行っている可能性が低くなる。

　（指標値計算処理の流れ）
　図３を参照して、本実施形態１に係わる画像処理装置１００が実行する指標値計算処理について説明する。図３は、画像処理装置１００による指標値計算処理の流れを示すフローチャートである。

　図３に示すように、動き検出部１０４は、時系列の画像を取得する。例えば、動き検出部１０４は、図示しない監視カメラが撮影した動画を取得し、動画のうち、人物を含む複数の画像を抽出する。

　動き検出部１０４は、取得した時系列の画像から、人物の頭部の領域および人物の体部の領域をそれぞれ検出する（Ｓ１０１）。

　動き検出部１０４は、時系列の画像から検出された人物の頭部の領域および人物の体部の領域を解析することによって、人物の頭部の動きに関する特徴（頭部の動き特徴）および体部の動きに関する特徴（体部の動き特徴）を、それぞれ検出する。（Ｓ１０２）。

　動き検出部１０４は、ステップＳ１０２において検出した頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、指標値計算部１０６へ送信する。

　指標値計算部１０６は、動き検出部１０４から、頭部の動き特徴および体部の動き特徴を受信する。そして、指標値計算部１０６は、受信した頭部の動き特徴および体部の動き特徴から、上述した指標値を計算する（Ｓ１０３）。

　図示しないが、ステップＳ１０３の後、指標値計算部１０６は、計算した指標値を表示デバイス等の外部機器（図示せず）に出力してもよい。加えて、本実施形態１において画像処理装置１００は、指標値の大きさから顔画像を用いたなりすましを判定して、アラートを出力してもよい。

　以上で、本実施形態１に係わる画像処理装置１００が実行する指標値計算処理は終了する。

　（本実施形態の効果）
　本実施形態に構成によれば、動き検出部１０４は、人物の頭部の動きに関する特徴と、人物の頭部以外の部位である体部の動きに関する特徴とを検出する。指標値計算部１０６は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する。指標値は、なりすましを識別した結果を表す。

　人物の顔が、印刷またはディスプレイ上に表示された顔画像である場合、人物の頭部の動きと頭部以外の部位の動きとの間に矛盾が生じる。そのため、動き検出部１０４が計算する頭部の動き特徴と、体部の動き特徴とが一致しないので、指標値計算部１０６が計算する指標値は低くなる。すなわち、指標値は、人物がなりすましを行っている可能性を反映したパラメータである。本実施形態１によれば、顔画像を用いたなりすましを正確に識別できる。

　〔実施形態２〕
　本実施形態２は、なりすましを識別した結果を表す指標値を算出するだけでなく、指標値に基づいて、人物がなりすましを行っているか否かを判定し、その判定結果を出力する構成を含む。なお本実施形態２で説明するなりすましスコアは、指標値に基づくパラメータの一例である。

　（画像処理装置２００）
　図４を参照して、本実施形態２に係わる画像処理装置２００の構成を説明する。図４は、画像処理装置２００の構成を示すブロック図である。図４に示すように、画像処理装置２００は、動き検出部２１０、指標値計算部２３０、および、なりすまし判定部２４０を備えている。動き検出部２１０は、動き検出手段の一例である。指標値計算部２３０は、指標値計算手段の一例である。なりすまし判定部２４０は、なりすまし判定手段の一例である。

　画像処理装置２００は、入力部１０および出力部２０と接続されている。入力部１０は、時系列の画像を、画像処理装置２００の動き検出部２１０に含まれる頭部検出部２１１および体部検出部２１２へ入力する。入力部１０は、時系列の画像を生成する撮像装置を備えていてもよい。

　出力部２０は、画像処理装置２００のなりすまし判定部２４０から、人物がなりすましをしているか否かを示す判定結果（図４では、なりすまし判定結果と記載している）と、後述するなりすましスコアのデータを受信する。出力部２０は、受信したなりすましスコアおよびなりすまし判定結果を、表示デバイスなどの外部機器へ出力する。

　図４に示すように、画像処理装置２００、入力部１０、および出力部２０、重み値記憶部３０、標準値記憶部４０、及び閾値記憶部５０は、なりすまし検知装置１を構成している。

　図４に示すように、動き検出部２１０は、頭部検出部２１１、体部検出部２１２、頭部動き特徴抽出部２１５、体部動き特徴抽出部２１６、および特徴統合部２２０を備えている。

　頭部検出部２１１は、頭部検出手段の一例である。体部検出部２１２は、体部検出手段の一例である。

　頭部検出部２１１は、時系列の画像において、人物の頭部に対応する領域を検出する。前記実施形態１で説明したように、人物の頭部とは、人物の首、顔、頭、および後頭部を含む部位である。体部検出部２１２は、時系列の画像において、人物の体部に対応する領域を検出する。体部とは、人物全体のうち頭部を除いた部位の少なくとも一部である。

　例えば、頭部検出部２１１は、時系列の画像のそれぞれから、パターンマッチングによって、人物の頭部の輪郭を検出する。例えば、体部検出部２１２は、時系列の画像のそれぞれから、パターンマッチングによって、人物の体部の輪郭を検出する。この場合、頭部検出部２１１は、予め収集した頭部の輪郭のサンプル画像と、入力部１０から取得した時系列の画像とをマッチングすることによって、時系列の画像から人物の頭部の輪郭を検出する。同様に、パターンマッチングの手法によって、体部検出部２１２は、時系列の画像から人物の体部の輪郭を検出する。

　頭部検出部２１１は、検出した人物の頭部の領域において、人物の頭部の追跡点を検出する。頭部の追跡点は、例えば、目、鼻、または耳などの顔にあるパーツの位置、または首または頭頂の位置である。体部検出部２１２は、体部検出部２１２が検出した人物の体部の領域において、人物の体部の追跡点を検出する。体部の追跡点は、例えば、胴体、腕、または脚にある関節の位置である。しかしながら、頭部および体部の追跡点は、ここで説明した例に限定されない。

　具体的には、頭部検出部２１１は、追跡点を特定するための情報を用いて、時系列の画像の各々から、人物の頭部の追跡点を検出する。体部検出部２１２は、追跡点を特定するための情報を用いて、時系列の画像の各々から、人物の体部の追跡点を検出する。

　追跡点を特定するための情報は、例えば、追跡点の特徴量である。追跡点の特徴量は、追跡点に対応する画素とその周辺の画素との間の輝度差に関するHaar-like特徴量であってもよい。あるいは、追跡点を示す情報は、追跡点に対応する画素の輝度や色合いを、Ｇａｂｏｒフィルタ（非特許文献２）を用いて、ベクトルデータ（数値データ列）に変換したものであってもよい。ベクトルデータは、特徴ベクトルとも呼ばれる。

　時系列の画像のデータをベクトルデータに変換する他の手法として、ＳＩＦＴ（Scale－Invariant Feature Transform）手法またはＨＯＧ（Histograms of Oriented Gradients）手法を使用してもよい。頭部検出部２１１および体部検出部２１２は、画像の種類に応じて、適切な特徴量変換フィルタを選択するように設計されてもよい。

　頭部検出部２１１は、時系列の複数の画像のデータとともに、時系列の複数の画像における頭部の追跡点の検出結果を、頭部動き特徴抽出部２１５へ送信する。体部検出部２１２は、時系列の複数の画像のデータとともに、時系列の複数の画像における体部の追跡点の検出結果を、体部動き特徴抽出部２１６へ送信する。

　あるいは、頭部検出部２１１は、頭部の追跡点の検出結果の代わりに、頭部の領域の検出結果（例えば、頭部の輪郭の位置情報）を、頭部動き特徴抽出部２１５へ送信してもよい。また体部検出部２１２は、体部の追跡点の検出結果の代わりに、体部の領域の検出結果（例えば、体部の輪郭の位置情報）を、体部動き特徴抽出部２１６へ送信してもよい。

　頭部動き特徴抽出部２１５は、頭部検出部２１１から、時系列の複数の画像のデータとともに、時系列の画像における人物の頭部の検出結果を受信する。体部動き特徴抽出部２１６は、体部検出部２１２から、時系列の複数の画像のデータとともに、時系列の画像における人物の体部の検出結果を受信する。

　頭部動き特徴抽出部２１５は、時系列の画像における人物の頭部の検出結果を用いて、時系列の複数の画像から、頭部の動きに関する特徴（頭部の動き特徴）を抽出する。頭部の動き特徴は、人物の頭部の追跡点の動きベクトルを含む。

　体部動き特徴抽出部２１６は、時系列の画像における人物の体部の検出結果を用いて、時系列の複数の画像から、体部の動きに関する特徴（体部の動き特徴）を抽出する。体部の動き特徴は、人物の体部の追跡点の動きベクトルを含む。

　具体的には、頭部動き特徴抽出部２１５は、頭部検出部２１１から受信した人物の頭部の検出結果に基づいて、時系列の画像における頭部の位置の変化を計算する。たとえば、頭部動き特徴抽出部２１５は、時系列の画像間における頭部の領域の画像から、頭部の位置の変化を示す第１の情報を検出する。そして、頭部動き特徴抽出部２１５は、計算した頭部の位置の変化を示す第１の情報から、人物の頭部の動き特徴を計算する。たとえば、頭部動き特徴抽出部２１５は、第１の情報から、人物の頭部の動き特徴を示す動きベクトルに関する情報を算出する。

　また、体部動き特徴抽出部２１６は、体部検出部２１２から受信した人物の体部の検出結果に基づいて、時系列の画像における体部の位置の変化を計算する。たとえば、体部動き特徴抽出部２１６は、時系列の画像間における体部の領域の画像から、体部の位置の変化を示す第２の情報を検出する。そして、体部動き特徴抽出部２１６は、計算した体部の位置の変化を示す第２の情報から、人物の体部の動き特徴を計算する。たとえば、体部動き特徴抽出部２１６は、第２の情報から、人物の体部の動き特徴を示す動きベクトルに関する情報を算出する。

　頭部動き特徴抽出部２１５は、時系列の画像から抽出した頭部の動き特徴を示す情報を、特徴統合部２２０へ送信する。体部動き特徴抽出部２１６は、時系列の画像から抽出した体部の動き特徴を示す情報を、特徴統合部２２０へ送信する。

　特徴統合部２２０は、頭部動き特徴抽出部２１５および体部動き特徴抽出部２１６から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報を、それぞれ受信する。特徴統合部２２０は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴とを統合することによって、一つの統合特徴を生成する。換言すれば、特徴統合部２２０は、頭部の動き特徴および体部の動き特徴から、人物の頭部の動きと人物の体部の動きとの組み合わせに関する統合特徴を生成する。統合特徴の一例を以下で説明する。

　（統合特徴の一例）
　例えば、統合特徴は、頭部の動き特徴を表す頭部の動きベクトルと、体部の動き特徴を表す頭部の動きベクトルとを連結したベクトルである。あるいは、統合特徴は、頭部の動き特徴と体部の動き特徴との加重和である。後者の場合、統合特徴は、以下の式（１）のように表されてもよい。ここで、頭部の追跡点の識別子を符号ｉ（ｉは１以上の整数）で表し、体部の追跡点の識別子を符号ｊ（ｊは１以上の整数）で表す。

　式（１）において、Ｆ（ｉ，ｊ，ｘ_ｉ，ｙ_ｊ）は統合特徴であり、ｆ（ｉ）は頭部の追跡点ｉの動き特徴であり、ｇ（ｊ）は、体部の追跡点ｊの動き特徴である。ｘ_ｉ，ｙ_ｊは、それぞれ、頭部の動き特徴の重み値、体部の動き特徴の重み値である。特徴統合部２２０が重み値ｘ_ｉ，ｙ_ｊを設定する手法については後述する。

　特徴統合部２２０は、頭部の動き特徴および体部の動き特徴を用いて、式（１）にしたがって、統合特徴Ｆを計算する。そして、特徴統合部２２０は、計算した統合特徴Ｆを示す情報を、指標値計算部２３０へ送信する。

　指標値計算部２３０は、特徴統合部２２０から、統合特徴を示す情報を受信する。本実施形態２の指標値計算部２３０は、統合特徴から指標値を計算する。具体的には、指標値計算部２３０は、深層学習ニューラルネットワークに統合特徴を入力し、出力値として、指標値を得る。
　または、指標値計算部２３０は、統合特徴と標準値との距離を計算する。標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから、式（１）にしたがって得られる統合特徴の代表的な値である。なお、標準値の一例を後で説明する。

　例えば、統合特徴と標準値との距離は、特徴空間におけるユークリッド距離であってもよいし、それ以外の距離であってもよい。本実施形態２では、指標値計算部２３０は、統合特徴と標準値との距離を、指標値として計算する。本実施形態２の指標値は、前記実施形態１と同様に、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。

　指標値計算部２３０は、計算した指標値のデータを、なりすまし判定部２４０へ送信する。

　なりすまし判定部２４０は、指標値計算部２３０から、指標値のデータを受信する。なりすまし判定部２４０は、受信した指標値に基づいて、なりすましの判定基準にしたがって、人物がなりすましをしているのかどうかを判定する。なりすましの判定基準は、指標値と比較するための閾値である。なりすまし判定部２４０が用いるなりすましの判定基準の具体例を、後で図５を参照しつつ説明する。

　さらに、なりすまし判定部２４０は、指標値計算部２３０が計算した指標値に基づいて、「なりすましスコア」を計算する。なりすましスコアは、人物がなりすましをしている（図２参照）可能性の高さを示すパラメータである。例えば、なりすましスコアは、指標値の逆数である。あるいは、なりすましスコアは、指標値の最大値から、指標値を減算したものであってもよい。指標値の最大値とは、人物の頭部の動きと人物の体部の動きとが完全に一致しているときの指標値である。

　上記の定義により、指標値が大きいほど、なりすましスコアは小さくなり、人物がなりすましをしている可能性は低くなる。一方、指標値が小さいほど、なりすましスコアは大きくなり、人物がなりすましをしている可能性は高くなる。

　なりすまし判定部２４０は、なりすましの判定結果を示す情報およびなりすましスコアのデータを、出力部２０へ送信する。出力部２０は、なりすましの判定結果およびなりすましスコアを出力する。出力先は、表示デバイスであってもよいし、不正を監視するオペレータの端末であってもよい。あるいは、なりすまし判定部２４０は、なりすましの判定結果のみを、出力部２０へ出力してもよい。

　（重み値）
　特徴統合部２２０は、式（１）に示す統合特徴を生成するために、動き特徴ｆ（ｉ）、ｇ（ｊ）の重み値ｘ_ｉ，ｙ_j（ｉ、ｊは追跡点の識別子）を予め設定する必要がある。

　特徴統合部２２０は、なりすましを行っている人物（図２のケース（ａ））の多数のサンプル画像から検出された頭部の動き特徴および体部の動き特徴の組み合わせ（以下、群Ａと呼ぶ）と、なりすましを行っていない人物（図２のケース（ｂ））の多数のサンプル画像から検出された頭部の動き特徴および体部の動き特徴の組み合わせ（以下、群Ｂと呼ぶ）とを、まず取得する。

　あるいは、特徴統合部２２０は、頭部動き特徴抽出部２１５および体部動き特徴抽出部２１６から受信した多数の動き特徴の組み合わせから、これらの群Ａおよび群Ｂを生成してもよい。

　群Ａに属する頭部の動き特徴および体部の動き特徴の組み合わせを、上述した式（１）のｆ（ｉ）、ｇ（ｊ）として代入した場合の統合特徴を、Ｆ_Ａ（ｘ_ｉ，ｙ_ｊ）とする。また、群Ｂに属する頭部の動き特徴および体部の動き特徴の組み合わせを、式（１）のｆ（ｉ）、ｇ（ｊ）として代入した場合の統合特徴を、Ｆ_Ｂ（ｘ_ｉ，ｙ_ｊ）とする。

　特徴統合部２２０は、統合特徴Ｆ_Ａ（ｘ_ｉ，ｙ_ｊ）と統合特徴Ｆ_Ｂ（ｘ_ｉ，ｙ_ｊ）とを区別できるように、重み値ｘ_ｉ，ｙ_ｊを設定する。例えば、特徴統合部２２０は、Ｆ_Ｂ（ｘ_ｉ，ｙ_ｊ）と、Ｆ_Ｂ（ｘ_ｍ，ｙ_ｎ）（ｍ、ｎはｉ、ｊとは異なる追跡点の識別子）との差分の絶対値が、（ｉ，ｊ，ｍ，ｎ）の組み合わせによらず、必ず所定の閾値Ｔｈ以下になり、かつ、Ｆ_Ａ（ｘ_ｉ，ｙ_ｊ）とＦ_Ｂ（ｘ_ｉ，ｙ_ｊ）との差分の絶対値が、（ｉ，ｊ）の組み合わせによらず、所定の閾値Ｔｈを必ず超えるように、重み値ｘ_ｉ，ｙ_ｊを設定する。特徴統合部２２０は、より具体的には、例えば、ｉ、ｊ、ｍ、ｎの値を変えながら、統合特徴Ｆ_Ａ、統合特徴Ｆ_Ｂの値を網羅的に求め、上述した条件を満たす重み値ｘ_ｉ、ｙ_ｊを求めればよい。この場合、重み値ｘ_ｉ、ｙ_ｊ、ｘ_ｍ、ｙ_ｎは、例えば、０以上１以下のいくつかの値を取りうることとし、特徴統合部２２０は、重み値ｘ_ｉ、ｙ_ｊ、ｘ_ｍ、ｙ_ｎに代入する値を変えながら、上述した網羅的な計算を行えばよい。　

　すなわち、特徴統合部２２０は、なりすましを行っていない人物の統合特徴同士は、互いに類似する一方、なりすましを行っていない人物の統合特徴と、なりすましを行っている人物の統合特徴とは類似しないように、重み値ｘ_ｉ，ｙ_ｊを設定する。なお、重み値ｘ_ｉ，ｙ_ｊは、頭部の追跡点と体部の追跡点の組（ｉ，ｊ）ごとに異なっていてよい。閾値Ｔｈのデータは、図４に示す閾値記憶部５０に予め格納されている。

　特徴統合部２２０は、設定した重み値ｘ_ｉ，ｙ_ｊのデータを、図５に示す重み値記憶部３０に格納する。

　（標準値）
　本実施形態２に係わる指標値計算部２３０は、上述した指標値を計算するために、標準値を予め設定する。上述したように、標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから、式（１）にしたがって得られる統合特徴の代表的な値である。例えば、標準値は、なりすましを行っていない人物の複数のサンプル画像から得られる統合特徴Ｆ_Ｂ（ｘ_ｉ，ｙ_ｊ）（ｉ、ｊは追跡点の識別子）の平均などの統計的な値であってもよい。

　指標値計算部２３０は、設定した標準値のデータを、図５に示す標準値記憶部４０に格納する。

　（なりすましの判定基準の一例）
　図５を参照して、なりすまし判定部２４０がなりすましを判定する手法の一例を説明する。図５は、特徴空間を示すグラフである。特徴空間は、Ｎ次元（Ｎ＞１）のユークリッド空間である。図５は、Ｎ次元（Ｎ＞１）のユークリッド空間を３次元で表している。特徴空間の各軸は、統合特徴に含まれる異なる特徴量と対応する。

　図５に示すグラフ中には、標準値が示されている。上述したように、標準値は、なりすましを行っていない人物の複数のサンプル画像から得られる統合特徴の統計的な平準値である。標準値を中心として、一定距離（閾値Ｔｈ）までの範囲よりも外側はメッシュをかけられている。標準値から統合特徴Ｆまでの距離をｄで表す。図５では、ｄ＜Ｔｈである。すなわち、統合特徴Ｆは、統合特徴が、標準値を中心として、一定距離（閾値Ｔｈ）までの範囲内にある。

　図５に示す特徴空間において、統合特徴Ｆが、標準値を中心として、一定距離（閾値Ｔｈ）までの範囲内にあれば、なりすまし判定部２４０は、人物が本物（すなわちなりすましを行っていない）と判定する。一方、統合特徴が、標準値を中心として、一定距離（閾値Ｔｈ）までの範囲外にあれば、なりすまし判定部２４０は、人物がなりすましを行っていると判定する。

　図５に関して、統合特徴Ｆが標準値に近いほど、人物が他人になりすましている可能性が低い。逆に、統合特徴Ｆが標準値から離れるほど、人物が他人になりすましている可能性が高い。したがって、統合特徴と標準値との距離ｄ（指標値に対応）が閾値Ｔｈ以下である場合、なりすまし判定部２４０は、人物がなりすましを行っていないと判定する。一方、統合特徴と標準値との距離ｄが閾値Ｔｈを超える場合、なりすまし判定部２４０は、人物がなりすましを行っていると判定する。

　（画像処理装置２００の動作）
　図６を参照して、本実施形態２に係わる画像処理装置２００が実行する動作について説明する。図６は、画像処理装置２００による画像の取得から、なりすましの判定までの処理の流れを示すフローチャートである。

　図６に示すように、頭部検出部２１１および体部検出部２１２は、それぞれ、入力部１０から、複数の時系列の画像を取得する（Ｓ２０１）。

　例えば、頭部検出部２１１および体部検出部２１２は、一つのカメラによって所定期間内（例えば１０秒間）に撮影された動画のフレーム画像のデータを取得する。

　頭部検出部２１１は、取得した時系列の画像の各々から、人物の頭部を検出する。また体部検出部２１２は、取得した同じ時系列の画像の各々から、人物の体部を検出する（Ｓ２０２）。

　ステップＳ２０２において、頭部検出部２１１は、まず、各画像から、パターンマッチング等によって、人物の頭部の領域を抽出し、その後、抽出した人物の頭部の領域から、頭部の追跡点を検出してもよい。同様に、体部検出部２１２は、まず、各画像から、パターンマッチング等によって、人物の体部の領域を抽出し、その後、抽出した人物の体部の領域から、体部の追跡点を検出してもよい。

　頭部検出部２１１は、時系列の画像のデータとともに、人物の頭部の検出結果を、頭部動き特徴抽出部２１５へ送信する。また体部検出部２１２は、時系列の画像のデータとともに、人物の体部の検出結果を、体部動き特徴抽出部２１６へ送信する。

　頭部動き特徴抽出部２１５は、頭部検出部２１１から、時系列の画像のデータとともに、人物の頭部の検出結果を受信する。また体部動き特徴抽出部２１６は、体部検出部２１２から、時系列の画像のデータとともに、人物の体部の検出結果を受信する。

　頭部動き特徴抽出部２１５は、時系列の画像から、人物の頭部の動き特徴を抽出する。また体部動き特徴抽出部２１６は、時系列の画像から、人物の体部の動き特徴を抽出する（Ｓ２０３）。

　頭部動き特徴抽出部２１５は、検出した頭部の動き特徴を示す情報を、特徴統合部２２０へ送信する。体部動き特徴抽出部２１６は、検出した体部の動き特徴を示す情報を、特徴統合部２２０へ送信する。

　特徴統合部２２０は、頭部動き特徴抽出部２１５および体部動き特徴抽出部２１６から、頭部の動き特徴を示す情報および体部の動き特徴を示す情報をそれぞれ受信する。

　特徴統合部２２０は、頭部の動き特徴および体部の動き特徴を統合することによって、統合特徴を生成する（Ｓ２０４）。

　具体的には、特徴統合部２２０は、重み値記憶部３０（図４参照）に予め格納された重み値ｘ_ｉ，ｙ_ｊ（ｉ，ｊはそれぞれ頭部、体部の追跡点の識別子）を用いて、上述した式（１）にしたがって、重み値ｘ_ｉ，ｙ_ｊ、頭部の動き特徴ｆ（ｉ）、および体部の動き特徴ｇ（ｊ）に対応する統合特徴Ｆ（ｉ，ｊ，ｘ_ｉ，ｙ_ｊ）を生成する。特徴統合部２２０は、生成した統合特徴を示す情報を、指標値計算部２３０へ送信する。

　指標値計算部２３０は、特徴統合部２２０から、統合特徴を示す情報を受信する。指標値計算部２３０は、標準値記憶部４０（図５参照）に予め格納された標準値を取得し、特徴空間における統合特徴と標準値との間の距離ｄ（図５参照）を、指標値として計算する（Ｓ２０５）。

　あるいは、ステップＳ２０５において、指標値計算部２３０は、距離ｄに基づく指標値を計算してもよい。例えば、指標値計算部２３０は、距離ｄに依存する関数の値を、指標値として計算する。指標値計算部２３０は、計算した指標値のデータを、なりすまし判定部２４０へ送信する。

　なりすまし判定部２４０は、指標値計算部２３０から、指標値のデータを受信する。なりすまし判定部２４０は、閾値記憶部５０を参照して、閾値Ｔｈを取得する。そして、なりすまし判定部２４０は、指標値が閾値Ｔｈ（図５参照）以下であるかどうかを判定する（Ｓ２０６）。

　ステップＳ２０６の後、なりすまし判定部２４０は、以下のように、なりすましの有無を判定する。

　統合特徴と標準値との距離ｄ（指標値に対応）が閾値Ｔｈ以下である場合（Ｓ２０６でＹｅｓ）、なりすまし判定部２４０は、人物がなりすましを行っていないと判定する（Ｓ２０７Ａ）。

　一方、統合特徴と標準値との距離ｄが閾値Ｔｈを超える場合（Ｓ２０６でＮｏ）、なりすまし判定部２４０は、人物がなりすましを行っていると判定する（Ｓ２０７Ｂ）。

　その後、なりすまし判定部２４０は、ステップＳ２０７ＡまたはＳ２０７Ｂにおけるなりすましの判定結果と、なりすましスコアのデータとを出力する（Ｓ２０８）。

　出力先は、表示装置であってもよいし、オペレータの端末であってもよい。なお、このステップＳ２０８において、なりすまし判定部２４０は、なりすましの判定結果およびなりすましスコアのデータとともに、指標値計算部２３０が計算した指標値も出力してもよい。

　以上で、本実施形態２に係わる画像処理装置２００が実行するなりすまし判定処理は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、動き検出部２１０は、時系列の画像から、人物の頭部の動きに関する特徴と、人物の頭部以外の部位である体部の動きに関する特徴とを検出する。指標値計算部２３０は、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する。

　人物が印刷やディスプレイなどに表示した顔画像を用いたなりすましをしている場合、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間に矛盾が生じ、整合性が失われる。本実施形態２では、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを示す指標値から、なりすましを正確に識別できる。

　なりすまし判定部２４０は、指標値に基づいて、人物が他人になりすましているか否かを判定する。指標値は、人物の頭部の動きと人物の体部の動きとの間の整合性の高さを示す。そのため、なりすまし判定部２４０は、人物が他人になりすましているか否かを高精度に判定できる。

　さらに、指標値計算部２３０は、特徴統合部２２０が生成した統合特徴と、予め設定された標準値とに基づいて、指標値を計算する。統合特徴は、人物の頭部の動きに関する特徴と、人物の体部の動きに関する特徴との加重和であってもよい。標準値は、なりすましを行っていない人物の頭部の動き特徴と体部の動き特徴との組み合わせから得られる統合特徴の代表的な値であるから、統合特徴が標準値に近いほど、人物はなりすましを行っていない可能性が高い。このような統合特徴および標準値を用いることで、人物の頭部の動きに関する特徴と、体部の動きに関する特徴との間の整合性の高さを高精度に示す指標値を計算できる。

　〔実施形態３〕
　図７を参照して、実施形態３について以下で説明する。

　（ハードウェア構成について）
　前記実施形態１～２で説明した画像処理装置１００、２００の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図７に示すような情報処理装置９００により実現される。図７は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

　図７に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

　　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１
　　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２
　　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
　　・ＲＡＭ９０３にロードされるプログラム９０４
　　・プログラム９０４を格納する記憶装置９０５
　　・記録媒体９０６の読み書きを行うドライブ装置９０７
　　・通信ネットワーク９０９と接続する通信インターフェース９０８
　　・データの入出力を行う入出力インターフェース９１０
　　・各構成要素を接続するバス９１１
　前記実施形態１～２で説明した画像処理装置１００、２００の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

　（本実施形態の効果）
　本実施形態の構成によれば、前記実施形態において説明した画像処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　この出願は、２０１９年３月２２日に出願された日本出願特願２０１９－０５５１６４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１００　画像処理装置
　１０４　動き検出部
　１０６　指標値計算部
　２００　画像処理装置
　２１０　動き検出部
　２１１　頭部検出部
　２１２　体部検出部
　２１５　頭部動き特徴抽出部
　２１６　体部動き特徴抽出部
　２２０　特徴統合部
　２３０　指標値計算部
　２４０　なりすまし判定部

Claims

　時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出する動き検出手段と、
　前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する指標値計算手段と
　を備えた画像処理装置。
　前記指標値は、
　　前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルとの間の距離、
　　前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルとの間の角度、および、
　　前記人物の頭部が動く方向を示す動きベクトルと、前記人物の体部が動く方向を示す動きベクトルを入力とする、深層学習ニューラルネットワークで構成される関数の出力値、のうちいずれかである
　ことを特徴とする請求項１に記載の画像処理装置。
　前記動き検出手段は、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴とを統合することによって、一つの統合特徴を生成する特徴統合手段を含み、
　前記指標値計算手段は、前記統合特徴から前記指標値を計算する
　ことを特徴とする請求項１または２に記載の画像処理装置。
　前記特徴統合手段は、前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との加重和を、前記統合特徴として計算する
　ことを特徴とする請求項３に記載の画像処理装置。
　前記指標値に基づいて、前記人物が他人になりすましているか否かを判定するなりすまし判定手段をさらに備えた
　ことを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
　前記動き検出手段は、
　　前記時系列の画像から、前記人物の頭部を検出する頭部検出手段と、
　　前記時系列の画像から、前記人物の頭部以外の部位を検出する体部検出手段と、
　　前記時系列の画像における前記人物の頭部の検出結果から、前記人物の頭部の動きに関する特徴を抽出する頭部の動き特徴抽出手段と、
　　前記時系列の画像における前記人物の頭部の検出結果から、前記人物の体部の動きに関する特徴を抽出する体部の動き特徴抽出手段と、
　を含む
　ことを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。
　前記人物の頭部の動きに関する特徴は、前記人物の頭部の動きベクトルを含み、
　前記人物の体部の動きに関する特徴は、前記人物の体部の動きベクトルを含む
　ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　前記動き検出手段は、ニューラルネットワークを用いて、前記時系列の画像から、前記人物の頭部の動きに関する特徴、および前記人物の頭部以外の部位の動きに関する特徴をそれぞれ検出する
　ことを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
　時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出し、
　前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算する
　ことを含む画像処理方法。
　時系列の画像から、人物の頭部の動きに関する特徴と、前記人物の頭部以外の部位である体部の動きに関する特徴とを検出することと、
　前記人物の頭部の動きに関する特徴と、前記人物の体部の動きに関する特徴との間の整合性の高さを示す指標値を計算することと
をコンピュータに実行させるためのプログラムが格納された記録媒体。