WO2020137536A1

WO2020137536A1 - 人物認証装置、制御方法、及びプログラム

Info

Publication number: WO2020137536A1
Application number: PCT/JP2019/048414
Authority: WO
Inventors: 雄太工藤
Original assignee: 日本電気株式会社
Priority date: 2018-12-28
Filing date: 2019-12-11
Publication date: 2020-07-02
Also published as: CN113544735A; US20220076005A1; JP7314959B2; JPWO2020137536A1; US12020510B2

Abstract

人物認証装置（２０）は、カメラ（１０）から得られる第１画像シーケンス（４０）に対して所定の時系列操作を加えることで、１つ以上の第２画像シーケンス（５０）を生成する。人物認証装置（２０）は、第１画像シーケンス（４０）及び第２画像シーケンス（５０）のうち、いずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する。人物認証装置（２０）は、抽出した複数の歩容特徴と、照合データベース（３０）に記憶されている照合特徴とを比較することにより、人物の認証を行う。

Description

人物認証装置、制御方法、及びプログラム

　本発明は、映像を用いた人物の照合に関する。

　関連する一般的な歩容に基づく認証装置では、歩行する人物の時系列情報を表現する特徴（以下、歩容特徴）を抽出し、それを比較することで人物の認証を実現している。歩容特徴に関連する文献として、特許文献１から３、及び非特許文献１が挙げられる。特許文献１に記載されている歩容特徴は、各時間における脚部の位置関係である。特許文献２に記載されている歩容特徴は、歩幅、歩調、又は歩速などの脚部の動きの情報と、脚長などの骨格情報である。特許文献３に記載されている歩容特徴は、シルエットの移動量の周波数成分である。非特許文献１は、深層学習を用いて時系列に整列したシルエット全体から歩容特徴を抽出する技術を開示している。

国際公開第２００６／０１３７６５号特開２０１０－２３９９９２号公報特開２０１８－２６０１８号公報

Daksh Thapar、Divyansh Aggarwal、Punjal Agarwal、及び Aditya Nigam、「VGR-Net: A View Invariant Gait Recognition Network」、IEEE 4th International Conference on Identity, Security, and Behavior Analysis（ISBA 2018）、2018年1月

　上述した各文献における歩容特徴の抽出は、人物が同じ方向に十分な時間歩行していることを前提とする。しかしながら、実際の映像に常にそのような歩行が映っているとは限らず、そのような歩行が映っていない場合には、映像から歩容特徴を抽出することが難しいため、歩容特徴に基づく認証が難しい。すなわち、映像内の人物が右左折や転回によって歩行方向を変更する場合や、映像内の人物の歩行時間が短い場合、歩容特徴を抽出して認証を行うことが難しいという問題点がある。

　また、特許文献２に記載の脚長や身長などの骨格情報のように、時系列情報を持たない歩容特徴には、時系列情報を持つ他の歩容特徴に比べ、表現能力が低いという問題がある。そのため、登録人数が増えた場合などにおいて、認識精度が低下するという問題点がある。

　本発明は上記の問題点を鑑みて発明されたものであり、その目的の一つは、映像を用いた人物の照合の精度を向上させる技術を提供することである。

　本発明の人物認証装置は、１）第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成部と、２）第１画像シーケンス及び第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、３）抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する。

　本発明の制御方法はコンピュータによって実行される。当該制御方法は、１）第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成ステップと、２）第１画像シーケンス及び第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、３）抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する。

　本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。

　映像を用いた人物の照合の精度を向上させる技術を提供することである。

人物認証装置の理解を容易にするための例示であり、人物認証装置の内容を限定するものではない。人物認証装置の構成を示すブロック図である。人物認証装置を実現するための計算機を例示する図である。人物認証装置が実行する処理の流れを例示するフローチャートである。時系列操作の第１の例を示す図である。時系列操作の第２の例を示す図である。生成部によって生成されるシルエット画像の一例を示す図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

［実施形態１］
＜概要＞
　図1は、本実施形態に係る人物認証装置２０の概要を例示する図である。図１は、人物認証装置２０の理解を容易にするための例示であり、人物認証装置２０の内容を限定するものではない。

　カメラ１０は、撮像を行うことで、第１画像シーケンス４０を生成する。第１画像シーケンス４０は、カメラ１０によって生成された撮像画像（以下、画像４２）の時系列データである。例えば、第１画像シーケンス４０は、ビデオフレームの時系列データ、すなわちビデオデータである。第１画像シーケンス４０には、人物が含まれている。

　人物認証装置２０は、画像シーケンスを解析することで、人物の認証を行う。そのために、まず人物認証装置２０は、第１画像シーケンス４０から、１つ以上の第２画像シーケンス５０を生成する。第２画像シーケンス５０は、第１画像シーケンス４０に対して所定の時系列操作を加えることで生成される。例えば第２画像シーケンス５０は、第１画像シーケンス４０を構成する複数の画像４２を時系列で逆順に並べることで生成される。

　人物認証装置２０は、第１画像シーケンス４０及び第２画像シーケンス５０のうち、いずれか２つ以上それぞれから、人物の歩容特徴を抽出する。人物認証装置２０は、抽出された複数の歩容特徴を、後述の照合データベース３０に記憶されている歩容特徴と照合することで、人物認証を行う。ここでいう人物認証は、例えば、「第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されているか否かを判定する」という処理や、「照合データベース３０を用いて、第１画像シーケンス４０に含まれている人物を（人物の識別子を）特定する」という処理などである。

　照合データベース３０は、人物の歩容特徴を記憶する任意の記憶装置である。ここで、照合データベース３０に記憶されている歩容特徴を、照合特徴とも呼ぶ。例えば照合データベース３０は、人物の識別子に対応づけて、その人物の歩容特徴を１つ以上記憶している。なお、照合データベース３０は、事前に登録された歩容特徴を記憶していてもよいし、同時に稼働する別の人物認証システムから送信される歩容特徴を記憶してもよい。

＜作用効果＞
　本実施形態では、所定の時系列操作によって、第１画像シーケンス４０から１つ以上の第２画像シーケンス５０が生成され、いずれか２つ以上の画像シーケンスそれぞれから、人物の歩容特徴が抽出される。そして、抽出された複数の歩容特徴と、照合データベース３０に記憶されている照合特徴とを比較することで、人物の認証が行われる。このように、人物認証装置２０では、１つの画像シーケンスに基づいて複数の画像シーケンスが得られ、各画像シーケンスから得られる人物の歩容特徴を用いて人物認証が行われるため、カメラ１０から得られる画像シーケンスのみを用いて人物認証を行うケースと比較し、人物認証の精度を高くすることができる。

＜機能構成の例＞
　図２は、人物認証装置２０の機能構成を例示するブロック図である。人物認証装置２０は、生成部２２、特徴抽出部２３、及び照合部２４を有する。生成部２２は、第１画像シーケンス４０に対して所定の時系列操作を加えることで１つ以上の第２画像シーケンス５０を生成する。特徴抽出部２３は、第１画像シーケンス４０及び第２画像シーケンス５０のうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する。照合部２４は、抽出した複数の歩容特徴と、照合データベース３０に記憶されている照合特徴とを比較することにより、人物認証を行う。

＜人物認証装置２０のハードウエア構成の例＞
　図３は、人物認証装置２０を実現するための計算機１０００を例示する図である。計算機１０００は任意の計算機である。例えば計算機１０００は、Personal Computer（PC）やサーバマシンなどの据え置き型の計算機である。その他にも例えば、計算機１０００は、スマートフォンやタブレット端末などの可搬型の計算機である。なお、計算機１０００は、人物認証装置２０を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。

　計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

　入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

　ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。ネットワークインタフェース１１２０が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。

　ストレージデバイス１０８０は、人物認証装置２０の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ１０４０は、これら各プログラムモジュールをメモリ１０６０に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。

＜カメラ１０について＞
　カメラ１０は、繰り返し撮像を行って時系列の画像４２を生成することにより、第１画像シーケンス４０を生成する任意のカメラである。例えばカメラ１０は、特定の施設や道路などを監視するために設けられている監視カメラである。カメラ１０の設置場所は、屋内であってもよいし、屋外であってもよい。

　カメラ１０は、その位置が移動しないカメラ（以下、固定カメラ）であってもよいし、その位置が移動するカメラ（以下、移動カメラ）であってもよい。例えば固定カメラは、壁、柱、又は天井などの様々な場所に固定で設置されたカメラである。固定カメラが設置される壁等は、ある程度の期間位置が固定されていればよく、その位置が全く変更されないものに限定されない。例えば固定カメラが設置される壁等は、イベント会場などに臨時で設置される仕切りや柱などでもよい。

　例えば移動カメラは、その位置が移動する人や移動物体に取り付けられているカメラである。人に身につけられる移動カメラは、例えば手で保持するカメラ（ビデオカメラや、スマートフォンなどの携帯端末のカメラ）、又は頭や胸などに固定されるカメラ（ウェアラブルカメラなど）などである。例えば移動物体は、車、バイク、ロボット、又は飛翔体（ドローンや飛行船など）などである。移動物体に取り付けられるカメラは、いわゆるドライブレコーダとして用いるために取り付けられているカメラであってもよいし、監視撮影用に別途取り付けられたカメラであってもよい。なお、移動カメラの位置を停止させることで固定カメラを実現してもよい。

　ここで、人物認証装置２０を実現する計算機１０００は、カメラ１０であってもよい。この場合、カメラ１０は、自身で生成した第１画像シーケンス４０から第２画像シーケンス５０を生成し、第２画像シーケンス５０を利用した人物認証を行う。このような機能を持たせるカメラ１０としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP（Internet Protocol）カメラなどと呼ばれるカメラを用いることができる。なお、人物認証装置２０の全ての機能をカメラ１０で実現するのではなく、人物認証装置２０の一部の機能のみがカメラ１０で実現されてもよい。

＜処理の流れ＞
　図４は、人物認証装置２０が実行する処理の流れを例示するフローチャートである。生成部２２は、カメラ１０によって生成された第１画像シーケンス４０を取得する（Ｓ１）。生成部２２は、第１画像シーケンス４０に対して所定の時系列操作を施すことで第２画像シーケンス５０を生成する（Ｓ２）。特徴抽出部２３は、複数の画像シーケンス（第１画像シーケンス４０及び第２画像シーケンス５０のうちのいずれか２つ以上）それぞれから、歩容特徴を抽出する（Ｓ３）。照合部２４は、抽出された複数の歩容特徴及び照合データベース３０に記憶されている照合特徴を用いて、人物認証を行う（Ｓ４）。人物認証装置２０は、認証結果を出力する（Ｓ５）。

＜第１画像シーケンス４０の取得：Ｓ１＞
　生成部２２は第１画像シーケンス４０を取得する（Ｓ１）。ここで、第１画像シーケンス４０を取得する方法には様々な方法を利用できる。例えば生成部２２は、カメラ１０から送信される第１画像シーケンス４０を受信することで、第１画像シーケンス４０を取得する。その他にも例えば、生成部２２は、カメラ１０によって記憶装置に記憶された第１画像シーケンス４０をその記憶装置から読み出すことで、第１画像シーケンス４０を取得する。

＜第２画像シーケンス５０の生成：Ｓ２＞
　生成部２２は、第１画像シーケンス４０に対して所定の時系列操作を加えることで、１つ以上の第２画像シーケンス５０を生成する（Ｓ２）。以下、所定の時系列操作の具体例を説明する。

　図５は、時系列操作の第１の例を示す図である。図５において、生成部２２は、第１画像シーケンス４０を構成する撮像画像（以下、画像４２）を逆順に並べ替えることで、第２画像シーケンス５０を生成している。例えば図５の第１画像シーケンス４０は、画像４２－１、画像４２－２、画像４２－３、及び画像４２－４をこの順で並べたものである。そして、第２画像シーケンス５０は、これらを画像４２－４、画像４２－３、画像４２－２、及び画像４２－１という逆の順序で並べることによって構成される。すなわち、画像５２－１、画像５２－２、画像５２－３、及び画像５２－４がそれぞれ、画像４２－４、画像４２－３、画像４２－２、及び画像４２－１に相当する。

　このように第１画像シーケンス４０を逆順に並べ替えた第２画像シーケンス５０を生成して照合に利用することにより、第１画像シーケンス４０の長さが短い（画像４２の数）が少ない場合でも、歩行状態が類似した画像シーケンスから抽出した歩容特徴を用いて照合することができる。そのため、カメラ１０から得られる画像シーケンスの長さの影響が人物認証の精度に与える影響を小さくし、カメラ１０から得られる画像シーケンスの長さが短い場合であっても精度のよい認証を実現できる。

　図６は、時系列操作の第２の例を示す図である。図６において、生成部２２は、第１画像シーケンス４０から一部の期間の画像シーケンスを抽出することで、第２画像シーケンス５０を生成する。例えば図６の例において、生成部２２は、第１画像シーケンス４０から連続する T 枚の画像４２を抽出し、抽出した画像４２で構成される画像シーケンスを、第２画像シーケンス５０としている。

　ここで、生成部２２は、第１画像シーケンス４０から、それぞれ異なる複数の期間の画像シーケンスを抽出することが好適である。例えば図６では、第２画像シーケンス５０－１及び第２画像シーケンス５０－２が抽出されている。ここで、第２画像シーケンス５０－１は、第１画像シーケンス４０の先頭から始まる T 枚の画像４２によって構成されている。一方、第２画像シーケンス５０－２は、第２画像シーケンス５０－１の先頭よりも後ろに s ずらした位置から始まる T 枚の画像４２によって構成されている。

　ここで、第２画像シーケンス５０の長さ T やずらし幅 s は、任意の大きさとすることができる。例えば、第２画像シーケンス５０の長さを時間で 0.3秒と定める。この場合、カメラ１０が１秒間に２５枚の画像を生成するならば、第２画像シーケンス５０を構成する画像の枚数は８枚となる。スライド幅は、第２画像シーケンス５０の長さよりも小さくすることが好適である。例えば第２画像シーケンス５０を構成する画像の枚数が８枚である場合において、ずらし幅は１枚や２枚などとする。こうすることで、第２画像シーケンス５０同士の一部が重複することになる。

　このように第１画像シーケンス４０の一部を切り出して１つ以上の第２画像シーケンス５０を生成することにより、第１画像シーケンス４０中で人物が進行方向を変えている場合などにおいても、照合が容易な進行方向の部分から抽出した歩容特徴を用いて照合を行うことができる。よって、第１画像シーケンス４０の途中における人物の進行方向の変更が認証の精度に与える影響を小さくし、第１画像シーケンス４０の途中で人物が進行方向を変更する場合においても精度の高い認証を実現できる。

　所定の時系列操作は、上記２つを組み合わせた操作であってもよい。例えば、「第１画像シーケンス４０を時系列の逆順に並べたものから、一部の画像４２を抽出する」という操作である。また、所定の時系列操作は、上記２つの例以外の時系列操作であってもよい。

＜＜画像４２の加工＞＞
　上述の例では、第２画像シーケンス５０を構成する画像５２として、第１画像シーケンス４０を構成する画像４２をそのまま用いている。しかし、生成部２２は、画像４２に対して所定の加工（画像処理）を加え、当該加工後の画像４２を用いて、第２画像シーケンス５０を生成してもよい。

　生成部２２が画像４２に対して加える画像処理は任意である。例えば生成部２２は、画像４２に対して、ノイズを低減させる画像処理を加える。その他にも例えば、生成部２２は、画像４２を、画像４２に含まれる人物のシルエット画像に変換する画像処理を行う。シルエット画像とは、人物を表す画像領域とそれ以外の画像領域とが互いに異なる画素値になるように２値化された画像である。図７は、生成部２２によって生成されるシルエット画像の一例を示す図である。なお、図示の都合上、図７では、黒色をドット柄で表している。

　シルエット画像を生成するために、まず生成部２２は、画像４２から人物を検出する（人物を表す画像領域を検出する）。ここで、画像から人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、畳み込みニューラルネットワークを用いた手法や、HOG（Histogram of Oriented Gradients）を用いた手法などを利用できる。

　さらに生成部２２は、画像４２を検出した人物のシルエット画像に変換する。シルエット画像の生成には、既存の技術を利用することができる。例えば、畳み込みニューラルネットワークを用いた手法により、人物の検出と同時に人物のシルエット画像を生成する。その他にも例えば、背景差分を用いた手法などで事前に生成したシルエットを、人物の検出結果と統合してもよい。

　第１画像シーケンス４０を構成する各画像４２をシルエット画像に変換することにより、第１画像シーケンス４０が、シルエット画像の画像シーケンスに変換される。生成部２２は、このシルエット画像の画像シーケンスに所定の時系列操作を加えることで、第２画像シーケンス５０を生成する。これにより、第２画像シーケンス５０も、シルエット画像の画像シーケンスとなる。

＜歩容特徴の抽出：Ｓ３＞
　特徴抽出部２３は、複数の画像シーケンスそれぞれから、歩容特徴を抽出する（Ｓ３）。少なくとも、特徴抽出部２３は、生成部２２によって生成された第２画像シーケンス５０からは、歩容特徴を抽出する。一方、第１画像シーケンス４０からは、歩容特徴を抽出してもよいし、しなくてもよい。

　画像シーケンスから人物の歩容特徴を抽出する技術には、画像シーケンスから時空間画像特徴を抽出する既存の手法を利用することができる。ここで、時空間画像特徴とは、各画像の画像特徴と画像特徴の時系列情報を同時に表現する特徴である。例えば歩容特徴は、畳み込みニューラルネットワークを用いた手法や、DT（Dense Trajectories）を用いた手法によって抽出できる。例えば畳み込みニューラルネットワークを用いる場合、特徴抽出部２３は、畳み込みニューラルネットワークに対して画像シーケンスを入力し、中間層（隠れ層）の出力を、歩容特徴として抽出する。なお、中間層が複数の層で構成される場合、歩容特徴には、これら複数の層のうちの任意の層の出力を利用できる。

＜歩容特徴による人物認証：Ｓ４＞
　照合部２４は、特徴抽出部２３で抽出した歩容特徴と、照合データベース３０に記憶されている照合特徴とを比較する（照合する）ことで、人物認証を行う。例えば照合部２４は、特徴抽出部２３で抽出した各歩容特徴について、照合データベース３０に記憶されている各照合特徴との間で照合スコアを計算する。例えば照合データベース３０に m 個の照合特徴が記憶されている場合、各画像シーケンスから抽出された歩容特徴について、照合スコアが m 個ずつ算出される。照合スコアは、歩容特徴と照合特徴との類似度の高さを表す指標値である。

　照合スコアには、特徴同士の類似度を表す種々の指標値を利用することができる。例えば照合スコアには、歩容特徴と照合特徴の間の距離（ユークリッド距離など）や、コサイン類似度などの類似度（角度）を用いることができる。なお、特徴間の距離のように、特徴間の類似度が高いほど値が小さくなる指標値については、指標値の逆数を用いたり、指標値に負の数を掛けたりするなどして、特徴間の類似度が高いほど値が大きくなるにようにすることが好適である。また、照合スコアには、上述した複数の種類の指標値のいずれか１つを用いてもよいし、複数種類の指標値を算出してその統計値（最大値、最小値、平均値、又は加重平均値など）を照合スコアとして用いてもよい。

　さらに照合部２４は、照合特徴ごとに、その照合特徴との比較によって得られた各画像シーケンスについての照合スコアの統計値（以下、統計スコア）を算出する。すなわち、各照合特徴について、統計スコアが１つ得られる。照合部２４は、統計スコアを用いて人物認証を行う。

　例えば人物認証として、「第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されているか否かを判定する」という処理を行うとする。この場合、例えば照合部２４は、統計スコアが所定のしきい値以上であるか否かを判定する。所定のしきい値以上である統計スコアが存在する場合（統計スコアの最大値がしきい値以上である場合）、照合部２４は、第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されていると判定する。一方、所定のしきい値以上である統計スコアが存在しない場合（統計スコアの最大値がしきい値未満である場合）、照合部２４は、第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されていないと判定する。

　その他にも例えば、人物認証として、「照合データベース３０を用いて、第１画像シーケンス４０に含まれる人物を特定する」という処理を行うとする。例えばこの場合、照合部２４は、統計スコアの中から、上述した所定のしきい値以上であり、なおかつ最大の統計スコアを特定する。そして照合部２４は、特定した統計スコアに対応する照合特徴を持つ人物（その照合特徴に対応づけられている人物識別子を持つ人物）を、第１画像シーケンス４０に含まれる人物として特定する。例えば、照合データベース３０に登録されている人物Ａの照合特徴と特徴抽出部２３によって算出された歩容特徴との間で算出された統計スコアが、最大の統計スコアであってなおかつ所定のしきい値以上である場合、第１画像シーケンス４０に含まれている人物が人物Ａであると特定される。なお、最大の統計スコアが所定のしきい値未満である場合には、照合部２４は、第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されていないと判定する。

＜認証結果の出力：Ｓ５＞
　人物認証装置２０は、認証結果を出力する（Ｓ５）。認証結果の出力方法は様々である。例えば、人物認証として、「第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されているか否かを判定する」という処理を行うとする。この場合、例えば人物認証装置２０は、第１画像シーケンス４０に含まれる人物が照合データベース３０に登録されている人物であるか否かを表す出力を行う。例えばこの出力は、「照合データベース３０に登録されている人物である」又は「照合データベース３０に登録されている人物でない」旨を表すテキストメッセージや音声メッセージである。その他にも例えば、判定結果に応じた色を出力するランプなどを用いた出力を行ってもよい。

　その他にも例えば、人物認証として、「照合データベース３０を用いて、第１画像シーケンス４０に含まれる人物を特定する」という処理を行うとする。この場合、例えば人物認証装置２０は、特定された人物の識別子の出力、又は「照合データベース３０に登録されている人物でない」旨を表す出力を行う。例えばこの出力は、テキストメッセージや音声メッセージである。

　ここで、各出力装置（テキストメッセージを表示させるディスプレイ装置など、音声メッセージを出力させるスピーカなど、又はランプなど）は、人物認証装置２０に設けられていてもよいし、人物認証装置２０以外に設けられていてもよい。後者の場合、例えば人物認証装置２０は、出力を表す情報を他の装置に送信する。

　以上、本発明の実施形態を詳細に説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で上記実施形態に対して変更や修正を加えたものも、本発明に含まれる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
１．　第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成部と、
　前記第１画像シーケンス及び前記第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、
　前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する人物認証装置。
２．　前記生成部は、前記第１画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第２画像シーケンスを生成する、１．に記載の人物認証装置。
３．　前記生成部は、前記第１画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第２画像シーケンスを生成する、１．に記載の人物認証装置。
４．　前記生成部は、前記第１画像シーケンスに含まれる第１期間から第１の前記第２画像シーケンスを生成し、前記第１画像シーケンスに含まれる第２期間から第２の前記第２画像シーケンスを生成し、
　前記第１期間と前記第２期間は互いに一部が重複する、３．に記載の人物認証装置。
５．　前記生成部は、前記第１画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第２画像シーケンスを生成する、１．～４．のいずれか１つに記載の人物認証装置。
６．　前記抽出部は、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、１．～５．のいずれか１つに記載の人物認証装置。
７．　前記抽出部は、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、１．～５．のいずれか１つに記載の人物認証装置。
８．　前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
　前記抽出部は、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、７．に記載の人物認証装置。
９．　前記照合部は、
　　前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
　　前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
　　前記照合特徴ごとの統計スコアを用いて、前記第１画像シーケンスに含まれる人物の認証を行う、１．～８．のいずれか１つに記載の人物認証装置。
１０．　前記照合部は、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第１画像シーケンスが登録済みの人物であると特定する、９．に記載の人物認証装置。
１１．　前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
　前記照合部は、
　　複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
　　前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第１画像シーケンスに含まれる人物として特定する、９．に記載の人物認証装置。

１２．　コンピュータによって実行される制御方法であって、
　第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成ステップと、
　前記第１画像シーケンス及び前記第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、
　前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する制御方法。
１３．　前記生成ステップにおいて、前記第１画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第２画像シーケンスを生成する、１２．に記載の制御方法。
１４．　前記生成ステップにおいて、前記第１画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第２画像シーケンスを生成する、１２．に記載の制御方法。
１５．　前記生成ステップにおいて、前記第１画像シーケンスに含まれる第１期間から第１の前記第２画像シーケンスを生成し、前記第１画像シーケンスに含まれる第２期間から第２の前記第２画像シーケンスを生成し、
　前記第１期間と前記第２期間は互いに一部が重複する、１４．に記載の制御方法。
１６．　前記生成ステップにおいて、前記第１画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第２画像シーケンスを生成する、１２．～１５．のいずれか１つに記載の制御方法。
１７．　前記抽出ステップにおいて、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、１２．～１６．のいずれか１つに記載の制御方法。
１８．　前記抽出ステップにおいて、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、１２．～１６．のいずれか１つに記載の制御方法。
１９．　前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
　前記抽出ステップにおいて、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、１８．に記載の制御方法。
２０．　前記照合ステップにおいて、
　　前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
　　前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
　　前記照合特徴ごとの統計スコアを用いて、前記第１画像シーケンスに含まれる人物の認証を行う、１２．～１９．のいずれか１つに記載の制御方法。
２１．　前記照合ステップにおいて、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第１画像シーケンスが登録済みの人物であると特定する、２０．に記載の制御方法。
２２．　前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
　前記照合ステップにおいて、
　　複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
　　前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第１画像シーケンスに含まれる人物として特定する、２０．に記載の制御方法。

２３．　１２．～２２．のいずれか一つに記載の制御方法の各ステップをコンピュータに実行させるプログラム。

　この出願は、２０１８年１２月２８日に出願された日本出願特願２０１８－２４８２１３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０　カメラ
２０　人物認証装置
２２　生成部
２３　特徴抽出部
２４　照合部
３０　照合データベース
４０　第１画像シーケンス
４２　画像
５０　第２画像シーケンス
５２　画像
１０００　計算機
１０２０　バス
１０４０　プロセッサ
１０６０　メモリ
１０８０　ストレージデバイス
１１００　入出力インタフェース
１１２０　ネットワークインタフェース

Claims

　第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成部と、
　前記第１画像シーケンス及び前記第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出部と、
　前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合部と、を有する人物認証装置。
　前記生成部は、前記第１画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第２画像シーケンスを生成する、請求項１に記載の人物認証装置。
　前記生成部は、前記第１画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第２画像シーケンスを生成する、請求項１に記載の人物認証装置。
　前記生成部は、前記第１画像シーケンスに含まれる第１期間から第１の前記第２画像シーケンスを生成し、前記第１画像シーケンスに含まれる第２期間から第２の前記第２画像シーケンスを生成し、
　前記第１期間と前記第２期間は互いに一部が重複する、請求項３に記載の人物認証装置。
　前記生成部は、前記第１画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第２画像シーケンスを生成する、請求項１～４のいずれか１項に記載の人物認証装置。
　前記抽出部は、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、請求項１～５のいずれか１項に記載の人物認証装置。
　前記抽出部は、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、請求項１～５のいずれか１項に記載の人物認証装置。
　前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
　前記抽出部は、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、請求項７に記載の人物認証装置。
　前記照合部は、
　前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
　　前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
　　前記照合特徴ごとの統計スコアを用いて、前記第１画像シーケンスに含まれる人物の認証を行う、請求項１～８のいずれか１項に記載の人物認証装置。
　前記照合部は、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第１画像シーケンスが登録済みの人物であると特定する、請求項９に記載の人物認証装置。
　前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
　前記照合部は、
　　複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
　　前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第１画像シーケンスに含まれる人物として特定する、請求項９に記載の人物認証装置。
　コンピュータによって実行される制御方法であって、
　第１画像シーケンスに対して所定の時系列操作を加えることで１つ以上の第２画像シーケンスを生成する生成ステップと、
　前記第１画像シーケンス及び前記第２画像シーケンスのうちのいずれか２つ以上それぞれから、その画像シーケンスに含まれる人物の歩容特徴を抽出する抽出ステップと、
　前記抽出した複数の歩容特徴と、記憶部に記憶されている歩容特徴である照合特徴とを比較することにより、人物の認証を行う照合ステップと、を有する制御方法。
　前記生成ステップにおいて、前記第１画像シーケンスに含まれる画像を時系列で逆順に並べることにより、前記第２画像シーケンスを生成する、請求項１２に記載の制御方法。
　前記生成ステップにおいて、前記第１画像シーケンスの一部の期間から複数の画像を抽出し、抽出した複数の画像で構成される前記第２画像シーケンスを生成する、請求項１２に記載の制御方法。
　前記生成ステップにおいて、前記第１画像シーケンスに含まれる第１期間から第１の前記第２画像シーケンスを生成し、前記第１画像シーケンスに含まれる第２期間から第２の前記第２画像シーケンスを生成し、
　前記第１期間と前記第２期間は互いに一部が重複する、請求項１４に記載の制御方法。
　前記生成ステップにおいて、前記第１画像シーケンスを構成する各画像から人物を検出し、検出した人物のシルエット画像を生成し、前記生成したシルエット画像を用いて前記第２画像シーケンスを生成する、請求項１２～１５のいずれか１項に記載の制御方法。
　前記抽出ステップにおいて、画像シーケンスから抽出される前記歩容特徴として、画像シーケンスから検出される人物についての時空間画像特徴を抽出する、請求項１２～１６のいずれか１項に記載の制御方法。
　前記抽出ステップにおいて、画像シーケンスを畳み込みニューラルネットワークに入力することで、前記歩容特徴を抽出する、請求項１２～１６のいずれか１項に記載の制御方法。
　前記畳み込みニューラルネットワークは、入力層、中間層、及び出力層を有し、
　前記抽出ステップにおいて、前記中間層を構成するいずれかの層からの出力を前記歩容特徴として抽出する、請求項１８に記載の制御方法。
　前記照合ステップにおいて、
　　前記記憶部に記憶されている複数の照合特徴それぞれについて、各画像シーケンスから抽出された歩容特徴との類似度を表す照合スコアを算出し、
　　前記照合特徴ごとに、算出された複数の照合スコアの統計値である統計スコアを算出し、
　　前記照合特徴ごとの統計スコアを用いて、前記第１画像シーケンスに含まれる人物の認証を行う、請求項１２～１９のいずれか１項に記載の制御方法。
　前記照合ステップにおいて、いずれかの前記統計スコアが所定のしきい値以上である場合に、前記第１画像シーケンスが登録済みの人物であると特定する、請求項２０に記載の制御方法。
　前記記憶部は、人物の識別子とその人物の照合特徴とを対応づけて記憶しており、
　前記照合ステップにおいて、
　　複数の照合特徴の中から、前記統計スコアが最大であり、なおかつその統計スコアが所定のしきい値以上である照合特徴を特定し、
　　前記記憶部において前記特定された照合特徴と対応づけられている識別子を持つ人物を、前記第１画像シーケンスに含まれる人物として特定する、請求項２０に記載の制御方法。
　請求項１２～２２のいずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。