WO2021260934A1

WO2021260934A1 - 情報処理装置、情報処理方法およびプログラム記憶媒体

Info

Publication number: WO2021260934A1
Application number: PCT/JP2020/025309
Authority: WO
Inventors: 威有熊; 貴稔北野
Original assignee: 日本電気株式会社
Priority date: 2020-06-26
Filing date: 2020-06-26
Publication date: 2021-12-30
Also published as: JP7364079B2; JPWO2021260934A1

Abstract

映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる技術を提供するために、情報処理装置は、推定部と設定部を備える。推定部は、動画を構成するフレームから検知された認識対象の候補から特徴量を抽出する特徴量抽出処理の負荷を推定する。この推定は、特徴量抽出処理が実行される認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における抽出対象の数を利用する。設定部は、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する。

Description

情報処理装置、情報処理方法およびプログラム記憶媒体

　本発明は、映像から認識対象を認識する技術に関する。

　コンピュータによって、映像から認識対象（例えば、人や、車両などの物体）を認識する技術がある。この技術では、例えば、コンピュータによって、映像から認識対象の候補が検知され、検知された候補の画像から特徴量が抽出される。そして、抽出された特徴量と、予め登録されている認識対象の画像の特徴量とが比較され、比較結果に基づいて、映像から検知された候補の画像が認識対象の画像であるか否かが判断される。

　画像から特徴量を抽出する特徴量抽出処理はコンピュータに大きな負荷が掛かる。また、映像に含まれている認識対象の候補の全てについて特徴量抽出処理を行うと、映像に含まれている認識対象の候補の数に応じて特徴量抽出処理によるコンピュータの負荷が増加する。換言すれば、特徴量抽出処理は、計算資源の消費が多く、その上、映像に含まれている認識対象の候補の数が増加するにつれて計算資源の消費を増加させる。

　上述したような映像から認識対象を認識する技術を利用して監視領域を監視する映像監視システムがある。この映像監視システムにおいて、認識対象の認識精度を高めるべく、監視領域を撮影するカメラの解像度（つまり、映像の解像度）が高くなってきている。映像の解像度が高くなると、それに応じて、特徴量抽出処理による計算資源の消費は増加する。

　ところで、監視領域を撮影した映像に、認識対象の候補（例えば、人や車）が、昼間には多く映っているが、夜間には殆ど映っていないというように、映像に含まれている認識対象の候補の数が状況に応じて大きく変動することがある。このため、映像に含まれると想定される認識対象の候補の数が多い場合に合わせて、特徴量抽出処理を実行する計算資源を用意したとする。この場合、映像に含まれている認識対象の候補の数が少ないと、特徴量抽出処理による計算資源の消費が減るので、計算資源の無駄が多くなってしまう事態が生じる。反対に、映像に含まれると想定される認識対象の候補の数が少ない場合に合わせて、特徴量抽出処理を実行する計算資源を用意したとする。この場合、映像に含まれている認識対象の候補の数が多くなると、特徴量抽出処理による計算資源の消費が増えるので、計算資源が不足し、例えば、撮影されてから認識対象が認識されるまでに時間が掛かり、映像監視に支障を来す事態が生じる。

　このように、映像監視システムにおいて、解像度の高いカメラを利用することによる計算資源の消費の増加や、映像に含まれる認識対象の候補数の変動を考えると、少ない計算資源で、認識精度を高めることが難しい。

　特許文献１には、計算資源の消費を抑制するために、動画を構成する一連の時系列のフレームにおける選択幅として設定された複数枚毎に、同じ人と検知された顔画像の中でのベストショットを、評価対象として選択することが示されている。

特開２００５－２２７９５７号公報

　特許文献１に記載されている技術では、複数のフレームにおける同じ人の顔画像の中からベストショットとして選択された顔画像が評価される。このため、特許文献１の技術は、同じ人の顔画像の全てについて評価する場合に比べて、計算資源の消費を抑制できる。しかしながら、特許文献１の技術では、同じフレームに含まれる顔画像の数が増加すると、それに応じて、選択幅のフレームから評価対象として選択されるベストショットの顔画像の数が増加し、これにより、評価処理による計算資源の消費は増加してしまう。また、特許文献１の技術は、予め定められた枚数毎に選択されたベストショットについてのみ評価するから、ベストショットとして選択されたものの当該ベストショットが評価には適当ではない不鮮明な顔画像である場合に評価精度が下がるという問題がある。

　映像監視システムにおいては、映像から認識対象を認識する認識精度を維持しつつ、少ない計算資源で効率的に認識対象を認識できることが実用化の上で重要である。

　すなわち、本発明の主な目的は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる技術を提供することにある。

　上記目的を達成するために、本発明に係る情報処理装置は、その一態様として、
　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する推定部と、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する設定部と、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する抽出部と、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する認識部と
を備える。

　本発明に係る情報処理方法は、その一態様として、
　コンピュータによって、
　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定し、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定し、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出し、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する。

　本発明に係るプログラム記憶媒体は、その一態様として、
　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する処理と、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する処理と、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する処理と、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。

　本発明によれば、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる。

本発明に係る第１実施形態の情報処理装置の機能構成を表すブロック図である。第１実施形態の情報処理装置が組み込まれる映像監視システムの一例を表す図である。第１実施形態の情報処理装置のハードウェア構成の一例を表す図である。撮影情報の一例を説明する図である。映像のフレームにおいて検知された認識対象の候補と追跡ＩＤを説明する図である。追跡ＩＤ毎に関連付けられる情報を説明する図である。抽出対象を選択する際に利用する情報を説明する図である。図７と共に、抽出対象を選択する際に利用する情報を説明する図である。第１実施形態の情報処理装置の動作例を表すフローチャートである。追跡ＩＤの連結処理を説明するフローチャートである。追跡ＩＤ毎に選択情報を変更する処理を説明するフローチャートである。負荷に応じて選択情報を変更する処理を説明するフローチャートである。第２実施形態の情報処理装置の機能構成を表すブロック図である。第２実施形態の情報処理装置の動作例を表すフローチャートである。

　以下に、本発明に係る実施形態を図面を参照しつつ説明する。

　＜第１実施形態＞
　図１は、本発明に係る第１実施形態の情報処理装置の機能構成を表すブロック図である。第１実施形態の情報処理装置１は、図２に表されるような映像監視システム５に組み込まれる。映像監視システム５は、情報処理装置１と、撮影装置であるカメラ２と、表示装置３とを備え、予め定められた監視領域６を監視するシステムである。すなわち、カメラ２は、動画を撮影可能な機能を有し、監視領域６を撮影できるように設置されている。カメラ２は、情報処理装置１と通信可能に接続されており、撮影した映像（動画）を情報処理装置１に出力する。なお、映像監視システム５に備えられるカメラ２は、１台とは限らず、複数台であってもよい。

　表示装置３は、情報を画面に表示する機能を備えている装置である。表示装置３は、情報処理装置１に接続されており、情報処理装置１による表示制御に従って、カメラ２により撮影された撮影映像を表示したり、情報処理装置１による処理の結果を表示したりする。

　情報処理装置１は、図３に表されるようなコンピュータ装置９００により構成され、カメラ２による撮影映像から、予め定められている認識対象を認識する機能を備えている。すなわち、情報処理装置１は、機能部として、図１に表されている検知部１１と、追跡部１２と、連結部１３と、推定部１４と、設定部１５と、選択部１６と、抽出部１７と、認識部１８とを備える。なお、認識対象は、特に限定されないが、以下の説明では、認識対象を人の顔とする。

　ここで、図３に表されるコンピュータ装置９００の構成について説明する。コンピュータ装置９００は、コンピュータ装置の一例であって、以下のような構成を含む。
・ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサ９０１
・ＲＯＭ（Read Only Memory）９０２
・ＲＡＭ（Random Access Memory）９０３
・ＲＡＭ９０３にロードされるコンピュータプログラム（プログラム）９０４
・プログラム９０４を格納する記憶装置９０５
・記憶媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インターフェース９０８
・データの入出力を行う入出力インターフェース９１０
・各構成要素を接続するバス９１１
　なお、情報処理装置１は、図３に表されているコンピュータ装置９００の記憶装置９０５とは別に、図１に表されるような記憶装置（データベース）４に接続される。記憶装置４には、例えば、情報処理装置１が実行する処理で用いるデータが格納される。なお、この例では、情報処理装置１は、記憶装置４に接続されているが、記憶装置４に代えて記憶装置９０５がデータを格納する場合には、記憶装置４に接続されていなくともよい。

　情報処理装置１が備える機能部（検知部１１と追跡部１２と連結部１３と推定部１４と設定部１５と選択部１６と抽出部１７と認識部１８）は、それらの機能を実現するプログラム９０４をプロセッサ９０１が取得して実行することで実現される。プログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてプロセッサ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してプロセッサ９０１に供給されてもよいし、予め記憶媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してプロセッサ９０１に供給してもよい。なお、情報処理装置１は、表示装置３の表示動作を制御する表示制御機能をも有するが、その表示制御機能に関する機能部の図示およびその説明は省略する。

　情報処理装置１の検知部１１は、カメラ２から受信した映像（動画）を構成するフレームから、予め定められている認識対象と考えられる認識対象の候補を検知する機能を備えている。フレームから認識対象の候補を検知する手法には、認識対象の予め与えられているパターンを利用するテンプレートマッチング手法や、事前に学習した認識対象の検知モデルを利用する手法など、様々な手法がある。ここでは、そのような手法の中から、カメラ２の撮影環境や、情報処理装置１の計算能力などを考慮した適宜な手法が採用される。また、認識対象の候補を検知するフレームは、カメラ２による映像の全てのフレームとは限らず、時系列の複数のフレームから、フレームレートに応じて予め設定された枚数毎のフレームであってもよい。

　検知部１１は、検知した認識対象の候補を表す検知情報を生成する。この検知情報は、認識対象の候補毎に生成され、例えば、検知されたフレームの識別情報（フレーム番号）と、検知されたフレーム領域を表す情報と、認識対象の候補の撮影情報とを含む。撮影情報は、例えば、図４に表されるようなパン（ｐａｎ）情報とチルト（ｔｉｌｔ）情報とロール（ｒｏｌｌ）情報とサイズの情報を含む。パン（ｐａｎ）情報は、顔が正面を向いている場合に比べて、撮影された顔の左右方向の振れ度合いを表す情報である。チルト（ｔｉｌｔ）情報は、顔が正面を向いている場合に比べて、撮影された顔の上下方向の傾き度合いを表す情報である。ロール（ｒｏｌｌ）情報は、顔が正面を向いた場合にその正面が向いている方向がカメラ２に向かう方向に対してのずれ度合いを表す情報である。これらパン（ｐａｎ）情報とチルト（ｔｉｌｔ）情報とロール（ｒｏｌｌ）情報は、図４の例では、角度により表されている。サイズの情報は、認識対象の候補の画像の大きさを表す情報であり、図４の例では、画素数（pixel）により表される。このようなパン（ｐａｎ）情報とチルト（ｔｉｌｔ）情報とロール（ｒｏｌｌ）情報とサイズの情報を含む撮影情報には、認識対象の候補毎に、撮影ＩＤ（Identification）が付与されており、検知情報には、撮影情報として、撮影ＩＤが含まれる。このような認識対象の候補に関する検知情報は、例えば、記憶装置９０５等に格納される。

　抽出部１７は、認識対象の候補の画像（以下、候補画像とも記す）から特徴量を、例えばディープラーニング技術を利用して抽出する機能を備える。

　認識部１８は、抽出部１７により抽出された候補画像の特徴量を、予め登録されている認識対象の特徴量（以下、登録特徴量とも記す）と照合することによって、候補画像（認識対象の候補）と認識対象との類似度を照合スコアとして算出する機能を備える。照合スコアを算出する手法は、ここでは、限定されず、その説明は省略される。また、以下の説明では、照合スコアは、０以上、かつ、１以下の範囲内の数値で表され、照合スコアが数値“１”に近付くにつれて、候補画像と認識対象が類似している度合いが高くなることを表している。

　さらに、認識部１８は、算出された照合スコアを閾値（例えば、０．６であり、以下、照合閾値とも記す）と比較し、照合スコアが照合閾値以上である場合に、候補画像は認識対象であると確定する（認識する）機能を備える。換言すれば、認識部１８は、候補画像の特徴量と、認識対象の登録特徴量との比較結果に基づいて、候補画像が認識対象であるか否かを判断する機能を備える。

　このように認識部１８により認識対象が確定（認識）された場合には、情報処理装置１は、例えば、表示装置３の画面に表示させているカメラ２の映像において、認識対象を明示するマークなどを表示させる機能を備えていてもよい。

　ところで、カメラ２による撮影映像に映っている認識対象の候補の数が増加すると、それに応じて、抽出部１７が特徴量を抽出する特徴量抽出処理に係る負荷が増加する。そこで、第１実施形態の情報処理装置１は、認識対象の候補の中から、特徴量抽出処理を実行する認識対象の候補を抽出対象として選択することによって抽出対象の増加を抑制し、これにより、特徴量抽出処理の負荷の増加を抑制する機能を備える。例えば、予め定められた単位期間（以下、単位期間ＴＨとも記す）における特徴量抽出処理の負荷が予め定められた上限値よりも大きくならないように、単位期間ＴＨにおいて検知部１１により検知された認識対象の候補のうち、抽出対象として選択される上限数が設定される。具体的には、その一例として、単位期間ＴＨは１秒間と設定され、単位期間ＴＨである１秒間に特徴量抽出処理を実行する抽出対象の上限数は、情報処理装置１の処理能力などを考慮して例えば１５個というように設定される。

　また、認識対象の認識精度の低下を抑制すべく、認識対象の候補の中から抽出対象を選択する選択条件を次のように状況に応じて設定（変更）する機能を情報処理装置１は備える。

　すなわち、情報処理装置１では、検知部１１により検知された認識対象の候補を、パーティクルフィルタを用いた追跡手法等の追跡手法により追跡することとする。また、その追跡処理により、同じ認識対象の候補であると判断された複数の認識対象の候補には同じ追跡ＩＤ（Identification）が付与されることとする。その具体例が図５に表されている。図５では、検知部１１によって認識対象の候補が検知されたフレームｆ１～ｆ７が時系列で表されている。これらフレームｆ１～ｆ７において、検知部１１によって検知された認識対象の候補のうち、同じ認識対象の候補と判断された認識対象の候補には、追跡ＩＤとして、同じ数値“００１”～“００４”が付与されている。このような追跡ＩＤは、認識対象の候補における検知情報に履歴情報として関連付けられる。また、検知部１１によって検知された認識対象の候補のうち、上述のような追跡処理によって追跡ＩＤが付与されなかった認識対象の候補には、新たな追跡ＩＤが付与され、当該追跡ＩＤも検知情報に関連付けられる。

　ここで、図５に表されるフレームｆ３までのフレームについては、検知部１１による検知処理から認識部１８による認識処理までの一連の処理が実行された処理済みのフレームとする。また、フレームｆ４以降のフレームは、その一連の処理が実行される処理対象のフレームとする。また、処理済みのフレームから検知され検知情報が生成された認識対象の候補であって抽出部１７と認識部１８による処理が実行された認識対象の候補に関する検知情報には、抽出された特徴量の情報と、照合スコアの情報とが履歴情報として関連付けられる。なお、照合スコアの情報は、照合スコアそのものを含むだけでなく、その照合スコアの算出処理で利用された登録特徴量が登録されている記憶装置４（データベース）におけるエントリ番号も含む。

　認識対象の候補から抽出対象を選択する選択条件は、単位期間ＴＨにおける抽出対象の上限数、および、上記のような認識対象の候補における履歴情報を参照して、追跡ＩＤ毎に設定される。例えば、追跡ＩＤ毎に、選択条件として、図６に表されるような選択幅と選択数の情報が与えられている。図６の例では、選択幅としてフレーム数が与えられており、追跡ＩＤが“００１”については、選択幅である３フレーム毎に、追跡ＩＤ“００１”の認識対象の候補を、選択数である２個、選択するというような選択条件が追跡ＩＤ“００１”に関連付けられている。また、図６の例では、追跡ＩＤには直近選択数の情報が関連付けられている。直近選択数とは、追跡ＩＤ毎に、選択条件に従って実行された直近の選択処理において、単位期間ＴＨにおける抽出対象として選択された数である。また、追跡ＩＤには照合スコアの情報も関連付けられている。この照合スコアの情報は、同じ追跡ＩＤの認識対象の候補について実行された認識部１８による認識処理によって算出された照合スコアのうち、例えば直近の単位期間ＴＨにおいて最も高い数値である。また、その最も高い数値の照合スコアに対応する認識対象の候補に関連付けられている撮影情報の撮影ＩＤが追跡ＩＤに関連付けられている。さらに、図示されていないが、追跡ＩＤには、そのような照合スコアの算出で用いられた認識対象の登録特徴量が登録されている登録場所を表すエントリ番号も関連付けられている。さらに、その登録特徴量を抽出した認識対象の顔画像の撮影情報である参照撮影情報が、撮影ＩＤ（図８の例では、撮影ＩＤ“Ｓ”）によって、追跡ＩＤに関連付けられている。

　選択条件の設定に際し、認識対象の候補における履歴情報は次のように利用される。つまり、例えば、図５に表される処理済みのフレームｆ１～ｆ３における追跡ＩＤ“００１”の認識対象の候補が認識対象であるか否かの判断は認識部１８により実行済みである。一方、処理対象のフレームｆ４～ｆ７における追跡ＩＤ“００１”の認識対象の候補についての認識部１８による判断結果は、処理済みのフレームｆ１～ｆ３における同じ追跡ＩＤ“００１”の認識対象の候補についての判断結果と同じになると想定される。これにより、認識部１８による判断結果が出ている追跡ＩＤを持つ認識対象の候補に関しては、認識部１８による処理の実行数（換言すれば抽出対象の数）を減少しても、認識精度の低下を抑制できると考えられる。このようなことから、選択条件の設定に関し、認識部１８による判断結果が出ている追跡ＩＤについては抽出対象の数を減少させる方向に選択条件を変更する。

　ただし、認識対象ではないとの判断済みでも、実際には認識対象である場合がある。これは、認識対象の候補の画像が不鮮明であったり、顔が横を向いていたりというような理由によって、抽出された特徴量と、登録されている特徴量との類似度が低くなり、照合スコアが閾値未満となってしまったからであると考えられる。このような事態を想定し、照合スコアが、閾値未満であって、かつ、認識部１８による判断結果が変更となる可能性がある範囲内である追跡ＩＤについての選択条件は、抽出対象の数を変更しないか、あるいは、増加するように設定されることが好ましい。なお、認識部１８による判断結果を持たない新規の追跡ＩＤについては、撮影情報に応じた予め設定されている初期設定の選択条件が採用される。

　上記のようなことを考慮して、例えば、選択条件を変更する際の変更ルールは、履歴情報である照合スコアによって決定される。つまり、変更ルールは、照合スコアが、閾値以上である場合と、閾値未満、かつ、閾値よりも低い予め定められた下限値（例えば閾値から閾値のｎ％の数値だけ低い値）Ｋよりも大きい範囲内である場合と、その下限値Ｋ以下である場合とに分けて設定される。

　ここで、追跡ＩＤ毎の選択条件の設定（変更）について、具体例を述べる。

　例えば、図６に表されているように追跡ＩＤに関連付けられている照合スコアが照合閾値以上である場合には、その追跡ＩＤの選択条件が次のように変更される。つまり、その追跡ＩＤの選択条件は、選択幅を、予め設定されている選択幅の最大値（例えば４フレーム）まで拡げ、かつ、選択数を、予め設定されている選択数の最小値（例えば“１”）まで減少させた選択条件に設定される。

　また、照合スコアが、閾値未満であって、かつ、閾値よりも低い予め定められた下限値Ｋよりも大きい範囲内である場合には、そのような照合スコアに関連付けられている追跡ＩＤの選択条件は次のように変更される。つまり、選択条件は、選択幅を、予め設定されている選択幅の最小値（例えば３フレーム）まで狭め、かつ、選択数を、予め設定されている選択数の最大値（例えば“３”）まで増加した選択条件に設定される。

　さらに、照合スコアが下限値Ｋ以下である場合には、そのような照合スコアに関連付けられている追跡ＩＤの選択条件は次のように変更される。つまり、選択条件は、選択幅を予め設定された幅分、拡げ、かつ、選択数を、予め設定された数分、減少させた選択条件に設定される。

　上記のように設定された追跡ＩＤ毎の選択条件に基づいて、処理対象のフレームにおいて検知された認識対象の候補から、単位期間ＴＨにおける抽出対象として選択される選択数を特徴量抽出処理の負荷として推定することができる。例えば、カメラ２による映像の１秒間のフレームのうち、検知部１１による検知処理が実行されるフレームの数が１５枚であるとし、単位期間ＴＨである１秒間における抽出対象の上限数が１５個であるとする。また、追跡ＩＤ毎に、図６に表されるような選択条件が設定されているとする。さらに、図５に表されるように、処理対象のフレームにおいて、単位期間ＴＨに、追跡ＩＤが“００１”と“００３”と“００４”の認識対象の候補が検知されているとする。このような場合、処理対象のフレームにおいて、追跡ＩＤが“００１”と“００３”と“００４”に設定されている選択条件に基づくと、単位期間ＴＨにおいて、追跡ＩＤ“００１”の認識対象の候補のうち、抽出対象として選択される数は１０個と推定される。また、単位期間ＴＨにおいて、追跡ＩＤ“００３”の認識対象の候補のうち、抽出対象として選択される数は５個と推定される。さらに、単位期間ＴＨにおいて、追跡ＩＤ“００４”の認識対象の候補のうち、抽出対象として選択される数は３．５個と推定される。よって、単位期間ＴＨにおいて、抽出対象として選択される合計数は１８．５個となり、上限数１５個よりも大きくなってしまう。

　このような場合には、情報処理装置１は、単位期間ＴＨにおける抽出対象の数が上限数以下となるように選択条件を変更する。この変更の一例として、情報処理装置１は、処理対象のフレームにおいて検知された認識対象の候補に付与されている追跡ＩＤの選択条件のうち、選択数が最小値よりも大きい追跡ＩＤの選択条件の選択数を例えば“１”減少させる。単位期間ＴＨにおける抽出対象の数が上限数以下となるまで、情報処理装置１は、そのような処理を繰り返す。

　このような処理により、例えば、前述したような抽出対象の上限数よりも大きくなってしまう例において、選択数が最小値よりも大きい追跡ＩＤ“００１”における選択条件の選択数が“２”から“１”に変更される。この選択条件の変更により、追跡ＩＤ“００１”に関し、抽出対象として選択される数は５個に減少すると推定される。このため、単位期間ＴＨにおいて、抽出対象として選択される合計数は１３．５個となり、上限数１５個以下となる。なお、上記例では、抽出対象の数を減少させるために、選択数が下げられているが、それに代えて、選択幅が拡げられてもよい。あるいは、選択数と選択幅の両方が変更されてもよい。

　ところで、図５に表される追跡ＩＤ“００４”の認識対象の候補は追跡ＩＤ“００２”と同じ認識対象の候補である。しかし、追跡ＩＤ“００２”の認識対象の候補が、カメラ２の撮影範囲から外れて映像に映らなくなるフレームアウトし、これにより、追跡できなくなったために、フレームｆ６において、再びカメラ２による映像に映るようになった際に、新規の追跡ＩＤが付与される。前述したように、抽出対象に関する選択条件の設定（変更）には、履歴情報を利用することから、同じ認識対象の候補には同じ追跡ＩＤが付与されることが好ましい。そこで、情報処理装置１は、同じ認識対象の候補に複数の追跡ＩＤが付与されている場合に、それらを複数の追跡ＩＤを連結する機能をも備える。例えば、新規に追跡ＩＤが付与された認識対象の候補の画像から特徴量が抽出部１７によって抽出された後に、その特徴量が、他の追跡ＩＤに関連付けられている特徴量と照合される。この照合により、照合スコアが算出され、算出された照合スコアが連結判断用の閾値（例えば、０．８）以上であった場合には、図６に表されるように、追跡ＩＤに、同じであると判断された認識対象の候補の追跡ＩＤが同一追跡ＩＤとして、関連付けられる。なお、同じ認識対象の候補であっても、撮影されたカメラ２が異なると、異なる追跡ＩＤが付与されるが、上述したような連結処理によって、追跡ＩＤを連結することができる。

　情報処理装置１は、さらに、認識精度の低下を抑制するために、次のような機能をも備える。すなわち、情報処理装置１は、同じ追跡ＩＤの複数の認識対象の候補から、選択条件に基づいた数の抽出対象を選択する場合に、認識対象の候補における検知情報に関連付けられている撮影情報を利用する。つまり、抽出部１７により特徴量が抽出された認識対象の候補の画像（候補画像）における顔の向きが、その抽出された特徴量と照合する登録特徴量が抽出された抽出元の顔画像における顔の向きと同様であることが、照合スコアの正確さを高める上で好ましい。そこで、情報処理装置１は、同じ追跡ＩＤの複数の認識対象の候補から、選択条件に基づいた数の抽出対象を選択する場合に、撮影情報を利用して、選択に関する優先度を、選択幅内の選択肢としての複数の認識対象の候補に付与する。その優先度は、登録特徴量における抽出元の顔画像の参照撮影情報に近い撮影情報の顔画像である認識対象の候補の優先度ほど、数値が大きくなる。

　ここで、その優先度の算出の具体例を述べる。例えば、追跡ＩＤ“Ｘ”に関する選択条件として、３フレーム毎に２個の抽出対象を選択するという条件が設定されている場合に、選択幅である３フレームのそれぞれに追跡ＩＤ“Ｘ”の認識対象の候補が検知されているとする。それら選択幅である３フレームのフレーム番号をそれぞれ図７に表される“ａ”、“ｂ”、“ｃ”とする。また、フレームａ、ｂ、ｃにおける追跡ＩＤ“Ｘ”の認識対象の候補の検知情報にそれぞれ関連付けられている撮影ＩＤは、図７に表されるように、“００１”、“００２”、“００３”であるとする。さらに、撮影ＩＤ“００１”、“００２”、“００３”は、図８に表されるような撮影情報に関連付けられているとする。図８の例では、撮影情報は、パン（ｐａｎ）情報とチルト（tilt）情報とロール（ｒｏｌｌ）情報に加えて、撮影品質の情報をも含む。撮影品質は、認識対象の候補の映り方の指標であり、映っている大きさやブレの有無、光の当たり方等を基に算出される。この撮影品質の算出手法はここでは限定されず、その説明は省略される。

　さらに、追跡ＩＤ“Ｘ”の認識対象の候補の画像から抽出される特徴量と照合される登録特徴量の抽出元の顔画像における参照撮影情報は、図８に表される撮影ＩＤが“Ｓ”に関連付けられている撮影情報であるとする。

　まず、選択幅である３つのフレームａ、ｂ、ｃにおける追跡ＩＤ“Ｘ”の認識対象の候補について、当該認識対象の候補の撮影情報と、参照撮影情報とにおけるパン情報とチルト情報とロール情報とのそれぞれの差分の絶対値の加重和が算出される。この加重和の算出値の一例が図７に表されている。さらに、３つのフレームａ、ｂ、ｃにおける追跡ＩＤ“Ｘ”の認識対象の候補について、算出した加重和の最大値（図７の例では“９２”）が“１．０”となるように、加重和が正規化され、正規化された値を“１”から差し引いた値が類似スコアとして算出される。さらに、類似スコアと、撮影情報に関連付けられている撮影品質との加重和が優先度として算出される。

　このようにして、図７に表されるような優先度が算出されたとする。この場合には、３フレームから２個の抽出対象を選択するという選択条件に基づき、３つのフレームａ、ｂ、ｃにおける追跡ＩＤ“Ｘ”の認識対象の候補のうち、優先度が高い順に、フレームａ、ｂの２個の認識対象の候補が抽出対象として選択される。

　このように、撮影情報に基づいて算出される優先度を利用し、選択条件に従って抽出対象を選択することによって、認識対象の候補の全てを抽出対象とする場合に対する認識部１８による認識精度の低下が抑制される。特に、認識対象が撮影方向によって撮影映像における映り方が大きく異なる場合、このような撮影情報に基づいて算出される優先度を利用して抽出対象を選択することは、認識精度を高める上で有効である。なお、認識対象が撮影方向によって撮影映像における映り方が大きく異なる具体例としては、人や車両において、正面からの撮影映像と、横側からの撮影映像と、後方からの撮影映像とは異なる。また、手や足を大きく動かしている人において、撮影タイミングによって撮影映像が異なる。

　第１実施形態の情報処理装置１は、認識精度の低下を抑制しつつ特徴量抽出処理の負荷の増加を抑制する機能として、前述したように、図１に表される追跡部１２と連結部１３と推定部１４と設定部１５と選択部１６を備える。

　すなわち、追跡部１２は、検知部１１により検知された認識対象の候補を追跡する機能を備える。例えば、追跡部１２は、検知部１１が認識対象の候補を検知する検知処理を実行した時系列の複数のフレームにおいて検知された同じ認識対象の候補であると考えられる認識対象の候補に同じ追跡ＩＤを付す。このような追跡部１２が認識対象の候補を追跡する手法は、特に限定されないが、例えば、パーティクルフィルタを用いた追跡手法がある。

　また、追跡部１２は、検知部１１によって検知された認識対象の候補のうち、既存の追跡ＩＤが付与されない認識対象の候補には、新たな追跡ＩＤを付与する。

　さらに、追跡部１２は、認識対象の候補に付与した追跡ＩＤの情報を、記憶装置９０５等に記憶されている認識対象の候補の検知情報に関連付ける。

　設定部１５は、抽出部１７および認識部１８による処理を実行する処理対象のフレームにおける認識対象の候補に付与された追跡ＩＤと、その認識対象の候補に関連付けられている履歴情報とを参照し、追跡ＩＤ毎の選択条件を設定する機能を備える。

　また、設定部１５は、次のような推定部１４により推定される特徴量抽出処理の負荷が上限値よりも大きくなってしまう場合にも、追跡ＩＤ毎の選択条件を設定する機能を備える。

　設定部１５による上述のような履歴情報や特徴量抽出処理の負荷に基づいた選択条件の設定手法は、その一例として、前述したような具体例で述べた手法がある。なお、選択条件を予め定められた初期設定の選択条件に設定することも、既に設定されている選択条件から変更して選択条件を再設定することも、設定すると述べることとする。

　推定部１４は、処理対象のフレームについて、検知部１１により検知された認識対象の候補に付与された追跡ＩＤ毎の選択条件を利用して、前述の如く単位期間ＴＨにおける選択される抽出対象の数を特徴量抽出処理の負荷として推定する。

　選択部１６は、設定部１５により設定された選択条件に従って、処理対象のフレームにおいて、追跡ＩＤ毎に、抽出対象を選択する機能を備える。選択部１６による抽出対象の選択は、例えば、前述したような撮影情報を利用して算出した優先度が参照される。

　連結部１３は、新規の追跡ＩＤが付与された認識対象の候補の画像から抽出部１７により特徴量が抽出された以降の予め定められたタイミングでもって、新規の追跡ＩＤが既存の追跡ＩＤと連結できるか否かを、抽出された特徴量を利用して判断する機能を備える。そして、連結部１３は、連結できると判断した場合には、例えば、新規の追跡ＩＤに、連結する既存の追跡ＩＤを関連付ける。このように、既存の追跡ＩＤと連結できた新規の追跡ＩＤについての選択条件は、設定部１５により、既存の追跡ＩＤの選択条件に合わせるべく設定される。

　第１実施形態の情報処理装置１は上記のように構成されている。以下に、情報処理装置１における検知部１１による検知処理から認識部１８による認識処理までの一連の処理に係る動作を図９～図１２に基づいて説明する。

　まず、情報処理装置１の検知部１１は、カメラ２から受信した映像の一つのフレームにおいて、認識対象の候補を検知する（図９におけるステップＳ１０１）。そして、追跡部１２が、その検知された認識対象の候補について、追跡手法を利用した既存の追跡ＩＤ、あるいは、新規の追跡ＩＤを付与する（ステップＳ１０２）。

　その後、同じ認識対象の候補に関連付けられている異なる複数の追跡ＩＤを連結する連結処理を連結部１３が実行する（ステップＳ１０３）。図１０は、連結部１３が実行する連結処理の動作の一例を表すフローチャートである。この図１０の例では、連結部１３は、既存の追跡ＩＤのうち、抽出部１７による特徴量を利用した連結する追跡ＩＤがあるか否かの連結可否判断を実行していない未処理の追跡ＩＤが有るか否かを判断する（ステップＳ３０１）。例えば、追跡ＩＤには、上述のような連結可否判断を処理済みであるか否かを表す情報が関連付けられており、この情報を利用して、連結部１３は、ステップＳ３０１の判断結果を出す。

　未処理の追跡ＩＤが無い場合には、連結部１３は、連結処理を終了する。一方、未処理の追跡ＩＤが有る場合には、連結部１３は、その未処理の追跡ＩＤに関連付けられている認識対象の候補の画像から抽出部１７によって特徴量が抽出されているか否かを判断する（ステップＳ３０２）。特徴量が抽出されていない場合には、連結処理を進めることができないので、連結部１３は、連結処理を終了する。また、特徴量が抽出されている場合には、連結部１３は、特徴量が抽出されている未処理の追跡ＩＤを連結処理対象の追跡ＩＤとする。そして、連結部１３は、その抽出されている特徴量を、連結処理対象の追跡ＩＤ以外の既存の追跡ＩＤの中から選択された追跡ＩＤに関連付けられている特徴量と照合する（ステップＳ３０３）。これにより、連結部１３は、照合スコアを算出し、算出した照合スコアが連結判断用の閾値以上であるか否かを判断する連結可否判断を行う（ステップＳ３０４）。

　この判断により、照合スコアが連結判断用の閾値以上であった場合には、連結可能と判断し、その照合スコアの算出に利用した２つの特徴量と関連する追跡ＩＤ同士を連結する（ステップＳ３０５）。その後、連結処理対象の追跡ＩＤについて、それ以外の全ての既存の追跡ＩＤとの間で、上述したような特徴量の照合から照合スコアに基づいた連結可否判断までの一連の処理が終了したか否かを連結部１３は判断する（ステップＳ３０６）。終了していない場合には、連結部１３は、連結処理対象の追跡ＩＤとの間で連結可否判断を行う相手の既存の追跡ＩＤを替えて、ステップＳ３０３以降の動作を繰り返す。そして、連結部１３は、ステップＳ３０６にて、終了したと判断した場合には、連結処理対象の追跡ＩＤに、連結可否判断が処理済みである情報を関連付け、その後、連結処理を終了する。

　このような連結処理が終了した後に、図９に表されるように、設定部１５が、追跡ＩＤ毎の選択条件の変更処理を実行する（ステップＳ１０４）。図１１は、設定部１５が実行する追跡ＩＤ毎の選択条件の変更処理の動作の一例を表すフローチャートである。この図１１の例では、設定部１５は、追跡ＩＤ毎に以下のような処理を実行する。すなわち、設定部１５は、追跡ＩＤに関連付けられている照合スコアが照合閾値以上であるか否かを判断する（ステップＳ４０１）。これにより、照合スコアが照合閾値以上である場合には、設定部１５は、追跡ＩＤに関連付けられている選択条件に関し、選択幅を予め定められている最大値まで拡げ、かつ、選択数を予め定められている最小値まで下げた選択条件に変更する（ステップＳ４０２）。

　また、照合スコアが照合閾値以上でなかった場合には、設定部１５は、照合スコアが照合閾値未満、かつ、下限値Ｋよりも大きいか否かを判断する（ステップＳ４０３）。照合スコアが照合閾値未満、かつ、下限値Ｋよりも大きくなかった場合、つまり、照合スコアが下限値以下であった場合には、設定部１５は、追跡ＩＤに関連付けられている選択条件を次のように変更する。すなわち、設定部１５は、選択幅を所定の変更幅である例えばフレーム数“１”だけ拡げ、かつ、選択数を所定の変更数である“１”だけ下げた選択条件に、選択条件を変更する（ステップＳ４０４）。

　さらに、照合スコアが照合閾値未満、かつ、下限値Ｋよりも大きい場合には、設定部１５は、そのような照合スコアが算出された認識対象の候補の撮影情報の撮影ＩＤを追跡ＩＤに関連付ける（ステップＳ４０５）。そして、設定部１５は、追跡ＩＤに関連付けられている選択条件を次のように変更する。すなわち、設定部１５は、選択幅を予め定められている最小値まで狭め、かつ、選択数を予め定められている最大値まで上げた選択条件に変更する（ステップＳ４０６）。

　設定部１５は、追跡ＩＤ毎の選択条件を、上記のように、追跡ＩＤに関連付けられている履歴情報である照合スコアを利用して変更する。

　追跡ＩＤ毎の選択条件の変更処理（ステップＳ１０４）が終了した後に、図９に表されるように、推定部１４と設定部１５が、特徴量抽出処理の負荷を考慮した選択条件の変更処理を実行する（ステップＳ１０５）。図１２は、推定部１４および設定部１５が実行する選択条件の変更処理の動作の一例を表すフローチャートである。この図１２の例では、まず、推定部１４が、処理対象のフレームに関し、選択条件に基づき単位期間ＴＨにおける抽出対象として選択される認識対象の候補の数を特徴量抽出処理の負荷として推定する（ステップＳ６０１）。以下、その推定された特徴量抽出処理の負荷を推定負荷とも記す。

　その後、設定部１５が、推定負荷である抽出対象の数が上限数よりも大きいか否かを判断する（ステップＳ６０２）。これにより、抽出対象の数が上限数よりも大きくなかった場合には、特徴量抽出処理の負荷は上限値よりも大きくならないと想定されるから、設定部１５は、推定負荷に応じた選択条件の変更処理を終了する。一方、抽出対象の数が上限数よりも大きかった場合には、特徴量抽出処理の負荷は上限値よりも大きくなると想定されるから、設定部１５は、特徴量抽出処理の負荷を抑制すべく、選択条件を次のように変更する。例えば、設定部１５は、選択条件の選択数が最小値よりも大きい追跡ＩＤの選択条件を検索する（ステップＳ６０３）。そして、設定部１５は、検索にヒットした選択条件の選択数を所定の下げ値である“１”下げる（ステップＳ６０４）。その後、推定部１４と設定部１５は、ステップＳ６０１以降の動作を、推定負荷である抽出対象の数が上限数以下となるまで、繰り返す。

　このように、特徴量抽出処理の負荷を抑制すべく推定部１４と設定部１５による選択条件の変更処理（ステップＳ１０５）が実行された後に、図９に表されるように、選択部１６が、抽出対象を選択する（ステップＳ１０６）。つまり、選択部１６は、追跡ＩＤ毎に、選択条件に従って、処理対象のフレームにおける認識対象の候補から抽出対象を選択する。

　その後、抽出部１７が、選択された抽出対象（候補画像）から特徴量を抽出する（ステップＳ１０７）。そして、認識部１８が、抽出された特徴量を登録特徴量と照合する（ステップＳ１０８）。これにより、認識部１８が、照合スコアを算出し、算出された照合スコアが照合閾値以上である場合には、認識対象の候補は認識対象であると確定し、算出された照合スコアが照合閾値未満である場合には、認識対象の候補は認識対象でないと確定する。

　上述したような情報処理装置１における検知部１１による検知処理から認識部１８による認識処理までの一連の処理によって、カメラ２に撮影された映像において認識対象が認識される。

　第１実施形態の情報処理装置１は、上述したように、処理対象のフレームにおける推定負荷と、認識対象の候補に関連する履歴情報である照合スコアとを利用して、抽出対象を選択する選択条件を変更する機能を備えている。これにより、情報処理装置１は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができるという効果が得られる。

　なお、第１実施形態の情報処理装置１を構成する機能部のうち、例えば、検知部等の一部の機能はカメラ２が備えていてもよく、この場合には、カメラ２が持つ検知部等の機能により得られた情報を情報処理装置１は取得して処理を実行する。

　＜第２実施形態＞
　以下に、本発明に係る第２実施形態を説明する。

　図１３は、第２実施形態の情報処理装置の機能構成を表すブロック図である。第２実施形態の情報処理装置５０は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図るべく構成される基本構成を持つ。すなわち、情報処理装置５０は、推定部５１と、設定部５２と、抽出部５３と、認識部５４とを備える。

　推定部５１は、動画を構成するフレームから検知された認識対象の候補から特徴量を抽出する特徴量抽出処理の負荷を推定する。この推定は、特徴量抽出処理が実行される認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における抽出対象の数を利用する。

　設定部５２は、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する。

　抽出部５３は、選択条件に基づき抽出対象として選択された認識対象の候補から特徴量を抽出する。

　認識部５４は、抽出した特徴量と、予め登録されている認識対象の登録特徴量との比較結果に基づいて、認識対象の候補が認識対象であるか否かを判断する。

　これら推定部５１と、設定部５２と、抽出部５３と、認識部５４とは、例えば、コンピュータにより実現される。

　以下に、情報処理装置５０の動作の一例を図１４に基づいて説明する。図１４は、情報処理装置５０の動作の一例を表すフローチャートである。まず、情報処理装置５０の推定部５１が、特徴量抽出処理の負荷を推定する（ステップＳ１）。その後、設定部５２が、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する（ステップＳ２）。然る後に、抽出部５３が、設定された選択条件に基づき抽出対象として選択された認識対象の候補から特徴量を抽出する（ステップＳ３）。さらに、認識部５４は、抽出した特徴量と、予め登録されている認識対象の登録特徴量との比較結果に基づいて、認識対象の候補が認識対象であるか否かを認識する（ステップＳ４）。

　第２実施形態の情報処理装置５０は、第１実施形態と同様に、特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して選択条件を設定する。これにより、第２実施形態の情報処理装置５０は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる。

　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　１，５０　情報処理装置
　１１　検知部
　１２　追跡部
　１３　連結部
　１４，５１　推定部
　１５，５２　設定部
　１６　選択部
　１７，５３　抽出部
　１８，５４　認識部

Claims

　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する推定手段と、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する設定手段と、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する抽出手段と、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する認識手段と
を備える情報処理装置。
　前記認識対象の候補について前記追跡処理を実行することによって、一連の前記フレームから検知された同じ前記認識対象の候補に同じ追跡ＩＤ（Identification）を付与する追跡手段をさらに備え、
　前記履歴情報は、前記追跡処理により得られる情報である前記追跡ＩＤを利用した、同じ前記認識対象の候補に対する前記認識手段の処理に関わる情報の履歴情報である
請求項１に記載の情報処理装置。
　同じ前記認識対象の候補に付与された異なる複数の前記追跡ＩＤを、前記抽出手段により抽出された前記特徴量を利用して連結する連結手段をさらに備える
請求項２に記載の情報処理装置。
　前記選択条件は、前記追跡ＩＤ毎に設定されており、
　前記設定手段は、前記追跡ＩＤ毎の前記履歴情報に基づいて、前記選択条件を設定する
請求項２又は請求項３に記載の情報処理装置。
　前記認識対象の候補のうち、前記選択条件に基づき前記抽出対象としての前記認識対象の候補を選択する選択手段をさらに備え、
　前記認識対象の候補には、当該認識対象の候補の映り方の情報が撮影情報として関連付けられ、また、前記認識手段によって利用される前記登録特徴量を抽出した前記認識対象の映り方の情報が参照撮影情報として与えられており、
　前記選択手段は、前記認識対象の候補における撮影情報と、前記参照撮影情報との類似度に基づいて算出された優先度を利用して、前記選択条件に従って前記抽出対象を選択する
請求項１乃至請求項４の何れか一項に記載の情報処理装置。
　コンピュータによって、
　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定し、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定し、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出し、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する
情報処理方法。
　動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する処理と、
　推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する処理と、
　前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する処理と、
　抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する処理と
をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。