WO2022091166A1

WO2022091166A1 - 追跡装置、追跡システム、追跡方法、および記録媒体

Info

Publication number: WO2022091166A1
Application number: PCT/JP2020/040031
Authority: WO
Inventors: 登吉田
Original assignee: 日本電気株式会社
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-05-05
Also published as: US20230386049A1; JPWO2022091166A1

Abstract

映像を構成するフレームにおいて、複数の追跡対象を姿勢に基づいて追跡するために、映像データを構成する少なくとも二つのフレームから追跡対象を検出する検出部と、検出された追跡対象から少なくとも一つのキーポイントを抽出する抽出部と、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する姿勢情報生成部と、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する追跡部と、を備える追跡装置とする。

Description

追跡装置、追跡システム、追跡方法、および記録媒体

　本開示は、映像において追跡対象を追跡する追跡装置等に関する。

　人物追跡技術は、監視カメラ等によって撮影された映像を構成する画像フレーム（以下、フレームとも呼ぶ）から人物を検出し、検出された人物を映像において追跡する技術である。人物追跡技術では、例えば、検出された個々の人物を顔認証等で識別して識別番号を付与し、識別番号が付与された人物を映像において追跡する。

　特許文献１には、２次元の関節位置に基づいて３次元の姿勢を推定する姿勢推定装置について開示されている。特許文献１の装置は、入力画像から、追跡対象の位置候補における特徴量を算出し、該特徴量をテンプレートデータと比較した結果得られる類似度の重みに基づき、追跡対象の位置を推定する。特許文献１の装置は、類似度の重みと、３次元動作モデルデータに基づき、追跡対象の位置候補を設定する。特許文献１の装置は、追跡対象の位置の推定と、追跡対象の位置候補の設定とを複数回数繰り返すことにより、追跡対象の位置を追跡する。また、特許文献１の装置は、追跡対象の位置の推定情報と、３次元動作モデルデータを参照して、姿勢推定対象の３次元姿勢を推定する。

　特許文献２には、画像から人物を同定する画像処理装置について開示されている。特許文献２の装置は、入力画像に写る人物の姿勢と、参照画像に写る人物の姿勢との姿勢類似度、入力画像の特徴量、および人物ごとの参照画像の特徴量に基づいて、入力画像に写る人物と、登録された人物とを照合する。

　非特許文献１には、映像に含まれる複数の人物を姿勢追跡する技術について開示されている。非特許文献１の手法では、ビデオの異なるフレームから一対の姿勢推定値をサンプリングし、あるポーズが別のポーズに時間的に追随するかバイナリ分類を行う。さらに、非特許文献１の手法では、パラメータを使用しないキーポイント調整手法を用いて、姿勢推定方法を改善する。

　非特許文献２には、二次元画像に写った複数の人物の骨格を推定する関連技術が開示されている。非特許文献２の技術では、Part Affinity Fieldsという手法を用いて、二次元画像に写った複数の人物の骨格を推定する。

特開２０１３－０９２８７６号公報特開２０１７－０９７５４９号公報

Michael Snower、 Asim Kadav, Farley Lai, Hans Peter Graf, "15 Keypoints Is All You Need", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp.6738-6748 Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp.7291-7299

　特許文献１の手法では、一人の人物の２次元の関節位置に関する情報から３次元の姿勢を推定できるが、複数人の人物の３次元の姿勢を推定することができなかった。また、特許文献１の手法では、推定された３次元の姿勢に基づいて、異なるフレームに映る人物が同一人物か否かを判定することはできず、フレーム間にわたって人物の追跡を行うことができなかった。

　特許文献２の手法では、推定された姿勢に関して予め登録された、各人物の姿勢ごとの参照画像の特徴量との類似度に基づいて人物を登録する。そのため、特許文献２の手法では、各人物の姿勢ごとの参照画像がデータベース化されていない限り、姿勢に基づいて人物を追跡することができなかった。

　非特許文献１の手法では、深層学習を用いて姿勢追跡を行うため、追跡精度が学習データに依存する。そのため、非特許文献１の手法では、混雑度や画角、カメラと人との距離、フレームレート等の条件が学習された条件と異なる場合、追跡対象の姿勢に基づいて追跡を継続することができなかった。

　本開示の目的は、映像を構成する複数のフレームにおいて、複数の追跡対象を姿勢に基づいて追跡できる追跡装置を提供することにある。

　本開示の一態様の追跡装置は、映像データを構成する少なくとも二つのフレームから追跡対象を検出する検出部と、検出された追跡対象から少なくとも一つのキーポイントを抽出する抽出部と、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する姿勢情報生成部と、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する追跡部と、を備える。

　本開示の一態様の追跡方法においては、コンピュータが、映像データを構成する少なくとも二つのフレームから追跡対象を検出し、検出された追跡対象から少なくとも一つのキーポイントを抽出し、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成し、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。

　本開示の一態様のプログラムは、映像データを構成する少なくとも二つのフレームから追跡対象を検出する処理と、検出された追跡対象から少なくとも一つのキーポイントを抽出する処理と、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する処理と、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する処理と、をコンピュータに実行させる。

　本開示によれば、映像を構成する複数のフレームにおいて、複数の追跡対象を姿勢に基づいて追跡できる追跡装置を提供することが可能になる。

第１の実施形態に係る追跡システムの構成の一例を示すブロック図である。第１の実施形態に係る追跡システムの追跡装置が抽出するキーポイントの一例について説明するための概念図である。第１の実施形態に係る追跡システムの追跡装置による追跡処理について説明するための概念図である。第１の実施形態に係る追跡システムの追跡装置が追跡対象の追跡に用いるスコアの一例を示すテーブルである。第１の実施形態に係る追跡システムの動作の概略の一例について説明するためのフローチャートである。第１の実施形態に係る追跡システムの追跡装置による追跡処理の一例について説明するためのフローチャートである。第２の実施形態に係る追跡システムの構成の一例を示すブロック図である。第２の実施形態に係る追跡システムの追跡装置が抽出する骨格線の一例について説明するための概念図である。第２の実施形態に係る追跡システムの追跡装置による追跡処理の一例について説明するためのフローチャートである。第３の実施形態に係る追跡システムの構成の一例を示すブロック図である。第３の実施形態に係る追跡システムの端末装置の構成の一例を示すブロック図である。第３の実施形態に係る追跡システムの追跡装置が追跡対象の追跡に用いる位置および向きの重みを調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が追跡対象の追跡に用いる位置および向きの重みを調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が追跡対象の追跡に用いる位置および向きの重みを調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が姿勢情報の生成に用いるキーポイントの指定を調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が姿勢情報の生成に用いるキーポイントの指定を調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が追跡対象の追跡に用いる位置および向きの重みを調整するための画像を含む表示情報を、表示機器の画面に表示させる一例を示す概念図である。第３の実施形態に係る追跡システムの追跡装置が、端末装置を介して設定を受け付ける処理の一例を示すフローチャートである。第４の実施形態に係る追跡装置の構成の一例を示すブロック図である。各実施形態に係る追跡装置を実現するハードウェア構成の一例を示すブロック図である。

　以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。

　（第１の実施形態）
　まず、第１の実施形態に係る追跡システムについて図面を参照しながら説明する。本実施形態の追跡システムは、監視カメラ等によって撮影された動画を構成する画像フレーム（フレームとも呼ぶ）から人物等の追跡対象を検出し、検出された追跡対象をフレーム間で追跡する。なお、本実施形態の追跡システムの追跡対象には特に限定を加えない。例えば、本実施形態の追跡システムは、人物のみならず、犬や猫等の動物、自動車や自転車、ロボット等の移動体、任意の物体などを追跡対象としてもよい。以下においては、映像において人物を追跡する例について説明する。

　（構成）
　図１は、本実施形態の追跡システム１の構成の一例を示すブロック図である。追跡システム１は、追跡装置１０、監視カメラ１１０、および端末装置１２０を備える。図１には、監視カメラ１１０や端末装置３２０を一つしか図示していないが、監視カメラ１１０や端末装置１２０は複数あってもよい。

　監視カメラ１１０は、監視対象範囲を撮影可能な位置に配置される。監視カメラ１１０は、一般的な監視カメラの機能を有する。監視カメラ１１０は、可視領域に感度があるカメラであってもよいし、赤外領域に感度がある赤外線カメラであってもよい。例えば、監視カメラ１１０は、人通りのある街頭や室内に配置される。監視カメラ１１０と追跡装置１０の接続方式については、特に限定を加えない。例えば、監視カメラ１１０は、インターネットやイントラネットなどのネットワークを介して、追跡装置１０に接続される。また、監視カメラ１１０は、追跡装置１０にケーブル等で接続されてもよい。

　監視カメラ１１０は、設定された撮影間隔で監視対象範囲を撮影し、映像データを生成する。監視カメラ１１０は、生成された映像データを追跡装置１０に出力する。映像データは、設定された撮影間隔で撮影された複数のフレームによって構成される。例えば、監視カメラ１１０は、複数のフレームによって構成される映像データを追跡装置１０に出力してもよいし、複数のフレームの各々を撮影された時系列順で追跡装置１０に出力してもよい。監視カメラ１１０が追跡装置１０にデータを出力するタイミングには、特に限定を加えない。

　追跡装置１０は、映像取得部１１、記憶部１２、検出部１３、抽出部１５、姿勢情報生成部１６、追跡部１７、および追跡情報出力部１８を有する。例えば、追跡装置１０は、サーバやクラウドに配置される。例えば、追跡装置１０は、端末装置１２０にインストールされるアプリケーションとして提供されてもよい。

　本実施形態において、追跡装置１０は、二つの検証対象のフレーム（以下、検証フレームと呼ぶ）の間で追跡対象を追跡していく。時系列順で先行する検証フレームを先行フレームと呼び、後続する検証フレームを後続フレームと呼ぶ。追跡装置１０は、先行フレームに含まれる追跡対象と、後続フレームに含まれる追跡対象とを照合することで、フレーム間において追跡対象を追跡する。先行フレームと後続フレームは、連続するフレームであってもよいし、何フレームかを離れていてもよい。

　映像取得部１１は、処理対象の映像データを監視カメラ１１０から取得する。映像取得部１１は、取得した映像データを記憶部１２に記憶させる。追跡装置１０が監視カメラ１１０からデータを取得するタイミングには、特に限定を加えない。例えば、映像取得部１１は、複数のフレームによって構成される映像データを監視カメラ１１０から取得してもよいし、複数のフレームの各々を撮影順で監視カメラ１１０から取得してもよい。なお、映像取得部１１は、監視カメラ１１０によって生成された映像データのみならず、図示しない外部のストレージやサーバ等に保存された映像データを取得してもよい。

　記憶部１２は、監視カメラ１１０によって生成された映像データを記憶する。記憶部１２に記憶された映像データを構成するフレームは、追跡部１７によって取得され、追跡対象の追跡に用いられる。

　検出部１３は、記憶部１２から検証フレームを取得する。検出部１３は、取得した検証フレームから追跡対象を検出する。検出部１３は、検証フレームから検出された全ての追跡対象に対してＩＤ（Identifier）を割り振る。以下において、先行フレームから検出された追跡対象については、正式なＩＤが付与されているものとする。検出部１３は、後続フレームから検出された追跡対象については、仮のＩＤを付与する。

　例えば、検出部１３は、背景差分法等の検出技術によって、検証フレームから追跡対象を検出する。例えば、検出部１３は、動きベクトル等の特徴量を用いた検出技術（例えば、検出アルゴリズム）によって、検証フレームから追跡対象を検出してもよい。検出部１３が検出する追跡対象は、人物や、移動する物体（移動体とも呼ぶ）である。例えば、追跡対象が人物である場合、検出部１３は、顔検出技術を用いて、検証フレームから追跡対象を検出する。例えば、検出部１３は、人体検出技術や物体検出技術を用いて、検証フレームから追跡対象を検出してもよい。例えば、検出部１３は、移動体ではないものの、一定の位置において、形や模様、色等の特徴量が変化する物体を検出してもよい。

　抽出部１５は、検証フレームから検出された追跡対象から複数のキーポイントを抽出する。例えば、追跡対象が人物の場合、抽出部１５は、検証フレームに含まれる人物の頭部や関節、手足等の位置をキーポイントとして抽出する。例えば、抽出部１５は、検証フレームに含まれる人物の骨格構造を検出し、検出された骨格構造に基づいてキーポイントを抽出する。例えば、抽出部１５は、機械学習を用いた骨格推定技術を用いて、検証フレームに含まれる人物の関節等の特徴に基づいて人物の骨格構造を検出する。例えば、抽出部１５は、非特許文献２に開示された骨格推定技術を用いて、検証フレームに含まれる人物の骨格構造を検出する（非特許文献２：Z. Cao et al., The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp.7291-7299）。

　例えば、抽出部１５は、右肩は０、右肘は１というように、抽出された各キーポイントに1～ｎの番号を付す（ｎは自然数）。例えば、検証フレームから検出された人物のｋ番目のキーポイントが抽出されなかった場合、そのキーポイントに関しては未検出とする（ｋは、１以上ｎ以下の自然数）。

　図２は、追跡対象が人物である場合のキーポイントについて説明するための概念図である。図２は、人物を正面から見た図である。図２の例では、一人の人物に対して１４個のキーポイントが設定される。ＨＤは、頭部に設定されるキーポイントである。Ｎは、首に設定されるキーポイントである。ＲＳおよびＬＳの各々は、右肩および左肩の各々に設定されるキーポイントである。ＲＥおよびＬＥの各々は、右肘および左肘の各々に設定されるキーポイントである。ＲＨおよびＬＨの各々は、右手および左手の各々に設定されるキーポイントである。ＲＷおよびＬＷの各々は、右腰および左腰の各々に設定されるキーポイントである。ＲＫおよびＬＫの各々は、右膝および左膝の各々に設定されるキーポイントである。ＲＦおよびＬＦの各々は、右足および左足の各々に設定されるキーポイントである。なお、一人の人物に対して設定されるキーポイントの数は１４個に限定されない。また、各キーポイントの位置は、図２の例に限定されない。例えば、顔検出を併用し、顔の検出に応じて、目や眉、鼻、口等にキーポイントを設定してもよい。

　姿勢情報生成部１６は、抽出部１５によって抽出されたキーポイントに基づいて、検証フレームから検出された全ての追跡対象の姿勢情報を生成する。姿勢情報は、検証フレームにおける各追跡対象の各キーポイントの位置情報である。二つの検証フレーム間で追跡対象を追跡する場合、先行フレームから検出される追跡対象の姿勢情報ｆ_pは下記の式１で表され、後続フレームから検出される人物の姿勢情報ｆ_sは下記の式２で表される。
ｆ_p＝{（ｘ_p0，ｙ_p0）,（ｘ_p1，ｙ_p1）,・・・,（ｘ_pn，ｙ_pn）}・・・（１）
ｆ_s＝{（ｘ_s0，ｙ_s0）,（ｘ_s1，ｙ_s1）,・・・,（ｘ_sn，ｙ_sn）}・・・（２）
上記の式１および式２において、（ｘpｋ、ｙpｋ）は、ｋ番目のキーポイントの画像上の位置座標である（ｋ、ｎは自然数）。ただし、先行フレームの人物のｋ番目のキーポイントが抽出されなかった場合、姿勢情報ｆ_pkは未検出となる。同様に、後続フレームの人物のｋ番目のキーポイントがされなかった場合、姿勢情報ｆ_skは未検出となる。

　追跡部１７は、先行フレームから検出された追跡対象に対して生成された姿勢情報と、先行フレームから検出された追跡対象に対して生成された姿勢情報とを用いて、フレーム間で追跡対象を追跡する。追跡部１７は、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。追跡部１７は、後続フレームから検出された追跡対象のうち、先行フレームから検出された追跡対象と同定された追跡対象には、その先行フレームから検出された追跡対象のＩＤを割り振ることによって、追跡対象を追跡する。なお、後続フレームから検出された追跡対象に対応する追跡対象が先行フレームから検出されなかった場合、その後続フレームから検出された追跡対象に付与されていた仮のＩＤを正式なＩＤとしたり、新たなＩＤを正式なＩＤとして付与したりすればよい。

　例えば、追跡部１７は、フレームにおける座標情報を用いて、追跡対象のキーポイントの位置を計算する。追跡部１７は、基準となるキーポイントの位置と、頭部のキーポイントとの間の特定方向における距離を追跡対象の向きとして計算する。例えば、追跡部１７は、画面水平方向（ｘ方向）における、首のキーポイントから頭部のキーポイントまでの距離（ｘ方向の距離）を追跡対象の向きとして計算する。追跡部１７は、先行フレームから検出された全ての追跡対象と、後続フレームから検出された全ての追跡対象に対して、位置および向きに関する距離を総当たりで計算する。追跡部１７は、先行フレームから検出された全ての追跡対象と、後続フレームから検出された全ての追跡対象との間で計算された、位置に関する距離と向きに関する距離の和をスコアとして算出する。追跡部１７は、先行フレームから検出された追跡対象と、後続フレームから検出された追跡対象とのペアのうち、スコアが最小となる追跡対象に同一のＩＤを割り振ることによって、追跡対象を追跡する。

　位置に関する距離Ｄ_pは、先行フレームと後続フレームにおける比較中の追跡対象から抽出された各キーポイントの、座標値の差の絶対値の重み付き平均である。各キーポイントの位置に関する重みをｗ_kとすると、追跡部１７は、下記の式３を用いて、位置に関する距離Ｄ_pを算出する。

ただし、上記の式３において、姿勢情報ｆ_pkまたは姿勢情報ｆ_skが未検出のキーポイントに関しては、分子の丸括弧の内部とｗ_kは０とする。

　向きに関する距離Ｄ_dは、先行フレームと後続フレームにおける比較中の追跡対象から抽出された各キーポイントの、基準点に対する相対的なｘ座標の差の絶対値の重み付き平均である。首のキーポイントを基準点とし、先行フレームの基準点をｘ_{p_neck}と表し、後続フレームの基準点をｘ_{s_neck}と表し、各キーポイントの位置に関する重みをｗ_kとすると、追跡部１７は、下記の式４を用いて、向きに関する距離Ｄ_dを算出する。

ただし、上記の式４において、姿勢情報ｆ_pkまたは姿勢情報ｆ_skが未検出のキーポイントに関しては、分子の丸括弧の内部とｗ_kは０とする。

　位置に関する距離Ｄ_pと向きに関する距離Ｄ_dの合計値がスコアＳである。追跡部１７は、下記の式５を用いて、スコアＳを算出する。
Ｓ＝Ｄ_p＋Ｄ_d・・・（５）
追跡部１７は、先行フレームと後続フレームから検出された比較対象の追跡対象に対してスコアＳを総当たりで計算する。追跡部１７は、スコアＳが最小の追跡対象に対して同一のＩＤを付与する。

　図３は、追跡部１７による、キーポイントの抽出の例（Ａ）、追跡に用いられるキーポイント（骨格線）の抽出の例（Ｂ）、ＩＤの割り振りの例（Ｃ）について説明するための概念図である。図３においては、上段の図が先行フレームに相当し、下段の図が後続フレームに相当する。

　図３の（Ａ）は、検証フレームに含まれる追跡対象からキーポイントを抽出する例である。図３の（Ａ）には、追跡対象の輪郭と、追跡対象から抽出されたキーポイントを結んだ線分が示されている。図３の（Ａ）においては、先行フレームと後続フレームに二人の人物が含まれる。先行フレームから抽出された二人の人物の各々には、Ｐ_ＩＤ４とＰ_ＩＤ８というＩＤが付与されている。後続フレームから抽出された二人の人物の各々には、Ｓ_ＩＤ１とＳ_ＩＤ２というＩＤが付与されている。後続フレームから抽出された二人の人物の各々に付与されたＩＤは、仮のＩＤである。

　図３の（Ｂ）は、追跡対象から抽出されたキーポイントのうち、追跡対象の追跡に用いられるキーポイントを結んだ線分（骨格線とも呼ぶ）のみを抜き出した図である。例えば、追跡に用いられるキーポイントは、予め設定されていてもよいし、検証ごとに設定されてもよい。

　図４は、図３の例に関して、追跡部１７が算出するスコアをまとめたテーブルである。後続フレームから検出されたＳ_ＩＤ１の追跡対象と、先行フレームから検出されたＰ_ＩＤ４との間のスコアは０．２である。後続フレームから検出されたＳ_ＩＤ１の追跡対象と、先行フレームから検出されたＰ_ＩＤ８との間のスコアは１．５である。後続フレームから検出されたＳ_ＩＤ２の追跡対象と、先行フレームから検出されたＰ_ＩＤ４との間のスコアは１．３である。後続フレームから検出されたＳ_ＩＤ２の追跡対象と、先行フレームから検出されたＰ_ＩＤ８との間のスコアは０．３である。すなわち、Ｓ_ＩＤ１の追跡対象に対してスコアが最小の追跡対象はＰ_ＩＤ４である。また、Ｓ_ＩＤ２の追跡対象に対してスコアが最小の追跡対象はＰ_ＩＤ８である。追跡部１７は、Ｓ_ＩＤ１の追跡対象に対してＰ_ＩＤ４というＩＤを割り振り、Ｓ_ＩＤ２の追跡対象に対してＰ_ＩＤ８というＩＤを割り振る。

　図３の（Ｃ）は、図４のスコアの値に基づいて、先行フレームと後続フレームから検出された同一の追跡対象に対して同一のＩＤが割り振られた状況を示す。このように、先行フレームと後続フレームにおいて同一のＩＤが割り振られた追跡対象は、さらに後続するフレームにおいて参照される。

　追跡情報出力部１８は、追跡部１７による追跡結果を含む追跡情報を端末装置１２０に出力する。例えば、追跡情報出力部１８は、検証フレームから検出された追跡対象にキーポイントや骨格線を重ね合わせた画像を追跡情報として出力する。例えば、追跡情報出力部１８は、検証フレームから検出された追跡対象の位置に、キーポイントや骨格線が表示される画像を追跡情報として出力する。例えば、追跡情報出力部１８から出力された画像は、端末装置１２０の表示部に表示される。

　端末装置１２０は、映像データを構成する複数のフレームごとの追跡情報を追跡装置１０から取得する。端末装置１２０は、取得した追跡情報を含む画像を画面に表示させる。例えば、端末装置１２０は、予め設定された表示条件に従って、追跡情報を含む画像を画面に表示させる。例えば、予め設定された表示条件とは、予め設定されたフレーム番号を含む連続した所定枚数のフレームに対応する追跡情報を含む画像を時系列順に表示させるという条件である。例えば、予め設定された表示条件とは、予め設定された時刻を含む所定時間帯に生成された複数のフレームに対応する追跡情報を含む画像を、時系列順に表示させるという条件である。なお、表示条件は、予め設定されていれば、ここであげた例に限定されない。

　（動作）
　次に、追跡装置１０の動作の一例について図面を参照しながら説明する。以下においては、追跡装置１０による処理の概要と、追跡装置１０の追跡部１７による追跡処理の詳細について説明する。

　図５は、追跡装置１０の動作について説明するためのフローチャートである。図５において、まず、追跡装置１０は、検証フレームを取得する（ステップＳ１１）。追跡装置１０は、予め蓄積しておいた検証フレームを取得してもよいし、新たに入力された検証フレームを取得してもよい。

　検証フレームから追跡対象を検出すると（ステップＳ１２でＹｅｓ）、追跡装置１０は、検出された追跡対象にＩＤを付与する（ステップＳ１３）。このとき追跡装置１０が追跡対象に付与するＩＤは仮のＩＤである。一方、検証フレームから追跡対象を検出しなかった場合（ステップＳ１２でＮｏ）、ステップＳ１８に進む。

　ステップＳ１３の次に、追跡装置１０は、検出された追跡対象からキーポイントを抽出する（ステップＳ１４）。複数の追跡対象が検出された場合、追跡装置１０は、検出された追跡対象ごとにキーポイントを抽出する。

　次に、追跡装置１０は、追跡対象ごとに姿勢情報を生成する（ステップＳ１５）。姿勢情報は、追跡対象ごとに抽出されたキーポイントの位置情報を、追跡対象ごとに統合した情報である。複数の追跡対象が検出された場合、追跡装置１０は、検出された追跡対象ごとに姿勢情報を生成する。

　ここで、先行フレームがある場合（ステップＳ１６でＹｅｓ）、追跡装置１０は、追跡処理を実行する（ステップＳ１７）。一方、先行フレームがない場合（ステップＳ１６でＮｏ）、ステップＳ１８に進む。追跡処理の詳細については、図６のフローチャートを用いて後ほど説明する。

　そして、さらなる後続フレームがある場合（ステップＳ１８でＹｅｓ）、ステップＳ１１に戻る。一方、さらなる後続フレームがない場合（ステップＳ１８でＮｏ）、図５のフローチャートに沿った処理は終了である。

　図６は、追跡装置１０の追跡部１７による追跡処理について説明するためのフローチャートである。図６において、まず、追跡部１７は、先行フレームと後続フレームに関して、追跡対象間の位置および向きに関する距離を計算する（ステップＳ１７１）。

　次に、追跡部１７は、追跡対象間の位置および向きに関する距離から追跡対象間のスコアを計算する（ステップＳ１７２）。例えば、追跡部１７は、追跡対象間の位置に関する距離と向きに関する距離の和をスコアとして算出する。

　次に、追跡部１７は、追跡対象間のスコアに応じて、最適な追跡対象の組み合わせを選択する（ステップＳ１７３）。例えば、追跡部１７は、先行フレームと後続フレームから、スコアが最小となる追跡対象の組み合わせを選択する。

　次に、追跡部１７は、選択された組み合わせに応じて、後続フレームから検出された追跡対象にＩＤを割り振る（ステップＳ１７４）。例えば、追跡部１７は、先行フレームと後続フレームにおいて、スコアが最小となる追跡対象の組み合わせに対して同一のＩＤを割り振る。

　以上のように、本実施形態の追跡システムの追跡装置は、検出部、抽出部、姿勢情報生成部、および追跡部を備える。検出部は、映像データを構成する少なくとも二つのフレームから追跡対象を検出する。抽出部は、検出された追跡対象から少なくとも一つのキーポイントを抽出する。姿勢情報生成部は、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する。追跡部は、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。

　本実施形態の追跡装置は、追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。追跡対象を位置のみで追跡すると、複数の追跡対象がすれ違う際に、異なる追跡対象間で識別番号が入れ替わってしまう可能性がある。本実施形態の追跡装置は、追跡対象の位置だけではなく、追跡対象の向きに基づいて追跡対象を追跡するため、複数の追跡対象がすれ違う際に、異なる追跡対象間で識別番号が入れ替わってしまう可能性が低くなる。そのため、本実施形態の追跡装置によれば、追跡対象の姿勢に基づいて、複数のフレームに亘って複数の追跡対象を追跡することが可能になる。すなわち、本実施形態の追跡装置によれば、映像を構成する複数のフレームにおいて、複数の追跡対象を姿勢に基づいて追跡できる。

　また、本実施形態の追跡装置によれば、各追跡対象の姿勢毎の参照画像がデータベース化されていなくても、姿勢に基づいて追跡対象を追跡することができる。さらに、本実施形態の追跡装置によれば、混雑度や画角、カメラと追跡対象との距離、フレームレート等の条件が学習された条件と異なる場合でも、追跡精度が低下しない。すなわち、本実施形態によれば、映像を構成するフレーム中の追跡対象を高精度で追跡できる。本実施形態の追跡装置は、例えば、街中や公共施設、店内等における人物の動線の監視等に適用できる。

　本実施形態の一態様において、追跡部は、少なくとも二つのフレームの各々から検出された追跡対象に関する位置および向きに関する距離に応じたスコアを姿勢情報に基づいて計算する。追跡部は、算出されたスコアに基づいて追跡対象を追跡する。本態様によれば、追跡対象の位置および向きに関する距離に応じたスコアに基づいて追跡対象を追跡することによって、映像を構成するフレーム間において、複数の追跡対象を継続的に追跡できる。

　本実施形態の一態様において、追跡部は、少なくとも二つのフレームの各々から検出された追跡対象に関して、スコアが最小になるペアを同一の追跡対象として追跡する。本態様によれば、スコアが最小になるペアを同一の追跡対象として同定することによって、映像を構成するフレーム間における追跡対象の追跡をより継続的に行うことができる。

　本実施形態の一態様において、追跡部は、少なくとも二つのフレームの各々から検出された追跡対象に関して、キーポイントの座標値の差の絶対値の重み付き平均を位置に関する距離として計算する。追跡部は、少なくとも二つのフレームの各々から検出された追跡対象に関して、キーポイントの基準点に対する特定方向の相対的な座標値の差の絶対値の重み付き平均を向きに関する距離として計算する。追跡部は、少なくとも二つのフレームの各々から検出された追跡対象に関して、位置に関する距離と向きに関する距離の和をスコアとして計算する。本態様によれば、位置および向きに関する重みが明確に定義され、フレーム間における追跡対象の追跡を重み付けに応じて適切に行うことができる。

　本実施形態の一態様において、追跡装置は、追跡対象の追跡に関する追跡情報を出力する追跡情報出力部を備える。追跡情報は、例えば、検証フレームから検出された追跡対象の位置に、キーポイントが表示される画像である。本態様によれば、追跡対象に追跡情報が重ねた画像を表示機器の画面に表示させることによって、追跡対象の姿勢が視覚的に把握しやすくなる。

　（第２の実施形態）
　次に、第２の実施形態に係る追跡システムについて図面を参照しながら説明する。本実施形態の追跡システムは、追跡対象間の位置および向きに関する距離を、フレーム内の追跡対象の大きさで正規化する点において第１の実施形態とは異なる。

　（構成）
　図７は、本実施形態の追跡システム２の構成の一例を示すブロック図である。追跡システム２は、追跡装置２０、監視カメラ２１０、および端末装置２２０を備える。図７には、監視カメラ２１０や端末装置２２０を一つしか図示していないが、監視カメラ２１０や端末装置２２０は複数あってもよい。監視カメラ２１０および端末装置２２０の各々は、第１の実施形態の監視カメラ１１０や端末装置１２０の各々と同様であるので、詳細な説明は省略する。

　追跡装置２０は、映像取得部２１、記憶部２２、検出部２３、抽出部２５、姿勢情報生成部２６、追跡部２７、および追跡情報出力部２８を有する。例えば、追跡装置２０は、サーバやクラウドに配置される。例えば、追跡装置２０は、端末装置２２０にインストールされるアプリケーションとして提供されてもよい。映像取得部２１、記憶部２２、検出部２３、抽出部２５、姿勢情報生成部２６は、および追跡情報出力部２８の各々は、第１の実施形態の対応する構成と同様であるので、詳細な説明を省略する。

　追跡部２７は、先行フレームから検出された追跡対象に対して生成された姿勢情報と、先行フレームから検出された追跡対象に対して生成された姿勢情報とを用いて、フレーム間で追跡対象を追跡する。追跡部２７は、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。追跡部２７は、後続フレームから検出された追跡対象のうち、先行フレームから検出された追跡対象と同定された追跡対象には、その先行フレームから検出された追跡対象のＩＤを割り振ることによって、追跡対象を追跡する。なお、後続フレームから検出された追跡対象に対応する追跡対象が先行フレームから検出されなかった場合、その後続フレームから検出された追跡対象に付与されていた仮のＩＤを正式なＩＤとしたり、新たなＩＤを正式なＩＤとして付与したりすればよい。

　例えば、追跡部２７は、先行フレームから検出された全ての追跡対象と、後続フレームから検出された全ての追跡対象に対して、追跡対象の大きさで正規化された位置および向きに関する距離を総当たりで計算する。追跡部２７は、先行フレームから検出された全ての追跡対象と、後続フレームから検出された全ての追跡対象に対して算出された、追跡対象の大きさで正規化された位置および向きに関する距離の和を、正規化されたスコアとして算出する。追跡部２７は、先行フレームから検出された追跡対象と、後続フレームから検出された追跡対象とのペアのうち、正規化されたスコアが最小となる追跡対象に同一のＩＤを割り振ることによって、追跡対象を追跡する。例えば、フレーム内の追跡対象の人物が直立歩行している場合、人物を矩形等の枠で囲うことによって大きさを推定できる。しかしながら、フレーム内の追跡対象の人物が、座っていたり、頻繁に方向転換をしていたりする場合、人物を矩形等の枠で囲うだけでは大きさを推定することが難しい。このような場合は、下記のように、追跡対象の人物の骨格に基づいて大きさを推定すればよい。

　図８は、追跡部２７が追跡対象（人物）の大きさを推定する際に用いる骨格線について説明するための概念図である。骨格線は、特定のキーポイント間を接続する線分である。図８は、人物を正面から見た図である。図８の例では、一人の人物に対して１４個のキーポイントが設定され、１５本の骨格線が設定される。Ｌ１は、ＨＤとＮを結ぶ線分である。Ｌ２１はＮとＲＳを結ぶ線分であり、Ｌ２２はＮとＬＳを結ぶ線分である。Ｌ３１はＲＳとＲＥを結ぶ線分であり、Ｌ３２はＬＳとＬＥを結ぶ線分である。Ｌ４１はＲＥとＲＨを結ぶ線分であり、Ｌ４２はＬＥとＬＨを結ぶ線分である。Ｌ５１はＮとＲＷを結ぶ線分であり、Ｌ５２はＮとＬＷを結ぶ線分である。Ｌ６１はＲＷとＲＫを結ぶ線分であり、Ｌ６２はＬＷとＬＫを結ぶ線分である。Ｌ７１はＲＫとＲＦを結ぶ線分であり、Ｌ４２はＬＫとＬＦを結ぶ線分である。なお、一人の人物に対して設定されるキーポイントの数は１４個に限定されない。また、一人の人物に対して設定される骨格線の数は１３個に限定されない。また、各キーポイントや骨格線の位置は、図８の例に限定されない。

　追跡部２７は、検証フレーム内の人物に対応する骨格線に基づいて、その人物の直立時の高さ（身長画素数と呼ぶ）を計算する。身長画素数は、検証フレームにおける人物の身長（２フレームにおける人物の全身の長さ）に相当する。追跡部２７は、フレームにおける各骨格線の長さから身長画素数（ピクセル数）を求める。

　例えば、追跡部２７は、頭部（ＨＤ）から足部（ＲＦ、ＬＦ）までの骨格線の長さを用いて、身長画素数を推定する。例えば、追跡部２７は、検証フレーム内の人物から抽出された骨格線のうち、検証フレーム内におけるＬ１、Ｌ５１、Ｌ６１、およびＬ７１の長さの和Ｈ_Rを身長画素数として算出する。例えば、追跡部２７は、検証フレーム内の人物から抽出された骨格線のうち、検証フレーム内におけるＬ１、Ｌ５２、Ｌ６２、およびＬ７２の長さの和Ｈ_Lを身長画素数として算出する。例えば、追跡部２７は、検証フレーム内におけるＬ１、Ｌ５１、Ｌ６１、およびＬ７１の長さの和Ｈ_Rと、検証フレーム内におけるＬ１、Ｌ５２、Ｌ６２、およびＬ７２の長さの和Ｈ_Lの平均値を身長画素数として算出する。例えば、追跡部２７は、より正確な身長画素数を算出するために、各骨格線の傾きや姿勢等を補正するための補正係数で各骨格線を補正した上で、身長画素数を算出してもよい。

　例えば、追跡部２７は、平均的な人物の各骨格線の長さと身長との関係に基づいて、個々の骨格線の長さを用いて身長画素数を推定してもよい。例えば、頭部（ＨＤ）と首（Ｎ）を結ぶ骨格線（Ｌ１）の長さは、身長の２０パーセント程度である。例えば、肘（ＲＥ、ＬＥ）と手（ＲＨ、ＬＨ）を結ぶ骨格線の長さは、身長の２５パーセント程度である。このように、各骨格線の長さの身長に対する割合を記憶部（図示しない）に記憶させておけば、検証フレームから検出された人物の各骨格線の長さに基づいて、その人物の身長に対応する身長画素数を推定できる。また、平均的な人物の各骨格線の長さの身長に対する割合は、年齢によって異なる傾向がある。そのため、人物の年齢ごとに、平均的な人物の各骨格線の長さの身長に対する割合を記憶部に記憶させておいてもよい。例えば、平均的な人物の各骨格線の長さの身長に対する割合を記憶部に記憶させておけば、直立した人物を検証フレームから検出できた場合、その人物の各骨格線の長さに基づいて、その人物の大まかな年齢を推定することもできる。なお、上述した骨格線の長さに基づく身長画素数の推定方法は、一例であって、追跡部２７による身長画素数の推定方法を限定するものではない。

　追跡部２７は、推定された身長画素数で、位置に関する距離Ｄ_pと向きに関する距離Ｄ_dを正規化する。ここで、比較対象の人物に関して、先行フレームから検出された身長をＨ_p、後続フレームから検出された身長をＨ_sとする。追跡部２７は、位置に関する正規化距離ＮＤ_pを下記の式６を用いて算出し、向きに関する正規化距離ＮＤ_dを下記の式７を用いて算出する。

そして、追跡部２７は、下記の式８を用いて、正規化されたスコア（正規化スコアＮＳ）を算出する。
ＮＳ＝ＮＤ_p＋ＮＤ_d・・・（８）
追跡部２７は、先行フレームと後続フレームから検出された比較中の追跡対象に対して正規化スコアＮＳを総当たりで計算し、正規化スコアＮＳが最小の追跡対象に同一のＩＤを付与する。

　（動作）
　次に、追跡装置２０の動作の一例について図面を参照しながら説明する。追跡装置２０による処理の概要は、第１の実施形態と同様であるので省略する。以下においては、追跡装置２０の追跡部２７による追跡処理の詳細について説明する。

　図９は、追跡装置２０の追跡部２７による追跡処理について説明するためのフローチャートである。図９において、まず、追跡部２７は、検証フレームから検出された検出対象の骨格線に基づいて、追跡対象の身長画素数を推定する（ステップＳ２７１）。

　次に、追跡部２７は、先行フレームと後続フレームに関して、追跡対象間の位置および向きに関する正規化距離を計算する（ステップＳ２７２）。正規化距離は、推定された身長画素数で正規化された位置および向きに関する距離である。

　次に、追跡部２７は、追跡対象間の位置および向きに関する正規化距離から追跡対象間の正規化スコアを計算する（ステップＳ２７３）。例えば、追跡部１７は、追跡対象間の位置に関する正規化距離と向きに関する正規化距離の和を正規化スコアとして算出する。

　次に、追跡部２７は、追跡対象間の正規化スコアに応じて、最適な追跡対象の組み合わせを選択する（ステップＳ２７４）。例えば、追跡部２７は、先行フレームと後続フレームから、正規化スコアが最小となる追跡対象の組み合わせを選択する。

　次に、追跡部２７は、選択された組み合わせに応じて、後続フレームから検出された追跡対象にＩＤを割り振る（ステップＳ２７５）。例えば、追跡部２７は、先行フレームと後続フレームにおいて、正規化スコアが最小となる追跡対象の組み合わせに対して同一のＩＤを割り振る。

　さらに、本実施形態において、追跡部は、複数のキーポイントのうちいずれかの間を結ぶ骨格線に基づいて追跡対象の身長画素数を推定する。追跡部は、推定された身長画素数でスコアを正規化し、正規化されたスコアに応じて、少なくとも二つのフレームの各々から検出された追跡対象を追跡する。

　本実施形態では、フレーム中における追跡対象の大きさに応じてスコアを正規化する。そのため、本実施形態によれば、監視カメラとの位置関係によって大きく映った追跡対象を過大に評価することがなくなり、フレーム内の位置における追跡の偏りを低減できる。そのため、本実施形態によれば、映像を構成する複数のフレームに亘って、より高精度な追跡が可能になる。また、本実施形態によれば、追跡対象の姿勢にかかわらず追跡できるため、フレーム間における姿勢の変化が大きい場合であっても、追跡対象の追跡を継続できる。

　本実施形態の一態様において、追跡装置は、追跡対象の追跡に関する追跡情報を出力する追跡情報出力部を備える。追跡情報は、例えば、検証フレームから検出された追跡対象の位置に、骨格線が表示される画像である。本態様によれば、追跡対象に追跡情報が重ねた画像を表示機器の画面に表示させることによって、追跡対象の姿勢が視覚的に把握しやすくなる。

　（第３の実施形態）
　次に、第３の実施形態に係る追跡システムについて図面を参照しながら説明する。本実施形態の追跡システムは、位置および向きの重みの設定や、キーポイントの設定をするためのユーザインタフェースを表示させる点において、第１および第２の実施形態とは異なる。

　（構成）
　図１０は、本実施形態の追跡システム３の構成の一例を示すブロック図である。追跡システム３は、追跡装置３０、監視カメラ３１０、および端末装置３２０を備える。図１０には、監視カメラ３１０や端末装置３２０を一つしか図示していないが、監視カメラ３１０や端末装置３２０は複数あってもよい。監視カメラ３１０は、第１の実施形態の監視カメラ１１０と同様であるので、詳細な説明は省略する。

　追跡装置３０は、映像取得部３１、記憶部３２、検出部３３、抽出部３５、姿勢情報生成部３６、追跡部３７、追跡情報出力部３８、および設定取得部３９を有する。例えば、追跡装置３０は、サーバやクラウドに配置される。例えば、追跡装置３０は、端末装置３２０にインストールされるアプリケーションとして提供されてもよい。映像取得部３１、記憶部３２、検出部３３、抽出部３５、姿勢情報生成部３６は、追跡部３７、および追跡情報出力部３８の各々は、第１の実施形態の対応する構成と同様であるので、詳細な説明を省略する。

　図１１は、端末装置３２０等の構成の一例を示すブロック図である。端末装置３２０は、追跡情報取得部３２１、追跡情報記憶部３２２、表示部３２３、および入力部３２４を有する。図１１には、端末装置３２０に接続される追跡装置１０、入力機器３２７、および表示機器３３０を併せて図示する。

　追跡情報取得部３２１は、映像データを構成する複数のフレームごとの追跡情報を追跡装置３０から取得する。追跡情報取得部３２１は、フレームごとの追跡情報を追跡情報記憶部３２２に記憶させる。

　追跡情報記憶部３２２は、追跡装置３０から取得した追跡情報を記憶する。追跡情報記憶部３２２に記憶された追跡情報は、例えばユーザの操作等に応じて、表示部３２３の画面にＧＵＩ（Graphical User Interface）として表示される。

　表示部３２３は、画面を有する表示機器３３０に接続される。表示部３２３は、追跡情報記憶部３２２から追跡情報を取得する。表示部３２３は、取得した追跡情報を含む表示情報を表示機器３３０の画面に表示させる。なお、端末装置３２０が表示機器３３０の機能を含んでいてもよい。

　例えば、表示部３２３は、入力部３２４を介してユーザによる操作を受け付け、受け付けた操作内容に応じた表示情報を表示機器３３０の画面に表示させる。例えば、表示部３２３は、ユーザによって指定されたフレーム番号のフレームに対応する表示情報を表示機器３３０の画面に表示させる。例えば、表示部３２３は、ユーザによって指定されたフレーム番号のフレームを含む一連の複数のフレームの各々に対応する表示情報を、時系列順に表示機器３３０の画面に表示させる。

　例えば、表示部３２３は、予め設定された表示条件に従って、少なくとも一つの表示情報を表示機器３３０の画面に表示させてもよい。例えば、予め設定された表示条件とは、予め設定されたフレーム番号を含む連続した所定枚数のフレームに対応する複数の表示情報を時系列順に表示させるという条件である。例えば、予め設定された表示条件とは、予め設定された時刻を含む所定時間帯に生成された複数のフレームに対応する複数の表示情報を時系列順に表示させるという条件である。なお、表示条件は、予め設定されていれば、ここであげた例に限定されない。

　入力部３２４は、ユーザによる操作を受け付ける入力機器３２７に接続される。例えば、入力機器３２７は、キーボードやタッチパネル、マウス等によって実現される。入力部３２４は、入力機器３２７を介して入力されたユーザによる操作内容を追跡装置３０に出力する。また、入力部３２４は、映像データやフレーム、表示情報等の指定をユーザから受け付けた場合、指定された画像を画面に表示させる指示を表示部３２３に出力する。

　設定取得部３９は、端末装置３２０を用いて入力された設定を取得する。設定取得部３９は、位置や向きに関する重みの設定や、キーポイントの設定等を取得する。設定取得部３９は、取得した設定を追跡装置３０の機能に反映させる。

　図１２は、表示機器３３０の画面に表示される表示情報の一例について説明するための概念図である。表示機器３３０の画面には、重み設定領域３４０と画像表示領域３５０が設定される。設定領域３４０には、位置に関する重みを設定するための第１操作画像３４１と、向きに関する重みを設定するための第２操作画像３４２とが表示される。画像表示領域３５０には、監視カメラ３１０によって撮影された映像を構成するフレームごとの追跡画像が表示される。なお、表示機器３３０の画面には、重み設定領域３４０および画像表示領域３５０以外の表示領域を設定してもよい。また、重み設定領域３４０および画像表示領域３５０の画面上における表示位置は、任意に変更できる。

　第１操作画像３４１には、位置に関する重みを設定するためのスクロールバーが表示される。位置に関する重みは、先行フレームと後続フレームの各々から検出された追跡対象を比較する際に、それらの追跡対象の位置をどの程度重視するかを示す指標値である。位置に関する重みは、０以上１以下の範囲に設定される。第１操作画像３４１に表示されるスクロールバーには、位置に関する重みの最小値（左端）と最大値（右端）が設定される。スクロールバー上のノブ３６１を左右に移動させると、位置に関する重みが変更される。図１２の例では、位置に関する重みは０．８に設定される。なお、第１操作画像３４１には、横方向のスクロールバーではなく、縦方向のスクロールバーが表示されてもよい。また、第１操作画像３４１には、スクロールバーではなく、位置に関する重みを設定するためのスピンボタンやコンボボックス等を表示させてもよい。また、第１操作画像３４１には、位置に関する重みを設定するために、スクロールバー等とは異なる要素が表示されてもよい。

　第２操作画像３４２には、向きに関する重みを設定するためのスクロールバーが表示される。向きに関する重みは、先行フレームと後続フレームの各々から検出された追跡対象を比較する際に、それらの追跡対象の向きをどの程度重視するかを示す指標値である。向きに関する重みは、０以上１以下の範囲に設定される。第２操作画像３４２に表示されるスクロールバーには、向きに関する重みの最小値（左端）と最大値（右端）が設定される。スクロールバー上のノブ３６２を左右に移動させると、向きに関する重みが変更される。図１２の例では、向きに関する重みは０．２に設定される。なお、第２操作画像３４２には、横方向のスクロールバーではなく、縦方向のスクロールバーが表示されてもよい。また、第２操作画像３４２には、スクロールバーではなく、向きに関する重みを設定するためのスピンボタンやコンボボックス等を表示させてもよい。また、第２操作画像３４２には、向きに関する重みを設定するために、スクロールバー等とは異なる要素が表示されてもよい。

　図１２の例では、１１～１６のＩＤが付与された６人の人物を追跡対象として含むフレームが画像表示領域３５０に表示される。図１２には、後続フレームに対応する画像を画像表示領域３５０に表示させる例を示す。画像表示領域３５０には、先行フレームと後続フレームを並べて表示させてもよい。また、画像表示領域３５０には、図示しないボタンの選択等に応じて、先行フレームと後続フレームを切り替えるように表示させてもよい。

　図１２の例では、フレームから検出された人物に対応付けられた追跡情報が表示される。追跡情報は、フレームから検出された人物から抽出された複数のキーポイントと、それらのキーポイントを結ぶ線分（骨格線）とが人物に対応付けられて表示される。例えば、端末装置３２０を介したユーザの操作に応じて、画像表示領域３５０に追跡情報を表示させるか否かを切り替えることができるようにしてもよい。図１２の例では、６人の人物が同じ向きに向けて歩いている。このように、同じ向きに移動する追跡対象が多い場合、フレーム間で追跡対象を高精度で追跡するためには、向きに比べて位置を重視する方がよい。同じ向きに移動する追跡対象が多い場合、位置に関する重みと向きに関する重みを同じにすると、向きに関する重みが過剰に見積もられ、追跡精度が低下する可能性がある。そのため、同じ向きに移動する追跡対象が多い場合には、位置に関する重みを大きめに設定すれば、向きに関する重みを低めに設定することによって、追跡精度の低下を低減できる。

　図１３は、表示機器３３０の画面に表示される表示情報の別の一例について説明するための概念図である。図１３の例では、位置に関する重みが０．２に設定され、向きに関する重みが０．８に設定される。図１３の例では、６人の人物がすれ違うように歩いている。このように、すれ違うように移動する追跡対象が多い場合、フレーム間で追跡対象を高い精度で追跡するためには、位置に比べて向きを重視する方がよい。すれ違うように移動する追跡対象が多い場合、向きに関する重みと位置に関する重みを同じにすると、位置に関する重みが過剰に見積もられ、追跡精度が低下する可能性がある。そのため、すれ違うように移動する追跡対象が多い場合には、向きに関する重みを大きめに設定し、位置に関する重みを低めに設定することによって、追跡精度の低下を低減できる。

　図１４は、表示機器３３０の画面に表示される表示情報のさらに別の一例について説明するための概念図である。図１４の例では、位置および向きに関する重みを設定するための第３操作画像３４３と、シーンに応じた位置および向きに関する重みを設定するための第４操作画像３４４を重み設定領域３４０に表示させる。なお、第３操作画像３４３と第４操作画像３４４は、重み設定領域３４０に同時に表示させなくてもよい。

　第３操作画像３４３には、位置およびに関する重みを設定するためのスクロールバーが表示される。第１操作画像３４１に表示されるスクロールバーには、位置に関する重みの最大値（左端）と、向きに関する重みの最大値（右端）が設定される。位置に関する重みが最大値（左端）に設定されると、向きに関する重みが最小値に設定される。一方、向きに関する重みが最大値（右端）に設定されると、位置に関する重みが最小値に設定される。スクロールバー上のノブ３６３を左右に移動させると、位置および向きに関する重みが一括で変更される。なお、第３操作画像３４３には、横方向のスクロールバーではなく、縦方向のスクロールバーが表示されてもよい。また、第３操作画像３４３には、スクロールバーではなく、位置および向きに関する重みを設定するためのスピンボタンやコンボボックス等を表示させてもよい。また、第３操作画像３４３には、位置および向きに関する重みを設定するために、スクロールバー等とは異なる要素が表示されてもよい。位置に関する重みと、向きに関する重みは、シーンに応じて相補的な関係にあることが多い。そのため、位置に関する重みを重視するシーンでは、向きに関する重みを小さくした方がよい。その反対に、向きに関する重みを重視するシーンでは、位置に関する重みを小さくした方がよい。図１４の例では、画像表示領域３５０に表示されたフレーム内における追跡対象の状況に応じて、位置およびに関する重みを一括で設定できるので、位置および向きに関する重みの設定をシーンに応じて適切に変更できる。

　第４操作画像３４４には、シーンに応じた位置および向きに関する重みを設定するためのチェックボックスが表示される。図１４は、端末装置３２０を介したポインター３６５の操作に応じて、「すれ違い」のシーンに応じた重みが設定された例である。図１４の例では、第４操作画像３４４でいずれかのシーンが選択されると、第３操作画像３４３の設定も同時に変更されるものとする。例えば、多くの人がすれ違うシーンでは、すれ違った追跡対象間でＩＤの入れ違いが起こりにくくなるように、顔の向きを考慮して向きを重視する方が好ましい。例えば、「すれ違い」のシーンが選択されると、位置の重みが０．２、向きの重みが０．８に設定される。例えば、同じ向きに移動する人物が多いシーンでは、顔の向きによらず、位置を重視すればよい。例えば、「同じ向き」のシーンが選択されると、位置の重みが０．８、向きの重みが０．２に設定される。画像表示領域３５０に表示されたフレーム内における追跡対象の状況に応じてシーンを選択することによって、位置および向きに関する重みの設定を直感的に変更できる。

　図１５は、表示機器３３０の画面に表示される表示情報の別の一例について説明するための概念図である。表示機器３３０の画面には、キーポイント指定領域３７０とキーポイント指定領域３８０が設定される。キーポイント指定領域３７０には、個別指定画像３７１と一括指定画像３７２が表示される。キーポイント指定領域３８０には、キーポイント指定領域３７０で指定されたキーポイントが人体に対応付けられた画像が表示される。例えば、個別指定画像３７１における各キーポイントの選択や、一括指定画像３７２における体の部分の選択に応じて、キーポイントが指定される。図１５の例は、個別指定画像３７１において指定された全てのキーポイントは、キーポイント指定領域３８０に表示される。キーポイント指定領域３８０には、選択されたキーポイントが黒く塗り潰された状態で表示される。なお、表示機器３３０の画面には、キーポイント指定領域３７０およびキーポイント指定領域３８０以外の表示領域を設定してもよい。また、キーポイント指定領域３７０およびキーポイント指定領域３８０の画面上における表示位置は、任意に変更できる。

　図１６は、表示機器３３０の画面に表示される表示情報のさらに別の一例について説明するための概念図である。図１６の例では、端末装置３２０を介したポインター３６５の操作に応じて、一括指定画像３７２において「体幹」が選択された例である。一括指定画像３７２において「体幹」が選択されると、頭部（ＨＤ）、首（Ｎ）、右腰（ＲＷ）、左腰（ＬＷ）が一括で指定される。図１６の例では、一括指定画像３７２において指定された「体幹」のキーポイントは、キーポイント指定領域３８０に表示される。キーポイント指定領域３７０には、選択されたキーポイントが黒く塗り潰された状態で表示される。例えば、両手両足は、体幹に比べてフレーム間における変化が大きいため、重みが大きすぎると追跡精度が低下する可能性がある。そのため、両手両足の重みは、体幹の重みと比べて、デフォルトで小さく設定されてもよい。

　例えば、「上半身」が選択されると、頭部（ＨＤ）、首（Ｎ）、右肩（ＲＳ）、左肩（ＬＳ）、右肘（ＲＥ）、左肘（ＬＥ）、右手（ＲＨ）、左手（ＬＨ）が一括で指定される。例えば、「下半身」が選択されると、右腰（ＲＷ）、左腰（ＬＷ）、右膝（ＲＫ）、左膝（ＬＫ）、右足（ＲＦ）、左足（ＬＦ）が一括で指定される。例えば、「右半身」が選択されると、右肩（ＲＳ）、右肘（ＲＥ）、右手（ＲＨ）、右膝（ＲＫ）、右足（ＲＦ）が一括で指定される。例えば、「左半身」が選択されると、左肩（ＬＳ）、左肘（ＬＥ）、左手（ＬＨ）、左膝（ＬＫ）、左足（ＬＦ）が一括で指定される。例えば、「手足」が選択されると、右肘（ＲＥ）、左肘（ＬＥ）、右手（ＨＲ）、左手（ＬＨ）、右膝（ＲＫ）、左膝（ＬＫ）、右足（ＲＦ）、左足（ＬＦ）が一括で指定される。例えば、「腕」が選択されると、右肘（ＲＥ）、左肘（ＬＥ）、右手（ＲＨ）、左手（ＬＨ）が一括で指定される。例えば、「足」が選択されると、右膝（ＲＫ）、左膝（ＬＫ）、右足（ＲＦ）、左足（ＬＦ）が一括で指定される。

　例えば、選択されたキーポイントの重みは１に設定され、選択されなかったキーポイントの重みは０に設定される。例えば、上半身が選択された場合、上半身に含まれるキーポイントの重みが１に設定される。例えば、上半身が選択された場合、上半身に含まれるキーポイントの重みが１に設定され、下半身に含まれるキーポイントの重みが０．５に設定されるように構成してもよい。

　上述したような、一括指定画像３７２で選択された際に一括で選択されるキーポイントは、一例であって、上述とは異なる組み合わせであってもよい。例えば、体の部分によって一括でキーポイントを選択するのではなく、シーンや状況に応じた適切なキーポイントのセットを予め用意しておき、それらのキーポイントのセットを直感的に選択できるように構成してもよい。例えば、スキルのあるユーザによってシーンや状況に応じて選択されたキーポイントを学習させたモデルを用いて、シーンや状況に応じた適切なキーポイントを推定するように構成してもよい。例えば、キーポイントを設定するための質問事項を用意しておき、質問事項の答えに応じてキーポイントを設定してもよい。予め用意されたキーポイントのセットを選択できるように構成すれば、シーンや状況に応じてキーポイントを個別に選択できるスキルのないユーザであっても、スキルのあるユーザと同様に適切なキーポイントを選択できる。

　図１７は、図１６のように、「体幹」が選択され、頭部（ＨＤ）、首（Ｎ）、右腰（ＲＷ）、左腰（ＬＷ）が一括で指定された状態で、フレームから検出された人物に追跡情報が対応付けられて表示される例である。追跡情報は、フレームから検出された人物から抽出された４つのキーポイント（ＨＤ、Ｎ、ＲＷ、ＬＷ）と、それらのキーポイントを結ぶ線分（骨格線）とが人物に対応付けられて表示される。図１７のように、追跡対象が同じ向きに向けて移動する場合、追跡対象の位置を把握できれば十分であるので、比較的移動の少ない体幹のキーポイントを重視して追跡すればよい。例えば、図１５～図１６の表示情報と、図１７の表示情報は、表示機器３３０の画面に表示させた図示しないボタンの押下によって切り替わるように構成すればよい。

　（動作）
　次に、追跡装置３０の動作の一例について図面を参照しながら説明する。追跡装置３０による処理の概要は、第１の実施形態と同様であるので省略する。以下においては、追跡装置３０の追跡部３７における設定処理の詳細について説明する。例えば、図５のステップＳ１３～Ｓ１４の間のいずれかに挿入される。設定処理は、キーポイントの指定や、位置および向きの重みの調整に応じて実行される。

　図１８において、まず、追跡装置３０は、キーポイント（ＫＰ：Key Point）の指定の有無を判定する（ステップＳ３１）。キーポイントの指定があった場合（ステップＳ３１でＹｅｓ）、追跡装置３０は、指定されたキーポイントを抽出対象として設定する（ステップＳ３２）。一方、キーポイントの指定がなかった場合（ステップＳ３１でＮｏ）、ステップＳ３３に進む。

　次に、位置および向きの重みの調整があった場合（ステップＳ３３でＹｅｓ）、追跡装置３０は、調整に応じて位置および向きの重みを設定する（ステップＳ３４）。ステップＳ３４の後は、図５のフローチャートの後続する処理に移行する。また、位置および向きの重みの調整がなかった場合（ステップＳ３３でＮｏ）、位置および向きの重みの再調整はせずに、図５のフローチャートの後続する処理に移行する。

　以上のように、本実施形態の追跡システムは、監視カメラ、追跡装置、および端末装置を備える。監視カメラは、監視対象範囲を撮影して映像データを生成する。端末装置は、追跡装置によって生成される表示情報を表示させる画面を有する表示機器に接続される。追跡装置は、映像取得部、記憶部、検出部、抽出部、姿勢情報生成部、追跡部、追跡情報出力部、および設定取得部を有する。映像取得部は、監視カメラから映像データを取得する。記憶部は、取得された映像データを記憶する。検出部は、映像データを構成する少なくとも二つのフレームから追跡対象を検出する。抽出部は、検出された追跡対象から少なくとも一つのキーポイントを抽出する。姿勢情報生成部は、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する。追跡部は、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。追跡情報出力部は、追跡対象の追跡に関する追跡情報を端末装置に出力する。設定取得部は、端末装置を用いて入力された設定を取得する。設定取得部は、位置や向きに関する重みの設定や、キーポイントの設定等を取得する。設定取得部は、取得した設定を追跡装置の機能に反映させる。

　本実施形態において、端末装置は、画像表示領域と重み設定領域を表示機器の画面に設定する。画像表示領域には、映像データを構成するフレームから検出された追跡対象に対してキーポイントが対応付けられた追跡画像が表示される。重み設定領域には、位置に関する重みと向きに関する重みを設定するための操作画像が表示される。端末装置は、重み設定領域において設定された位置に関する重みと向きに関する重みを追跡装置に出力する。追跡装置は、重み設定領域において選択された位置に関する重みと向きに関する重みを端末装置から取得する。追跡装置は、取得した位置に関する重みと向きに関する重みを用いて、映像データを構成する少なくとも二つのフレームの各々から検出された追跡対象に関する位置および向きに関する距離に応じたスコアを計算する。追跡装置は、算出されたスコアに基づいて追跡対象を追跡する。

　本実施形態では、ユーザの操作に応じて、位置および向きに関する重みを任意に調整できる。そのため、本実施形態によれば、ユーザの要求に応じた重みに基づいて、高精度な追跡対象の追跡を実現できる。

　本実施形態の一態様において、端末装置は、位置に関する重みと向きに関する重みをシーンに応じて設定するための操作画像を重み設定領域に表示させる。端末装置は、重み設定領域において設定されたシーンに応じた位置に関する重みと向きに関する重みを追跡装置に出力する。本態様によれば、シーンに応じて、位置および向きに関する重みを任意に調整できる。そのため、本実施形態によれば、シーンに適した高精度な追跡対象の追跡を実現できる。

　本実施形態の一態様において、端末装置は、追跡対象の姿勢情報の生成に用いられるキーポイントを指定するための指定画像が表示されるキーポイント指定領域を表示機器の画面に設定する。端末装置は、キーポイント領域において選択されたキーポイントを追跡装置に出力する。追跡装置は、キーポイント選択領域において選択されたキーポイントを端末装置から取得する。追跡装置は、取得したキーポイントに関して姿勢情報を生成する。本態様では、ユーザの操作に応じて、姿勢情報の生成に用いられるキーポイントを任意に調整できる。そのため、本実施形態によれば、ユーザの要求に応じた姿勢情報を用いて、高精度な追跡対象の追跡を実現できる。

　（第４の実施形態）
　次に、第４の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、第１～第３の実施形態の追跡装置を簡略化した構成である。図１９は、本実施形態の追跡装置４０の構成の一例を示すブロック図である。追跡装置４０は、検出部４３、抽出部４５、姿勢情報生成部４６、および追跡部４７を備える。

　検出部は４３、映像データを構成する少なくとも二つのフレームから追跡対象を検出する。抽出部４５は、検出された追跡対象から少なくとも一つのキーポイントを抽出する。姿勢情報生成部４６は、少なくとも一つのキーポイントに基づいて追跡対象の姿勢情報を生成する。追跡部４７は、少なくとも二つのフレームの各々から検出された追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡する。

　以上のように、本実施形態の追跡装置は、追跡対象の姿勢情報の位置および向きに基づいて追跡対象を追跡することによって、映像を構成するフレームにおいて、複数の追跡対象を姿勢に基づいて追跡できる。

　（ハードウェア）
　ここで、本開示の各実施形態に係る追跡装置や端末装置等（以下、追跡装置等とよぶ）の処理を実行するハードウェア構成について、図２０の情報処理装置９０を一例として挙げて説明する。なお、図２０の情報処理装置９０は、各実施形態の追跡装置等の処理を実行するための構成例であって、本開示の範囲を限定するものではない。

　図２０のように、情報処理装置９０は、プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５、および通信インターフェース９６を備える。図２０においては、インターフェースをＩ／Ｆ（Interface）と略して表記する。プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５、および通信インターフェース９６は、バス９８を介して互いにデータ通信可能に接続される。また、プロセッサ９１、主記憶装置９２、補助記憶装置９３および入出力インターフェース９５は、通信インターフェース９６を介して、インターネットやイントラネットなどのネットワークに接続される。

　プロセッサ９１は、補助記憶装置９３等に格納されたプログラムを主記憶装置９２に展開し、展開されたプログラムを実行する。本実施形態においては、情報処理装置９０にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ９１は、本実施形態に係る追跡装置等による処理を実行する。

　主記憶装置９２は、プログラムが展開される領域を有する。主記憶装置９２は、例えばＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリとすればよい。また、ＭＲＡＭ（Magnetoresistive Random Access Memory）などの不揮発性メモリを主記憶装置９２として構成・追加してもよい。

　補助記憶装置９３は、種々のデータを記憶する。補助記憶装置９３は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置９２に記憶させる構成とし、補助記憶装置９３を省略することも可能である。

　入出力インターフェース９５は、情報処理装置９０と周辺機器とを接続するためのインターフェースである。通信インターフェース９６は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークを通じて、外部のシステムや装置に接続するためのインターフェースである。入出力インターフェース９５および通信インターフェース９６は、外部機器と接続するインターフェースとして共通化してもよい。

　情報処理装置９０には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続するように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の表示画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ９１と入力機器との間のデータ通信は、入出力インターフェース９５に仲介させればよい。

　また、情報処理装置９０には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、情報処理装置９０には、表示機器の表示を制御するための表示制御装置（図示しない）が備えられていることが好ましい。表示機器は、入出力インターフェース９５を介して情報処理装置９０に接続すればよい。

　また、情報処理装置９０には、ドライブ装置を備え付けてもよい。ドライブ装置は、プロセッサ９１と記録媒体（プログラム記録媒体）との間で、記録媒体からのデータやプログラムの読み込み、情報処理装置９０の処理結果の記録媒体への書き込みなどを仲介する。ドライブ装置は、入出力インターフェース９５を介して情報処理装置９０に接続すればよい。

　以上が、本発明の各実施形態に係る追跡装置等を可能とするためのハードウェア構成の一例である。なお、図２０のハードウェア構成は、各実施形態に係る追跡装置等の演算処理を実行するためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、各実施形態に係る追跡装置等に関する処理をコンピュータに実行させるプログラムも本発明の範囲に含まれる。さらに、各実施形態に係るプログラムを記録したプログラム記録媒体も本発明の範囲に含まれる。記録媒体は、例えば、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光学記録媒体で実現できる。また、記録媒体は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）カードなどの半導体記録媒体や、フレキシブルディスクなどの磁気記録媒体、その他の記録媒体によって実現してもよい。プロセッサが実行するプログラムが記録媒体に記録されている場合、その記録媒体はプログラム記録媒体に相当する。

　各実施形態の追跡装置等の構成要素は、任意に組み合わせることができる。また、各実施形態の追跡装置等の構成要素は、ソフトウェアによって実現してもよいし、回路によって実現してもよい。

　以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１、２、３　　追跡システム
　１０、２０、３０、４０　　追跡装置
　１１、２１、３１　　映像取得部
　１２、２２、３２　　記憶部
　１３、２３、３３、４３　　検出部
　１５、２５、３５、４５　　抽出部
　１６、２６、３６、４６　　姿勢情報生成部
　１７、２７、３７、４７　　追跡部
　１８、２８、３８　　追跡情報出力部
　３９　　設定取得部
　１１０、２１０、３１０　　監視カメラ
　１２０、２２０、３２０　　端末装置
　３２１　　追跡情報取得部
　３２２　　追跡情報記憶部
　３２３　　表示部
　３２４　　入力部
　３２７　　入力機器
　３３０　　表示機器

Claims

　映像データを構成する少なくとも二つのフレームから追跡対象を検出する検出手段と、
　検出された前記追跡対象から少なくとも一つのキーポイントを抽出する抽出手段と、
　前記少なくとも一つのキーポイントに基づいて前記追跡対象の姿勢情報を生成する姿勢情報生成手段と、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象の前記姿勢情報の位置および向きに基づいて前記追跡対象を追跡する追跡手段と、を備える追跡装置。
　前記追跡手段は、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象に関する位置および向きに関する距離に応じたスコアを前記姿勢情報に基づいて計算し、算出された前記スコアに基づいて前記追跡対象を追跡する請求項１に記載の追跡装置。
　前記追跡手段は、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象に関して、前記スコアが最小になるペアを同一の前記追跡対象として追跡する請求項２に記載の追跡装置。
　前記追跡手段は、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象に関して、前記キーポイントの座標値の差の絶対値の重み付き平均を前記位置に関する距離として計算し、前記キーポイントの基準点に対する特定方向の相対的な座標値の差の絶対値の重み付き平均を前記向きに関する距離として計算し、前記位置に関する距離と前記向きに関する距離の和を前記スコアとして計算する請求項２または３に記載の追跡装置。
　前記追跡手段は、
　複数の前記キーポイントのうちいずれかの間を結ぶ骨格線に基づいて前記追跡対象の身長画素数を推定し、
　推定された前記身長画素数で前記スコアを正規化し、
　正規化された前記スコアに応じて、前記少なくとも二つのフレームの各々から検出された前記追跡対象を追跡する請求項２乃至４のいずれか一項に記載の追跡装置。
　請求項１乃至５のいずれか一項に記載の追跡装置と、
　監視対象範囲を撮影して映像データを生成する監視カメラと、
　前記追跡装置によって生成される表示情報を表示させる画面を有する表示機器に接続される端末装置と、を備える追跡システム。
　前記端末装置は、
　前記映像データを構成するフレームから検出された追跡対象に対してキーポイントが対応付けられた追跡画像が表示される画像表示領域と、
　位置に関する重みと向きに関する重みを設定するための操作画像が表示される重み設定領域と、を前記表示機器の画面に設定し、
　前記重み設定領域において設定された前記位置に関する重みと前記向きに関する重みを前記追跡装置に出力し、
　前記追跡装置は、
　前記重み設定領域において選択された前記位置に関する重みと前記向きに関する重みを前記端末装置から取得し、
　取得した前記位置に関する重みと前記向きに関する重みを用いて、前記映像データを構成する少なくとも二つのフレームの各々から検出された前記追跡対象に関する位置および向きに関する距離に応じたスコアを計算し、算出された前記スコアに基づいて前記追跡対象を追跡する請求項６に記載の追跡システム。
　前記端末装置は、
　前記追跡対象の姿勢情報の生成に用いられるキーポイントを指定するための指定画像が表示されるキーポイント指定領域を前記表示機器の画面に設定し、
　前記キーポイント指定領域において選択された前記キーポイントを前記追跡装置に出力し、
　前記追跡装置は、
　前記キーポイント指定領域において選択された前記キーポイントを前記端末装置から取得し、
　取得した前記キーポイントに関して前記姿勢情報を生成する請求項６または７に記載の追跡システム。
　コンピュータが、
　映像データを構成する少なくとも二つのフレームから追跡対象を検出し、
　検出された前記追跡対象から少なくとも一つのキーポイントを抽出し、
　前記少なくとも一つのキーポイントに基づいて前記追跡対象の姿勢情報を生成し、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象の前記姿勢情報の位置および向きに基づいて前記追跡対象を追跡する追跡方法。
　映像データを構成する少なくとも二つのフレームから追跡対象を検出する処理と、
　検出された前記追跡対象から少なくとも一つのキーポイントを抽出する処理と、
　前記少なくとも一つのキーポイントに基づいて前記追跡対象の姿勢情報を生成する処理と、
　前記少なくとも二つのフレームの各々から検出された前記追跡対象の前記姿勢情報の位置および向きに基づいて前記追跡対象を追跡する処理と、をコンピュータに実行させるプログラムを記録させた非一過性のプログラム記録媒体。