WO2023058241A1

WO2023058241A1 - 追従プログラム、追従方法および情報処理装置

Info

Publication number: WO2023058241A1
Application number: PCT/JP2021/037415
Authority: WO
Inventors: 帆楊
Original assignee: 富士通株式会社
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-04-13
Also published as: JPWO2023058241A1; CN118043847A

Abstract

情報処理装置１００は、複数のカメラのそれぞれが撮影した複数の画像から、人物の頭領域をそれぞれ特定する。情報処理装置１００は、複数の画像から特定した頭領域の位置を基にして、同一の人物に対応する頭領域の組を特定する。情報処理装置１００は、同一の人物の頭領域の組の２次元上の位置と、複数のカメラにそれぞれ設定されたパラメータとを基にして、３次元上の人物の頭の位置を特定する。

Description

追従プログラム、追従方法および情報処理装置

　本発明は、追従プログラム等に関する。

　複数のカメラによって撮影された映像を用いて、３次元上の人物の位置を追従する技術がある。図２５は、人物追従結果の一例を説明するための図である。図２５において、映像Ｍ１は、カメラｃ１よって撮影された映像である。映像Ｍ２は、カメラｃ２によって撮影された映像である。映像Ｍ３は、カメラｃ３によって撮影された映像である。映像Ｍ１～Ｍ３に含まれる各画像フレームの同一人物の位置と、カメラｃ１～ｃ３のパラメータを基にして、３次元上（世界座標系）の人物の位置を算出する処理を繰り返すことで、３次元上の人物を追従する。

　たとえば、映像Ｍ１の人物１－１と、映像Ｍ２の人物２－１とは同一人物であり、かかる人物の３次元上の追従結果は、軌跡ｔｒａ１となる。映像Ｍ１の人物１－２と、映像Ｍ２の人物２－２と、映像Ｍ３の人物３－２とは同一人物であり、かかる人物の３次元上の追従結果は、軌跡ｔｒａ２となる。

　映像Ｍ１の人物１－３と、映像Ｍ２の人物２－３と、映像Ｍ３の人物３－３とは同一人物であり、かかる人物の３次元上の追従結果は、軌跡ｔｒａ３となる。映像Ｍ１の人物１－４と、映像Ｍ２の人物２－４と、映像Ｍ３の人物３－４とは同一人物であり、かかる人物の３次元上の追従結果は、軌跡ｔｒａ４となる。映像Ｍ１の人物１－５と、映像Ｍ２の人物２－５と、映像Ｍ３の人物３－５とは同一人物であり、かかる人物の３次元上の追従結果は、軌跡ｔｒａ５となる。

　ここで、複数のカメラによって撮影された映像を用いて、３次元上の人物の位置を追従する従来技術１、２について説明する。

　図２６は、従来技術１を説明するための図である。従来技術１を実行する装置を、従来装置１０と表記する。従来装置１０は、シングルＭＯＴ（Multiple　Object　Tracking）１１と、３次元軌跡計算部１２と、関連付け処理部１３とを有する。

　シングルＭＯＴ１１は、２次元領域情報１ａ，１ｂ，１ｃ（その他の２次元領域情報）を受け付けると、２次元軌跡情報２ａ，２ｂ，２ｃ（その他の２次元軌跡情報）を生成する。

　２次元領域情報１ａは、カメラｃ１によって撮影された映像（連続する画像フレーム）から抽出される人物の領域の２次元座標（2d　bboxes）である。２次元領域情報１ｂは、カメラｃ２によって撮影された映像から抽出される人物の領域の２次元座標である。２次元領域情報１ｃは、カメラｃ３によって撮影された映像から抽出される人物の領域の２次元座標である。

　２次元軌跡情報２ａは、連続する２次元領域情報１ａを追従することで算出される軌跡情報である。２次元軌跡情報２ｂは、連続する２次元領域情報１ｂを追従することで算出される軌跡情報である。２次元軌跡情報２ｃは、連続する２次元領域情報１ｃを追従することで算出される軌跡情報である。

　３次元軌跡計算部１２は、２次元軌跡情報２ａ，２ｂ，２ｃ（その他の２次元軌跡情報）を受け付けると、カメラｃ１～ｃ３のパラメータを基にして、３次元軌跡情報３ａ，３ｂ，３ｃ（その他の３次元軌跡情報）を計算する。３次元軌跡計算部１２は、人物の足元のＺ軸座標が０（Ｚ＝０）であることを仮定して、２次元の人物の軌跡から、３次元の人物の軌跡に変換する。

　たとえば、３次元軌跡計算部１２は、２次元軌跡情報２ａを基にして、３次元軌跡情報３ａを計算する。３次元軌跡計算部１２は、２次元軌跡情報２ｂを基にして、３次元軌跡情報３ｂを計算する。３次元軌跡計算部１２は、２次元軌跡情報２ｃを基にして、３次元軌跡情報３ｃを計算する。

　関連付け処理部１３は、３次元軌跡情報３ａ，３ｂ，３ｃ（その他の３次元軌跡情報）を基にして、関連付けを行い、３次元軌跡情報４を生成する。たとえば、関連付け処理部１３は、３次元軌跡情報３ａ，３ｂ，３ｃから各軌跡のユーグリッド距離等を算出し、ユーグリッド距離を基にして、３次元軌跡情報３ａ，３ｂ，３ｃを関連付けて、３次元軌跡情報４を生成する。

　従来装置１０は、上記処理を繰り返し実行することで、３次元上の人物の位置を追従する。

　図２７は、従来技術２を説明するための図である。従来技術２を実行する装置を、従来装置２０と表記する。従来装置２０は、関連付け処理部２１と、ＭＯＴ２２とを有する。

　関連付け処理部２１は、２次元姿勢情報５ａ，５ｂ，５ｃ（その他の２次元姿勢情報）を基にして、３次元姿勢情報６を生成する。２次元姿勢情報５ａは、カメラｃ１によって撮影された映像（連続する画像フレーム）から抽出される人物の姿勢の情報であり、関節位置等の情報を含む。２次元姿勢情報５ｂは、カメラｃ２によって撮影された映像から抽出される人物の姿勢の情報であり、人物の関節位置等の情報を含む。２次元姿勢情報５ｃは、カメラｃ３によって撮影された映像から抽出される人物の姿勢の情報であり、関節位置等の情報を含む。

　関連付け処理部２１は、２次元姿勢情報５ａ，５ｂ，５ｃ（その他の２次元姿勢情報）から特定されるエピポーラ線と人物との距離、類似度等を基にして、２次元姿勢情報５ａ，５ｂ，５ｃを関連付け、３次元姿勢情報６を生成する。３次元姿勢情報６は、３次元上の人物の姿勢の情報であり、人物の関節位置等の情報を含む。

　ＭＯＴ２２は、３次元姿勢情報６を基にして、３次元軌跡情報７を生成する。３次元軌跡情報７は、３次元の人物の軌跡の情報である。

　従来装置２０は、上記処理を繰り返し実行することで、３次元上の人物の位置を追従する。

Yuhang　He　et　al"Multi-Target　Multi-Camera　Tracking　by　Tracklet-to-Target　Assignment"　IEEE　TRANSACTIONS　ON　IMAGE　PROCESSING,VOL.29,2020 He　Chen　et　al"Multi-person　3D　Pose　Estimation　in　Crowded　Scenes　Based　on　Multi-View　Geometry" Long　Chen　et　al"Cross-View　Tracking　for　Multi-Human　3D　Pose　Estimation　at　over　100　FPS　"　arXiv:2003.03972v3　[cs.CV]　29　Jul　2021 Junting　Dong　et　al"Fast　and　Robust　Multi-Person　3D　Pose　Estimation　and　Tracking　from　Multiple　Views"JOURNAL　OF　LATEX　CLASS　FILES,　VOL.　14,　NO.　8,　AUGUST　2015 Yifu　Zhang　et　al"VoxelTrack:　Multi-Person　3D　Human　Pose　Estimation　and　Tracking　in　the　Wild"　arXiv:2108.02452v1　[cs.CV]　5　Aug　2021

　しかしながら、上述した従来技術では、人物の３次元上の位置を追従することができないという問題がある。

　図２８は、従来技術の問題を説明するための図である。従来技術では、一つの２次元軌跡情報から、１つの３次元軌跡情報を計算するために、人物Ｐ１の足元のＺ軸座標が０（Ｚ＝０）であることを仮定し、人物Ｐ１の３次元座標を算出する。たとえば、カメラｃ１の画像Ｉｍ１に含まれる人物の領域Ａ１から人物Ｐ１の３次元座標を算出する。また、カメラｃ２の画像Ｉｍ２に含まれる人物の領域Ａ２から人物Ｐ１の３次元座標を算出する。

　このため、人物Ｐ１が、台上等に位置している場合には、人物Ｐ１の足元のＺ軸座標が０とはならないため（Ｚ≠０）、人物Ｐ１の３次元座標を精度よく算出できず、追従に失敗する。

　また、従来技術では、複数の人物が密集して状況では各人物が重なり合うため、異なるカメラが撮影した画像に含まれる同一の人物の領域同士を対応付けることができない場合があった。さらに、複数の人物が密集して状況では、オクルージョンが発生して、人物の足元が画面に映らず、人物の３次元位置を算出することが難しい。

　１つの側面では、本発明は、人物の３次元上の位置を精度よく追従することができる追従プログラム、追従方法および情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、複数のカメラのそれぞれが撮影した複数の画像から、人物の頭領域をそれぞれ特定する。コンピュータは、複数の画像から特定した頭領域の位置を基にして、同一の人物に対応する頭領域の組を特定する。コンピュータは、同一の人物の頭領域の組の２次元上の位置と、複数のカメラにそれぞれ設定されたパラメータとを基にして、３次元上の人物の頭の位置を特定する。

　人物の３次元座標を追従することができる。

図１は、本実施例１に係るシステムの一例を示す図である。図２は、本実施例１に係る情報処理装置の構成例を示す図である。図３は、映像ＤＢのデータ構造の一例を示す図である。図４は、頭領域の検出結果の一例を示す図である。図５は、シングルＭＯＴの処理の一例を説明するための図である。図６は、第１補間部の処理を説明するための図である。図７は、関連付け処理部の処理を説明するための図（１）である。図８は、関連付け処理部の処理を説明するための図（２）である。図９は、関連付け処理部の処理を説明するための図（３）である。図１０は、関連付け処理部の処理を説明するための図（４）である。図１１は、算出処理部の処理を説明するための図（１）である。図１２は、算出処理部の処理を説明するための図（２）である。図１３は、第２補間部の処理を説明するための図である。図１４は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。図１５は、本実施例２に係るシステムの一例を示す図である。図１６は、本実施例２に係る情報処理装置の処理を説明するための図である。図１７は、従来技術による関連付けの結果を示す図である。図１８は、従来技術の関連付けの誤りの一例を示す図である。図１９は、本実施例２の情報処理装置による関連付けの結果を示す図で（１）ある。図２０は、本実施例２の情報処理装置による関連付けの結果を示す図で（２）ある。図２１は、本実施例２に係る情報処理装置の構成例を示す図である。図２２は、本実施例２に係る関連付け処理部２５０の処理を説明するための図である。図２３は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図２４は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２５は、人物追従結果の一例を説明するための図である。図２６は、従来技術１を説明するための図である。図２７は、従来技術２を説明するための図である。図２８は、従来技術の問題を説明するための図である。

　以下に、本願の開示する追従プログラム、追従方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　図１は、本実施例１に係るシステムの一例を示す図である。図１に示すように、このシステムは、複数のカメラｃ１，ｃ２，ｃ３と、データ取得装置６０と、情報処理装置１００とを有する。カメラｃ１～ｃ３と、データ取得装置６０とは、ネットワーク５０を介して相互に接続される。図１では、カメラｃ１～ｃ３を示すが、本実施例１に係るシステムは、更に他のカメラを有していてもよい。

　カメラｃ１～ｃ３は、コンビニエンスストア、スパーマーケット等の店内の映像を撮影するカメラである。カメラｃ１～ｃ３は、映像のデータを、データ取得装置６０に送信する。以下の説明では、映像のデータを「映像データ」と表記する。以下の説明では、カメラｃ１～ｃ３を特に区別しない場合に、単に「カメラ」と表記する。

　映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。１つの画像フレームは、カメラがあるタイミングで撮影した静止画像である。

　データ取得装置６０は、カメラｃ１～ｃ３から映像データを受信し、受信した映像データを映像ＤＢ（Data　Base）６５に登録する。ユーザ等によって、映像ＤＢ６５は情報処理装置１００に設定される。なお、本実施例１では一例として、情報処理装置１００をオフライン（offline）として説明するが、情報処理装置１００をネットワーク５０に接続して、カメラｃ１～ｃ３から映像データを直接、情報処理装置１００に送信してもよい。

　情報処理装置１００は、映像ＤＢ６５に登録された各画像フレーム（映像データ）を基にして、３次元上の人物を追従することで、３次元軌跡情報を生成する装置である。

　たとえば、情報処理装置１００は、映像ＤＢ６５に登録された各画像フレームから人物の頭部の領域とエピポーラ線とをそれぞれ特定する。以下の説明では、人物の頭部の領域を「頭領域」と表記する。

　情報処理装置１００は、各画像フレームからそれぞれ特定した頭領域とエピポーラ線と距離を基にして、同一の人物に対応する頭領域の組を特定し、特定した頭領域の組を基にして、人物の頭部の３次元座標を算出する。情報処理装置１００は、かかる処理を繰り返し実行することで、人物の頭領域に関する３次元軌跡情報を生成する。

　通常、カメラは高い場所に設置されているため、複数の人物が密集していても、頭領域は、オクルージョンの影響を受けにくく、ほとんどのカメラで複数の人物の頭領域を撮影することが可能である。このため、従来技術のように、人物の全身の領域情報を利用する場合と比較して、頭領域をロストすることが少なくなり、安定して、人物の位置（頭領域の位置）を追従することができる。また、情報処理装置１００は、頭領域のみを抽出するため、従来技術のように、人物の全身の領域情報や姿勢を特定する場合と比較して、計算コストを低くでき、処理速度を高めることができる。

　また、本実施例に係る情報処理装置１００は、各画像フレームからそれぞれ特定した人物の頭領域とエピポーラ線と距離を基にして、同一の人物に対応する頭領域の組を特定する。このため、異なる人物の頭領域を、同一の組として特定することを抑止し、人物の３次元上の位置を精度よく追従することができる。

　続いて、図１に示した情報処理装置１００の構成の一例について説明する。図２は、本実施例１に係る情報処理装置の構成例を示す図である。図１に示すように、この情報処理装置１００は、映像ＤＢ６５と、頭領域特定部１１０と、シングルＭＯＴ１１１と、第１補間部１１２と、関連付け処理部１１３と、算出処理部１１４と、第２補間部１１５とを有する。頭領域特定部１１０、シングルＭＯＴ１１１、第１補間部１１２、関連付け処理部１１３、算出処理部１１４、第２補間部１１５は、ＣＰＵ等の制御部によって実現される。頭領域特定部１１０は、第１特定部の一例である。関連付け処理部１１３は、第２特定部の一例である。算出処理部１１４は、第３特定部の一例である。

　映像ＤＢ６５は、カメラｃ１，ｃ２，ｃ３等に撮影された映像データを格納するＤＢである。図３は、映像ＤＢのデータ構造の一例を示す図である。図３に示すように、映像ＤＢ６５は、カメラ識別情報と、映像データとを対応付けて保持する。カメラ識別情報は、カメラを一意に識別する情報である。たとえば、ｃａｍ１は、カメラｃ１を示す。ｃａｍ２は、カメラｃ２を示す。ｃａｍ３は、カメラｃ３を示す。映像データは、該当するカメラに撮影された映像データである。映像データには、時系列の画像フレームが含まれ、フレーム番号が付与される。

　図２の説明に戻る。頭領域特定部１１０は、映像ＤＢ６５に登録された、各カメラがそれぞれ撮影した各画像フレームを解析することで、人物の頭領域をそれぞれ特定し、人物の頭領域の２次元座標を設定した２次元領域情報８ａ，８ｂ，８ｃを出力する。

　たとえば、頭領域特定部１１０は、機械学習済みの検出モデルを利用する。検出モデルは、映像データに含まれる時系列の画像フレームを入力すると、画像フレームに含まれる人物の頭領域を検出する機械学習モデルである。画像フレームから検出される人物には、人物を識別するための人物ＩＤが割り当てられる。検出モデルは、オープンソースの機械学習モデル等で実現される。

　図４は、頭領域の検出結果の一例を示す図である。図４に示すように、あるカメラが撮影した画像フレームｆｒａｍｅ１から、各人物の頭領域ＨＡ１ａ，ＨＡ１ｂ，ＨＡ１ｃ，ＨＡ１ｄ，ＨＡ１ｅが検出されている。頭領域特定部１１０は、各人物の頭領域ＨＡ１ａ～ＨＡ１ｅの２次元座標（2d　bboxes）、人物ＩＤ等を設定し、２次元領域情報を生成する。

　頭領域特定部１１０は、カメラｃ１に撮影された各画像フレームを基にして、２次元領域情報８ａを生成し、シングルＭＯＴ１１１に出力する。頭領域特定部１１０は、カメラｃ２に撮影された各画像フレームを基にして、２次元領域情報８ｂを生成し、シングルＭＯＴ１１１に出力する。頭領域特定部１１０は、カメラｃ３に撮影された各画像フレームを基にして、２次元領域情報８ｃを生成し、シングルＭＯＴ１１１に出力する。図示を省略するが、頭領域特定部１１０は、更に、他のカメラに撮影された各画像フレームを基にして、２次元領域情報を生成してもよい。

　シングルＭＯＴ１１１は、２次元領域情報８ａ，８ｂ，８ｃを受け付けると、２次元軌跡情報９ａ，９ｂ，９ｃを生成する。シングルＭＯＴ１１１は、２次元軌跡情報９ａ，９ｂ，９ｃを、第１補間部１１２に出力する。

　図５は、シングルＭＯＴの処理の一例を説明するための図である。図５に示す画像フレームframe　k-1、frame　k、frame　k+１は、同一のカメラによって撮影された連続する画像フレームであって、各画像フレームから特定される２次元領域情報に相当するものである。画像フレームframe　k-1において、頭領域ＨＡ１ａ，ＨＡ１ｂ，ＨＡ１ｃが含まれる。画像フレームframe　kにおいて、頭領域ＨＡ２ａ，ＨＡ２ｂ，ＨＡ２ｃが含まれる。画像フレームframe　kにおいて、頭領域ＨＡ３ａ，ＨＡ３ｂ，ＨＡ３ｃが含まれる。シングルＭＯＴ１１１は、各画像フレームにおける頭領域の距離を基にして、同一人物の頭領域を特定する。

　シングルＭＯＴ１１１は、頭領域ＨＡ１ａ，ＨＡ２ａ，ＨＡ３ａを同一の人物の頭領域とすると、頭領域ＨＡ１ａ，ＨＡ２ａ，ＨＡ３ａをそれぞれリンクさせる。シングルＭＯＴ１１１は、頭領域ＨＡ１ｂ，ＨＡ２ｂ，ＨＡ３ｂを同一の人物の頭領域とすると、頭領域ＨＡ１ｂ，ＨＡ２ｂ，ＨＡ３ｂをそれぞれリンクさせる。シングルＭＯＴ１１１は、頭領域ＨＡ１ｃ，ＨＡ２ｃ，ＨＡ３ｃを同一の人物の頭領域とすると、頭領域ＨＡ１ａ，ＨＡ２ａ，ＨＡ３ａをそれぞれリンクさせる。

　シングルＭＯＴ１１１は、図５に示す処理を実行することで、同一のカメラによって撮影された各画像フレームに対応する各２次元領域情報から、２次元軌跡情報を生成する。

　なお、シングルＭＯＴ１１１は、非特許文献（Ramana　Sundararaman　et　al“Tracking　Pedestrian　Heads　in　Dense　Crowd”　arXiv:2103.13516v1　[cs.CV]　24　Mar　2021）に記載された技術を用いることで、各２次元領域情報から、２次元軌跡情報を生成することができる。

　図２の説明に戻る。第１補間部１１２は、２次元軌跡情報９ａ～９ｃを受け付け、ある画像フレームにおいて、頭領域に抜け等が存在する場合には、前後の頭領域の情報を用いて、頭領域を補間する。第１補間部１１２は、補間した２次元軌跡情報９ａ～９ｃを、関連付け処理部１１３に出力する。

　図６は、第１補間部の処理を説明するための図である。図６に示す例では、補間前の画像フレームframe　kにおいて、頭領域が検出されていない。なお、補間前の画像フレームframe　k-1において、頭領域ＨＡ１ａ，ＨＡ１ｂ，ＨＡ１ｃが検出されている。補間前の画像フレームframe　k+1において、頭領域ＨＡ３ａ，ＨＡ３ｂ，ＨＡ３ｃが検出されている。

　第１補間部１１２は、画像フレームframe　k-1の頭領域ＨＡ１ａの２次元座標と、画像フレームframe　k+1の頭領域ＨＡ３ａの２次元座標とを基にして、画像フレームframe　kの頭領域ＨＡ２ａを補間する。第１補間部１１２は、画像フレームframe　k-1の頭領域ＨＡ１ｂの２次元座標と、画像フレームframe　k+1の頭領域ＨＡ３ｂの２次元座標とを基にして、画像フレームframe　kの頭領域ＨＡ２ｂを補間する。第１補間部１１２は、画像フレームframe　k-1の頭領域ＨＡ１ｃの２次元座標と、画像フレームframe　k+1の頭領域ＨＡ３ｃの２次元座標とを基にして、画像フレームframe　kの頭領域ＨＡ２ｃを補間する。

　第１補間部１１２が上記の処理を実行することで、補間後において、画像フレームframe　kの頭領域ＨＡ２ａ，ＨＡ２ｂ，ＨＡ２ｃが設定される。

　図２の説明に戻る。関連付け処理部１１３は、２次元軌跡情報９ａ～９ｃを基にして、異なるカメラによって撮影された画像フレーム間の頭領域について、同一の人物に対応する頭領域を関連付ける。図７～図１０は、関連付け処理部の処理を説明するための図である。

　まず、図７について説明する。図７では、画像フレームＩｍ１０－１と、画像フレームＩｍ１０－２とを用いる。画像フレーム１０－１は、カメラｃ１に撮影された映像データに含まれる画像フレームである。画像フレーム１０－１には、ある人物の頭領域ＨＡ１０が含まれる。頭領域ＨＡ１０の高さを「ｈ^１」、幅を「ｗ^１」とする。

　画像フレーム１０－２は、カメラｃ２に撮影された映像データに含まれる画像フレームである。画像フレーム１０－２には、ある人物の頭領域ＨＡ１１が含まれる。頭領域ＨＡ１０の高さを「ｈ^２」、幅を「ｗ^２」とする。

　画像フレーム１０－１と、画像フレーム１０－２とは、同じタイミングで撮影された画像フレームとする。たとえば、画像フレーム１０－１のフレーム番号と、画像フレーム１０－２のフレーム番号とを同一とする。

　関連付け処理部１１３は、カメラｃ１，ｃ２のパラメータと、頭領域ＨＡ１１の中心座標ｘ^２等を基にして、画像フレームＩｍ１０－１上のエピポーラ線ｌ（ｘ^２，０）を特定する。エピポーラ線ｌ（ｘ^２，０）上には、頭領域ＨＡ１１の中心座標ｘ^２が含まれることを意味する。

　関連付け処理部１１３は、画像フレームＩｍ１０－１上において、頭領域ＨＡ１０の中心座標ｘ^１と、エピポーラ線ｌ（ｘ^２）との距離ｄ（ｌ（ｘ^２），ｘ^１）を算出する。関連付け処理部１１３は、距離ｄ（ｌ（ｘ^２），ｘ^１）を（（ｗ^１＋ｈ^１）／２）によって除算することで、スケール調整を行い、頭領域ＨＡ１０と、頭領域ＨＡ１１とのエピポーラ距離を算出する。

　関連付け処理部１１３は、カメラｃ１，ｃ２のパラメータと、頭領域ＨＡ１０の中心座標ｘ^１等を基にして、画像フレームＩｍ１０－２上のエピポーラ線ｌ（ｘ^１）を特定する。エピポーラ線ｌ（ｘ^１）上には、頭領域ＨＡ１０の中心座標ｘ^１が含まれることを意味する。関連付け処理部１１３は、距離ｄ（ｌ（ｘ^１），ｘ^２）を（（ｗ^２＋ｈ^２）／２）によって除算することで、スケール調整を行い、頭領域ＨＡ１０と、頭領域ＨＡ１１とのエピポーラ距離を算出する。

　関連付け処理部１１３は、異なるカメラに撮影された画像フレームに含まれる各頭領域について、上記処理をそれぞれ実行し、各頭領域のエピポーラ距離を算出する。

　図８の説明に移行する。図８では、各頭領域に関するエピポーラ距離を、マトリックスＭＡによって示す。たとえば、頭領域ＨＡ１０－１、ＨＡ１１－１は、カメラｃ１に撮影された画像フレームの人物の頭領域である。頭領域ＨＡ１０－２、ＨＡ１１－２は、カメラｃ２に撮影された画像フレームの人物の頭領域である。同一の頭領域に関するエピポーラ距離は「０．０」となる。

　関連付け処理部１１３は、マトリックスＭＡに設定されたエピポーラ距離を縦方向に走査し、同じ画像に相当するエピポーラ距離「０．０」を除く、各エピポーラ距離のうち、最小のエピポーラ距離を特定し、特定結果を基にして、同一の人物に対応する頭領域の組を特定する。以下の説明では、エピポーラ距離「０．０」を除く、エピポーラ距離のうち、最小のエピポーラ距離を、「最小エピポーラ距離」と表記する。

　図８に示すマトリックスＭＡの０行目、２行目において、最小エピポーラ距離は、頭領域ＨＡ１０－１と、頭領域ＨＡ１０－２との組から得られるエピポーラ距離「０．２」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１０－１と、頭領域ＨＡ１０－２との組を、同一の人物の頭領域として関連付ける。

　図８に示すマトリックスＭＡの１行目、３行目において、最小エピポーラ距離は、頭領域ＨＡ１１－１と、頭領域ＨＡ１１－２との組から得られるエピポーラ距離「０．１」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１１－１と、頭領域ＨＡ１１－２との組を、同一の人物の頭領域として関連付ける。

　関連付け処理部１１３は、２次元軌跡情報９ａ～９ｃの各画像フレームに含まれる各頭領域について、上記処理を繰り返し実行することで、同一の人物に対応する頭領域の組を特定する。

　図９の説明に移行する。フレーム番号「ｋ－１」の画像フレームＩｍ２０－１，Ｉｍ２０－２を用いて説明する。たとえば、画像フレームＩｍ２０－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２０－１から、人物の頭領域ＨＡ１ａ，ＨＡ１ｂ，ＨＡ１ｃが特定されている。

　画像フレームＩｍ２０－２は、カメラｃ２が撮影した画像フレームである。画像フレームＩｍ２０－２から、人物の頭領域ＨＡ１ｘ，ＨＡ１ｙ，ＨＡ１ｚが特定されている。画像フレームＩｍ２０－２において、頭領域ＨＡ１ａに対応するエピポーラ線ｌ１ａが特定されている。画像フレームＩｍ２０－２において、頭領域ＨＡ１ｂに対応するエピポーラ線ｌ１ｂが特定されている。画像フレームＩｍ２０－２において、頭領域ＨＡ１ｃに対応するエピポーラ線ｌ１ｃが特定されている。

　関連付け処理部１１３は、上記のエピポーラ距離を算出し、同一の人物の頭領域の関連付けを行う。たとえば、関連付け処理部１１３は、頭領域ＨＡ１ａと、頭領域ＨＡ１ｘとを、同一の人物の頭領域として関連付ける。関連付け処理部１１３は、頭領域ＨＡ１ｂと、頭領域ＨＡ１ｙとを、同一の人物の頭領域として関連付ける。関連付け処理部１１３は、頭領域ＨＡ１ｃと、頭領域ＨＡ１ｚとを、同一の人物の頭領域として関連付ける。

　続いて、フレーム番号「ｋ」の画像フレームＩｍ２１－１，Ｉｍ２１－２を用いて説明する。画像フレームＩｍ２１－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２１－１から、人物の頭領域ＨＡ２ａ，ＨＡ２ｂ，ＨＡ２ｃが特定されている。

　画像フレームＩｍ２１－２は、カメラｃ２が撮影した画像フレームである。画像フレームＩｍ２１－２から、人物の頭領域ＨＡ２ｘ，ＨＡ２ｙ，ＨＡ２ｚが特定されている。画像フレームＩｍ２１－２において、頭領域ＨＡ２ａに対応するエピポーラ線ｌ２ａが特定されている。画像フレームＩｍ２１－２において、頭領域ＨＡ２ｂに対応するエピポーラ線ｌ２ｂが特定されている。画像フレームＩｍ２１－２において、頭領域ＨＡ２ｃに対応するエピポーラ線ｌ２ｃが特定されている。

　関連付け処理部１１３は、上記のエピポーラ距離を算出し、同一の人物の頭領域の関連付けを行う。たとえば、関連付け処理部１１３は、頭領域ＨＡ２ａと、頭領域ＨＡ２ｘとを、同一の人物の頭領域として関連付ける。関連付け処理部１１３は、頭領域ＨＡ２ｂと、頭領域ＨＡ２ｙとを、同一の人物の頭領域として関連付ける。関連付け処理部１１３は、頭領域ＨＡ２ｃと、頭領域ＨＡ２ｚとを、同一の人物の頭領域として関連付ける。

　続いて、フレーム番号「ｋ＋１」の画像フレームＩｍ２２－１，Ｉｍ２２－２を用いて説明する。画像フレームＩｍ２２－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２２－１から、人物の頭領域ＨＡ３ａ，ＨＡ３ｂ，ＨＡ３ｃが特定されている。

　画像フレームＩｍ２２－２は、カメラｃ２が撮影した画像フレームである。画像フレームＩｍ２２－２から、人物の頭領域ＨＡ３ｘ，ＨＡ３ｙ，ＨＡ３ｚが特定されている。画像フレームＩｍ２２－２において、頭領域ＨＡ３ａに対応するエピポーラ線ｌ３ａが特定されている。画像フレームＩｍ２２－２において、頭領域ＨＡ３ｂに対応するエピポーラ線ｌ３ｂが特定されている。画像フレームＩｍ２２－２において、頭領域ＨＡ３ｃに対応するエピポーラ線ｌ３ｃが特定されている。

　図１０の説明に移行する。関連付け処理部１１３は、図８で説明した処理と同様にして、フレームｋ－１、ｋ、ｋ＋１でもフレーム毎にマトリックスＭＡ１、ＭＡ２、ＭＡ３を作成して、最小エピポーラ距離から同一人物の頭領域として関連付ける。以下に一例を示す。図１０では連続する各画像フレームに基づくマトリックスＭＡ１，ＭＡ２，ＭＡ３を用いて説明する。マトリックスＭＡ１は、フレーム番号「ｋ－１」の画像フレームを基に特定される。マトリックスＭＡ２は、フレーム番号「ｋ」の画像フレームを基に特定される。マトリックスＭＡ３は、フレーム番号「ｋ＋１」の画像フレームを基に特定される。

　マトリックスＭＡ１について説明する。頭領域ＨＡ１０－１、ＨＡ１１－１は、カメラｃ１に撮影された画像フレームの人物の頭領域である。頭領域ＨＡ１０－２、ＨＡ１１－２は、カメラｃ２に撮影された画像フレームの人物の頭領域である。

　関連付け処理部１１３は、マトリックスＭＡ１の０行目において、最小エピポーラ距離は、頭領域ＨＡ１０－１と、頭領域ＨＡ１０－２との組から得られるエピポーラ距離「０．２」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１０－１と、頭領域ＨＡ１０－２との組を、同一の人物の頭領域として関連付ける。

　関連付け処理部１１３は、マトリックスＭＡ１の１行目において、最小エピポーラ距離は、頭領域ＨＡ１１－１と、頭領域ＨＡ１１－２との組から得られるエピポーラ距離「０．１」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１１－１と、頭領域ＨＡ１１－２との組を、同一の人物の頭領域として関連付ける。

　マトリックスＭＡ２について説明する。頭領域ＨＡ１２－１、ＨＡ１３－１は、カメラｃ１に撮影された画像フレームの人物の頭領域である。頭領域ＨＡ１２－２、ＨＡ１３－２は、カメラｃ２に撮影された画像フレームの人物の頭領域である。

　関連付け処理部１１３は、マトリックスＭＡ２の０行目において、最小エピポーラ距離は、頭領域ＨＡ１２－１と、頭領域ＨＡ１２－２との組から得られるエピポーラ距離「０．１」となる。関連付け処理部１１３は、マトリックスＭＡ２の１行目において、最小エピポーラ距離は、頭領域ＨＡ１３－１と、頭領域ＨＡ１３－２との組から得られるエピポーラ距離「０．２」となる。関連付け処理部１１３は、頭領域ＨＡ１２－１と、頭領域ＨＡ１２－２との組、頭領域ＨＡ１２－２と、頭領域ＨＡ１２－３との組、同一の人物の頭領域として関連付ける。

　マトリックスＭＡ３について説明する。頭領域ＨＡ１４－１、ＨＡ１５－１は、カメラｃ１に撮影された画像フレームの人物の頭領域である。頭領域ＨＡ１４－２、ＨＡ１５－２は、カメラｃ２に撮影された画像フレームの人物の頭領域である。

　関連付け処理部１１３は、マトリックスＭＡ３の０行目において、最小エピポーラ距離は、頭領域ＨＡ１４－１と、頭領域ＨＡ１４－２との組から得られるエピポーラ距離「０．２」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１４－１と、頭領域ＨＡ１４－２との組を、同一の人物の頭領域として関連付ける。

　関連付け処理部１１３は、マトリックスＭＡ３の１行目において、最小エピポーラ距離は、頭領域ＨＡ１５－１と、頭領域ＨＡ１５－２との組から得られるエピポーラ距離「０．３」となる。このため、関連付け処理部１１３は、頭領域ＨＡ１５－１と、頭領域ＨＡ１５－２との組を、同一の人物の頭領域として関連付ける。

　関連付け処理部１１３は、上記の図７～図１０で説明した処理を実行することで、２次元軌跡情報９ａ～９ｃを基にして、異なるカメラによって撮影された画像フレーム間の頭領域について、同一の人物に対応する頭領域を関連付ける。関連付け処理部１１３は、関連付けた頭領域の情報を、算出処理部１１４に出力する。

　算出処理部１１４は、カメラのパラメータ、三角測量を用いて、関連付けられた頭領域の２次元座標から、人物の頭領域の３次元座標を算出する。図１１および図１２は、算出処理部の処理を説明するための図である。

　図１１について説明する。画像フレームＩｍ１９－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ１９－１から、人物の頭領域ＨＡ１ａ，ＨＡ１ｂが特定されている。画像フレームＩｍ１９－２から、人物の頭領域ＨＡ１ｘ，ＨＡ１ｙが特定されている。たとえば、上記の関連付け処理部１１３の処理によって、頭領域ＨＡ１ａと、頭領域ＨＡ１ｘとが関連付けられているものとする。頭領域ＨＡ１ｂと、頭領域ＨＡ１ｙとが関連付けられているものとする。

　算出処理部１１４は、算出処理部１１４は、頭領域ＨＡ１ａの２次元座標と、頭領域ＨＡ１ｘの２次元座標とを基にして、三角測量により、人物Ｐ１の頭の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ１ｂの２次元座標と、頭領域ＨＡ１ｙ２次元座標とを基にして、三角測量により、人物Ｐ２の頭の３次元座標を算出する。算出処理部は、各フレーム番号の画像フレームについて、上記処理を繰り返し実行する。

　図１２の説明に移行する。フレーム番号「ｋ－１」の画像フレームＩｍ２０－１，Ｉｍ２０－２を用いて説明する。たとえば、画像フレームＩｍ２０－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２０－１から、人物の頭領域ＨＡ１ａ，ＨＡ１ｂ，ＨＡ１ｃが特定されている。画像フレームＩｍ２０－２から、人物の頭領域ＨＡ１ｘ，ＨＡ１ｙ，ＨＡ１ｚが特定されている。関連付け処理部１１３の処理により、頭領域ＨＡ１ａと、頭領域ＨＡ１ｘとが関連付けられているものとする。頭領域ＨＡ１ｂと、頭領域ＨＡ１ｙとが関連付けられているものとする。頭領域ＨＡ１ｃと、頭領域ＨＡ１ｚとが関連付けられているものとする。

　算出処理部１１４は、頭領域ＨＡ１ａの２次元座標と、頭領域ＨＡ１ｘの２次元座標とを基にして、三角測量により、人物Ｐ１の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ１ｂの２次元座標と、頭領域ＨＡ１ｙの２次元座標とを基にして、三角測量により、人物Ｐ２の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ１ｃの２次元座標と、頭領域ＨＡ１ｚの２次元座標とを基にして、三角測量により、人物Ｐ３の３次元座標を算出する。

　フレーム番号「ｋ」の画像フレームＩｍ２１－１，Ｉｍ２１－２を用いて説明する。たとえば、画像フレームＩｍ２１－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２１－１から、人物の頭領域ＨＡ２ａ，ＨＡ２ｂ，ＨＡ２ｃが特定されている。画像フレームＩｍ２１－２から、人物の頭領域ＨＡ２ｘ，ＨＡ２ｙ，ＨＡ２ｚが特定されている。関連付け処理部１１３の処理により、頭領域ＨＡ２ａと、頭領域ＨＡ２ｘとが関連付けられているものとする。頭領域ＨＡ２ｂと、頭領域ＨＡ２ｙとが関連付けられているものとする。頭領域ＨＡ２ｃと、頭領域ＨＡ２ｚとが関連付けられているものとする。

　算出処理部１１４は、頭領域ＨＡ２ａの２次元座標と、頭領域ＨＡ２ｘの２次元座標とを基にして、三角測量により、人物Ｐ１の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ２ｂの２次元座標と、頭領域ＨＡ２ｙの２次元座標とを基にして、三角測量により、人物Ｐ２の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ２ｃの２次元座標と、頭領域ＨＡ２ｚの２次元座標とを基にして、三角測量により、人物Ｐ３の３次元座標を算出する。

　フレーム番号「ｋ＋１」の画像フレームＩｍ２２－１，Ｉｍ２２－２を用いて説明する。たとえば、画像フレームＩｍ２２－１は、カメラｃ１が撮影した画像フレームである。画像フレームＩｍ２２－１から、人物の頭領域ＨＡ３ａ，ＨＡ３ｂ，ＨＡ３ｃが特定されている。画像フレームＩｍ２２－２から、人物の頭領域ＨＡ３ｘ，ＨＡ３ｙ，ＨＡ３ｚが特定されている。関連付け処理部１１３の処理により、頭領域ＨＡ３ａと、頭領域ＨＡ３ｘとが関連付けられているものとする。頭領域ＨＡ３ｂと、頭領域ＨＡ３ｙとが関連付けられているものとする。頭領域ＨＡ３ｃと、頭領域ＨＡ３ｚとが関連付けられているものとする。

　算出処理部１１４は、頭領域ＨＡ３ａの２次元座標と、頭領域ＨＡ３ｘの２次元座標とを基にして、三角測量により、人物Ｐ１の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ３ｂの２次元座標と、頭領域ＨＡ３ｙの２次元座標とを基にして、三角測量により、人物Ｐ２の３次元座標を算出する。算出処理部１１４は、頭領域ＨＡ３ｃの２次元座標と、頭領域ＨＡ３ｚの２次元座標とを基にして、三角測量により、人物Ｐ３の３次元座標を算出する。

　算出処理部１１４が上記処理を実行することで、各フレーム番号の画像フレーム番号から、人物Ｐ１，Ｐ２，Ｐ３の頭領域の３次元座標の軌跡（３次元軌跡情報１５）が算出される。算出処理部１１４は、３次元軌跡情報１５を、第２補間部１１５に出力する。

　図２の説明に戻る。第２補間部１１５は、３次元軌跡情報１５を受け付け、ある画像フレームにおいて、頭領域の３次元座標に抜け等が存在する場合には、前後の頭領域の３次元座標の情報を用いて、頭領域を補間する。第２補間部１１５は、補間した３次元軌跡情報１５を出力する。

　図１３は、第２補間部の処理を説明するための図である。図１３に示す例では、補間前の３次元軌跡情報において、フレーム番号ｋ－１で、人物Ｐ１の３次元座標が特定され、フレーム番号ｋで、人物Ｐ１の３次元座標が特定されず、フレーム番号ｋ＋１で、人物Ｐ１の３次元座標が特定されている。

　第２補間部１１５は、フレーム番号ｋ－１における人物Ｐ１の３次元座標と、フレーム番号ｋ＋１における人物Ｐ１の３次元座標との間の座標を、フレーム番号ｋにおける人物Ｐ１の３次元座標として算出することで補間を行う。

　次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図１４は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置１００の頭領域特定部１１０は、映像ＤＢ６５から、各カメラが撮影した各画像フレームを取得する（ステップＳ１０１）。頭領域特定部１１０は、画像フレームから、人物の頭領域を特定し、２次元領域情報を生成する（ステップＳ１０２）。

　情報処理装置１００のシングルＭＯＴ１１１は、２次元領域情報を基にして、２次元軌跡情報を生成する（ステップＳ１０３）。情報処理装置１００の第１補間部１１２は、補間対象となる頭領域が存在する場合に、２次元軌跡情報に対して補間処理を実行する（ステップＳ１０４）。

　情報処理装置１００の関連付け処理部１１３は、２次元軌跡情報を基にして、エピポーラ距離を算出し、同一の人物に対応する頭領域を関連付ける（ステップＳ１０５）。情報処理装置１００の算出処理部１１４は、同一の人物に対応する頭領域の組の２次元座標を基にして、三角測量を基により、３次元軌跡情報を生成する（ステップＳ１０６）。

　情報処理装置１００の第２補間部１１５は、補間対象となる頭領域が存在する場合に、３次元軌跡情報に対して補間処理を実行する（ステップＳ１０７）。情報処理装置１００は、３次元軌跡情報を出力する（ステップＳ１０８）。

　次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、各画像フレームからそれぞれ特定した頭領域とエピポーラ線と距離を基にして、同一の人物に対応する頭領域の組を特定し、特定した頭領域の組を基にして、人物の頭部の３次元座標を算出する。情報処理装置１００は、かかる処理を繰り返し実行することで、人物の頭領域に関する３次元軌跡情報を生成する。

　カメラは高い場所に設置されているため、複数の人物が密集していても、頭領域は、オクルージョンの影響を受けにくく、ほとんどのカメラで複数の人物の頭領域を撮影することが可能である。情報処理装置１００は、人物の頭領域を特定するため、従来技術のように、人物の全身の領域情報を利用する場合と比較して、頭領域をロストすることが少なくなり、安定して、人物の位置（頭領域の位置）を追従することができる。また、情報処理装置１００は、頭領域のみを抽出するため、従来技術のように、人物の全身の領域情報や姿勢を特定する場合と比較して、計算コストを低くでき、処理速度を高めることができる。

　情報処理装置１００は、各画像フレームからそれぞれ特定した人物の頭領域とエピポーラ線と距離を基にして、同一の人物に対応する頭領域の組を特定する。このため、異なる人物の頭領域を、同一の組として特定することを抑止し、人物の３次元上の位置を精度よく追従することができる。

　情報処理装置１００は、エピポーラ距離を算出する場合に、各画像フレームに含まれる頭領域の大きさを基にして、エピポーラ距離のスケールを調整する。これによって、人物と各カメラとの距離が異なっていても、同一の人物に対応する頭領域を適切に関連付けることができる。

　図１５は、本実施例２に係るシステムの一例を示す図である。図１５に示すように、このシステムは、複数のカメラｃ１，ｃ２，ｃ３と、情報処理装置２００とを有する。カメラｃ１～ｃ３と、情報処理装置２００とは、ネットワーク５０を介して相互に接続される。図１５では、カメラｃ１～ｃ３を示すが、本実施例２に係るシステムは、更に他のカメラを有していてもよい。

　カメラｃ１～ｃ３は、コンビニエンスストア、スパーマーケット等の店内の映像を撮影するカメラである。カメラｃ１～ｃ３は、映像データを、情報処理装置２００に送信する。情報処理装置２００は、オンライン（online）で、カメラｃ１～ｃ３から映像データを受信し、３次元軌跡情報を出力する。情報処理装置２００は、受信した映像データを映像ＤＢ６５に登録することもできる。

　情報処理装置２００は、カメラｃ１～ｃ３から画像フレームを順次取得し、予め設定されたウインドウ（sliding　window）毎に、３次元軌跡情報を算出する。情報処理装置２００は、各ウインドウの３次元軌跡情報を関連付けて、人物の３次元軌跡情報を生成する。

　図１６は、本実施例２に係る情報処理装置の処理を説明するための図である。情報処理装置２００は、ウインドウｗ１、ウインドウｗ２、ウインドウｗ３を設定する。ここでは、ウインドウｗ１～ｗ３を用いて説明するが、ウインドウｗ３以降のウインドウｗ４、ｗ５も含まれる。

　隣接するウインドウの区間は、一部の画像フレームがオーバーラップしており、ウインドウｗ１～ｗ３の区間をｎフレームとする。たとえば、ｎ＝６０とする。

　情報処理装置２００は、画像フレームを複数のショート区間のウインドウに分割する。情報処理装置２００は、実施例１で説明した、シングルＭＯＴ１１１、第１補間部１１２、関連付け処理部１１３、算出処理部１１４、第２補間部１１５に対応する処理を、ショート区間の画像フレームに実行し、ショート区間毎の３次元軌跡情報を生成する。情報処理装置２００は、ウインドウｗ１のショート区間毎の３次元軌跡情報を統合することで、３次元軌跡情報（ｗ１）を生成する。

　情報処理装置２００は、ウインドウｗ２，ｗ３についても、ウインドウｗ１と同様の処理を実行することで、３次元軌跡情報（ｗ２）、３次元軌跡情報（ｗ３）を生成する。

　情報処理装置２００は、関連付け処理部２５０－１に３次元軌跡情報（ｗ１）と、３次元軌跡情報（ｗ２）とを入力する。関連付け処理部２５０－１は、３次元軌跡情報（ｗ１）と、３次元軌跡情報（ｗ２）とを関連付けた３次元軌跡情報（ｗ１＆ｗ２）を生成し、３次元軌跡情報（ｗ１＆ｗ２）を、関連付け処理部２５０－２に出力する。

　情報処理装置２００は、関連付け処理部２５０－２に３次元軌跡情報（ｗ３）を入力する。関連付け処理部２５０－２は、３次元軌跡情報（ｗ１＆ｗ２）と、３次元軌跡情報（ｗ３）とを関連付けた３次元軌跡情報（ｗ１＆ｗ２＆ｗ３）を生成し、３次元軌跡情報（ｗ１＆ｗ２）を、続く関連付け処理部に出力する。

　情報処理装置２００の各関連付け処理部が、上記処理を繰り返し実行することで、各ウインドウの３次元軌跡を関連付けた情報が生成される。

　ここで、従来技術２の従来装置２０と、情報処理装置２００とを比較する。従来装置２０の方式は、各カメラで撮影した一つの画像フレームに含まれる同一の人物の領域をそれぞれ関連付ける方式（Single-frame　Multi-view　Data　Association方式）である。

　図１７は、従来技術による関連付けの結果を示す図である。図１７では説明の便宜上、人物の頭領域を用いて説明を行うが、実際の従来技術では、体全体の領域や、姿勢等の情報となる。図１７において、画像フレームＩｍ３０－１は、カメラｃ１によって撮影された画像である。画像フレームＩｍ３０－１から、人物の領域Ａ１－１，Ａ１－２，Ａ１－３，Ａ１－４が検出されている。

　画像フレームＩｍ３０－２は、カメラｃ２によって撮影された画像である。画像フレームＩｍ３０－２から、人物の領域Ａ２－１，Ａ２－２が検出されている。画像フレームＩｍ３０－３は、カメラｃ３によって撮影された画像である。画像フレームＩｍ３０－３から、人物の領域Ａ３－１が検出されている。

　画像フレームＩｍ３０－１，Ｉｍ３０－２，Ｉｍ３０－３のフレーム番号を「ｋ」とする。従来装置２０では、Single-frame　Multi-view　Data　Association方式によって、領域Ａ１－１、Ａ２－１、Ａ３－１がそれぞれ関連付けられる。従来装置２０では、各フレーム番号の各画像フレームについて、上記の関連付けを繰り返し実行していくと、関連付けに誤りが発生する場合がある。

　図１８は、従来技術の関連付けの誤りの一例を示す図である。図１８において、画像フレームＩｍ４０－１，Ｉｍ４０－２，Ｉｍ４０－３，Ｉｍ４０－４，Ｉｍ４０－５のフレーム番号を同一とする。

　画像フレームＩｍ４０－１は、カメラｃ１によって撮影された画像である。画像フレームＩｍ４０－１から、人物の領域Ａ１－０，Ａ１－１，Ａ１－２，Ａ１－３，Ａ１－４、Ａ１－７が検出されている。

　画像フレームＩｍ４０－２は、カメラｃ２によって撮影された画像である。画像フレームＩｍ４０－２から、人物の領域Ａ２－０，Ａ２－１，Ａ２－２が検出されている。

　画像フレームＩｍ４０－３は、カメラｃ３によって撮影された画像である。画像フレームＩｍ４０－３から、人物の領域Ａ３－０，Ａ３－１，Ａ３－２，Ａ３－３，Ａ３－４、Ａ３－５、Ａ３－７が検出されている。

　画像フレームＩｍ４０－４は、カメラｃ４によって撮影された画像である。画像フレームＩｍ４０－４から、人物の領域Ａ４－０，Ａ４－１，Ａ４－２，Ａ４－３，Ａ４－６が検出されている。

　画像フレームＩｍ４０－５は、カメラｃ５によって撮影された画像である。画像フレームＩｍ４０－５から、人物の領域Ａ５－０，Ａ５－１，Ａ５－２，Ａ５－３，Ａ５－４，Ａ５－５が検出されている。

　従来技術では、各画像フレームの各人物の領域について、同一の人物の領域の関連付けを行うと、領域Ａ１－０，Ａ２－０，Ａ３－０，Ａ４－０，Ａ５－０がそれぞれ関連付けられる。領域Ａ１－１，Ａ２－１，Ａ３－１，Ａ４－１，Ａ５－１がそれぞれ関連付けられる。領域Ａ１－２，Ａ２－２，Ａ３－２，Ａ４－２，Ａ５－２がそれぞれ関連付けられる。領域Ａ１－３，Ａ３－３，Ａ４－３，Ａ５－３がそれぞれ関連付けられる。領域Ａ１－４，Ａ３－４，Ａ５－４がそれぞれ関連付けられる。領域Ａ３－５，Ａ５－５がそれぞれ関連付けられる。領域Ａ４－６，Ａ５－６がそれぞれ関連付けられる。

　ここで、領域Ａ１－４，Ａ３－４，Ａ５－４の関連付けに誤りが発生している。正しい関連付けは、領域Ａ１－４，Ａ３－５（Ａ３－４は誤り），Ａ５－５（Ａ５－４は誤り）となる。

　図１９および図２０は、本実施例２の情報処理装置による関連付けの結果を示す図である。図１９ついて説明する。画像フレームＩｍ３５－１，Ｉｍ３５－２，Ｉｍ３５－３のフレーム番号を「ｋ」とする。画像フレームＩｍ３５－４，Ｉｍ３５－５，Ｉｍ３５－６のフレーム番号を「ｋ＋△」とする。

　画像フレームＩｍ３５－１は、カメラｃ１によって撮影された画像である。画像フレームＩｍ３５－１から、人物の頭領域Ａ１－１，Ａ１－２，Ａ１－３，Ａ１－４が検出されている。

　画像フレームＩｍ３５－２は、カメラｃ２によって撮影された画像である。画像フレームＩｍ３５－２から、人物の頭領域Ａ２－１，Ａ２－２が検出されている。

　画像フレームＩｍ３５－３は、カメラｃ３によって撮影された画像である。画像フレームＩｍ３５－３から、人物の頭領域Ａ３－１が検出されている。

　画像フレームＩｍ３５－４は、カメラｃ１によって撮影された画像である。画像フレームＩｍ３５－４から、人物の頭領域Ａ４－１，Ａ４－２，Ａ４－３が検出されている。

　画像フレームＩｍ３５－５は、カメラｃ２によって撮影された画像である。画像フレームＩｍ３５－２から、人物の頭領域Ａ５－１，Ａ５－２，Ａ５－３が検出されている。

　画像フレームＩｍ３５－６は、カメラｃ３によって撮影された画像である。画像フレームＩｍ３５－６から、人物の頭領域Ａ６－１，Ａ６－２が検出されている。

　情報処理装置２００は、図１６で説明した処理を実行して、異なるフレーム番号間の頭領域を関連付けると、頭領域Ａ１－１，Ａ２－１，Ａ３－１，Ａ４－１，Ａ５－１，Ａ６－１がそれぞれ関連付けられる。頭領域Ａ１－２，Ａ２－２，Ａ４－２，Ａ５－２，Ａ６－２がそれぞれ関連付けられる。頭領域Ａ１－３，Ａ４－３，Ａ５－３がそれぞれ関連付けられる。情報処理装置２００は、ウインドウを設定して、上記の関連付けを繰り返していくことで、図１８で説明したような関連付けの誤りが発生することを抑止することができる。

　図２０の説明に移行する。図２０において、画像フレームＩｍ４５－１，Ｉｍ４５－２，Ｉｍ４５－３，Ｉｍ４５－４，Ｉｍ４５－５のフレーム番号を同一とする。

　画像フレームＩｍ４５－１は、カメラｃ１によって撮影された画像である。画像フレームＩｍ４５－１から、人物の頭領域Ａ１－１，Ａ１－２，Ａ１－３，Ａ１－４，Ａ１－５，Ａ１－６，Ａ１－７が検出されている。

　画像フレームＩｍ４５－２は、カメラｃ２によって撮影された画像である。画像フレームＩｍ４５－２から、人物の頭領域Ａ２－１，Ａ２－２，Ａ２－４が検出されている。

　画像フレームＩｍ４５－３は、カメラｃ３によって撮影された画像である。画像フレームＩｍ４５－３から、人物の頭領域Ａ３－１，Ａ３－２，Ａ３－３，Ａ３－４，Ａ３－５，Ａ３－６，Ａ３－７が検出されている。

　画像フレームＩｍ４５－４は、カメラｃ４によって撮影された画像である。画像フレームＩｍ４５－４から、人物の頭領域Ａ４－１，Ａ４－２，Ａ４－３，Ａ４－４，Ａ４－５が検出されている。

　画像フレームＩｍ４５－５は、カメラｃ５によって撮影された画像である。画像フレームＩｍ４５－５から、人物の頭領域Ａ５－１，Ａ５－２，Ａ５－３，Ａ５－４，Ａ５－５，Ａ５－６，Ａ５－７が検出されている。

　情報処理装置２００が、各画像フレームの各人物の領域について、同一の人物の領域の関連付けを行うと、領域Ａ１－１，Ａ２－１，Ａ３－１，Ａ４－１，Ａ５－１がそれぞれ関連付けられる。領域Ａ１－２，Ａ２－２，Ａ３－２，Ａ４－２，Ａ５－２がそれぞれ関連付けられる。領域Ａ１－３，Ａ３－３，Ａ４－３，Ａ５－３がそれぞれ関連付けられる。領域Ａ１－６，Ａ３－６，Ａ５－６がそれぞれ関連付けられる。領域Ａ１－７，Ａ３－７，Ａ５－７がそれぞれ関連付けられる。図２０に示す関連付けは、正しい関連付けである。

　図１７、図１８で説明した従来装置２０の関連付けの結果と、図１９、図２０で説明した情報処理装置２００との関連付けの結果に示される通り、情報処理装置２００によれば、区間がオーバーラップするウインドウを設定して、関連付けを行うことで、追従精度を向上させることができる。

　次に、図１５に示した情報処理装置２００の構成の一例について説明する。図２１は、本実施例２に係る情報処理装置の構成例を示す図である。図２１に示すように、この情報処理装置２００は、ウインドウ生成部６５Ａと、頭領域特定部１１０と、シングルＭＯＴ１１１と、第１補間部１１２と、関連付け処理部１１３と、算出処理部１１４と、第２補間部１１５とを有する。情報処理装置２００は、通信部２１０と、ウインドウ制御部２２０と、関連付け処理部２５０とを有する。頭領域特定部１１０、シングルＭＯＴ１１１、第１補間部１１２、関連付け処理部１１３、算出処理部１１４、第２補間部１１５は、ＣＰＵ等の制御部によって実現される。また、通信部２１０、ウインドウ制御部２２０と、関連付け処理部２５０もＣＰＵ等の制御部によって実現される。

　図２１において、頭領域特定部１１０、シングルＭＯＴ１１１、第１補間部１１２、関連付け処理部１１３、算出処理部１１４、第２補間部１１５に関する説明は、図２で説明した各処理部の説明と同様である。ウインドウ生成部６５Ａは、カメラから受信したフレームからウインドウ毎のフレームを生成する。

　通信部２１０は、カメラｃ１～ｃ３（他のカメラ）から映像データを受信し、受信した映像データを、ウインドウ生成部６５Ａに出力する。

　ウインドウ制御部２２０は、図１６で説明した所定区間のウインドウに対し、頭領域特定部１１０と、シングルＭＯＴ１１１と、第１補間部１１２と、関連付け処理部１１３と、算出処理部１１４と、第２補間部１１５と協働して処理を実現する。ウインドウ制御部２２０により、各ウインドウの３次元軌跡情報（ｗ１、ｗ２、・・・）が生成され、各ウインドウの３次元軌跡情報（ｗ１、ｗ２、・・・）を、関連付け処理部２５０に出力される。

　関連付け処理部２５０は、図１６で示した関連付け処理部２５０－１，２５０－２，・・・等に対応する処理を実行する。たとえば、関連付け処理部２５０は、３次元軌跡情報（ｗ１）と、３次元軌跡情報（ｗ２）とを関連付けた３次元軌跡情報（ｗ１＆ｗ２）を生成する。関連付け処理部２５０は、３次元軌跡情報（ｗ１＆ｗ２）と、３次元軌跡情報（ｗ３）とを関連付けた３次元軌跡情報（ｗ１＆ｗ２＆ｗ３）を生成する。

　図２２は、本実施例２に係る関連付け処理部２５０の処理を説明するための図である。図２２に示すように、ウインドウｗには、人物Ａの頭領域の３次元軌跡ｗ１－１と、人物Ｂの頭領域の３次元軌跡ｗ１－２とが含まれる。ウインドウｗ＋１には、人物Ｃの頭領域の３次元軌跡ｗ２－１と、人物Ｄの頭領域の３次元軌跡ｗ２－２と、人物Ｅの頭領域の３次元軌跡ｗ２－３とが含まれるものとする。

　関連付け処理部２５０は、３次元軌跡ｗ１－１と、３次元軌跡ｗ２－１，ｗ２－２，ｗ２－３とのユーグリッド距離を算出し、ユーグリッド距離が閾値未満となる３次元軌跡の組を特定し、関連付けを行う。たとえば、３次元軌跡ｗ１－１と、３次元軌跡ｗ２－１とが関連付けられ、一つの３次元軌跡に統合される。

　関連付け処理部２５０は、３次元軌跡ｗ１－２と、３次元軌跡ｗ２－１，ｗ２－２，ｗ２－３とのユーグリッド距離を算出し、ユーグリッド距離が閾値未満となる３次元軌跡の組を特定し、関連付けを行う。たとえば、３次元軌跡ｗ１－２と、３次元軌跡ｗ２－２とが関連付けられ、一つの３次元軌跡に統合される。

　たとえば、関連付け処理部２５０は、ユーグリッド距離を、式（１）を基にして算出する。また、関連付け処理部２５０は、式（２）に示すコストマトリックス、式（３）に示すブールマトリックスを用いて、各３次元軌跡の関連付けを行ってもよい。

　次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図２３は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置２００の通信部２１０は、カメラから映像データの受信を開始する（ステップＳ２０１）。

　情報処理装置２００のウインドウ制御部２２０は、所定区間のウインドウを設定し、頭領域特定部１１０と、シングルＭＯＴ１１１と、第１補間部１１２と、関連付け処理部１１３と、算出処理部１１４と、第２補間部１１５と協働し、ウインドウ毎の３次元軌跡情報を順次生成する（ステップＳ２０２）。

　情報処理装置２００の関連付け処理部２５０は、各ウインドウの３次元軌跡情報のユーグリッド距離を基にして、３次元情報を関連付ける（ステップＳ２０３）。関連付け処理部２５０は、３次元軌跡情報を出力する（ステップＳ２０４）。

　次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、映像ＤＢ６５に登録された画像フレームを順次取得し、予め設定されたウインドウ毎に、３次元軌跡情報を算出し、各ウインドウの３次元軌跡情報を関連付けて、人物の３次元軌跡情報を生成する。これによって、各画像フレームの頭領域の関連付けに誤りが発生することを抑止し、人物毎の３次元軌跡情報を精度よく生成することができる。

　次に、上記実施例に示した情報処理装置１００（２００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２４は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図２４に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、カメラｃ１～ｃ１（他のカメラ）、および、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置３０７は、頭領域特定プログラム３０７ａ、軌跡情報算出プログラム３０７ｂ、ウインドウ処理プログラム３０７ｃ、関連付け処理プログラム３０７ｄを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｄを読み出してＲＡＭ３０６に展開する。

　頭領域特定プログラム３０７ａは、頭領域特定プロセス３０６ａとして機能する。軌跡情報算出プログラム３０７ｂは、軌跡情報算出プロセス３０６ｂとして機能する。ウインドウ処理プログラム３０７ｃは、ウインドウ処理プロセス３０６ｃとして機能する。関連付けプログラム３０７ｄは、関連付け処理プロセス３０６ｄとして機能する。

　頭領域特定プロセス３０６ａの処理は、頭領域特定部１１０の処理に対応する。軌跡情報算出プロセス３０６ｂの処理は、シングルＭＯＴ１１１、第１補間部１１２、関連付け処理部１１３、算出処理部１１４、第２補間部１１５の処理に対応する。ウインドウ処理プロセス３０６ｃの処理は、ウインドウ制御部２２０の処理に対応する。関連付け処理プロセス３０６ｄの処理は、関連付け処理部２５０の処理に対応する。

　なお、各プログラム３０７ａ～３０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｄを読み出して実行するようにしてもよい。

　　６５　　映像ＤＢ
　１００，２００　　情報処理装置
　１１０　　頭領域特定部
　１１１　　シングルＭＯＴ
　１１２　　第１補間部
　１１３　　関連付け処理部
　１１４　　算出処理部
　１１５　　第２補間部
　２２０　　ウインドウ制御部
　２５０　　関連付け処理部

Claims

　複数のカメラのそれぞれが撮影した複数の画像から、人物の頭領域をそれぞれ特定し、
　前記複数の画像から特定した前記頭領域の位置を基にして、同一の人物に対応する頭領域の組を特定し、
　同一の人物の頭領域の組の２次元上の位置と、前記複数のカメラにそれぞれ設定されたパラメータとを基にして、３次元上の人物の頭の位置を特定する
　処理をコンピュータに実行させることを特徴とする追従プログラム。
　前記同一の人物の頭に対応する領域の組を特定する処理は、第１画像に含まれるエピポーラ線であって、第２画像に含まれる頭領域に対応する前記エピポーラ線と、前記第１画像から特定された頭領域との距離を基にして、前記第１画像に含まれる頭領域と、前記第２画像に含まれる頭領域とが、同一の人物に対応する頭領域であるか否かを特定する処理を含むことを特徴とする請求項１に記載の追従プログラム。
　前記第１画像に含まれる頭領域の大きさ、および、前記第２画像に含まれる頭領域の大きさを基にして、前記距離を修正する処理を更にコンピュータに実行させることを特徴とする請求項２に記載の追従プログラム。
　第１のタイミングおよび第３のタイミングで複数のカメラのそれぞれが撮影した複数の画像を基にして特定された３次元上の人物の頭の位置を基にして、前記第１のタイミングと前記第３のタイミングの間の第２のタイミングにおける３次元上の人物の頭の位置を推定する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の追従プログラム。
　前記３次元上の人物の頭の位置を特定する処理は、連続する画像フレームを含むウインドウ区間毎に、前記３次元上の人物の頭の位置の軌跡情報を特定し、各ウインドウ区間の軌跡情報を関連付ける処理を更にコンピュータに実行させることを特徴とする請求項１に記載の追従プログラム。
　複数のカメラのそれぞれが撮影した複数の画像から、人物の頭領域をそれぞれ特定し、
　前記複数の画像から特定した前記頭領域の位置を基にして、同一の人物に対応する頭領域の組を特定し、
　同一の人物の頭領域の組の２次元上の位置と、前記複数のカメラにそれぞれ設定されたパラメータとを基にして、３次元上の人物の頭の位置を特定する
　処理をコンピュータが実行することを特徴とする追従方法。
　前記同一の人物の頭に対応する領域の組を特定する処理は、第１画像に含まれるエピポーラ線であって、第２画像に含まれる頭領域に対応する前記エピポーラ線と、前記第１画像から特定された頭領域との距離を基にして、前記第１画像に含まれる頭領域と、前記第２画像に含まれる頭領域とが、同一の人物に対応する頭領域であるか否かを特定する処理を含むことを特徴とする請求項６に記載の追従方法。
　前記第１画像に含まれる頭領域の大きさ、および、前記第２画像に含まれる頭領域の大きさを基にして、前記距離を修正する処理を更にコンピュータが実行することを特徴とする請求項７に記載の追従方法。
　第１のタイミングおよび第３のタイミングで複数のカメラのそれぞれが撮影した複数の画像を基にして特定された３次元上の人物の頭の位置を基にして、前記第１のタイミングと前記第３のタイミングの間の第２のタイミングにおける３次元上の人物の頭の位置を推定する処理を更にコンピュータが実行することを特徴とする請求項６に記載の追従方法。
　前記３次元上の人物の頭の位置を特定する処理は、連続する画像フレームを含むウインドウ区間毎に、前記３次元上の人物の頭の位置の軌跡情報を特定し、各ウインドウ区間の軌跡情報を関連付ける処理を更にコンピュータが実行することを特徴とする請求項６に記載の追従方法。
　複数のカメラのそれぞれが撮影した複数の画像から、人物の頭領域をそれぞれ特定する第１特定部と、
　前記複数の画像から特定した前記頭領域の位置を基にして、同一の人物に対応する頭領域の組を特定する第２特定部と、
　同一の人物の頭領域の組の２次元上の位置と、前記複数のカメラにそれぞれ設定されたパラメータとを基にして、３次元上の人物の頭の位置を特定する第３特定部と
　を有することを特徴とする情報処理装置。
　前記第２特定部は、第１画像に含まれるエピポーラ線であって、第２画像に含まれる頭領域に対応する前記エピポーラ線と、前記第１画像から特定された頭領域との距離を基にして、前記第１画像に含まれる頭領域と、前記第２画像に含まれる頭領域とが、同一の人物に対応する頭領域であるか否かを特定する処理を含むことを特徴とする請求項１１に記載の情報処理装置。
　前記第２特定部は、前記第１画像に含まれる頭領域の大きさ、および、前記第２画像に含まれる頭領域の大きさを基にして、前記距離を修正する処理を更に実行することを特徴とする請求項１２に記載の情報処理装置。
　第１のタイミングおよび第３のタイミングで複数のカメラのそれぞれが撮影した複数の画像を基にして特定された３次元上の人物の頭の位置を基にして、前記第１のタイミングと前記第３のタイミングの間の第２のタイミングにおける３次元上の人物の頭の位置を推定する補間部を更に有することを特徴とする請求項１１に記載の情報処理装置。
　前記第３特定部によって特定される、連続する画像フレームを含むウインドウ区間毎に、前記３次元上の人物の頭の位置の軌跡情報を特定し、各ウインドウ区間の軌跡情報を関連付ける関連付け部を更に有することを特徴とする請求項１１に記載の情報処理装置。