WO2014041912A1

WO2014041912A1 - 画像処理システム、画像処理方法及びプログラム

Info

Publication number: WO2014041912A1
Application number: PCT/JP2013/070697
Authority: WO
Inventors: 亮磨大網; 勝青木
Original assignee: 日本電気株式会社
Priority date: 2012-09-13
Filing date: 2013-07-31
Publication date: 2014-03-20
Also published as: US9684835B2; US20150248587A1; BR112015005258A2; JP6213843B2; JPWO2014041912A1

Abstract

（課題）動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供する。（解決手段）複数のビデオカメラで撮像された動画像の入力を受ける画像取得部６０１と、動画像で検出されたオブジェクトが次に映るビデオカメラを予測する次カメラ予測部６３０と、検出されたオブジェクトと、次カメラ予測部６３０で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、次カメラ予測部６３０で予測したビデオカメラからの動画像を表示装置３００に表示する表示制御手段６８０とを備える。

Description

画像処理システム、画像処理方法及びプログラム

　本発明に係るいくつかの態様は、画像処理システム、画像処理方法及びプログラムに関する。

　近年、複数のカメラからの映像を利用して広範囲にわたる監視を行うシステムが考えられている。例えば特許文献１は、カメラ間の連結関係情報を用いてカメラ間にまたがる人物の追尾（モニタリング）を適切に行うことのできる装置を開示している。この装置は、カメラ視野に出現した点（Ｉｎ点）と、カメラ視野から消失した点（Ｏｕｔ点）における人物特徴量の類似度に応じて、人物の対応関係を求める。

特開２００８－２１９５７０号公報

　特許文献１記載の装置のように、類似度に応じて自動的に人物の対応関係を定める場合には、一定の確率で誤りが生じる。そこで、人間が関与する形で人物の対応付けを行うことが求められている。

　しかしながら、たとえ人間が関与した場合であっても、対応付けを誤りやすい場合がある。例えば、監視対象の人物と似たような服装をした別の人物が画面に映った場合には、監視者であるユーザは、当該人物を監視対象の人物と間違えてしまう可能性が高い。

　本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供することを目的の１つとする。

　本発明に係る画像処理システムは、複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段とを備える。

　本発明に係る画像処理方法は、複数のビデオカメラで撮像された動画像の入力を受けるステップと、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップとを画像処理システムが行う。

　本発明に係るプログラムは、複数のビデオカメラで撮像された動画像の入力を受ける処理と、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理とをコンピュータに実行させる。

　なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されても良い。

　本発明によれば、動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供することができる。

第１実施形態に係る監視システムの概略構成を示す機能ブロック図である。第１実施形態に係る監視システムについて説明するための図である。表示画面の具体例を示す図である。表示画面の具体例を示す図である。表示画面の具体例を示す図である。第１実施形態に係る監視システムの概略機能構成を示す機能ブロック図である。図１に示す情報処理サーバの処理の流れを示すフローチャートである。図１に示す情報処理サーバを実装可能なハードウェアの構成を示すブロック図である。第２実施形態に係る監視装置の概略構成を示す機能ブロック図である。

　以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。

　（１　第１実施形態）
　図１乃至図８は、第１実施形態を説明するための図である。以下、これらの図を参照しながら、以下の流れに沿って本実施形態を説明する。まず「１．１」でシステム構成の概要を示すとともに、「１．２」で表示画面の具体例を示すことで、第１実施形態全体の概要を示す。その上で、「１．３」でシステムの機能構成を説明し、「１．４」で処理の流れを、「１．５」で、本システムを実現可能なハードウェア構成の具体例を示す。最後に、「１．６」以降で、本実施形態に係る効果や変形例などを説明する。

　（１．１　システム構成）
　図１を参照しながら、本実施形態に係る画像処理システムである監視システム１のシステム構成を説明する。図１は、監視システム１のシステム構成を示すブロック図である。

　監視システム１は、大きく分けて、情報処理サーバ１００と、動画像を撮像する複数のビデオカメラ２００（ビデオカメラ２００Ａ乃至２００Ｎを総称してビデオカメラ２００と呼ぶ。）と、表示装置３００と、入力装置４００とから構成される。

　以下、監視システム１は、ビデオカメラ２００で撮影された人物を監視するためのシステムであるものとして説明するが、監視対象はこれに限られるものではない。例えば、車やバイク等の移動する物体（オブジェクト／移動体）であっても良い。

　ビデオカメラ２００は、動画像を撮像すると共に、当該撮影（撮像）した動画像内に人物がいるか否かを判別した上で、当該人物に係る位置や特徴量などの情報を、撮影動画像と共に情報処理サーバ１００へと送信する。また、ビデオカメラ２００は、撮影した動画像内の人物追跡も行うことができる。
　なお、人物の検出や特徴量の抽出、カメラ内の人物追跡などの処理は、例えば情報処理サーバ１００や、図示しない他の情報処理装置上で行なっても良い。

　情報処理サーバ１００は、ビデオカメラ２００で撮像された動画像を解析することにより、人物の検出や、追跡する人物の登録、登録された人物の追跡等の各種処理を行う。

　なお、以下ではビデオカメラ２００により撮像されるリアルタイムの動画像を元に人物監視を行う場合を中心に説明するが、これに限られるものではなく、例えば、ビデオカメラ２００により撮像された後、記憶装置（例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＶＣＲ（Ｖｉｄｅｏ　Ｃａｓｓｅｔｔｅ　Ｒｅｃｏｒｄｅｒ）などに記憶された動画像を対象に監視（分析）することも考えられる。更に、当該記憶装置に記憶された動画像を逆順に再生（逆再生）して監視することも考えられる。通常、ある人物が不審な行動をとった場合には、その人物がその行為までにどのような行動を取ったかを調べる必要があるため、このような逆再生による監視手段を持つことは極めて有用である。

　情報処理サーバ１００による人物監視において、情報処理サーバ１００は、表示装置３００に監視用の画面を出力すると共に、入力装置４００から、人物監視に係る各種操作入力に係る操作信号を受け付ける。より具体的には、例えば、表示装置３００に表示する監視用画面では、ビデオカメラ２００から入力された動画像を複数表示することで、人物が今どこにいるのかを監視者であるユーザが把握できるようにする。

　監視者であるユーザは、表示装置３００を見て、あるビデオカメラ２００の映像（動画像）に映った監視対象の人物が他のビデオカメラ２００の映像に映った場合には、入力装置４００を操作して、当該２人の人物を同一人物であるものと対応付ける。このような、人手を介した人物の対応付けにより、本監視システム１では精度の高い人物の対応付けを実現している。

　表示装置３００は、例えば、液晶や有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）等に画像を表示するディスプレイである。情報処理サーバ１００から出力される監視用画面は、表示装置３００が表示する。

　入力装置４００は、ユーザ（監視者）が各種情報を入力するための装置である。例えば、マウスやタッチパッド、タッチパネル等のポインティングデバイスやキーボード等が入力装置４００に該当する。監視対象人物の登録や、登録された人物とビデオカメラ２００に新たに登場した人物との対応付け（同一人物としての対応付け）等の各種処理は、ユーザの入力装置４００に対する操作に基づいてなされる。

　なお、情報処理サーバ１００と表示装置３００、入力装置４００の構成は種々考えられる。例えば、表示装置３００及び入力装置４００を、１台のクライアントとして実現することも考えられるし、或いは、情報処理サーバ１００、表示装置３００、及び入力装置４００を１台の情報処理装置として実現することも考えられる。更には、情報処理サーバ１００の機能を複数の情報処理装置により実現しても良い。

　（１．２　人物監視の具体例）
　（１．２．１　人物監視の概略）
　以下、図２を参照しながら、人物監視の概略を説明する。

　本実施形態に係る監視システム１では、前述の通り、表示装置３００を見て、あるビデオカメラ２００の映像に映った監視対象の人物（監視対象として登録済みの人物）が他のビデオカメラ２００に映った場合には、入力装置４００を操作して、当該２人の人物を同一人物として対応付ける。しかしながら、監視対象の場所に、外見の似た複数の人物が存在する場合には、たとえ人間が対応付ける場合であっても誤りが生じる可能性が高い。そこで、本実施形態に係る監視システム１では、監視対象の人物と外見が似た人物がいる場合には、その旨をユーザに報知して注意を喚起することにより、対応付けに係る誤りを抑制している。

　以下、図２を見ながらもう少し詳細に具体例を説明する。図２の例は、表示装置３００の監視用画面上において、時刻ｔには、「Ｃａｍｅｒａ００１」と「Ｃａｍｅｒａ００３」に相当する２台のビデオカメラ２００に、それぞれ人物Ａと、人物Ｂ及び人物Ｃとが映った動画像が表示されていたものとする。人物Ａ、人物Ｂ、及び人物Ｃは、その後各ビデオカメラ２００の撮影範囲（画角）からフレームアウトし、その後、時刻ｔ＋１において、「Ｃａｍｅｒａ００８」に相当するビデオカメラ２００に、人物Ｘ及び人物Ｙが映っている。

　ここで、経路上、「Ｃａｍｅｒａ００８」の撮影位置は、「Ｃａｍｅｒａ００１」の右方向及び「Ｃａｍｅｒａ００３」の右方向の次に人物が現れると予測できる場所であり、また、その登場時刻は時刻ｔ＋１周辺であるものとする。

　図２の例において、人物Ｘは人物Ａ及び人物Ｂと外見が近似（すなわち、特徴量が近似している。例えば、服装の色が近い場合等に相当する。）しており、人物Ｙは人物Ｃと外見が近似している。この場合、人物Ｙに関しては、類似する特徴を持つのが人物Ｃしかいないため、人物Ｙと人物Ｃとは同一である可能性が高く、また、監視者であるユーザが対応付けを間違える可能性は低い。

　一方、人物Ｘについては、類似する特徴を持つ人物が２人（人物Ａ及び人物Ｂ）いるため、人物Ｘがいずれの人物に対応づくのかを監視者であるユーザが正しく判別するのは困難である。これは、複数の人間が、人物Ｘに対応付く可能性があることをユーザが認識していない可能性が高いからである。そこで、本実施形態に係る監視システム１では、監視対象人物と類似する特徴を持つ人物がいる場合には、対応付けの誤りを抑制するために、その旨をユーザに注意を喚起する。
　以下、図３乃至図５を参照しながら、注意喚起する場合の表示画面の具体例を説明する。

　（１．２．２　表示画面の具体例）
　本実施形態において、情報処理サーバ１００は、監視対象の人物が次にどのビデオカメラ２００の映像に登場するかを予測し、当該ビデオカメラ２００の映像を表示装置３００上に表示する。
　なおここで、表示装置３００の監視用画面上には、複数のビデオカメラ２００の映像を表示することができる。例えば、監視対象の人物が次に登場する可能性の高い複数台（例えば、登場する可能性の高い順に４台程度選ぶようにしても良い。）のビデオカメラ２００からの映像を、同一の監視用画面上に配置することが考えられる。
　図３乃至図５は、表示装置３００が表示する監視用画面のうち、１台のビデオカメラ２００の映像に係る動画像表示領域３０の具体例を示す図である。
　図３の例では、動画像表示領域３０上には、近い将来、監視対象の人物が、撮像されたドアから現れる可能性が高いことを示す画像３１が、動画像に重畳して表示されている。

　図４は、監視対象の人物だけでなく、監視対象の人物とユーザが混同しやすい人物も、同じドアから登場する可能性がある場合に、表示装置３００に表示される動画像表示領域３０の具体例である。図３の場合とは異なり、ユーザに注意喚起を促す画像３２が、監視対象の人物が現れる可能性が高いことを示す画像３１の近傍の配置されている。

　まとめると、監視対象の人物が現れると予想される場合には、動画像表示領域３０上に画像３１が表示される。更に、監視対象の人物だけでなく、監視対象の人物と混同しやすい人物（外見が似た人物（例えば、特徴量が近似した人物））も、監視対象人物と近い時刻に出現する可能性が高い場合には、注意喚起のための画像３２を表示することで、ユーザにその旨を報知し、動画像表示領域３０に登場する人物と、監視対象人物との対応付けに際しては、十分に気をつけるよう促す。

　図５は、動画像表示領域３０の映像に人物が登場した場合の具体例を示す図である。図５の例において、出現した人物の周囲に、監視対象の人物である可能性が高いことを示す画像３１が配置されるとともに、監視対象の人物と混同しやすい他の人物である可能性も高いことを示す画像３２が配置されている。

　つまり、監視システム１は、監視対象の人物が登場する可能性が高いこと（もしくは監視対象の人物である可能性が高いこと）を画像３１で示すとともに、監視対象の人物と混同しやすい他の人物である可能性が高いことを画像３２でユーザに知らせるようにしている。このように実装することで、ユーザへ確実な対応付けを画像３１により促すと共に、対応付けの誤りを画像３２により抑制することを可能としている。

　なお、ユーザへの注意喚起の方法や画像３１及び画像３２の形状等はこれに限られるものではない。例えば、監視対象人物が登場する可能性の高い箇所を半透明で塗りつぶしたり、注意喚起する際には、（画像３２を表示する代わりに）画像３１の色を変える、明滅させる等の表示方法を取ったりしても良い。

　また、人物が現れた時の混同しやすさの提示方法は、画像３２のように提示するかわりに、「次に出現する人物には、類似する人物が複数存在します」といったメッセージ情報として提示しても良い。この際、提示するテキストは、静止したテキストとして表示してもよいし、スクロールするテキストとして表示するようにしてもよい。それ以外にも、注意を促す様々なテキストの提示方法を用いることができる。

　この他、混同のしやすさを表す度合い（後述する対応付け混同率）を数字で表示するようにしたり、あるいは、数字の度合いに応じて長さが変わるバーのようなインジケータにより混同しやすさを提示するようにしたりしてもよい。

　画像３２の表示方法についても、明滅させたり、時間とともに色を変えたりすることによりユーザに注意を促すなど、さまざまな表示（報知）方法を用いることが考えられる。

　更には、画像３２と併せて注意喚起を促す音を鳴らして、ユーザの注意を促す（報知する）ようにしてもよい。この際の音の提示方法も、ユーザの注意を促す様々な報知方法を用いることができる。

　監視対象の人物が登場する可能性が高い箇所を示す画像３１を、その登場する可能性に応じて色分けすることも考えられる。この場合、例えば、監視対象人物が最も登場する可能性の高い動画の動画像表示領域３０を最も濃い色で、次に可能性の高い動画の動画像表示領域３０をそれよりも薄く、最も登場する可能性の低い動画の動画像表示領域３０を最も薄くして画像３１を表示するようにすれば良い。なお、色分けするかわりに、画像３１を点滅するように提示すると共に、可能性の度合いに応じて点滅の速度を変化させるようにすることも考えられる。

　この他、動画像表示領域３０を監視用画面上に複数配置する場合には、監視対象の人物が登場する可能性の高い順に、動画像表示領域３０を並べるようにしても良い。

　前述の通り、本実施形態に係る情報処理サーバ１は、もし、同時刻（一定範囲内に収まる近い時刻）に出現する可能性がある人物の中に、混同する可能性がある人物（混同する可能性が高い人物）とそうでない人物（混同する可能性が十分に低い人物（後述の混同率が十分に低い閾値よりも低い人物））が存在する場合には、人物が出現する前に図４に示すように混同する可能性があることを提示する。

　映像に人物が出現した際に、当該人物が、ユーザが混同する可能性がない人物（ユーザが混同する可能性が十分に低い）である場合も考えられる。この場合には、混同する可能性の有無を現れた人物の特徴量等に応じて判定した上で（後述の手法では、混同率を算出した上で、当該混同率が閾値を超えるか否かに応じて判定する）、混同する可能性がない場合には、図５において注意を促す画像３２は表示しない。逆に、混同する可能性が高い人物が複数存在し、出現した人物が混同する可能性が高い人物であった場合には、図５に示した画像３２をより強調表示するなど、ユーザへより強く注意喚起を促すようにしてもよい。混同の可能性を示す混同率の算出の詳細については後述する。

　（１．３　システムの機能構成）
　以下、図６を参照しながら、監視システム１の機能構成を説明する。なお、図６にはユーザが監視対象の人物を登録したり、或いは対応付けたりといった、入力装置４００を含む各機能構成については記載を省略している。

　図６に示すように、監視システム１は、画像取得部６０１（画像取得部６０１Ａ乃至６０１Ｎを総称して画像取得部６０１と呼ぶ。）、オブジェクト検出・追跡部６１０（オブジェクト検出・追跡部６１０Ａ乃至６１０Ｎを総称してオブジェクト検出・追跡部６１０と呼ぶ。）、オブジェクト追跡情報ＤＢ６２０、次カメラ予測部６３０、カメラ配置情報６４０、カメラ間対応付け部６５０、対応付け混同率算出部６６０、カメラ間対応付け情報６７０、表示制御部６８０、及び表示装置３００を含む。

　画像取得部６０１は、ビデオカメラ２００が実際のシーンを撮影することにより、撮影動画像を取得する。或いは、ビデオカメラ２００が撮影した動画像（映像）が、ＨＤＤ等の記憶装置に記録（録画）された後、それを再生（ＶＣＲの場合には、再生したアナログ信号をキャプチャ）することによって画像を取得する。

　ここで、再生とは、符号化された動画像データを復号して元の絵（フレーム）のデータを生成することをいい、生成した結果を表示画面上に表示することは再生に含まない。また、再生の速度は、実際の速度（記録された実速度）である必要はなく、可能な場合には、実時間よりも高速に再生（復号）していてもよい。また、全ての映像のフレームを復号せず、フレームを飛ばして再生することも考えられる。例えば、ＭＰＥＧ－２などの符号化方式で符号化されている場合には、映像内にはＩ、Ｐ、Ｂピクチャが存在するが、このうち、Ｉピクチャのみ、あるいは、ＩピクチャとＰピクチャのみを復号するようにしてもよい。

　なお、記憶装置に記録された映像を再生する場合には、順方向の再生により映像を取得する場合と、逆方向の再生により映像を取得する場合が考えられる。以下、ビデオカメラ２００で撮影した動画をリアルタイムで処理する場合の例を中心に説明する。

　オブジェクト検出・追跡部６１０は、オブジェクト検出部６１１（オブジェクト検出部６１１Ａ乃至６１１Ｎを総称してオブジェクト検出部６１１と呼ぶ。）、オブジェクト追跡部６１３（オブジェクト追跡部６１３Ａ乃至６１３Ｎを総称してオブジェクト追跡部６１３と呼ぶ。）、及びオブジェクト特徴量抽出部６１５（オブジェクト特徴量抽出部６１５Ａ乃至６１５Ｎを総称してオブジェクト特徴量抽出部６１５と呼ぶ。）を含む。オブジェクト検出・追跡部６１０は、オブジェクト検出部６１１において、画像取得部６０１のそれぞれが取得する動画像から、人物をオブジェクトとして検出し、また、オブジェクト特徴量抽出部６１５において、オブジェクト検出部６１１により検出された人物領域から当該人物の特徴量を算出する。より具体的には、例えば、予め生成した背景画像とフレーム画像との差分をとる背景差分法により移動体を抽出した上で、人物やその一部の形状等の特徴を学習した検出器を、当該抽出した移動体領域に対して適用することによって人物を抽出することができる。また、人物の特徴量としては、人物が着ている服の色や模様の特徴を、色ヒストグラムやエッジヒストグラムの形で抽出することができる。

　また、オブジェクト追跡部６１３は、時系列の画像（フレーム）間の比較により、オブジェクトとして抽出された人物毎に同一画角内（同一の映像内）で追跡し、検出・追跡された人物毎に、オブジェクト追跡情報（オブジェクトとしての人物の位置と特徴量情報の時系列データ）を生成する。フレーム間での人物の追跡には、例えばミーンシフト法による追跡や、パーティクルフィルタを用いた追跡などを用いることが考えられる。オブジェクト追跡部６１３は、生成したオブジェクト追跡情報を、オブジェクト追跡情報ＤＢ（データベース）６２０に格納すると共に、次カメラ予測部６３０へと出力する。

　次カメラ予測部６３０は、オブジェクト追跡部６１３により生成されたオブジェクト追跡情報と、カメラ配置情報６４０とから、人物が映像の画角から外に出た（フレームアウトした）時に、次にどの画像取得部６０１で取得した画像に現れる可能性が高いかを予測すると共に、その結果を示す次カメラ予測情報を生成する。ここで、カメラ配置情報６４０は、配置された複数のカメラ間の空間的な位置関係を記述する情報であり、具体的には、例えばカメラ間の隣接関係や、カメラ間の距離（或いは、カメラ間の移動に必要となる平均時間）等の情報を含む。隣接関係とは、カメラが隣接しているかどうか、そして隣接している場合には、どの方向にどれだけ離れてカメラが位置しているかを表す情報である。隣接関係の情報はカメラの画角と対応づけて記述される。これにより、次カメラ予測部６３０は、人物がフレームアウトする方向に応じて、隣接カメラを選択できるようにする。

　次カメラ予測部６３０が生成する次カメラ予測情報は、画像取得部６０１毎（ビデオカメラ２００毎）に人物の出現確率、画角内での出現予測位置、出現予測時刻を算出した結果と、人物の特徴量とを含み、追跡人物毎に生成される。例えば、人物Ａがカメラ０１に映っていて、カメラ０２の方向にフレームアウトした場合、カメラ間の平均移動時間を用いて予測する場合には、フレームアウトした時刻に平均移動時間を足した時刻において最も大きくなる確率分布を用いて出現確率を計算できる。この際、平均移動時間を用いる代わりに、フレームアウトする前の移動速度をカメラ０１の追跡結果から算出することによりカメラ０２に到達する時刻を予測した上で、当該時刻に基づいて確率分布を算出してもよい。ここで、確率分布としては、ガウス分布等様々な形状のものを用いることができるが、確率分布のパラメータを決定する際、カメラ０１からカメラ０２への到達時刻のばらつきに係る情報が重要になる。これは、事前に計測してデータとしてもっておく、あるいは、ユーザによる対応付けの情報から学習するなどの手法により得ることができる。また、隣接するカメラがカメラ０２以外にも存在する場合には、人物が各隣接カメラの方向に移動する可能性を推定した上で、この値を上述の出現確率に乗じて確率を算出してもよい。この推定には、事前に計測した結果などを用いることができる。

　カメラ間対応付け部６５０は、人物（オブジェクト）毎に、次カメラ予測情報に含まれる特徴量と、次に出現する可能性のあるビデオカメラ２００の映像で検出された人物の特徴量とを比較し、特徴量間の距離が小さい（あるいは、特徴量間の類似度が高い）ときに、それらの人物同士を対応付け、対応付け情報をカメラ間対応付け情報６７０としてカメラ間対応付け情報ＤＢ６７０に格納する。あるいは、ユーザがカメラ間で人物を明示的に対応づけた場合には、この情報に基づいて対応付けを決定する。

　対応付け混同率算出部６６０は、各人物に対する次カメラ予測情報から、出現予測時刻が近い（例えば、出現予測時刻の差が一定時間内に収まる）オブジェクト同士で特徴量間の類似性を算出する。より具体的には、対応付け混同率算出部６６０は、監視対象の人物と類似性が高い人物（例えば、特徴量の類似性が閾値を超える人物）が自カメラおよび他のビデオカメラ２００の映像で検出されているか否かに応じて、次カメラにその監視対象の人物が出現した時に誤って対応付けを行う可能性の尺度を、対応付け混同率として算出する。あるいは、カメラ間対応付け情報ＤＢ６７０を参照した時に、対応する可能性のある人物が既に次カメラに現れている場合には、カメラ間対応付け情報６７０から、その人物と対応づく複数の人物間で類似性を評価し、その結果に応じて対応付け混同率を算出しても良い。例えば、監視対象の人物と他の複数の人物との類似度が高い場合には、監視者であるユーザが混同する可能性が高いため、混同率を高く設定すれば良い。一方、他の人物との類似性が低い場合には、監視者であるユーザが混同する可能性が低いため、混同率を低く設定すれば良い。

　より具体的には、対応付け混同率は、例えば以下のように算出することができる。監視対象となる人物の出現予測時刻から一定の時間幅内に、出現予測時刻が含まれる人物がＮ人いる場合には、これらの人物の特徴量を監視対象者の特徴量と比較することにより、類似度を算出する。ここで監視対象の人物とｉ番目の人物との類似度をＳ_ｉ（ｉ＝１，…，Ｎ）（完全に同じ特徴量である場合の類似度Ｓ_ｉを１とする。）で表すこととし、類似度がｘのときの混同のしやすさを表す関数をＦ（ｘ）（Ｆ（ｘ）はｘに係る単調非減少関数であり、０から１の値をとる。）とすると、対応付け混同率は、例えば、以下の式によって算出できる。

　例えば、監視対象の人物とｉ＝１，…，Ｎの人物と完全に同一の特徴量である場合には、混同率はＮ＋１人から監視対象者以外のＮ人を選ぶ確率となるが、上記の式は、これを拡張した式となっている。

　また、すでに次カメラに対応する人物が現れた後の場合には、現れた人物の特徴量と監視対象人物の特徴量との類似度をＳ’とすると、対応付け混同率は、例えば以下の式によって算出できる。

　あるいは、現れた人物の特徴量と監視対象者以外のＮ人の特徴量も比較することにより類似度を算出した上で、対応づく確率を求めることにより対応付け混同率を算出してもよい。より具体的には、ｉ番目の人物の類似度をＳ_ｉ’、類似度がｘのときに対応づく確率をＰ（ｘ）とすると、対応付け混同率は以下のように算出できる。

　表示制御部６８０は、人物毎の次カメラ予測情報、対応付け混同率、及びカメラ間対応付け情報６７０から、監視者であるユーザに提示する情報（追跡対象人物（監視対象人物）が次にどのカメラ画像のどのあたりの位置に出現するかや、出現した時の混同しやすさがどの程度か等の情報）を示す画像（具体例としては、図３乃至図４で画像３１及び３２として示した画像）を生成する。そして、実際に追跡対象の候補となる人物が次カメラの画面に現れた場合には、その人物が対応付けの候補人物であることを提示する情報（具体例としては、図５で画像３１として示した画像）と共に、その混同しやすさを混同率に基づいて提示するための情報（具体例としては、図５で画像３２として示した画像）を生成する。

　（１．４　処理の流れ）
　次に、監視システム１の処理の流れを、図７を参照しながら説明する。図７は、本実施形態に係る情報処理サーバ１００の処理の流れを示すフローチャートである。

　なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上１つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを１ステップとして実行することもできる。

　まず、オブジェクト検出部６１１は、画像取得部６０１で取得した画像内に、検出対象オブジェクトとしての人物が映っているか否かを検出する（Ｓ７０１）。その結果、人物を検出した場合には（Ｓ７０１のＹｅｓ）、オブジェクト特徴量抽出部６１５は、当該人物の特徴量を算出する（Ｓ７０３）。オブジェクト追跡部６１３は、フレーム間でオブジェクトを追跡すると共に、同一画角内の追跡結果を算出した特徴量と併せてオブジェクト追跡情報として、オブジェクト追跡情報ＤＢ６２０へ登録する（Ｓ７０５）。

　次に、次カメラ予測部６３０は、オブジェクト追跡部６１３から受け取ったオブジェクト追跡情報と、カメラ配置情報６４０とに基づき、画像取得部６０１で取得した映像の画角からフレームアウトした監視対象の人物が、次にどの画像取得部６０１の映像に現れる可能性が高いかを予測する（Ｓ７０７）。

　そして、対応付け混同率算出部６６０は、次カメラ予測により次カメラに登場すると予測される人物の特徴量と、当該次カメラに、監視対象人物と近い出現予測時刻に現れると予測される人物の特徴量とを比較し、それらの類似度を算出する（Ｓ７０９）。もし、特徴量間の距離が小さい（特徴量間の類似度が高い。なお、これらの判断は、例えば閾値を超えるか否か等により判断することができる。）人物がいる場合には（Ｓ７１１のＹｅｓ）、対応付け混同率算出部６６０は、予測した次カメラに既に人物が出現済みであるか否かを判別する（Ｓ７１３）。

　もし、次カメラで既に対応づく可能性のある人物が既に映像に現れている場合には（Ｓ７１３のＹｅｓ）、カメラ間対応付け部６５０で対応づけたカメラ間での人物の対応付けの結果を用いて、次カメラ予測部６３０で予測した次カメラに監視対象の人物が現れた場合の間違えやすさの尺度を示す混同率を、対応付け混同率算出部６６０が算出する（Ｓ７１５）。

　一方、Ｓ７１１で特徴量が近似する人物がいない場合（Ｓ７１１のＮｏ）、若しくは次カメラに人物がまだ出現していない場合（Ｓ７１３のＮｏ）には、他のカメラで撮影された人物との特徴量と比較した類似度等に基づき、例えば数１を用いて、混同率を算出する（Ｓ７１７）。

　なお前述の通り、混同率は、同一もしくは近い出現予測時刻に、特徴量の近い人物が複数現れる可能性が高い場合には大きく設定され、特徴量の近い人物がいない場合や、近い出現予測時刻に登場する人物がいないと予測される場合には、低く設定される。

　表示制御部６８０は、次カメラ予測部６３０で予測した、次カメラの映像上の監視対象人物の登場場所を示す（例えば、図３及び図４に示した画像３１）と共に、もし当該監視対象人物に係る混同率が高い場合には、混同しないようユーザに注意喚起する（例えば、図４に示した画像３２）表示画面を生成して、表示装置３００に表示させる（Ｓ７１９）。

　（１．５　ハードウェア構成の具体例）
　以下、図８を参照しながら、上述してきた情報処理サーバ１００をコンピュータにより実現する場合のハードウェア構成の一例を説明する。なお、前述の通り、情報処理サーバ１００の機能は複数の情報処理装置（例えば、サーバとクライアント）により実現することも可能である。

　図８に示すように、情報処理サーバ１００は、プロセッサ８０１、メモリ８０３、記憶装置８０５、入力インタフェース（Ｉ／Ｆ）８０７、データＩ／Ｆ８０９、通信Ｉ／Ｆ８１１、及び表示装置８１３を含む。

　プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することにより情報処理サーバ１００における様々な処理を制御する。例えば、図６で説明した次カメラ予測部６３０、カメラ間対応付け部６５０、対応付け混同率算出部６６０、及び表示制御部６８０に係る処理は、メモリ８０３に一時記憶された上で、主にプロセッサ８０１上で動作するプログラムとして実現可能である。

　メモリ８０３は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。例えば、メモリ８０３の記憶領域には、プログラム実行時に必要となるスタック領域が確保される。

　記憶装置８０５は、例えばＨＤＤやフラッシュメモリ、ＶＣＲ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、次カメラ予測部６３０、カメラ間対応付け部６５０、対応付け混同率算出部６６０、及び表示制御部６８０を実現するための各種プログラムや、オブジェクト追跡情報ＤＢ６２０、カメラ配置情報６４０、カメラ間対応付け情報ＤＢ６７０を含む各種データ等を記憶する。記憶装置８０５に記憶されているプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

　入力Ｉ／Ｆ８０７は、ユーザからの入力を受け付けるためのデバイスである。図１で説明した入力装置４００は、入力Ｉ／Ｆ８０７として実現することも可能である。入力Ｉ／Ｆ８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ等がある。入力Ｉ／Ｆ８０７は、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等のインタフェースを介して情報処理サーバ１００に接続されても良い。

　データＩ／Ｆ８０９は、情報処理サーバ１００の外部からデータを入力するためのデバイスである。データＩ／Ｆ８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等が挙げられる。データＩ／Ｆ８０９は、情報処理サーバ１００の外部に設けられることも考えられる。その場合、データＩ／Ｆ８０９は例えばＵＳＢ等のインタフェースを介して情報処理サーバ１００へと接続される。

　通信Ｉ／Ｆ８１１は、情報処理サーバ１００の外部の装置、例えばビデオカメラ２００等との間で有線又は無線によりデータ通信するためのデバイスである。通信Ｉ／Ｆ８１１は情報処理サーバ１００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ８１１は、例えばＵＳＢ等のインタフェースを介して情報処理サーバ１００に接続される。

　表示装置８１３は、例えば監視用画面等の各種情報を表示するためのデバイスであり、図１で説明した表示装置３００は、表示装置８１３として実現することも可能である。表示装置８１３の具体例としては、例えば、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等が考えられる。表示装置８１３は、情報処理サーバ１００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介して情報処理サーバ１００に接続される。

　（１．６　本実施形態に係る効果）
　以上説明したように、本実施形態に係る監視システム１では、追跡対象（監視対象）の人物（オブジェクト）を追跡する際に、当該追跡対象の人物が登場する映像／位置をユーザにわかりやすく提示する（たとえば、図３乃至図５に具体例を示した画像３１）。これにより、監視者であるユーザは、監視対象者と同一人物の対応付けをしやすくなる。

　更に、追跡対象のオブジェクトと外見の似た人物（オブジェクト）が他に存在する場合には、ユーザが対応付けを誤る可能性が高いため、その旨をユーザに提示することで（例えば、図４や図５に具体例を示した画像３２）、ユーザが対応付けを誤るのを抑制することができる。特に、監視対象の人物と、当該人物と近い外見の人物が近い時刻に出現すると予測できる場合には、このような手法は特に有効である。

　（１．７　変形例）
　上記では、画像取得部６０１が取得する映像が、主にビデオカメラ２００が撮像したリアルタイムの映像である場合を中心に説明してきたが、これに限られるものではなく、例えば、記憶媒体に記憶された映像を順方向に再生したものであったり、記憶媒体に記憶された映像を逆方向に再生したものであったりしても良い。以下、これらの場合について簡単に説明する。

　（１．７．１　記録映像に対して処理する場合）
　記憶媒体に記憶された映像を対象に処理する場合には、オブジェクト（人物）の検出・追跡の処理は、リアルタイムで行う必要はなく、再生速度よりも高速に処理したり、或いは、映像の再生前に処理したりしても良い。追跡対象となるオブジェクトが指定された場合には、カメラの画角から外に出るかどうかを判定し、画角外に出た場合に、次カメラ予測部６３０で算出される次カメラ予測情報に基づいて、カメラ間対応付け部６５０で候補となるオブジェクトをオブジェクト追跡情報ＤＢ６２０から読み込む（探索する）と共に、オブジェクト間の類似度を算出し、対応付けの候補を求める。ここで、もし探索前に次カメラで対応する時刻の追跡情報が生成されていない場合には、生成されるのを待ってから探索することになる。

　対応付けの候補を求めた結果、次カメラで候補となるオブジェクトが見つかった場合には、対応付け混同率算出部６６０にて対応付け混同率を算出し、表示制御部６８０で、候補オブジェクトの画面と、候補オブジェクトであることを示す情報（例えば、図３乃至図５に例示した画像３１）、及び対応付け混同しやすさを提示する情報（例えば、図４や図５に例示した画像３２）を生成して、表示装置３００上に表示させる。
　この際、予測時間との整合性や類似性の高さに応じて、候補である可能性が高い順に提示するようにしてもよい。

　（１．７．２　記憶映像を逆再生して処理する場合）
　「１．７．１」で説明した記録済み映像に対する処理は、逆再生する場合にも適用できる。逆再生は、例えば、ある時点で怪しい行動をしたオブジェクトを追跡対象として、その時点までの足取りを追う場合等に有効である。逆再生する場合の処理は基本的に「１．７．１」と同様の処理となるが、時間軸を逆方向に探索していく点が異なる。すなわち、追跡対象オブジェクトがあるカメラの画角に入ってくる時刻を追跡情報から求め、画角から外れた時に次カメラ予測により、時間の逆方向に予測して次カメラ予測情報を生成することになる。

　（２　第２実施形態）
　以下、第２の実施形態を図９を参照しながら説明する。図９は、画像処理システムである監視装置９００の機能構成を示すブロック図である。図９に示すように、監視装置９００は、入力部９１０と、予測部９２０と、表示制御部９３０とを含む。

　入力部９１０は、複数のビデオカメラで撮像された動画像の入力を受ける。予測部９２０は、当該入力手段から入力された動画像で検出されたオブジェクトが、次に映るビデオカメラを予測する。表示制御部９３０は、動画像で検出したオブジェクトと、予測部９２０で予測したビデオカメラの動画像に映る可能性のある、他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを、監視者であるユーザに報知する。また、表示制御部９３０は、予測部９２０で予測したビデオカメラからの動画像を、図示しない表示装置に表示する。
　このように実装することで、本実施形態に係る監視装置９００によれば、動画像に映る人物の対応付けに係る誤りを抑制することができるようになる。

　（３　付記事項）
　なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。

　なお、前述の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。また、本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。

　（付記１）
　複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段とを備える画像処理システム。

　（付記２）
　前記表示制御手段は、前記予測手段により予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記１に記載の画像処理システム。

　（付記３）
　前記入力手段は、複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記１又は付記２記載の画像処理システム。

　（付記４）
　前記入力手段は、前記動画像を撮影順とは逆順に入力を受ける、付記３記載の画像処理システム。

　（付記５）
　前記表示制御手段は、前記予測手段で予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記１乃至付記４のいずれか１項記載の画像処理システム。

　（付記６）
　複数のビデオカメラで撮像された動画像の入力を受けるステップと、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップとを画像処理システムが行う、画像処理方法。

　（付記７）
　前記予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記６に記載の画像処理方法。

　（付記８）
　複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記６又は付記７記載の画像処理方法。

　（付記９）
　前記動画像を撮影順とは逆順に入力を受ける、付記８記載の画像処理方法。

　（付記１０）
　前記予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記６乃至付記９のいずれか１項記載の画像処理方法。

　（付記１１）
　複数のビデオカメラで撮像された動画像の入力を受ける処理と、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理とをコンピュータに実行させるプログラム。

　（付記１２）
　前記予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記１１に記載のプログラム。

　（付記１３）
　複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記１１又は付記１２記載のプログラム。

　（付記１４）
　前記動画像を撮影順とは逆順に入力を受ける、付記１３記載のプログラム。

　（付記１５）
　前記予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記１１乃至付記１４のいずれか１項記載のプログラム。

　この出願は、２０１２年９月１３日に出願された日本出願特願２０１２－２０１９４２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１・・・監視システム、３０・・・動画像表示領域、３１、３２・・・画像、１００・・・情報処理サーバ、２００・・・ビデオカメラ、３００・・・表示装置、４００・・・入力装置、６０１・・・画像取得部、６１０・・・オブジェクト検出・追跡部、６１１・・・オブジェクト検出部、６１３・・・オブジェクト追跡部、６１５・・・オブジェクト特徴検出部、６２０・・・オブジェクト追跡情報ＤＢ、６３０・・・次カメラ予測部、６４０・・・次カメラ配置情報ＤＢ、６５０・・・カメラ間対応付け部、６６０・・・対応付け混同率算出部、６７０・・・カメラ間対応付け情報ＤＢ、６８０・・・表示制御部、８０１・・・プロセッサ、８０３・・・メモリ、８０５・・・記憶装置、８０７・・・入力インタフェース、８０９・・・データインタフェース、８１１・・・通信インタフェース、８１３・・・表示装置、９００・・・監視装置、９１０・・・入力部、９２０・・・予測部、９３０・・・表示制御部

Claims

　複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、
　前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、
　前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段と
を備える画像処理システム。
　前記表示制御手段は、前記予測手段により予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、
請求項１に記載の画像処理システム。
　前記入力手段は、複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、
請求項１又は請求項２記載の画像処理システム。
　前記入力手段は、前記動画像を撮影順とは逆順に入力を受ける、
請求項３記載の画像処理システム。
　前記表示制御手段は、前記予測手段で予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、
請求項１乃至請求項４のいずれか１項記載の画像処理システム。
　複数のビデオカメラで撮像された動画像の入力を受けるステップと、
　前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、
　前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップと
を画像処理システムが行う、画像処理方法。
　複数のビデオカメラで撮像された動画像の入力を受ける処理と、
　前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、
　前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理と
をコンピュータに実行させるプログラム。