WO2019162988A1

WO2019162988A1 - 表示制御装置、表示制御システム、表示制御方法、及びプログラム

Info

Publication number: WO2019162988A1
Application number: PCT/JP2018/005886
Authority: WO
Inventors: 祐也田上; 拓史小泉
Original assignee: 株式会社ソシオネクスト
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2019-08-29
Also published as: US20200372260A1; JP7147835B2; JPWO2019162988A1; US11321949B2

Abstract

表示制御装置は、動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータが入力される受信部と、前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、を有する。

Description

表示制御装置、表示制御システム、表示制御方法、及びプログラム

　本発明は、表示制御装置、表示制御システム、表示制御方法、及びプログラムに関する。

　従来、店舗や施設等に設置された監視カメラ等で撮影された動画像（映像）から、被写体の行動を監視する技術が知られている（例えば、特許文献１－３を参照）。

特開２００９－１３４６８８号公報特開２０１５－１２５６７１号公報特開２０１２－０１４５４３号公報

　しかしながら、従来技術では、店舗や施設等において、顧客等の被写体がどのような経路で移動し、どの場所で滞在し、どこに興味を示していたか等の活動状況を把握する場合、店舗や施設等の状況を、目視で動画像を確認する必要がある。

　そこで、一側面では、被写体の行動を比較的容易に把握できる技術を提供することを目的とする。

　一つの案では、動画像データに基づいて検出された、被写体の移動、及び前記被写体の顔または体の向きを取得する受信部と、各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ表す各図形データを表示するためのデータを出力する表示制御部と、を有する表示制御装置を提供する。

　一側面によれば、被写体の行動を比較的容易に把握できる。

実施形態に係る通信システムの構成例を示す図である。実施形態に係る撮像端末、動画像解析装置、表示制御装置、及び表示端末のハードウェア構成例を示す図である。実施形態に係る動画像解析装置の構成ブロック図の一例を示す図である。実施形態に係る表示制御装置の機能ブロック図の一例を示す図である。動画像解析装置における被写体の行動を検出する処理の一例を示すフローチャートである。処理対象フレームから特徴データを検出する処理の一例について説明する図である。ＣＴＵの一例について説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。被写体の行動を表示する処理の一例を示すフローチャートである。特徴データの一例を示す図である。被写体の行動を表す表示画面の一例について説明する図である。被写体の行動を表す表示画面の一例について説明する図である。被写体の行動を表す表示画面の一例について説明する図である。被写体の行動を表す表示画面の一例について説明する図である。被写体の行動を表す表示画面の一例について説明する図である。被写体が手を伸ばした商品等の物品の位置を表す表示画面の一例について説明する図である。被写体の行動を表す表示画面の一例について説明する図である。忘れ物を報知する処理の一例について説明する図である。忘れ物を報知する処理の一例について説明する図である。忘れ物を報知する処理の一例について説明する図である。忘れ物を報知する処理の一例について説明する図である。

　以下、図面に基づいて本発明の実施形態を説明する。

　＜システム構成＞
　図１は、実施形態に係る通信システム１（「表示制御システム」）の構成例を示す図である。図１において、通信システム１は、撮像端末１０－１、１０－２、・・・（以下で、それぞれを区別する必要がない場合は、単に「撮像端末１０」と称する。）、動画像解析装置２０、表示制御装置３０、及び表示端末４０－１、４０－２、・・・（以下で、それぞれを区別する必要がない場合は、単に「表示端末４０」と称する。）を有する。

　撮像端末１０と動画像解析装置２０、動画像解析装置２０と表示制御装置３０、及び表示制御装置３０と表示端末４０は、それぞれ、例えば、インターネット、携帯電話網、無線ＬＡＮ（Local Area Network）、またはＬＡＮ等のネットワーク５０、ネットワーク６０、及びネットワーク７０により、通信可能な状態で接続されている。

　撮像端末１０は、例えば、監視カメラ、ビデオカメラ、スマートフォン、または動画像（映像）ファイルサーバ等の情報処理装置（コンピュータ）である。撮像端末１０は、カメラにより撮像された動画像と、マイクにより集音された音声とを、所定の方式（「第１の方式」）で符号化する。そして、撮像端末１０は、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで動画像解析装置２０に配信する。または、撮像端末１０は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを動画像解析装置２０にアップロードする。

　動画像解析装置２０は、例えば、撮像端末１０により撮像されて符号化された動画像を、復号し、所定の方式（「第２の方式」）により符号化するトランスコーダでもよい。動画像解析装置２０は、撮像端末１０から受信した動画像及び音声を復号、及び符号化し、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで表示制御装置３０に出力する。または、動画像解析装置２０は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを表示制御装置３０にアップロードする。これにより、撮像端末１０から受信した、各種の符号化方式により符号化された動画像を、所定の符号化方式に変換して表示制御装置３０に出力することができる。

　また、動画像解析装置２０は、撮像端末１０により撮像された動画像の各フレームから、各被写体の位置、各被写体の顔または体（胴体）の向きを検出する。また、動画像解析装置２０は、撮像端末１０により撮像された動画像における複数のフレームから、各被写体の移動方向、及び移動量を検出する。

　表示制御装置３０は、例えば、動画像解析装置２０から受信した動画像及び特徴データを用い、ＡＩ（Artificial Intelligence）等による処理により、被写体の行動を解析し、来客の行動分析、店舗等のマーケティング、不審者等の監視等のサービスを提供する。表示制御装置３０は、ＡＩにより解析された被写体の行動を、表示端末４０に表示する。また、表示制御装置３０は、動画像解析装置２０により所定の行動が検出された場合、表示端末４０に所定の通知を行う。

　動画像解析装置２０、表示制御装置３０は、例えば、パーソナルコンピュータ、ＡＩアクセラレータ、データサーバー、クラウド、等の情報処理装置（コンピュータ）である。

　表示端末４０は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、等の情報処理装置（コンピュータ）である。表示端末４０は、表示制御装置３０から提供された情報を画面に表示する。

　＜変形例＞
　また、通信システム１は、動画像解析装置２０を複数有し、動画像解析装置２０－１、２０－２、・・・とし、表示制御装置３０にデータを出力し、データを統合することもできる。

　＜ハードウェア構成＞
　図２は、実施形態に係る撮像端末１０、動画像解析装置２０、表示制御装置３０、及び表示端末４０のハードウェア構成例を示す図である。以下では、表示制御装置３０を例に説明する。図２の表示制御装置３０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５等を有する。

　表示制御装置３０での処理を実現する動画像処理プログラムは、記録媒体１０１によって提供される。動画像処理プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、動画像処理プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って表示制御装置３０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。なお、動画像解析装置２０、及び表示制御装置３０は、ＧＰＵ（Graphics Processing Unit）を有してもよい。そして、当該ＧＰＵにより、動画像、及び被写体の行動等を解析する処理を実行させてもよい。

　撮像端末１０及び表示端末４０のハードウェア構成は、表示制御装置３０と同様でもよい。なお、撮像端末１０は、図２に示すハードウェア構成に加えて、動画像を撮影するカメラ（撮像装置）を有する。

　＜構成＞
　≪動画像解析装置≫
　次に、図３を参照し、動画像解析装置２０の構成について説明する。図３は、実施形態に係る動画像解析装置２０の構成の一例を示す図である。動画像解析装置２０は、復号部２１１、符号化部２１２、取得部２１３、検出部２１４、出力部２１５、及び制御部２１６を有する。

　復号部２１１は、復号回路、または動画像解析装置２０にインストールされた１以上のプログラムが、動画像解析装置２０のＣＰＵに実行させる処理により実現する。動画像解析装置２０が、ビデオケーブル等を介して、符号化されていないＲＡＷデータの動画像を撮像端末１０から受信する場合は、復号部２１１を有しないようにしてもよい。

　符号化部２１２は、符号化回路、または動画像解析装置２０にインストールされた１以上のプログラムが、動画像解析装置２０のＣＰＵに実行させる処理により実現する
　なお、復号部２１１及び符号化部２１２の少なくとも一方をＣＰＵにより実現する場合、ＣＰＵをマルチコアのプロセッサとし、ＣＰＵで実行する復号処理または符号化処理と、検出部２１４による特徴データ（メタデータ）を検出する処理とを異なるコアを用いて並列に処理するようにしてもよい。

　検出部２１４、出力部２１５、及び制御部２１６は、動画像解析装置２０にインストールされた１以上のプログラムが、動画像解析装置２０のＣＰＵに実行させる処理により実現する。なお、動画像解析装置２０は、検出部２１４、出力部２１５、または制御部２１６を実現する回路を備えてもよい。

　復号部２１１は、撮像端末１０から受信した動画像を復号する。

　符号化部２１２は、ＨＥＶＣ（High Efficiency Video Coding）／Ｈ．２６５（以下で「ＨＥＶＣ」と称する。）、またはＡＶＣ（Advanced Video Coding）／Ｈ．２６４、ＶＰ９、ＡＶ１等の動画像の圧縮規格を用いて、復号部２１１により復号された動画像の各フレームを圧縮して符号化する。

　取得部２１３は、符号化部２１２により動画像の各フレームの圧縮乃至符号化処理に用いられているデータをそれぞれ取得する。

　検出部２１４は、動画像の各フレームと、取得部２１３により取得されたデータに基づいて、特徴データを検出する。

　出力部２１５は、符号化部２１２により動画像が符号化されたデータと、特徴データとを表示制御装置３０に出力する。出力部２１５から表示制御装置３０への動画像が符号化されたデータと特徴データの出力は、動画像のフレーム毎に出力してもよいし、複数フレーム分を纏めて出力してもよい。

　制御部２１６は、動画像解析装置２０の全体の制御を行う。

　≪表示制御装置≫
　次に、図４を参照し、表示制御装置３０の機能構成について説明する。図４は、実施形態に係る表示制御装置３０の機能ブロック図の一例を示す図である。表示制御装置３０は、受信部３１、蓄積部３２、受付部３３、及び表示制御部３４を有する。これら各機能部は、表示制御装置３０にインストールされた１以上のプログラムが、表示制御装置３０のＣＰＵ１０４に実行させる処理により実現する。

　受信部３１は、動画像が符号化されたデータと動画像のフレーム毎の特徴データを動画像解析装置２０から受信する。なお、当該特徴データには、当該動画像データに基づいて検出された、被写体の移動、及び被写体の顔または体の向きの情報が含まれる。

　蓄積部３２は、受信した動画像が符号化されたデータと特徴データとを蓄積（記憶）する。受付部３３は、表示端末４０から、操作データを受信することにより、操作を受け付ける。

　表示制御部３４は、各時点における被写体の位置、被写体の移動方向、及び被写体の顔または体の向き等の被写体の行動を表す図形データを含む表示画面のデータを出力し、表示端末４０の画面に表示する。

　＜処理＞
　（被写体の行動を検出する処理）
　次に、図５、及び図６を参照し、動画像解析装置２０における被写体（人物等）の行動を検出する処理について説明する。図５は、動画像解析装置２０における被写体の行動を検出する処理の一例を示すフローチャートである。なお、以下の処理は、動画像中の各フレームに対して行われる。以下では、動画像中の任意の一フレームを、処理対象フレームと称する。

　まず、ステップＳ１において、動画像解析装置２０の符号化部２１２は、処理対象フレームを圧縮して符号化する処理を行う。

　続いて、動画像解析装置２０の符号化部２１２は、当該符号化の処理に用いられるデータを、メモリ装置に出力する（ステップＳ２）。符号化処理に用いられるデータには、例えば、符号化処理が行われる単位である各ブロック（ＣＴＵ（Coding Tree Unit））のデータ、フレームの縮小画像、動画像において連続する複数のフレーム間の変化を示すデータ（当該各ブロックの動きを示すデータ）、同色の領域を示すデータ、及び当該各ブロックの輪郭のデータ等が含まれてもよい。

　なお、符号化部２１２によるステップＳ１の符号化処理と、検出部２１４による検出処理は、並列に実行されてもよい。

　続いて、動画像解析装置２０の検出部２１４は、処理対象フレーム、及びメモリ装置に記憶されたデータを用いて、処理対象フレームに対する、被写体等の特徴を示す特徴データを検出する（ステップＳ３）。図６は、処理対象フレームから特徴データを検出する処理の一例について説明する図である。動画像解析装置２０の検出部２１４は、予め設定されている人体の各部位の長さのデータを用いて、処理対象フレームから、被写体の各関節の位置を推定する。この場合、動画像解析装置２０の検出部２１４は、例えば、メモリ装置に記憶されたデータに基づいて、処理対象フレームにおいて探索する領域を決定する。そして、決定した領域内から、予め設定されている人体の各部位の長さのデータを用いて、処理対象フレームにおける、フレーム内の被写体の位置（座標）、被写体の顔、胴体、右手、左手、右足、左足の位置を検出する。

　図６の例では、処理対象フレームにおいて探索する領域６０１乃至６０４の各々において検出された、被写体６１１乃至被写体６１４のそれぞれの部位６２１乃至６２４が示されている。なお、検出部２１４は、例えば、ディープラーニング等の機械学習を用いたＡＩにより、特徴データを検出してもよい。このように、符号化処理に用いられるデータを利用することで、処理対象フレーム毎の特徴データを検出する処理の負荷を大きく削減することができる。

　続いて、動画像解析装置２０の出力部２１５は、符号化部２１２により動画像が符号化されたデータと、動画像解析装置２０の検出部２１４により検出された特徴データとを表示制御装置３０に出力する（ステップＳ４）。

　上述した特徴データの検出処理によれば、例えば、監視カメラからの動画像及び音声を監視する監視カメラシステムにおいて、画像中の被写体の顔の位置及びサイズ、年齢、性別の推定情報、服の色やメガネ、帽子、鞄といった服装等に関する特徴データを検出できる。

　また、カメラの設置位置や向き、レンズの画角、歪、特性等が既知である場合や、所定のマーカ等で事前にカメラのキャリブレーションが行われている場合は、撮影された被写体の大きさや、カメラからの距離に関する特徴データを検出できる。

　また、認識した人や物の動きを追跡し、どのような動きを行ったかという行動または動作に関する特徴データを検出できる。この場合、特徴データには、例えば、顔（視線）、体（胴体）、足の向き、手や足の動き、各関節の位置、（顔の表情）等の情報と、これらを含めて推定した姿勢、行動や動作などの情報が含まれてもよい。なお、検出部２１４は、当該情報を、数フレームや数秒毎に検出するようにしてもよい。

　また、複数のカメラによりそれぞれ撮影された動画像により、比較的広範囲における行動を検出し、検出した行動の範囲を特徴データとしてもよい。これにより、被写体（人物等）や物が移動した軌跡を表示端末に表示することができる。

　＜特徴データの検出処理の例＞
　以下で、特徴データを検出する処理の例について説明する。なお、以下の各例は、適宜組み合わせて実施することができる。

　≪特徴データの検出処理の例１≫
　特徴データの検出処理の例１として、ＨＥＶＣ等の符号化処理中に得られるＣＴＵ（Coding Tree Unit）（「符号化処理に用いられるデータ」、及び「ブロック」の一例。）を用いて、背景以外の構造物、または背景に関する特徴データを比較的高速に検出する例について説明する。

　符号化部２１２は、ＨＥＶＣ等を用いて、動画像中の各フレーム（ピクチャ）の符号化処理を、ＣＴＵと称される正方画素ブロックの単位で行う。符号化部２１２は、ＨＥＶＣ等において、フレーム中の各ブロックの大きさを、フレーム画像中の輪郭の存在、及び輪郭の複雑さに応じて決定する。

　図７は、ＣＴＵの一例について説明する図である。符号化部２１２は、図７に示すように、平坦な背景部分を、比較的大きいブロック（ＣＢ:Coding Block）５０１により分割する。また、符号化部２１２は、物体の輪郭を、比較的小さいブロック５０２により分割する。

　符号化部２１２は、ＣＴＵを決定するブロック分割処理が完了すると、ＣＴＵのデータを、メモリ装置に格納する。メモリ装置に格納されたＣＴＵのデータには、構成する各色成分信号のブロックである各ＣＴＢ（Coding Tree Block）の階層構造とＣＢサイズ、及び隣接するＣＴＢ等のデータが含まれる。

　これにより、例えば、符号化処理に用いられるデータであるＣＴＵを用いて、空や壁等の背景と、人や建物等の構造を有する物体とを区別したり、蓄積されているデータから、構図が類似しているデータを抽出したりすることができる。

　また、検出部２１４は、当該ＣＴＵのデータを用いて、例えば、画像中の各オブジェクトの領域等を検出してもよい。この場合、検出部２１４は、例えば、被写体の人物等を検出対象とする場合、ＣＢのサイズが所定値以下の領域を優先的に検索し、顔を検出する処理を実行してもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、被写体の人物等の物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。この場合、被写体の人物等を検出するアルゴリズムとしては、公知のアルゴリズムを用いてもよい。また、ＣＴＵのデータを用いてＣＢのサイズが所定値（例えば、１６×１６）以下の領域のみを検索範囲としてもよい。これにより、従来の画像全体を探索範囲する方法と比較して、より高速に検出できる。

　また、検出部２１４は、例えば、空や道路等の背景を検出対象とする場合、ＣＢのサイズが所定値（例えば、３２×３２）以上の領域を探索範囲として、背景を検出する処理を実行してもよい。

　≪特徴データの検出処理の例２≫
　特徴データの検出処理の例２として、符号化処理中に得られる縮小画像（「符号化処理に用いられるデータ」の一例。）を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

　符号化部２１２は、ＨＥＶＣやＡＶＣ等において、動き補償のために、各フレームの縮小画像（予測画像）を生成する。符号化部２１２は、動き補償のための縮小画像を生成すると、生成した縮小画像のデータを、メモリ装置に格納する。

　また、検出部２１４は、当該縮小画像のデータを用いて、例えば、画像中の各オブジェクトの動き等を検出してもよい。この場合、検出部２１４は、例えば、複数の探索起点領域の候補を求め、複数の候補のなかから類似度の高い探索起点領域を選出し、選出した起点領域に含まれる探索起点及びその周囲を、等倍画像を用いて細かく探索してもよい。

　≪特徴データの検出処理の例３≫
　特徴データの検出処理の例３として、符号化処理中に得られる、連続する複数のフレーム間の変化を示すデータ（ブロックの動きを示すデータ。「符号化処理に用いられるデータ」の一例。）を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

　符号化部２１２は、ＨＥＶＣやＡＶＣ等において、動き補償等のために、連続する複数のフレーム間の変化を示すデータを生成する。各フレーム間の変化を示すデータには、例えば、差分、及び動きベクトル等が含まれる。

　差分は、今回のフレームに含まれる所定の範囲の各画素の輝度と色差の値と、前回のフレームに含まれる当該所定の範囲の各画素の輝度と色差の値との差分絶対値和（ＳＡＤ:Sum of Absolute Difference）、差分二乗和（ＳＳＤ:Sum of Squared Difference）、絶対値変換差分和（ＳＡＴＤ:Sum of Absolute Transformed Difference）等である。動きベクトルは、連続する各フレーム間において予測された符号化対象ブロックの移動方向を示すデータである。

　また、ＨＥＶＣやＡＶＣ等では、予測ブロック（ＰＵ: Prediction Unit）ごとに動き補償予測が行われる。

　図８Ａ、及び図８Ｂは、ＨＥＶＣにおける動き情報について説明する図である。隣接し合う各予測ブロックは、似たような動きを有すると考えられるため、ＨＥＶＣでは、予測ブロック毎に別々の動きベクトルを符号化するのではなく、隣接し合う各予測ブロックの動きベクトルを統合して符号化する。図８Ａの例では、予測ブロック毎の動きベクトルが矢印８０１等により示されている。図８Ｂの例では、隣接し合う各予測ブロックにて統合された動きベクトルが矢印８０２等により示されている。

　符号化部２１２は、動き補償のための当該各データを生成すると、生成した各データを、メモリ装置に格納する。

　また、検出部２１４は、当該各データを用いて、例えば、画像中の各オブジェクトの動き等を検出してもよい。この場合、検出部２１４は、所定数以上の予測ブロックの集合であって、各予測ブロックのサイズが所定値以下である予測ブロックの集合の動きが符号化部２１２により統合されている場合に、当該集合に含まれる各予測ブロックの領域を優先的に検索するようにしてもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、動いている物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。

　≪特徴データの検出処理の例４≫
　特徴データの検出処理の例４として、符号化処理中に得られる、フレームの複雑度を示すデータ（「符号化処理に用いられるデータ」の一例。）を用いて、複雑度に関する特徴データを比較的高速に検出する例について説明する。

　符号化部２１２は、ＨＥＶＣやＡＶＣ等のイントラ予測において、１つのフレーム内の輝度、色差のＳＡＤ（差分絶対値和）、及びＳＡＴＤ（絶対値変換差分和）等の各データを算出する。

　符号化部２１２は、イントラ予測における当該各データを生成すると、生成した各データを、メモリ装置に格納する。

　＜被写体の行動を表示する処理＞
　次に、図９を参照し、表示制御装置３０における被写体の行動を表示する処理について説明する。図９は、被写体の行動を表示する処理の一例を示すフローチャートである。

　ステップＳ１０１において、表示制御装置３０の受信部３１は、動画像と特徴データを動画像解析装置２０から受信し、蓄積部３２に格納する。図１０は、特徴データ１１１の一例を示す図である。図１０に示す特徴データ１１１には、フレームＩＤに対応付けて、日時と、被写体ＩＤ毎の年齢、性別、身長（ｃｍ）、位置、及び向き等が記憶されている。フレームＩＤは、動画像におけるフレームの識別情報である。日時は、当該フレームが撮影された日時である。被写体ＩＤは、当該フレームから検出された被写体の識別情報である。年齢は、当該フレームから推定された被写体の年齢である。性別は、当該フレームから推定された被写体の年齢である。身長は、当該フレームから推定された被写体の身長である。位置は、当該フレームを撮像した撮像端末１０が設置されている空間における、当該被写体の位置である。向きは、当該空間における、当該被写体の顔または体の向きである。

　続いて、表示制御装置３０の受付部３３は、表示に関する条件を受け付ける（ステップＳ１０２）。ここで、表示制御装置３０の受付部３３は、例えば、表示対象とする被写体の属性、表示対象とする期間等の指定を受け付ける。

　表示制御装置３０の受付部３３は、例えば、建屋、季節、気温、天気、時間、日、週、月、曜日等の条件の指定を受け付けてもよい。

　続いて、表示制御装置３０の表示制御部３４は、指定された条件に応じて、被写体の行動を表す表示画面のデータを生成する（ステップＳ１０３）。

　続いて、表示制御装置３０の表示制御部３４は、生成した表示画面を、表示端末４０に表示する（ステップＳ１０４）。

　図１１Ａ乃至図１１Ｃは、表示制御装置３０の表示制御部３４により表示端末４０の画面に表示する、被写体の行動を表す表示画面の一例について説明する図である。図１１Ａの例では、表示対象とする被写体の属性として、性別が「男性」、年齢が「２０代」と指定されており、日付が「１２月２６日」、時間が「１２：１０～１２：１５」、フロアが「１Ｆ」と指定されている。表示制御装置３０の表示制御部３４は、指定された各条件を抽出条件の表示領域１００１に表示するとともに、当該抽出条件に基づいて、１２月２６日の１２：１０～１２：１５の間に１階を訪れた２０代の男性の被写体を表示対象としている。図１１Ａの例では、表示対象とする被写体の属性として、性別が「男性」、年齢が「２０代」と指定されているが、被写体の属性は未設定で表示可能としてもよい。未設定の属性については、選択可能なすべての属性が表示対象となる。

　図１１Ａの例では、表示制御装置３０の表示制御部３４は、棚１００２Ａ乃至棚１００２Ｄの配置と、被写体Ａ乃至被写体Ｅの行動とが表示されている。表示制御装置３０の表示制御部３４は、棚１００２Ａ乃至棚１００２Ｄが配置された位置を、表示制御装置３０において予め設定されているデータを用いて判定してもよいし、動画像解析装置２０により動画像から検出された位置としてもよい。

　アイコン１０１１、アイコン１０２１、アイコン１０３１、アイコン１０４１、及びアイコン１０５１は、それぞれ、被写体Ａ乃至被写体Ｅの、指定された期間における最後の時点（１２：１５）での位置を示す。なお、抽出条件の表示領域１００１において、時間が「１２：１０～現在」と指定された場合は、アイコン１０１１等は、リアルタイムな被写体Ａ等の現在の位置の変化を示す。

　以下では、被写体Ａに関するアイコンについて説明するが、他の被写体に関するアイコンについても同様である。アイコン１０１１の尖った方向１０１２は、当該最後の時点での被写体Ａでの顔または体の向きを示している。

　表示制御装置３０の表示制御部３４は、円１０１３、円１０１４Ａ乃至円１０１４Ｊに示すように、被写体の滞在時間の長さに応じた大きさの図形データを、当該被写体が滞在している位置に表示する。この場合、表示制御装置３０の表示制御部３４は、例えば、被写体の一の時点における位置からの移動距離が閾値以下である時間長に応じた大きさの図形データを、当該位置に表示する。

　円１０１３は、アイコン１０１１の位置における被写体Ａの滞在時間の長さを示す。当該滞在時間が長い程、円１０１３の面積（大きさ）を大きく表示する。円１０１４Ａ乃至円１０１４Ｊの中心位置は、被写体Ａがアイコン１０１１の位置に移動するよりも前の時点における被写体Ａの位置を示している。なお、円１０１４Ｊの中心位置は指定された期間における最初の時点の被写体Ａの位置を示している。矢印１０１５Ａ乃至矢印１０１５Ｊは、それぞれ、円１０１３、円１０１４Ａ乃至円１０１４Ｊの中心位置間の方向、すなわち、被写体Ａの移動方向を示している。矢印が長いほど、移動速度が速いことを示す。

　円１０１３、円１０１４Ａ乃至円１０１４Ｊは、例えば、所定の時間間隔（例えば、５秒毎）における被写体Ａの位置を示している。また、円１０１３、円１０１４Ａ乃至円１０１４Ｊに対応付けて、被写体Ａが円１０１３、円１０１４Ａ乃至円１０１４Ｊの中心位置に位置した時点から所定時間以内、または各中心位置から所定距離以内における、被写体Ａの顔または体の向きが示されている。図１１Ａの例では、円１０１３、円１０１４Ａ乃至円１０１４Ｊについて、各円の中心からの角度に応じて所定数の領域に等分し、当該所定時間以内または当該所定距離以内における被写体Ａの顔または体の向きの分布を、色の明るさで示している。図１１Ａの例では、４５度ずつ８つに分割された領域の色が暗い程（または明るい程）、被写体Ａが長い時間、各円の中心から当該領域の円弧の方向を向いていたことを示している。

　図１１Ａの例では、各被写体に対するアイコンや円等の図形データを、同様の形状とする例について説明した。これに代えて、表示制御装置３０の表示制御部３４は、動画像解析装置２０により推定された各被写体の性別、及び年齢等に応じて、各被写体に対する図形データの形状または色等の表示態様を、それぞれ異なるように表示させてもよい。例えば、アイコンや円等の図形データを点滅、形状・色の変更をし、アラーム通知機能としてもよい。また、移動経路の線の種類の変更、点線、破線、波線に変更してもよい。被写体に対するアイコンを停止時間に応じて、図形データの代わりに面積（大きさ）を大きく表示するようにしてもよい。

　図１１Ａの例では、表示端末４０の画面に１の撮像端末１０で撮像されたフレームに応じた特定の場所（地域、エリア、ゾーン）を表示する例が示されているが、表示制御部３４は、複数の撮像端末１０でそれぞれ撮像されたフレームに応じた、連続する場所を同時に表示してもよい。図１１Ｂの例では、表示制御部３４は、４つの撮像端末１０でそれぞれ撮像されたフレームに応じた場所１１１１乃至場所１１１４を同時に並べて表示している。この場合、表示制御部３４は、４つの撮像端末１０でそれぞれ撮像された各フレームに関するデータを連携し、フレーム内に表示する各被写体に対するアイコンを連続的に表示してもよい。図１１Ｂの例では、被写体Ｆは、移動経路１１２１を通り、場所１１１２から場所１１１１に移動している。また、被写体Ｇは、移動経路１１２２を通り、場所１１１２から場所１１１４を通り、場所１１１３に移動している。

　表示制御部３４は、複数の撮像端末１０でそれぞれ撮像されたフレームに応じた別の場所を切り替えて表示してもよい。図１１Ｃの例では、表示制御部３４は、４つの撮像端末１０でそれぞれ撮像されたフレームに応じた場所１１３１乃至場所１１３４を切り替えて表示している。図１１Ｃの例では、場所１１３１は、表示領域１００１のフロアの項目で指定されている「１Ｆ」、すなわち建物の１階部分の場所である。場所１１３２乃至場所１１３４は、それぞれ、当該建物の２階乃４階部分の場所である。表示領域１００１のフロアの項目の指定が変更されると、表示制御部３４は、指定された場所を一番手前に表示する。

　図１２Ａ乃至図１２Ｂは、被写体の行動を表す表示画面の一例について説明する図である。図１２Ａの例では、出入り口１２０１乃至出入り口１２０３にそれぞれ対応付けて、指定された期間等の条件により抽出された、入場者数１２０１Ａ乃至１２０３Ａ、及び退場者数１２０１Ｂ乃至１２０３Ｂが表示されている。図１２の画面において、出入り口１２０１が選択操作されると、表示制御装置３０の表示制御部３４は、図１２Ｂの画面を表示する。

　図１２Ｂの例では、出入り口１２０１から入場し出入り口１２０２から退場した被写体の経路１２１１、及び出入り口１２０１から入場し出入り口１２０３から退場した被写体の経路１２１２が示されている。

　また、出入り口１２０２から入場し出入り口１２０１から退場した被写体の経路１２１３、及び出入り口１２０３から入場し出入り口１２０１から退場した被写体の経路１２１４が示されている。ここで、経路１２１１乃至経路１２１４の線が太い程、各径路を通過した被写体の数が多いことを表している。図１２Ｂの画面で、経路１２１１乃至経路１２１４のいずれかが選択操作されると、表示制御装置３０の表示制御部３４は、選択された経路を通過した各被写体の行動を、上述した図１０、図１１と同様の表示態様により表示する。

　図１３は、被写体が手を伸ばした商品等の物品の位置を表す表示画面の一例について説明する図である。図１１、図１２Ａ、または図１２Ｂの表示画面において、棚１００２Ａ乃至棚１００２Ｄのいずれかが選択されると、表示制御装置３０の表示制御部３４は、選択された棚に対し、被写体が手を伸ばした商品等の位置を表す表示画面を表示する。図１３の例では、選択された棚における位置１３０１乃至位置１３０９に対する、１以上の被写体が手を伸ばした回数の分布を示している。表示制御装置３０の表示制御部３４は、例えば、位置１３０１乃至位置１３０９に対し、当該被写体が手を伸ばした回数が多い程、暗い色（または明るい色）で表示する。滞在位置１３１１乃至１３１３は、当該棚に当該被写体が手を伸ばしている際の、当該被写体の滞在位置であり、各滞在位置の円が大きい程、当該被写体が長く滞在していることが示されている。

　図１４は、被写体の行動を表す表示画面の一例について説明する図である。円１４０１Ａ乃至円１４０１Ｍは、図１１の円１０１３、円１０１４Ａ乃至円１０１４Ｊ等と同様であり、被写体の位置や向き等を表している。

　図１４の例では、表示制御装置３０の表示制御部３４は、図形データ１４１１乃至図形データ１４１５により、被写体が手を伸ばした各位置に配置されている各商品等を示している。また、表示制御装置３０の表示制御部３４は、図形データ１４１１乃至図形データ１４１５の領域内に、各商品等の名称（「物品の情報」の一例。）を表示させている。なお、表示制御装置３０の表示制御部３４は、被写体が手を伸ばした位置に商品等の図形データが配置されていない場合、例えば、被写体が手を伸ばした位置に、人間の手の形のアイコン等を表示させてもよい。なお、表示制御装置３０の表示制御部３４は、図形データ１４１１乃至図形データ１４１５が配置された位置、及び名称を、表示制御装置３０において予め設定されているデータを用いて表示させてもよいし、動画像解析装置２０により動画像から検出されたデータを用いて表示させてもよい。

　また、表示制御装置３０の表示制御部３４は、被写体により購入された商品等と、被写体が手を伸ばしたものの購入していない商品等を、例えば、色を異ならせる等、異なる表示態様で表示させてもよい。図１４の例では、表示制御装置３０の表示制御部３４は、図形データ１４１２、及び図形データ１４１４により、手に取って購入した商品等が配置されていた位置を示している。また、図形データ１４１１、図形データ１４１３、及び図形データ１４１５により、被写体が手を伸ばしたものの購入していない商品等が配置されていた位置を示している。

　なお、表示制御装置３０の表示制御部３４は、手に取って購入した商品等と、被写体が手を伸ばしたものの購入していない商品等を、動画像解析装置２０により動画像から検出されたデータにより判定してもよい。この場合、動画像解析装置２０の検出部２１４は、例えば、商品等が当該被写体によりレジの位置に持って行かれた場合に、購入したと推定してもよい。また、表示制御装置３０の表示制御部３４は、手に取って購入した商品等と、被写体が手を伸ばしたものの購入していない商品等を、動画像解析装置２０により動画像から検出されたデータと、撮像端末１０が設置されている店舗のＰＯＳ（Point Of Sales）システムから取得したデータとに基づいて判定してもよい。

　＜変形例１＞
　動画像解析装置２０の検出部２１４は、動画像から、棚、及び商品等の静止物の変化を検出し、表示制御装置３０の表示制御部３４は、図１１等の表示画面において、被写体の行動とともに、当該静止物の変化を示す図形データを表示させてもよい。これにより、物体の置き去り、忘れ物、万引き、商品の補充タイミング、商品等の配列の乱れ、火事、開閉が禁止されたドアの開閉等を検知できる。

　この場合、表示制御部３４は、常設されている棚等や、被写体（人物）と認識する被写体以外の物をフレーム内で検出した場合、当該物を画像認識し、例えばバック、火、及び煙等の当該物を示す図形データを、当該物の位置に表示してもよい。図１５Ａ乃至図１５Ｄは、忘れ物を報知する処理の一例について説明する図である。図１５Ａの例では、表示制御部３４は、棚１５０１乃至棚１５０３が設置されている場所において、所定の被写体が、移動経路１５１１で移動していることを示している。図１５Ｂは、図１５Ａの状態から所定時間経過した状態の例である。図１５Ｂの例では、表示制御部３４は、当該所定の被写体が、移動経路１５１２で移動していること、及び当該所定の被写体以外の被写体として認識したバッグ等の物品を示す図形データ１５１３を表示している。ここで、表示制御部３４は、当該所定の被写体と、当該物品との距離が所定の閾値以下であるため、当該所定の被写体と、当該物品とを対応付けて記憶しておく。

　図１５Ｃは、図１５Ｂの状態から所定時間経過した状態の例である。図１５Ｃの例では、当該所定の被写体が、移動経路１５１４で移動していることを示している。図１５Ｄは、図１５Ｃの状態から所定時間経過した状態の例である。図１５Ｄの例では、当該所定の被写体はフレーム内で検出されなくなっている。表示制御部３４は、例えば、当該物品と当該所定の被写体との距離が所定の閾値以上となった場合、または、当該物品に対応付けて記憶している当該所定の被写体が検出されない状態が所定時間以上継続した場合、表示端末４０にその旨を通知してもよい。または当該物体の近傍に設置されているデジタルサイネージ等のディスプレイにその旨を通知してもよい。

　＜変形例２＞
　表示制御装置３０の表示制御部３４は、被写体が所定の行動をとった場合に、
通知を行うようにしてもよい。この場合、表示制御装置３０の表示制御部３４は、例えば、動画像解析装置２０の検出部２１４により、被写体の転倒、うずくまり、立入禁止区間への立ち入り、徘徊等を検知した場合に、その旨を表示端末４０に報知する。

　＜変形例３＞
　表示制御装置３０の表示制御部３４は、例えば、被写体が迷っていることが検知された場合、表示端末４０にその旨を通知する、または当該被写体の近傍に設置されているデジタルサイネージ等のディスプレイに、店舗の地図等を表示させてもよい。この場合、表示制御装置３０の表示制御部３４は、所定の位置での滞在時間が閾値以上であり、顔等の向きの分布のバラつきが所定の閾値以上であり周囲をしきりに見回している場合に、被写体が迷っていると判定してもよい。

　＜その他＞
　上述した実施形態によれば、動画像データに基づいて検出された、被写体の移動、及び前記被写体の顔または体の向きを取得し、各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ表す各図形データを表示する。これにより、被写体の行動を比較的容易に把握できる。

　上述した実施形態は、店舗において顧客が商品を手に取ったか、当該商品を購入したか等を分析するデジタルマーケティングシステム、画像から人を認識する監視カメラシステム等に適用できる。また、店舗において顧客の歩行経路を分析することで、フロアレイアウトの検討、火災時の避難経路検討、迷子検索に適応することができる。

　上述した実施形態は、個人を特定せずに行動を追跡することができプライバシーの保護をすることができる。また、個人を特定することで、行動を追跡することもできる。

　また、上述した実施形態は、医療施設・介護施設・老人ホーム・高齢者向け住宅において、施設利用者の行動を把握し、施設内で安全に過ごし事故を少なくするための経路を分析するために、画像から人を認識する監視カメラシステム等に適用できる。

　以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　動画像解析装置２０、及び表示制御装置３０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、動画像解析装置２０、及び表示制御装置３０を一体の装置として構成してもよい。動画像解析装置２０の各機能部のうち少なくとも一部を、表示制御装置３０が有するようにしてもよい。

１　通信システム
１０　撮像端末
２０　動画像解析装置
２１１　復号部
２１２　符号化部
２１３　取得部
２１４　検出部
２１５　出力部
２１６　制御部
３０　表示制御装置
３１　受信部
３２　蓄積部
３３　受付部
３４　表示制御部
４０　表示端末

Claims

　動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータが入力される受信部と、
　前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、
を有する表示制御装置。
　前記表示制御部は、前記被写体が位置している時間の長さに応じた図形データを出力する、
請求項１に記載の表示制御装置。
　前記表示制御部は、前記被写体の位置を示す図形データに対応付けて、当該位置における前記被写体の顔または体の向きの分布を示すデータを出力する、
請求項１または２に記載の表示制御装置。
　前記受信部は、前記動画像データに基づいて検出された、前記被写体が物品に対して手を伸ばした際の前記被写体の手の位置を示すデータが入力され、
　前記表示制御部は、前記被写体の手の位置を示す図形データを出力する、
請求項１乃至３のいずれか一項に記載の表示制御装置。
　前記受信部は、前記動画像データに基づいて検出された、前記被写体が手を伸ばした物品の情報が入力され、
　前記表示制御部は、前記被写体が手を伸ばした物品の情報を、前記被写体の位置を示す図形データに対応付けて出力する、
請求項１乃至４のいずれか一項に記載の表示制御装置。
　前記受信部は、前記被写体が購入した物品の情報が入力され、
　前記表示制御部は、前記被写体が購入した物品が配置されていた位置、及び前記被写体が手を伸ばしたが購入していない物品が配置されていた位置の少なくとも一つのデータを出力する、
請求項５に記載の表示制御装置。
　動画像解析装置、及び表示制御装置を有する表示制御システムであって、
　前記動画像解析装置は、
　動画像を符号化する符号化部と、
　前記符号化部による前記動画像が圧縮されて符号化処理に用いられるデータを取得する取得部と、
　前記取得部により取得されたデータに基づいて、被写体の移動、及び前記被写体の顔または体の向きの情報を含む特徴データを前記動画像から検出する検出部と、
を有し、
　前記表示制御装置は、
　前記特徴データが入力される受信部と、
　前記動画像の各時点における前記被写体の位置、前記被写体の移動方向を示すデータ、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、を有する表示制御システム。
　表示制御装置が、
　動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータを受信する処理と、
　前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する処理と、
を実行する表示制御方法。
　表示制御装置に、
　動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータを受信する処理と、
　前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する処理と、
を実行するプログラム。