WO2022102038A1

WO2022102038A1 - 情報処理装置、生成方法、および生成プログラム

Info

Publication number: WO2022102038A1
Application number: PCT/JP2020/042193
Authority: WO
Inventors: 正清田中; 收文中山; 有一村瀬; 千里塩田
Original assignee: 富士通株式会社
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-19
Also published as: CN116348913A; JPWO2022102038A1; EP4246438A4; EP4246438A1; US20230237690A1

Abstract

一実施形態に係る情報処理装置は、人物の作業を撮影した動画像から人物が静止している複数の静止位置と、人物が複数の静止位置を移動する移動順序とを特定する特定部と、複数の静止位置をクラスタリングし、得られたクラスタが移動順序において移動元と移動先の関係にある静止位置の対を含む場合、クラスタに含まれる静止位置を更にクラスタリングして、複数の静止位置を複数のクラスタに分割する分割部と、分割部により得られた複数のクラスタに基づいて動画像に関心領域を生成する生成部と、を含む。

Description

情報処理装置、生成方法、および生成プログラム

　本発明は、情報処理装置、生成方法、および生成プログラムに関する。

　工場などの現場では、業務改善を目的として、作業時間を計測して可視化し、作業時間のばらつきを評価したり、異なる人物による作業の比較を行ったりすることで問題点を抽出することが行われている。

　また、作業の検出手法の一つとして、カメラなどの撮影装置で現場を撮影した動画像に対して作業に応じた関心領域（ＲＯＩ：Region　Of　Interest）を生成し、関心領域に人物が入ったことに基づいて人物の作業を検出する手法がある。

　また、人物の動きに関連するクラスタリングを実行する技術が知られている（例えば、特許文献１および特許文献２）。

特開２０１７－０９０９６５号公報国際公開第２０１１／０１３２９９号

　関心領域は、例えば、人物の作業を撮影した動画像を見ながら手作業で生成することができる。しかしながら、手作業での関心領域の生成には、時間および労力がかかるため、関心領域を高い精度で自動生成することのできる技術の提供が望まれている。

　１つの側面では、本発明は、関心領域を高い精度で自動生成することのできる技術を提供することを目的とする。

　本発明の一つの態様の情報処理装置は、人物の作業を撮影した動画像から人物が静止している複数の静止位置と、人物が複数の静止位置を移動する移動順序とを特定する特定部と、複数の静止位置をクラスタリングし、得られたクラスタが移動順序において移動元と移動先の関係にある静止位置の対を含む場合、クラスタに含まれる静止位置を更にクラスタリングして、複数の静止位置を複数のクラスタに分割する分割部と、分割部により得られた複数のクラスタに基づいて動画像に関心領域を生成する生成部と、を含む。

　関心領域を高い精度で自動生成することができる。

実施形態に係る動画像に写る人物が作業中に位置する作業領域を例示する図である。実施形態に係る動画像から検出された人物の複数の静止位置を例示する図である。静止位置のクラスタリングを例示する図である。例示的な動画像における撮影距離に応じた長さの違いを示す図である。実施形態に係る撮影システムを例示する図である。実施形態に係る情報処理装置の機能ブロック構成を例示する図である。実施形態に係るクラスタリングを例示する図である。動画像に配置した静止位置のクラスタリング結果を例示する図である。実施形態に係る静止位置情報を例示する図である。実施形態に係る関心領域の生成処理の動作フローを例示する図である。実施形態に係る関心領域の生成とクラスタリングとの流れを例示する図である。クラスタリング結果を例示する図である。実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。

　以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。

　上述のように、作業の検出手法の一つとして、撮影装置で現場を撮影した動画像に対して作業領域ごとに関心領域を生成し、関心領域に人物が入ったことに基づいて人物の作業を検出する手法がある。この様な検出手法は、例えば、セル生産方式およびジョブショップ方式といった複数の作業場所を人物が移動しながら製品を作成する現場での利用に適している。

　また、関心領域は、例えば、人物の作業を撮影した動画像を見ながら手作業で生成することができる。しかしながら、手作業での関心領域の生成には、時間および労力がかかるため、関心領域を高い精度で自動生成することのできる技術の提供が望まれている。

　図１は、実施形態に係る動画像に写る人物が作業中に位置する作業領域を例示する図である。図１の動画像の撮影範囲には作業が行われる場所として、作業Ａ、作業Ｂ、および作業Ｃの３つが示されている。また、図１には、作業Ａを行っている最中に人物が位置する作業領域Ａ、作業Ｂを行っている最中に人物が位置する作業領域Ｂ、作業Ｃを行っている最中に人物が位置する作業領域Ｃが示されている。そして、例えば、これらの作業領域Ａ、作業領域Ｂ、および作業領域Ｃに関心領域を自動生成したいとする。

　ここで、例えば、作業中には人物は静止していると仮定し、作業を撮影した動画像から人物が静止している静止位置を検出して、静止位置に基づいて関心領域を生成することが考えられる。

　一例として、複数の作業を撮影した動画像から人物の複数の静止位置を検出する。なお、静止位置の検出に用いられる動画像には、同一人物により行われた複数回の作業が撮影されていてもよく、複数の人物によって行われた作業が撮影されていてもよい。

　図２は、実施形態に係る動画像から検出された人物の複数の静止位置を例示する図である。なお、静止位置は、例えば、動画像において人物の検出を行い、検出された人物が動画像において静止している位置として特定されてよい。

　図２の例では、作業Ａを行っている最中の人物の静止位置として１ａ、２ａ、３ａ、および４ａの４つの静止位置が示されている。また、作業Ｂを行っている最中の人物の静止位置として１ｂ、２ｂ、３ｂ、および４ｂの４つの静止位置が示されている。作業Ｃを行っている最中の人物の静止位置として１ｃ、２ｃ、３ｃ、および４ｃの４つの静止位置が示されている。そして、例えば、動画像から検出された複数の静止位置にクラスタリングを実行する。

　図３は、静止位置のクラスタリングを例示する図である。図３（ａ）には、動画像から検出された人物の複数の静止位置が示されている。なお、図３（ａ）において、縦軸は動画像の縦方向であり、横軸は動画像の横方向である。そして、例えば、位置の近いもの同士が同じクラスタになるように複数の静止位置をクラスタリングし、得られた静止位置のクラスタが示す領域を、人物が作業中に位置する作業領域と見なして関心領域を生成することが考えられる。なお、クラスタリングは、例えば、Ｋ－ｍｅａｎｓ法などの既知のクラスタリング技術を用いて実行されてよい。

　しかしながら、静止位置のクラスタリングを行った際に、得られたクラスタが実際の作業の作業領域と対応していないことがある。

　例えば、撮影装置で撮影した動画像の撮影範囲において、異なる作業と対応する作業領域間の距離が近いために、これらの異なる作業と対応する静止位置が１つのクラスタにクラスタリングされてしまうことがある。

　また、例えば、動画像では、撮影に用いられた撮影装置からの距離に応じて対象物の長さの違いが生じる。

　図４は、例示的な動画像における撮影距離に応じた長さの違いを示す図である。図４には動画像の撮影範囲に矢印が示されている。矢印で示す長さａ、長さｂ、長さｃ、および長さｄは、いずれも実空間では同じ長さである。しかしながら、撮影装置からの距離が遠くなる程、実空間では同じ長さでも画像上の長さが短くなるため、図４では、撮影距離に応じて矢印は異なる長さで示されている。このように、例えば、撮影装置からの距離が遠くなる程、実空間では同じ長さでも画像上の長さは短くなる。

　そのため、例えば、動画像から検出した人物の複数の静止位置をクラスタリングした際に撮像装置から遠い位置では、異なる作業をしている人物から検出された静止位置間の距離差が短くなりすぎてしまい、１つのクラスタとして検出されてしまうことがある。或いは、例えば、撮像装置に近い作業領域で作業している人物から検出された複数の静止位置のばらつきが大きく、複数のクラスタとして検出されてしまうことがある。

　図３（ｂ）では、動画像の撮影範囲にクラスタリングの実行結果が重ねて示されている。そして、図３（ｂ）のクラスタリングの実行結果では、図１における作業Ａの作業領域Ａに位置する静止位置はばらつきが大きく、２つのクラスタに分割されてしまっている。一方、図１における作業Ｂの作業領域Ｂ、および作業Ｃの作業領域Ｃに位置する静止位置は、図３（ｂ）では１つのクラスタにまとめられてしまっている。

　以上で述べたように、作業場所の画像内での位置および作業内容などに応じて、１つの作業に対する静止位置のばらつきは異なり得る。その結果、１つの作業の静止位置が複数のクラスタに分けられてしまったり、複数の作業の静止位置が１つのクラスタにまとめられてしまったりすることがある。その結果、静止位置のクラスタリングを行った際に、得られたクラスタが実際の作業の作業領域と対応しておらず、静止位置のクラスタに基づいて作業と対応する関心領域を自動生成することが難しいことがある。

　以下で述べる実施形態では、動画像から検出された人物の複数の静止位置をクラスタリングして得られたクラスタが、人物が複数の静止位置を移動する移動順序において移動元と移動先の関係にある静止位置の対を含まなくなるようにクラスタリングを実行する。それにより、作業領域と高い精度で対応づけ可能なクラスタに静止位置を分割することができる。そして、得られたクラスタに基づいて作業領域と高い精度で対応づいている関心領域を自動生成することができる。以下、実施形態を更に詳細に説明する。

　図５は、実施形態に係る撮影システム５００を例示する図である。撮影システム５００は、情報処理装置５０１と、撮影装置５０２とを含む。情報処理装置５０１は、例えば、サーバコンピュータ、パーソナルコンピュータ（ＰＣ）、モバイルＰＣ、タブレット端末などの演算機能を備えるコンピュータであってよい。また、撮影装置５０２は、例えば、カメラである。撮影装置５０２は、例えば、作業を行っている最中の人物を撮影するように設置されていてよい。

　情報処理装置５０１は、例えば、撮影装置５０２で撮影された動画像に基づいて関心領域を生成する。一例では、情報処理装置５０１は、撮影装置５０２と接続されていてよく、撮影装置５０２から動画像を取得してよい。別の例では情報処理装置５０１は、撮影装置５０２で撮影された動画像を別の装置を介して取得してもよい。

　図６は、実施形態に係る情報処理装置５０１の機能ブロック構成を例示する図である。情報処理装置５０１は、例えば、制御部６０１、記憶部６０２、および通信部６０３を含む。制御部６０１は、例えば特定部６１１、分割部６１２、および生成部６１３などを含み、またその他の機能部を含んでもよい。情報処理装置５０１の記憶部６０２は、例えば、撮影装置５０２で人物による作業を撮影した動画像、および後述する静止位置情報９００などの情報を記憶していてよい。通信部６０３は、例えば、制御部６０１の指示に従って撮影装置５０２などの他の装置と通信する。これらの各部の詳細および記憶部６０２に格納されている情報の詳細については後述する。

　上述のように、例えば、作業中には人物の位置が静止していると仮定し、作業を撮影した動画像から人物が静止している静止位置を検出して、静止位置に基づいて関心領域を生成することが考えられる。なお、人物によって静止位置が若干異なっていたり、および同じ人物であっても作業ごとに静止位置が若干異なっていたりすることが考えられる。そのため、例えば、動画像には、同じ人物の複数回の作業が撮影されていてよく、また、複数の人物の作業が撮影されていてもよい。

　そして、制御部６０１は、撮影した動画像から人物を検出する。人物は、例えば、既知の人物検出手法を利用して検出することができる。人物検出は、一例では、ＨＯＧ（Histogram　of　Oriented　Gradients）などの局所特徴量を用いた手法またはＯｐｅｎＰｏｓｅなどを用いて実行されてよい。続いて、制御部６０１は、例えば、検出した人物が所定の条件を満たして静止している位置を静止位置として検出する。静止位置の検出の更なる詳細についての例は後述する。

　そして、例えば、動画像から検出した複数の静止位置をクラスタリングし、得られた静止位置の各クラスタを作業領域として、関心領域の生成に用いることが考えられる。

　図７は、実施形態に係るクラスタリングを例示する図である。なお、図７には、複数の静止位置（例えば、Ｎａ～Ｎｃ）が示されている。静止位置に付されたラベルＮは、動画像から検出された人物に割り当てられた識別子であってよく、図７には、動画像からＮ＝１～Ｎ＝４の４人の人物が検出された例が示されている。また、図７では静止位置のラベルＮに付された添え字のａ、ｂ、およびｃは、静止位置と対応する作業を示している。例えば、Ｎａは、作業Ａの作業中の人物から検出された静止位置である。また、Ｎｂは、作業Ｂの作業中の人物から検出された静止位置である。Ｎｃは、作業Ｃの作業中の人物から検出された静止位置である。

　そして、実施形態では制御部６０１は、動画像から静止位置を検出する際に、動画像において人物が静止位置を移動する移動順序の情報も取得する。例えば、図７では、人物は作業Ａ→作業Ｂ→作業Ｃの順序で作業を実行している。そして、図７（ａ）では、静止位置の移動順序の情報が矢印で示されており、作業Ａを行った後、作業Ａの静止位置Ｎａから、作業Ｂの静止位置Ｎｂに移動する矢印が示されている。また更に、作業Ｂを行った後、作業Ｂの静止位置Ｎｂから、作業Ｃの静止位置Ｎｃに移動する矢印が示されている。

　この場合に、制御部６０１は、検出された複数の静止位置を最小の分割数である２分割でクラスタリングしてよい。図７（ｂ）には、２分割でクラスタリングを実行した結果が示されており、静止位置は、クラスタ７０１と、クラスタ７０２の２つのクラスタに分けられている。

　ここで、例えば、人物が或る作業を終了して別な作業に移る場合、人物はある作業の静止位置から別な作業の静止位置へと移動すると考えられる。そのため、制御部６０１は、クラスタ内に移動元と移動先の関係となる静止位置の対が含まれているか否かを判定する。そして、同じクラスタ内に移動元と移動先の関係となる静止位置の対が含まれている場合、そのクラスタには複数の作業と対応する静止位置が混在していると見なすことができる。そのため、制御部６０１は、クラスタ内に移動元と移動先の関係となる静止位置の対が含まれている場合には、そのクラスタを更に２分割でクラスタリングする。一方、クラスタ内に移動元と移動先の関係となる静止位置の対が含まれていない場合には、制御部６０１は、そのクラスタのクラスタリングを終了してよい。

　例えば、図７（ｂ）では、クラスタ７０１内には静止位置Ｎａの移動先が含まれていない。そのため、制御部６０１は、クラスタ７０１については分割を終了してよい。

　一方、図７（ｂ）では、例えば、クラスタ７０２内には静止位置Ｎｂの移動先である静止位置Ｎｃが含まれている。そのため、制御部６０１は、クラスタ７０２には移動元と移動先の関係となる静止位置の対が含まれていると判定してよく、クラスタ７０２に対して更に２分割のクラスタリングを実行してよい。

　図７（ｃ）は、クラスタ７０２に２分割のクラスタリングを実行した結果を示す図である。図７（ｃ）では、クラスタ７０２に含まれている静止位置が、クラスタ７０３およびクラスタ７０４にクラスタリングされている。また、クラスタ７０３およびクラスタ７０４にはいずれも移動元と移動先の関係となる静止位置の対が含まれていないため、制御部６０１は、クラスタ７０３およびクラスタ７０４についてクラスタリングを終了してよい。

　以上のように、移動順序の情報を用いてクラスタリングを実行することで、作業領域との対応づけのよいクラスタに静止位置を分割することができる。そして、分割により得られた静止位置のクラスタに基づいて作業領域と対応する関心領域を高精度に生成することができる。

　例えば、同じクラスタ内に移動元と移動先の関係となる静止位置の対が含まれている場合、そのクラスタには複数の作業と対応する静止位置が混在していると見なしてクラスタを更に分割する。それにより、或る作業の静止位置を、近い距離にある別の作業の静止位置と高精度に分けることができる。例えば、セル生産方式およびジョブショップ方式といった複数の作業場所を人物が移動しながら製品を作成する現場では、作業効率をあげるために一連の作業の実行において人物の移動距離が小さくなるように動線が整備されていることがある。このような場合にも、実施形態に係るクラスタリングによれば、近くに隣接して配置されている２つの作業領域と対応する静止位置を高精度に分けることができ、分離された静止位置のクラスタに基づいて関心領域を高精度に自動生成することができる。

　また更に、図７の例では、制御部６０１は、２分割により段階的にクラスタリングを実行している。それにより、クラスタリングの際に１つの作業と対応する静止位置を複数のクラスタに過分割してしまうことを抑制することができる。

　なお、図７の例では静止位置のラベルＮは、添え字のａ、ｂ、およびｃで作業と対応づけて記載しているが、実際に動画像から静止位置を検出する際には、ラベルは作業と対応していなくてよく、人物ごとの静止位置の移動順序が特定されていればよい。

　図８は、動画像に配置した静止位置のクラスタリング結果を例示する図である。図８に示すように、静止位置の各クラスタは、図１で述べた作業領域と対応する位置にある。そのため、制御部６０１は、静止位置のクラスタに基づいて、各作業の作業領域の関心領域を生成することができる。

　例えば、以上で述べたように、静止位置の移動順序を示す情報を用いて、クラスタリングを段階的に実行することで、クラスタリングの差異に過分割や分割不足を抑制して、作業との対応のよいクラスタリングを実行することができる。

　以下、実施形態に係る関心領域の生成処理について説明する。

　図９は、実施形態に係る静止位置情報９００を例示する図である。静止位置情報９００には、動画像から検出された静止位置ごとに、その静止位置に関する情報を含むレコードが登録される。図９では静止位置情報９００には、静止時間帯、人物ＩＤ（identifier）、静止ラベル、静止位置、前ラベル、および後ラベルの情報を対応づけるレコードが登録されている。

　静止時間帯は、例えば、動画像から検出された人物が所定の条件を満たして静止している時間帯を示す情報である。図９の静止位置情報９００では、人物の静止が検出されたフレームの期間として静止時間帯が登録されている。

　人物ＩＤは、動画像から検出された人物を識別するために割り当てられた識別子である。静止位置情報９００の人物ＩＤには、例えば、レコードの静止時間帯において静止が検出された人物を識別するための人物ＩＤが登録されている。

　静止ラベルは、例えば、レコードの静止時間帯において検出された静止位置に対して付与されるラベルである。一例では、人物ＩＤで識別される特定の人物に対して動画像から複数の静止時間帯が検出された場合に、静止ラベルには人物に対して動画像において静止時間帯が検出された順序に従って一連のラベルを付与されてもよい。例えば、図９の静止位置情報９００では、静止位置には静止ラベルとしてＮｘが付与されている。ＮｘのＮは、人物ＩＤであってよい。また、Ｎｘのｘは、静止時間帯の検出順を表す値であってよく、人物ごとにアルファベット順にａからラベルが付与されている。例えば、図９の静止位置情報９００では、人物ＩＤ：１で識別される人物は、動画像において１ａ→１ｂ→１ｃの順序で静止位置を移動している。

　静止位置情報９００の静止位置には、例えば、レコードの静止時間帯において検出された人物の位置を示す情報が登録されてよい。静止位置は、例えば、動画像のフレーム画像における位置を示す座標で表されてよい。一例では、座標は、フレーム画像における所定画素からの静止位置までの縦方向と横方向の画素数で表されてよい。

　静止位置情報９００の前ラベルには、レコードの人物ＩＤで識別される人物について、そのレコードの静止位置よりも１つ前に検出された静止位置の静止ラベルが登録されてよい。また、静止位置情報９００の後ラベルには、レコードの人物ＩＤで識別される人物について、そのレコードの静止位置よりも１つ後に検出された静止位置の静止ラベルが登録されてよい。なお、図９の静止位置情報９００において、静止ラベル、前ラベルおよび後ラベルは、人物の移動の順序を表す移動情報である。また、図９の静止位置情報９００では、動画像において１つ前に検出された静止位置または１つ後に検出された静止位置がない場合には、対応する静止位置が無いことを示す「‐」が登録されている。

　続いて、実施形態に係る関心領域の生成処理の動作フローを説明する。

　図１０は、実施形態に係る関心領域の生成処理の動作フローを例示する図である。例えば、制御部６０１は、動画像に基づく関心領域の生成処理の実行指示を受けると図１０の動作フローを開始してよい。

　ステップ１００１（以降、ステップを“Ｓ”と記載し、例えば、Ｓ１００１と表記する）において制御部６０１は、動画像から人物検出を行う。例えば、制御部６０１は、動画像から各フレームのフレーム画像を切り出す。そして、制御部６０１は、切り出したフレーム画像に対して人物検出を行い、人物、およびその人物の関節位置などの骨格の情報を抽出する。人物検出および骨格抽出は、例えばＨＯＧなどの局所特徴量を用いた手法およびＯｐｅｎＰｏｓｅなどの既知の技術を用いて実行されてよい。そして、制御部６０１は、動画像から検出された人物に人物ＩＤを割り当てる。

　Ｓ１００２において制御部６０１は、検出された人物ごとに、その人物が動画像において所定の条件を満たして静止している静止時間帯を検出する。制御部６０１は、例えば、検出された人物ごとに、動画像における人物の移動をトレースし、人物が動いているか、または静止しているかを判定してよい。なお、人物の静止判定は、既知の様々な手法を用いて実行することができる。

　例えば、制御部６０１は、検出された人物の骨格の情報に基づく人物の所定部位が、所定の条件を満たして動いていない区間として動画像から静止時間帯を特定してよい。一例では、制御部６０１は、現フレーム画像に写る人物の足首座標と、前フレーム画像に写る人物の足首座標との距離が所定の閾値以下の場合に、現フレームと前フレームとの区間で静止していると判定してよい。そして、制御部６０１は、所定のフレーム数以上連続して静止している時間帯を静止時間帯として抽出し、抽出した静止時間帯に静止ラベルを付与してよい。例えば、制御部６０１は、静止時間帯に静止ラベルとしてＮｘを付与してよい。ＮｘのＮは、人物ＩＤであってよく、ｘは静止時間帯の検出順を表す値であってよく、アルファベット順にａからラベルが付与されていてよい。そして、制御部６０１は、人物に対して検出された静止時間帯を、人物ＩＤ、および静止ラベルと対応づけたレコードを静止位置情報９００に登録する。

　Ｓ１００３において制御部６０１は、動画像から検出された各静止時間帯について人物の静止位置を特定する。一例では、制御部６０１は、静止時間帯における各フレームでの人物の所定の部位の位置を代表する代表位置を静止位置として特定してよい。例えば、制御部６０１は、静止時間帯の各フレームの足首座標の位置を平均して静止位置として用いてよい。なお、実施形態に係る代表位置はこれに限定されるものではなく、平均の代わりに中央値などその他の統計値が代表位置として用いられてもよい。そして、制御部６０１は、Ｓ１００２で登録した静止位置情報９００のレコードに、静止時間帯と対応づけて特定した静止位置の座標を登録してよい。

　Ｓ１００４において制御部６０１は、移動情報を特定する。例えば、制御部６０１は、人物に対して特定される或る静止時間帯の直前および直後の静止時間帯の静止ラベルを示す情報を移動情報として特定し、静止位置情報９００の前ラベルおよび後ラベルにそれぞれ登録してよい。

　Ｓ１００５において制御部６０１は、静止位置を２分割でクラスタリングする。例えば、制御部６０１は、静止位置情報９００に登録されている静止位置を、Ｋ－ｍｅａｎｓ法などの既知のクラスタリング手法を用いて２つのクラスタにクラスタリングしてよい。

　Ｓ１００６において制御部６０１は、クラスタリングで得られたクラスタ内に、動画像から検出された人物が静止位置を移動する移動順序において移動元と移動先の関係にある静止位置の対があるか否かを判定する。そして、移動元と移動先の関係にある静止位置の対がある場合（Ｓ１００６がＹＥＳ）、フローはＳ１００７に進む。例えば、制御部６０１は、クラスタに含まれる静止位置について静止位置情報９００のレコードを参照し、レコードの前ラベルまたは後ラベルに登録されている静止位置が同じクラスタに含まれている場合、Ｓ１００６においてＹＥＳと判定してよい。

　Ｓ１００７において制御部６０１は、移動元と移動先の関係にある静止位置の対を含むクラスタを２分割で更にクラスタリングし、フローはＳ１００６に戻り、処理を繰り返す。

　一方、クラスタリングで得られたクラスタに、移動元と移動先の関係にある静止位置の対を含むクラスタがない場合（Ｓ１００６がＮＯ）、フローはＳ１００８に進む。例えば、制御部６０１は、クラスタに含まれる静止位置について静止位置情報９００のレコードを参照し、レコードの前ラベルまたは後ラベルに登録されている静止位置が同じクラスタに含まれていない場合、Ｓ１００６においてＮＯと判定してよい。

　Ｓ１００８において制御部６０１は、クラスタリングにより得られたクラスタに基づき、関心領域を生成し、本動作フローは終了する。例えば、制御部６０１は、クラスタに含まれる静止位置の少なくとも一部を含むように関心領域を生成してよい。

　例えば、制御部６０１は、クラスタに含まれる静止位置の座標の各軸方向の最大値と最小値で構成される長方形領域を関心領域として生成してよい。或いは、制御部６０１は、例えば、クラスタに含まれる一番外側に配置されている静止位置を繋ぎ合わせて内包領域を生成し、関心領域として用いてもよい。なお、静止位置のクラスタに基づく関心領域の生成は、これらに限定されるものではなく、その他の手法を用いて生成されてもよい。

　以上で述べたように、実施形態によれば、検出対象の静止位置に基づいて動画像に関心領域を高い精度で生成することができる。

　図１１は、実施形態に係る関心領域の生成とクラスタリングとの流れを例示する図である。図１１（ａ）には、入力データとして動画像を入力すると、自動で関心領域が生成される例が示されている。例えば、情報処理装置５０１の制御部６０１は、動画像が入力されると、動画像から人物を検出し（図１１（ａ）の１１０１）、検出した人物の静止位置を特定する（図１１（ａ）の１１０２）。そして、情報処理装置５０１の制御部６０１は、特定した静止位置を人物の移動の情報に基づいてクラスタリングする（図１１（ａ）の１１０３）。

　図１１（ｂ）には、移動の情報に基づくクラスタリングの流れが例示されている。情報処理装置５０１の制御部６０１は、検出された静止位置を２分割で分割する。そして、分割で得られたクラスタ内に移動元と移動先の関係にある静止位置の対が含まれない場合には、分割を終了する（図１１（ｂ）の１１０５）。一方、分割で得られたクラスタ内に移動元と移動先の関係にある静止位置の対が含まれる場合には、更に２分割で分割を実行する（図１１（ｂ）の１１０６）。そして、分割で得られたクラスタ内に移動元と移動先の関係にある静止位置の対が含まれなくなると、分割を終了する（図１１（ｂ）の１１０７）。

　続いて、情報処理装置５０１の制御部６０１は、得られた静止位置のクラスタに基づいて関心領域を生成して出力する（図１１（ａ）の１１０４）。そのため、静止位置のばらつきや撮影装置からの距離の影響を低減してクラスタリングを実行することができ、作業と高い精度で対応づいたクラスタから関心領域を生成することができる。

　図１２は、クラスタリング結果を例示する図である。図１２（ａ）には、図３（ｂ）で述べたクラスタリング結果が示されている。図１２（ａ）の例では、作業Ａの作業領域Ａと対応する静止位置が２つのクラスタに分かれてしまっている。また、作業Ｂと作業Ｃの２つの作業と対応する静止位置が、１つのクラスタでクラスタリングされている。

　一方、図１２（ｂ）には図８で述べたクラスタリング結果が示されている。図１２（ｂ）の例では、作業Ａの作業領域Ａ、作業Ｂの作業領域Ｂ、および作業Ｃの作業領域Ｃのそれぞれにクラスタが形成されている。そのため、クラスタに含まれる静止位置からそれぞれの作業の実行のために静止した人物を検出するための関心領域を高い精度で生成することができる。

　以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、一部の処理が省略されてもよく、または、一部の処理が置き換えられてもよい。

例えば、上述の図１０のＳ１００５およびＳ１００７の処理では、２分割でクラスタリングを実行する例を述べている。このように最小の２分割で段階的にクラスタの分割を実行することで、１つの作業と対応する静止位置を、複数のクラスタへと過剰に分割してしまうことを抑制することができる。しかしながら、実施形態はこれに限定されるものではない。別の実施形態では２分割よりも多い数のクラスタに分割を行うことを含んでもよい。一例として、生成されるクラスタのサイズが、検出対象の人物のサイズよりも極端に大きい場合、分割不足であることが推測される。そのため、制御部６０１は、例えば、生成されるクラスタのサイズが、検出対象の人物のサイズに対して所定の比率以上で大きい場合には、分割数を増やしてクラスタリングを行ってもよい。

　また、上述の実施形態では、静止の判定に用いる人物の所定の部位として足首を例示しているが、実施形態はこれに限定されるものではなく、その他部位を用いることもできる。別の例として、人物の踵の座標、或いは、背中などの体の重心の座標を用いて静止の判定が行われてもよい。

　また、上述の実施形態では、連続するフレームにおいて所定の部位の移動が所定の閾値以下である場合に、静止していると判定する例を述べているが、実施形態はこれに限定されるものではない。別の実施形態では、静止しているか否かの判定に用いる閾値は、フレーム画像に写る人物の膝の関節から足首まで距離に所定の係数を乗じるなど、フレーム画像に写る人物のサイズに応じて適宜設定されてもよい。上述のように、フレーム画像に写る人物のサイズは、撮影装置からの距離に応じて変動するため、人物から検出した関節間の距離などに基づいて相対的に閾値を設定することで、静止の判定精度を高めることができる。

　更には、実施形態における静止の判定のアルゴリズムは、上述の例に限定されるものではない。別の例では、制御部６０１は、１０フレーム連続で人物が動いているなど、所定フレーム以上連続で人物が動いている時間帯を移動と判定してよく、移動していない時間帯を静止時間帯として特定してもよい。或いは、制御部６０１は、所定期間において所定の割合以上で人物から動きが検出されなければ静止時間帯として検出してもよい。更には、静止の検出には、例えば、１つの作業の開始から終了までの期間に動画像から検出された人物に対して１つの静止位置を検出することができれば、その他のアルゴリズムが用いられてもよい。

　そして、例えば、１つの作業を実行中の人物から１つの静止位置が検出できるように静止の検出アルゴリズムを調整することで、静止位置と作業との対応づけが良くなるため、上述のクラスタリングに基づく作業に対する関心領域の生成精度を高めることができる。

　また、上記においては、人物の作業の検出に用いる関心領域の設定に実施形態を適用する例を述べているが、実施形態はこれに限定されるものではない。例えば、関心領域の生成を行う対象は、人物以外の動物および機械などのその他の対象物であってもよい。例えば、実施形態は動画像において移動と静止を繰り返すその他の部位およびその他の物体が静止する領域に関心領域を設定するために適用されてもよい。

　上述の実施形態においてＳ１００３およびＳ１００４の処理では制御部６０１は、例えば、特定部６１１として動作する。また、Ｓ１００５からＳ１００７の処理では制御部６０１は、例えば、分割部６１２として動作する。Ｓ１００８の処理では制御部６０１は、例えば、生成部６１３として動作する。

　図１３は、実施形態に係る情報処理装置５０１を実現するためのコンピュータ１３００のハードウェア構成を例示する図である。図１３の情報処理装置５０１を実現するためのハードウェア構成は、例えば、プロセッサ１３０１、メモリ１３０２、記憶装置１３０３、読取装置１３０４、通信インタフェース１３０６、および入出力インタフェース１３０７を備える。なお、プロセッサ１３０１、メモリ１３０２、記憶装置１３０３、読取装置１３０４、通信インタフェース１３０６、入出力インタフェース１３０７は、例えば、バス１３０８を介して互いに接続されている。

　プロセッサ１３０１は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ１３０１は、メモリ１３０２を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述した制御部６０１の一部または全部の機能を提供する。例えば、情報処理装置５０１のプロセッサ１３０１は、記憶装置１３０３に格納されているプログラムを読み出して実行することで、特定部６１１、分割部６１２、および生成部６１３として動作する。

　メモリ１３０２は、例えば半導体メモリであり、ＲＡＭ領域およびＲＯＭ領域を含んでいてよい。記憶装置１３０３は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、ＲＡＭは、Random　Access　Memoryの略称である。また、ＲＯＭは、Read　Only　Memoryの略称である。

　読取装置１３０４は、プロセッサ１３０１の指示に従って着脱可能記憶媒体１３０５にアクセスする。着脱可能記憶媒体１３０５は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、ＵＳＢ（Universal　Serial　Bus）メモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、ＣＤ－ＲＯＭ、ＤＶＤ、Blu-ray　Disc等（Blu-rayは登録商標）である。ＣＤは、Compact　Discの略称である。ＤＶＤは、Digital　Versatile　Diskの略称である。

　記憶部６０２は、例えばメモリ１３０２、記憶装置１３０３、および着脱可能記憶媒体１３０５を含んでいる。例えば、情報処理装置５０１の記憶装置１３０３には、作業を撮影した動画像、および静止位置情報９００が格納されている。

　通信インタフェース１３０６は、プロセッサ１３０１の指示に従って、他の装置と通信する。一例では、通信インタフェース１３０６は、有線または無線通信で撮影装置５０２などの他の装置とデータを送受信してよい。通信インタフェース１３０６は、上述の通信部６０３の一例である。

　入出力インタフェース１３０７は、例えば、入力装置および出力装置との間のインタフェースであってよい。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスである。出力装置は、例えばディスプレーなどの表示装置、およびスピーカなどの音声装置である。

　実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置５０１に提供される。
（１）記憶装置１３０３に予めインストールされている。
（２）着脱可能記憶媒体１３０５により提供される。
（３）プログラムサーバなどのサーバから提供される。

　なお、図１３を参照して述べた情報処理装置５０１を実現するためのコンピュータ１３００のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部６０１の一部または全部の機能がＦＰＧＡ、ＳｏＣ、ＡＳＩＣ、およびＰＬＤなどによるハードウェアとして実装されてもよい。なお、ＦＰＧＡは、Field　Programmable　Gate　Arrayの略称である。ＳｏＣは、System-on-a-chipの略称である。ＡＳＩＣは、Application　Specific　Integrated　Circuitの略称である。ＰＬＤは、Programmable　Logic　Deviceの略称である。

　以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。

５００　　　撮影システム
５０１　　　情報処理装置
５０２　　　撮影装置
６０１　　　制御部
６０２　　　記憶部
６０３　　　通信部
６１１　　　特定部
６１２　　　分割部
６１３　　　生成部
１３００　　コンピュータ
１３０１　　プロセッサ
１３０２　　メモリ
１３０３　　記憶装置
１３０４　　読取装置
１３０５　　着脱可能記憶媒体
１３０６　　通信インタフェース
１３０７　　入出力インタフェース
１３０８　　バス

Claims

　人物の作業を撮影した動画像から前記人物が静止する第１複数の静止位置と、前記人物が前記複数の静止位置を移動する移動順序とを特定する特定部と、
　前記第１複数の静止位置をクラスタリングすることで、前記第１複数の静止位置を第１複数のクラスタに分割し、第１複数のクラスタに含まれるクラスタが前記移動順序において移動元と移動先の関係にある静止位置の対を含む場合、前記クラスタに含まれる第２複数の静止位置をクラスタリングすることで、前記第２複数の静止位置を第２複数のクラスタに分割する分割部と、
　前記第２複数のクラスタに基づいて前記動画像に関心領域を生成する生成部と、
を含む、情報処理装置。
　前記分割部は、前記前記第２複数の静止位置を２分割で分割する、請求項１に記載の情報処理装置。
　前記特定部は、前記動画像において前記人物の骨格に基づく前記人物の所定部位が所定の条件を満たして動いていない静止時間帯を特定し、前記静止時間帯のフレーム画像における前記所定部位の位置を代表する代表位置を前記静止位置として特定する、請求項１または２に記載の情報処理装置。
　前記分割部は、前記第１複数のクラスタに含まれるクラスタが、前記移動順序において移動元と移動先の関係にある静止位置の対を含まない場合、前記クラスタに含まれる前記第２複数の静止位置の更なるクラスタリングを実行しない、請求項１から３のいずれか１項に記載の情報処理装置。
　人物の作業を撮影した動画像から前記人物が静止する複数の静止位置と、前記人物が前記複数の静止位置を移動する移動順序とを特定し、
　前記第１複数の静止位置をクラスタリングすることで、前記第１複数の静止位置を第１複数のクラスタに分割し、第１複数のクラスタに含まれるクラスタが前記移動順序において移動元と移動先の関係にある静止位置の対を含む場合、前記クラスタに含まれる第２複数の静止位置をクラスタリングすることで、前記第２複数の静止位置を第２複数のクラスタに分割し、
　前記第２複数のクラスタに基づいて前記動画像に関心領域を生成する、
ことを含む、コンピュータが実行する生成方法。
　人物の作業を撮影した動画像から前記人物が静止する複数の静止位置と、前記人物が前記複数の静止位置を移動する移動順序とを特定し、
　前記第１複数の静止位置をクラスタリングすることで、前記第１複数の静止位置を第１複数のクラスタに分割し、第１複数のクラスタに含まれるクラスタが前記移動順序において移動元と移動先の関係にある静止位置の対を含む場合、前記クラスタに含まれる第２複数の静止位置をクラスタリングすることで、前記第２複数の静止位置を第２複数のクラスタに分割し、
　前記第２複数のクラスタに基づいて前記動画像に関心領域を生成する、
処理をコンピュータに実行させる生成プログラム。