WO2018235198A1

WO2018235198A1 - 情報処理装置、制御方法、及びプログラム

Info

Publication number: WO2018235198A1
Application number: PCT/JP2017/022875
Authority: WO
Inventors: 壮馬白石
Original assignee: 日本電気株式会社
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2018-12-27
Also published as: US20230410321A1; US11763463B2; JP7197171B2; JP7332183B2; JPWO2018235198A1; US20210142490A1; US20210343026A1; US20240029273A1; JP2021177399A

Abstract

情報処理装置は、カメラ（１０）によって生成された撮像画像（１２）を解析することで、人の動作を特定する。カメラ（１０）は、物が陳列されている陳列場所を撮像するカメラである。情報処理装置は、撮像画像（１２）から基準位置（２４）を検出する。基準位置（２４）は、人の手の位置を示す。情報処理装置は、この基準位置（２４）を用いて、撮像画像（１２）において解析対象とする解析対象領域（３０）を決定する。そして情報処理装置は、解析対象領域（３０）を解析することで、人の動作を特定する。

Description

情報処理装置、制御方法、及びプログラム

　本発明は画像解析に関する。

　店舗において、顧客は、陳列場所（例えば商品棚）に陳列されている商品を取り出して購入する。また顧客は、一旦手に取った商品を陳列場所に戻すこともある。このように陳列されている商品に関する顧客の行動を分析する技術が開発されている。

　例えば特許文献１は、デプスカメラによる撮像結果から得られる深度画像を利用して特定の領域（棚）に物体（人の手）が進入することを検出し、進入前後の進入位置付近のカラー画像を用いて、顧客の動作を特定する技術を開示している。具体的には、特定の領域に進入する人の手が含まれるカラー画像と、特定の領域から出て行く人の手が含まれるカラー画像とを比較して、色の増加が閾値を超えた場合には「商品の取得」、色の減少が閾値を超えた場合には「商品の返却」、色の変化が閾値未満である場合には「接触」という人の動作をそれぞれ特定する。また、特許文献１には、デプスカメラによる撮像結果から得られる被写体のサイズの情報から、被写体の体積の増減を判断することで、商品の取得と返却とを区別する技術を開示している。

米国特許出願公開第２０１４／０１３２７２８号明細書

　陳列場所へ人の手が進入した前後における色や体積の増減の程度は、例えば、商品のサイズや、人の手の姿勢の変化に影響される。例えば、小さい商品を陳列場所から取り出した場合には、その前後における色や体積の増加は小さい。また、手の姿勢を変化させる動作が、商品を取得する動作と誤認識されてしまうこともある。

　本発明は、以上の問題点に鑑みてなされたものである。本発明の目的の一つは、陳列されている物に対する人の動作を高い精度で特定する技術を提供することである。

　本発明の情報処理装置は、１）物の陳列場所が撮像された撮像画像から、前記撮像画像に含まれる人の手の位置を示す基準位置を検出する検出手段と、２）前記検出された基準位置を用いて、前記撮像画像の中の解析対象領域を決定し、前記解析対象領域を決定する決定手段と、３）前記決定された解析対象領域を解析することで、前記人の動作を特定する特定手段と、を有する。

　本発明の制御方法は、コンピュータによって実行される制御方法である。当該制御方法は、１）物の陳列場所が撮像された撮像画像から、前記撮像画像に含まれる人の手の位置を示す基準位置を検出する検出ステップと、２）前記検出された基準位置を用いて、前記撮像画像の中の解析対象領域を決定し、前記解析対象領域を決定する決定ステップと、３）前記決定された解析対象領域を解析することで、前記人の動作を特定する特定ステップと、を有する。

　本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。

　本発明によれば、陳列されている物に対する人の動作を高い精度で特定する技術が提供される。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

実施形態１に係る情報処理装置の動作を概念的に例示する図である。実施形態１に係る情報処理装置の機能構成の例を示すブロック図である。情報処理装置を実現するための計算機を例示する図である。実施形態１の情報処理装置によって実行される処理の流れを例示するフローチャートである。カメラの撮像範囲を例示する第１の図である。カメラの撮像範囲を例示する第２の図である。商品棚を向かって右側から撮像した様子が撮像画像に含まれるケースを例示する図である。基準位置を基準として定まる所定形状の領域として決定される解析対象領域を例示する図である。顧客の手の向きに基づいて解析対象領域の向きを定めるケースを例示する図である。顧客２０の動作を特定するための処理の流れを例示するフローチャートである顧客２０の動作を特定するための処理の流れを例示するフローチャートである陳列情報をテーブル形式で例示する図である。カメラによって生成される深度画像を例示する図である。商品棚の各段について、カメラとの間の距離の範囲を示す陳列情報を例示する図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

［実施形態１］
＜情報処理装置２０００の動作の概要＞
　図１は、実施形態１に係る情報処理装置（後述する図２などに示す情報処理装置２０００）の動作を概念的に例示する図である。なお図１は、情報処理装置２０００の動作の理解を容易にすることを目的とする例示のための図であり、情報処理装置２０００の動作は図１によって何ら限定されない。

　情報処理装置２０００は、カメラ１０によって生成された撮像画像１２を解析することで、人の動作を特定する。カメラ１０は、物が陳列されている陳列場所を撮像するカメラである。カメラ１０は、繰り返し撮像を行って、複数の撮像画像１２を生成する。生成される複数の撮像画像１２は、例えば、動画データを構成するフレーム群である。ただし、カメラ１０によって生成される複数の撮像画像１２は、必ずしも動画データを構成する必要はなく、個別の静止画像データとして扱われてもよい。

　カメラ１０によって撮像される物は、陳列場所に陳列され、なおかつ人によってその陳列場所から取り出されたり、その逆に人によってその陳列場所に置かれたり（戻されたり）する任意の物とすることができる。具体的にどのような物をカメラ１０に撮像させるかは、情報処理装置２０００の利用環境によって異なる。

　例えば情報処理装置２０００が、店舗において顧客や店員の動作を特定するために利用されるとする。この場合、カメラ１０によって撮像される物は、店舗で販売されている商品である。また、上記陳列場所は、例えば商品棚である。図１において、情報処理装置２０００は、顧客２０の動作を特定するために利用されている。そのため、カメラ１０によって撮像される人と物はそれぞれ、顧客２０と商品４０である。また、陳列場所は商品棚５０である。

　その他にも例えば、情報処理装置２０００が、工場の作業員などの動作を特定するために利用されるとする。この場合、カメラ１０によって撮像される人は、作業員などである。また、カメラ１０によって撮像される物は、工場で使用される資材や工具などである。さらに、上記陳列場所は、例えば工場の倉庫などに設置されている棚である。

　説明を分かりやすくするため、本明細書では特に断らない限り、情報処理装置２０００が店舗における顧客（図１における顧客２０）の動作を特定するために利用されるケースを例として説明する。そのため、特定部２０６０によって特定される「人の動作」は、「顧客の動作」であるとする。また、カメラによって撮像される「物」は「商品」であるとする。さらに、「陳列場所」は「商品棚」であるとする。

　情報処理装置２０００は、撮像画像１２から基準位置２４を検出する。基準位置２４は、人の手の位置を示す。人の手の位置は、例えば手の中心位置や指先の位置などである。情報処理装置２０００は、この基準位置２４を用いて、撮像画像１２において解析対象とする領域（解析対象領域３０）を決定する。そして情報処理装置２０００は、解析対象領域３０を解析することで、顧客２０の動作を特定する。例えば顧客２０の動作は、商品４０を保持する動作、商品棚５０から商品４０を取り出す動作、又は商品棚５０へ商品４０を置く動作などである。

＜作用・効果＞
　撮像画像１２全体を画像解析して顧客２０の動作を特定しようとする場合、商品４０のサイズが小さい場合や、顧客２０の手の姿勢が大きく変動する場合に、動作を正確に特定できないことがある。この点、情報処理装置２０００は、まず撮像画像１２において顧客２０の手の位置を示す基準位置２４を検出し、基準位置２４に基づいて解析対象領域３０を決定する。すなわち、顧客２０の手の付近について画像解析を行う。そのため、商品４０のサイズが小さい場合や、顧客２０の手の姿勢が大きく変動する場合であっても、商品４０を取得する、商品４０を置く、又は商品４０を保持するなどといった顧客２０の手による動作を精度良く特定することができる。

　以下、本実施形態の情報処理装置２０００についてさらに詳細に説明する。

＜情報処理装置２０００の機能構成の例＞
　図２は、実施形態１に係る情報処理装置２０００の機能構成の例を示すブロック図である。情報処理装置２０００は、検出部２０２０、決定部２０４０、及び特定部２０６０を有する。検出部２０２０は、撮像画像１２から、撮像画像１２に含まれる人の手の基準位置２４を検出する。決定部２０４０は、検出された基準位置２４を用いて、撮像画像１２の中の解析対象領域３０を決定する。特定部２０６０は、決定された解析対象領域３０を解析することで、上記人の動作を特定する。

＜情報処理装置２０００のハードウエア構成例＞
　情報処理装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、情報処理装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

　図３は、情報処理装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は任意の計算機である。例えば計算機１０００は、Personal Computer（PC）、サーバマシン、タブレット端末、又はスマートフォンなどである。その他にも例えば、計算機１０００はカメラ１０であってもよい。計算機１０００は、情報処理装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。

　計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。プロセッサ１０４０は、CPU（Central Processing Unit）や GPU（Graphics Processing Unit）などの演算装置である。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。ただし、ストレージデバイス１０８０は、RAM など、主記憶装置を構成するハードウエアと同様のハードウエアで構成されてもよい。

　入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。ネットワークインタフェース１１２０が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。

　例えば計算機１０００は、ネットワークを介して、カメラ１０と通信可能に接続されている。ただし、計算機１０００をカメラ１０と通信可能に接続する方法は、ネットワークを介した接続に限定されない。ただし、計算機１０００は、カメラ１０によって生成された撮像画像１２を取得できればよく、必ずしもカメラ１０と通信可能に接続される必要はない。

　ストレージデバイス１０８０は、情報処理装置２０００の各機能構成部（検出部２０２０、決定部２０４０、及び特定部２０６０）を実現するプログラムモジュールを記憶している。プロセッサ１０４０は、これら各プログラムモジュールをメモリ１０６０に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。

＜カメラ１０について＞
　カメラ１０は、繰り返し撮像を行って複数の撮像画像１２を生成することができる任意のカメラである。カメラ１０は、動画データを生成するビデオカメラであってもよいし、静止画像データを生成するスチルカメラであってもよい。なお、前者の場合、撮像画像１２は、動画データを構成する動画フレームである。

　カメラ１０は、２次元カメラであってもよいし、３次元カメラ（ステレオカメラやデプスカメラ）であってもよい。なお、カメラ１０がデプスカメラである場合、撮像画像１２は深度画像であってもよい。深度画像とは、画像の各画素の値が、撮像された物体とカメラとの間の距離を表す画像である。さらに、カメラ１０は、赤外線カメラであってもよい。

　前述したように、情報処理装置２０００を実現する計算機１０００は、カメラ１０であってもよい。この場合、カメラ１０は、自身で生成した撮像画像１２を解析することで、顧客２０の動作を特定する。このような機能を持たせるカメラ１０としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP（Internet Protocol）カメラなどと呼ばれるカメラを用いることができる。

＜処理の流れ＞
　図４は、実施形態１の情報処理装置２０００によって実行される処理の流れを例示するフローチャートである。検出部２０２０は、撮像画像１２を取得する（Ｓ１０２）。検出部２０２０は、取得した撮像画像１２から商品４０の手の基準位置２４を検出する（Ｓ１０４）。決定部２０４０は、検出された基準位置２４を用いて解析対象領域３０を決定する（Ｓ１０６）。特定部２０６０は、決定された解析対象領域３０を画像解析する（Ｓ１０８）。特定部２０６０は、解析対象領域３０を画像解析した結果に基づいて、顧客２０の動作を特定する（Ｓ１０８）。

　ここで、顧客２０の動作の特定には、複数の撮像画像１２が利用されてもよい。この場合、複数の撮像画像１２それぞれについて決定された解析対象領域３０を画像解析する（複数の解析対象領域３０を画像解析する）ことにより、顧客２０の動作が特定される。すなわち、複数の撮像画像１２それぞれについてＳ１０２からＳ１０８の処理が行われ、その結果を用いてＳ１１０の処理が行われる。

＜情報処理装置２０００が処理を実行するタイミング＞
　情報処理装置２０００が図４に示す一連の処理を実行するタイミングは様々である。例えば情報処理装置２０００は、カメラ１０によって撮像画像１２が生成される度に、その撮像画像１２について、図４に示す一連の処理を実行する。

　その他にも例えば、情報処理装置２０００は、所定の時間間隔で（例えば１秒ごとに）、図４に示す一連の処理を実行する。この場合、例えば情報処理装置２０００は、図４に示す一連の処理を開始するタイミングで、カメラ１０によって生成された最新の撮像画像１２を取得する。

＜撮像画像１２の取得：Ｓ１０２＞
　検出部２０２０は、撮像画像１２を取得する（Ｓ１０２）。検出部２０２０が撮像画像１２を取得する方法は任意である。例えば検出部２０２０は、カメラ１０から送信される撮像画像１２を受信する。また例えば、検出部２０２０は、カメラ１０にアクセスし、カメラ１０に記憶されている撮像画像１２を取得する。

　なお、カメラ１０は、カメラ１０の外部に設けられている記憶装置に撮像画像１２を記憶してもよい。この場合、検出部２０２０は、この記憶装置にアクセスして撮像画像１２を取得する。

　情報処理装置２０００がカメラ１０で実現される場合、情報処理装置２０００は、情報処理装置２０００自身によって生成された撮像画像１２を取得する。この場合、撮像画像１２は、例えば情報処理装置２０００の内部にあるメモリ１０６０やストレージデバイス１０８０（図３参照）に記憶されている。そこで検出部２０２０は、メモリ１０６０やストレージデバイス１０８０から撮像画像１２を取得する。

　撮像画像１２には（すなわち、カメラ１０の撮像範囲には）、少なくとも、商品棚５０よりも手前の範囲が含まれる。図５は、カメラ１０の撮像範囲を例示する第１の図である。図５において、カメラ１０の撮像範囲１４には、商品棚５０の前面から手前側に距離 d1 の範囲が含まれている。

　なお、カメラ１０の撮像範囲には、商品棚５０が含まれなくてもよい。図６は、カメラ１０の撮像範囲を例示する第２の図である。図６において、カメラ１０の撮像範囲１４には、商品４０の前面から手前側に d2 離れた位置から、商品４０の前面から手前側に d3 離れた位置までの範囲が含まれる。

　また、図５や図６の撮像画像１２に含まれるのは、商品棚５０を上から見下ろした様子である。言い換えれば、カメラ１０は、商品棚５０の上方から商品棚５０を撮像するように設置されている。しかしながら、撮像画像１２に含まれるのは、商品棚５０を上から見下ろした様子でなくてもよい。例えば撮像画像１２には、商品棚５０を横から撮像した様子が含まれてもよい。図７は、商品棚５０を向かって右側から撮像した様子が撮像画像１２に含まれるケースを例示する図である。

＜基準位置２４の検出：Ｓ１０４＞
　検出部２０２０は、撮像画像１２から基準位置２４を検出する（Ｓ１０４）。前述した通り、基準位置２４は顧客２０の手の位置を示す。前述したとおり、顧客２０の手の位置は、例えば手の中心位置や指先の位置などである。検出部２０２０が撮像画像１２から基準位置２４を検出する方法は様々である。例えば検出部２０２０は、予め用意されている人の手の特徴量を利用して特徴量マッチングを行うことにより、撮像画像１２から、その特徴量にマッチする（特徴量との類似度が高い）領域を検出する。そして検出部２０２０は、検出された領域、すなわち手を表す領域の所定位置（例えば中心位置など）を、手の基準位置２４として検出する。

　その他にも例えば、検出部２０２０は、機械学習を利用して基準位置２４を検出してもよい。具体的には、機械学習を利用した検出器として、検出部２０２０を構成する。この場合、予め、基準位置２４が既知である撮像画像（撮像画像と、その撮像画像における基準位置２４の座標とのセット）を１つ以上利用して、検出部２０２０を学習させておく。こうすることで、検出部２０２０は、取得した撮像画像１２から基準位置２４を検出できるようになる。なお、機械学習の予測モデルには、ニューラルネットワークなどの種々なモデルを利用することができる。

　ここで、検出部２０２０の学習は、様々な姿勢の顧客２０の手について行われることが好適である。具体的には、様々な姿勢の顧客２０の手について学習用の撮像画像を用意する。こうすることで、顧客２０の手の姿勢が撮像画像１２ごとに異なっていても、各撮像画像１２から高い精度で基準位置２４を検出することができる。

　ここで、検出部２０２０は、基準位置２４に加え、顧客２０の手に関する種々のパラメータを検出してもよい。例えば検出部２０２０は、手の幅、長さ、姿勢、及び基準位置２４とカメラ１０との間の距離などを検出する。特徴量マッチングを利用する場合、検出部２０２０は、検出された手の領域の形状や大きさから、手の幅、長さ、及び姿勢などを特定する。機械学習を利用する場合、手の幅、長さ、姿勢、及び基準位置２４とカメラ１０との間の距離などが既知である１つ以上の撮像画像を利用して、検出部２０２０を学習させておく。こうすることで、検出部２０２０は、取得した撮像画像１２から、基準位置２４に加え、手の幅などの種々のパラメータを検出することができる。

＜解析対象領域３０の決定：Ｓ１０６＞
　決定部２０４０は、検出された基準位置２４を用いて解析対象領域３０を決定する（Ｓ１０６）。決定部２０４０が解析対象領域３０を決定する方法は様々である。例えば決定部２０４０は、撮像画像１２に含まれる領域のうち、基準位置２４を基準として定まる所定形状の領域である。

　図８は、基準位置２４を基準として定まる所定形状の領域として決定される解析対象領域３０を例示する図である。図８（ａ）は、基準位置２４が解析対象領域３０の所定位置を表す位置として利用されるケースを表す。具体的には、図８（ａ）の解析対象領域３０は、基準位置２４を中心とする矩形である。解析対象領域３０の高さは h であり、幅 w の矩形である。なお、基準位置２４は解析対象領域３０の左上端や右下端など、解析対象領域３０の中心以外を定める位置として利用されてもよい。

　図８（ｂ）は、基準位置２４と所定の関係にある位置によって、解析対象領域３０の所定位置（中心や左上端など）を定めるケースを表す。具体的には、図８（ｂ）の解析対象領域３０は、基準位置２４から所定ベクトル v 移動した位置を中心とする矩形である。大きさ及び向きについては、図８（ａ）の解析対象領域３０と同じである。

　図８の例において、解析対象領域３０の向きは、撮像画像１２の軸方向に基づいて定められている。より具体的には、解析対象領域３０の高さ方向が、撮像画像１２のＹ軸方向として定められている。しかし、解析対象領域３０の向きは、撮像画像１２の軸方向以外に基づいて定められてもよい。

　例えば検出部２０２０によって、顧客２０の手の姿勢が検出されるとする。この場合、解析対象領域３０の向きは、手の向きに基づいて定められてもよい。図９は、顧客２０の手の向きに基づいて解析対象領域３０の向きを定めるケースを例示する図である。図９において、解析対象領域３０の向きは、手の奥行き方向（手首から指先へ向かう方向）として定められている。

　なお、このように顧客２０の手の向きに基づいて解析対象領域３０の向きを定める場合、複数の撮像画像１２それぞれの解析対象領域３０の向きが異なりうる。そのため、決定部２０４０は、複数の解析対象領域３０の向きを揃えるように幾何変換を行うことが好適である。例えば、決定部２０４０は、各撮像画像１２から解析対象領域３０を抽出し、抽出した各解析対象領域３０を、顧客２０の手の奥行き方向が Y 軸方向を向くように幾何変換する。

　解析対象領域３０のサイズは、静的に定まっていてもよいし、動的に決定されてもよい。後者の場合、解析対象領域３０のサイズは、例えば以下の数式（１）によって決定される。

　h と w はそれぞれ、解析対象領域３０の高さと幅である。sb は手の領域について予め定められている基準面積である。hb と wb はそれぞれ、基準面積に対応づけて予め定められている解析対象領域３０の高さと幅である。sr は、検出部２０２０によって撮像画像１２から検出された手の領域の面積である。

　その他にも例えば、解析対象領域３０のサイズは、以下の数式（２）を用いて動的に決定されてもよい。

　h と w はそれぞれ、解析対象領域３０の高さと幅である。dbは、予め定められている基準距離値である。hb と wb はそれぞれ、基準距離値に対応付けられている解析対象領域３０の高さと幅である。dr は、撮像画像１２から検出された基準位置２４とカメラ１０との間の距離値である。

　距離値 dr を特定する方法は様々である。例えば、検出部２０２０は、デプスカメラによって生成された深度画像における基準位置２４の画素値に基づいて、距離値 dr を特定する。その他にも例えば、機械学習を利用した検出器として検出部２０２０を構成する場合、基準位置２４に加えて基準位置２４とカメラ１０との間の距離も検出するように、検出部２０２０を構成してもよい。

　ここで、上述した方法で決定した解析対象領域３０の各画素を補正し、補正後の解析対象領域３０が特定部２０６０による画像解析に利用されるようにしてもよい。決定部２０４０は、例えば以下の数式（３）を用いて解析対象領域３０の各画素を補正する。

　d(x,y)0 は、撮影画像１２中の解析対象領域３０の座標 (x, y) における修正前の画素値である。d(x,y)1 は、撮影画像１２中の解析対象領域３０の座標 (x, y) における修正後の画素値である。

＜顧客２０の動作の特定：Ｓ１０８、Ｓ１１０＞
　特定部２０６０は、決定された解析対象領域３０を画像解析することで、顧客２０の動作を特定する（Ｓ１０８、Ｓ１１０）。顧客２０の動作は、例えば、（１）商品棚５０から商品４０を取り出す動作、（２）商品棚５０へ商品４０を置く動作、（３）商品棚５０との接触前後双方において商品４０を保持しない動作、及び（４）商品棚５０との接触前後双方において商品４０を保持する動作のいずれかである。

　ここで、「商品棚５０と顧客２０との接触」とは、撮像画像１２において商品棚５０の画像領域と顧客２０の画像領域とが少なくとも一部において重なることを意味し、実空間において商品棚５０と顧客２０とが接触している必要はない。また、上記（４）において、顧客２０と商品棚５０との接触前に顧客２０が保持している商品４０と、顧客２０と商品棚５０との接触後に顧客２０が保持している商品４０は、互いに同一の物であってもよいし、互いに異なるものであってもよい。

　上述した４つの動作を判別する処理の流れは、例えば図１０に示す流れとなる。図１０及び図１１は、顧客２０の動作を特定するための処理の流れを例示するフローチャートである。まず特定部２０６０は、基準位置２４が商品棚５０へ向かって移動している様子が含まれる撮像画像１２を検出する（Ｓ２０２）。例えば特定部２０６０は、時系列の複数の撮像画像１２それぞれについて、基準位置２４と商品棚５０との間の距離を算出する。そして、１つ以上の撮像画像１２において上記距離が時間と共に減少している場合に、それらの撮像画像１２を、基準位置２４が商品棚５０へ向かって移動している様子が含まれる撮像画像１２として検出する。

　さらに特定部２０６０は、Ｓ２０２で検出された撮像画像１２において、解析対象領域３０に商品４０が含まれるか否かを判定する（Ｓ２０４）。解析対象領域３０に商品４０が含まれる場合（Ｓ２０４：ＹＥＳ）、図１０の処理はＳ２０６に進む。一方、解析対象領域３０に商品４０が含まれない場合（Ｓ２０４：ＮＯ）、図１０の処理はＳ２１６に進む。

　Ｓ２０６において、特定部２０６０は、Ｓ２０２で検出された撮像画像１２よりも後に生成された撮像画像１２の中から、基準位置２４が商品棚５０から離れる方向に移動している様子が含まれる撮像画像１２を検出する（Ｓ２０６）。例えば特定部２０６０は、Ｓ２０２で検出された撮像画像１２よりも後に生成された時系列の複数の撮像画像１２それぞれについて、基準位置２４と商品棚５０との間の距離を算出する。そして、１つ以上の撮像画像１２において上記距離が時間と共に増加している場合に、それらの撮像画像１２を、基準位置２４が商品棚５０から離れる方向へ移動している様子が含まれる撮像画像１２として検出する。

　さらに特定部２０６０は、Ｓ２０６で検出された撮像画像１２において、解析対象領域３０に商品４０が含まれるか否かを判定する（Ｓ２０８）。解析対象領域３０に商品４０が含まれる場合（Ｓ２０８：ＹＥＳ）、商品棚５０に向かって移動する手と、商品棚５０から離れる方向へ移動する手の双方に、商品４０が保持されていることとなる。そのため特定部２０６０は、顧客２０の動作が、「（４）商品棚５０との接触前後双方において商品４０を保持する動作」であると特定する（Ｓ２１０）。

　一方、解析対象領域３０に商品４０が含まれない場合（Ｓ２０８：ＮＯ）、商品棚５０に向かって移動する手には商品４０が保持されている一方で、商品棚５０から離れる方向へ移動する手には商品４０が保持されていないこととなる。そのため特定部２０６０は、顧客２０の動作が、「（２）商品棚５０へ商品４０を置く動作」であると特定する（Ｓ２１２）。

　Ｓ２１４において、特定部２０６０は、Ｓ２０２で検出された撮像画像１２よりも後に生成された撮像画像１２の中から、基準位置２４が商品棚５０から離れる方向に移動している様子が含まれる撮像画像１２を検出する。その検出の方法は、Ｓ２０６における実行される方法と同様である。

　さらに特定部２０６０は、Ｓ２１４で検出された撮像画像１２において、解析対象領域３０に商品４０が含まれるか否かを判定する（Ｓ２１６）。解析対象領域３０に商品４０が含まれる場合（Ｓ２１６：ＹＥＳ）、商品棚５０に向かって移動する手には商品４０が保持されていない一方で、商品棚５０から離れる方向に移動する手には商品４０が保持されていることとなる。そのため特定部２０６０は、顧客２０の動作が、「（１）商品棚５０から商品４０を取り出す動作」であると特定する（Ｓ２１８）。

　一方、解析対象領域３０に商品４０が含まれない場合（Ｓ２１６：ＮＯ）、商品棚５０に向かって移動する手と、商品棚５０から離れる方向へ移動する手の双方に、商品４０が保持されていないこととなる。そのため特定部２０６０は、顧客２０の動作が、「（３）商品棚５０との接触前後双方において商品４０を保持しない動作」であると特定する（Ｓ２２０）。

　ここで、解析対象領域３０に商品４０が含まれるか否かを検出する方法には、例えば次の方法がある。まず特定部２０６０は、時系列の複数の撮像画像１２それぞれについて決定された解析対象領域３０から、背景領域を除いた画像領域、すなわち前景領域を抽出する。なお、所定の場所に設置されたカメラ１０によって撮像される撮像画像について背景領域を特定する技術には、既存の技術を利用することができる。

　そして特定部２０６０は、前景領域に顧客２０の手を表す画像領域以外が含まれる場合、解析対象領域３０に商品４０が含まれると判定する。ただし、特定部２０６０は、前景領域のうち、手を表す画像領域を除いた画像領域のサイズが、所定のサイズ以上である場合のみ、解析対象領域３０に商品４０が含まれると判定してもよい。こうすることで、撮像画像１２に含まれるノイズが誤って商品４０として検出されてしまうことを防ぐことができる。

　解析対象領域３０に商品４０が含まれるか否かを判定する方法は、上述した方法に限定されない。解析対象領域３０に商品４０が含まれるか否か、すなわち、画像に含まれる人の手が商品を持っているか否かを判定する方法には、既存の種々の方法を利用することができる。

　なお、特定部２０６０は、１つの撮像画像１２から顧客２０の動作を特定してもよい。例えばこの場合、特定部２０６０は、「商品４０を保持している」又は「商品４０を保持していない」という顧客２０の動作を特定する。

＜商品４０の特定＞
　特定部２０６０は、顧客２０が商品棚５０から商品４０を取り出したときに、取り出した商品４０を特定してもよい。商品４０の特定とは、例えば、その商品４０を他の商品４０と識別する情報（例えば商品４０の識別子や名称など）を特定することを意味する。以下、商品４０を識別する情報を商品識別情報と呼ぶ。

　特定部２０６０は、顧客２０が商品棚５０のどこから商品４０を取り出したかを特定することによって、取り出された商品４０を特定する。前提として、商品４０の陳列場所が予め定められているとする。ここで、商品棚５０の各位置にどの商品が陳列されているかを示す情報を、陳列情報と呼ぶ。特定部２０６０は、撮像画像１２を用いて、顧客２０が商品棚５０のどこから商品４０を取り出したかを特定し、特定した場所と陳列情報を用いて、取り出された商品４０を特定する。

　例えば、商品棚５０において、段ごとに特定の商品４０が陳列されるとする。この場合、陳列情報は、商品棚５０の段に対応づけて商品識別情報を示す。図１２は、陳列情報をテーブル形式で例示する図である。図１２に示されているテーブルを、テーブル２００と呼ぶ。テーブル２００は、商品棚５０ごとに作られている。テーブル２００は、段２０２と商品識別情報２０４という２つの列を有する。図１２において、商品識別情報２０４は、商品４０の識別子を示す。例えば、s0001 という識別子で特定される商品棚５０の陳列情報を表すテーブル２００において、１行目のレコードは、商品棚５０の１段目に、i0001 という識別子で特定される商品４０が陳列されていることを示している。

　特定部２０６０は、撮像画像１２を用いて、商品４０が取り出された商品棚５０の段を特定する。そして特定部２０６０は、陳列情報においてその段に対応づけられている商品識別情報を取得することで、商品棚５０から取り出された商品４０を特定する。以下、商品４０が取り出された商品棚５０の段を特定する方法をいくつか例示する。

＜＜第１の方法＞＞
　前提として、撮像画像１２に商品棚５０を上方から撮像した様子が含まれるとする（図５参照）。言い換えれば、カメラ１０が、商品棚５０を上方から撮像するとする。この場合、カメラ１０としてデプスカメラを利用する。デプスカメラは、通常の撮像画像に加えて、又はこれに代えて、深度画像を生成する。前述したように、深度画像とは、画像の各画素の値が、撮像された物体とカメラとの間の距離を表す画像である。図１３は、カメラ１０によって生成される深度画像を例示する図である。図１３の深度画像では、カメラ１０からの距離が近い物体を表す画素ほど白色に近く（明るく）、カメラ１０からの距離が遠い物体を表す画素ほど黒色に近く（暗く）なっている。なお、図示の都合上、図１３では、暗い部分ほど大きな黒点を密に描き、明るい部分ほど小さな黒点を疎に描いている。

　特定部２０６０は、深度画像において基準位置２４を表す画素の値に基づいて、基準位置２４が商品棚５０のどの段に位置するかを特定する。この際、予め、陳列情報において、商品棚５０の各段について、カメラ１０との間の距離の範囲を定めておく。図１４は、商品棚５０の各段について、カメラ１０との間の距離の範囲を示す陳列情報を例示する図である。例えば図１４のテーブル２００は、商品棚５０の１段目の棚とカメラ１０との間の距離の範囲が、d1 以上なおかつ d2 未満であることを示している。言い換えれば、１段目の棚の最上部とカメラ１０との間の距離は d1 であり、２段目の棚最上部とカメラ１０との間の距離は d2 である。

　特定部２０６０は、顧客２０が商品４０を取り出す様子が含まれる深度画像の基準位置２４と、図１４に示す陳列情報に基づいて、基準位置２４が商品棚５０のどの段に位置するかを特定する。そして、特定された段を、商品４０が取り出された段とする。例えば、深度画像における基準位置２４の画素が、基準位置２４とカメラ１０との間の距離が a であることを示しているとする。そして、a が d1 以上 d2 以下の値であるとする。この場合、図１４に示す陳列情報に基づき、特定部２０６０は、基準位置２４が商品棚５０の１段目の棚に位置することを特定する。つまり特定部２０６０は、商品４０が取り出された棚が、商品棚５０の１段目の棚であることを特定する。

＜＜第２の方法＞＞
　前提として、撮像画像１２に、商品棚５０を横から見た様子が含まれているとする。言い換えれば、カメラ１０が、商品棚５０を横方向から撮像するとする。この場合、特定部２０６０は、撮像画像１２から検出された基準位置２４の高さ方向の位置（Y 座標）が、商品棚５０の何段目に位置するかを特定する。そして、特定された段を、商品４０が取り出された商品棚５０の段とする。この場合、撮像画像１２は、深度画像であってもよいし、通常の画像であってもよい。

＜＜１つの段に複数の種類の商品４０が陳列されるケースについて＞＞
　商品棚５０の１つの段を水平方向に複数の列に区切ることで、１つの段に複数の種類の商品が陳列されることもある。この場合、特定部２０６０は、商品４０を商品棚５０から取り出す顧客２０の手の基準位置２４について、水平方向の位置と高さ方向の位置をそれぞれ特定することにより、商品４０を特定する。この場合、陳列情報には、段と列の組み合わせごとに商品識別情報を示しておく。以下、基準位置２４の水平方向の位置を特定する方法について説明する。

　カメラ１０が商品棚５０を上方から撮像するとする。この場合、基準位置２４の水平方向の位置は、撮像画像１２における基準位置２４の X 座標によって特定される。

　一方、カメラ１０が商品棚５０を横方向から撮像するとする。この場合、特定部２０６０は、深度画像を利用して、基準位置２４の水平方向の位置を特定する。ここで、商品棚５０を横方向から撮像した様子が含まれる深度画像を利用して、基準位置２４の水平方向の位置を特定する方法は、商品棚５０を上方から撮像した様子が含まれる深度画像を利用して、基準位置２４の高さ方向の位置を特定する方法と同様である。

　なお、商品棚５０から取り出される商品４０を特定する方法について説明したが、特定部２０６０は、同様の方法により、商品棚５０へ置かれる商品４０を特定してもよい。ただしこの場合、特定部２０６０は、商品棚５０へ商品４０を置く様子が含まれる撮像画像１２を利用する。

　ここで、顧客２０の動作として「（４）商品棚５０との接触前後双方において商品４０を保持する動作」が特定されたとする。この場合、特定部２０６０は、上述した商品４０を特定する方法に基づいて、顧客２０と商品棚５０との接触前後において顧客２０に保持されている商品４０が互いに同一であるか否かを判定してもよい。例えば特定部２０６０は、顧客２０と商品棚５０との接触前における商品４０を、商品棚５０へ置かれる商品４０を特定する方法と同様の方法で特定する。さらに特定部２０６０は、顧客２０と商品棚５０との接触後における商品４０を、商品棚５０から取り出される商品４０を特定する方法と同様の方法で特定する。そして特定部２０６０は、特定された２つの商品４０が互いに同一である場合、顧客２０と商品棚５０との接触前後において顧客２０に保持されている商品４０が互いに同一であると判定する。この場合、顧客２０の動作は、「商品４０を置こうとして商品棚５０に手を伸ばしたものの商品４０を置かない動作」であると言える。一方、特定部２０６０は、特定された２つの商品４０が互いに異なる場合、顧客２０と商品棚５０との接触前後において顧客２０に保持されている商品４０が互いに異なると判定する。この場合、顧客２０の動作は、「保持していた商品４０を置いて他の商品４０を取り出す動作」であると言える。

　ただし、上記の判定は、商品４０を具体的に特定せずに行われてもよい。例えば特定部２０６０は、顧客２０と商品棚５０との接触前における解析対象領域３０の前景領域と、顧客２０と商品棚５０との接触後における解析対象領域３０の前景領域との差分（面積の差分や色の差分）の大きさを算出し、算出した差分の大きさが所定値以上である場合に、接触前後において商品４０が互いに異なると判定する。一方、特定部２０６０は、上記差分の大きさが所定値未満である場合に、接触前後において商品４０が互いに同一であると判定する。

　その他にも例えば、特定部２０６０は、顧客２０と商品棚５０との接触前後における基準位置２４の違いに基づいて、上記接触前後において商品４０が互いに同一であるか否かを判定する。この場合、特定部２０６０は、前述した陳列情報を用いて、顧客２０と商品棚５０との接触前において基準位置２４が位置する商品棚５０の段と、顧客２０と商品棚５０との接触後において基準位置２４が位置する商品棚５０の段とをそれぞれ特定する。そして特定部２０６０は、顧客２０と商品棚５０との接触前後それぞれについて特定された商品棚５０の段が互いに異なる場合、上記接触前後において商品４０が互いに異なると判定する。一方、特定部２０６０は、上記接触前後それぞれについて特定された商品棚５０の段が互いに同一である場合に、上記接触前後において商品４０が互いに同一であると判定する。

＜特定部２０６０によって特定された顧客２０の動作の活用方法＞
　特定部２０６０によって特定された顧客２０の動作は、顧客２０が商品棚５０の前において行う行動（いわゆる棚前行動）の解析に利用することができる。そのために、特定部２０６０は、各顧客２０が商品棚５０の前で行った動作、その動作が行われた日時、その動作の対象となった商品４０などの種々の情報を出力する。この情報は、例えば情報処理装置２０００に接続されている記憶装置に記憶されたり、情報処理装置２０００と通信可能に接続されているサーバ装置などに送信されたりする。ここで、商品棚５０の前で行われた顧客２０の種々の動作に基づいて棚前行動の解析を行う手法には既存の種々の手法を利用することができる。

　なお、情報処理装置２０００の利用シーンは、店舗における顧客の動作の特定に限定されない。例えば前述したように、情報処理装置２０００は、工場の作業員などの動作を特定するために利用することができる。この場合、例えば情報処理装置２０００によって特定された各作業員の動作を、予め定められている各作業員の動作と比較することで、作業員が所定の仕事を正しく行っているかどうかを確認することができる。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

Claims

　物の陳列場所が撮像された撮像画像から、前記撮像画像に含まれる人の手の位置を示す基準位置を検出する検出手段と、
　前記検出された基準位置を用いて、前記撮像画像の中の解析対象領域を決定し、前記解析対象領域を決定する決定手段と、
　前記決定された解析対象領域を解析することで、前記人の動作を特定する特定手段と、
　を有する情報処理装置。
　前記決定手段は、前記検出された基準位置を基準とする所定形状の領域を、前記解析対象領域として決定する、請求項１に記載の情報処理装置。
　前記検出手段は、前記人の手の姿勢をさらに検出し、
　前記決定手段は、前記検出された基準位置を基準とし、なおかつ前記検出された姿勢によって定まる向きの所定形状の領域を、前記解析対象領域として決定する、請求項２に記載の情報処理装置。
　前記特定手段は、前記人が物を保持している動作、及び前記人が物を保持していない動作のうち、少なくとも１つの特定を行う、請求項１乃至３いずれか一項に記載の情報処理装置。
　前記特定手段は、それぞれ異なる時点に生成された複数の撮像画像それぞれについて決定された前記解析対象領域を解析することで、前記人が前記陳列場所から物を取り出す動作、前記人が前記陳列場所との接触前後双方において物を保持していない動作、前記人が前記陳列場所に物を置く動作、及び前記人が前記陳列場所との接触前後双方において物を保持している動作のうち、少なくとも１つの特定を行う、請求項１乃至４いずれか一項に記載の情報処理装置。
　前記特定手段は、前記陳列場所における各物体の位置を示す陳列情報、及び前記解析対象領域に含まれる前記基準位置の高さ方向の位置に基づいて、前記人の動作の対象である物を特定する、請求項１乃至５いずれか一項に記載の情報処理装置。
　前記撮像画像は、前記陳列場所を上方から撮像するデプスカメラによって生成された深度画像であり、
　前記特定手段は、前記基準位置の高さ方向の位置を、前記深度画像における前記基準位置の画素値に基づいて特定する、請求項６に記載の情報処理装置。
　コンピュータによって実行される制御方法であって、
　物の陳列場所が撮像された撮像画像から、前記撮像画像に含まれる人の手の位置を示す基準位置を検出する検出ステップと、
　前記検出された基準位置を用いて、前記撮像画像の中の解析対象領域を決定し、前記解析対象領域を決定する決定ステップと、
　前記決定された解析対象領域を解析することで、前記人の動作を特定する特定ステップと、
　を有する制御方法。
　前記決定ステップにおいて、前記検出された基準位置を基準とする所定形状の領域を、前記解析対象領域として決定する、請求項８に記載の制御方法。
　前記検出ステップにおいて、前記人の手の姿勢をさらに検出し、
　前記決定ステップにおいて、前記検出された基準位置を基準とし、なおかつ前記検出された姿勢によって定まる向きの所定形状の領域を、前記解析対象領域として決定する、請求項９に記載の制御方法。
　前記特定ステップにおいて、前記人が物を保持している動作、及び前記人が物を保持していない動作のうち、少なくとも１つの特定を行う、請求項８乃至１０いずれか一項に記載の制御方法。
　前記特定ステップにおいて、それぞれ異なる時点に生成された複数の撮像画像それぞれについて決定された前記解析対象領域を解析することで、前記人が前記陳列場所から物を取り出す動作、前記人が前記陳列場所との接触前後双方において物を保持していない動作、前記人が前記陳列場所に物を置く動作、及び前記人が前記陳列場所との接触前後双方において物を保持していない動作のうち、少なくとも１つの特定を行う、請求項８乃至１１いずれか一項に記載の制御方法。
　前記特定ステップにおいて、前記陳列場所における各物体の位置を示す陳列情報、及び前記解析対象領域に含まれる前記基準位置の高さ方向の位置に基づいて、前記人の動作の対象である物を特定する、請求項８乃至１２いずれか一項に記載の制御方法。
　前記撮像画像は、前記陳列場所を上方から撮像するデプスカメラによって生成された深度画像であり、
　前記特定ステップにおいて、前記基準位置の高さ方向の位置を、前記深度画像における前記基準位置の画素値に基づいて特定する、請求項１３に記載の制御方法。
　請求項８乃至１４いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。