WO2023007601A1

WO2023007601A1 - 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2023007601A1
Application number: PCT/JP2021/027844
Authority: WO
Inventors: 諒川合; 登吉田; 健全劉; 隼輔津田; 佑樹鶴岡
Original assignee: 日本電気株式会社
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-02-02
Also published as: US20240096182A1; JPWO2023007601A1

Abstract

動作検出システム（１０）は、ユーザが予め定められた精算機を訪問したことを検出したことに応じて、ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始する動作特定部（１８）と、特定した少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定部（２０）と、判定結果に応じて予め定められた処理を実行する処理制御部（２１）とを備える。

Description

動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体

　本開示は、動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体に関する。

　近年、顧客が商品のバーコードをスキャンして会計をする形態のセルフレジが普及している。スタッフが少ない又はいない店舗においては、セルフレジの操作者の不正行為を自動で検出することが求められている。尚、操作者の不正行為を自動検出したいというニーズは、セルフレジだけでなく、金銭を取り扱うその他の装置においても同様である。

　例えば特許文献１では、キャッシュセンタのソータの操作者の動作と不正行為パターンの動画とを比較することで不正行為が発生していないか判定し、検知された不正の事実と、その証拠とを管理者端末に送信する監視システムが開示されている。監視システムの管理サーバは、保存された動画ファイルを解析し、不正行為パターンに該当する画像データが動画ファイルに含まれているかをチェックする。

特開２０２０－０８００８２号公報

　ここで、操作者の不正行為をリアルタイムで検出したい場合、監視カメラからの映像を常に解析して、不正行為の有無を確認する必要がある。しかし、解析処理を継続的に実行すると、処理負荷が高くなり、処理するデータ量が膨大になるという問題があった。

　本開示の目的は、上述した課題に鑑み、精算機に関連する不正行為を好適に検出する動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体を提供することにある。

　本開示の一態様にかかる動作検出システムは、
　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始する動作特定手段と、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定手段と、
　判定結果に応じて予め定められた処理を実行する処理制御手段と
　を備える。

　本開示の一態様にかかる動作検出方法は、
　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始し、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定し、
　判定結果に応じて予め定められた処理を実行する。

　本開示の一態様にかかる非一時的なコンピュータ可読媒体は、
　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始する動作特定処理と、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定処理と、
　判定結果に応じて予め定められた処理を実行する処理制御処理と
　をコンピュータに実行させるためのプログラムが格納される。

　本開示により、精算機に関連する不正行為を好適に検出する動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体を提供できる。

実施形態１にかかる動作検出システムの構成を示すブロック図である。実施形態１にかかる動作検出方法の流れを示すフローチャートである。実施形態２にかかる動作検出システムの全体構成を示す図である。実施形態２にかかるサーバ及び端末装置の構成を示すブロック図である。実施形態２にかかる映像データに含まれるフレーム画像から抽出された骨格情報を示す図である。実施形態２にかかる映像データに含まれるフレーム画像から抽出された骨格情報を示す図である。実施形態２にかかる端末装置による映像データの送信方法の流れを示すフローチャートである。実施形態２にかかるサーバによる登録動作ＩＤ及び登録動作シーケンスの登録方法の流れを示すフローチャートである。実施形態２にかかる登録動作を説明するための図である。実施形態２にかかる正常動作シーケンスを説明するための図である。実施形態２にかかる不正動作シーケンスを説明するための図である。実施形態２にかかるサーバによる動作検出方法の流れを示すフローチャートである。実施形態３にかかるサーバ及び端末装置の構成を示すブロック図である実施形態３にかかる不正動作シーケンスを説明するための図である。実施形態４にかかるサーバ及び端末装置の構成を示すブロック図である実施形態４にかかるサーバによる動作検出方法の流れを示すフローチャートである。

　以下、実施形態を通じて本開示を説明するが、請求の範囲にかかる開示を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

　＜実施形態１＞
　まず、本開示の実施形態１について説明する。図１は、実施形態１にかかる動作検出システム１０の構成を示すブロック図である。動作検出システム１０は、店舗の精算機を訪問したユーザによる、精算機に関連する不正行為を検出するコンピュータシステムである。精算機は、操作者の操作に基づいて金銭処理を実行する装置である。動作検出システム１０は、動作特定部１８と、判定部２０と、処理制御部２１とを備える。

　動作特定部１８は、動作特定手段とも呼ばれる。動作特定部１８は、ユーザが予め定められた精算機を訪問したことを検出したことに応じて、ユーザを撮影した映像データから抽出された骨格情報に基づいて、動作ＩＤの特定を開始する。動作ＩＤは、動作を識別する情報である。１の動作ＩＤは、「かごから商品を出す」、「商品をスキャンする」又は「商品をかごに入れる」といった個別動作を識別してよい。また１の動作ＩＤは、「かごから商品を出し、商品をスキャンし、商品をかごに入れる」という、複数の個別動作が組み合わさった一連の動作を識別してもよい。そして動作特定部１８が映像データから特定する動作ＩＤは、１つであってもよいし、複数であってもよい。尚、動作特定部１８は、映像データから抽出された骨格情報の全てに基づいて動作ＩＤを特定してもよいし、一部に基づいて動作ＩＤを特定してもよい。

　ここで「ユーザが精算機を訪問したこと」は、開始トリガとも呼ばれる。開始トリガの検出は、精算機周辺の風景を撮影するカメラの映像から人物領域を検出したことであってよい。特に、開始トリガの検出は、同一人物として認識される人物領域を所定時間検出したことであってよい。また、開始トリガは、所定の載置台に商品を入れたかごが置かれたことを、カメラの映像又は荷重センサの計測値から検出したことであってもよい。また、開始トリガの検出は、精算開始ボタンが押されたことを示す操作信号を検出したことであってもよい。また、開始トリガの検出は、精算開始の音声を取得したことであってもよい。

　そして、動作特定部１８は、ユーザが精算機から去ったことを検出したことに応じて、動作ＩＤの特定を終了してよい。「ユーザが精算機から去ったこと」は、終了トリガとも呼ばれる。終了トリガの検出は、精算機の周辺の風景を撮影するカメラの映像から人物領域が検出されなくなったことであってよい。特に、終了トリガの検出は、開始トリガ以降、同一人物として認識されていた人物領域が所定時間検出されなくなったことであってよい。また、終了トリガの検出は、所定の載置台に置かれたかごからスキャン前商品がなくなったことを、カメラの映像又は荷重センサの計測値から検出したことであってもよい。また、終了トリガの検出は、精算終了ボタンが押されたことを示す操作信号を検出したことであってもよい。また、終了トリガの検出は、精算完了の音声を取得したことであってもよい。

　判定部２０は、判定手段とも呼ばれる。判定部２０は、特定した少なくとも１つの動作ＩＤを含む動作シーケンスが、登録動作シーケンスに対応するか否かを判定する。登録動作シーケンスは、精算機に関連する正常行為を定めたものであり、その構成は、動作シーケンステーブル（不図示）に予め登録されている。登録動作シーケンスは、動作データベース（ＤＢ）（不図示）に予め登録されている動作ＩＤである登録動作ＩＤを１又は複数含む。尚、登録動作シーケンスが複数の登録動作ＩＤを含む場合は、登録動作シーケンスは、登録動作ＩＤの組み合わせと、各登録動作ＩＤが行われる時系列順序の情報とを含む。例えば、登録動作シーケンスは、複数の登録動作ＩＤを時系列で含んで構成される。

　処理制御部２１は、処理制御手段とも呼ばれる。処理制御部２１は、上記判定の結果に応じて予め定められた処理を実行する。予め定められた処理とは、ユーザに警告情報を報知することであってもよいし、店舗のスタッフに警告情報を報知することであってもよいし、上記動作シーケンスが登録動作シーケンスに対応しなかった旨を記録することであってもよい。

　図２は、実施形態１にかかる動作検出方法の流れを示すフローチャートである。まず動作検出システム１０は、ユーザが精算機を訪問したか否かを判定する（Ｓ１０）。つまり、動作検出システム１０は、開始トリガを検出したか否かを判定する。そしてユーザが精算機を訪問したと判定した場合（Ｓ１０でＹｅｓ）、動作特定部１８は、映像データから抽出された骨格情報に基づく動作ＩＤの特定を開始する（Ｓ１１）。判定部２０は、Ｓ１１で特定した動作ＩＤを含む動作シーケンスが登録動作シーケンスに対応するか否かを判定する（Ｓ１２）。判定部２０は、上記動作シーケンスが登録動作シーケンスに対応すると判定した場合（Ｓ１２でＹｅｓ）、正常行為が行われたとして、処理を終了する。一方、判定部２０は、上記動作シーケンスが登録動作シーケンスに対応すると判定しなかった場合（Ｓ１２でＮｏ）、不正行為が行われたとして、処理をＳ１３に進める。そして処理制御部２１は、所定の処理を実行して（Ｓ１３）、処理を終了する。

　このように実施形態１によれば、動作検出システム１０は、精算機を訪問したユーザの動作の流れが正常か否かを判定することにより、精算機に関連する不正行為を検出する。したがって、スタッフが少ない又はいない店舗においても、ユーザの不正行為を自動検出できる。

　ここで、動作検出システム１０では、動作の特定は、ユーザが精算機を訪問することを待って行われるため、処理負荷を軽減し、処理するデータ量を軽減できる。また、動作検出システム１０は、ユーザが精算機から去った場合に動作の特定を終了するため、上述した効果がさらに顕著に得られる。これにより、動作検出システム１０は、精算機に関連する不正行為を好適に検出できる。

　尚、動作検出システム１０では、動作の特定に骨格情報を用いるため、具体的な画素情報を保持する必要がない。したがって、プライバシー性を確保することができる。

　＜実施形態２＞
　次に、本開示の実施形態２について説明する。図３は、実施形態２にかかる動作検出システム１の全体構成を示す図である。動作検出システム１は、精算機５０を訪問したユーザＵを監視し、不正行為を検出したことに応じて、所定の処理を実行するコンピュータシステムである。

　一例として、ユーザＵが店舗の精算機５０で会計をする場合の正常の流れは以下の通りである。
　（１）まずユーザＵは、店舗の商品棚から持ち出した商品をかごに入れ、会計時に精算機５０を訪問する。（２）ユーザＵは、スキャン前かご６０の載置台にかごを置く。（３）ユーザＵは、スキャン前かご６０から商品を取り出す。（４）精算機５０のハンドスキャナＳを商品のバーコードにかざして、商品をスキャンする。（５）ユーザＵは、スキャンした商品を、スキャン済かご７０に入れる。（６）ユーザＵは、スキャン前かご６０からスキャン前の商品がなくなるまで、（３）～（５）の動作を繰り返す。（７）スキャン終了後、ユーザＵはスキャン終了ボタンを押す。（８）ユーザＵは、スキャンした商品について会計を行う。
　尚、スキャンした商品を入れる場所は、スキャン済かご７０に限らない。例えばユーザＵは、スキャンした商品を、個人のかばん（いわゆるマイバッグ）に入れてもよいし、任意の空きスペースに入れてもよい。またユーザＵは、スキャンした商品をスキャン前かご６０に戻してもよい。

　ここで、動作検出システム１は、サーバ１００と、端末装置２００と、骨格用カメラ３００とを備える。サーバ１００及び端末装置２００は、ネットワークＮを介して通信可能に接続されている。ネットワークＮは、有線であっても無線であってもよい。

　骨格用カメラ３００は、精算機５０の前に立ったユーザＵを撮影し、ユーザＵを監視するカメラである。骨格用カメラ３００は、精算機５０の前に立ったユーザＵの身体の少なくとも一部を撮影できる位置及び角度に配設されている。本実施形態２では、骨格用カメラ３００は、ユーザＵの上半身を撮影するように構成される。

　端末装置２００は、骨格用カメラ３００から映像データを取得し、映像データを、ネットワークＮを介してサーバ１００に送信する。また端末装置２００は、サーバ１００がユーザＵの不正行為を検出したことを示す警告情報を受信し、警告情報を表示部２０３又は音声出力部２０４を用いて出力する。端末装置２００の表示部２０３は、ユーザＵ又は店舗のスタッフが視認しやすい位置に設置されてよい。また端末装置２００の音声出力部２０４は、ユーザＵ又は店舗のスタッフが音声を聞き取りやすい位置に設置されてよい。

　サーバ１００は、端末装置２００から受信した映像データに基づいて、ユーザＵによる、精算機５０に関連する不正行為を検出するコンピュータ装置である。サーバ１００は、不正行為を検出した場合、ネットワークＮを介して、端末装置２００に警告情報を送信する。

　図４は、実施形態２にかかるサーバ１００及び端末装置２００の構成を示すブロック図である。

　（端末装置２００）
　端末装置２００は、通信部２０１と、制御部２０２と、表示部２０３と、音声出力部２０４とを備える。

　通信部２０１は、通信手段とも呼ばれる。通信部２０１は、ネットワークＮとの通信インタフェースである。また、通信部２０１は、骨格用カメラ３００と接続されており、骨格用カメラ３００から所定の時間間隔で映像データを取得する。

　制御部２０２は、制御手段とも呼ばれる。制御部２０２は、端末装置２００が有するハードウェアの制御を行う。例えば、制御部２０２は、開始トリガを検出した場合、骨格用カメラ３００から取得した映像データをサーバ１００に送信し始める。開始トリガの検出は、上述の「ユーザが精算機を訪問したことを検出した」ことを指す。また例えば、制御部２０２は、終了トリガを検出した場合、骨格用カメラ３００から取得した映像データをサーバ１００に送信することを終了する。終了トリガの検出は、上述の「ユーザＵが精算機５０から去ったことを検出した」ことを指す。

　そして制御部２０２は、通信部２０１がサーバ１００から警告情報を受信した場合、警告情報を表示部２０３に表示させる。また制御部２０２は、警告情報を音声出力部２０４に出力させてもよい。

　表示部２０３は、表示装置である。音声出力部２０４は、スピーカを含む音声出力装置である。

　（サーバ１００）
　サーバ１００は、登録情報取得部１０１、登録部１０２、動作ＤＢ１０３、動作シーケンステーブル１０４、画像取得部１０５、抽出部１０７、動作特定部１０８、生成部１０９、判定部１１０、及び処理制御部１１１を備える。

　登録情報取得部１０１は、登録情報取得手段とも呼ばれる。登録情報取得部１０１は、端末装置２００からの動作登録要求により、又はサーバ１００の管理者の操作により、複数の登録用映像データを取得する。本実施形態２では、各登録用映像データは、人物の正常行為又は不正行為に含まれる個別動作（例えば、かごから商品を出す動作）を示す映像データである。尚、本実施形態２では、登録用映像データは、複数のフレーム画像を含む動画であるが、静止画（１のフレーム画像）であってもよい。

　また登録情報取得部１０１は、端末装置２００からのシーケンス登録要求により、又はサーバ１００の管理者の操作により、複数の登録動作ＩＤ及び一連の行為においてその動作が行われる時系列順序の情報を取得する。

　登録情報取得部１０１は、これら取得した情報を、登録部１０２に供給する。

　登録部１０２は、登録手段とも呼ばれる。まず登録部１０２は、動作登録要求に応じて、動作登録処理を実行する。具体的には、登録部１０２は、後述する抽出部１０７に登録用映像データを供給し、登録用映像データから抽出された骨格情報を登録骨格情報として抽出部１０７から取得する。そして登録部１０２は、取得した登録骨格情報を、登録動作ＩＤに対応付けて動作ＤＢ１０３に登録する。

　次に登録部１０２は、シーケンス登録要求に応じてシーケンス登録処理を実行する。具体的には、登録部１０２は、登録動作ＩＤを、時系列順序の情報に基づいて時系列順に並べて、登録動作シーケンスを生成する。このとき登録部１０２は、シーケンス登録要求が正常動作にかかる場合、生成した登録動作シーケンスを、正常動作シーケンスＮＳとして動作シーケンステーブル１０４に登録する。一方、登録部１０２は、シーケンス登録要求が不正動作にかかる場合、生成した登録動作シーケンスを、不正動作シーケンスＩＳとして動作シーケンステーブル１０４に登録する。

　動作ＤＢ１０３は、正常行為に含まれる動作の各々に対応する登録骨格情報を、登録動作ＩＤに対応付けて記憶する記憶装置である。また動作ＤＢ１０３は、不正行為に含まれる動作の各々に対応する登録骨格情報を、登録動作ＩＤに対応付けて記憶してもよい。

　動作シーケンステーブル１０４は、正常動作シーケンスＮＳと、不正動作シーケンスＩＳとを記憶する。本実施形態２では、動作シーケンステーブル１０４は、複数の正常動作シーケンスＮＳと、複数の不正動作シーケンスＩＳとを記憶する。

　画像取得部１０５は、画像取得手段とも呼ばれる。画像取得部１０５は、精算機５０の運用時に、端末装置２００から、骨格用カメラ３００が撮影した映像データを取得する。つまり、画像取得部１０５は、開始トリガが検出されたことに応じて、映像データを取得する。画像取得部１０５は、取得した映像データに含まれるフレーム画像を抽出部１０７に供給する。

　抽出部１０７は、抽出手段とも呼ばれる。抽出部１０７は、映像データに含まれるフレーム画像から人物の身体の画像領域（身体領域）を検出し、身体画像として抽出する（例えば、切り出す）。そして抽出部１０７は、機械学習を用いた骨格推定技術を用いて、身体画像において認識される人物の関節等の特徴に基づき人物の身体の少なくとも一部の骨格情報を抽出する。骨格情報は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される情報である。抽出部１０７は、例えばＯｐｅｎＰｏｓｅ等の骨格推定技術を用いてよい。抽出部１０７は、抽出した骨格情報を動作特定部１０８に供給する。

　動作特定部１０８は、上述した動作特定部１８の一例である。動作特定部１０８は、運用時に取得した映像データから抽出した骨格情報を、動作ＤＢ１０３を用いて動作ＩＤに変換する。これにより動作特定部１０８は、動作を特定する。具体的には、まず動作特定部１０８は、動作ＤＢ１０３に登録される登録骨格情報の中から、抽出部１０７で抽出した骨格情報との類似度が所定閾値以上である登録骨格情報を特定する。そして動作特定部１０８は、特定した登録骨格情報に対応付けられた登録動作ＩＤを、取得したフレーム画像に含まれる人物に対応する動作ＩＤとして特定する。

　ここで、動作特定部１０８は、１のフレーム画像に対応する骨格情報に基づいて１の行動ＩＤを特定してもよいし、複数のフレーム画像の各々に対応する骨格情報の時系列データに基づいて１の行動ＩＤを特定してもよい。動作特定部１０８は、複数のフレーム画像を用いて１の行動ＩＤを特定する場合、動きが大きい骨格情報だけを抽出し、抽出した骨格情報と動作ＤＢ１０３の登録骨格情報とを照合してよい。動きが大きい骨格情報だけを抽出するとは、所定期間内に含まれる異なるフレーム画像の骨格情報の差分が所定量以上の骨格情報を抽出することであってよい。このように少ない照合で済むため、計算負荷を軽減することができるとともに、登録骨格情報の量も少なくて済む。また人によって動作の持続時間が異なるところ、動きが大きい骨格情報だけを照合対象とするため、動作検出にロバスト性を持たせることができる。

　尚、動作ＩＤの特定には、上述した方法の他に、様々な方法が考えられる。例えば動作ＩＤで正解付けされた映像データを学習データとして学習させた動作推定モデルを用いて、対象となる映像データから動作ＩＤを推定する方法が挙げられる。しかしながら、この学習データを集めることが困難であり、コストも高い。これに対して本実施形態２では、動作ＩＤの推定に骨格情報を用い、動作ＤＢ１０３を活用して予め登録された骨格情報と比較する。したがって本実施形態２では、サーバ１００は、より容易に動作ＩＤを特定することができる。

　生成部１０９は、生成手段とも呼ばれる。生成部１０９は、動作特定部１０８で特定された複数の動作ＩＤに基づいて動作シーケンスを生成する。動作シーケンスは、複数の動作ＩＤを時系列で含むように構成される。生成部１０９は、生成した動作シーケンスを、判定部１１０に供給する。

　判定部１１０は、上述した判定部２０の一例である。判定部１１０は、生成した動作シーケンスが、動作シーケンステーブル１０４に登録された正常動作シーケンスＮＳのいずれかと一致（対応）するかを判定する。

　処理制御部１１１は、上述した処理制御部２１の一例である。処理制御部１１１は、生成された動作シーケンスが、正常動作シーケンスＮＳのいずれにも対応しないと判定された場合、端末装置２００に警告情報を出力する。

　尚、判定部１１０は、上記動作シーケンスが正常動作シーケンスＮＳのいずれにも対応しないと判定した場合、不正動作シーケンスのいずれに対応するかを判定してよい。この場合、処理制御部１１１は、不正動作シーケンスの種別に応じて予め定められる情報を、端末装置２００に出力してよい。一例として、不正動作シーケンスの種別に応じて、警告情報を表示する場合の表示態様（文字のフォント、色、若しくは太さ又は点滅等）を変えてもよいし、警告情報を音声出力する場合の音量又は音声自体を変えてもよい。これにより、店舗のスタッフは、不正行為の内容を認識し、不正行為に対して迅速かつ適切に対処できる。また処理制御部１１１は、不正動作が行われた時刻、場所、及び映像を、不正動作シーケンスの種別の情報とともに履歴情報として記録してもよい。これにより、店舗のスタッフは、不正行為の内容を認識し、不正行為に対する予防策を適切に講じることが可能となる。

　図５は、実施形態２にかかる映像データに含まれるフレーム画像４００から抽出された骨格情報を示す図である。フレーム画像４００には、ハンドスキャナＳを用いて商品Ｐ１のスキャン動作を行うユーザＵを正面から撮影した場合のユーザＵの上半身の画像領域が含まれている。また図５に示す骨格情報には、上半身から検出された、複数のキーポイント及び複数のボーンが含まれている。一例として、図５では、キーポイントとして、右耳Ａ１１、左耳Ａ１２、右目Ａ２１、左目Ａ２２、鼻Ａ３、首Ａ４、右肩Ａ５１、左肩Ａ５２、右肘Ａ６１、左肘Ａ６２、右手Ａ７１、及び左手Ａ７２が示されている。

　サーバ１００は、このような骨格情報と、上半身に対応する登録骨格情報とを比較し、これらが類似するか否かを判定することで、各動作を特定する。例えばスキャン動作の特定は、右手及び左手が接近したかが重要となり、「かごから商品を出す」又は「商品をかごに入れる」動作は、フレーム画像４００における右手及び左手の位置が重要となる。したがってサーバ１００は、右手Ａ７１及び左手Ａ７２の位置に重みをつけて類似度を算出してよい。またサーバ１００は、右手Ａ７１及び左手Ａ７２に加えて、右肩Ａ５１、左肩Ａ５２、右肘Ａ６１及び左肘Ａ６２に重みをつけて類似度を算出してもよい。

　尚、骨格用カメラ３００は、ユーザＵの少なくとも手領域を上面から撮影するものであってもよい。図６は、実施形態２にかかるフレーム画像５００から抽出された骨格情報を示す図である。フレーム画像５００は、ハンドスキャナＳを用いて商品Ｐ１のスキャン動作を行うユーザＵを上面から撮影した場合のユーザＵの手領域の画像領域が含まれている。そして一例として、図６では、キーポイントとして、右手Ａ７１及び左手Ａ７２が示されている。そしてサーバ１００は、フレーム画像５００から抽出した骨格情報と、手領域に対応する登録骨格情報とを比較して、これらが類似するか否かを判定することで、各動作を判定してもよい。

　図７は、実施形態２にかかる端末装置２００による映像データの送信方法の流れを示すフローチャートである。まず端末装置２００の制御部２０２は、開始トリガを検出したか否かを判定する（Ｓ２０）。制御部２０２は、開始トリガを検出したと判定した場合（Ｓ２０でＹｅｓ）、サーバ１００への、骨格用カメラ３００から取得した映像データの送信を開始する（Ｓ２１）。一方、制御部２０２は、開始トリガを検出したと判定しない場合（Ｓ２０でＮｏ）、Ｓ２０に示す処理を繰り返す。

　次に、端末装置２００の制御部２０２は、終了トリガを検出したか否かを判定する（Ｓ２２）。制御部２０２は、終了トリガを検出したと判定した場合（Ｓ２２でＹｅｓ）、サーバ１００への、骨格用カメラ３００から取得した映像データの送信を終了する（Ｓ２３）。一方、制御部２０２は、終了トリガを検出したと判定しない場合（Ｓ２２でＮｏ）、映像データの送信を実行しながら、Ｓ２２に示す処理を繰り返す。

　このように、映像データの送信期間を、所定の開始トリガと終了トリガの間に限定することで、通信データ量を最低限に抑えることができる。また期間外においては、サーバ１００における動作検出処理を省略できるため、計算リソースを節約できる。

　図８は、実施形態２にかかるサーバ１００による登録動作ＩＤ及び登録動作シーケンスの登録方法の流れを示すフローチャートである。まずサーバ１００の登録情報取得部１０１は、登録用映像データ及び登録動作ＩＤを含む動作登録要求を端末装置２００から受信する（Ｓ３０）。次に、登録部１０２は、登録用映像データを抽出部１０７に供給する。登録用映像データを取得した抽出部１０７は、登録用映像データに含まれるフレーム画像から身体画像を抽出する（Ｓ３１）。次に、抽出部１０７は、身体画像から骨格情報を抽出する（Ｓ３２）。次に、登録部１０２は、抽出部１０７から骨格情報を取得し、取得した骨格情報を登録骨格情報として、登録動作ＩＤに対応付けて動作ＤＢ１０３に登録する（Ｓ３３）。尚、登録部１０２は、身体画像から抽出された全ての骨格情報を登録骨格情報としてもよいし、一部の骨格情報（例えば肩、肘及び手の骨格情報）のみを登録骨格情報としてもよい。

　図９は、実施形態２にかかる登録動作を説明するための図である。一例として、動作ＤＢ１０３には、「Ａ」～「Ｅ」の登録動作ＩＤを有する５つの登録動作の登録骨格情報が記憶されていてよい。登録動作「Ａ」は、スキャン前かご６０から商品を取り出す動作である。登録動作「Ｂ」は、ハンドスキャナＳを用いて商品をスキャンする動作である。登録動作「Ｃ」は、スキャン済かご７０に商品を入れる動作である。登録動作「Ｄ」は、スキャン終了ボタンを押す動作である。登録動作「Ｅ」は、精算機に数量を入力する動作である。

　図８に戻り、説明を続ける。次に、登録情報取得部１０１は、複数の登録動作ＩＤ及び各動作の時系列順序の情報を含むシーケンス登録要求を端末装置２００から受信する（Ｓ３４）。次に、登録部１０２は、時系列順序の情報に基づいて登録動作ＩＤを並べた登録動作シーケンス（正常動作シーケンスＮＳ又は不正動作シーケンスＩＳ）を、動作シーケンステーブル１０４に登録する（Ｓ３５）。そしてサーバ１００は、処理を終了する。

　図１０は、実施形態２にかかる正常動作シーケンスＮＳを説明するための図である。一例として、動作シーケンステーブル１０４には、「１１」～「１４」の正常動作シーケンスＩＤを有する４つの正常動作シーケンスＮＳが少なくとも含まれていてよい。正常動作シーケンス「１１」は、１回スキャンしてスキャンが終了するシーケンス（Ａ→Ｂ→Ｃ→Ｄ）である。正常動作シーケンス「１２」は、２回スキャンしてスキャンが終了するシーケンス（Ａ→Ｂ→Ｃ→Ａ→Ｂ→Ｃ→Ｄ）である。正常動作シーケンス「１３」は、１回スキャンして、数量を入力するシーケンス（Ａ→Ｂ→Ｃ→Ｅ→Ｄ）である。正常動作シーケンス「１４」は、１回スキャンして数量を入力した後、もう１回スキャンして、スキャンが終了するシーケンス（Ａ→Ｂ→Ｃ→Ｅ→Ａ→Ｂ→Ｃ→Ｄ）である。

　図１１は、実施形態２にかかる不正動作シーケンスＩＳを説明するための図である。動作シーケンステーブル１０４には、「２１」～「２２」の不正動作シーケンスＩＤを有する２つの不正動作シーケンスＮＳが少なくとも含まれていてよい。不正動作シーケンス「２１」は、商品をスキャンしないで、スキャン前かご６０からスキャン済かご７０に入れる動作を含むシーケンス（？→Ａ→Ｃ→？）である。尚、「？」は、任意の動作を示す。また、不正動作シーケンス「２２」は、開始トリガと終了トリガとの間に、登録動作ＩＤのいずれも特定されなかったシーケンスであり、例えばユーザＵが精算機５０を立ち寄ったが何もせず立ち去った場合を示している。

　図１２は、実施形態２にかかるサーバ１００による動作検出方法の流れを示すフローチャートである。まずサーバ１００の画像取得部１０５は、端末装置２００から映像データの取得を開始した場合（Ｓ４０でＹｅｓ）、抽出部１０７は、映像データに含まれるフレーム画像から身体画像を抽出する（Ｓ４１）。次に抽出部１０７は、身体画像から骨格情報を抽出する（Ｓ４２）。動作特定部１０８は、抽出した骨格情報の少なくとも一部と、動作ＤＢ１０３に登録されている各登録骨格情報との間の類似度を算出し、類似度が所定閾値以上の登録骨格情報に対応付けられた登録動作ＩＤを、動作ＩＤとして特定する（Ｓ４３）。次に、生成部１０９は、動作ＩＤを動作シーケンスに追加する。具体的には、生成部１０９は、初回サイクルでは、Ｓ４３で特定した動作ＩＤを動作シーケンスとし、次回以降のサイクルでは、Ｓ４３で特定した動作ＩＤを、既に生成した動作シーケンスに追加する。そしてサーバ１００は、スキャンが終了したか、又は映像データの取得が終了したか否かを判定する（Ｓ４５）。尚、サーバ１００は、現サイクルのＳ４３で特定された動作が登録動作ＩＤ「Ｄ」の動作である場合、スキャンが終了したと判定してよい。サーバ１００は、スキャンが終了したか、又は映像データの取得が終了したと判定した場合（Ｓ４５でＹｅｓ）、処理をＳ４６に進め、そうでない場合（Ｓ４５でＮｏ）、Ｓ４１に戻し、動作シーケンスの追加処理を繰り返す。

　Ｓ４６において、判定部１１０は、動作シーケンスが動作シーケンステーブル１０４のいずれかの正常動作シーケンスＮＳに対応するか否かを判定する。判定部１１０は、動作シーケンスが正常動作シーケンスＮＳに対応する場合（Ｓ４６でＹｅｓ）、処理をＳ４９に進め、対応しない場合（Ｓ４６でＮｏ）、処理をＳ４７に進める。

　Ｓ４７において、判定部１１０は、動作シーケンスが動作シーケンステーブル１０４の不正動作シーケンスＩＳのいずれに対応するかを判定することにより、不正動作の種別を判定する。そして処理制御部１１１は、不正動作の種別に応じた警告情報を、端末装置２００に送信する（Ｓ４８）。そしてサーバ１００は、処理をＳ４９に進める。

　Ｓ４９において、サーバ１００は、映像データの取得が終了したか否かを判定する。サーバ１００は、映像データの取得が終了したと判定した場合（Ｓ４９でＹｅｓ）、処理を終了する。一方、サーバ１００は、映像データの取得が終了したと判定しない場合（Ｓ４９でＮｏ）、処理をＳ４１に戻し、動作シーケンスの追加処理を繰り返す。処理をＳ４１に戻すことで、スキャン終了後からユーザＵが精算機５０を去るまでの間の動作を監視することができる。

　このように実施形態２によれば、サーバ１００は、精算機５０を訪問したユーザＵの動作の流れを示した動作シーケンスを、正常動作シーケンスＮＳと比較することで、ユーザＵの動作が正常か否かを判定する。これにより、精算機５０を用いた操作の流れに即した複数の正常動作シーケンスＮＳを事前に登録しておくことで、実態に即した不正動作の検出が実現できる。尚、実施形態２についても、実施形態１と同様の効果を奏する。

　＜実施形態３＞
　次に、本開示の実施形態３について説明する。実施形態３は、所定の動作の特定に、映像データに加えて音声データを用いることに特徴を有する。例えば、所定の動作はスキャン動作である。

　図１３は、実施形態３にかかるサーバ１００ａ及び端末装置２００ａの構成を示すブロック図である。端末装置２００ａは、収音部２０５を含む点で端末装置２００と相違する。収音部２０５は、精算機５０の周辺の音声を収集する。制御部２０２は、映像データをサーバ１００ａに送信する場合、音声データもサーバ１００ａに送信する。

　サーバ１００ａは、動作特定部１０８に代えて、音声取得部１１２及び動作特定部１０８ａを備える。音声取得部１１２は、端末装置２００から音声データを取得し、動作特定部１０８ａに供給する。

　動作特定部１０８ａは、抽出部１０７で抽出された骨格情報、動作ＤＢ１０３における登録骨格情報、及び音声取得部１１２が取得した音声データに基づいて、動作ＩＤを特定する。例えば動作特定部１０８ａは、抽出部１０７で抽出された骨格情報と、所定の動作を示す登録動作ＩＤの登録骨格情報との類似度が所定閾値以上である場合、音声データに所定の音声が含まれるか否かを判定する。そして動作特定部１０８ａは、音声データに所定の音声が含まれる場合は、上記動作を示す登録動作ＩＤを、動作ＩＤとして特定する。一方、動作特定部１０８ａは、所定の音声が含まれない場合は、上記動作を示す登録動作ＩＤを、動作ＩＤとして特定しない。

　例えば所定の動作とは、商品をスキャンする動作であってよい。この場合、動作特定部１０８ａは、抽出した骨格情報と、スキャン動作の登録骨格情報との類似度が所定閾値以上である場合、正常にスキャンされた場合に発生する電子音が音声データに含まれるか否かを判定する。そして動作特定部１０８ａは、電子音が含まれなかった場合は、スキャン動作の登録動作ＩＤを動作ＩＤとして特定しない。この場合、動作特定部１０８ａは、ユーザＵがスキャンのフリだけして実際にはスキャンしていない動作「Ｂ’」を特定してよい。この動作は、例えば商品のバーコードが無い面にハンドスキャナＳをかざす動作が含まれる。

　図１４は、実施形態３にかかる不正動作シーケンスを説明するための図である。図１４は、不正動作シーケンス「２１」～「２２」に加えて、不正動作シーケンス「２３」が追加されている。不正動作シーケンス「２３」は、ユーザＵがスキャンのフリだけして実際にはスキャンしていない動作「Ｂ’」を含むシーケンス（？→Ａ→Ｂ’→Ｃ→？）である。

　このようにサーバ１００ａが骨格情報と音声とを組み合わせて動作を特定することで、検出したい不正動作のバリエーションを増やすことができる。

　＜実施形態４＞
　次に、本開示の実施形態４について説明する。実施形態４は、サーバが、ユーザＵが持ち出した商品の点数（商品数）に基づいて動作シーケンスを判定することに特徴を有する。

　図１５は、実施形態４にかかるサーバ１００ｂ及び端末装置２００の構成を示すブロック図である。端末装置２００は、骨格用カメラ３００に加えて、商品用カメラ３５０からも映像データを取得する。商品用カメラ３５０は、ユーザＵが持ち出した商品を撮影するカメラである。例えば商品用カメラ３５０は、スキャン前かご６０及びスキャン済かご７０の少なくとも一方を上方から撮影できる位置に配設されてよい。

　サーバ１００ｂは、判定部１１０に代えて、商品数特定部１１３及び判定部１１０ｂを備える点でサーバ１００と相違する。

　商品数特定部１１３は、商品数特定手段とも呼ばれる。商品数特定部１１３は、商品用カメラ３５０の映像を端末装置２００から取得し、商品用カメラ３５０の映像に基づいて、物体検出手法により商品数を特定する。例えば商品用カメラ３５０がスキャン前かご６０の上方から撮影するカメラである場合、商品数特定部１１３は、開始トリガに応じて取得した商品用カメラ３５０の映像から、商品数を特定してよい。また例えば商品用カメラ３５０がスキャン済かご７０の上方から撮影するカメラである場合、商品数特定部１１３は、終了トリガに応じて取得した商品用カメラ３５０の映像から、商品数を特定してよい。この場合、商品数特定部１１３は、終了トリガに代えて、スキャン前かご６０の重量が所定閾値未満となった場合に取得した商品用カメラ３５０の映像を、商品数の特定に用いてもよい。

　判定部１１０ｂは、生成部１０９が生成した動作シーケンスが、登録動作シーケンスのうち、商品数に応じた登録動作シーケンスに対応するか否かを判定する。例えば、商品数が２であれば、生成した動作シーケンスと、商品数２に応じた正常動作シーケンスＮＳ（図１０の正常動作シーケンス「１２」又は「１３」）とを比較し、生成した動作シーケンスに対応する正常動作シーケンスＮＳがあるか否かを判定する。

　図１６は、実施形態４にかかるサーバ１００ｂによる動作検出方法の流れを示すフローチャートである。図１６に示すステップは、図１２に示すＳ４６に代えて、Ｓ５０～Ｓ５１を含む。

　Ｓ４５においてサーバ１００ｂは、スキャンが終了したか、又は映像データの取得が終了したと判定した場合（Ｓ４５でＹｅｓ）、処理をＳ５０に進める。Ｓ５０において、商品数特定部１１３は、商品用カメラ３５０の映像に基づいて商品数を特定し、動作シーケンステーブル１０４に含まれる正常動作シーケンスＮＳのうち、特定した商品数に応じた正常動作シーケンスＮＳを特定する。そしてＳ５１において、判定部１１０ｂは、動作シーケンスが、特定した正常動作シーケンスＮＳに対応するか否かを判定する。判定部１１０ｂは、動作シーケンスが、特定した正常動作シーケンスＮＳに対応する場合（Ｓ５１でＹｅｓ）、処理をＳ４９に進め、対応しない場合（Ｓ５１でＮｏ）、処理をＳ４７に進める。

　このように実施形態４によれば、サーバ１００ｂは、動作シーケンスの判定に商品数を用いるため、より詳細な判定が可能となり、判定精度が向上する。これにより、例えば、ユーザＵが複数の商品を手に持って１点のみをスキャンした場合にも、不正動作として検出することが可能となる。

　なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば実施形態３と実施形態４を組み合わせることも可能である。

　また例えば、上述の実施形態２～４では、登録情報取得部１０１は、動作登録時に個別動作を示す登録用映像データを取得し、登録部１０２は、登録用映像データごとに骨格情報と動作ＩＤとを動作ＤＢ１０３に登録した。しかし、登録情報取得部１０１は、複数の個別動作を含む一連の動作（例えば、かごから商品を出し、商品をスキャンし、商品をかごに入れる動作）を示す登録用映像データと、各個別動作の出現順序の情報とを取得してよい。そして登録部１０２は、登録用映像データに含まれる各個別動作について、骨格情報を抽出し、骨格情報を、各個別動作に対応する動作ＩＤとともに動作ＤＢ１０３に登録してよい。

　また、上述の実施形態２～４では、サーバ１００，１００ａ，１００ｂが抽出処理、動作特定処理、シーケンス生成処理、及び判定処理を行うとした。しかし、処理の一部又は全部を、端末装置２００が行ってもよいし、ネットワークＮに接続された外部装置（不図示）が行ってもよい。

　上述の実施形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、プロセッサにコンピュータプログラムを実行させることにより実現することも可能である。

　上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　１，１ｂ，１０　動作検出システム
　１８　動作特定部
　２０　判定部
　２１　処理制御部
　５０　精算機
　６０　スキャン前かご
　７０　スキャン済かご
　１００，１００ａ，１００ｂ　サーバ
　１０１　登録情報取得部
　１０２　登録部
　１０３　動作ＤＢ
　１０４　動作シーケンステーブル
　１０５　画像取得部
　１０７　抽出部
　１０８，１０８ａ　動作特定部
　１０９　生成部
　１１０，１１０ｂ　判定部
　１１１　処理制御部
　１１２　音声取得部
　１１３　商品数特定部
　２００，２００ａ　端末装置
　２０１　通信部
　２０２　制御部
　２０３　表示部
　２０４　音声出力部
　２０５　収音部
　３００　骨格用カメラ
　３５０　商品用カメラ
　４００，５００　フレーム画像
　Ｓ　ハンドスキャナ
　Ｎ　ネットワーク

Claims

　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始する動作特定手段と、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定手段と、
　判定結果に応じて予め定められた処理を実行する処理制御手段と
　を備える動作検出システム。
　前記動作特定手段は、前記ユーザが前記精算機から去ったことを検出したことに応じて、前記少なくとも１つの動作ＩＤの特定を終了する
　請求項１に記載の動作検出システム。
　前記動作特定手段は、前記ユーザが前記精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、複数の動作ＩＤの特定を開始し、
　前記判定手段は、特定した前記複数の動作ＩＤを時系列で含む動作シーケンスが前記登録動作シーケンスに対応するか否かを判定し、
　前記処理制御手段は、前記動作シーケンスが前記登録動作シーケンスに対応しない場合、前記予め定められた処理を実行する
　請求項１又は２に記載の動作検出システム。
　前記ユーザが持ち出した商品を撮影した映像データに基づいて、商品数を特定する商品数特定手段をさらに備え、
　前記判定手段は、前記動作シーケンスが、前記登録動作シーケンスのうち、前記商品数に応じた登録動作シーケンスに対応するか否かを判定する
　請求項１から３のいずれか一項に記載の動作検出システム。
　前記処理制御手段は、前記動作シーケンスが前記登録動作シーケンスに対応しない場合、前記動作シーケンスに応じて予め定められる情報を出力する
　請求項１から４のいずれか一項に記載の動作検出システム。
　前記動作特定手段は、前記骨格情報の少なくとも一部と、スキャン動作を示す登録動作ＩＤの登録骨格情報との類似度が所定閾値以上である場合であっても、所定の音声を取得しない場合は、前記スキャン動作を示す登録動作ＩＤを、動作ＩＤとして特定しない
　請求項１から５のいずれか一項に記載の動作検出システム。
　人物の所定の動作を示す登録用映像データと、少なくとも１つの登録動作ＩＤとを取得する登録情報取得手段と、
　前記登録用映像データに含まれるフレーム画像から抽出された骨格情報を、登録骨格情報として、前記少なくとも１つの登録動作ＩＤに対応付けて登録し、前記少なくとも１つの登録動作ＩＤを含んだ登録動作シーケンスを登録する登録手段と
　をさらに備える
　請求項１から６のいずれか一項に記載の動作検出システム。
　前記動作特定手段は、前記映像データに含まれる異なるフレーム画像から抽出された骨格情報の少なくとも一部の差分が所定量以上である場合、前記異なるフレーム画像から抽出された前記骨格情報の少なくとも一部と前記登録骨格情報とを照合して、前記動作ＩＤを特定する
　請求項７に記載の動作検出システム。
　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始し、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定し、
　判定結果に応じて予め定められた処理を実行する
　動作検出方法。
　ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも１つの動作ＩＤの特定を開始する動作特定処理と、
　特定した前記少なくとも１つの動作ＩＤを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定処理と、
　判定結果に応じて予め定められた処理を実行する処理制御処理と
　をコンピュータに実行させるためのプログラムが格納された非一時的なコンピュータ可読媒体。