WO2023105726A1

WO2023105726A1 - 作業分析装置

Info

Publication number: WO2023105726A1
Application number: PCT/JP2021/045391
Authority: WO
Inventors: 智史上野; 一洋大和
Original assignee: ファナック株式会社
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-06-15

Abstract

少ない計算量で、画像から物体を認識させて作業の分類を行うこと。　作業分析装置は、作業員の作業を分析する作業分析装置であって、前記作業員の作業を含む映像データから、前記作業員の関節位置情報を推定する関節位置推定部と、前記関節位置推定部により推定された前記関節位置情報に基づいて前記作業員の動作情報を推定する動作推定部と、前記動作推定部により推定された前記動作情報に基づいて前記映像データから前記動作情報に関連する物体に係る映像データの範囲を切り出す画像切り出し部と、前記画像切り出し部により切り出された前記映像データの範囲において前記物体の認識を行う物体認識部と、前記物体認識部により認識された前記物体に基づいて、前記作業員の作業を特定する作業特定部と、を備える。

Description

作業分析装置

　本発明は、作業分析装置に関する。

　工場では工作機械等の稼働データは取得できているが、作業員の作業のデータは取得できていない。そこで、作業の改善、ロボット導入検討、工場のデジタルツイン等の実現には作業員の作業を見える化する必要があり、作業員の作業の映像から何をしていたのかを自動で認識する技術が重要である。
　この点、作業員の作業が撮像された画像の入力データと当該画像が示す作業員の作業のラベルデータとからなる学習対象データを用いて機械学習を行い、画像から作業を特定するための学習済みモデルを生成し、学習済みモデルを利用して分析対象の画像がどの作業を行っている画像であるかを特定する技術が知られている。例えば、特許文献１参照。
　また、デプスセンサにより撮像された深度付き画像データから作業者の手の位置を特定するとともに、デジタルカメラにより撮像された画像データから対象物の位置を特定し、作業において作業者が行なった動作の内容を特定する技術が知られている。例えば、特許文献２参照。

特開２０２１－６７９８１号公報国際公開第２０１７／２２２０７０号

　しかしながら、特許文献１の学習済みモデルのような分類モデルは複雑で解釈性が低いという問題がある。
　また、特許文献２のように作業分類のために画像内から使っている道具（物体）を検出するには、画像全体を走査するため多くの計算量が必要である。

　そこで、少ない計算量で、画像から物体を認識させて作業の分類を行うことが望まれている。

　本開示の作業分析装置の一態様は、作業員の作業を分析する作業分析装置であって、前記作業員の作業を含む映像データから、前記作業員の関節位置情報を推定する関節位置推定部と、前記関節位置推定部により推定された前記関節位置情報に基づいて前記作業員の動作情報を推定する動作推定部と、前記動作推定部により推定された前記動作情報に基づいて前記映像データから前記動作情報に関連する物体に係る映像データの範囲を切り出す画像切り出し部と、前記画像切り出し部により切り出された前記映像データの範囲において前記物体の認識を行う物体認識部と、前記物体認識部により認識された前記物体に基づいて、前記作業員の作業を特定する作業特定部と、を備える。

　本開示の作業分析装置の一態様は、作業員の作業を分析する作業分析装置であって、前記作業員の作業を含む映像データから物体を検出する物体検出部と、前記映像データから前記作業員の関節位置情報を推定する関節位置推定部と、前記関節位置推定部により推定された前記関節位置情報に基づいて、前記物体検出部により検出された前記物体を含む画像領域に前記作業員の関節位置を含む画像領域が入って出たか否かを検知する物体領域入出検知部と、前記物体領域入出検知部の検知結果に基づいて、前記映像データから前記物体検出部により検出された前記物体に係る映像データの範囲を切り出す画像切り出し部と、前記画像切り出し部により切り出された前記映像データの範囲に対して物体認識を行う物体認識部と、前記物体認識部により前記映像データの範囲で前記物体が認識できない場合、前記物体検出部による前記物体の検出を定期的に実行させる物体検出活性部と、前記映像データにおける前記物体検出部により検出された前記物体の座標の変化に基づいて、作業を特定する作業推定部と、を備える。

　一態様によれば、少ない計算量で、画像から物体を認識させて作業の分類を行うことができる。

第１実施形態に係る作業分析システムの機能的構成例を示す機能ブロック図である。作業員の動作情報と工具（物体）とに応じた映像データ上の範囲の一例を示す図である。作業員の動作情報と工具（物体）とに応じた映像データ上の範囲の一例を示す図である。作業テーブルの一例を示す図である。ドライバーを握る手の形の一例を示す図である。図４Ａと類似する手の形でノギスを握る手の形の一例を示す図である。図２Ｂに示す映像データにおいて作業員の手の形がドライバーの使用の手の場合に切り出される映像データの一例を示す図である。図２Ｂに示す映像データにおいて作業員の手の形がノギスの使用の手の場合に切り出される映像データの一例を示す図である。作業分析装置の分析処理について説明するフローチャートである。第２実施形態に係る作業分析システムの機能的構成例を示す機能ブロック図である。作業員の作業を含む映像データの一例を示す図である。作業員の作業を含む映像データの一例を示す図である。作業員の作業を含む映像データの一例を示す図である。作業員の作業を含む映像データの一例を示す図である。作業分析装置の分析処理について説明するフローチャートである。

　作業分析装置の第１実施形態及び第２実施形態について、図面を参照して詳細に説明をする。
　ここで、各実施形態は、カメラにより撮像された作業員と物体（工具）との画像から、作業員の作業を特定するという構成において共通する。
　ただし、作業員の作業の特定において、第１実施形態では作業員の作業を含む映像データから作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて作業員の動作情報を推定し、推定した作業員の動作情報に基づいて映像データから動作情報に関連する物体に係る映像データの範囲を切り出し、切り出した映像データの範囲から物体の認識し、認識した物体から前記作業員の作業を特定する。これに対し、第２実施形態では作業員の作業を含む映像データから物体を検出するとともに、作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて検出した物体を含む画像領域に作業員の関節位置が入って出たか否かを検知し、当該検知結果に基づいて、映像データから検出した物体に係る映像データの範囲を切り出し、切り出した映像データの範囲に対して物体認識を行い、映像データの範囲で物体が認識できない場合に当該物体の検出を定期的に実行することで物体の座標の変化に基づいて作業員の作業を判定する点が、第１実施形態と相違する。
　以下では、まず第１実施形態について詳細に説明し、次に第２実施形態において第１実施形態と相違する部分を中心に説明を行う。

＜第１実施形態＞
　図１は、第１実施形態に係る作業分析システムの機能的構成例を示す機能ブロック図である。
　図１に示すように、作業分析システム１００は、作業分析装置１、及びカメラ２を有する。

　作業分析装置１、及びカメラ２は、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やインターネット等の図示しないネットワークを介して相互に接続されていてもよい。この場合、作業分析装置１、及びカメラ２は、かかる接続によって相互に通信を行うための図示しない通信部を備えている。なお、作業分析装置１、及びカメラ２は、図示しない接続インタフェースを介して互いに有線又は無線で直接接続されてもよい。
　また、図１では、作業分析装置１は１つのカメラ２と接続されているが、２つ以上の複数のカメラ２と接続されてもよい。

　カメラ２は、デジタルカメラ等であり、図示しない作業員及び工具等の物体をカメラ２の光軸に対して垂直な平面に投影した２次元のフレーム画像を所定のフレームレート（例えば、３０ｆｐｓ等）で撮像する。カメラ２は、撮像したフレーム画像を映像データとして作業分析装置１に出力する。なお、カメラ２により撮像される映像データは、ＲＧＢカラー画像やグレースケール画像、深度画像等の可視光画像でもよい。

＜作業分析装置１＞
　作業分析装置１は、当業者にとって公知のコンピュータであり、図１に示すように、制御部１０及び記憶部２０を有する。また、制御部１０は、関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３、物体認識部１０４、及び作業特定部１０５を有する。また、作業特定部１０５は、作業推定部１０５１を有する。

　記憶部２０は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶装置である。記憶部２０には、後述する制御部１０が実行するオペレーティングシステム及びアプリケーションプログラム等が記憶される。また、記憶部２０は、映像データ記憶部２０１、動作記憶部２０２、物体位置関係記憶部２０３、及び作業記憶部２０４を含む。

　映像データ記憶部２０１には、カメラ２により撮像された作業員及び工具等の物体の映像データが記憶される。

　動作記憶部２０２には、後述する動作推定部１０２により推定される作業員の関節位置情報に対応する作業員の動作情報を出力するルールベース又は学習済みモデルが記憶される。具体的には、例えば、カメラ２により撮像された特定したい作業（例えば、「ノギスで測定」や「ネジ回し」等）それぞれを行っている作業員の映像データにおける作業員の手等の関節位置を含む関節位置情報を入力データとし、当該作業をラベルデータとする教師データを用いた公知の機械学習により予め生成されたニューラルネットワーク等の学習済みモデルが動作記憶部２０２に記憶されてもよい。あるいは、カメラ２により撮像された特定したい作業それぞれを行っている作業員の映像データにおける作業員の関節位置情報と、当該作業と、を公知の手法に基づいて関係付けしたルールベースが動作記憶部２０２に記憶されてもよい。

　物体位置関係記憶部２０３は、後述する動作推定部１０２により推定される作業員の動作情報に基づいて、当該動作情報に関連する工具（物体）が含まれる映像データ上の範囲を予め記憶する。
　図２Ａ及び図２Ｂは、作業員の動作情報と工具（物体）とに応じた映像データ上の範囲の一例を示す図である。図２Ａは、動作情報として作業員がノギスで測定を行っている場合の画像を示す。図２Ｂは、動作情報として作業員がドライバーでネジ回しを行っている場合の画像を示す。
　図２Ａに示すように、作業員がノギスで測定を行っている場合、後述する関節位置推定部１０１により推定された関節位置情報が示す作業員の手の関節位置（破線の矩形）を基準にしてノギス（物体）が存在する映像データ上の範囲として、例えば一点鎖線で示す水平方向に長い矩形の画像座標系における相対位置座標が物体位置関係記憶部２０３に予め記憶される。
　また、図２Ｂに示すように、作業員がネジ回しを行っている場合、後述する関節位置推定部１０１により推定された関節位置情報が示す作業員の手の関節位置（破線の矩形）を基準にしてドライバー（物体）が存在する映像データ上の範囲として、例えば一点鎖線で示す垂直方向に長い矩形の画像座標系における相対位置座標が物体位置関係記憶部２０３に予め記憶される。

　作業記憶部２０４は、後述する物体認識部１０４により認識された工具（物体）と、対応する作業員の作業と、関係付けした作業テーブルを記憶する。
　図３は、作業テーブルの一例を示す図である。
　図３に示すように、作業テーブルは、「物体」及び「作業」の格納領域を有する。
　作業テーブル内の「物体」の格納領域には、例えば、「ドライバー」、「ノギス」等の工具名が格納される。
　作業テーブル内の「作業」の格納領域には、例えば、「ネジ回し」、「ノギスで測定」等の作業が格納される。
　なお、作業テーブル内の「物体」及び「作業」の格納領域には、作業分析装置１に含まれるキーボードやタッチパネル等の入力装置を用いて作業員等のユーザにより予め登録されるようにしてもよい。

　制御部１０は、ＣＰＵ、ＲＯＭ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＣＭＯＳメモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
　ＣＰＵは作業分析装置１を全体的に制御するプロセッサである。ＣＰＵは、ＲＯＭに格納されたシステムプログラム及びアプリケーションプログラムを、バスを介して読み出し、システムプログラム及びアプリケーションプログラムに従って作業分析装置１全体を制御する。これにより、図１に示すように、制御部１０は、関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３、物体認識部１０４、及び作業特定部１０５の機能を実現するように構成される。また、作業特定部１０５は、作業推定部１０５１の機能を実現するように構成される。ＲＡＭには一時的な計算データや表示データ等の各種データが格納される。ＣＭＯＳメモリは図示しないバッテリでバックアップされ、作業分析装置１の電源がオフされても記憶状態が保持される不揮発性メモリとして構成される。

　関節位置推定部１０１は、作業員の作業を含む映像データから、作業員の関節位置情報を推定する。
　具体的には、関節位置推定部１０１は、公知の手法（例えば、菅野滉介、奥健太、川越恭二、「多次元時系列データからのモーション検出・分類手法」、DEIM Forum 2016 G4-5、又は、上園翔平、小野智司、「LSTM Autoencoderを用いたマルチモーダル系列データの特徴抽出」、人工知能学会研究会資料、SIG-KBS-B802-01、2018）を用いて、映像データ記憶部２０１に記憶されている時刻情報が付加された映像データから作業員の手等の関節の座標、角度（手の形）の時系列データを関節位置情報として推定する。
　なお、以下では、関節位置推定部１０１は、作業員の手の関節位置を関節位置情報として推定する場合について説明する。しかしながら、関節位置推定部１０１は、作業員の手以外の部位の関節位置についても、手の関節位置の場合と同様に推定することができる。

　動作推定部１０２は、関節位置推定部１０１により推定された関節位置情報に基づいて作業員の動作情報を推定する。
　なお、以下では、動作推定部１０２は、作業員の動作として、図２Ａに示す「ノギスで測定」と、図２Ｂに示す「ネジ回し」と、の動作情報を推定する場合について説明する。しかしながら、動作推定部１０２は、「ノギスで測定」及び「ネジ回し」以外の動作情報についても、「ノギスで測定」や「ネジ回し」の場合と同様に推定する。
　具体的には、動作推定部１０２は、例えば、関節位置推定部１０１により推定された手の形を示す関節位置情報を入力データとして、動作記憶部２０２に記憶された学習済みモデルに入力し、映像データにおける作業員の動作（すなわち、「ノギスで測定」又は「ネジ回し」）を推定する。あるいは、動作推定部１０２は、関節位置推定部１０１により推定された手の形を示す関節位置情報と、動作記憶部２０２に記憶されたルールベースと、に基づいて映像データにおける作業員の動作を推定するようにしてもよい。また、動作推定部１０２は、推定した作業員の動作情報とともに、当該動作情報が示す動作を行う手の形（手の関節位置）の確からしさを示す確率等を算出するようにしてもよい。
　なお、動作推定部１０２は、図４Ａ及び図４Ｂに示すように、関節位置推定部１０１により推定された手の形があいまいで２つ以上の異なる物体（工具）を握る関節位置に類似する場合、複数の動作を動作情報として推定してもよい。図４Ａは、ドライバーを握る手の形の一例を示す図である。図４Ｂは、図４Ａと類似する手の形でノギスを握る手の形の一例を示す図である。

　画像切り出し部１０３は、動作推定部１０２により推定された動作情報に基づいて映像データから動作情報に関連する物体（工具）に係る映像データの範囲を切り出す。
　具体的には、画像切り出し部１０３は、例えば、動作推定部１０２により推定された動作情報に対応する切り出す映像データ上の範囲である、画像座標系における相対位置座標を物体位置関係記憶部２０３から取得する。画像切り出し部１０３は、図２Ａ又は図２Ｂに示すように、作業員の手の関節位置（破線の矩形）を基準にして取得した相対位置座標に基づいて、一点鎖線で示す矩形の範囲の映像データを切り出す。
　なお、動作推定部１０２により推定された動作情報に複数の動作が含まれる場合、画像切り出し部１０３は、動作情報が示す複数の動作それぞれに対応する画像座標系の相対位置座標を取得し、作業員の手の関節位置を基準にして取得したそれぞれの動作の相対位置座標に基づいて矩形の範囲の映像データを切り出す。
　図５Ａ及び図５Ｂは、動作情報に複数の動作が含まれる場合の切り出された映像データの一例を示す図である。
　図５Ａは、図２Ｂに示す映像データにおいて作業員の手の形がドライバーの使用の手の場合に切り出される映像データの一例を示す図である。図５Ｂは、図２Ｂに示す映像データにおいて作業員の手の形がノギスの使用の手の場合に切り出される映像データの一例を示す図である。

　物体認識部１０４は、画像切り出し部１０３により切り出された映像データの範囲において物体（工具）の認識を行う。
　具体的には、物体認識部１０４は、例えば、公知の手法を用いて、切り出された映像データに対してエッジ量等の画像特徴量を抽出する。物体認識部１０４は、抽出した画像特徴量と、記憶部２０に予め記憶された工具（物体）毎の画像特徴量と、のマッチング処理を行い、切り出された映像データにおける工具（物体）を認識する。また、物体認識部１０４は、認識した工具（物体）の確からしさを示す確率を算出するようにしてもよい。
　例えば、動作推定部１０２により推定された動作情報に複数の動作が含まれる場合、物体認識部１０４は、図５Ａの切り出された映像データの範囲からドライバー（物体）を認識し、ドライバー（物体）の確率を９０％と算出するようにしてもよい。また、物体認識部１０４は、図５Ｂの切り出された映像データの範囲からノギス（工具）を認識できず、ノギス（物体）の確率を３％と算出するようにしてもよい。

　作業特定部１０５は、物体認識部１０４により認識された物体（工具）に基づいて、作業員の作業を特定する。
　具体的には、作業特定部１０５は、例えば、物体認識部１０４により認識された工具（物体）と、作業記憶部２０４に記憶された作業テーブルと、に基づいて作業員の作業を特定する。作業特定部１０５は、特定した作業を作業分析装置１に含まれる液晶ディスプレイ等の表示装置（図示しない）に表示するようにしてもよい。
　また、作業特定部１０５は、物体認識部１０４により認識された工具（物体）が作業記憶部２０４に記憶された作業テーブルに登録されていない場合、「作業を特定できなかった」等のメッセージを作業分析装置１の表示装置（図示しない）に表示してもよい。

　作業推定部１０５１は、動作推定部１０２により推定された動作情報に複数の動作が含まれる場合、動作推定部１０２により推定された複数の動作それぞれを行う手の形（手の関節位置）の確率と物体認識部１０４により切り出された複数の映像データの範囲毎に認識された物体の確率とに基づいて最も確率の高い作業を推定する。
　例えば、図５Ａに示す映像データにおいて、動作推定部１０２により推定された「ネジ回し」の動作を行う手の形（手の関節位置）の確率が６０％で、物体認識部１０４により認識された「ドライバー」の確率が９０％である場合、作業推定部１０５１は、「ネジ回し」の作業の確率を０．５（＝０．６×０．９）と算出する。また、図５Ｂに示す映像データにおいて、動作推定部１０２により推定された「ノギスで測定」の動作を行う手の形（手の関節位置）の確率が４０％で、物体認識部１０４により認識された「ノギス」の確率が３％である場合、作業推定部１０５１は、「ノギスで測定」の作業の確率を０．０１（＝０．４×０．０３）と算出する。そして、作業推定部１０５１は、確率が０．５と最も高い「ネジ回し」を作業員の作業として特定する。

＜作業分析装置１の分析処理＞
　次に、第１実施形態に係る作業分析装置１の分析処理に係る動作について説明する。
　図６は、作業分析装置１の分析処理について説明するフローチャートである。ここで示すフローは、カメラ２から映像データが入力される間繰り返し実行される。

　ステップＳ１において、関節位置推定部１０１は、作業員の作業を含む映像データから作業員の手の関節位置情報を推定する。

　ステップＳ２において、動作推定部１０２は、ステップＳ１で推定された関節位置情報に基づいて作業員の動作情報を推定する。

　ステップＳ３において、画像切り出し部１０３は、ステップＳ２で推定された動作情報に含む動作に関連する物体（工具）に係る映像データの範囲を切り出す。なお、画像切り出し部１０３は、ステップＳ２で推定された動作情報に複数の動作が含まれる場合、動作毎に関連する物体（工具）に係る映像データの範囲を切り出す。

　ステップＳ４において、物体認識部１０４は、ステップＳ３で切り出された映像データの範囲において物体（工具）を認識する。なお、物体認識部１０４は、ステップＳ３で切り出された映像データが複数ある場合、複数の映像データそれぞれの範囲において物体（工具）を認識する。

　ステップＳ５において、作業特定部１０５は、ステップＳ４で認識された工具（物体）と、作業記憶部２０４に記憶された作業テーブルとに基づいて、作業員の作業を特定する。なお、ステップＳ２で動作推定部１０２により複数の動作が推定された場合、作業推定部１０５１が、ステップＳ２で推定された複数の動作それぞれを行う手の形（手の関節位置）の確率と、ステップＳ３で切り出された複数の映像データ毎にステップＳ４で認識された物体の確率と、に基づいて最も確率の高い作業を作業員の作業として特定する。

　ステップＳ６において、作業特定部１０５は、ステップＳ５で特定した作業を作業分析装置１の表示装置（図示しない）に表示する。なお、作業特定部１０５は、ステップＳ４で認識された工具（物体）が作業記憶部２０４に記憶された作業テーブルに登録されていない場合、「作業を特定できなかった」等のメッセージを作業分析装置１の表示装置（図示しない）に表示する。

　以上により、第１実施形態に係る作業分析装置１は、作業員の作業を含む映像データから作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて作業員の動作情報を推定し、推定した作業員の動作情報に基づいて映像データから動作情報に関連する物体に係る映像データの範囲を切り出し、切り出した映像データの範囲から物体の認識し、認識した物体から作業員の作業を特定する。これにより、作業分析装置１は、少ない計算量で、画像から物体を認識させて作業の分類を行うことができる。
　また、作業分析装置１は、高価なＧＰＵ等を必要とせずに、安価なデバイスでも実施することが可能である。
　また、作業分析装置１は、作業分類のモデルの解釈が容易であり、ユーザが納得して使うことができる。また、例えば、作業分類の精度に問題がある場合、物体認識の精度が低いのか、特徴的な手の関節位置を検出する精度が低いのか、という問題に切り分けることができ、分類モデルを拡張・改良しやすい。
　以上、第１実施形態について説明した。

　次に、第２実施形態について説明する。第１実施形態では作業員の作業を含む映像データから作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて作業員の動作情報を推定し、推定した作業員の動作情報に基づいて映像データから動作情報に関連する物体に係る映像データの範囲を切り出し、切り出した映像データの範囲から物体の認識し、認識した物体から前記作業員の作業を特定する。これに対し、第２実施形態では作業員の作業を含む映像データから物体を検出するとともに、作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて検出した物体を含む画像領域に作業員の関節位置が入って出たか否かを検知し、当該検知結果に基づいて、映像データから検出した物体に係る映像データの範囲を切り出し、切り出した映像データの範囲に対して物体認識を行い、映像データの範囲で物体が認識できない場合に当該物体の検出を定期的に実行することで物体の座標の変化に基づいて作業員の作業を判定する点が、第１実施形態と相違する。
　これにより、第２実施形態の作業分析装置１Ａは、少ない計算量で、画像から物体を認識させて作業の分類を行うことができる。
　以下、第２実施形態について説明する。

＜第２実施形態＞
　図７は、第２実施形態に係る作業分析システムの機能的構成例を示す機能ブロック図である。なお、図１の作業分析システム１００の要素と同様の機能を有する要素については、同じ符号を付し、詳細な説明は省略する。
　図７に示すように、作業分析システム１００は、作業分析装置１Ａ、及びカメラ２を有する。
　カメラ２は、第１実施形態におけるカメラ２と同等の機能を有する。

＜作業分析装置１Ａ＞
　図７に示すように、作業分析装置１Ａは、制御部１０ａ、及び記憶部２０ａを含む。また、制御部１０ａは、関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３ａ、物体認識部１０４ａ、作業特定部１０５、物体検出部１０６、物体領域入出検知部１０７、及び物体検出活性部１０８を有する。また、作業特定部１０５は、作業推定部１０５１ａを有する。

　記憶部２０ａは、ＲＯＭやＨＤＤ等の記憶装置である。記憶部２０ａには、後述する制御部１０ａが実行するオペレーティングシステム及びアプリケーションプログラム等が記憶される。また、記憶部２０ａは、映像データ記憶部２０１、動作記憶部２０２、物体位置関係記憶部２０３、作業記憶部２０４、及び物体座標記憶部２０５を含む。
　映像データ記憶部２０１、動作記憶部２０２、物体位置関係記憶部２０３、及び作業記憶部２０４は、第１実施形態における映像データ記憶部２０１、動作記憶部２０２、物体位置関係記憶部２０３、及び作業記憶部２０４と同等のデータが記憶される。
　物体座標記憶部２０５には、後述する物体検出部１０６により映像データから検出された工具（物体）の画像座標系における座標が記憶される。

　制御部１０ａは、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＣＭＯＳメモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
　ＣＰＵは作業分析装置１Ａを全体的に制御するプロセッサである。ＣＰＵは、ＲＯＭに格納されたシステムプログラム及びアプリケーションプログラムを、バスを介して読み出し、システムプログラム及びアプリケーションプログラムに従って作業分析装置１Ａ全体を制御する。これにより、図７に示すように、制御部１０ａは、関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３ａ、物体認識部１０４ａ、作業特定部１０５、物体検出部１０６、物体領域入出検知部１０７、及び物体検出活性部１０８の機能を実現するように構成される。また、作業特定部１０５は、作業推定部１０５１ａの機能を実現するように構成される。

　関節位置推定部１０１、動作推定部１０２、及び作業特定部１０５は、第１実施形態における関節位置推定部１０１、動作推定部１０２、及び作業特定部１０５と同等の機能を有する。

　画像切り出し部１０３ａは、第１実施形態の画像切り出し部１０３と同様に、動作推定部１０２により推定された動作情報に基づいて映像データから動作情報に関連する物体（工具）に係る映像データの範囲を切り出す。また、画像切り出し部１０３ａは、後述する物体領域入出検知部１０７による検知結果に基づいて、映像データから後述する物体検出部１０６により検出された物体（工具）に係る映像データの範囲を切り出す。

　物体認識部１０４ａは、第１実施形態の物体認識部１０４と同様に、画像切り出し部１０３ａにより切り出された映像データの範囲において物体（工具）の認識を行う。また、物体認識部１０４ａは、後述する物体領域入出検知部１０７による検知結果に基づいて画像切り出し部１０３ａにより切り出された映像データの範囲において物体（工具）の認識を行う。

　作業推定部１０５１ａは、後述する物体検出部１０６により検出された工具（物体）の座標の変化に基づいて、作業を特定する。なお、作業推定部１０５１ａの動作については後述する。

　物体検出部１０６は、作業員の作業を含む映像データから工具（物体）を検出する。
　図８は、作業員の作業を含む映像データの一例を示す図である。
　図８に示す映像データでは、ノギスはテーブルの上に置かれているが、作業員により使用されていない。物体検出部１０６は、公知の手法を用いて、図８に示す映像データの画像全体に対してエッジ量等の画像特徴量を抽出する。物体検出部１０６は、抽出した画像特徴量と、記憶部２０に予め記憶された工具（物体）毎の画像特徴量と、のマッチング処理を行い、映像データにおける工具（物体）を検出し、検出した工具（物体）を含む画像領域（一点鎖線の矩形）の画像座標系の座標を取得する。物体検出部１０６は、取得した画像領域（一点鎖線の矩形）の画像座標系の座標を物体座標記憶部２０５に記憶する。
　なお、物体検出部１０６の検出処理は、最初の一度のみ行うようにしてもよい。

　物体領域入出検知部１０７は、関節位置推定部１０１により推定された作業者の関節位置情報に基づいて、物体検出部１０６により検出された工具（物体）を含む画像領域に作業員の関節位置が入って出たか否かを検知する。
　具体的には、物体領域入出検知部１０７は、例えば、関節位置推定部１０１により推定された関節位置情報に基づいて、図８の映像データにおいて作業員の手の関節位置を含む画像領域（破線の矩形）の位置を検知する。物体領域入出検知部１０７は、作業員の手の関節位置を含む画像領域（破線の矩形）の位置が、物体検出部１０６により検出された工具（物体）を含む画像領域（一点鎖線の矩形）の位置に入って出た（すなわち、重なって離れた）か否かを判定する。例えば、物体領域入出検知部１０７は、図８の場合、作業員の手の関節位置の画像領域（破線の矩形）と、工具（物体）を含む画像領域（一点鎖線の矩形）の位置とが離れていることから、工具（物体）の画像領域に作業員の関節位置が入って出ていないと判定する。
　一方、物体領域入出検知部１０７は、図９及び図１０に示すような場合、作業員の手の関節位置の画像領域（破線の矩形）が、工具（物体）を含む画像領域（一点鎖線の矩形）に入って出たと判定する。この場合、画像切り出し部１０３ａは、図１０に示す物体の画像領域（一点鎖線の矩形）を映像データから切り出し、物体認識部１０４ａは、画像切り出し部１０３ａにより切り出された映像データの範囲において物体（工具）の認識を行う。

　物体検出活性部１０８は、物体認識部１０４ａにより物体検出部１０６で検出された工具（物体）が認識できない場合、物体検出部１０６による工具（物体）の検出を定期的に実行させる。
　具体的には、物体検出活性部１０８は、例えば、物体認識部１０４ａにより図１０の一点鎖線の矩形で示す画像領域で物体検出部１０６により検出された工具（物体）が認識できない場合、作業員が当該工具（物体）を使って作業が開始したと判定する。そして、物体検出活性部１０８は、物体検出部１０６に対して図１０の映像データ全体から工具（物体）の検出を定期的（例えば、１秒毎等）に実行させる。この場合、作業推定部１０５１ａは、図１１に示すように、検出された工具（物体）の画像領域（二点鎖線の矩形）の位置が変化している場合、作業員が工具（物体）を使用して作業特定部１０５により特定された作業を行っていると特定する。

　一方、作業推定部１０５１ａは、工具（物体）の画像領域（二点鎖線の矩形）の位置が変化していない（もしくは工具（物体）が検出できない）、かつ作業員の手の画像領域（破線の矩形）から離れていて、作業員の手の画像領域（破線の矩形）が動いている場合、作業員が工具（物体）の使用を終了したと特定する。この場合、物体検出活性部１０８は、物体検出部１０６による物体検出の定期実行を終了する。
　そうすることで、作業分析装置１Ａは、物体検出部１０６による物体検出処理が重いことから、物体検出と関節位置情報とを用いて作業員が工具（物体）を使っている場合のみに物体検出処理を行うことで実行する回数を減らすことができる。
　また、作業分析装置１Ａは、特定した作業員の作業が工具（物体）を使った作業か否かを判別することかできる。

＜作業分析装置１Ａの分析処理＞
　次に、第２実施形態に係る作業分析装置１Ａの分析処理に係る動作について説明する。
　図１２は、作業分析装置１の分析処理について説明するフローチャートである。ここで示すフローは、カメラ２から映像データが入力される間繰り返し実行される。

　ステップＳ１１において、物体検出部１０６は、作業員の作業を含む映像データ全体から物体（工具）を検出する。

　ステップＳ１２において、関節位置推定部１０１は、映像データから作業員の手の関節位置情報を推定する。

　ステップＳ１３において、物体領域入出検知部１０７が、作業員の手の関節位置の画像領域が物体（工具）を含む画像領域に入って出たと判定した場合、画像切り出し部１０３ａは、ステップＳ１１で検出された物体（工具）に係る映像データの範囲を切り出す。

　ステップＳ１４において、物体認識部１０４ａは、ステップＳ１３で切り出された映像データの範囲において物体（工具）を認識する。

　ステップＳ１５において、物体検出活性部１０８は、ステップＳ１４において物体認識部１０４ａがステップＳ１１で検出された物体（工具）を認識できたか否かを判定する。物体認識部１０４ａが検出された物体（工具）を認識できた場合、物体（工具）は最初の位置にある（使用されていない）ので、処理はステップＳ１５に留まる。一方、物体認識部１０４ａが検出された物体（工具）を認識できなかった場合、処理はステップＳ１６に進む。

　ステップＳ１６において、物体検出活性部１０８は、物体検出部１０６による物体（工具）の検出処理を定期的に実行させる。

　ステップＳ１７において、作業推定部１０５１ａは、ステップＳ１６で検出された物体（工具）の画像領域の位置が変化しているか否かを判定する。検出された物体（工具）の画像領域の位置が変化している場合、処理はステップＳ１８に進む。一方、検出された物体（工具）の画像領域の位置が変化していない場合、処理はステップＳ１９に進む。

　ステップＳ１８において、作業推定部１０５１ａは、作業員が工具（物体）を使用して作業を行っていると特定する。

　ステップＳ１９において、作業推定部１０５１ａは、物体（工具）の画像領域と作業員の手の画像領域とが離れ、作業員の手の画像領域が動いている場合、作業員が物体（工具）を使わないで作業を行っていると特定する。

　ステップＳ２０において、物体検出活性部１０８は、物体検出部１０６による物体（工具）の検出処理を終了させる。そして、作業分析装置１Ａは、分析処理を終了する。

　以上により、第２実施形態に係る作業分析装置１Ａは、作業員の作業を含む映像データから物体を検出するとともに、作業員の関節位置情報を推定し、推定した作業員の関節位置情報に基づいて検出した物体を含む画像領域に作業員の関節位置が入って出たか否かを検知し、当該検知結果に基づいて、映像データから検出した物体に係る映像データの範囲を切り出し、切り出した映像データの範囲に対して物体認識を行い、映像データの範囲で物体が認識できない場合に当該物体の検出を定期的に実行することで物体の座標の変化に基づいて作業員の作業を判定する。これにより、作業分析装置１Ａは、少ない計算量で、画像から物体を認識させて作業の分類を行うことができる。
　また、作業分析装置１Ａは、高価なＧＰＵ等を必要とせずに、安価なデバイスでも実施することが可能である。
　また、作業分析装置１Ａは、作業分類のモデルの解釈が容易であり、ユーザが納得して使うことができる。また、例えば、作業分類の精度に問題がある場合、物体認識の精度が低いのか、特徴的な手の関節位置を検出する精度が低いのか、という問題に切り分けることができ、分類モデルを拡張・改良しやすい。
　また、作業分析装置１Ａは、物体検出処理が重いことから、物体検出と関節位置情報とを用いて作業員が物体を使っている場合のみに物体検出処理を行うことで実行する回数を減らすことができる。
　また、作業分析装置１Ａは、特定した作業員の作業が物体を使った作業か否かを判別することかできる。
　以上、第２実施形態について説明した。

　以上、第１実施形態及び第２実施形態について説明したが、作業分析装置１、１Ａは、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。

＜変形例１＞
　第１実施形態及び第２実施形態では、作業分析装置１、１Ａは、１つのカメラ２と接続されたが、これに限定されない。例えば、作業分析装置１、１Ａは、２以上の複数のカメラ２と接続されてもよい。

＜変形例２＞
　また例えば、上述の実施形態では、作業分析装置１、１Ａは、全ての機能を有したが、これに限定されない。例えば、作業分析装置１の関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３、物体認識部１０４、作業特定部１０５、及び作業推定部１０５１の一部又は全部、又は、作業分析装置１Ａの関節位置推定部１０１、動作推定部１０２、画像切り出し部１０３ａ、物体認識部１０４ａ、作業特定部１０５、作業推定部１０５１ａ、物体検出部１０６、物体領域入出検知部１０７、及び物体検出活性部１０８の一部又は全部を、サーバが備えるようにしてもよい。また、クラウド上で仮想サーバ機能等を利用して、作業分析装置１、１Ａの各機能を実現してもよい。
　さらに、作業分析装置１、１Ａは、作業分析装置１、１Ａの各機能を適宜複数のサーバに分散される、分散処理システムとしてもよい。

　なお、第１実施形態及び第２実施形態における、作業分析装置１、１Ａに含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

　プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（Ｔａｎｇｉｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　ＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。

　なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

　以上を換言すると、本開示の作業分析装置は、次のような構成を有する各種各様の実施形態を取ることができる。

　（１）本開示の作業分析装置１は、作業員の作業を分析する作業分析装置であって、作業員の作業を含む映像データから、作業員の関節位置情報を推定する関節位置推定部１０１と、関節位置推定部１０１により推定された関節位置情報に基づいて作業員の動作情報を推定する動作推定部１０２と、動作推定部１０２により推定された動作情報に基づいて映像データから動作情報に関連する物体に係る映像データの範囲を切り出す画像切り出し部１０３と、画像切り出し部１０３により切り出された映像データの範囲において物体の認識を行う物体認識部１０４と、物体認識部１０４により認識された物体に基づいて、作業員の作業を特定する作業特定部１０５と、を備える。
　この作業分析装置１によれば、少ない計算量で、画像から物体を認識させて作業の分類を行うことができる。

　（２）　（１）に記載の作業分析装置１において、画像切り出し部１０３は、動作推定部１０２が関節位置情報に基づいて複数の動作を含む作業員の動作情報を推定する場合、推定された複数の動作毎に複数の映像データの範囲を切り出し、物体認識部１０４は、複数の映像データの範囲毎に物体の認識を行い、作業特定部１０５は、動作推定部１０２により推定された複数の動作それぞれの確率と物体認識部１０４により複数の映像データの範囲毎に認識された物体の確率とに基づいて最も確率の高い作業を推定する作業推定部１０５１を備えてもよい。
　そうすることで、作業分析装置１は、手の形があいまいな場合でも精度良く作業員の作業を特定することができる。

　（３）　（１）又は（２）に記載の作業分析装置１において、関節位置推定部１０１により推定された関節位置情報に対応する作業員の動作情報を出力するルールベース又は学習済みモデルを記憶する動作記憶部２０２と、作業員の動作情報に基づいて、当該動作情報に関連する物体が含まれる映像データ上の範囲を予め記憶する物体位置関係記憶部２０３と、物体認識部１０４により認識された物体と作業員の作業とを予め対応付けした作業テーブルを記憶する作業記憶部２０４と、を備えてもよい。
　そうすることで、作業分析装置１は、作業分類のモデルの解釈が容易となる。

　（４）本開示の作業分析装置１Ａは、作業員の作業を分析する作業分析装置であって、作業員の作業を含む映像データから物体を検出する物体検出部１０６と、映像データから作業員の関節位置情報を推定する関節位置推定部１０１と、関節位置推定部１０１により推定された関節位置情報に基づいて、物体検出部１０６により検出された物体を含む画像領域に作業員の関節位置を含む画像領域が入って出たか否かを検知する物体領域入出検知部１０７と、物体領域入出検知部１０７の検知結果に基づいて、映像データから物体検出部１０６により検出された物体に係る映像データの範囲を切り出す画像切り出し部１０３ａと、画像切り出し部１０３ａにより切り出された映像データの範囲に対して物体認識を行う物体認識部１０４ａと、物体認識部１０４ａにより映像データの範囲で物体が認識できない場合、物体検出部１０６による物体の検出を定期的に実行させる物体検出活性部１０８と、映像データにおける物体検出部１０６により検出された物体の座標の変化に基づいて、作業を特定する作業推定部１０５１ａと、を備える。
　この作業分析装置１Ａは、（１）と同様の効果を奏することができる。

　１、１Ａ　作業分析装置
　１０、１０ａ　制御部
　１０１　関節位置推定部
　１０２　動作推定部
　１０３、１０３ａ　画像切り出し部
　１０４、１０４ａ　物体認識部
　１０５　作業特定部
　１０５１、１０５１ａ　作業推定部
　１０６　物体検出部
　１０７　物体領域入出検知部
　１０８　物体検出活性部
　２０、２０ａ　記憶部
　２０１　映像データ記憶部
　２０２　動作記憶部
　２０３　物体位置関係記憶部
　２０４　作業記憶部
　２０５　物体座標記憶部
　２　カメラ
　１００　作業分析システム

Claims

　作業員の作業を分析する作業分析装置であって、
　前記作業員の作業を含む映像データから、前記作業員の関節位置情報を推定する関節位置推定部と、
　前記関節位置推定部により推定された前記関節位置情報に基づいて前記作業員の動作情報を推定する動作推定部と、
　前記動作推定部により推定された前記動作情報に基づいて前記映像データから前記動作情報に関連する物体に係る映像データの範囲を切り出す画像切り出し部と、
　前記画像切り出し部により切り出された前記映像データの範囲において前記物体の認識を行う物体認識部と、
　前記物体認識部により認識された前記物体に基づいて、前記作業員の作業を特定する作業特定部と、
　を備える作業分析装置。
　前記画像切り出し部は、前記動作推定部が前記関節位置情報に基づいて複数の動作を含む前記作業員の動作情報を推定する場合、推定された前記複数の動作毎に複数の前記映像データの範囲を切り出し、
　前記物体認識部は、複数の前記映像データの範囲毎に前記物体の認識を行い、
　前記作業特定部は、
　前記動作推定部により推定された前記複数の動作それぞれの確率と前記物体認識部により複数の前記映像データの範囲毎に認識された物体の確率とに基づいて最も確率の高い作業を推定する作業推定部を備える、請求項１に記載の作業分析装置。
　前記関節位置推定部により推定された関節位置情報に対応する前記作業員の動作情報を出力するルールベース又は学習済みモデルを記憶する動作記憶部と、
　前記作業員の動作情報に基づいて、当該動作情報に関連する前記物体が含まれる前記映像データ上の範囲を予め記憶する物体位置関係記憶部と、
　前記物体認識部により認識された前記物体と前記作業員の作業とを予め対応付けした作業テーブルを記憶する作業記憶部と、を備える請求項１又は請求項２に記載の作業分析装置。
　作業員の作業を分析する作業分析装置であって、
　前記作業員の作業を含む映像データから物体を検出する物体検出部と、
　前記映像データから前記作業員の関節位置情報を推定する関節位置推定部と、
　前記関節位置推定部により推定された前記関節位置情報に基づいて、前記物体検出部により検出された前記物体を含む画像領域に前記作業員の関節位置を含む画像領域が入って出たか否かを検知する物体領域入出検知部と、
　前記物体領域入出検知部の検知結果に基づいて、前記映像データから前記物体検出部により検出された前記物体に係る映像データの範囲を切り出す画像切り出し部と、
　前記画像切り出し部により切り出された前記映像データの範囲に対して物体認識を行う物体認識部と、
　前記物体認識部により前記映像データの範囲で前記物体が認識できない場合、前記物体検出部による前記物体の検出を定期的に実行させる物体検出活性部と、
　前記映像データにおける前記物体検出部により検出された前記物体の座標の変化に基づいて、作業を特定する作業推定部と、
　を備える作業分析装置。