WO2023090274A1

WO2023090274A1 - 作業認識装置、作業認識方法、及び作業認識プログラム

Info

Publication number: WO2023090274A1
Application number: PCT/JP2022/042142
Authority: WO
Inventors: 雅宮崎; 健太西行; 洋貴和田; 航一木下
Original assignee: オムロン株式会社
Priority date: 2021-11-18
Filing date: 2022-11-11
Publication date: 2023-05-25
Also published as: JP2023074948A; CN118215945A

Abstract

作業認識装置は、作業者の作業を撮影した撮影画像を取得し、撮影画像に基づいて、作業者の右手及び左手の少なくとも一方の手と、作業の対象物と、に関する第１の検出情報を検出し、撮影画像に基づいて、作業者の骨格に関する第２の検出情報を検出し、検出した第１の検出情報及び第２の検出情報に基づいて、作業を認識する第１の認識処理を実行し、検出した第２の検出情報に基づいて、作業を認識する第２の認識処理を実行し、第１の検出情報に基づいて、第１の認識処理により作業を認識するか第２の認識処理により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、切り替え条件を満たさない場合は、第１の認識部による作業の認識結果を出力し、切り替え条件を満たす場合は、第２の認識部による作業の認識結果を出力する。

Description

作業認識装置、作業認識方法、及び作業認識プログラム

　開示の技術は、作業認識装置、作業認識方法、及び作業認識プログラムに関する。

　特開２０１９－１２３２８号公報には、人が道具を用いて行う行動を判別する人行動推定システムであって、前記行動を撮影した映像を取得する映像取得部と、前記映像取得部からの前記映像に基づき、あらかじめ定められた人行動定義から、前記映像に撮影された前記行動に対しての人行動候補を出力する人行動判別部と、前記道具に付されたセンサからセンサ情報を取得する道具データ取得部と、前記道具データ取得部からの前記センサ情報に基づき、あらかじめ定められた道具動作定義から、前記センサ情報が取得された前記道具に対しての道具動作候補を出力する道具動作判別部と、前記人行動判別部より出力された前記人行動候補及び前記道具動作判別部より出力された前記道具動作候補に基づき、前記映像取得部からの前記映像に撮影された前記行動を推定する総合人行動判別部とを有する人行動推定システムが開示されている。

　特許第６４４４５７３号公報には、センサデータを取得するセンサデータ取得部と、前記センサデータ取得部が取得したセンサデータに基づき、作業者の体の部位を検出して、当該作業者の体の部位に関する体部位情報を取得する体部位情報取得部と、前記センサデータ取得部が取得したセンサデータに基づき、物体を検出して、当該物体に関する物体情報を取得する物体情報取得部と、前記体部位情報取得部が取得した体部位情報と、前記物体情報取得部が取得した物体情報とに基づき、前記物体と、当該物体を用いた作業を行った、前記作業者の体の部位との関連付けを行う関連付け部と、前記関連付け部で関連付けられた関連付け結果に関する関連付け情報に基づき、前記作業者によって実施された作業を認識する認識結果分析部とを備えた作業認識装置が開示されている。

　特開２０１９－１２３２８号公報に記載の技術では、映像解析による人物の動作認識は、映像中に死角が生じることが多く、正確な人物の行動推定が困難となる場合が多いことから、人の位置情報による行動推定だけではなく、予め定義された人行動情報及び工具による動作情報を用いて総合的に作業を認識している。

　また、特許第６４４４５７３号公報に記載の技術は、作業者の作業を認識するにあたり、センサデータから、作業者の体の部位の座標、物体の位置座標を利用し、体の部位と、物体の部位を紐付けて、作業の種類を認識している。物体が検出できない場合は補完するなどの処理を行い、動作と物体をできるだけ組み合わせるようにしている。

　しかしながら、実際の作業現場では、部品が多く、部品を検出できていたとしても誤検出することがあり、作業の認識精度を向上させることが困難であった。

　開示の技術は、上記の点に鑑みてなされたものであり、作業の認識精度を向上させることができる作業認識装置、作業認識方法、及び作業認識プログラムを提供することを目的とする。

　開示の第１態様は、作業認識装置であって、作業者の作業を撮影した撮影画像を取得する取得部と、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出する第１の検出部と、前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出する第２の検出部と、検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行する第１の認識部と、検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行する第２の認識部と、前記第１の検出情報に基づいて、前記第１の認識部により前記作業を認識するか前記第２の認識部により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する判定部と、前記切り替え条件を満たさない場合は、前記第１の認識部による前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識部による前記作業の認識結果を出力する出力部と、を備える。

　上記第１態様において、前記判定部は、前記手と前記対象物との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、前記右手と前記左手との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、前記手のバウンディングボックスと前記対象物のバウンディングボックスとが重ならない場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、検出された前記対象物のサイズに基づいて、前記切り替え条件を満たすか否かを判定するようにしてもよい。

　上記第１態様において、前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最小の前記対象物のサイズよりも小さい場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最大の前記対象物のサイズよりも大きい場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記第１の検出部は、検出された前記対象物の信頼度を算出し、前記判定部は、前記対象物の信頼度が予め定めた閾値以下の場合に、前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、検出された前記手及び前記対象物の少なくとも一方の速度が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定するようにしてもよい。

　上記第１態様において、前記判定部は、検出された前記手の位置が、予め定めた作業スペースの範囲外にある場合に前記切り替え条件を満たすと判定するようにしてもよい。

　開示の第２態様は、作業認識方法であって、コンピュータが、作業者の作業を撮影した撮影画像を取得し、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出し、前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出し、検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行し、検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行し、前記第１の検出情報に基づいて、前記第１の認識処理により前記作業を認識するか前記第２の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、前記切り替え条件を満たさない場合は、前記第１の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識処理による前記作業の認識結果を出力する、ことを含む処理を実行する。

　開示の第３態様は、作業認識プログラムであって、コンピュータに、作業者の作業を撮影した撮影画像を取得し、前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出し、前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出し、検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行し、検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行し、前記第１の検出情報に基づいて、前記第１の認識処理により前記作業を認識するか前記第２の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、前記切り替え条件を満たさない場合は、前記第１の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識処理による前記作業の認識結果を出力する、ことを含む処理を実行させる。

　開示の技術によれば、作業の認識精度を向上させることができる。

作業認識システムの構成図である。作業認識装置のハードウェア構成を示す構成図である。作業認識装置の機能ブロック図である。作業を撮影した撮影画像に基づいて検出される第１の検出情報について説明するための図である。作業を撮影した撮影画像に基づいて検出される第２の検出情報について説明するための図である。作業の認識結果を示す図である。作業認識処理のフローチャートである。

　以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

　図１は、作業認識システム１０の構成を示す。作業認識システム１０は、作業認識装置２０及びカメラ３０を備える。

　作業認識装置２０は、カメラ３０で撮影された撮影画像に基づいて作業者Ｗが行う作業の作業内容を認識する。

　作業者Ｗは、一例として作業台Ｔに載置された作業の対象物Ｍを取り出して、作業スペースＳ上で所定の作業を行う。作業台Ｔは、人の動作が認識できる程度の明るさを有する場所に設置される。

　カメラ３０は、例えばＲＧＢのカラー画像を撮影する。また、カメラ３０は、作業者Ｗによる作業を認識しやすい位置に設置される。具体的には、例えば少なくとも作業スペースＳを含む範囲が他の物体等によって隠れることがない位置、作業者Ｗの作業が作業台Ｔ等によって隠れることがない位置、作業者Ｗの作業中に指の動き等が他の物体等によって隠れない位置等の条件を満たす位置に設置される。本実施形態では、一例として作業者Ｗの少なくとも上半身を斜め上方から見下ろす位置にカメラ３０が設置されている場合について説明する。

　なお、本実施形態では、カメラ３０が１台の場合について説明するが、複数台のカメラ３０を設けた構成としてもよい。また、本実施形態では、作業者Ｗが１人の場合について説明するが、作業者Ｗが２人以上であってもよい。

　図２は、本実施形態に係る作業認識装置２０のハードウェア構成を示すブロック図である。図２に示すように、作業認識装置２０は、コントローラ２１を備える。コントローラ２１は、一般的なコンピュータを含む装置で構成される。

　図２に示すように、コントローラ２１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１Ａ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２１Ｂ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２１Ｃ、及び入出力インターフェース（Ｉ／Ｏ）２１Ｄを備える。そして、ＣＰＵ２１Ａ、ＲＯＭ２１Ｂ、ＲＡＭ２１Ｃ、及びＩ／Ｏ２１Ｄがバス２１Ｅを介して各々接続されている。バス２１Ｅは、コントロールバス、アドレスバス、及びデータバスを含む。

　また、Ｉ／Ｏ２１Ｄには、操作部２２、表示部２３、通信部２４、及び記憶部２５が接続されている。

　操作部２２は、例えばマウス及びキーボードを含んで構成される。

　表示部２３は、例えば液晶ディスプレイ等で構成される。

　通信部２４は、カメラ３０等の外部装置とデータ通信を行うためのインターフェースである。

　記憶部２５は、ハードディスク等の不揮発性の外部記憶装置で構成される。図２に示すように、記憶部２５は、作業認識プログラム２５Ａ等を記憶する。

　ＣＰＵ２１Ａは、コンピュータの一例である。ここでいうコンピュータとは、広義的なプロセッサを指し、汎用的なプロセッサ（例えば、ＣＰＵ）、又は、専用のプロセッサ（例えば、ＧＰＵ：Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ、ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ、ＦＰＧＡ：Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

　なお、作業認識プログラム２５Ａは、不揮発性の非遷移的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記録媒体に記憶して、又はネットワークを介して配布して、作業認識装置２０に適宜インストールすることで実現してもよい。

　不揮発性の非遷移的記録媒体の例としては、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、光磁気ディスク、ＨＤＤ（ハードディスクドライブ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、メモリカード等が想定される。

　図３は、作業認識装置２０のＣＰＵ２１Ａの機能構成を示すブロック図である。図３に示すように、ＣＰＵ２１Ａは、機能的には、取得部４０、第１の検出部４１、第２の検出部４２、第１の認識部４３、第２の認識部４４、判定部４５、及び出力部４６の各機能部を備える。ＣＰＵ２１Ａは、記憶部２５に記憶された作業認識プログラム２５Ａを読み込んで実行することにより各機能部として機能する。

　取得部４０は、カメラ３０が作業者Ｗの作業を撮影した撮影画像をカメラ３０から取得する。

　第１の検出部４１は、カメラ３０から取得した撮影画像に基づいて、作業者Ｗの右手及び左手の少なくとも一方の手と、作業の対象物Ｍと、の少なくとも一方に関する第１の検出情報を検出する。具体的には、第１の検出情報は、例えば右手及び左手の少なくとも一方の手を含む範囲を表すバウンディングボックスの四隅の座標と、右手及び左手の少なくとも一方の手が接触している対象物Ｍの範囲を表すバウンディングボックスの四隅の座標と、の少なくとも一方を含む。ここで、バウンディングボックスとは、検出対象の物体に外接する長方形又は正方形等の矩形形状をいう。具体的には、複数種類のサイズのアンカーボックス（長方形領域）毎に、検出対象の物体の信頼度を算出する。そして、最も信頼度の高いアンカーボックスの四隅の座標をバウンディングボックスの四隅の座標とする。このようなバウンディングボックスの検出方法としては、例えばＦａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）等の公知の方法を用いることができ、例えば下記参考文献１に記載された方法を用いることができる。

（参考文献１）"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.

　図４には、作業者Ｗが作業スペースＳにおいて右手ＲＨで対象物Ｍを扱っている様子を作業者Ｗの上方から撮影した撮影画像Ｇ１を示す。この場合、図４に示すように、第１の検出部４１は、右手ＲＨを囲むバウンディングボックスＢＲの四隅の座標と、左手ＬＨを囲むバウンディングボックスＢＬの四隅の座標と、対象物Ｍを囲むバウンディングボックスＢＭの四隅の座標と、を検出する。なお、以下では、右手ＲＨ及び左手ＬＨを特に区別しない場合は、単に手Ｈと称する。

　撮影画像に基づいて第１の検出情報を検出する方法としては、撮影画像を入力とし、第１の検出情報を出力とする学習モデルを、多数の撮影画像を教師データとして学習した第１の検出用学習済みモデルを用いることができる。このような第１の検出用学習済みモデルを得る学習方法としては、例えばＣＮＮ等の公知の方法を用いることができ、例えば下記参考文献２に記載された方法を用いることができる。

（参考文献２）"Understanding Human Hands in Contact at Internet Scale", pp.9869-9878, Dandan Shan1, Jiaqi Geng, Michelle Shu, David F. Fouhey, University of Michigan, Johns Hopkins University, CVPR2020.

　このような第１の検出情報を時系列で検出することにより、作業者Ｗが手Ｈを使って対象物Ｍに対してどのような作業を行っているのかを把握することが可能となる。

　第２の検出部４２は、カメラ３０から取得した撮影画像に基づいて、作業者Ｗの骨格に関する第２の検出情報を検出する。具体的には、第２の検出情報は、作業者Ｗの体の部位及び関節等の特徴点の座標と、各特徴点を接続するリンクが定義されたリンク情報と、を含む。例えば特徴点は、作業者Ｗの目及び鼻等の顔の部位、首、肩、肘、手首、腰、膝、及び足首等の関節等を含む。

　図５には、検出された第２の検出情報の一例を示した。図５の例では、第２の検出情報は、作業者Ｗの右手、右腕、右肩、頭部、左肩、左腕、及び左手に亘って検出された特徴点Ｐ１～Ｐ１１の座標と、各特徴点を接続するリンクＬ１～Ｌ１０が定義されたリンク情報と、を含む。

　撮影画像に基づいて第２の検出情報を検出する方法としては、撮影画像を入力とし、第２の検出情報を出力とする学習モデルを、多数の撮影画像を教師データとして学習した第２の検出用学習済みモデルを用いることができる。このような第２の検出用学習済みモデルを得る学習方法としては、例えばＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）等の公知の方法を用いることができ、例えば下記参考文献３に記載された方法を用いることができる。

（参考文献３）"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Zhe Cao, Student Member, IEEE, Gines Hidalgo, Student Member, IEEE, Tomas Simon, Shih-En Wei, and Yaser Sheikh, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE.

　このような第２の検出情報を時系列で検出することにより、作業者Ｗが手Ｈを使って対象物Ｍに対してどのような作業を行っているのかを把握することが可能となる。

　第１の認識部４３は、第１の検出部４１が検出した第１の検出情報及び第２の検出部４２が検出した第２の検出情報に基づいて、作業を認識する第１の認識処理を実行する。具体的には、第１の検出情報及び第２の検出情報を入力とし、作業の認識結果を出力とする学習モデルを、多数の第１の検出情報及び第２の検出情報を教師データとして学習した第１の認識用学習済みモデルを用いて作業を認識する。

　第２の認識部４４は、第２の検出部４２が検出した第２の検出情報に基づいて、作業を認識する第２の認識処理を実行する。具体的には、第２の検出情報を入力とし、作業の認識結果を出力とする学習モデルを、多数の第２の検出情報を教師データとして学習した第２の認識用学習済みモデルを用いて作業を認識する。

　ところで、第１の検出情報及び第２の検出情報の両方を用いて作業を認識する第１の認識処理の認識結果の方が、第２の検出情報のみに基づいて作業を認識する第２の認識処理の認識結果と比較して認識精度が高い場合が多い。しかしながら、作業者Ｗ及び対象物Ｍの状態によっては第１の認識処理の認識精度が低下する場合もある。例えば、対象物Ｍのサイズが小さく検出しにくい場合、対象物Ｍが作業者Ｗの手Ｈに隠れてしまい対象物Ｍを正確に検出できない場合、作業者Ｗの体全体を手Ｈと誤検出してしまう場合、対象物Ｍ以外の物体を対象物Ｍと誤検出してしまう場合等である。このように作業者Ｗの手Ｈ又は対象物Ｍを誤検出してしまうと、第１の認識処理の認識精度が低下してしまう。

　具体的には、例えば、作業者Ｗが行う作業が、梱包箱に製品及び取扱説明書を入れて梱包し、箱にラベルを貼る梱包作業であったとする。この場合、対象物Ｍは、箱、製品、取扱説明書、及びラベルである。そして、梱包作業を対象物Ｍ毎に時系列に分割すると、箱を扱う作業Ｓ１と、製品を扱う作業Ｓ２と、取扱説明書を扱う作業Ｓ３と、ラベルを扱う作業Ｓ４と、に分けられる。このような梱包作業を第１の認識処理及び第２の認識処理によって認識する場合、例えば作業Ｓ１の認識精度は第１の認識処理よりも第２の認識処理の方が高くなり、逆に作業Ｓ３の認識精度は第２の認識処理よりも第１の認識処理の方が高くなる場合がある。

　図６には、上記の梱包作業を２サイクル行った場合の各作業の認識結果の一例を示した。図６に示すように、正解の認識結果では、作業１～作業４の各作業について、他の作業と誤認識する期間はない。これに対し、第１の認識処理の認識結果では、２サイクル目の作業Ｓ１において、作業Ｓ３と誤認識した期間が存在する。また、第２の認識処理の認識結果では、１サイクル目の作業Ｓ３において、作業Ｓ４と誤認識した期間が存在する。

　このように、第１の認識部４３による第１の認識処理のみ又は第２の認識部４４による第２の認識処理のみでは、正解の認識結果を得られない場合がある。

　そこで、判定部４５は、第１の検出情報に基づいて、第１の認識部４３により作業を認識するか第２の認識部４４により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する。

　例えば判定部４５は、第１の切り替え条件として、検出された手Ｈと対象物Ｍとの距離が予め定めた閾値Ｔ１以上の場合に、第１の切り替え条件を満たすと判定する。具体的には、例えば右手ＲＨのバウンディングボックスＢＲの中心位置と対象物ＭのバウンディングボックスＢＭの中心位置との距離、及び、左手ＬＨのバウンディングボックスＢＬの中心位置と対象物ＭのバウンディングボックスＢＭの中心位置との距離、の少なくとも一方の距離が予め定めた閾値Ｔ１以上の場合に、第１の切り替え条件を満たすと判定する。

　ここで、手Ｈのバウンディングボックスの中心位置Ｃ１の座標を（ｘ１、ｙ１）、対象物ＭのバウンディングボックスＢＭの中心位置Ｃ２の座標を（ｘ２、ｙ２）とすると、中心位置Ｃ１と中心位置Ｃ２との距離Ｄ１は次式で算出される。

Ｄ１＝［（ｘ１－ｘ２）^２＋（ｙ１－ｙ２）^２］^１／２　　・・・（１）

　閾値Ｔ１は、距離Ｄ１が閾値Ｔ１以上の場合は、検出された手Ｈ及び対象物Ｍの少なくとも一方が誤検出である可能性が高いと判断できる値（例えば１０ｃｍ以上）に設定され、例えば実験結果等から予め設定される。なお、距離Ｄ１を算出する場合にバウンディングボックスの中心位置ではなく、バウンディングボックスの四隅のうちの１つの位置を用いても良い。

　また、判定部４５は、第２の切り替え条件として、右手ＲＨと左手ＬＨとの距離Ｄ２が予め定めた閾値Ｔ２以上の場合に第２の切り替え条件を満たすと判定してもよい。距離Ｄ２は、右手ＲＨのバウンディングボックスＢＲの中心位置と左手ＬＨのバウンディングボックスＢＬの中心位置との距離であり、上記（１）式と同様に算出することができる。閾値Ｔ２は、閾値Ｔ１と同様に予め設定される。

　また、判定部４５は、第３の切り替え条件として、手Ｈのバウンディングボックスと対象物Ｍのバウンディングボックスとが重ならない場合に第３の切り替え条件を満たすと判定してもよい。具体的には、例えば右手ＲＨのバウンディングボックスＢＲ及び左手ＬＨの少なくとも一方と、対象物ＭのバウンディングボックスＢＭと、が重ならない場合に、第３の切り替え条件を満たすと判定する。これは、バウンディングボックス同士が重ならないということは、手Ｈと対象物Ｍとの距離が大きく、手Ｈ及び対象物Ｍの少なくとも一方が誤検出である可能性が高いと考えられるためである。

　また、判定部４５は、第４の切り替え条件として、検出された対象物Ｍのサイズに基づいて、第４の切り替え条件を満たすか否かを判定してもよい。具体的には、判定部４５は、第４の切り替え条件として、検出された対象物ＭのバウンディングボックスＢＭのサイズが、予め定めた最小の対象物Ｍのサイズよりも小さい場合に第４の切り替え条件を満たすと判定してもよい。ここで、バウンディングボックスのサイズとは、例えばバウンディングボックスの面積である。このように、検出された対象物ＭのバウンディングボックスＢＲのサイズが、複数の対象物Ｍの中で最も小さいサイズの対象物Ｍのサイズよりも小さい場合は、検出された対象物Ｍが誤検出である可能性が高いことから、第４の切り替え条件を満たすと判定する。

　また、判定部４５は、第５の切り替え条件として、検出された対象物Ｍのバウンディングボックスのサイズが、予め定めた最大の対象物Ｍのサイズよりも大きい場合（例えば最大の対象物Ｍのサイズの１．５倍以上の場合）に第５の切り替え条件を満たすと判定してもよい。このように、検出された対象物ＭのバウンディングボックスＢＲのサイズが、複数の対象物Ｍの中で最も大きいサイズの対象物Ｍのサイズよりも大きい場合は、検出された対象物Ｍが誤検出である可能性が高いことから、第５の切り替え条件を満たすと判定する。

　また、判定部４５は、第６の切り替え条件として、検出された対象物の信頼度が予め定めた閾値Ｔ３以下の場合に、第６の切り替え条件を満たすと判定してもよい。この場合、第１の検出部４１は、検出された対象物の信頼度を算出する。前述したように、第１の検出部４１は、ＣＮＮ等を用いた第１の検出用学習済みモデルにより対象物を検出することができる。そして、第１の検出用学習済みモデルの出力層に所謂ソフトマックス関数を用いることにより、検出された対象物の信頼度が算出される。信頼度は、例えば０～１までの数値で表され、値が大きいほど信頼度が高いことを示す。従って、例えば閾値Ｔ３を０．５に設定し、検出された対象物の信頼度０．５以下の場合は、対象物が誤検出された可能性が高いものとして、第６の切り替え条件を満たすと判定する。

　また、判定部４５は、第７の切り替え条件として、検出された手Ｈ及び対象物Ｍの少なくとも一方の速度が予め定めた閾値Ｔ４以上の場合に第７の切り替え条件を満たすと判定してもよい。具体的には、例えば右手ＲＨのバウンディングボックスＢＲの中心位置の速度、左手ＬＨのバウンディングボックスＢＬの中心位置の速度、及び対象物ＭのバウンディングボックスＢＭの中心位置の速度の少なくとも１つが予め定めた閾値Ｔ４以上の場合に、第７の切り替え条件を満たすと判定する。閾値Ｔ４は、上記速度が閾値Ｔ４以上の場合は誤検出の可能性が高いと判断できる値（例えば１ｍ／ｓ）に設定され、例えば実験結果等から予め設定される。

　また、判定部４５は、第８の切り替え条件として、検出された手Ｈの位置が、予め定めた作業スペースＳの範囲外にある場合に第８の切り替え条件を満たすと判定してもよい。

　例えば右手ＲＨのバウンディングボックスＢＲの中心位置の座標を（ｘｒ、ｙｒ）、左手ＬＨのバウンディングボックスＢＬの中心位置の座標を（ｘｌ、ｙｌ）とし、作業スペースＳの２つの対角線のうち１つの対角線上における２つの角部の座標を（ｘ１、ｙ１）、（ｘ２、ｙ２）とする。なお、ｘ１＜ｘ２、ｙ１＞ｙ２とする。この場合、下記（２）、（３）式を満たす場合は右手ＲＨのバウンディングボックスＢＲの中心位置及び左手ＬＨのバウンディングボックスＢＬの中心位置が作業スペースＳの範囲内に存在すると判定できる。

ｘ１≦ｘｒ、ｘｌ≦ｘ２　・・・（２）
ｙ１≦ｙｒ、ｙｌ≦ｙ２　・・・（３）

　従って、上記（２）式及び（３）式の少なくとも一方を満たさない場合は、右手ＲＨ及び左手ＬＨが作業スペースＳの範囲外に存在すると見なして第８の切り替え条件を満たすと判定する。

　なお、第１～第８の切り替え条件を適宜組み合わせて、２つ以上の切り替え条件を満たした場合に切り替え条件を満たすと判定してもよい。すなわち、複数の切り替え条件のうち少なくとも１つの切り替え条件を満たした場合に切り替え条件を満たすと判定してもよい。

　出力部４６は、切り替え条件を満たさない場合は、第１の認識部４３による作業の認識結果を出力し、切り替え条件を満たす場合は、第２の認識部４４による作業の認識結果を出力する。認識結果は、例えば表示部２３に出力されることにより表示されたり、記憶部２５に出力されることにより記憶されたりする。

　このように、切り替え条件を満たすか否かに応じて、第１の認識部４３による第１の認識処理と第２の認識部４４による第２の認識処理とを切り替える。例えば図６の「切り替えた場合の認識結果」に示すように、実線の太枠で示す２サイクル目の作業Ｓ１については、第１の認識処理では誤認識する可能性が高いため、第２の認識処理により作業を認識する。これ以外の作業については、第１の認識処理により作業を認識する。これにより、第１の認識処理のみ又は第２の認識処理のみにより作業を認識する場合と比較して、作業の認識精度が低下するのを抑制することができる。

　次に、作業認識装置２０のＣＰＵ２１Ａで実行される作業認識処理について、図７に示すフローチャートを参照して説明する。

　ステップＳ１００では、ＣＰＵ２１Ａが、カメラ３０から作業者Ｗの作業を撮影した撮影画像を取得する。

　ステップＳ１０１では、ＣＰＵ２１Ａが、ステップＳ１００で取得した撮影画像に基づいて、作業者Ｗの右手及び左手の少なくとも一方の手と、作業の対象物Ｍと、に関する第１の検出情報を検出する。すなわち、撮影画像を第１の検出用学習済みモデルに入力し、第１の検出情報を取得する。

　ステップＳ１０２では、ＣＰＵ２１Ａが、ステップＳ１００で取得した撮影画像に基づいて、作業者Ｗの骨格に関する第２の検出情報を検出する。すなわち、撮影画像を第２の検出用学習済みモデルに入力し、第２の検出情報を取得する。

　ステップＳ１０３では、ＣＰＵ２１Ａが、ステップＳ１０１で取得した第１の検出情報に基づいて、第１の認識処理により作業を認識するか第２の認識処理により作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する。具体的には、前述した第１～第８の切り替え条件の少なくとも１つの切り替え条件を満たすか否かを判定する。そして、ステップＳ１０３の判定が否定された場合はステップＳ１０４へ移行し、肯定された場合はステップＳ１０５へ移行する

　ステップＳ１０４では、ＣＰＵ２１Ａが、ステップＳ１０１で取得した第１の検出情報及びステップＳ１０２で取得した第２の検出情報に基づいて、第１の認識処理を実行する。すなわち、第１の検出情報及び第２の検出情報を第１の認識用学習済みモデルに入力し、作業の認識結果を取得する。

　ステップＳ１０５では、ＣＰＵ２１Ａが、ステップＳ１０２で取得した第２の検出情報に基づいて、第２の認識処理を実行する。すなわち、第２の検出情報を第２の認識用学習済みモデルに入力し、作業の認識結果を取得する。

　ステップＳ１０６では、ＣＰＵ２１Ａが、ステップＳ１０４又はステップＳ１０５で取得した作業の認識結果を例えば表示部２３又は記憶部２５に出力する。

　このように、本実施形態では、第１の検出情報に基づいて第１の認識処理を実行するか第２の認識処理を実行するかを判定し、誤検出の可能性が高い場合は第１の認識処理から第２の認識処理に切り替える。これにより、作業の認識精度を向上させることができる。

　なお、上記実施形態は、本開示の構成例を例示的に説明するものに過ぎない。本開示は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

　また、上各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した作業認識処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の認識の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、作業認識処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　なお、日本国特許出願第２０２１－１８８１６５号の開示は、その全体が参照により本明細書に取り込まれる。また、本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　作業者の作業を撮影した撮影画像を取得する取得部と、
　前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出する第１の検出部と、
　前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出する第２の検出部と、
　検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行する第１の認識部と、
　検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行する第２の認識部と、
　前記第１の検出情報に基づいて、前記第１の認識部により前記作業を認識するか前記第２の認識部により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定する判定部と、
　前記切り替え条件を満たさない場合は、前記第１の認識部による前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識部による前記作業の認識結果を出力する出力部と、
　を備えた作業認識装置。
　前記判定部は、前記手と前記対象物との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　前記判定部は、前記右手と前記左手との距離が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　前記判定部は、前記手のバウンディングボックスと前記対象物のバウンディングボックスとが重ならない場合に前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　前記判定部は、検出された前記対象物のサイズに基づいて、前記切り替え条件を満たすか否かを判定する
　請求項１～３の何れか１項に記載の作業認識装置。
　前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最小の前記対象物のサイズよりも小さい場合に前記切り替え条件を満たすと判定する
　請求項５記載の作業認識装置。
　前記判定部は、検出された前記対象物のバウンディングボックスのサイズが、予め定めた最大の前記対象物のサイズよりも大きい場合に前記切り替え条件を満たすと判定する
　請求項５記載の作業認識装置。
　前記第１の検出部は、検出された前記対象物の信頼度を算出し、
　前記判定部は、前記対象物の信頼度が予め定めた閾値以下の場合に、前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　前記判定部は、検出された前記手及び前記対象物の少なくとも一方の速度が予め定めた閾値以上の場合に前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　前記判定部は、検出された前記手の位置が、予め定めた作業スペースの範囲外にある場合に前記切り替え条件を満たすと判定する
　請求項１記載の作業認識装置。
　コンピュータが、
　作業者の作業を撮影した撮影画像を取得し、
　前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出し、
　前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出し、
　検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行し、
　検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行し、
　前記第１の検出情報に基づいて、前記第１の認識処理により前記作業を認識するか前記第２の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、
　前記切り替え条件を満たさない場合は、前記第１の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識処理による前記作業の認識結果を出力する、
　ことを含む処理を実行する作業認識方法。
　コンピュータに、
　作業者の作業を撮影した撮影画像を取得し、
　前記撮影画像に基づいて、前記作業者の右手及び左手の少なくとも一方の手と、前記作業の対象物と、の少なくとも一方に関する第１の検出情報を検出し、
　前記撮影画像に基づいて、前記作業者の骨格に関する第２の検出情報を検出し、
　検出した前記第１の検出情報及び前記第２の検出情報に基づいて、前記作業を認識する第１の認識処理を実行し、
　検出した前記第２の検出情報に基づいて、前記作業を認識する第２の認識処理を実行し、
　前記第１の検出情報に基づいて、前記第１の認識処理により前記作業を認識するか前記第２の認識処理により前記作業を認識するかを切り替えるための切り替え条件を満たすか否かを判定し、
　前記切り替え条件を満たさない場合は、前記第１の認識処理よる前記作業の認識結果を出力し、前記切り替え条件を満たす場合は、前記第２の認識処理による前記作業の認識結果を出力する、
　ことを含む処理を実行させる作業認識プログラム。