WO2022097310A1

WO2022097310A1 - 作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体

Info

Publication number: WO2022097310A1
Application number: PCT/JP2021/007657
Authority: WO
Inventors: 火炎木焦
Original assignee: オムロン株式会社
Priority date: 2020-11-06
Filing date: 2021-03-01
Publication date: 2022-05-12
Also published as: JP2022075325A; JP7559511B2

Abstract

作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定する。情報処理装置（１０）は、モデルベースで相互作用が存在すると判定した作業者（Ｈｕ）と作業対象物（Ｏｂ）とのペアについてのみ、作業者（Ｈｕ）が作業対象物（Ｏｂ）について行っている作業（Ｏｐ）の内容を推定する。

Description

作業推定装置、作業推定装置の制御方法、情報処理プログラム、および記録媒体

　本発明は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置等に関する。

　従来、生産現場等において作業者が行っている作業の内容を推定する作業推定装置および作業推定方法が知られている。例えば、下掲の特許文献１には、カメラ映像から検出された作業者の体の部位と物体とから、撮像された作業者の行っている作業が規定の作業種別のいずれに該当するかを識別する作業認識方法が開示されている。

国際公開番号　ＷＯ２０１８／０８７８４４号

　しかしながら、上述の作業認識方法はルールベースで作業種別を識別するため、作業者の行う作業の種類が増えると、作業種別の識別のために必要なルールを人の手で予め準備するのは煩雑であるという問題がある。

　本発明の一態様は、作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定することのできる作業推定装置等を実現することを目的とする。

　上記の課題を解決するために、本発明の一態様に係る作業推定装置は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、を備える。

　上記の課題を解決するために、本発明の一態様に係る制御方法は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、を含む。

　本発明の一態様によれば、作業者の行う作業の種類が増えても、煩雑なルール整備を必要とせずに、作業者が行っている作業を推定することができるとの効果を奏する。

本発明の実施形態１に係る情報処理装置の要部構成を示すブロック図である。図１の情報処理装置を含む制御システム等の全体概要を示す図である。一般的なＨＯＩ検出アルゴリズムが抱える問題を説明するための図である。ニューラルネットワークとして実現した解析部の例を説明する図である。図１の情報処理装置が、通常モードで実行する処理の概要を説明する図である。図１の情報処理装置が、転移学習モードで実行する処理の概要を説明する図である。図１の情報処理装置が実行する解析処理の全体概要を説明するフロー図である。

　〔実施形態１〕
　以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。本実施の形態においては、情報処理装置１０を、「作業場Ａｒを撮像した撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕが行っている作業Ｏｐの内容を推定する作業推定装置」の典型例として説明を行なう。

　以下の説明において、「ｎ」、「ｍ」、「ｐ」、「ｑ」、「ｘ」、「ｙ」は、各々、「１」以上の整数を示すものとし、「ｐ」と「ｑ」とは互いに異なる整数であり、「ｘ」と「ｙ」とは互いに異なる整数であるものとする。

　§１．適用例
　本発明の一態様に係る情報処理装置１０（作業推定装置）についての理解を容易にするため、先ず、情報処理装置１０が適用される環境について説明する。情報処理装置１０は、例えば、撮像画像Ｉｍの解析結果を利用して、作業者Ｈｕが作業対象物Ｏｂについて行う作業Ｏｐの効率化等に資する情報（支援情報）を生成する。そこで先ず、作業者Ｈｕ、作業対象物Ｏｂ、作業Ｏｐ、作業場Ａｒ、および、１つ以上の作業場Ａｒを含む工場Ｆａ等について、説明する。

　（工場および作業工程について）
　生産現場である工場Ｆａにおいては、例えば、各種の製品が、１つ以上の作業工程Ｐｒ（１）、Ｐｒ（２）、Ｐｒ（３）、・・・Ｐｒ（ｎ）を経て生産される。工場Ｆａにおいて実施される複数の作業工程Ｐｒ（１）、Ｐｒ（２）、Ｐｒ（３）、・・・Ｐｒ（ｎ）の各々は、例えば、「塗装」工程、「主要ワークの組み立て」工程、「主要ワークの本体への組み込み」工程、「検査」工程である。

　複数の工場Ｆａを互いに区別する必要がある場合には、符号に「（Ａ）」、「（Ｂ）」、「（Ｃ）」、・・・、「（Ｚ）」等の添え字を付して区別する。例えば、「工場Ｆａ（Ａ）」、「工場Ｆａ（Ｂ）」、「工場Ｆａ（Ｘ）」、・・・、「工場Ｆａ（Ｚ）」と記載して区別する。複数の工場Ｆａの各々を特に区別する必要がない場合は単に「工場Ｆａ」と称する。

　また、作業工程Ｐｒについて、複数の作業工程Ｐｒの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別する。例えば、「作業工程Ｐｒ（１）」、「作業工程Ｐｒ（２）」、「作業工程Ｐｒ（３）」、・・・、「作業工程Ｐｒ（ｎ）」と記載して区別する。複数の作業工程Ｐｒの各々を特に区別する必要がない場合は単に「作業工程Ｐｒ」と称する。

　（作業について）
　作業工程Ｐｒにおいて、作業者Ｈｕは、１つ以上の作業Ｏｐ（１）、Ｏｐ（２）、Ｏｐ（３）、・・・Ｏｐ（ｎ）を行う。例えば、作業工程Ｐｒ（ｘ）において、作業者Ｈｕは、作業Ｏｐ（ｘ１）、Ｏｐ（ｘ２）、Ｏｐ（ｘ３）を行う。一例を挙げれば、作業工程Ｐｒ（ｍ）が「塗装」工程の場合、作業Ｏｐ（ｘ１）は、作業対象物Ｏｂの「把持」であってもよいし、作業Ｏｐ（ｘ２）は、作業対象物Ｏｂの「塗装」であってもよいし、作業Ｏｐ（ｘ３）は、作業対象物Ｏｂの「運搬」であってもよい。

　作業Ｏｐについて、複数の作業Ｏｐの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業Ｏｐ」と称する。

　（作業場について）
　工場Ｆａは、１つ以上の作業場Ａｒ（１）、Ａｒ（２）、Ａｒ（３）、・・・Ａｒ（ｎ）を含む。１つ以上の作業場Ａｒ（１）、Ａｒ（２）、Ａｒ（３）、・・・Ａｒ（ｎ）の各々は、１つ以上の作業工程Ｐｒ（１）、Ｐｒ（２）、Ｐｒ（３）、・・・Ｐｒ（ｎ）の各々に対応付けられている。すなわち、作業場Ａｒ（ｍ）は、作業工程Ｐｒ（ｍ）に含まれる作業Ｏｐ（ｍ）を、作業者Ｈｕが行う領域である。

　作業場Ａｒについて、複数の作業場Ａｒの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業場Ａｒ」と称する。

　（作業対象物について）
　作業場Ａｒには、作業者Ｈｕが行う作業Ｏｐの対象である作業対象物Ｏｂが１つ以上配置され、例えば、作業場Ａｒ（ｘ）には、作業対象物Ｏｂ（ｘ１）、Ｏｂ（ｘ２）、Ｏｂ（ｘ３）、・・・、Ｏｂ（ｘｎ）が配置されている。

　作業対象物Ｏｂは、作業者Ｈｕ以外の存在であり、例えば、いわゆる「ワーク」であり、また、例えば、作業Ｏｐを行う際に用いる工具である。

　作業対象物Ｏｂについて、複数の作業対象物Ｏｂの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業対象物Ｏｂ」と称する。

　（作業者について）
　工場Ｆａには、作業工程Ｐｒに含まれる作業Ｏｐを実行する作業者Ｈｕが１人以上存在し、例えば、作業者Ｈｕ（１）、Ｈｕ（２）、Ｈｕ（３）、・・・、Ｈｕ（ｎ）が存在する。作業者Ｈｕは、例えば、作業者Ｈｕが被っている帽子の頭頂部などに付された作業者ＩＤによって識別されてもよい。具体的には、工場Ｆａに存在する作業者Ｈｕ（１）と作業者Ｈｕ（２）とは、作業者Ｈｕ（１）が被る帽子に付された作業者ＩＤ（１）と、作業者Ｈｕ（２）が被る帽子に付された作業者ＩＤ（２）とにより、各々が識別されてもよい。また、或る作業者Ｈｕ（１）を、別の作業者Ｈｕ（２）にとっての作業対象物Ｏｂとみなしてもよい。

　作業者Ｈｕについて、複数の作業者Ｈｕの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「作業者Ｈｕ」と称する。

　（機器および動作について）
　工場Ｆａは、１つ以上の機器４０（１）、４０（２）、４０（３）、・・・４０（ｎ）を備える。作業者Ｈｕは、作業Ｏｐを行う際、機器４０を利用してもよく、具体的には、作業者Ｈｕは、機器４０が実行する動作Ａｃを利用して、作業Ｏｐを行ってもよい。例えば、作業工程Ｐｒ（ｘ）に含まれる作業Ｏｐ（ｘ）を作業者Ｈｕが行う際には、機器４０（ｘ）が利用されてもよく、具体的には、機器４０（ｘ）が実行する動作Ａｃ（ｘ）を利用して、作業者Ｈｕは作業Ｏｐ（ｘ）を行ってもよい。

　機器４０について、複数の機器４０の各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「機器４０」と称する。

　同様に、動作Ａｃについて、複数の動作Ａｃの各々を区別する必要がある場合には、符号に「（１）」、「（２）」、「（３）」、・・・、「（ｎ）」等の添え字を付して区別し、特に区別する必要がない場合は単に「動作Ａｃ」と称する。

　（情報処理装置１０を含むシステムの全体概要について）
　これまで説明してきた環境について、情報処理装置１０は、作業場Ａｒを撮像した撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕが行っている作業Ｏｐの内容を推定する。

　複数の撮像画像Ｉｍについて、各々が撮像された工場Ｆａを区別する際には、以下のようにして記載して、複数の撮像画像Ｉｍの各々を区別する。例えば、工場Ｆａ（Ａ）の作業場Ａｒを撮像した撮像画像Ｉｍは撮像画像Ｉｍ（Ａ）と記載し、工場Ｆａ（Ｂ）の作業場Ａｒを撮像した撮像画像Ｉｍは撮像画像Ｉｍ（Ｂ）と記載して、撮像画像Ｉｍが撮像された工場Ｆａを区別する。複数の撮像画像Ｉｍについて、各々が撮像された工場Ｆａを特に区別する必要がない場合には、単に「撮像画像Ｉｍ」と称する。

　以下では先ず、図２を用いて、情報処理装置１０を含む制御システム１等の概要について説明する。

　図２は、情報処理装置１０を含む制御システム１等の全体概要を示す図である。

　天井カメラ３０は、例えば作業場Ａｒの天井に設置され、作業場Ａｒを斜め上から見下ろす撮像画像Ｉｍを生成する。ただし、天井カメラ３０が作業場Ａｒごとに設置されることは必須ではない。工場Ｆａの天井に、広域撮像カメラである天井カメラ３０を１台設置し、１台の天井カメラ３０によって工場Ｆａの全体を俯瞰して撮像してもよい。すなわち、１台の天井カメラ３０が、１つ以上の作業場Ａｒを含む工場Ｆａの全体を俯瞰し、工場Ｆａの全体を撮像した撮像画像Ｉｍを生成してもよい。天井カメラ３０は、生成した撮像画像Ｉｍを、情報処理装置１０へと出力する。

　情報処理装置１０は、制御システム１に含まれ、例えばＵＳＢ（Universal Serial Bus）ケーブルを介して、天井カメラ３０と通信可能に接続されている。情報処理装置１０は、天井カメラ３０から、作業場Ａｒを撮像した撮像画像Ｉｍを取得する。情報処理装置１０は、天井カメラ３０から取得した撮像画像Ｉｍに対し画像解析を実行し、撮像画像Ｉｍに撮像されている作業者Ｈｕが行っている作業Ｏｐの内容を推定する。情報処理装置１０は、推定した作業Ｏｐの内容を、外部へと出力する。

　また、情報処理装置１０は、ＰＬＣ（Programmable Logic Controller）２０から、ＰＬＣ２０によって動作Ａｃを制御される機器４０が実行した動作Ａｃの内容および結果を示す動作結果Ｌａから生成された工程情報を取得する。

　（マスタスレーブ制御システムについて）
　制御システム１において、工場Ｆａにおける作業工程Ｐｒを実施するのに用いられる機器４０は、ラインコントローラとしてのＰＬＣ２０により制御される。すなわち、ＰＬＣ２０をマスタとし、複数の機器４０の各々をスレーブとするマスタスレーブ制御システムとしての制御システム１が構築され、複数の機器４０の各々はネットワーク（制御ネットワーク５０）を介してＰＬＣ２０に通信可能に接続されている。ＰＬＣ２０は、制御ネットワーク５０を介したデータ伝送を管理しているという意味で「マスタ」と呼ばれる。「マスタ」および「スレーブ」は、制御ネットワーク５０上のデータ伝送の制御機能に着目して定義されるものであり、各装置間でどのような情報が送受信されるかについては、特に限定されない。

　ＰＬＣ２０は、制御システム１全体を制御する制御装置（コントローラ）であり、複数の機器４０の各々と通信可能に接続されている。ＰＬＣ２０は、入力デバイス（計測デバイス）としての複数の機器４０の各々からの情報を入力データとして取得する。ＰＬＣ２０は、予め組み込まれたユーザプログラムに従って、取得した入力データを用いた演算処理を実行する。ＰＬＣ２０は、前記演算処理を実行して、制御システム１に対する制御内容を決定し、例えば、アクチュエータなどの出力デバイスとしての複数の機器４０の各々への制御内容を決定し、その制御内容に対応する制御データを、複数の機器４０の各々へと出力する。ＰＬＣ２０は、複数の機器４０の各々からの入力データの取得と、複数の機器４０の各々への制御データの取得とを、所定の周期（制御周期）で繰り返し実行する。ＰＬＣ２０には、例えば、不図示の表示部および操作部が接続されてもよい。表示部は、画像を表示可能な液晶パネル等で構成され、また、操作部は、典型的には、タッチパネル、キーボード、マウス等で構成される。

　機器４０は、ＰＬＣ２０をマスタとするマスタスレーブ制御システムとしての制御システム１におけるスレーブである。機器４０は、所定の制御周期ごとに繰り返し入力データをＰＬＣ２０へと送信する入力デバイスであり、または、所定の制御周期ごとに繰り返し制御データをＰＬＣ２０から受信し、受信した制御データにしたがって動作する出力デバイスである。機器４０は、例えば、入力データとして、ＰＬＣ２０に検知結果等を送信する入力デバイスとしてのセンサ（例えば、光電センサ）であってもよく、読み取り結果を送信するバーコードリーダであってもよく、検査結果を送信する検査機（テスター）であってもよい。また、機器４０は、複数の入力デバイスが接続されたＰＴ（Programmable Terminal）であってもよい。さらに、機器４０は、ネジ締め、ピッキング等を実行する出力デバイスとしてのロボット等であってもよい。

　制御ネットワーク５０は、ＰＬＣ２０が受信し、またはＰＬＣ２０が送信する各種データを伝送し、典型的には、各種の産業用イーサネット（登録商標）を用いることができ、フィールドネットワークと称されることもある。産業用イーサネット（登録商標）としては、たとえば、ＥｔｈｅｒＣＡＴ（登録商標）、Ｐｒｏｆｉｎｅｔ　ＩＲＴ、ＭＥＣＨＡＴＲＯＬＩＮＫ（登録商標）－ＩＩＩ、Ｐｏｗｅｒｌｉｎｋ、ＳＥＲＣＯＳ（登録商標）－ＩＩＩ、ＣＩＰ　Ｍｏｔｉｏｎなどが知られており、これらのうちのいずれを採用してもよい。さらに、産業用イーサネット（登録商標）以外のフィールドネットワークを用いてもよい。たとえば、モーション制御を行わない場合であれば、ＤｅｖｉｃｅＮｅｔ、ＣｏｍｐｏＮｅｔ／ＩＰ（登録商標）などを用いてもよい。

　本実施形態では、制御ネットワーク５０上をデータフレームが順次転送されることで、ＰＬＣ２０（マスタ）と機器４０（スレーブ）との間でデータが送受信される制御システム１について説明を行う。すなわち、制御ネットワーク５０上をデータフレームが所定の制御周期で順次転送されることで、ＰＬＣ２０と機器４０との間でデータが制御周期ごとに繰り返し送受信される。制御ネットワーク５０上をデータフレームが順次転送されることで、複数の機器４０の間で、つまり、複数のスレーブ間で、データが送受信されてもよい。

　情報処理装置１０は、制御システム１に含まれるが、情報処理装置１０は、制御システム１におけるスレーブでなくともよい。

　（工程情報について）
　機器４０をスレーブとするマスタスレーブ制御システムである制御システム１において、マスタであるＰＬＣ２０は、例えば所定の制御周期ごとに繰り返し、スレーブである機器４０から、動作結果Ｌａを受信する。動作結果Ｌａは、「機器４０の実行した動作Ａｃの内容および結果」を示す情報である。すなわち、機器４０は、作業工程Ｐｒの実施に際して実際に実行した動作Ａｃの内容および結果を示す動作結果Ｌａを、所定の周期で繰り返し、ＰＬＣ２０へと送信する。例えば、機器４０（ｘ）は、作業工程Ｐｒ（ｘ）の実施の際に実行した動作Ａｃ（ｘ）の内容および結果を示す動作結果Ｌａ（ｘ）を、制御周期で繰り返し、ＰＬＣ２０へと送信する。

　ＰＬＣ２０は、例えば、入力デバイス（計測デバイス）としての機器４０が実行した計測動作の結果である計測結果を、機器４０の動作結果Ｌａとして取得する。また、機器４０が検査機である場合、ＰＬＣ２０は、機器４０が実行した検査動作の結果を、例えば、「検査基準を満たした、または、満たさなかった」といった検査結果を、機器４０の動作結果Ｌａとして取得する。さらに、ＰＬＣ２０は、例えば、出力デバイスとしての機器４０が実行した出力動作の結果を、機器４０の動作結果Ｌａとして取得する。機器４０がネジ締め、ピッキング等を実行するロボットである場合、ＰＬＣ２０は、ネジ締め回数、ピッキング結果（ピッキングの成功またはピッキングエラー）等の動作結果Ｌａを、機器４０の動作結果Ｌａとして取得する。

　ＰＬＣ２０は、作業工程Ｐｒの実施に際して機器４０が実際に実行した動作Ａｃの内容および結果を示す動作結果Ｌａを、機器４０から所定の周期で繰り返し受信し、受信した動作結果Ｌａを、工程情報として情報処理装置１０へと送信する（つまり、転送する）。また、ＰＬＣ２０は、機器４０から所定の周期で繰り返し受信した動作結果Ｌａを用いて生成した情報を、工程情報として情報処理装置１０へ送信する。

　さらに、ＰＬＣ２０は、機器４０から所定の周期で繰り返し受信した動作結果Ｌａを、工程情報として、制御システム１の外部に送信してもよい。例えば、ＰＬＣ２０は、機器４０から所定の周期で繰り返し受信した動作結果Ｌａを、工程情報として、ＭＥＳ（Manufacturin g Execution System、製造実行システム）などに接続した、図２に示す社内ＬＡＮ（Local Area Network）に送信してもよい。

　情報処理装置１０は、ＰＬＣ２０から取得する工程情報（動作結果Ｌａ）から、作業工程Ｐｒの実施に際し機器４０が実行した動作Ａｃの動作開始時刻Ｔｍｓ、動作完了時刻Ｔｍｅ、動作期間Ｄａを特定する。そして、情報処理装置１０は、特定した動作開始時刻Ｔｍｓ、動作完了時刻Ｔｍｅ、動作期間Ｄａ、および、動作Ａｃに対応する所定の動作基準Ｓａを用いて、動作Ａｃに対する種々の判定を実行する。

　しかしながら、工程情報に含まれる動作結果Ｌａ（特に、動作Ａｃ）に対する上述の判定は、ＰＬＣ２０が実行してもよく、ＰＬＣ２０は、上述の判定の結果を、工程情報に含めて、または、工程情報に代えて、情報処理装置１０へと送信してもよい。

　上述の説明において、動作開始時刻Ｔｍｓとは、作業工程Ｐｒに用いられる機器４０が、作業工程Ｐｒの実施に際して、動作Ａｃの実行を開始した時点であり、動作完了時刻Ｔｍｅとは、動作Ａｃの実行を完了した時点である。動作期間Ｄａは、動作開始時刻Ｔｍｓから動作完了時刻Ｔｍｅまでの期間である。

　（マスタスレーブ制御システム以外のシステムおよび装置について）
　図２には、マスタスレーブ制御システムとしての制御システム１に加えて、社内ＬＡＮシステム、他ネットワークシステム等が示されている。社内ＬＡＮは、ＭＥＳとも称される工程情報ＤＢ（Database）等に接続している。工程情報ＤＢには、「作業工程Ｐｒの実施に用いられる機器４０が実行すべき標準的な動作」を示す情報が、動作基準Ｓａとして格納されている。

　また、図２に示す例では、ＭＥＳとしての工程情報ＤＢに、工場Ｆａにおいて発生した各種のイベントを監視し、管理するイベント管理装置６０が、社内ＬＡＮを介して接続している。ただし、イベント管理装置６０が社内ＬＡＮを介して工程情報ＤＢに接続していることは必須ではなく、イベント管理装置６０は設けなくてもよい。

　さらに、工程情報ＤＢには、社内ＬＡＮを介して、ＰＬＣ２０が接続している。図示はしていないが、工程情報ＤＢと情報処理装置１０とは接続されていてもよい。また、社内ＬＡＮには、ＭＥＳに加えて、不図示のＥＲＰ（Enterprise Resources Planning）、ＷＭＳ（Warehouse Management System）等が接続されていてもよい。

　図２において、工程情報ＤＢには、制御ネットワーク５０とも社内ＬＡＮとも異なる「他ネットワーク」を介して、動画保存サーバ等が接続されている。動画保存サーバ等には、他ネットワークを介して情報処理装置１０が接続されており、情報処理装置１０から送信された撮像画像Ｉｍ、情報処理装置１０が推定した作業Ｏｐの内容、および、支援情報などが動画保存サーバ等に格納される。また、動画保存サーバ等には、ＰＣ（Personal Computer）等によって実現される外部装置７０が接続され、外部装置７０は、例えば、撮像画像Ｉｍ、情報処理装置１０が推定した作業Ｏｐの内容、および、支援情報などを表示し、工程情報等の可視化を実行する。すなわち、外部装置７０は、作業工程Ｐｒの改善に必要な情報を一覧表示し、ボトルネックとなっている作業工程Ｐｒ、作業工程Ｐｒに発生したエラーの日時等を示す情報を、対応する撮像画像Ｉｍと対応付けて表示する。

　天井カメラ３０は、前述の通り、作業場Ａｒを撮像して撮像画像Ｉｍを生成し、生成した撮像画像Ｉｍを、例えば例えばＵＳＢ（Universal Serial Bus）ケーブルである通信ケーブルを介して、情報処理装置１０へと送信する。

　情報処理装置１０は、例えば、ＰＣ等によって実現され、ＰＬＣ２０から取得する工程情報と、天井カメラ３０から取得する撮像画像Ｉｍとを組み合わせて、両者の効率的な利用を可能とするデータ抽出装置である。情報処理装置１０は、「工場Ｆａにおける複数の機器４０の実際の動作Ａｃの内容および結果を示す動作結果Ｌａ」を含む工程情報を、「撮像画像Ｉｍ」および「撮像画像Ｉｍから推定した作業Ｏｐの内容」と組み合わせることで、作業工程Ｐｒを可視化する。情報処理装置１０は、ＰＬＣ２０から取得する工程情報、天井カメラ３０から取得する撮像画像Ｉｍ、および、撮像画像Ｉｍから推定した作業Ｏｐの内容などを組み合わせることで、作業工程Ｐｒを可視化し、また、作業工程Ｐｒを効率的かつ精緻に分析する。

　例えば、情報処理装置１０は、工程情報の可視化に加え、ボトルネックとなっている作業工程Ｐｒを抽出し、抽出した作業工程Ｐｒの実施状況を撮像した撮像画像Ｉｍと、抽出した作業工程Ｐｒの工程情報とを組み合わせる。したがって、ユーザは、例えば、ボトルネックとなっている作業工程Ｐｒについて、ボトルネックとなっている原因、不具合要因を特定するのが容易になり、作業工程Ｐｒの改善作業を効率的に行うことができるようになる。加えて、情報処理装置１０は、不良発生時のトレイサビリティにも用いることができる。

　また、情報処理装置１０は、撮像画像Ｉｍと、複数の機器４０の各々の工程情報とを組み合わせることにより、撮像画像Ｉｍに対する解析と工程情報に対する解析との両方の解析制度を向上させることができる。例えば、情報処理装置１０は、ＰＬＣ２０から取得する工程情報（動作結果Ｌａ）を用いて、機器４０が動作Ａｃを開始した動作開始時刻Ｔｍｓ、および、動作Ａｃを完了した動作完了時刻Ｔｍｅを特定する。情報処理装置１０は、動作開始時刻Ｔｍｓから動作完了時刻Ｔｍｅまでの期間である動作期間Ｄａに撮像された撮像画像Ｉｍに対し解析を実行することで、動作期間Ｄａにおける機器４０の動作Ａｃと作業者Ｈｕの作業Ｏｐとを高精度で対応付けることができる。

　さらに、情報処理装置１０は、工程情報ＤＢから、「作業工程Ｐｒの実施に用いられる機器４０が実行すべき標準的な動作」を示す動作基準Ｓａを取得する。そして、情報処理装置１０は、取得した動作基準Ｓａを用いて、「作業工程Ｐｒの実施に用いられる機器４０が実行した実際の動作Ａｃ」に対する判定を実行する。情報処理装置１０は、動作基準Ｓａが示す標準的な動作とは異なると判定した動作Ａｃに対応する作業工程Ｐｒの実施状況を撮像した撮像データＩｄについて、解析を実行してもよい。

　（作業内容の推定について）
　情報処理装置１０は、撮像画像Ｉｍを解析して、作業者Ｈｕが作業対象物Ｏｂについて行う作業Ｏｐの内容を推定する。作業場Ａｒにおいて作業者Ｈｕが行う作業Ｏｐは、一般に、作業対象物Ｏｂについて行う作業Ｏｐである。そのため、作業Ｏｐは、作業者Ｈｕと作業対象物Ｏｂとの組合せ（ペア）についての、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用として捉えることができる。

　ここで、従来、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている人間と、撮像画像Ｉｍに撮像されているオブジェクトとの間の相互作用であるＨＯＩ（Human Object Interaction）を検出する方法が研究されている。例えば、人間とオブジェクトとの両方をローカライズし、両者の間の相互作用を特定するＨＯＩ検出が知られている。そのようなＨＯＩ検出のためのアルゴリズムとして、ｉＣＡＮ（Instance-Centric Attention Network for Human-Object Interaction Detection）を挙げることができる。

　情報処理装置１０は、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定するのに、ｉＣＡＮなどのＨＯＩ検出アルゴリズムを利用することができる。すなわち、情報処理装置１０は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を、ＨＯＩを検出するＨＯＩ検出アルゴリズムを利用して、推定することができる。

　ただし、ｉＣＡＮなどの一般的なＨＯＩ検出アルゴリズムは、撮像画像Ｉｍから検出した全ての人間と全てのオブジェクトとについて、考えられる全てのペアを想定し、各ペアの間の相互作用の内容を外観の特徴と粗い空間情報等に基づいて予測する。そのため、一般的なＨＯＩ検出アルゴリズムには、図３を用いて説明するような問題がある。

　　（一般的なＨＯＩ検出アルゴリズムの抱える問題）
　図３は、ｉＣＡＮなどの一般的なＨＯＩ検出アルゴリズムが抱える問題を説明するための図である。図３に例示する撮像画像Ｉｍは、柵を隔てて、左に兄弟（作業者Ｈｕ（１）およびＨｕ（２））が居り、右に牛が３頭（作業対象物Ｏｂ（１）、ＯＢ（２）、ＯＢ（３））居る状況を撮像した撮像画像Ｉｍである。図３に例示する撮像画像Ｉｍにおいて、弟は一番手前の牛を見ており、兄は手前から２番目の牛に餌を差し出している。

　図３に示す例において、撮像画像Ｉｍから、２人の人間（作業者Ｈｕ（１）およびＨｕ（２））と４つのオブジェクト（作業対象物Ｏｂ（１）、ＯＢ（２）、ＯＢ（３）、および、ＯＢ（４））が検出されている。なお、作業対象物Ｏｂ（４）は、撮像画像Ｉｍから誤検出されたオブジェクトである。

　前述の通り、一般的なＨＯＩ検出アルゴリズムは、撮像画像Ｉｍから検出した全ての人間と全てのオブジェクトとについて、考えられる全てのペアを想定し、各ペアにおける相互作用であるＨＯＩを分類し、つまり、ＨＯＩの内容を予測する（推定する）。そのため、図３に例示する撮像画像Ｉｍについて、一般的なＨＯＩ検出アルゴリズムは、２人の人間と４つのオブジェクトとから計８つのペアを想定し、想定した８つのペアの各々について、人間とオブジェクトとの間の相互作用であるＨＯＩの内容を推定する。

　しかしながら、図３に例示する撮像画像Ｉｍにおいて、人間とオブジェクトとの間の相互作用が実際にあるペアは、「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」と「作業者Ｈｕ（２）と作業対象物Ｏｂ（３）とのペア」との２つだけである。これら２つのペア以外の６つのペアについては、ＨＯＩの内容を推定する必要がないにもかかわらず、一般的なＨＯＩ検出アルゴリズムは、これら６つのペアについても、ＨＯＩの内容を推定しようとしてしまう。そのため、一般的なＨＯＩ検出アルゴリズムは、撮像画像ＩｍからＨＯＩを検出するまでに、時間を要するという問題がある。

　また、一般的なＨＯＩ検出アルゴリズムは、実際には両者の間に相互作用はない「人間とオブジェクトとのペア」についても、ＨＯＩの内容を推定してしまうため、推定の精度が低下するという問題がある。例えば、一般的なＨＯＩ検出アルゴリズムは、図３の撮像画像Ｉｍに対し、「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」と「作業者Ｈｕ（２）と作業対象物Ｏｂ（３）とのペア」以外のペアについてもＨＯＩの内容を推定するため、推定精度が低下する。

　　（本実施形態に係る情報処理装置による推定対象の抽出）
　そこで、情報処理装置１０は、ＨＯＩ（つまり、作業Ｏｐ）の内容を推定する推定処理の推定精度を向上させるために、以下の処理を実行する。すなわち、情報処理装置１０は、先ず、「撮像画像Ｉｍに撮像されている人間（作業者Ｈｕ）」と、「撮像画像Ｉｍに撮像されているオブジェクト（作業対象物Ｏｂ）」との間に相互作用が実際にあるか否かを認識する（判定する）。そして、情報処理装置１０は、両者の間に相互作用があると判定した人間とオブジェクトとのペアについてのみ、その人間がそのオブジェクトについて行っている動作（ＨＯＩ）の内容を推定する。

　つまり、情報処理装置１０は、人間とオブジェクトとのペアについて、「ＨＯＩとしての作業Ｏｐ」の内容を推定する前に、「両者の間に相互作用がない」と判定した人間とオブジェクトとのペアを除外するフィルタを採用し、つまり、以下の判定処理を実行する。

　すなわち、情報処理装置１０は、各々が、撮像画像Ｉｍから検出した作業者Ｈｕと撮像画像Ｉｍから検出した作業対象物Ｏｂとから成る、全てのペアについて、各々、「作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否」を判定する。言い換えれば、情報処理装置１０は、各々が、撮像画像Ｉｍから検出した作業者Ｈｕと撮像画像Ｉｍから検出した作業対象物Ｏｂとから成る、全てのペアから、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるペア」だけを抽出する。

　例えば、情報処理装置１０は、図３の撮像画像Ｉｍから、２人の作業者Ｈｕと４つの作業対象物Ｏｂとを検出し、各々が作業者Ｈｕと作業対象物Ｏｂとから成る、計８つのペアを検出する。情報処理装置１０は、上述の８つのペアについて、各々、「作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否」をモデルベースで判定する。そして、情報処理装置１０は、上述の８つのペアから、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がある」２つのペアだけを抽出する。図３に例示する撮像画像Ｉｍについて、情報処理装置１０は、上述の８つのペアから、「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」および「作業者Ｈｕ（２）と作業対象物Ｏｂ（３）とのペア」を抽出する。

　そして、情報処理装置１０は、「両者の間に相互作用がある」と判定した「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、ＨＯＩ検出を実行し、つまり、作業者Ｈｕが作業対象物Ｏｂに対して行なっている作業Ｏｐの内容を推定する。図３の例では、情報処理装置１０は、「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」および「作業者Ｈｕ（２）と作業対象物Ｏｂ（３）とのペア」についてのみ、ＨＯＩ検出を実行する。

　情報処理装置１０は、撮像画像Ｉｍから検出した「作業者Ｈｕと作業対象物Ｏｂとのペア」の全てについてＨＯＩ検出を実行するのではなく、両者の間に相互作用がある「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、ＨＯＩ検出を実行する。

　したがって、情報処理装置１０は、ＨＯＩ検出に係る計算量を抑制し、ＨＯＩ検出に要する時間を短縮することができる。言い換えれば、情報処理装置１０は、撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する際の計算量を抑制し、推定に要する時間を短縮し、推定処理を高速化することができる。

　また、情報処理装置１０は、両者の間に相互作用がある作業者Ｈｕと作業対象物Ｏｂとのペアについてのみ、ＨＯＩ検出（作業Ｏｐの内容の推定）を実行することによって、ＨＯＩ検出の精度を向上させることができる。

　（転移学習について）
　情報処理装置１０は、撮像画像Ｉｍから作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する解析処理において、互いに区別される判定処理と推定処理とを実行する。判定処理は、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を判定する処理である。推定処理は、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を推定する処理である。特に、推定処理は、判定処理によって「両者の間に相互作用がある」と判定された「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとのペア」についてのみ、「ＨＯＩとしての作業Ｏｐ」の内容を推定する処理である。

　情報処理装置１０は、解析処理を行う解析部１２０をニューラルネットワーク（ＮＮ）として実現した場合、判定処理に係る判定部１２２（判定モデル１５２）と、推定処理に係る推定部１２３（推定モデル１５３）とを区別することで、以下の効果を実現する。すなわち、情報処理装置１０は、ＮＮとして実現した解析部１２０において、各々が学習済モデルである判定モデル１５２と推定モデル１５３とを区別することで、互いにドメインの異なる複数のデータセットＤＳを用いた転移学習を可能とする。解析部１２０は、例えば、「工場Ｆａ（Ａ）で準備されたデータセットＤＳ（Ａ）」に対する機械学習で構築した判定モデル１５２（Ａ）を、工場Ｆａ（Ｃ）で撮像された撮像画像Ｉｍ（Ｃ）に対する解析に転用可能なネットワーク設計となっている。詳細は後述する。

　（本実施形態に係る情報処理装置の概要）
　以下に図１等を参照して詳細を説明していく情報処理装置１０について、情報処理装置１０の理解を容易にするために、その概要を予め説明しておく。

　作業者Ｈｕによる作業Ｏｐの効率的な実行を支援するのに利用可能な情報である支援情報を生成するには、工場Ｆａにおいて工程情報を可視化するのが有用である。

　従来、人間（作業者Ｈｕ）のポーズ（姿勢）を推定したポーズ推定情報から、人間の行っている動作の内容を認識（推定）する方法が知られている。ただし、工場Ｆａにおいて作業者Ｈｕは、基本的に何かしらの作業Ｏｐを継続している。そのため、工程分割するためには、つまり、作業者Ｈｕの行っている作業Ｏｐの内容を推定するためには、作業者Ｈｕのポーズだけではなく、作業者Ｈｕと物体（作業対象物Ｏｂ）との干渉情報も踏まえる必要がある。

　そこで、情報処理装置１０は、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐを、作業者Ｈｕと作業対象物Ｏｂとの相互作用（ＨＯＩ）として捉える。そして、情報処理装置１０は、例えば、ＨＯＩ検出として、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容の推定を実行する。

　ただし、人間（作業者Ｈｕ）と物体（オブジェクト、作業対象物Ｏｂ）との干渉、相互作用であるＨＯＩを通して、人間の動作（作業Ｏｐ）を認識するだけの従来の手法には、以下の課題がある。

　すなわち、従来の手法では、複数の工場Ｆａの各々における作業者Ｈｕの作業Ｏｐを認識するためには、それら複数の工場Ｆａの各々において、作業者Ｈｕの行っている作業Ｏｐを認識するためのデータを収集しなければならなかった。すなわち、従来の手法では、例えば、工場Ｆａ（Ａ）における作業者Ｈｕの作業Ｏｐを認識するためには、工場Ｆａ（Ａ）において、作業者Ｈｕの行っている作業Ｏｐを認識するためのデータを収集する必要がある。同様に、従来の手法では、工場Ｆａ（Ｂ）における作業者Ｈｕの作業Ｏｐを認識するためには、工場Ｆａ（Ｂ）において、作業者Ｈｕの行っている作業Ｏｐを認識するためのデータを収集する必要がある。つまり、従来の手法では、工場Ｆａ（Ｘ）における作業者Ｈｕの作業Ｏｐを認識するためには、工場Ｆａ（Ｘ）において、作業者Ｈｕの行っている作業Ｏｐを認識するためのデータを収集する必要がある。

　情報処理装置１０は、ＨＯＩ検出のために利用可能な知識を、つまり、作業Ｏｐの内容を推定するための知識を蓄積し、例えば、工場Ｆａ（Ａ）およびＦａ（Ｂ）の少なくとも一方において、学習のためのデータを収集する。そして、情報処理装置１０は、収集したデータに対する機械学習によって構築した学習済モデル（具体的には、判定モデル１５２）を、工場Ｆａ（Ｃ）における作業Ｏｐの内容の推定にも転用することができる。

　情報処理装置１０は、解析処理を行う解析部１２０をＮＮとして実現した場合、判定処理に係るネットワーク（判定モデル１５２）と、推定処理に係るネットワーク（推定モデル１５３）とを分けることによって、以下の効果を実現する。すなわち、情報処理装置１０は、作業Ｏｐの推定のためのルール情報（知識）を転移学習できるようにし、例えば、或る工場Ｆａ（Ｘ）で学習した知識を、他の工場Ｆａ（Ｙ）における作業Ｏｐの推定にも転用することができる。

　また、従来、ルールベースで、人間（作業者Ｈｕ）と物体（作業対象物Ｏｂ）との間の干渉（相互作用）から、人間の行っている動作（作業Ｏｐ）の内容を認識（推定）する方法が知られている。

　ただし、動作（作業Ｏｐ）の種類が多くなると、ＨＯＩペア（つまり、人間（作業者Ｈｕ）と物体（作業対象物Ｏｂ）とのペア）について動作の内容を推定するために予め準備しておくべきルールが急増し、そのようなルールを人手で作るのは煩雑になってくる。

　そこで、情報処理装置１０は、考えられる全ての「作業者Ｈｕと作業対象物Ｏｂとのペア」から、相互作用が存在しない「作業者Ｈｕと作業対象物Ｏｂとのペア」を、モデルベースで除去する。その上で、情報処理装置１０は、相互作用が存在する「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、例えばモデルベースで、ＨＯＩの検出（つまり、作業Ｏｐの内容の推定）を実行する。

　情報処理装置１０は、相互作用が存在しない「作業者Ｈｕと作業対象物Ｏｂとのペア」をモデルベースで除去することによって、従来の方式がそのような除去に必要としていた煩雑なルール整備を不要とする。

　また、情報処理装置１０は、相互作用が存在しない「作業者Ｈｕと作業対象物Ｏｂとのペア」を除去することによって、作業Ｏｐの内容の推定精度を向上することができる。

　さらに、情報処理装置１０は、相互作用が存在しない「作業者Ｈｕと作業対象物Ｏｂとのペア」を除去することによって、作業Ｏｐの内容の推定に際しての計算量を抑制し、作業Ｏｐの内容の推定に要する時間を短縮することができる。つまり、情報処理装置１０は、作業Ｏｐの内容の推定が必要な「作業者Ｈｕと作業対象物Ｏｂとのペア」を抽出し、抽出した「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、作業Ｏｐの内容を推定することによって、計算速度を高速化することができる。

　情報処理装置１０は、従来の「人間のポーズ（姿勢）を推定する情報と、物体についての情報とを用いて、ルールベースで動作（作業Ｏｐ）を分析（推定）したり、複数の手法を組み合わせて動作を分析したりする」手法と、以下の点において異なる。すなわち、情報処理装置１０は、例えばＮＮを利用して、End-to-Endな作業推定処理を実現している。また、情報処理装置１０は、転移学習が可能なネットワーク構造を採用しており、既存知識を流用して、作業Ｏｐの内容の推定に係る推定精度を向上させることができる。

　情報処理装置１０は、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」との間の相互作用の存否をルールベースで判定するものではない。情報処理装置１０は、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否に係る規則（ルール）を機械学習によって発見、生成し、この規則を利用して、撮像画像Ｉｍについて、撮像されている作業者Ｈｕおよび作業対象物Ｏｂの間の相互作用の存否を判定する。

　情報処理装置１０は、撮像画像Ｉｍに撮像されている全ての「作業者Ｈｕと作業対象物Ｏｂとのペア」を検出し、その中から、両者の間に相互作用がある「作業者Ｈｕと作業対象物Ｏｂとのペア」だけをモデルベースで自動的に抽出する。

　（本実施形態に係る情報処理装置についての整理）
　これまでに図２および図３を用いて説明してきた内容は、以下のように整理することができる。すなわち、情報処理装置１０は、作業場Ａｒを撮像した撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕが行っている作業Ｏｐの内容を推定する作業推定装置であって、検出部１２１と、判定部１２２と、推定部１２３とを備える。

　検出部１２１は、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとを検出する。

　判定部１２２は、モデルベースで、撮像画像Ｉｍまたはその特徴情報から、検出部１２１によって検出された作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。判定部１２２は、学習済モデルである判定モデル１５２を用いて、撮像画像Ｉｍまたはその特徴情報から、検出部１２１によって検出された作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。判定モデル１５２は、「撮像画像Ｉｍ、または、撮像画像Ｉｍから生成された特徴情報」を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を出力とする学習済モデルである。

　推定部１２３は、判定部１２２によって相互作用が存在すると判定された作業者Ｈｕと作業対象物Ｏｂとの組合せ（ペア）について、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　前記の構成によれば、情報処理装置１０は、学習済モデルである判定モデル１５２を用いて、撮像画像Ｉｍから検出された「作業者Ｈｕと作業対象物Ｏｂとのペア」について、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。そして、情報処理装置１０は、相互作用が存在すると判定した「作業者Ｈｕと作業対象物Ｏｂとのペア」について、ペアの一方である作業者Ｈｕが、ペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　つまり、情報処理装置１０は、撮像画像Ｉｍから検出された作業者Ｈｕと作業対象物Ｏｂとについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。

　したがって、情報処理装置１０は、作業者Ｈｕの行う作業Ｏｐの種類が増えても、作業Ｏｐの内容を推定するための煩雑なルールを整備する必要なく、作業者Ｈｕが行っている作業Ｏｐを推定することができるとの効果を奏する。

　また、情報処理装置１０は、「相互作用が存在する」とモデルベースで判定した作業者Ｈｕと作業対象物Ｏｂとのペアについて、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　つまり、情報処理装置１０は、撮像画像Ｉｍに撮像されている作業者Ｈｕと作業対象物Ｏｂとのペアの全てについてではなく、「相互作用が存在する」と判定したペアについてのみ、作業者Ｈｕが行っている作業Ｏｐの内容を推定する。

　したがって、情報処理装置１０は、撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。

　情報処理装置１０において、検出部１２１は、学習済モデルである検出モデル１５１を用いて、撮像画像Ｉｍから、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とを検出する。検出モデル１５１は、撮像画像Ｉｍを入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」に係る情報と、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」に係る情報とを出力とする学習済モデルである。

　前記の構成によれば、情報処理装置１０は、検出モデル１５１を用いて、撮像画像Ｉｍから、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とを検出する。

　つまり、情報処理装置１０は、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とを、ルールベースではなく、モデルベースで、撮像画像Ｉｍから検出する。

　したがって、情報処理装置１０は、煩雑なルール整備を必要とせずに、撮像画像Ｉｍから、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とを検出することができるとの効果を奏する。

　情報処理装置１０において、推定部１２３は、学習済モデルである推定モデル１５３を用いて、判定部１２２が「相互作用が存在する」と判定したペアの一方である作業者Ｈｕが、そのペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。推定モデル１５３は、「撮像画像Ｉｍ、または、その特徴情報」を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を出力とする学習済モデルである。

　前記の構成によれば、情報処理装置１０は、「相互作用がある」と判定されたペアについて、推定モデル１５３を用いて、そのペアの一方である作業者Ｈｕが、そのペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　つまり、情報処理装置１０は、撮像画像Ｉｍから検出された作業者Ｈｕと作業対象物Ｏｂとについて、ルールベースではなく、モデルベースで、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　情報処理装置１０は、工程情報取得部１３０（取得部）と、支援情報生成部１４０（生成部）と、をさらに備える。工程情報取得部１３０は、作業場Ａｒに設置された機器４０の動作Ａｃを制御するＰＬＣ２０（制御装置）から、機器４０が実行した動作Ａｃの内容および結果を示す動作結果Ｌａから生成された工程情報を取得する。支援情報生成部１４０は、推定部１２３によって推定された作業者Ｈｕの作業Ｏｐの内容と、工程情報取得部１３０によって取得された工程情報とから、作業者Ｈｕによる作業Ｏｐの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。

　前記の構成によれば、情報処理装置１０は、ＰＬＣ２０から、「作業場Ａｒに設置された機器４０が実行した動作Ａｃの内容および結果を示す動作結果Ｌａ」から生成された工程情報を取得する。そして、情報処理装置１０は、撮像画像Ｉｍから推定した「作業者Ｈｕの作業Ｏｐの内容」と、工程情報とから、作業者Ｈｕによる作業Ｏｐの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。

　したがって、情報処理装置１０は、撮像画像Ｉｍから推定した「作業者Ｈｕの作業Ｏｐの内容」を、工程情報と組み合わせることによって、作業者Ｈｕによる作業Ｏｐの効率的な実行を支援するのに利用可能な情報である支援情報を生成できるとの効果を奏する。

　§２．構成例
　これまでに概要を説明してきた情報処理装置１０について、次に、図１を用いてその詳細を説明していく。

　図１は、情報処理装置の要部構成を示すブロック図である。図１に例示する情報処理装置１０は、機能ブロックとして、例えば、撮像画像取得部１１０、解析部１２０、工程情報取得部１３０、支援情報生成部１４０、および、記憶部１５０を備えている。

　情報処理装置１０は、上述の各機能ブロックに加えて、以下の各部を備えてもよい。すなわち、情報処理装置１０は、撮像画像Ｉｍの、所定の格納領域（保存領域）への格納（保存）を制御する管理部、作業者Ｈｕが作業場Ａｒに滞在している時間（滞在時間）を測定する測定部、工程情報と滞在時間とを対応付ける分析部等を備えてもよい。

　記載の簡潔性を担保するため、本実施の形態に直接関係のない情報処理装置１０の構成は、説明およびブロック図から省略している。ただし、実施の実情に則して、情報処理装置１０は、これらの省略された構成を備えてもよい。

　情報処理装置１０の備える上述の機能ブロックは、例えば、演算装置が、ＲＯＭ（read only memory）、ＮＶＲＡＭ（non-Volatile random access memory）等で実現された記憶装置（記憶部１５０）に記憶されているプログラムを不図示のＲＡＭ（random access memory）等に読み出して実行することで実現できる。演算装置として利用可能なデバイスとしては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせを挙げることができる。

　以下に先ず、撮像画像取得部１１０、解析部１２０、工程情報取得部１３０、および、支援情報生成部１４０の各々について、その詳細を説明する。

　（記憶部以外の機能ブロックについて）
　撮像画像取得部１１０は、天井カメラ３０から、天井カメラ３０が作業場Ａｒを撮像した撮像画像Ｉｍを取得し、取得した撮像画像Ｉｍを、検出部１２１へと出力する。

　解析部１２０は、天井カメラ３０が撮像した撮像画像Ｉｍを解析し、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を推定する処理である解析処理を実行する。そして、解析部１２０は、推定した作業Ｏｐの内容を、撮像画像Ｉｍに対する解析結果として出力し、例えば、支援情報生成部１４０および図２の動画保存サーバ等に出力する。解析部１２０は、撮像画像Ｉｍに対する解析結果を、撮像画像Ｉｍと共に、図２の動画保存サーバ等に出力してもよい。

　解析部１２０は、例えば、撮像画像Ｉｍに対するモデルベースの解析を実行し、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を出力する。解析部１２０は、例えば、ニューラルネットワーク（ＮＮ）として実現される。

　解析部１２０は、検出部１２１、判定部１２２、および、推定部１２３を含む。

　検出部１２１は、撮像画像Ｉｍから撮像画像Ｉｍの特徴情報（特徴量）を抽出し、具体的には、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」を出力する。言い換えれば、検出部１２１は、撮像画像Ｉｍから、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」を検出する。

　「撮像画像Ｉｍに撮像されている作業者Ｈｕに係る情報」は、例えば、「撮像画像Ｉｍに撮像されている作業者Ｈｕの、存否（撮像画像Ｉｍに作業者Ｈｕが撮像されているか否か）、空間配置（空間上の位置）、および、姿勢」等を示す情報である。

　「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」は、例えば、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂの、存否、空間配置、および、撮像画像Ｉｍに撮像されている作業対象物Ｏｂが何であるか」等を示す情報である。

　検出部１２１は、記憶部１５０を参照して取得した検出モデル１５１を用いて、撮像画像Ｉｍから、撮像画像Ｉｍの特徴情報を抽出し、つまり、撮像画像Ｉｍに撮像されている「作業者Ｈｕおよび作業対象物Ｏｂ」を検出する。

　検出部１２１は、撮像画像Ｉｍから抽出した撮像画像Ｉｍの特徴情報を、判定部１２２および推定部１２３へと出力する。言い換えれば、検出部１２１は、撮像画像Ｉｍから検出した、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」を、判定部１２２および推定部１２３に通知する。

　判定部１２２は、撮像画像Ｉｍ、または、検出部１２１が抽出した撮像画像Ｉｍの特徴情報を用いて、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とのペアについて、以下の判定を実行する。すなわち、判定部１２２は、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とのペアについて、両者の間の相互作用の存否を判定する。言い換えれば、判定部１２２は、検出部１２１が撮像画像Ｉｍから検出した、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とについて、両者の間に相互作用があるか否かを判定する。

　判定部１２２は、記憶部１５０を参照して取得した判定モデル１５２を用いて、撮像画像Ｉｍ、または、撮像画像Ｉｍの特徴情報から、撮像画像Ｉｍから検出された「作業者Ｈｕおよび作業対象物Ｏｂ」について、「両者の間の相互関係の存否」を判定する。

　判定部１２２は、判定の結果を推定部１２３に通知し、例えば、両者の間に相互作用があると判定した、「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とのペアを、推定部１２３へと出力する。

　推定部１２３は、撮像画像Ｉｍ、または、検出部１２１が抽出した撮像画像Ｉｍの特徴情報を用いて、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を推定する。

　推定部１２３は、記憶部１５０を参照して取得した推定モデル１５３を用いて、上述の推定を実行する。すなわち、推定部１２３は、推定モデル１５３を用いて、撮像画像Ｉｍ、または、撮像画像Ｉｍの特徴情報から、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を推定する。

　特に、推定部１２３は、判定部１２２によって「両者の間に相互作用がある」と判定された『「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とのペア』についてのみ、上述の推定を実行する。すなわち、推定部１２３は、「両者の間に相互作用がある」と判定されたペアについてのみ、そのペアの一方である作業者Ｈｕが、そのペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を、推定する。

　工程情報取得部１３０は、工程情報を制御装置であるＰＬＣ２０から取得し、取得した工程情報を支援情報生成部１４０へと出力する。

　支援情報生成部１４０は、解析部１２０（特に、推定部１２３）が推定した作業Ｏｐ（Ａ）の内容と、工程情報とを用いて、作業者Ｈｕによる作業Ｏｐの効率的な実行を支援するのに利用可能な情報である支援情報を生成する。支援情報生成部１４０は、生成した支援情報を出力し、例えば、図２の動画保存サーバ等に出力する。

　（記憶部について）
　記憶部１５０は、情報処理装置１０が使用する各種データを格納する記憶装置である。なお、記憶部１５０は、情報処理装置１０が実行する（１）制御プログラム、（２）ＯＳプログラム、（３）情報処理装置１０が有する各種機能を実行するためのアプリケーションプログラム、および、（４）該アプリケーションプログラムを実行するときに読み出す各種データを非一時的に記憶してもよい。上記の（１）～（４）のデータは、例えば、ＲＯＭ（read only memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（登録商標）（Electrically EPROM）、ＨＤＤ（Hard Disc Drive）等の不揮発性記憶装置に記憶される。情報処理装置１０は、図示しない一時記憶部を備えていてもよい。一時記憶部は、情報処理装置１０が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、ＲＡＭ（Random Access Memory）等の揮発性記憶装置で構成される。どのデータをどの記憶装置に記憶するのかについては、情報処理装置１０の使用目的、利便性、コスト、または、物理的な制約等から適宜決定される。記憶部１５０はさらに、検出モデル１５１、判定モデル１５２、および、推定モデル１５３を格納している。

　検出モデル１５１は、「検出部１２１が、撮像画像Ｉｍから、撮像画像Ｉｍの特徴情報（特徴量）を抽出する」ためのモデルである。言い換えれば、検出モデル１５１は、検出部１２１が撮像画像Ｉｍから「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」を検出するためのモデルである。

　検出モデル１５１は、例えば、撮像画像Ｉｍを入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」を出力とする学習済モデルである。

　判定モデル１５２は、『判定部１２２が、撮像画像Ｉｍ、または、撮像画像Ｉｍの特徴情報を用いて、「撮像画像Ｉｍに撮像されている、作業者Ｈｕおよび作業対象物Ｏｂのペア」について、両者の間の相互作用の存否を判定する』ためのモデルである。言い換えれば、判定モデル１５２は、判定部１２２が、『「検出部１２１が撮像画像Ｉｍから検出した作業者Ｈｕ」と「検出部１２１が撮像画像Ｉｍから検出した作業対象物Ｏｂ」とについて、両者の間に相互作用があるか否かを判定する』ためのモデルである。

　判定モデル１５２は、例えば、撮像画像Ｉｍ（撮像画像Ｉｍの特徴情報）を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報を出力とする学習済モデルである。

　推定モデル１５３は、推定部１２３が、撮像画像Ｉｍ、または、撮像画像Ｉｍの特徴情報を用いて、「撮像画像Ｉｍに撮像されている、作業者Ｈｕおよび作業対象物Ｏｂのペア」について、以下の内容を推定するためのモデルである。すなわち、推定モデル１５３は、推定部１２３が「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を推定するためのモデルである。

　推定モデル１５３は、例えば、撮像画像Ｉｍ（撮像画像Ｉｍの特徴情報）を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報を出力とする学習済モデルである。

　以上の構成を備える情報処理装置１０について、解析処理を行う解析部１２０をＮＮとして実現した場合の、検出部１２１（検出モデル１５１）、判定部１２２（判定モデル１５２）、および、推定部１２３（推定モデル１５３）の関係を、図４を用いて概説する。

　（ニューラルネットワーク（ＮＮ）として実現した解析部の例）
　図４は、ＮＮとして実現した解析部１２０の例を説明する図である。前述の通り、解析部１２０は、ＮＮとして実現されてもよく、特に、ＣＮＮ（Convolution al Neural Network）またはＤＮＮ（Deep Neural Network）として、実現されてもよい。ＮＮとして実現された解析部１２０は、図４において図示していない特徴量抽出器Ｒと、図４における相互作用判定器Ｐと、図４におけるＨＯＩ分類器Ｃとを含む。

　特徴量抽出器Ｒ（Representation network（feature extractor））は、例えばFaster R-CNNであり、オブジェクト検出（Object detection）を実行し、検出部１２１（検出モデル１５１）に対応する。特徴量抽出器Ｒは、撮像画像Ｉｍから、撮像画像Ｉｍの特徴情報（特徴量）を抽出する。具体的には、特徴量抽出器Ｒは、学習済モデルである検出モデル１５１に、撮像画像Ｉｍを入力する。撮像画像Ｉｍの入力を受けた検出モデル１５１は、撮像画像Ｉｍの特徴情報を出力し、具体的には、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」を出力する。

　図４に示す例では、撮像画像Ｉｍの入力に対して、撮像画像Ｉｍの特徴情報として、以下の情報が出力されている。すなわち、撮像画像Ｉｍの特徴情報として、撮像画像Ｉｍに撮像されている作業者Ｈｕの姿勢を示す情報（Pose Map）が出力されている。また、撮像画像Ｉｍの特徴情報として、撮像画像Ｉｍに撮像されている作業者Ｈｕおよび作業対象物Ｏｂの各々の空間配置を示す情報(Spatial Maps)が出力されている。さらに、撮像画像Ｉｍの特徴情報として、撮像画像Ｉｍに撮像されている作業者Ｈｕに係るその他の情報(Human Feature)、および、撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係るその他の情報(Object Feature)が出力されている。

　図４の相互作用判定器Ｐ（interactive Predictor）は、判定部１２２（判定モデル１５２）に対応する。相互作用判定器Ｐは、撮像画像Ｉｍの特徴情報から、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定し、判定結果を出力する。具体的には、相互作用判定器Ｐは、学習済モデルである判定モデル１５２に、撮像画像Ｉｍの特徴情報を入力する。撮像画像Ｉｍの特徴情報の入力を受けた判定モデル１５２は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定し、判定結果を出力する。

　相互作用判定器Ｐは、図４に例示する撮像画像Ｉｍについて、判定モデル１５２を用いて以下の判定を実行する。すなわち、相互作用判定器Ｐは、先ず、撮像画像Ｉｍに撮像されている２つのペア、具体的には、「作業者Ｈｕ（１）と作業対象物Ｏｂ（１）とのペア」と「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」とを検出する。相互作用判定器Ｐは、２つのペアの各々について、「ペアの一方である作業者Ｈｕと、ペアの他方である作業対象物Ｏｂとの間に相互作用があるか否か」を判定する。相互作用判定器Ｐは、「作業者Ｈｕ（１）と作業対象物Ｏｂ（１）とのペア」については、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がある」と判定する。相互作用判定器Ｐは、「作業者Ｈｕ（１）と作業対象物Ｏｂ（２）とのペア」については「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がない」と判定する。相互作用判定器Ｐは、判定結果をＨＯＩ分類器Ｃへと出力し、例えば、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がある」と判定した「作業者Ｈｕ（１）と作業対象物Ｏｂ（１）とのペア」のみを、ＨＯＩ分類器Ｃに通知する。

　相互作用判定器Ｐは、撮像画像Ｉｍの特徴情報の入力を受けた判定モデル１５２の出力に対して、さらに以下の値を利用して、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定してもよい。すなわち、相互作用判定器Ｐは、特徴量抽出器Ｒによるオブジェクト検出のスコア等をロジスティック回帰で「０から１までの値」へ変換した値を利用してもよい。オブジェクト検出のスコアは、例えば、撮像画像Ｉｍから検出された作業者Ｈｕおよび作業対象物Ｏｂについて、各々の存否の可能性を示すスコアである。

　図４のＨＯＩ分類器Ｃ（HOI Classifier）は、例えばｉＣＡＮであり、推定部１２３（推定モデル１５３）に対応する。ＨＯＩ分類器Ｃは、撮像画像Ｉｍの特徴情報から、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報を出力する。具体的には、ＨＯＩ分類器Ｃは、学習済モデルである推定モデル１５３に、撮像画像Ｉｍの特徴情報を入力する。撮像画像Ｉｍの特徴情報の入力を受けた推定モデル１５３は、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報を出力する。

　ここで、ＨＯＩ分類器Ｃは、相互作用判定器Ｐの出力を利用して、推定モデル１５３が『両者の間のＨＯＩとして作業Ｏｐの内容を推定する、「作業者Ｈｕと作業対象物Ｏｂとのペア」』を抽出する。すなわち、ＨＯＩ分類器Ｃは、「両者の間に相互作用がある」と判定された「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、両者の間のＨＯＩとして、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　具体的には、ＨＯＩ分類器Ｃは、「両者の間に相互作用がある」と判定された「作業者Ｈｕと作業対象物Ｏｂとのペア」についてのみ、両者の間のＨＯＩとして、「作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐ」のスコアを算出する。図４に例示する撮像画像Ｉｍについて、ＨＯＩ分類器Ｃは、相互作用判定器Ｐが「両者の間に相互作用がある」と判定した「作業者Ｈｕ（１）と作業対象物Ｏｂ（１）とのペア」についてのみ、ＨＯＩを検出し、例えば、ＨＯＩのスコアを出力する。

　図４には、作業者Ｈｕ（１）が作業対象物Ｏｂ（１）について行っている作業Ｏｐ（つまり、ＨＯＩ）のスコアとして、以下の値が例示されている。すなわち、「Carry（運搬）」のスコアが「0.96」、「Hold（把持）」のスコアが「0.89」、「Paint（塗装）」のスコアが「0.92」、「Ride（乗車）」のスコアが「0.03」である例が示されている。

　解析部１２０による撮像画像Ｉｍの解析において、ＨＯＩ分類器Ｃによる推定処理に先行して、相互作用判定器Ｐが、撮像画像Ｉｍから検出された「作業者Ｈｕと作業対象物Ｏｂとのペア」について、推定処理の要否を判定する。つまり、解析部１２０において、相互作用判定器Ｐは、特徴量抽出器Ｒが撮像画像Ｉｍから抽出した特徴情報から想定し得る、撮像画像Ｉｍ中の全ての「作業者Ｈｕと作業対象物Ｏｂとのペア」の中から、ＨＯＩ分類器Ｃによる推定処理が不要なペアを排除する。そして、ＨＯＩ分類器Ｃは、残ったペアについてのみ、両者の間のＨＯＩを検出し、つまり、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する（動詞推定を実行する）。

　したがって、解析部１２０は、ＨＯＩ分類器Ｃ（つまり、推定部１２３）による推定処理の計算コストを予め下げることができ、結果として、撮像画像Ｉｍの解析処理全体の計算速度を向上させることができる。

　次に、学習済モデルである検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築する学習処理について、以下に説明する。

　（学習処理）
　ＮＮとして実現された解析部１２０は、学習済モデルである検出モデル１５１、判定モデル１５２、および、推定モデル１５３の各々を、例えば以下の方法によって構築する。すなわち、解析部１２０は、「撮像画像Ｉｍまたは撮像画像Ｉｍの特徴情報に対し、所定のラベルが付されたデータ」の集合であるデータセットＤＳに対する教師あり学習によって、検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築する。以下では、「撮像画像Ｉｍまたは撮像画像Ｉｍの特徴情報に対し、所定のラベルが付されたデータ」を「学習用データ」と称する。また、「解析部１２０が、教師あり学習によって、検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築する」処理を、「学習処理」と称する。

　例えば、学習用データは、撮像画像Ｉｍに対して以下の情報がラベルとして付されたデータである。すなわち、学習用データにおいて撮像画像Ｉｍには、撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報（例、作業者Ｈｕの存否、作業者Ｈｕの空間配置（空間上の位置）、作業者Ｈｕの姿勢等を示す情報）がラベルとして付されている。また、学習用データにおいて撮像画像Ｉｍには、撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報（例、作業対象物Ｏｂの存否、作業対象物Ｏｂの空間配置、作業対象物Ｏｂが何であるか等を示す情報）がラベルとして付されている。

　さらに、学習用データにおいて撮像画像Ｉｍには、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報がラベルとして付されている。

　加えて、学習用データにおいて撮像画像Ｉｍには、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報がラベルとして付されている。

　学習用データにおいて撮像画像Ｉｍに対するラベルとして付される情報は、学習用データの集合であるデータセットＤＳに対する機械学習により構築された学習済モデルが、撮像画像Ｉｍ（または撮像画像Ｉｍの特徴情報）の入力に対して出力する情報と同様である。

　　（学習済モデルとしての検出モデルの構築）
　学習処理において、ＮＮとして実現された解析部１２０は、データセットＤＳに対する教師あり学習によって、撮像画像Ｉｍの入力に対して、以下の情報を出力する検出モデル１５１を、学習済モデルとして構築する。すなわち、検出モデル１５１は、撮像画像Ｉｍを入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」を出力とする学習済モデルである。特に、検出モデル１５１は、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」および「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」を、撮像画像Ｉｍの特徴情報（特徴量）として出力する学習済モデルである。

　前述の通り、学習用データにおいて、撮像画像Ｉｍには、「撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報」、および、「撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報」がラベルとして付されている。

　ＮＮとして実現された解析部１２０は、学習によって構築した検出モデル１５１を、記憶部１５０に格納する。

　　（学習済モデルとしての判定モデルの構築）
　学習処理において、ＮＮとして実現された解析部１２０は、データセットＤＳに対する教師あり学習によって、撮像画像Ｉｍまたは撮像画像Ｉｍの特徴情報（特徴量）の入力に対して、以下の情報を出力する判定モデル１５２を、学習済モデルとして構築する。すなわち、判定モデル１５２は、撮像画像Ｉｍ（撮像画像Ｉｍの特徴情報）を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報を出力とする学習済モデルである。

　前述の通り、学習用データにおいて、撮像画像Ｉｍには、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報がラベルとして付されている。

　「ＮＮとして実現された解析部１２０が判定モデル１５２を構築するための教師あり学習を行うデータセットＤＳ」に含まれる学習用データは、以下のようなデータであってもよい。すなわち、ラベルとしての「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報が、撮像画像Ｉｍの特徴情報（特徴量）に対して付されたデータであってもよい。つまり、「検出モデル１５１が撮像画像Ｉｍから抽出する特徴情報」に対し、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を示す情報がラベルとして付されたデータでもよい。

　ＮＮとして実現された解析部１２０は、学習によって構築した判定モデル１５２を、記憶部１５０に格納する。

　　（学習済モデルとしての推定モデルの構築）
　学習処理において、ＮＮとして実現された解析部１２０は、データセットＤＳに対する教師あり学習によって、撮像画像Ｉｍまたは撮像画像Ｉｍの特徴情報（特徴量）の入力に対して、以下の情報を出力する推定モデル１５３を、学習済モデルとして構築する。すなわち、推定モデル１５３は、撮像画像Ｉｍ（撮像画像Ｉｍの特徴情報）を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報を出力とする学習済モデルである。

　前述の通り、学習用データにおいて、撮像画像Ｉｍには、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報がラベルとして付されている。

　「ＮＮとして実現された解析部１２０が推定モデル１５３を構築するための教師あり学習を行うデータセットＤＳ」に含まれる学習用データは、以下のようなデータであってもよい。すなわち、ラベルとしての「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報が、撮像画像Ｉｍの特徴情報（特徴量）に対して付されたデータであってもよい。つまり、「検出モデル１５１が撮像画像Ｉｍから抽出する特徴情報」に対し、「撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容」を示す情報がラベルとして付されたデータでもよい。

　ＮＮとして実現された解析部１２０は、学習によって構築した推定モデル１５３を、記憶部１５０に格納する。

　§３．動作例
　（モードごとの動作例）
　情報処理装置１０は、通常モードまたは転移学習モードで動作する。

　通常モードにおいて、ＮＮとして実現された解析部１２０は、相互作用判定器Ｐ（判定モデル１５２）と、ＨＯＩ分類器Ｃ（推定モデル１５３）とを、同じデータセットＤＳに対する学習によって構築する。

　転移学習モードにおいて、ＮＮとして実現された解析部１２０が相互作用判定器Ｐ（判定モデル１５２）を構築するために学習したデータセットＤＳと、解析部１２０がＨＯＩ分類器Ｃ（推定モデル１５３）を構築するために学習したデータセットＤＳとは異なる。

　転移学習モードにおいて、ＮＮとして実現された解析部１２０は、相互作用判定器Ｐ（判定モデル１５２）を、例えば、互いにドメインの異なる複数のデータセットＤＳを含むデータセットＤＳ（Ｘ）に対する学習によって構築する。例えば、転移学習モードにおいて解析部１２０は、「工場Ｆａ（Ａ）で準備されたデータセットＤＳ（Ａ）」と「工場Ｆａ（Ｂ）で準備されたデータセットＤＳ（Ｂ）」とを含むデータセットＤＳ（Ｘ）に対する学習によって、判定モデル１５２（Ｘ）を構築する。

　データセットＤＳ（Ｘ）において、工場Ｆａ（Ａ）およびＦａ（Ｂ）の少なくとも一方で撮像された撮像画像Ｉｍには、撮像画像Ｉｍに撮像されている「作業者Ｈｕおよび作業対象物Ｏｂ」の間の相互作用の存否を示す情報がラベルとして付されている。転移学習モードにおいて解析部１２０は、データセットＤＳ（Ｘ）によって、撮像画像Ｉｍに撮像されている「作業者Ｈｕおよび作業対象物Ｏｂ」の間の相互作用の存否を学習する。

　データセットＤＳ（Ｘ）の学習から構築された判定モデル１５２（Ｘ）は、データセットＤＳ（Ｘ）とは異なるデータセットＤＳであるデータセットＤＳ（Ｃ）の学習から構築された推定モデル１５３（Ｃ）と協働することができる。つまり、データセットＤＳ（Ｘ）の学習から構築された判定モデル１５２（Ｘ）は、工場Ｆａ（Ｃ）で撮像された撮像画像Ｉｍ（Ｃ）について、撮像画像Ｉｍ（Ｃ）に撮像されている「作業者Ｈｕおよび作業対象物Ｏｂ」の間の相互作用の存否を判定できる。

　そして、転移学習モードにおいて、推定モデル１５３（Ｃ）は、判定モデル１５２（Ｘ）の出力を利用して、「ＨＯＩを分類する（つまり、作業Ｏｐの内容を推定する）」対象のペアを抽出する。すなわち、撮像画像Ｉｍ（Ｃ）（またはその特徴情報）を入力された推定モデル１５３（Ｃ）は、撮像画像Ｉｍ（Ｃ）（またはその特徴情報）を入力された判定モデル１５２（Ｘ）が「両者の間に相互作用がある」と判定したペアについてのみ、ＨＯＩを分類する。

　工場Ｆａごとに、「作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容」は様々であるから、「作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容」はドメインへの依存性が高い。そのため、「作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容」の学習は、工場Ｆａごとに行う必要がある。

　これに対して、工場Ｆａと、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるか否か」との間には関係性がなく、または、関係性が十分に小さいと考えられ、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるか否か」はドメインへの依存性が低い。そのため、『或る工場Ｆａ（Ｃ）において、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるか否か」を判定する』ための知識は、別の工場Ｆａ（Ｘ）で収集したデータからも学習することが可能である。

　そこで、転移学習モードにおいて解析部１２０は、工場Ｆａ（Ｘ）で収集したデータに対する学習によって構築した判定モデル１５２（Ｘ）によって、工場Ｆａ（Ｃ）において、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるか否か」を判定する。

　以下、通常モードおよび転移学習モードの各々における、学習処理および解析処理について、図５および図６を参照して、詳細を説明する。

　　（通常モード）
　図５は、通常モードにおいて情報処理装置１０が実行する処理の概要を説明する図である。図５の（Ａ）は、通常モードにおいて情報処理装置１０が実行する学習処理の概要を説明する図であり、図５の（Ｂ）は、通常モードにおいて情報処理装置１０が実行する解析処理の概要を説明する図である。

　図５における「Ｒ」、「Ｐ」、および、「Ｃ」は、各々、特徴量抽出器Ｒ（検出モデル１５１）、相互作用判定器Ｐ（判定モデル１５２）、および、ＨＯＩ分類器Ｃ（推定モデル１５３）の各々を示している。前述の通り、相互作用判定器Ｐ（判定モデル１５２）は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否（interactive / Non-interactive）を判定する。また、ＨＯＩ分類器Ｃ（推定モデル１５３）は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」のＨＯＩとして、そのペアの一方である作業者Ｈｕが、そのペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　通常モードにおいて解析部１２０は、「或る工場Ｆａで撮像された撮像画像Ｉｍ」の解析に用いる学習済モデルを、以下のようにして構築する。すなわち、解析部１２０は、『「その或る工場Ｆａで撮像された撮像画像Ｉｍ、または、その或る工場Ｆａで撮像された撮像画像Ｉｍの特徴情報」に対して、所定のラベルが付された学習用データ』の集合（データセットＤＳ）から、解析のためのモデルを構築する。

　通常モードにおいて、学習用データ（教師データ）に含まれる撮像画像Ｉｍと、その学習用データの集合であるデータセットＤＳに対する学習によって構築した学習済モデルに入力される撮像画像Ｉｍとは、同じ工場Ｆａにおいて撮像されたものである。

　例えば、通常モードにおいて解析部１２０は、「工場Ｆａ（Ａ）で撮像された撮像画像Ｉｍ（Ａ）」の解析に用いる学習済モデルを、以下のように生成する。すなわち、解析部１２０は、「撮像画像Ｉｍ（Ａ）または撮像画像Ｉｍ（Ａ）の特徴情報に対して、所定のラベルが付されたデータ」の集合であるデータセットＤＳ（Ａ）に対する教師あり学習によって、撮像画像Ｉｍ（Ａ）の解析に用いる学習済モデルを構築する。

　したがって、通常モードにおいて、相互作用判定器Ｐ（判定モデル１５２）を構築するために学習されるデータセットＤＳと、ＨＯＩ分類器Ｃ（推定モデル１５３）を構築するために学習されるデータセットＤＳとは、同じデータセットＤＳである。

　例えば、図５の（Ａ）において、工場Ｆａ（Ａ）で撮像された撮像画像Ｉｍ（Ａ）を解析するための学習済モデルである判定モデル１５２（Ａ）および推定モデル１５３（Ａ）は、いずれも、データセットＤＳ（Ａ）に対する学習によって構築される。

　そして、図５の（Ｂ）に示すように、通常モードにおいて、撮像画像Ｉｍ（Ａ）に対する解析処理は、互いに共通のデータセットＤＳ（Ａ）に対する学習によって構築された判定モデル１５２（Ａ）および推定モデル１５３（Ａ）を用いて実行される。

　すなわち、通常モードにおける撮像画像Ｉｍ（Ａ）に対する解析処理において、判定モデル１５２（Ａ）は、撮像画像Ｉｍ（Ａ）に撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定する。

　また、通常モードにおける撮像画像Ｉｍ（Ａ）に対する解析処理において、推定モデル１５３（Ａ）は、判定モデル１５２（Ａ）によって「両者の間に相互作用がある」と判定されたペアについて、そのペアのＨＯＩとして、作業Ｏｐの内容を推定する。図５の（Ｂ）において、作業Ｏｐの内容を推定するペアを「両者の間に相互作用がある」と判定されたペアに限定することを、「Ｉｎｔｅｒａｃｔｉｖｅ抑制」と呼んでいる。

　　（転移学習モード）
　図６は、転移学習モードにおいて情報処理装置１０が実行する処理の概要を説明する図である。図６の（Ａ）は、転移学習モードにおいて情報処理装置１０が実行する学習処理の概要を説明する図であり、図６の（Ｂ）は、転移学習モードにおいて情報処理装置１０が実行する解析処理の概要を説明する図である。

　図６における「Ｒ」、「Ｐ」、および、「Ｃ」は、各々、特徴量抽出器Ｒ（検出モデル１５１）、相互作用判定器Ｐ（判定モデル１５２）、および、ＨＯＩ分類器Ｃ（推定モデル１５３）の各々を示している。前述の通り、相互作用判定器Ｐ（判定モデル１５２）は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否（interactive / Non-interactive）を判定する。また、ＨＯＩ分類器Ｃ（推定モデル１５３）は、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」のＨＯＩとして、そのペアの一方である作業者Ｈｕが、そのペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　転移学習モードの学習処理において解析部１２０が推定モデル１５３を構築する方法は、通常モードの学習処理において解析部１２０が推定モデル１５３を構築する方法と同様である。

　具体的には、解析部１２０は、或る工場Ｆａで撮像された撮像画像Ｉｍ（または、その特徴情報）から、その或る工場Ｆａにおいて作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する推定モデル１５３を、以下のようにして構築する。すなわち、解析部１２０は、『「その或る工場Ｆａで撮像された撮像画像Ｉｍ（または、その特徴情報）」に対して、所定のラベルが付された学習用データ』の集合（データセットＤＳ）から、推定モデル１５３を構築する。

　例えば、転移学習モードにおいて解析部１２０は、「工場Ｆａ（Ｃ）で撮像された撮像画像Ｉｍ（Ｃ）」の解析に用いる推定モデル１５３（Ｃ）を、以下のように生成する。すなわち、解析部１２０は、「撮像画像Ｉｍ（Ｃ）または撮像画像Ｉｍ（Ｃ）の特徴情報に対して、所定のラベルが付されたデータ」の集合であるデータセットＤＳ（Ｃ）に対する教師あり学習によって、推定モデル１５３（Ｃ）を構築する。

　これに対して、転移学習モードの学習処理において解析部１２０が判定モデル１５２を構築する方法は、通常モードの学習処理において解析部１２０が判定モデル１５２を構築する方法とは異なる。

　解析部１２０は、或る工場Ｆａで撮像された撮像画像Ｉｍ（または、その特徴情報）から、撮像画像Ｉｍに撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定する判定モデル１５２を、以下のようにして構築する。すなわち、解析部１２０は、『「その或る工場Ｆａ以外の工場Ｆａで撮像された撮像画像Ｉｍ（または、その特徴情報）」に対して、所定のラベルが付された学習用データ』の集合（データセットＤＳ）から、判定モデル１５２を構築する。

　例えば、転移学習モードにおいて解析部１２０は、「工場Ｆａ（Ｃ）で撮像された撮像画像Ｉｍ（Ｃ）」の解析に用いる判定モデル１５２（Ｃ）を、以下のように生成する。すなわち、解析部１２０は、データセットＤＳ（Ａ）に対する学習から構築した判定モデル１５２（Ａ）を、判定モデル１５２（Ｃ）とする。

　解析部１２０は、判定モデル１５２（Ｃ）を構築するために、さらに、「工場Ｆａ（Ｂ）で撮像された撮像画像Ｉｍ（Ｂ）（または、その特徴情報）に対して、所定のラベルが付されたデータ」の集合であるデータセットＤＳ（Ｂ）を学習してもよい。

　すなわち、転移学習モードにおいて解析部１２０は、データセットＤＳ（Ａ）とデータセットＤＳ（Ｂ）とを含むデータセットＤＳ（Ｘ）に対する学習から構築した判定モデル１５２（Ｘ）を、判定モデル１５２（Ｃ）としてもよい。

　図６の（Ａ）に示すように、転移学習モードにおいて、解析部１２０が判定モデル１５２を構築するために学習したデータセットＤＳ（Ｘ）と、解析部１２０が推定モデル１５３を構築するために学習したデータセットＤＳ（Ｃ）とは異なる。転移学習モードにおいて、解析部１２０は、データセットＤＳ（Ｘ）に対する学習から判定モデル１５２（Ｃ）（つまり、判定モデル１５２（Ｘ））を構築し、データセットＤＳ（Ｃ）に対する学習から推定モデル１５３（Ｃ）を構築する。

　図６の（Ｂ）に示すように、転移学習モードにおいて、撮像画像Ｉｍ（Ｃ）に対する解析処理は、互いに異なるデータセットＤＳに対する学習から構築された判定モデル１５２（Ｃ）（＝判定モデル１５２（Ｘ））と推定モデル１５３（Ｃ）とを用いて実行される。

　すなわち、転移学習モードにおける撮像画像Ｉｍ（Ｃ）に対する解析処理において、判定モデル１５２（Ｘ）が、撮像画像Ｉｍ（Ｃ）に撮像されている「作業者Ｈｕと作業対象物Ｏｂとのペア」について、両者の間の相互作用の存否を判定する。

　また、転移学習モードにおける撮像画像Ｉｍ（Ｃ）に対する解析処理において、推定モデル１５３（Ｃ）は、判定モデル１５２（Ｘ）によって「両者の間に相互作用がある」と判定されたペアについて、そのペアのＨＯＩとして、作業Ｏｐの内容を推定する。図６の（Ｂ）において、作業Ｏｐの内容を推定するペアを「両者の間に相互作用がある」と判定されたペアに限定することを、「Ｉｎｔｅｒａｃｔｉｖｅ抑制」と呼んでいる。

　これまでに図５および図６を用いて説明してきた内容は、以下のように整理することができる。すなわち、情報処理装置１０は、通常モードまたは転移学習モードで動作する。

　通常モードにおいて情報処理装置１０は、或る工場（例、工場Ｆａ（Ａ））で収集したデータセットＤＳ（例、データセットＤＳ（Ａ））に対する学習によって、判定モデル１５２（例、判定モデル１５２（Ａ））を構築する。そして、判定部１２２は、構築した判定モデル（例、判定モデル１５２（Ａ））を用いて、その或る工場（例、工場Ｆａ（Ａ））の作業場Ａｒで撮像された撮像画像Ｉｍ（Ａ）について、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。

　転移学習モードおいて情報処理装置１０は、或る工場（例、工場Ｆａ（Ｘ））で収集したデータセットＤＳ（例、データセットＤＳ（Ｘ））に対する学習によって、判定モデル１５２（例、判定モデル１５２（Ｘ））を構築する。そして、判定部１２２は、構築した判定モデル（例、判定モデル１５２（Ｘ））を用いて、別の工場Ｆａ（例、工場Ｆａ（Ｃ））の作業場Ａｒで撮像された撮像画像Ｉｍ（Ｃ）について、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。

　前記の構成によれば、情報処理装置１０は、通常モードまたは転移学習モードで動作する。通常モードにおいて、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否が判定される撮像画像Ｉｍが撮像された工場Ｆａと、判定モデル１５２を構築するためのデータセットが収集された工場Ｆａとは、同じである。転移学習モードおいて、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否が判定される撮像画像Ｉｍが撮像された工場Ｆａと、判定モデル１５２を構築するためのデータセットが収集された工場Ｆａとは、異なる。

　ここで、情報処理装置１０の開発者は、撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否は、撮像画像Ｉｍが撮像された環境の影響から十分に独立して、判定することができることを確認した。

　つまり、相互作用の存否を判定する判定モデル１５２について、或る工場Ｆａ（Ｘ）で収集したデータセットＤＳ（Ｘ）に対する学習によって構築した判定モデル１５２（Ｘ）は、別の工場Ｆａ（Ｙ）で撮像された撮像画像Ｉｍ（Ｙ）の判定に適用可能である。具体的には、判定モデル１５２（Ｘ）は、撮像画像Ｉｍ（Ｙ）、または、その特徴情報の入力に対し、撮像画像Ｉｍ（Ｙ）に撮像されている作業者Ｈｕと、撮像画像Ｉｍ（Ｙ）に撮像されている作業対象物Ｏｂとの間の相互作用の存否を出力できる。

　したがって、情報処理装置１０は、転移学習モードおいて、或る工場Ｆａ（Ｘ）で撮像された撮像画像（Ｘ）の判定について、別の工場Ｆａ（Ｙ）で学習した判定モデル１５２（Ｙ）を用いることができるとの効果を奏する。

　（解析処理の詳細）
　図７は、情報処理装置１０が実行する解析処理の全体概要を説明するフロー図である。図７に例示するフロー図において、Ｓ２１０およびＳ２２０は、特徴量抽出器Ｒである検出部１２１（検出モデル１５１）によって実行される処理である。Ｓ３１０およびＳ３２０は、相互作用判定器Ｐである判定部１２２（判定モデル１５２）によって実行される処理である。Ｓ４１０からＳ４３０は、ＨＯＩ分類器Ｃである推定部１２３（推定モデル１５３）によって実行される処理である。

　図７に示すように、撮像画像取得部１１０は、天井カメラ３０からセンサ―データを取得し、具体的には、撮像画像Ｉｍを取得する（Ｓ１１０）。撮像画像取得部１１０は取得した撮像画像Ｉｍを解析部１２０へと出力し、特に検出部１２１へと出力する。

　解析部１２０（特に、検出部１２１）は、撮像画像Ｉｍから特徴情報（特徴量）を生成する。検出部１２１は、撮像画像Ｉｍの特徴情報として、撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報を生成し、例えば、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）の検出等を実行する。言い換えれば、検出部１２１は、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕ（作業者Ｈｕの体部位）に係る情報（例、作業者Ｈｕの存否、作業者Ｈｕの空間配置、作業者Ｈｕの姿勢（ポーズ）等を示す情報）を取得する（Ｓ２１０）。

　また、検出部１２１は、撮像画像Ｉｍの特徴情報として、撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報を生成し、例えば、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業対象物Ｏｂの検出等を実行する。言い換えれば、検出部１２１は、検出部１２１は、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業対象物Ｏｂに係る情報（例、作業対象物Ｏｂの存否、作業対象物Ｏｂの空間配置、作業対象物Ｏｂが何であるか等を示す情報）を取得する（Ｓ２２０）。

　検出部１２１は、撮像画像Ｉｍから取得した（生成した）撮像画像Ｉｍの特徴情報（例えば、撮像画像Ｉｍに撮像されている作業者Ｈｕおよび作業対象物Ｏｂの各々に係る情報）を、判定部１２２および推定部１２３へと出力する。

　判定部１２２は、検出部１２１から取得した特徴情報から、『「撮像画像Ｉｍに撮像されている作業者Ｈｕ」と「撮像画像Ｉｍに撮像されている作業対象物Ｏｂ」とのペア』のリストである、ペアリスト情報を取得する（生成する）（Ｓ３１０）。ペアリスト情報には、各々が『「撮像画像Ｉｍに撮像されている、いずれかの１人の作業者Ｈｕ」と、「撮像画像Ｉｍに撮像されている、いずれか１つの作業対象物Ｏｂ」とから成る』全てのペア（例えば、図３の撮像画像Ｉｍにおける８つのペア）が示されている。

　判定部１２２は、ペアリスト情報に挙げられている全てのペアについて、各々、「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があるか」を判定する（Ｓ３２０）。

　判定部１２２は、ペアリスト情報に挙げられているペアについて、作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があると判定すると（Ｓ３２０でＹＥＳ）、作業者Ｈｕと作業対象物Ｏｂとの間に相互作用があると判定したペアを、推定部１２３に通知する。判定部１２２が、ペアリスト情報に挙げられている全てのペアについて、作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がないと判定すると（Ｓ３２０でＮＯ）、情報処理装置１０は、Ｓ１１０に戻って新たな撮像画像Ｉｍを天井カメラ３０から取得する。

　推定部１２３は、判定部１２２によって「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がある」と判定されたペアを把握し、つまり、お互いの間に相互作用があると判定された作業者Ｈｕと作業対象物Ｏｂとを関連付ける（Ｓ４１０）。

　推定部１２３は、Ｓ４１０で作業対象物Ｏｂと関連付けられた作業者Ｈｕについて、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する（Ｓ４２０）。推定部１２３は、判定部１２２によって「作業者Ｈｕと作業対象物Ｏｂとの間に相互作用がある」と判定されたペアについてのみ、作業者Ｈｕが作業対象物Ｏｂについて行っている作業ＯｐをＨＯＩとして検出し、つまり、作業Ｏｐの内容を推定する。

　推定部１２３（解析部１２０）は、推定した作業Ｏｐの内容（作業内容）を、例えば、支援情報生成部１４０および図２の動画保存サーバ等へと出力する（Ｓ４３０）。

　これまで図７を用いて説明してきた情報処理装置１０の実行する処理は、以下のように整理することができる。すなわち、情報処理装置１０の実行する制御方法は、作業場Ａｒを撮像した撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕが行っている作業Ｏｐの内容を推定する情報処理装置１０の制御方法である。前記制御方法は、検出ステップ（Ｓ２１０およびＳ２２０）と、判定ステップ（Ｓ３２０）と、推定ステップ（Ｓ４２０）とを含む。

　検出ステップは、撮像画像Ｉｍから、撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとを検出する。

　判定ステップは、モデルベースで、撮像画像Ｉｍまたはその特徴情報から、検出ステップによって検出された作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。判定ステップは、学習済モデルである判定モデル１５２を用いて、撮像画像Ｉｍまたはその特徴情報から、検出ステップによって検出された作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。判定モデル１５２は、「撮像画像Ｉｍ、または、撮像画像Ｉｍから生成された特徴情報」を入力とし、「撮像画像Ｉｍに撮像されている作業者Ｈｕと、撮像画像Ｉｍに撮像されている作業対象物Ｏｂとの間の相互作用の存否」を出力とする学習済モデルである。

　推定ステップは、判定ステップによって相互作用が存在すると判定された作業者Ｈｕと作業対象物Ｏｂとの組合せ（ペア）について、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　前記の構成によれば、前記制御方法は、学習済モデルである判定モデル１５２を用いて、撮像画像Ｉｍから検出された「作業者Ｈｕと作業対象物Ｏｂとのペア」について、作業者Ｈｕと作業対象物Ｏｂとの間の相互作用の存否を判定する。そして、前記制御方法は、相互作用が存在すると判定した「作業者Ｈｕと作業対象物Ｏｂとのペア」について、ペアの一方である作業者Ｈｕが、ペアの他方である作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　つまり、前記制御方法は、撮像画像Ｉｍから検出された作業者Ｈｕと作業対象物Ｏｂとについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。

　したがって、前記制御方法は、作業者Ｈｕの行う作業Ｏｐの種類が増えても、作業Ｏｐの内容を推定するための煩雑なルールを整備する必要なく、作業者Ｈｕが行っている作業Ｏｐを推定することができるとの効果を奏する。

　また、前記制御方法は、「相互作用が存在する」とモデルベースで判定した作業者Ｈｕと作業対象物Ｏｂとのペアについて、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する。

　つまり、前記制御方法は、撮像画像Ｉｍに撮像されている作業者Ｈｕと作業対象物Ｏｂとのペアの全てについてではなく、「相互作用が存在する」と判定したペアについてのみ、作業者Ｈｕが行っている作業Ｏｐの内容を推定する。

　したがって、前記制御方法は、撮像画像Ｉｍに撮像されている作業者Ｈｕが、撮像画像Ｉｍに撮像されている作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。

　§４．変形例
　これまで、教師ありデータに対する機械学習によって、学習済データとして検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築する例を説明してきた。しかしながら、検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築するための機械学習は、教師ありデータに対する機械学習に限られない。検出モデル１５１、判定モデル１５２、および、推定モデル１５３を構築するための機械学習は、教師あり学習に限らず、教師なし学習、または、強化学習等の他の機械学習であってもよい。

　またこれまで、推定部１２３が、撮像画像Ｉｍから、「作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定する」のに推定モデル１５３を利用する例を説明してきた。しかしながら、推定部１２３が、撮像画像Ｉｍから、ルールベースで、作業者Ｈｕが作業対象物Ｏｂについて行っている作業Ｏｐの内容を推定してもよい。

　〔ソフトウェアによる実現例〕
　情報処理装置１０の機能ブロック（具体的には、撮像画像取得部１１０、解析部１２０、工程情報取得部１３０、および、支援情報生成部１４０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ、ＧＰＵ、ＤＳＰ等を用いてソフトウェアによって実現してもよい。

　後者の場合、情報処理装置１０は、各々、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、ＧＰＵ、ＤＳＰ等と、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭまたは記憶装置（これらを「記録媒体」と称する）と、上記プログラムを展開するＲＡＭ等とを備えている。そして、コンピュータ（またはＣＰＵ、ＧＰＵ、ＤＳＰ等）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　（付記事項）
　本発明の一態様に係る作業推定装置は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、を備える。

　前記の構成によれば、前記作業推定装置は、前記判定モデルを用いて、前記撮像画像から検出された前記作業者と前記作業対象物とについて、両者の相互作用の存否を判定する。そして、前記作業推定装置は、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　つまり、前記作業推定装置は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。

　したがって、前記作業推定装置は、作業者の行う作業の種類が増えても、作業の内容を推定するための煩雑なルールを整備する必要なく、作業者が行っている作業を推定することができるとの効果を奏する。

　また、前記作業推定装置は、相互作用が存在するとモデルベースで判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　つまり、前記作業推定装置は、前記撮像画像に撮像されている前記作業者と前記作業対象物との組合せの全てについてではなく、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについてのみ、前記作業者が行っている作業の内容を推定する。

　したがって、前記作業推定装置は、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。

　本発明の一態様に係る作業推定装置において、前記検出部は、前記撮像画像を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物とを出力とする学習済モデルである検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出してもよい。

　前記の構成によれば、前記作業推定装置は、前記検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する。

　つまり、前記作業推定装置は、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを、ルールベースではなく、モデルベースで、前記撮像画像から検出する。

　したがって、前記作業推定装置は、煩雑なルール整備を必要とせずに、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出することができるとの効果を奏する。

　本発明の一態様に係る作業推定装置において、前記推定部は、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を出力とする学習済モデルである推定モデルを用いて、前記撮像画像または前記特徴情報から、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定してもよい。

　前記の構成によれば、前記作業推定装置は、前記推定モデルを用いて、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　つまり、前記作業推定装置は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　本発明の一態様に係る作業推定装置は、通常モードまたは転移学習モードで動作してもよく、通常モードにおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定してもよく、転移学習モードおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場とは異なる別の工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定してもよい。

　前記の構成によれば、前記作業推定装置は、通常モードまたは転移学習モードで動作する。通常モードにおいて、前記作業者と前記作業対象物との間の相互作用の存否が判定される前記撮像画像が撮像された工場と、前記判定モデルを構築するためのデータセットが収集された工場とは、同じ工場である。転移学習モードおいて、前記作業者と前記作業対象物との間の相互作用の存否が判定される前記撮像画像が撮像された工場と、前記判定モデルを構築するためのデータセットが収集された工場とは、同じではない。

　ここで、前記作業推定装置の開発者は、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否は、前記撮像画像が撮像された環境の影響から十分に独立して、判定することができることを確認した。

　つまり、前記相互作用の存否を判定する前記判定モデルについて、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルは、別の工場で撮像された前記撮像画像について、相互作用の存否を判定するのに用いることができる。

　したがって、前記作業推定装置は、転移学習モードおいて、或る工場で撮像された前記撮像画像について、別の工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記相互作用の存否を判定できるとの効果を奏する。

　本発明の一態様に係る作業推定装置は、前記作業場に設置された機器の動作を制御する制御装置から、前記機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する取得部と、前記推定部によって推定された前記作業者の作業の内容と、前記取得部によって取得された前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する生成部と、をさらに備えてもよい。

　前記の構成によれば、前記作業推定装置は、前記制御装置から、前記作業場に設置された機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する。そして、前記作業推定装置は、前記撮像画像から推定した前記作業者の作業の内容と、前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する。

　したがって、前記作業推定装置は、前記撮像画像から推定した前記作業者の作業の内容を、前記工程情報と組み合わせることによって、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成できるとの効果を奏する。

　本発明の一態様に係る制御方法は、作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、を含む。

　前記の構成によれば、前記制御方法は、前記判定モデルを用いて、前記撮像画像から検出された前記作業者と前記作業対象物とについて、両者の相互作用の存否を判定する。そして、前記制御方法は、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　つまり、前記制御方法は、前記撮像画像から検出された前記作業者と前記作業対象物とについて、ルールベースではなく、モデルベースで、両者の相互作用の存否を判定する。

　したがって、前記制御方法は、作業者の行う作業の種類が増えても、作業の内容を推定するための煩雑なルールを整備する必要なく、作業者が行っている作業を推定することができるとの効果を奏する。

　また、前記制御方法は、相互作用が存在するとモデルベースで判定した前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する。

　つまり、前記制御方法は、前記撮像画像に撮像されている前記作業者と前記作業対象物との組合せの全てについてではなく、相互作用が存在すると判定した前記作業者と前記作業対象物との組合せについてのみ、前記作業者が行っている作業の内容を推定する。

　したがって、前記制御方法は、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を推定するのに必要な計算量を抑制することができるとの効果を奏する。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

　　　１０　情報処理装置（作業推定装置）
　　　４０　機器
　　　２０　ＰＬＣ（制御装置）
　　１２１　検出部
　　１２２　判定部
　　１２３　推定部
　　１５１　検出モデル
　　１５２　判定モデル
　　１５３　推定モデル
　　１３０　工程情報取得部（取得部）
　　１４０　支援情報生成部（生成部）
　　　Ａｃ　動作
　　　Ａｒ　作業場
　　　ＤＳ　データセット
　　　Ｆａ　工場
　　　Ｈｕ　作業者
　　　Ｉｍ　撮像画像
　　　Ｌａ　動作結果
　　　Ｏｂ　作業対象物
　　　Ｏｐ　作業
　Ｓ２１０　（検出ステップ）
　Ｓ２２０　（検出ステップ）
　Ｓ３２０　（判定ステップ）
　Ｓ４２０　（推定ステップ）

Claims

　作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置であって、
　前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出部と、
　前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出部によって検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定部と、
　前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定部と、
を備える作業推定装置。
　前記検出部は、前記撮像画像を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物とを出力とする学習済モデルである検出モデルを用いて、前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する
請求項１に記載の作業推定装置。
　前記推定部は、前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者が、前記撮像画像に撮像されている前記作業対象物について行っている作業の内容を出力とする学習済モデルである推定モデルを用いて、前記撮像画像または前記特徴情報から、前記判定部によって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する
請求項１または２に記載の作業推定装置。
　前記作業推定装置は、通常モードまたは転移学習モードで動作し、
　通常モードにおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定し、
　転移学習モードおいて前記判定部は、或る工場で収集したデータセットに対する学習によって構築した前記判定モデルを用いて、前記或る工場とは異なる別の工場の前記作業場で撮像された前記撮像画像について、前記作業者と前記作業対象物との間の相互作用の存否を判定する請求項１から３のいずれか１項に記載の作業推定装置。
　前記作業場に設置された機器の動作を制御する制御装置から、前記機器が実行した動作の内容および結果を示す動作結果から生成された工程情報を取得する取得部と、
　前記推定部によって推定された前記作業者の作業の内容と、前記取得部によって取得された前記工程情報とから、前記作業者による前記作業の効率的な実行を支援するのに利用可能な情報である支援情報を生成する生成部と、
をさらに備える請求項１から４のいずれか１項に記載の作業推定装置。
　作業場を撮像した撮像画像から、当該撮像画像に撮像されている作業者が行っている作業の内容を推定する作業推定装置の制御方法であって、
　前記撮像画像から、前記撮像画像に撮像されている作業者と、前記撮像画像に撮像されている作業対象物とを検出する検出ステップと、
　前記撮像画像または前記撮像画像から生成された特徴情報を入力とし、前記撮像画像に撮像されている前記作業者と、前記撮像画像に撮像されている前記作業対象物との間の相互作用の存否を出力とする学習済モデルである判定モデルを用いて、前記撮像画像または前記特徴情報から、前記検出ステップにて検出された前記作業者と前記作業対象物との間の相互作用の存否を判定する判定ステップと、
　前記判定ステップによって相互作用が存在すると判定された前記作業者と前記作業対象物との組合せについて、前記作業者が前記作業対象物について行っている作業の内容を推定する推定ステップと、
を含む制御方法。
　請求項１から５のいずれか１項に記載の作業推定装置としてコンピュータを機能させるための情報処理プログラムであって、前記各部としてコンピュータを機能させるための情報処理プログラム。
　請求項７に記載の情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。