WO2021192028A1

WO2021192028A1 - 学習装置及び学習方法

Info

Publication number: WO2021192028A1
Application number: PCT/JP2020/012992
Authority: WO
Inventors: 村林　昇; 健常田
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-30
Also published as: EP4099264A4; CN115298691A; EP4099264A1; EP4099264B1

Abstract

学習装置において、変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成し、補正部は、変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを変換後画像に設定し、学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する。

Description

学習装置及び学習方法

　本開示は、学習装置及び学習方法に関する。

　機械学習の教師データについて、データの偏りの改善やデータ数の増加のために行う処理として、教師データに対するオーギュメンテーション（augmentation）が知られている。

特開２００９－２１７３４８号公報特開２０１３－１６１２９５号公報特開２０１６－０６２２５３号公報

　教師データとしての入力画像のオーギュメンテーションをアフィン変換や射影変換（ホモグラフィイ変換）等の幾何学的画像変換を用いて行うことがある。しかし、幾何学的画像変換後の画像に含まれるバウンディングボックスは、幾何学的画像変換前の入力画像に含まれていたバウンディングボックスから変形してしまう。変形したバウンディングボックスを含む画像をそのまま教師データとして用いて機械学習を行うと、良好な学習済みモデルを生成することが困難になる。

　そこで、本開示では、良好な学習済みモデルを生成することができる技術を提案する。

　本開示によれば、学習装置は、変換部と、補正部と、学習部とを有する。変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成する。補正部は、変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを変換後画像に設定する。学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する。

本開示の実施形態１に係る作業管理システムの構成例を示す図である。本開示の実施形態１に係る第一学習装置の構成例を示す図である。本開示の実施形態１に係る作業管理装置の構成例を示す図である。本開示の実施形態１に係る手順書データの一例を示す図である。本開示の実施形態１に係るクラス設定部の動作例の説明に供する図である。本開示の実施形態１に係るキーワードグラフの一例を示す図である。本開示の実施形態１に係るクラステーブルの一例を示す図である。本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。本開示の実施形態１に係るアフィン変換によるオーギュメンテーションの一例を示す図である。本開示の実施形態１に係るアフィン変換によるオーギュメンテーションの一例を示す図である。本開示の実施形態１に係るアフィン変換によるオーギュメンテーションの一例を示す図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態１に係るオブジェクト検出モデルの一例を示す図である。本開示の実施形態１に係る第一学習装置の処理手順の説明に供するフローチャートである。本開示の実施形態１に係る状態遷移モデルの一例を示す図である。本開示の実施形態１に係る作業状態の一例を示す図である。本開示の実施形態１に係る作業状態判定部の動作例の説明に供する図である。本開示の実施形態１に係る工程管理画面の一例を示す図である。本開示の実施形態１に係る作業管理装置の処理手順の説明に供するフローチャートである。本開示の実施形態２に係るバウンディングボックス補正部の動作例の説明に供する図である。本開示の実施形態３に係る画像変換部の動作例の説明に供する図である。本開示の実施形態３に係る画像変換部の動作例の説明に供する図である。本開示の実施形態４に係る作業状態判定部の動作例の説明に供する図である。本開示の実施形態４に係る作業状態判定部の動作例の説明に供する図である。本開示の実施形態４に係る作業状態判定部の動作例の説明に供する図である。本開示の実施形態５に係る作業管理システムの構成例を示す図である。本開示の実施形態５に係る第二学習装置の構成例を示す図である。本開示の実施形態５に係る作業管理装置の構成例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。本開示の実施形態６に係るオブジェクトの位置座標の一例を示す図である。本開示の実施形態６に係るオブジェクトの位置座標の一例を示す図である。本開示の実施形態７に係るオブジェクトの位置座標の一例を示す図である。本開示の実施形態７に係るオブジェクトの位置座標の一例を示す図である。

　以下に、本開示の実施形態について図面に基づいて説明する。なお、以下の実施形態において、同一の部位または同一の処理には同一の符号を付することにより重複する説明を省略することがある。

　また、以下に示す項目順序に従って本開示を説明する。
　［実施形態１］
　　＜作業管理システムの構成＞
　　＜第一学習装置の構成＞
　　＜作業管理装置の構成＞
　　＜第一学習装置における処理手順＞
　　＜作業管理装置における処理手順＞
　［実施形態２］
　　＜バウンディングボックス補正部の動作＞
　［実施形態３］
　　＜画像変換部の動作＞
　［実施形態４］
　　＜作業状態判定部の動作＞
　［実施形態５］
　　＜作業管理システムの構成＞
　　＜第二学習装置の構成＞
　　＜作業管理装置の構成＞
　　＜第二学習装置における処理手順＞
　　＜作業管理装置における処理手順＞
　［実施形態６］
　　＜第二機械学習部の動作＞
　　＜作業管理装置における処理手順＞
　［実施形態７］
　　＜第二機械学習部の動作＞
　［実施形態８］
　［開示の技術の効果］

　［実施形態１］
　＜作業管理システムの構成＞
　図１は、本開示の実施形態１に係る作業管理システムの構成例を示す図である。図１において、作業管理システム１は、第一学習装置１０と、作業管理装置２０－１とを有する。

　＜第一学習装置の構成＞
　図２は、本開示の実施形態１に係る第一学習装置の構成例を示す図である。図２において、第一学習装置１０は、クラス設定部１１と、記憶部１２と、画像変換部１３と、バウンディングボックス補正部１４と、第一機械学習部１５と、記憶部１６と、出力部１７とを有する。

　＜作業管理装置の構成＞
　図３は、本開示の実施形態１に係る作業管理装置の構成例を示す図である。図３において、作業管理装置２０－１は、取得部２１と、記憶部２２と、オブジェクト検出部２３と、作業状態判定部２４と、工程管理部２５と、表示部２６とを有する。

　＜第一学習装置における処理手順＞
　以下では、製造対象の製品の一例にスマートフォンを挙げて説明する。スマートフォンの製造作業は複数の作業工程から形成され、また、複数の作業工程の各々は、複数の作業状態から形成される。

　例えば、図４に示すような、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」の作業手順を示す作業手順書のデータ（以下では「手順書データ」と呼ぶことがある）がクラス設定部１１に入力される。例えば、「スピーカー取付」という作業工程における作業手順は、図４に示すように、「１：移動作業」→「２：設置作業」→「３：スイッチ動作」→…のように進む。図４は、本開示の実施形態１に係る手順書データの一例を示す図である。

　図５は、本開示の実施形態１に係るクラス設定部の動作例の説明に供する図である。クラス設定部１１は、図５に示すように、まず、図４に示す手順書データから、「作業内容」のテキストデータを抽出する。次いで、クラス設定部１１は、抽出したテキストデータを形態素解析し、形態素解析後のデータからキーワードを検出する。この結果、例えば、作業番号「１」の「移動作業」の作業内容のテキストデータからキーワード「手」が検出され、作業番号「３」の「スイッチ動作」の作業内容のテキストデータからキーワード「スイッチ」及び「手」が検出される。次いで、クラス設定部１１は、検出したキーワードを変換する。例えば、キーワード「手」は“hand”に変換され、キーワード「スイッチ」は“sw”に変換される。次いで、クラス設定部１１は、「スピーカー取付」という一作業工程において、変換後のキーワードのデータ数をキーワード毎に集計する。次いで、クラス設定部１１は、集計後のキーワードをデータ数の降順にソートする。この結果、例えば、データ数の降順にソートされたキーワードのグラフ（以下では「キーワードグラフ」と呼ぶことがある）として図６に示すグラフが得られる。図６は、本開示の実施形態１に係るキーワードグラフの一例を示す図である。図６示すキーワードグラフには、例えば、データ数が多い順に“hand”，“car_wout2”，“hand_two”，“car_with”，“car_with2”，“grasp_u”，“grasp_d”，“blur”，“tweezer”，“car_wout”，“air_blow”，“push_a”，“vac_pen”，“push_side”，“sw”，“mouse”，“ion_blow”，“push_b”，“count”，“wipe”，“garbage”，“push”の合計２２個のキーワードが含まれる。

　そこで、クラス設定部１１は、キーワードグラフに基づいて、図７に示すように、図６に示す２２個のキーワードの各々を「ラベル」とするクラスＣ０～Ｃ２１を設定し、クラスとラベルとオブジェクト内容との対応付けを示す「クラステーブルＣＬＴ」を生成する。クラスとラベルとオブジェクト内容とは互いに１対１で対応する。また、クラステーブルＣＬＴにおいて、クラスＣ０のデータ数d(0)が最も多く、以降、クラスＣ１のデータ数d(1)，クラスＣ２のデータ数d(2)，…，クラスＣ２０のデータ数d(20)の順にデータ数が減少し、クラスＣ２１のデータ数d(21)が最も少ない。このように、クラス設定部１１は、作業手順書に基づいて、一工程における複数の作業において共通する要素をクラスとして設定する。図７は、本開示の実施形態１に係るクラステーブルの一例を示す図である。そして、クラス設定部１１は、キーワードグラフ（図６）とクラステーブルＣＬＴ（図７）とを記憶部１２に出力し、記憶部１２は、キーワードグラフとクラステーブルＣＬＴとを記憶する。

　一方で、画像変換部１３には、図８～図１２に示すような画像が教師データとして入力される。図８～図１２は、本開示の実施形態１に係る第一学習装置への入力画像の一例を示す図である。図８～図１２に示すように、第一学習装置１０への各入力画像は、スマートフォンの製造作業を行っている作業者の手の画像（以下では「手画像」と呼ぶことがある）ＨＩと、入力画像に含まれるオブジェクトに対して設定されたバウンディングボックスＢＸ１とを含む。バウンディングボックスＢＸ１には、バウンディングボックスＢＸ１内のオブジェクトに該当するラベルが付されている。例えば、図８に示す入力画像におけるバウンディングボックスＢＸ１には“car_with2”とうラベルが付され、図９に示す入力画像におけるバウンディングボックスＢＸ１には“hand”とうラベルが付され、図１０に示す入力画像におけるバウンディングボックスＢＸ１には“tweezer”とうラベルが付され、図１１に示す入力画像におけるバウンディングボックスＢＸ１には“car_with”とうラベルが付され、図１２に示す入力画像におけるバウンディングボックスＢＸ１には“hand_two”とうラベルが付されている。

　画像変換部１３は、入力画像に対して幾何学的画像変換を施すことにより、教師データのオーギュメンテーションを行う。幾何学的画像変換の一例として、アフィン変換が挙げられる。例えば、幾何学的画像変換としてアフィン変換が用いられる場合、画像変換部１３は、式（１）に従って、パラメータan，bn，cn，dn，x0n，y0nをランダムに変化させながら入力画像の各々を所定の複数回アフィン変換することにより、図１３及び図１４に示すように、教師データのオーギュメンテーションを行う。式（１）において、xn及びynは画像変換前の座標を表し、xn’及びyn’は画像変換後の座標を表す。

　また、画像変換部１３は、記憶部１２に記憶されているキーワードグラフに基づいた回数だけ各入力画像に対してアフィン変換を行うことによりオーギュメンテーションを行う。例えば、図１５に示すように、画像変換部１３は、データ数が最も多いクラスである“hand”のデータ数d(0)と“hand”以外のクラスのデータ数との差の絶対値がすべて所定値dt以内に収まるように、“hand”以外のラベルを含む入力画像をアフィン変換を用いてオーギュメンテーションする。図１３～図１５は、本開示の実施形態１に係るアフィン変換によるオーギュメンテーションの一例を示す図である。

　画像変換部１３は、アフィン変換後の入力画像（以下では「変換後画像」と呼ぶことがある）をバウンディングボックス補正部１４へ出力する。

　入力画像のアフィン変換に伴って、図１３に示すように、入力画像に含まれていたバウンディングボックスＢＸ１は、変換後画像において、バウンディングボックスＢＸ２のように変形してしまう。そこで、バウンディングボックス補正部１４は、図１６～図２３に示すようにして、バウンディングボックスを補正する。図１６～図２３は、本開示の実施形態１に係るバウンディングボックス補正部の動作例の説明に供する図である。

　例えば、バウンディングボックス補正部１４は、図１６に示すような変換後画像において変形しているバウンディングボックスＢＸ２の四つの頂点の各々の座標（x1’，y1’），（x2’，y2’），（x3’，y3’），（x4’，y4’）を取得する（図１７）。次いで、バウンディングボックス補正部１４は、図１７に示すように、対角線上の２点の頂点の座標が［（xmin，ymin），（xmax，ymax）］で規定される矩形ＳＱを生成する。但し、“xmin”は、x1’，x2’，x3’，x4’における最小値であり、“ymin”は、y1’，y2’，y3’，y4’における最小値であり、“xmax”は、x1’，x2’，x3’，x4’における最大値であり、“ymax”は、y1’，y2’，y3’，y4’における最大値である。これにより、バウンディングボックス補正部１４は、バウンディングボックスＢＸ２の四つの頂点の各々を四辺の各々に含む矩形ＳＱを生成する。

　次いで、バウンディングボックス補正部１４は、図１８及び図１９に示すように、矩形ＳＱの面積を矩形ＳＱに含まれる手画像ＨＩに基づいて縮小することにより矩形のバウンディングボックスＢＸ３を生成し、生成したバウンディングボックスＢＸ３を変換後画像に設定する。

　例えば、バウンディングボックス補正部１４は、矩形ＳＱ内に存在する手画像ＨＩに対するエッジ検出を用いて矩形ＳＱの面積を縮小する。バウンディングボックス補正部１４は、例えば図２０に示すような変換後画像に一般的なエッジ抽出処理を施すことにより、図２１に示すようなエッジ抽出画像を取得する。次いで、バウンディングボックス補正部１４は、図２２に示すように、バウンディングボックスＢＸ２の四つの頂点（x1’，y1’），（x2’，y2’），（x3’，y3’），（x4’，y4’）の各々を起点としてエッジ抽出画像に対してエッジ検出を行う。

　例えば、図２２に示すようなエッジ抽出画像において、バウンディングボックス補正部１４は、頂点（x1’，y1’）からＸ座標の値が増加する方向（図中右方向）へ向かって最初に検出したエッジのＸ座標をx1”として取得する。また、バウンディングボックス補正部１４は、頂点（x3’，y3’）からＸ座標の値が減少する方向（図中左方向）へ向かって最初に検出したエッジのＸ座標をx3”として取得する。また、バウンディングボックス補正部１４は、頂点（x2’，y2’）からＹ座標の値が増加する方向（図中下方向）へ向かって最初に検出したエッジのＹ座標をy2”として取得する。また、バウンディングボックス補正部１４は、頂点（x4’，y4’）からＹ座標の値が減少する方向（図中上方向）へ向かって最初に検出したエッジのＹ座標をy4”として取得する。そして、バウンディングボックス補正部１４は、図２３に示すように、四つの頂点の各々の座標を（x1”，y2”），（x1”，y4”），（x3”，y2”），（x3”，y4”）とする矩形のバウンディングボックスＢＸ３を生成する。バウンディングボックス補正部１４は、例えば図２０～図２３に示すようにしてバウンディングボックスＢＸ３を生成することにより、矩形ＳＱ（図１９）よりも面積が小さいバウンディングボックスＢＸ３を矩形ＳＱ内に生成する。そして、バウンディングボックス補正部１４は、生成したバウンディングボックスＢＸ３をバウンディングボックスＢＸ２に代えて変換後画像に設定し、バウンディングボックスＢＸ３が設定された変換後画像を教師データとして第一機械学習部１５へ出力する。

　第一機械学習部１５は、各々にバウンディングボックスＢＸ３が設定された複数の変換後画像を教師データとして用いる機械学習を行うことにより、第一学習済みモデルとしての「オブジェクト検出モデル」を生成し、生成したオブジェクト検出モデルを記憶部１６へ出力する。記憶部１６は、オブジェクト検出モデルを記憶する。すなわち、第一機械学習部１５は、図２４に示すように、手画像を含む判定対象画像ＤＩに対して、スマートフォンの製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力するオブジェクト検出モデルを生成する。図２４では、オブジェクト検出モデルにより、判定対象画像ＤＩに対して、“car_with”，“hand”，“hand_two”，“car_with”，“tweezer”の５つのオブジェクトが検出された場合を一例として示す。オブジェクト検出モデルを生成する際の機械学習として、例えば、ＳＳＤ（Single　Shot　Multibox　Detector）やＹＯＬＯ（You　Only　Look　Once）が用いられる。図２４は、本開示の実施形態１に係るオブジェクト検出モデルの一例を示す図である。

　ここで、第一機械学習部１５は、クラスＣ０～Ｃ２１（図７）の各クラス毎にそれぞれオブジェクト検出を行う２２個のオブジェクト検出モデルを生成しても良く、また、クラスＣ０～Ｃ２１の２２種類のオブジェクトを一括して検出可能な単一のオブジェクト検出モデルを生成しても良い。

　出力部１７は、記憶部１６に記憶されているオブジェクト検出モデルを記憶部１６から取得し、取得したオブジェクト検出モデルを作業管理装置２０－１へ出力する。

　図２５は、本開示の実施形態１に係る第一学習装置の処理手順の説明に供するフローチャートである。

　キーワードグラフ（図６）及びクラステーブルＣＬＴ（図７）が得られた後、図２５のステップＳ１００では、第一学習装置１０は、クラス番号ｋを“１”に初期化する。

　次いで、ステップＳ１０５では、第一学習装置１０は、クラスＣ０のデータ数d(0)とクラスＣｋのデータ数d(k)との差の絶対値（以下では「クラス間差」と呼ぶことがある）が所定値dt未満であるか否かを判定する。クラス間差がdt未満である場合は（ステップＳ１０５：Ｙｅｓ）、処理はステップＳ１１０へ進み、クラス間差がdt以上である場合は（ステップＳ１０５：Ｎｏ）、処理はステップＳ１２０へ進む。

　クラステーブルＣＬＴ（図７）に設定されている最大番号のクラスはクラスＣ２１であるため、ステップＳ１１０では、第一学習装置１０は、クラス番号ｋが“２１”に達したか否かを判定する。クラス番号ｋが“２１”に達している場合は（ステップＳ１１０：Ｙｅｓ）、処理は終了する。一方で、クラス番号ｋが“２１”に達していない場合、つまり、クラス番号ｋが“２１”未満である場合は（ステップＳ１１０：Ｎｏ）、処理はステップＳ１１５へ進み、ステップＳ１１５において、第一学習装置１０は、クラス番号ｋをインクリメントする。ステップＳ１１５の処理後、処理は、ステップＳ１０５に戻る。

　一方で、ステップＳ１２０では、第一学習装置１０は、教師データとしての入力画像を取得する。

　次いで、ステップＳ１２５では、第一学習装置１０は、ステップＳ１２０で取得した入力画像に対して、アフィン変換のパラメータをランダムに変化させながら所定の複数回アフィン変換を行うことにより、教師データのオーギュメンテーションを行う。

　次いで、ステップＳ１３０では、第一学習装置１０は、ステップＳ１２５でアフィン変換を行った回数をデータ数d(k)に加算する。

　次いで、ステップＳ１３５では、第一学習装置１０は、バウンディングボックスを補正する（図１６～図２３）。

　次いで、ステップＳ１４０では、第一学習装置１０は、クラス間差が所定値dt未満であるか否かを判定する。クラス間差がdt未満である場合は（ステップＳ１４０：Ｙｅｓ）、処理はステップＳ１１０へ進む。一方で、クラス間差がdt以上である場合は（ステップＳ１４０：Ｎｏ）、処理はステップＳ１２０に戻り、ステップＳ１２０で、新たな入力画像が取得される。

　＜作業管理装置における処理手順＞
　図３に示す作業管理装置２０－１において、取得部２１は、第一学習装置１０から出力されたオブジェクト検出モデルを取得し、取得したオブジェクト検出モデルを記憶部２２へ出力し、記憶部２２は、オブジェクト検出モデルを記憶する。

　一方で、オブジェクト検出部２３には、オブジェクトの検出対象及び作業状態の判定対象である判定対象画像が入力される。判定対象画像は、スマートフォンの製造作業を行っている作業者の作業状態が所定のフレームレートで撮影されたビデオ画像の各フレーム毎の画像である。オブジェクト検出部２３は、記憶部２２に記憶されているオブジェクト検出モデルを用いて、判定対象画像に対して複数のオブジェクトを検出し、検出した複数のオブジェクトを作業状態判定部２４へ出力する。

　ここで、例えば、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」は、図２６及び図２７に示す作業状態Ｓ１～Ｓ１４から形成される。すなわち、スピーカー取付を行う作業者の作業状態は、図２６に示す作業状態の遷移モデル（以下では「状態遷移モデル」と呼ぶことがある）のように、Ｓ１→Ｓ２→Ｓ３→Ｓ４→Ｓ５→Ｓ６→Ｓ７→Ｓ８→Ｓ９→Ｓ１０→Ｓ１１→Ｓ１２→Ｓ１３→Ｓ１４→Ｓ１→Ｓ２→…と順次遷移する。また、作業状態Ｓ１～Ｓ１４の何れにも該当しない例外的な作業状態として作業状態Ｓ０が規定されている。図２６は、本開示の実施形態１に係る状態遷移モデルの一例を示す図であり、図２７は、本開示の実施形態１に係る作業状態の一例を示す図である。図２６に示す状態遷移モデルは作業状態判定部２４に予め設定されている。

　作業状態判定部２４は、オブジェクト検出部２３により検出された複数のオブジェクトに基づいて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“Ｓ０”～“Ｓ１４”の何れかを工程管理部２５へ出力する。作業状態判定部２４は、例えば、図２８に示すように、オブジェクト検出部２３により検出された複数のオブジェクトのパターン（以下では「検出オブジェクトパターン」と呼ぶことがある）に対応する作業状態を判定対象画像が示す作業状態として判定する。例えば、検出オブジェクトパターンが[car_with,　car_wout2,　blur]、[grasp_d,　car_with,　car_wout2,　hand]または[blur,　car_with,　car_wout2,　hand]である場合は作業状態が“Ｓ１：move　phone　to　robot”であると判定され、検出オブジェクトパターンが[car_with,　car_wout2,　hand]または[hand,　car_with,　car_wout2,　hand]である場合は作業状態が“Ｓ２：position　phone”であると判定され、検出オブジェクトパターンが[sw,　car_with,　hand]である場合は作業状態が“Ｓ３：press　sw”であると判定される。また、検出オブジェクトパターンが図２８に示す何れのパターンにも該当しない場合は、作業状態が“Ｓ０：others”であると判定される。図２８は、本開示の実施形態１に係る作業状態判定部の動作例の説明に供する図である。

　ここで、図２８において、検出オブジェクトパターン[hand,　hand]は、作業状態Ｓ６及び作業状態Ｓ１１の双方に対応する。これに対し、図２６に示す状態遷移モデルによれば、作業状態Ｓ６へ遷移する一つ前の作業状態はＳ５またはＳ０の何れかであり、作業状態Ｓ１１へ遷移する一つ前の作業状態はＳ１０またはＳ０の何れかである。また、作業状態はＳ６またはＳ１０で継続している場合もある。

　そこで、作業状態判定部２４は、現在の判定対象画像における検出オブジェクトパターンが[hand,　hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がＳ５またはＳ６である場合は、現在の作業状態（つまり、現在の判定対象画像が示す作業状態）をＳ６と判定する。また、作業状態判定部２４は、現在の判定対象画像における検出オブジェクトパターンが[hand,　hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がＳ０である場合は、一つ前の判定対象画像から判定された作業状態がＳ５、または、作業状態がＳ０に遷移する前の作業状態がＳ６である場合に、現在の作業状態をＳ６と判定する。

　また、作業状態判定部２４は、現在の判定対象画像における検出オブジェクトパターンが[hand,　hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がＳ１０またはＳ１１である場合は、現在の作業状態をＳ１１と判定する。また、作業状態判定部２４は、現在の判定対象画像における検出オブジェクトパターンが[hand,　hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がＳ０である場合は、一つ前の判定対象画像から判定された作業状態がＳ１０、または、作業状態がＳ０に遷移する前の作業状態がＳ１１である場合に、現在の作業状態をＳ１１と判定する。

　このように、作業状態判定部２４は、複数の作業状態の前後関係を表す状態遷移モデル（図２６）用いて、判定対象画像が示す作業状態を判定する。こうすることで、作業状態の判定精度を高めることができる。

　工程管理部２５は、作業状態判定部２４での判定結果に基づいて、作業工程を管理するための画面（以下では「工程管理画面」と呼ぶことがある）を生成し、生成した工程管理画面を表示部２６に表示させる。図２９は、本開示の実施形態１に係る工程管理画面の一例を示す図である。図２９において、工程管理画面ＭＳは、表示内容の項目として、例えば、「作業映像」の項目と、「作業状態」の項目と、「作業時間」の項目と、「標準作業時間以上頻度」の項目とを含む。「作業映像」の項目には、判定対象画像とともに、オブジェクトの検出結果と作業状態の判定結果とが判定対象画像にリアルタイムに重畳されて表示される。「作業状態」の項目には、作業状態の判定結果がハイライト表示される。「作業時間」の項目には、作業状態Ｓ０～Ｓ１４の各々の直近の作業時間が棒グラフで表示される。作業状態Ｓ０～Ｓ１４の各々の作業時間に対しては、１作業状態あたりの標準作業時間と、１作業状態あたりの許容作業時間とが予め定められている。例えば、工程管理部２５は、標準作業時間以内の作業時間を青色の棒グラフで表示し、標準作業時間を超える作業時間を黄色の棒グラフで表示し、許容作業時間を超える作業時間を赤色の棒グラフで表示する。また、「標準作業時間以上頻度」の項目には、作業状態Ｓ０～Ｓ１４の各々について、作業時間が標準作業時間を超えた累積回数が棒グラフで表示される。

　図３０は、本開示の実施形態１に係る作業管理装置の処理手順の説明に供するフローチャートである。

　図３０のステップＳ２００では、作業管理装置２０－１は、注意表示時間ｔ（ｍ）ｗを“０”に初期化する。

　次いで、ステップＳ２０５では、作業管理装置２０－１は、現在時刻が作業時間内にあるか否かを判定する。作業管理装置２０－１は、現在時刻が作業時間になるまで待機する（ステップＳ２０５：Ｎｏ）。そして、現在時刻が作業時間内であると（ステップＳ２０５：Ｙｅｓ）、処理はステップＳ２１０へ進む。

　ステップＳ２１０では、作業管理装置２０－１は、判定対象画像を取得する。

　次いで、ステップＳ２１５では、作業管理装置２０－１は、工程ｎ（但し、ｎは作業工程番号）の作業者（ｎ）が作業現場に存在するか否かを判定する。作業者（ｎ）の存在の有無は、例えば、作業者（ｎ）の頭部や手が判定対象画像に含まれているか否かに基づいて行われる。作業者（ｎ）が作業現場に存在する場合は（ステップＳ２１５：Ｙｅｓ）、処理はステップＳ２２０へ進み、作業者（ｎ）が作業現場に存在しない場合は（ステップＳ２１５：Ｎｏ）、処理はステップＳ２２５へ進む。

　ステップＳ２２０では、作業管理装置２０－１は、作業者フラグＳｔ（ｎ）を“１”に設定する。一方で、ステップＳ２２５では、作業管理装置２０－１は、作業者フラグＳｔ（ｎ）を“０”に設定する。ステップＳ２２０，Ｓ２２５の処理後、処理は、ステップＳ２３０へ進む。

　ステップＳ２３０では、作業管理装置２０－１は、判定対象画像に対するオブジェクト検出を行う。

　次いで、ステップＳ２３５では、作業管理装置２０－１は、ステップＳ２３０で検出したオブジェクトに基づいて、判定対象画像が示す作業状態を判定する。

　次いで、ステップＳ２４０では、作業管理装置２０－１は、工程管理画面に作業映像を表示する（図２９）。

　次いで、ステップＳ２４５では、作業管理装置２０－１は、工程ｎの作業に対して費やされている作業時間ｔ（ｎ）を作業状態Ｓ０～Ｓ１４の作業状態毎に検出する。

　次いで、ステップＳ２５０では、作業管理装置２０－１は、作業状態毎の作業時間ｔ（ｎ）を工程管理画面の「作業時間」の項目に棒グラフ表示する（図２９）。

　次いで、ステップＳ２５５では、作業管理装置２０－１は、作業状態毎の作業時間ｔ（ｎ）の各々が規定時間以内にあるか否かを判定する。ステップＳ２５５における規定時間は、例えば、図２９における「標準作業時間」及び「許容作業時間」である。

　作業時間ｔ（ｎ）が規定時間以内にない作業状態については（ステップＳ２５５：Ｙｅｓ）、ステップＳ２６０において、作業管理装置２０－１は、棒グラフの表示を変更する。例えば、作業管理装置２０－１は、標準作業時間を超える作業状態の作業時間の棒グラフの色を青色から黄色に変更し、許容作業時間を超える作業状態の作業時間の棒グラフの色を黄色から赤色に変更する。ステップＳ２６０の処理後、処理は、ステップＳ２６５へ進む。

　一方で、すべての作業状態の作業時間ｔ（ｎ）が規定時間以内にある場合は（ステップＳ２５５：Ｎｏ）、ステップＳ２６０の処理は行われずに処理はステップＳ２６５へ進む。

　ステップＳ２６５では、作業管理装置２０－１は、何れかの作業状態の作業時間ｔ（ｎ）が所定の注意喚起時間ｔａを超えているか否かを判定する。

　何れかの作業状態の作業時間ｔ（ｎ）が注意喚起時間ｔａを超えている場合は（ステップＳ２６５：Ｙｅｓ）、ステップＳ２７０において、作業管理装置２０－１は、注意表示を開始する。また、作業管理装置２０－１は、注意表示の開始に伴って、注意表示時間ｔ（ｍ）ｗの計時を開始する。例えば、作業管理装置２０－１は、工程ｎより前の工程で、かつ、工程ｎでの作業に影響を与える作業を含む各工程ｍに対し「作業を○○秒だけ遅くして下さい。」等の注意表示を行う。ステップＳ２７０の処理後、処理はステップＳ２７５へ進む。

　一方で、すべての作業状態の作業時間ｔ（ｎ）が注意喚起時間ｔａ以内である場合は（ステップＳ２６５：Ｎｏ）、ステップＳ２７０の処理は行われずに処理はステップＳ２７５へ進む。

　ステップＳ２７５では、作業管理装置２０－１は、注意表示時間ｔ（ｍ）ｗが所定の経過時間ｔ（ｍ）ｗａに達したか否かを判定する。

　注意表示時間ｔ（ｍ）ｗが経過時間ｔ（ｍ）ｗａに達した場合は（ステップＳ２７５：Ｙｅｓ）、作業管理装置２０－１は、ステップＳ２８０において、注意表示を終了し、ステップＳ２８５において、注意表示時間ｔ（ｍ）ｗを“０”に初期化する。ステップＳ２８５の処理後、処理はステップＳ２９０へ進む。

　一方で、注意表示時間ｔ（ｍ）ｗが経過時間ｔ（ｍ）ｗａに達していない場合は（ステップＳ２７５：Ｎｏ）、ステップＳ２８０，Ｓ２８５の処理は行われずに処理はステップＳ２９０へ進む。

　ステップＳ２９０では、作業管理装置２０－１は、作業管理装置２０－１の動作停止指示が為されたか否かを判定する。そして、動作停止指示が為された場合は（ステップＳ２９０：Ｙｅｓ）、作業管理装置２０－１は、動作を停止する。一方で、動作停止指示が為されていない場合は（ステップＳ２９０：Ｎｏ）、処理はステップＳ２０５に戻る。

　以上、本開示の実施形態１について説明した。

　［実施形態２］
　＜バウンディングボックス補正部の動作＞
　図３１は、本開示の実施形態２に係るバウンディングボックス補正部の動作例の説明に供する図である。

　図３１に示すように、バウンディングボックス補正部１４は、複数の変換後画像の各々において、バウンディングボックスＢＸ２の外側とバウンディングボックスＢＸ３の内側とで囲まれる４つの領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４を特定する。また、バウンディングボックス補正部１４は、領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４の各々の領域内で、各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合（以下では「低輝度画素率」と呼ぶことがある）を算出する。そして、バウンディングボックス補正部１４は、複数の変換後画像のうち、領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４において低輝度画素率が所定値以上となる領域が一つでも存在する変換後画像を教師データから除外する。領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４において低輝度画素率が所定値以上となる領域が一つでも存在する変換後画像には、特徴量の無効領域が多く含まれるからである。こうすることで、変換後画像の教師データとしての信頼性を高めることができる。

　以上、本開示の実施形態２について説明した。

　［実施形態３］
　＜画像変換部の動作＞
　図３２及び図３３は、本開示の実施形態３に係る画像変換部の動作例の説明に供する図である。

　画像変換部１３は、入力画像に対して図３２及び図３３に示すように、入力画像の中心Ｏを中心とする円であって、入力画像の上辺及び下辺、または、入力画像の左辺及び右辺に接する円ＣＩＲを設定する。そして、画像変換部１３は、円ＣＩＲの領域内にバウンディングボックスＢＸ１の全領域が含まれる入力画像をアフィン変換の変換対象として選択する一方で、バウンディングボックスＢＸ１の領域が円ＣＩＲの領域外に存在する入力画像をアフィン変換の変換対象から除外する。よって、画像変換部１３は、図３２に示す入力画像をアフィン変換の変換対象として選択する一方で、図３３に示す入力画像をアフィン変換の変換対象から除外する。バウンディングボックスＢＸ１の領域が円ＣＩＲの領域外に存在する入力画像に対する変換後画像には、特徴量の無効領域が多く含まれる可能性があるからである。こうすることで、変換後画像の教師データとしての信頼性を高めることができる。

　以上、本開示の実施形態３について説明した。

　ここで、上記説明では、画像変換部１３がアフィン変換を用いて教師データのオーギュメンテーションを行う場合について説明した。しかし、画像変換部１３が用いる幾何学的画像変換はアフィン変換に限定されない。アフィン変換以外の幾何学的画像変換の一例として、射影変換（ホモグラフィ変換）が挙げられる。例えば、幾何学的画像変換として射影変換が用いられる場合、画像変換部１３は、式（２）、または、式（３ａ）及び式（３ｂ）に従って、パラメータk,　h11,　h12,　h13,　h21,　h22,　h23,　h31,　h32,　h33をランダムに変化させながら入力画像の各々を所定の複数回射影変換することにより教師データのオーギュメンテーションを行う。式（２）、式（３ａ）及び式（３ｂ）において、xn及びynは画像変換前の座標を表し、xn’及びyn’は画像変換後の座標を表す。

　［実施形態４］
　＜作業状態判定部の動作＞
　図３４～図３６は、本開示の実施形態４に係る作業状態判定部の動作例の説明に供する図である。

　作業状態判定部２４は、図３４～図３６に示すように、各フレーム毎の判定対象画像に対する作業状態Ｓ０～Ｓ１４の判定結果を累積する。つまり、図３４～図３６に示されたグラフは、作業状態判定部２４での過去の判定結果の累積結果を示す。

　例えば、ｍフレーム目の判定対象画像に対する作業状態を作業状態判定部２４が判定する時点での判定結果の累積結果が図３４に示すうようになっている場合は、作業状態判定部２４は、判定結果の累積回数が最も多い作業状態Ｓ３をｍフレーム目の判定対象画像が示す作業状態として判定する。

　また例えば、（ｍ＋１）フレーム目の判定対象画像に対する作業状態を作業状態判定部２４が判定する時点での判定結果の累積結果が図３５に示すうようになっている場合、判定結果の累積回数が最も多い作業状態はＳ５である。しかし、状態遷移モデル（図２６）によれば、作業状態がＳ３の次にＳ５へ遷移することはない。このため、作業状態判定部２４は、判定結果の累積回数がＳ５の次に多いＳ４を判定結果候補として選定する。状態遷移モデルによれば、作業状態がＳ３の次にＳ４へ遷移することは可能なため、作業状態判定部２４は、最終的に、作業状態Ｓ４を（ｍ＋１）フレーム目の判定対象画像が示す作業状態として判定する。

　また例えば、（ｍ＋１）フレーム目の判定対象画像に対する作業状態を作業状態判定部２４が判定する時点での判定結果の累積結果が図３６に示すうようになっている場合、判定結果の累積回数が最も多い作業状態はＳ５であり、判定結果の累積回数が２番目に多い作業状態はＳ２である。状態遷移モデルによれば、作業状態がＳ３の次にＳ５へ遷移することはなく、また、Ｓ３の次にＳ２へ遷移することもない。このため、作業状態判定部２４は、判定結果の累積回数が３番目に多い作業状態Ｓ３を（ｍ＋１）フレーム目の判定対象画像が示す作業状態として判定する。

　こうすることで、作業状態の判定精度を高めることができる。

　以上、本開示の実施形態４について説明した。

　［実施形態５］
　＜作業管理システムの構成＞
　図３７は、本開示の実施形態５に係る作業管理システムの構成例を示す図である。図３７において、作業管理システム２は、第一学習装置１０と、第二学習装置３０と、作業管理装置２０－２とを有する。

　＜第二学習装置の構成＞
　図３８は、本開示の実施形態５に係る第二学習装置の構成例を示す図である。図３８において、第二学習装置３０は、第二機械学習部３１と、記憶部３２と、出力部３３とを有する。

　＜作業管理装置の構成＞
　図３９は、本開示の実施形態５に係る作業管理装置の構成例を示す図である。図３９において、作業管理装置２０－２は、取得部２１，２７と、記憶部２２，２８と、オブジェクト検出部２３と、作業状態判定部２９と、工程管理部２５と、表示部２６とを有する。

　＜第二学習装置における処理手順＞
　図３８に示す第二学習装置３０において、第二機械学習部３１には、図４０～図５８に示すような画像が教師データとして入力される。図４０～図５８は、本開示の実施形態５に係る第二学習装置への入力画像の一例を示す図である。図４０～図５８に示すように、第二学習装置３０への各入力画像は、手画像と、入力画像に含まれるオブジェクトに設定されたバウンディングボックスとを含む。第一学習装置１０への入力画像（図８～図１２）と同様に、バウンディングボックスには、バウンディングボックス内のオブジェクトに該当するラベルが付されている。また、図４０～図５８に示すように、第二学習装置３０への各入力画像には、各入力画像が示す作業状態を示すラベル（以下では「作業状態ラベル」と呼ぶことがある）が付されている。

　例えば、図４０に示す入力画像では、入力画像に含まれる複数のオブジェクトのパターン（以下では「入力画像オブジェクトパターン」と呼ぶことがある）である[car_with,　car_wout2,　blur]に対して、“Ｓ１：move　phone　to　robot”という作業状態ラベルが付されている。また例えば、図４３に示す入力画像では、[car_with,　car_wout2,　hand]という入力画像オブジェクトパターンに対して、“Ｓ２：position　phone”という作業状態ラベルが付されている。また例えば、図４５に示す入力画像では、[sw，car_with,　hand]という入力画像オブジェクトパターンに対して、“Ｓ３：press　sw”という作業状態ラベルが付されている。また例えば、図４６に示す入力画像では、[blur，car_with,　hand]という入力画像オブジェクトパターンに対して、“Ｓ４：move　SPK　to　space”という作業状態ラベルが付されている。また例えば、図４８に示す入力画像では、[hand，hand_two，air_blow]という入力画像オブジェクトパターンに対して、“Ｓ５：air　blow”という作業状態ラベルが付されている。また例えば、図４９に示す入力画像では、[hand，hand]という入力画像オブジェクトパターンに対して、“Ｓ６：blue　seal”という作業状態ラベルが付されている。また例えば、図５０に示す入力画像では、[hand，hand，hand_two，car_with]という入力画像オブジェクトパターンに対して、“Ｓ７：position　SPK”という作業状態ラベルが付されている。また例えば、図５１に示す入力画像では、[hand，hand，hand_two，car_with2]という入力画像オブジェクトパターンに対して、“Ｓ８：turn　carrier　0　deg”という作業状態ラベルが付されている。また例えば、図５２に示す入力画像では、[grasp_d，hand，hand_two]という入力画像オブジェクトパターンに対して、“Ｓ９：move　phone　to　tray”という作業状態ラベルが付されている。また例えば、図５４に示す入力画像では、[hand，hand，hand_two，car_wout2]という入力画像オブジェクトパターンに対して、“Ｓ１０：move　carrier　next”という作業状態ラベルが付されている。また例えば、図５５に示す入力画像では、[hand，hand]という入力画像オブジェクトパターンに対して、“Ｓ１１：move　carrier　work　area”という作業状態ラベルが付されている。また例えば、図５６に示す入力画像では、[hand，hand，car_wout]という入力画像オブジェクトパターンに対して、“Ｓ１２：Turn　carrier　90　deg”という作業状態ラベルが付されている。また例えば、図５７に示す入力画像では、[car_wout，car_wout2，hand]という入力画像オブジェクトパターンに対して、“Ｓ１３：Open　robot　lid”という作業状態ラベルが付されている。また例えば、図５８に示す入力画像では、[grasp_d，car_wout，hand]という入力画像オブジェクトパターンに対して、“Ｓ１４：Move　phone　to　carrier”という作業状態ラベルが付されている。

　第二機械学習部３１は、図４０～図５８に示すような入力画像を教師データとして用いる機械学習を行うことにより、第二学習済みモデルとしての「作業状態判定モデル」を生成し、生成した作業状態判定モデルを記憶部３２へ出力する。記憶部３２は、作業状態判定モデルを記憶する。すなわち、第二機械学習部３１は、オブジェクト検出部２３によって検出された複数のオブジェクトに対して、複数の作業状態の中の何れかの作業状態を示す情報である“Ｓ０”～“Ｓ１４”の何れかを出力する作業状態判定モデルを生成する。作業状態判定モデルを生成する際の機械学習として、例えば、ＳＳＤやＹＯＬＯが用いられる。

　出力部３３は、記憶部３２に記憶されている作業状態判定モデルを記憶部３２から取得し、取得した作業状態判定モデルを作業管理装置２０－２へ出力する。

　＜作業管理装置における処理手順＞
　図３９に示す作業管理装置２０－２において、取得部２７は、第二学習装置３０から出力された作業状態判定モデルを取得し、取得した作業状態判定モデルを記憶部２８へ出力し、記憶部２８は、作業状態判定モデルを記憶する。

　一方で、作業状態判定部２９には、オブジェクト検出部２３により検出された複数のオブジェクトが入力される。作業状態判定部２９は、検出オブジェクトパターンに基づいて、記憶部２８に記憶されている作業状態判定モデルを用いて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“Ｓ０”～“Ｓ１４”の何れかを工程管理部２５へ出力する。

　以上、本開示の実施形態５について説明した。

　［実施形態６］
　＜第二機械学習部の動作＞
　図５９及び図６０は、本開示の実施形態６に係るオブジェクトの位置座標の一例を示す図である。

　図５９及び図６０に示すように、第二機械学習部３１には、各バウンディングボックス内の各オブジェクトの位置を示す位置座標PA（xp，yp）が上記の図４０～図５８に示すような画像にさらに付された画像が教師データとして入力される。位置座標PA（xp，yp）は、入力画像におけるオブジェクトの絶対的な位置を示す。

　第二機械学習部３１は、位置座標PA（xp，yp）が付された入力画像を教師データとして用いる機械学習を行うことにより、第二学習済みモデルとしての「作業状態判定モデル」を生成し、生成した作業状態判定モデルを記憶部３２へ出力する。記憶部３２は、作業状態判定モデルを記憶する。すなわち、第二機械学習部３１は、オブジェクト検出部２３によって検出された複数のオブジェクトと、複数のオブジェクトの各々の位置座標とに対して、複数の作業状態の中の何れかの作業状態を示す情報である“Ｓ０”～“Ｓ１４”の何れかを出力する作業状態判定モデルを生成する。作業状態判定モデルを生成する際の機械学習として、例えば、ＳＳＤやＹＯＬＯが用いられる。

　＜作業管理装置における処理手順＞
　オブジェクト検出部２３は、複数のオブジェクトを検出するとともに、それらの複数のオブジェクトの各々の位置座標を検出し、検出したオブジェクトと位置座標とを作業状態判定部２９へ出力する。

　作業状態判定部２９は、検出オブジェクトパターンと、各オブジェクトの位置座標とに基づいて、記憶部２８に記憶されている作業状態判定モデルを用いて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“Ｓ０”～“Ｓ１４”の何れかを工程管理部２５へ出力する。

　このように、検出オブジェクトパターンに加えて、オブジェクトの位置座標を用いて作業状態を判定することで、作業状態の判定精度を高めることができる。

　以上、本開示の実施形態６について説明した。

　［実施形態７］
　＜第二機械学習部の動作＞
　図６１及び図６２は、本開示の実施形態７に係るオブジェクトの位置座標の一例を示す図である。

　上記の実施形態６では、オブジェクトの位置を示す位置座標PA（xp，yp）は、入力画像における絶対的な位置を示していた。

　これに対し、実施形態７では、オブジェクトの位置を示す位置座標として、図６１及び図６２に示すように、位置座標PAに代えて、入力画像におけるランドマークＬＭに対する相対的な位置を示す位置座標PBが用いられる。例えば、入力画像におけるランドマークＬＭの位置座標がM（xm，ym）である場合、オブジェクトの位置を示す相対的な位置座標はPB（xp-xm，yp-ym）と表される。図６１には、特徴的な形状や色を有するスイッチボックスをランドマークＬＭの一例として示す。

　このように、オブジェクトの位置を示す位置座標としてランドマークＬＭに対する相対的な位置座標を用いることで、絶対的な位置座標を用いる場合に比べ、作業者の作業状態を撮影するカメラの設置状況等によりカメラアングルが変化した場合でも、作業状態の判定精度の低下を抑えることができる。

　以上、本開示の実施形態７について説明した。

　［実施形態８］
　記憶部１２，１６，２２，２８，３２は、ハードウェアとして、例えば、メモリ、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）等により実現される。

　クラス設定部１１、画像変換部１３、バウンディングボックス補正部１４、第一機械学習部１５、オブジェクト検出部２３、作業状態判定部２４，２９、工程管理部２５、及び、第二機械学習部３１は、ハードウェアとして、例えばプロセッサにより実現される。プロセッサの一例として、ＣＰＵ（Central　Processing　Unit）、ＤＳＰ（Digital　Signal　Processor）、ＦＰＧＡ（Field　Programmable　Gate　Array）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）等が挙げられる。

　出力部１７，３３及び取得部２１，２７は、ハードウェアとして、例えば、有線のネットワークインタフェースモジュールまたは無線通信モジュールにより実現される。

　表示部２６は、ハードウェアとして、例えば、液晶ディスプレイにより実現される。

　第一学習装置１０、第二学習装置３０、及び、作業管理装置２０－１，２０－２は、例えば、パーソナルコンピュータやサーバ等のコンピュータ装置として実現される。

　また、作業管理システム１，２での上記説明における各処理の全部または一部は、各処理に対応するプログラムを作業管理システム１，２が有するプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されても良い。また、プログラムは、任意のネットワークを介して作業管理システム１，２に接続されたプログラムサーバに記憶され、そのプログラムサーバから作業管理システム１，２にダウンロードされて実行されたり、作業管理システム１，２が読み取り可能な記録媒体に記憶され、その記録媒体から読み出されて実行されても良い。作業管理システム１，２が読み取り可能な記録媒体には、例えば、メモリーカード、ＵＳＢメモリ、ＳＤカード、フレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ、及び、Ｂｌｕ－ｒａｙ（登録商標）ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものも含む。

　また、作業管理システム１，２の分散・統合の具体的形態は図示するものに限られず、作業管理システム１，２の全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　以上、本開示の実施形態８について説明した。

　［開示の技術の効果］
　以上のように、本開示に係る学習装置（実施形態１に係る第一学習装置１０）は、変換部（実施形態１に係る画像変換部１３）と、補正部（実施形態１に係るバウンディングボックス補正部１４）と、学習部（実施形態１に係る第一機械学習部１５）とを有する。変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックス（実施形態１に係るバウンディングボックスＢＸ１）とを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成する。補正部は、変換後画像に含まれる第二バウンディングボックス（実施形態１に係るバウンディングボックスＢＸ２）を補正した第三バウンディングボックス（実施形態１に係るバウンディングボックスＢＸ３）を変換後画像に設定する。学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデル（実施形態１に係るオブジェクト検出モデル）を生成する。

　例えば、補正部は、第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形（実施形態１に係る矩形ＳＱ）を生成し、矩形の面積を矩形に含まれる手画像に基づいて縮小することにより第三バウンディングボックスを生成する。

　また例えば、補正部は、矩形に含まれる手画像に対するエッジ検出を用いて矩形の面積を縮小する。

　また例えば、補正部（実施形態２に係るバウンディングボックス補正部１４）は、第二バウンディングボックスの外側と第三バウンディングボックスの内側とで囲まれる複数の領域（実施形態２に係る領域ＡＲ１～ＡＲ４）を特定し、複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、複数の領域において割合が所定値以上となる領域が一つでも存在する変換後画像を教師データから除外する。

　また例えば、変換部（実施形態３に係る画像変換部１３）は、第一バウンディングボックスの領域が、入力画像の中心を中心とする円であって、入力画像の上辺及び下辺、または、入力画像の左辺及び右辺に接する円の領域外に存在する入力画像を幾何学的画像変換の変換対象から除外する。

　また例えば、本開示に係る学習装置（実施形態１に係る第一学習装置１０）は、設定部（実施形態１に係るクラス設定部１１）をさらに有する。設定部は、一工程の作業手順を示す作業手順書に含まれるキーワードから複数のオブジェクトの各クラスを設定する。

　以上の構成によれば、良好な学習済みモデルを生成することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があっても良い。

　また、開示の技術は以下のような構成も採ることができる。
（１）
　製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成する変換部と、
　前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定する補正部と、
　前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する学習部と、
　を具備する学習装置。
（２）
　前記補正部は、前記第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形を生成し、前記矩形の面積を前記矩形に含まれる前記手画像に基づいて縮小することにより前記第三バウンディングボックスを生成する、
　前記（１）に記載の学習装置。
（３）
　前記補正部は、前記矩形に含まれる前記手画像に対するエッジ検出を用いて前記矩形の面積を縮小する、
　前記（２）に記載の学習装置。
（４）
　前記補正部は、前記第二バウンディングボックスの外側と前記第三バウンディングボックスの内側とで囲まれる複数の領域を特定し、前記複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、前記複数の領域において前記割合が所定値以上となる領域が一つでも存在する前記変換後画像を前記教師データから除外する、
　前記（２）または（３）に記載の学習装置。
（５）
　前記変換部は、第一バウンディングボックスの領域が、前記入力画像の中心を中心とする円であって、前記入力画像の上辺及び下辺、または、前記入力画像の左辺及び右辺に接する前記円の領域外に存在する前記入力画像を前記幾何学的画像変換の変換対象から除外する、
　前記（１）から（４）の何れか一つに記載の学習装置。
（６）
　前記一工程の作業手順を示す作業手順書に含まれるキーワードから前記複数のオブジェクトの各クラスを設定する設定部、
　をさらに具備する前記（１）から（５）の何れか一つに記載の学習装置。
（７）
　製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成し、
　前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定し、
　前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する、
　学習方法。

１，２　作業管理システム
１０　第一学習装置
２０－１，２０－２　作業管理装置
１１　クラス設定部
１２，１６，２２，２８，３２　記憶部
１３　画像変換部
１４　バウンディングボックス補正部
１５　第一機械学習部
１７，３３　出力部
２１，２７　取得部
２３　オブジェクト検出部
２４，２９　作業状態判定部
２５　工程管理部
２６　表示部
３０　第二学習装置
３１　第二機械学習部

Claims

　製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成する変換部と、
　前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定する補正部と、
　前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する学習部と、
　を具備する学習装置。
　前記補正部は、前記第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形を生成し、前記矩形の面積を前記矩形に含まれる前記手画像に基づいて縮小することにより前記第三バウンディングボックスを生成する、
　請求項１に記載の学習装置。
　前記補正部は、前記矩形に含まれる前記手画像に対するエッジ検出を用いて前記矩形の面積を縮小する、
　請求項２に記載の学習装置。
　前記補正部は、前記第二バウンディングボックスの外側と前記第三バウンディングボックスの内側とで囲まれる複数の領域を特定し、前記複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、前記複数の領域において前記割合が所定値以上となる領域が一つでも存在する前記変換後画像を前記教師データから除外する、
　請求項２に記載の学習装置。
　前記変換部は、第一バウンディングボックスの領域が、前記入力画像の中心を中心とする円であって、前記入力画像の上辺及び下辺、または、前記入力画像の左辺及び右辺に接する前記円の領域外に存在する前記入力画像を前記幾何学的画像変換の変換対象から除外する、
　請求項１に記載の学習装置。
　前記一工程の作業手順を示す作業手順書に含まれるキーワードから前記複数のオブジェクトの各クラスを設定する設定部、
　をさらに具備する請求項１に記載の学習装置。
　製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成し、
　前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定し、
　前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する、
　学習方法。