WO2024047715A1

WO2024047715A1 - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: WO2024047715A1
Application number: PCT/JP2022/032459
Authority: WO
Inventors: 純也藤本; 源太鈴木
Original assignee: 富士通株式会社
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-07

Abstract

情報処理装置は、人物の作業を撮影した映像を取得する。情報処理装置は、取得した映像を機械学習モデルに入力することで、人物の要素作業の区間ごとに作業種別を示すラベルを生成する。情報処理装置は、生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、受け付けた修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定する。情報処理装置は、同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する。

Description

機械学習プログラム、機械学習方法および情報処理装置

　本発明は、機械学習プログラム等に関する。

　ディープラーニング技術の発展により通常のＲＧＢ（Red　Green　Blue）カメラで撮影した人の映像から姿勢を高精度に認識できるようになり、この認識情報を利用して人の行動を推定する様々な研究開発が行われている。

　たとえば、人物の作業をカメラで撮影し、撮影した作業映像を基にして、時系列の複数の単位動作を特定し、特定した単位動作の並びと、モデルとを照合することで、作業映像に含まれる複数の要素作業を推測する従来技術がある。

　なお、同じ要素作業でも、単位動作の並びは毎回完全には一致せず、バラツキがあるため、従来技術では、要素作業中の単位動作の並びを、単位動作間の確率的な遷移（遷移確率）で表現したモデル（機械学習モデル）を利用する。従来技術では、作業映像から実際に観測される単位動作の並びのパターンと、要素作業のラベルとの関係を定義した教師データを基にして、モデルの遷移確率を訓練する。

　図１３は、従来技術を説明するための図（１）である。便宜的に、従来技術の装置を「従来装置」と表記する。従来装置は、作業映像５を基にして、作業映像に含まれる単位動作を時系列に推定する。図１３に示す例では、単位動作ｍ_２，ｍ_５，ｍ_６，ｍ_８，ｍ_６，ｍ_９，ｍ_５、・・・の順に、単位動作が推定されている。たとえば、従来装置は、教師なしデータで訓練されたモデルを用いて、各単位動作を推定する。

　従来装置は、上記のように単位動作の並びを推定しつつ、各要素作業に対応する複数のモデルと照合を行い、要素作業を順に特定する。図１３に示す例では、要素作業Ａに対応するモデル２０Ａと、要素作業Ｂに対応するモデル２０Ｂとを示す。モデル２０Ａ，２０ｂは、ＨＭＭ（Hidden　Markov　Model）である。

　モデル２０Ａ，２０Ｂには、単位動作ｍ_ｎ（ｎは、自然数）に対応する状態ノードが含まれる。各状態ノードは、所定の状態ノードとエッジで接続される。各エッジには、教師データによって訓練された遷移確率が設定される。図１３では、ｎ＝４以上の単位動作に対応する状態ノードの図示を省略する。

　従来技術は、単位動作の推定結果を基にして、モデル２０Ａ，２０Ｂの状態ノードを遷移させ、実際に遷移したエッジの遷移確率や、各種の制約等を基にして、単位動作の並びに対応する要素作業を順に特定する。各種の制約には、要素作業の作業時間や、要素作業の順番等が含まれる。図１３に示す例では、照合の結果、単位動作ｍ_２，ｍ_５，ｍ_６の並びが、要素作業Ａと特定され、単位動作ｍ_８，ｍ_６，ｍ_９，ｍ_５の並びが、要素作業Ｂと特定されている。

　ここで、従来技術では、上記のモデルを用いて作業映像を複数の要素作業に分割した結果を、ＵＩ（User　Interface）で可視化する場合がある。管理者は、可視化された結果と、作業映像とを比較して、必要に応じて要素作業の区間を修正する。

　図１４は、従来技術を説明するための図（２）である。従来装置が、モデルによって自動的に推定した要素作業の検出結果を、検出結果２０ａする。検出結果２０ａでは、先頭から順に、要素作業Ａ、要素作業Ｂ、要素作業Ｃ、要素作業Ｄが検出されている。

　要素作業Ａに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間Ｔ１－１とする。要素作業Ｂに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間Ｔ１－２とする。要素作業Ｃに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間Ｔ１－３とする。要素作業Ｄに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間Ｔ１－４とする。

　管理者が、実際の作業映像と、検出結果２０ａとを参照し、要素作業Ｂ、要素作業Ｃの区間の誤りを確認した場合には、要素作業Ｂ、要素作業Ｃの区間を修正することで、検出結果２１ｂが得られる。たとえば、検出結果２１ｂでは、要素作業Ｂの区間Ｔ１－２が、区間Ｔ２－２に修正され、要素作業Ｃの区間Ｔ１－３が、区間Ｔ２－３に修正されている。

　管理者によって修正された検出結果２１ｂをモデルの再学習に利用することで、モデルが要素作業を検出する場合の識別精度を改善できる可能性がある。

特開２０２１－１８９８９２号公報

　しかしながら、上述した従来技術では、要素作業の識別精度を向上させることができないという問題がある。

　たとえば、管理者が検出結果を修正する際に、作業映像にイレギュラーな状況が発生していると、修正した検出結果が、モデルの再学習に適した検出結果とはならない。

　ここで、イレギュラーな状況とは、通常想定されている作業とは異なる作業員の動きであり、作業ミスに気が付いて、作業をやり直す等の動きである。イレギュラーな状況に基づいて修正された検出結果に示される各要素作業の区間は、モデルの学習時の状況とは異なる状況であり、再現性がない。

　このため、単に、管理者によって修正した検出結果を利用して、モデルの再学習を行うと、モデルの要素作業の識別精度が低下する場合もあり得た。

　１つの側面では、本発明は、要素作業の識別精度を向上させることができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、人物の作業を撮影した映像を取得する。コンピュータは、取得した映像を機械学習モデルに入力することで、人物の要素作業の区間ごとに作業種別を示すラベルを生成する。コンピュータは、生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、受け付けた修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定する。コンピュータは、同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する。

　要素作業の識別精度を向上させることができる。

図１は、本実施例に係るシステムの一例を示す図である。図２は、本実施例に係る情報処理装置の処理を説明するための図である。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４は、修正データテーブルのデータ構造の一例を示す図である。図５は、観測確率学習部の処理を説明するための図である。図６は、遷移確率学習部の処理の一例を説明するための図である。図７は、機械学習モデルの一例を示す図である。図８は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。図９は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。図１０は、本実施例に係る情報処理装置と従来装置との比較例を示す図である。図１１は、情報処理装置が実行するその他の処理を説明するための図である。図１２は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１３は、従来技術を説明するための図（１）である。図１４は、従来技術を説明するための図（２）である。

　以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例に係るシステムの構成例について説明する。図１は、本実施例に係るシステムの一例を示す図である。図１に示すように、このシステムは、カメラ１５と、情報処理装置１００とを有する。カメラ１５と、情報処理装置１００とは、ネットワーク１６を介して相互に接続される。

　カメラ１５は、ＲＧＢカメラ等である。カメラ１５は、工場等で作業を行う作業員１４の映像を撮影し、撮影した映像のデータを、情報処理装置１００に送信する。以下の説明では、カメラ１５が撮影した映像のデータを「作業映像データ」と表記する。作業映像データは、時系列のフレーム（静止画像）を含む。

　続いて、情報処理装置１００の処理について説明する。図２は、本実施例に係る情報処理装置の処理を説明するための図である。前提として、情報処理装置１００は、機械学習モデルを用いて、作業映像データから抽出する時系列の単位作業の並びから、要素作業および要素作業の区間を検出し、検出結果を表示する。機械学習モデルは、ＨＳＭＭ（Hidden　Semi-Markov　Model）等である。機械学習モデルによって検出される要素作業は、同一の要素作業であっても、係る同一の要素作業に含まれる単位作業の並びが異なる場合がある。管理者は、情報処理装置１００の検出結果と、作業映像データとを参照して、要素作業の区間に誤りがある場合には、要素作業の区間を修正することで、修正データを生成する。上記処理が繰り返し実行されることで、情報処理装置１００には、複数の修正データが保存される。

　情報処理装置１００は、複数の修正データから、同じ要素作業の区間が修正された修正データを取得する。図２に示す例では、修正データ３０ａ，３０ｂ，３０ｃを用いて説明を行う。修正データ３０ａ，３０ｂ，３０ｃでは、先頭から順に、要素作業Ａ、要素作業Ｂ、要素作業Ｃ、要素作業Ｄが検出されており、要素作業Ｂの区間が管理者によって修正されているものとする。

　修正データ３０ａ～３０ｃの各要素作業の区間には、時系列の単位動作が含まれる。以下の説明では、適宜、要素作業に含まれる時系列の単位動作の並びを「特徴情報系列」と表記する。

　情報処理装置１００は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｂの要素作業Ｂの特徴情報系列とが類似しているか否かを判定する。情報処理装置１００は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｂの要素作業Ｂの特徴情報系列とが類似している場合には、修正データ３０ａの要素作業Ｂに対応する類似数に１を加算する。

　情報処理装置１００は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｃの要素作業Ｂの特徴情報系列とが類似しているか否かを判定する。情報処理装置１００は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｃの要素作業Ｂの特徴情報系列とが類似している場合には、修正データ３０ａの要素作業Ｂに対応する類似数に１を加算する。

　情報処理装置１００は、修正データ３０ａの要素作業Ｂに対応する類似数が、所定数以上である場合に、修正データ３０ａの要素作業Ｂの特徴情報系列を用いて、機械学習モデルの再学習を行う。

　たとえば、修正データ３０ａの要素作業Ｂに対応する類似数が所定数以上である場合には、修正データ３０ａの要素作業Ｂは、イレギュラーな状況が発生していない要素作業であるといえる。このため、修正データ３０ａの要素作業Ｂの特徴情報系列を用いて、機械学習モデルの再学習を行うことで、機械学習モデルに対する要素作業の識別精度を向上させることができる。

　次に、図２で説明した処理を実行する情報処理装置１００の構成例について説明する。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

　通信部１１０は、ネットワーク１６を介して、カメラ１５や、外部装置等との間でデータ通信を実行する。後述する制御部１５０は、通信部１１０を介して、外部装置との間でデータをやり取りする。

　入力部１２０は、情報処理装置１００の制御部１５０に各種の情報を入力する入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。管理者は、入力部１２０を操作して、検出結果の要素作業の区間を修正する。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。たとえば、表示部１３０は、要素作業の検出結果、作業映像データ等を表示する。

　記憶部１４０は、モデルテーブル１４１、教師なしデータテーブル１４２、教師ありデータテーブル１４３、修正データテーブル１４４、映像バッファ１４５を有する。記憶部１４０は、メモリなどの記憶装置に対応する。

　モデルテーブル１４１は、機械学習モデルを有する。たとえば、機械学習モデルは、第１モデルと、複数の第２モデルとを有する。

　第１モデルは、特徴ベクトルが入力された場合に、単位動作ｍ_ｎを出力するモデルである。ｎは自然数である。時系列の特徴ベクトルが、第１モデルに入力されると、第１モデルから時系列の単位動作が出力される。第１モデルは、教師なしデータによって、訓練される。たとえば、単位動作は、「腕を上げる」、「腕を下す」、「腕を前に伸ばす」等である。単位動作は、「特徴量」に対応する。

　複数の第２モデルは、単位動作の並びから、要素作業を特定する場合に利用される。第２モデルは、図１３で説明したモデル２０Ａ，２０Ｂ等と同様にして、単位動作ｍ_ｎに対応する状態ノードが含まれる。各状態ノードは、所定の状態ノードとエッジで接続される。各エッジには、教師データによって学習された遷移確率が設定される。複数の第２モデルは、教師ありデータによって、訓練される。各第２モデルは、特定の要素作業に対応付けられ、予め設定された要素作業の順に接続される。

　教師なしデータテーブル１４２は、複数の教師なしデータを有する。たとえば、教師なしデータを、複数の作業映像データとする。教師なしデータテーブル１４２は、第１モデルを訓練する場合に使用される。

　教師ありデータテーブル１４３は、単位動作の並びを保持するテーブルである。教師ありデータテーブル１４３に保持される各単位動作には、要素作業を識別するラベルが付与される。教師ありデータテーブル１４３は、各第２モデルを訓練する場合に使用される。

　修正データテーブル１４４は、複数の修正データを保持するテーブルである。修正データは、図２で説明した修正データ３０ａ～３０ｃ等に対応する。

　図４は、修正データテーブルのデータ構造の一例を示す図である。図４に示すように、修正データテーブル１４４は、項番と、複数の要素作業情報が含まれる。項番は、修正データテーブルの各レコードを識別する番号である。１つのレコードが、１つの修正データに対応する情報である。

　要素作業情報（ｎ）は、作業映像データから検出されたｎ番目の要素作業に関する情報である。要素作業情報には、ラベル、特徴情報系列、区間、フラグが含まれる。ラベルは、要素作業を識別する情報である。特徴情報系列は、該当する要素作業に含まれる時系列の単位動作である。区間は、該当する要素作業の先頭の単位動作から、最後の単位動作までの時間幅である。フラグは、該当する要素作業の区間が修正されたか否かを示す情報である。フラグが「オフ」の場合には、該当する要素作業の区間が修正されていないことを示す。フラグが「オン」の場合には、該当する要素作業の区間が修正されていることを示す。

　図３の説明に戻る。映像バッファ１４５は、カメラ１５から取得した、作業映像データを格納するバッファである。

　制御部１５０は、取得部１５１と、抽出部１５２と、観測確率学習部１５３と、遷移確率学習部１５４と、推定部１５５と、判定部１５６とを有する。制御部１５０は、ＣＰＵ（Central　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等である。

　取得部１５１は、カメラ１５から、作業映像データを取得し、取得した作業映像データを、映像バッファ１４５に格納する。

　また、取得部１５１は、ネットワーク１６を介して、図示しない外部装置等から、教師なしデータテーブル１４２のデータ、教師ありデータテーブル１４３のデータを取得してもよい。取得部１５１は、取得した教師なしデータテーブル１４２のデータ、教師ありデータテーブル１４３のデータを、記憶部１４０に格納する。

　抽出部１５２は、作業映像データを基にして、特徴ベクトルを抽出する。たとえば、抽出部１５２は、「学習フェーズ」において、教師なしデータテーブル１４２に格納された作業映像データを基にして、特徴ベクトルを抽出し、抽出した特徴ベクトルを、観測確率学習部１５３に出力する。また、抽出部１５２は、「推定フェーズ」において、映像バッファ１４５に格納された作業映像データを基にして、特徴ベクトルを抽出し、抽出した特徴ベクトルを、推定部１５５に出力する。

　ここで、抽出部１５２が、作業映像データから特徴ベクトルを抽出する処理の一例について説明する。作業映像データを構成する各フレームから人物検出技術を適用して人の領域（たとえば、バウンディングボックス）を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部１５２は、１つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部１５２は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部１５２は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。

　抽出部１５２は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、たとえば、肘、膝等であってよい。また、抽出部１５２は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを抽出する。たとえば、抽出部１５２は、特徴ベクトルの各次元を、平均化した、所定の部位の曲げ速度、曲げの程度等に対応させて、値を設定してもよい。

　観測確率学習部１５３は、抽出部１５２によって抽出された特徴ベクトルであって、教師なしデータテーブル１４２の作業映像データに基づく特徴ベクトルを基にして、第１モデルを訓練する。たとえば、第１モデルは、混合ガウス分布（以下、「ＧＭＭ（Gaussian　Mixture　Model）」という）モデル等である。本実施例では、適宜、教師データに基づいて、「モデルの学習を実行する」ことを、「モデルを訓練する」と表記する。

　観測確率学習部１５３は、混合ガウス分布モデルを用いて各単位動作の観測確率を算出する。具体的には、観測確率学習部１５３は、抽出部１５２から受け渡された特徴量ベクトルをクラスタリングすることにより、動作の数分のガウス分布が混合されたＧＭＭのパラメータを推定する。そして、観測確率学習部１５３は、パラメータが推定されたＧＭＭを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。

　図５は、観測確率学習部の処理を説明するための図である。図５に示す例では、特徴量空間Ｖを、第１特徴量、第２特徴量、第ｎ特徴量の軸で示す。第１特徴量、第２特徴量、第ｎ特徴量は、特徴ベクトルの各次元に対応する。たとえば、特徴量空間Ｖにおける、各特徴ベクトルの位置は、図５の四角マークで示される。

　観測確率学習部１５３は、各特徴ベクトルをクラスタリングすると、クラスタ４５－１，４５－２，４５－３，４５－６に分類される。たとえば、クラスタ４５－１に分類された各特徴ベクトルは、単位動作「ｍ_１」に対応する特徴ベクトルとなる。クラスタ４５－２に分類された各特徴ベクトルは、単位動作「ｍ_２」に対応する特徴ベクトルとなる。クラスタ４５－３に分類された各特徴ベクトルは、単位動作「ｍ_３」に対応する特徴ベクトルとなる。クラスタ４５－６に分類された各特徴ベクトルは、単位動作「ｍ_６」に対応する特徴ベクトルとなる。

　図５に示すクラスタリングの結果が、第１モデルを訓練した結果に対応する。推定対象となる特徴ベクトルが、訓練済みの第１モデルに入力されると、推定対象となる特徴ベクトルと、各クラスタの距離とに基づいて、第１モデルから、各単位動作の観測確率が出力される。たとえば、推定対象の特徴ベクトルと、クラスタ４５－１との距離が、他のクラスタとの距離よりも近い場合には、推定対象の特徴ベクトルに関して、単位動作「ｍ_１」の観測確率が、他の単位動作の観測確率よりも大きい確率となる。

　図３の説明に戻る。遷移確率学習部１５４は、教師ありデータテーブル１４３を基にして、各要素作業に対応する第２モデルの遷移確率を訓練する。遷移確率学習部１５４は、最尤推定やＥＭアルゴリズム（Expectation-Maximization　algorithm）等を使用して、単位動作の状態ノード間のエッジの遷移確率を訓練する。

　遷移確率学習部１５４の処理の一例を、図６を用いて説明する。図６は、遷移確率学習部の処理の一例を説明するための図である。たとえば、教師ありデータテーブル１４３において、区間Ｔ１０－１に含まれる時系列の単位動作ｍ_２，ｍ_５，ｍ_６，ｍ_８に、要素作業Ａのラベルが付与されているものとする。第２モデル９０Ａを、要素作業Ａに対応する第２モデルとする。この場合、遷移確率学習部１５４は、単位動作ｍ_２，ｍ_５，ｍ_６，ｍ_８の並びによって、第２モデル９０Ａの状態ノード間のエッジの遷移確率を訓練する。

　また、教師ありデータテーブル１４３において、区間Ｔ１０－２に含まれる時系列の単位動作ｍ_６，ｍ_９，ｍ_５に、要素作業Ｂのラベルが付与されているものとする。第２モデル９０Ｂを、要素作業Ｂに対応する第２モデルとする。この場合、遷移確率学習部１５４は、単位動作ｍ_６，ｍ_９，ｍ_５の並びによって、第２モデル９０Ｂの状態ノード間のエッジの遷移確率を訓練する。

　遷移確率学習部１５４は、教師ありデータテーブル１４３に登録された単位動作の並びと、ラベルの関係を基にして、上記処理を繰り返し実行することで、各要素作業に対応する第２モデルの遷移確率を訓練する。なお、各要素作業の順番は、予め指定されており、指定された情報を基にして、各第２モデルを接続する。要素作業の順番が、要素作業Ａ、Ｂ、Ｃ、Ｄの順番である場合には、要素作業Ａに対応する第２モデル、要素作業Ｂに対応する第２モデル、要素作業Ｃに対応する第２モデル、要素作業Ｄに対応する第２モデルの順に、各第２モデルを接続する。

　また、遷移確率学習部１５４は、教師ありデータテーブル１４３に登録された、複数の単位動作のうち、同一の要素作業のラベルが連続して設定された単位動作の区間を基にして、各要素作業の継続時間を特定する。遷移確率学習部１５４は、特定した各要素作業の継続時間を基にして、継続時間の確率分布を特定し、特定した確率分布を、各要素作業の第２モデルに設定する。

　ところで、遷移確率学習部１５４は、観測確率学習部１５３で算出された各単位動作の観測確率、単位動作（状態ノード）間のエッジの遷移確率、各要素作業に設定される継続時間の確率分布を基にして、図７に示す機械学習モデルを構築してもよい。機械学習モデルは、上記の第１モデルおよび複数の第２モデルに対応する。

　図７は、機械学習モデルの一例を示す図である。図７に示す機械学習モデル４１は、設定した継続時間後に、各要素行動の順番に、各要素行動に対応する第２モデルが遷移するＨＳＭＭ（Hidden　Semi-Markov　Model）である。図７において、Ｏ１、Ｏ２、・・・、Ｏ８は、観測確率学習部１５３で算出される観測確率を表す。また、要素行動ａ１、ａ２、ａ３の各々に含まれる動作ｍ１、ｍ２、及びｍ３間の矢印に対応付けられる遷移確率は、遷移確率学習部１５４で算出される遷移確率に対応する。また、ｄ１、ｄ２、ｄ３は、各要素行動の継続時間を表す。

　図３の説明に戻る。推定部１５５は、推定フェーズにおいて、各区間の作業員の要素作業を推定する。推定部１５５は、抽出部１５２から、時系列の特徴ベクトルを取得する。係る特徴ベクトルは、映像バッファ１４５の作業映像データから抽出された特徴ベクトルである。

　推定部１５５は、時系列の特徴ベクトルを、第１モデルに入力することで、時系列の単位動作の並びを推定する。推定部１５５は、推定した単位行列の並びと、各第２モデル９０Ａ，９０Ｂ（他の要素作業の第２モデル）とを照合し、状態ノードを遷移させ、実際に遷移したエッジの遷移確率や、各種の制約等を基にして、単位動作の並びに対応する要素作業を順に特定する。各種の制約には、作業時間の制約、作業順序の制約等が含まれる。推定部１５５は、要素作業の検出結果を、表示部１３０に表示させる。推定部１５５は、映像バッファ１４５に格納された作業映像データを、表示部１３０に表示させてもよい。

　管理者は、表示部１３０に表示された検出結果と、作業映像データとを確認する。管理者は、検出結果に含まれる各要素作業のうち、要素作業の区間を修正する場合には、入力部１２０を操作して、要素区間を指定し、要素作業の区間を修正する。

　推定部１５５は、要素作業の区間の修正を受け付けた場合には、修正データを生成し、修正データを、修正データテーブル１４４に格納する。推定部１５５は、修正データとして、図４で説明したように、時系列に各要素作業情報を生成する。要素作業情報には、ラベル、特徴情報系列、区間、フラグが設定される。

　推定部１５５は、推定フェーズにおいて、上記処理を繰り返し実行し、複数の修正データを生成し、修正データを、修正データテーブル１４４に登録する。

　判定部１５６は、修正データテーブル１４４に登録された複数の修正データから、同じ要素作業（ラベル）の区間が修正された修正データを取得する。判定部１５６は、同じ要素作業の区間の特徴情報系列の類似度を算出し、類似度の算出結果を基にして、修正された要素作業の区間の特徴情報系列を用いて、機械学習モデルの再学習を行うか否かを判定する。

　判定部１５６の処理を、図２を用いて説明する。修正データ３０ａ，３０ｂ，３０ｃでは、先頭から順に、要素作業Ａ、要素作業Ｂ、要素作業Ｃ、要素作業Ｄが検出されており、要素作業Ｂの区間が管理者によって修正されているものとする。

　判定部１５６は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｂの要素作業Ｂの特徴情報系列とが類似しているか否かを判定する。たとえば、判定部１５６は、各特徴情報系列に関し、ＤＰ（Dynamic　Programming）マッチングを実行して、類似度のスコアを算出する。判定部１５６は、類似度のスコアが閾値以上である場合に、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｂの要素作業Ｂの特徴情報系列とが類似していると判定し、修正データ３０ａの要素作業Ｂに対応する類似数に１を加算する。

　同様に、判定部１５６は、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｃの要素作業Ｂの特徴情報系列とが類似しているか否かを判定する。たとえば、判定部１５６は、各特徴情報系列に関し、ＤＰ（Dynamic　Programming）マッチングを実行して、類似度のスコアを算出する。判定部１５６は、類似度のスコアが閾値以上である場合に、修正データ３０ａの要素作業Ｂの特徴情報系列と、修正データ３０ｃの要素作業Ｂの特徴情報系列とが類似していると判定し、修正データ３０ａの要素作業Ｂに対応する類似数に１を加算する。

　判定部１５６は、修正データ３０ａの要素作業Ｂに対応する類似数が、所定数以上である場合に、修正データ３０ａの要素作業Ｂの特徴情報系列を用いて、機械学習モデルの再学習を行うと判定する。たとえば、判定部１５６は、修正データ３０ａの要素作業Ｂの特徴情報系列を、遷移確率学習部１５４に出力し、再学習依頼を行う。再学習依頼には、該当する要素作業のラベルと、該当する要素作業の特徴情報系列（単位作業の並び）が含まれる。

　遷移確率学習部１５４は、判定部１５６から、再学習依頼を受け付けた場合には、再学習依頼に含まれる要素作業のラベルに対応する第２学習モデルの再学習を、該当する要素作業の特徴情報系列によって再学習する。

　遷移確率学習部１５４は、再学習依頼に、要素作業Ｂのラベルが含まれている場合には、要素作業Ｂに対応する第２モデル９０Ｂを、修正データ３０ａの要素作業Ｂの特徴情報系列によって、再学習することで、第２モデル９０Ｂの遷移確率を更新する。

　次に、本実施例に係る情報処理装置の処理手順の一例について説明する。図８および図９は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。まず、図８について説明する。図８に示すように、情報処理装置１００の取得部１５１は、カメラ１５から、作業映像データを取得する（ステップＳ１０１）。

　情報処理装置１００の抽出部１５２は、作業映像データを基にして、特徴ベクトルを抽出する（ステップＳ１０２）。情報処理装置１００の推定部１５５は、特徴ベクトルと第１モデルとを基にして、単位動作の並びを推定する（ステップＳ１０３）。

　推定部１５５は、単位動作の並びと、各第２モデルとを照合して、要素作業を検出する（ステップＳ１０４）。推定部１５５は、要素作業の検出結果を、表示部１３０に表示させる（ステップＳ１０５）。

　推定部１５５は、検出結果に対する修正を受け付けた場合、修正データを、修正データテーブル１４４に登録する（ステップＳ１０６）。

　続いて、図９について説明する。図９に示すように、情報処理装置１００の判定部１５６は、要素作業の区間が修正された第１の修正データを、修正データテーブル１４４から取得する（ステップＳ２０１）。判定部１５６は、第１の修正データに対する類似数を初期値（たとえば、初期値＝０）に設定する（ステップＳ２０２）。

　判定部１５６は、第１の修正データの修正された要素作業と同じ要素作業が修正された第２の修正データを、修正データテーブル１４４から取得する（ステップＳ２０３）。判定部１５６は、第１の修正データの修正された要素作業の特徴情報系列と、第２の修正データの修正された要素作業の特徴情報系列との類似度のスコアを算出する（ステップＳ２０４）。

　判定部１５６は、類似度のスコアが閾値以上である場合に、第１の修正データに対する類似数に１を加算する（ステップＳ２０５）。判定部１５６は、未取得の第２の修正データが修正データテーブル１４４に存在している場合には（ステップＳ２０６，Ｙｅｓ）、ステップＳ２０３に移行する。一方、判定部１５６は、未取得の第２の修正データが修正データテーブル１４４に存在している場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０７に移行する。

　判定部１５６は、第１の修正データに対する類似数が所定数以上である場合には（ステップＳ２０７，Ｙｅｓ）、ステップＳ２０８に移行する。一方、判定部１５６は、第１の修正データに対する類似数が所定数以上でない場合には（ステップＳ２０７，Ｎｏ）、処理を終了する。

　情報処理装置１００の遷移確率学習部１５４は、第１の修正データの修正された要素Ｓ業の区間の特徴情報系列を用いて、機械学習モデルを再学習する（ステップＳ２０８）。

　次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、複数の修正データの同じ要素作業の特徴情報系列が類似するか否かを判定し、類似すると判定した場合に、修正データの該当する要素作業の特徴情報系列を用いて、機械学習モデルの再学習を実行する。これによって、要素作業の識別精度を向上させることができる。

　図１０は、本実施例に係る情報処理装置と従来装置との比較例を示す図である。たとえば、従来技術では、図１４の修正された検出結果２１ｂ（修正データ）を用いて、機械学習モデルを再学習しており、たとえば、検出結果２１ｂの要素作業Ｂにイレギラーな状況が発生していると、機械学習モデルの検出精度が低下する。たとえば、検出結果２１ｂを用いて再学習した機械学習モデルから出力された検出結果を検出結果６０ａとする。

　一方、本実施例の情報処理装置１００では、修正データの修正された要素作業の特徴情報系列を用いて、修正された要素作業であって、同じ要素作業の特徴情報系列を用いて、要素作業の特徴情報系列が類似しているか否かを判定する。複数の修正データに含まれる修正された同じ要素作業の特徴情報系列が類似していれば、修正された要素作業には、イレギラーな状況が発生していないといえる。たとえば、情報処理装置１００が、図２に示した修正データ３０ａを用いて再学習した機械学習モデルから出力された検出結果を検出結果６０ｂとする。

　たとえば、検出結果の正解を、検出結果６０ｃとする。検出結果６０ａ，６０ｂ，６０ｃをそれぞれ比較すると、検出結果６０ｂは、検出結果６０ａよりも、検出結果６０ｃに近い結果となり、要素作業の識別精度が向上している。

　情報処理装置１００は、修正された要素作業であって、同じ要素作業のラベルが付与された区間となる第１区間と、複数の第２区間について、区間の特徴情報系列が類似するか否かを判定する。これによって、修正された要素作業に、イレギラーな状況が含まれるか否かを特定することができる。

　情報処理装置１００は、第１区間の特徴情報系列と、第２区間の特徴情報系列とを基にして、第１区間と第２区間とが類似するか否かを判定する。そして、情報処理装置１００は、第１区間に類似する第２区間の数が所定数以上である場合に、第１区間の特徴情報系列を用いて、機械学習モデルを再学習する。これによって、イレギラーな状況が含まれていない第１区間の情報によって、機械学習モデルを再学習することができる。

　続いて、情報処理装置１００が実行するその他の処理について説明する。情報処理装置１００は、修正データによって、要素作業に対応する機械学習モデルを再学習していた。ここで、情報処理装置１００は、再学習した機械学習モデルを用いて、作業映像データを再度、複数の区間に分割する場合において、再学習した要素作業の区間と、係る要素作業の前後の要素作業の区間に関してのみ、区間分割を実行してもよい。

　図１１は、情報処理装置が実行するその他の処理を説明するための図である。図１１において、検出結果６５ａは、再学習を実行する前の機械学習モデルによって検出された検出結果である。たとえば、管理者によって、検出結果６５ａの要素作業が修正され、情報処理装置１００は、上記の処理によって、要素作業Ｃの特徴情報系列にイレギラーな状況が含まれないと判定し、要素作業Ｃの特徴情報系列によって、機械学習モデルを再学習する。より具体的には、情報処理装置１００の遷移確率学習部１５４が、要素作業Ｃに対応する第２モデルの遷移確率を、要素作業Ｃの特徴情報系列によって再訓練する。

　情報処理装置１００は、再学習した機械学習モデルによって、作業映像データを再度、複数の区間に分割する場合、修正した要素作業Ｃの区間と、係る要素作業Ｃの前後の要素作業Ｂ、要素作業Ｄの区間について、区間を分割する。たとえば、情報処理装置１００の推定部１５５は、機械学習モデルに含まれる複数の第２モデルのうち、要素作業Ｂ、要素作業Ｃに対応する第２モデルの並びに着目する。推定部１５５は、作業映像データの時系列の特徴ベクトルを第１モデルに入力して、単位作業の並びを推定し、推定した単位作業の並びと、要素作業Ｂ、要素作業Ｃに対応する第２モデルの並びとを照合して、要素区間Ｂ、要素区間Ｃ、要素区間Ｄに分割する。情報処理装置１００は、分割した要素区間Ｂ、要素区間Ｃ、要素区間Ｄを表示部１３０に表示させることで、管理者は、修正結果が適切されているか否かを容易に確認することができる。

　次に、上述した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１２は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図１２に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、カメラ１５、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置２０７は、取得プログラム２０７ａ、抽出プログラム２０７ｂ、観測確率学習プログラム２０７ｃ、遷移確率学習プログラム２０７ｄ、推定プログラム２０７ｅ、判定プログラム２０７ｆを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｆを読み出してＲＡＭ２０６に展開する。

　取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。抽出プログラム２０７ｂは、抽出プロセス２０６ｂとして機能する。観測確率学習プログラム２０７ｃは、観測確率学習プロセス２０６ｃとして機能する。遷移確率学習プログラム２０７ｄは、遷移確率学習プロセス２０６ｄとして機能する。推定プログラム２０７ｅは、推定プロセス２０６ｅとして機能する。判定プログラム２０７ｆは、判定プロセス２０６ｆとして機能する。

　取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。抽出プロセス２０６ｂの処理は、抽出部１５２の処理に対応する。観測確率学習プロセス２０６ｃの処理は、観測確率学習部１５３の処理に対応する。遷移確率学習プロセス２０６ｄの処理は、遷移確率学習部１５４の処理に対応する。推定プロセス２０６ｅの処理は、推定部１５５の処理に対応する。判定プロセス２０６ｆの処理は、判定部１５６の処理に対応する。

　なお、各プログラム２０７ａ～２０７ｆについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｆを読み出して実行するようにしてもよい。

　１００　　情報処理装置
　１１０　　通信部
　１２０　　入力部
　１３０　　表示部
　１４０　　記憶部
　１４１　　モデルテーブル
　１４２　　教師なしデータテーブル
　１４３　　教師ありデータテーブル
　１４４　　修正データテーブル
　１４５　　映像バッファ
　１５０　　制御部
　１５１　　取得部
　１５２　　抽出部
　１５３　　観測確率学習部
　１５４　　遷移確率学習部
　１５５　　推定部
　１５６　　判定部

Claims

　人物の作業を撮影した映像を取得し、
　取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
　生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
　受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
　前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
　処理をコンピュータに実行させることを特徴とする機械学習プログラム。
　前記判定する処理は、同じ作業種別を示すラベルの区間となる第１区間と複数の第２区間について、前記第１区間の特徴量と、前記第２区間とが類似するか否かを判定することを特徴とする請求項１に記載の機械学習プログラム。
　前記再学習を実行する処理は、前記第１区間の特徴量が、所定数以上の前記第２区間と類似する場合に、前記第１区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項２に記載の機械学習プログラム。
　前記機械学習モデルの再学習が実行された場合に、前記第１区間のラベルと、前記第１区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更にコンピュータに実行させることを特徴とする請求項３に記載の機械学習プログラム。
　人物の作業を撮影した映像を取得し、
　取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
　生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
　受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
　前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
　処理をコンピュータが実行することを特徴とする機械学習方法。
　前記判定する処理は、同じ作業種別を示すラベルの区間となる第１区間と複数の第２区間について、前記第１区間の特徴量と、前記第２区間とが類似するか否かを判定することを特徴とする請求項５に記載の機械学習方法。
　前記再学習を実行する処理は、前記第１区間の特徴量が、所定数以上の前記第２区間と類似する場合に、前記第１区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項６に記載の機械学習方法。
　前記機械学習モデルの再学習が実行された場合に、前記第１区間のラベルと、前記第１区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更にコンピュータが実行することを特徴とする請求項７に記載の機械学習方法。
　人物の作業を撮影した映像を取得し、
　取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
　生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
　受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
　前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
　処理を実行する制御部を有する情報処理装置。
　前記判定する処理は、同じ作業種別を示すラベルの区間となる第１区間と複数の第２区間について、前記第１区間の特徴量と、前記第２区間とが類似するか否かを判定することを特徴とする請求項９に記載の情報処理装置。
　前記再学習を実行する処理は、前記第１区間の特徴量が、所定数以上の前記第２区間と類似する場合に、前記第１区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項１０に記載の情報処理装置。
　前記制御部は、前記機械学習モデルの再学習が実行された場合に、前記第１区間のラベルと、前記第１区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更に実行することを特徴とする請求項１１に記載の情報処理装置。