WO2023105787A1

WO2023105787A1 - 行動区間評価プログラム、装置、及び方法

Info

Publication number: WO2023105787A1
Application number: PCT/JP2021/045650
Authority: WO
Inventors: 純也藤本
Original assignee: 富士通株式会社
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-06-15
Also published as: JPWO2023105787A1

Abstract

行動区間評価装置は、人の行動を撮影した映像から抽出された時系列の特徴量と、行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、要素行動区間の分節の推定結果における境界ｊに対応する時刻Ｔｊを基準に、境界ｊを各時刻にずらした場合の、境界ｊの前後の要素行動区間の特徴量の、その要素行動区間の確率モデルへの適合度の時刻に対する関数Ｅｊ（ｔ）を算出し、境界ｊに対応する時刻ｔを基準の時刻Ｔｊに対して変更した場合に、Ｅｊ（ｔ）が所定範囲内となる時間幅｜｜ｔ－Ｔｊ｜｜の最大値が大きいほど、要素行動区間の分節の推定結果の信頼度が低いと評価する。

Description

行動区間評価プログラム、装置、及び方法

　開示の技術は、行動区間評価プログラム、行動区間評価装置、及び行動区間評価方法に関する。

　ディープラーニング技術の発展により、通常のＲＧＢカメラで撮影した映像から人の姿勢等を高精度に認識できるようになり、この認識情報を利用して、特定の作業などの人の行動の推定に関する様々な研究開発が行われている。

　例えば、作業情報に基づいて、作業者の作業を推定し、推定した作業の確からしさを示す信頼度を求める作業分析システムが提案されている。このシステムは、時刻情報に基づいて、推定した作業毎に、作業の開始時刻及び終了時刻を求める。また、このシステムは、推定した作業の開始時刻及び終了時刻で、取得した作業動画を区切り、推定した作業の開始時刻から終了時刻までの区間動画と、推定した作業と、上記作業についての信頼度とを紐付ける。

　また、例えば、撮像部の撮像範囲内にて単位作業毎に、単位作業の開始動作を検出するための第１の監視領域と単位作業の完了動作を検出するための第２の監視領域とが設定される作業分析装置が提案されている。この装置は、監視領域において単位作業に関する動作がなされていると判定される可能性が高くなるほど高くなるような信頼度が監視領域毎に設定される。

特開２０２０－９１８０１号公報特開２０２０－１６６４７１号公報

　人の映像から抽出した人の姿勢等の時系列の特徴量に基づいて、映像において、指定した行動が発生した時間区間を推定し、その時間区間を、指定した行動に含まれる要素行動の時間区間でさらに分節することを考える。この場合において、要素行動間の境界が実際の境界とずれていても、要素行動の分節の信頼度が高く評価されてしまう場合がある。

　一つの側面として、開示の技術は、人の映像において、指定した行動の分節の信頼度を精度良く評価することを目的とする。

　一つの態様として、開示の技術は、人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得する。また、開示の技術は、隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出する。そして、開示の技術は、前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する。

　一つの側面として、人の映像において、指定した行動の分節の信頼度を精度良く評価することができる、という効果を有する。

本実施形態の比較例を説明するための図である。本実施形態の他の比較例を説明するための図である。本実施形態の他の比較例を説明するための図である。比較例の問題点を説明するための図である。行動区間評価装置の機能ブロック図である。推定モデルの一例である隠れセミマルコフモデルの概念図である。第１隠れマルコフモデルの状態を例示する概念図である。境界をずらした場合の境界前後の要素行動区間の特徴量の確率モデルに対する適合度の変化を説明するための図である。境界ｊの時刻ｔと適合度Ｅ_ｊ（ｔ）との関係の一例を示すグラフである。境界ｊの時刻ｔと適合度Ｅ_ｊ（ｔ）との関係の一例を示すグラフである。時間幅の最大値を説明するための図である。行動区間評価装置として機能するコンピュータの概略構成を示すブロック図である。機械学習処理の一例を示すフローチャートである。分節処理の一例を示すフローチャートである。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

　本実施形態に係る行動区間評価装置は、人の映像から抽出された人の動作に関する時系列の特徴量に基づいて、映像から検出された、対象の行動が発生した時間区間（以下、「行動区間」という）を要素行動毎に分節する。すなわち、行動区間評価装置は、行動区間内の要素行動の時間区間（以下、「要素行動区間」という）の分節を推定する。本実施形態では、例えば、人が製品を製造する行動を対象の行動とし、製造の各工程を実施する際の人の動作の組み合わせを要素行動とする。すなわち、決まった順序で複数の工程を含む工場での作業のような、発生する順序に制約がある複数の要素行動を含む行動を対象の行動とする。さらに、行動区間評価装置は、推定した要素行動区間の分節の信頼度を評価する。

　ここで、本実施形態の比較例として、手作業による映像の区間分節により、映像から要素行動区間を特定する方法が考えられる。この比較例は、例えば、図１の左図に示すように、一連の作業の様子をカメラで撮影した映像を取得し、図１の右図に示すように、取得された映像を目視することで、手作業で各要素行動区間に分節する方法である。図１の例では、「部品Ａはめ込み」、「部品Ａねじ止め」、及び「カバー取付」がそれぞれ要素行動の一例である。このように、取得した映像毎に手作業で要素行動区間に分節する場合は、時間及び労力がかかる。

　また、本実施形態の他の比較例として、図２の上図に示すように、１回分の映像に対して、手作業で要素行動区間を分節し、この分節結果を教師情報として、図２の下図に示すように、他の映像については、自動的に要素行動区間を分節することも考えられる。この場合、全ての映像に対して、手作業で要素行動区間を分節する場合に比べ、時間及び労力を省くことができる。

　図２の例のように、教師情報を用いて自動で要素行動区間を分節する場合、教師情報が示す人の動作と、対象の映像に現れる人の動作とが適合しない場合でも、教師情報と同様の全ての要素行動区間の境界が出力される。教師情報と適合しない時間帯の要素行動区間の境界は間違っている可能性が高くなるが、どの要素行動が教師情報と適合していない要素行動かは、要素行動区間の分節の推定結果だけでは分からない。そのため、分節結果の信頼度を評価して、推定された要素行動区間の分節結果とは別に出力することが望ましい。この信頼度については、要素行動区間の分節の推定結果の正しさとは必ずしも一致しない場合があるという性質がある。例えば、教師情報と適合しない時間帯についても前後関係から正しく分節できる場合もある。この場合、分節の推定結果の確からしさは高いが、教師情報と適合していて境界がはっきりしている場合とは異なり、その信頼性は低い。

　また、本実施形態の他の比較例として、推定した要素行動区間の観測情報に対して、推定された要素行動の確率モデルによる尤度（観測確率）の、他の要素行動の確率モデルによる尤度に対する比で表される相対適合度を信頼度として用いることが考えられる。相対適合度が大きいほど、推定結果が正しい傾向にあると考えられる。例えば、要素行動ｊの要素行動区間ｊ内の観測情報Ｘについて、各要素行動の確率モデルＭ_ｉにより出力される尤度Ｐ（Ｘ｜Ｍ_ｉ）を算出し、要素行動ｊの信頼度Ｃ_ｊを下記（１）式により算出することが考えられる。なお、観測情報は、映像、又は映像から抽出される人の姿勢情報等の特徴量である。
　　Ｃ_ｊ＝Ｐ（Ｘ｜Ｍ_ｊ）／Σ_ｉＰ（Ｘ｜Ｍ_ｉ）　　　・・・（１）

　例えば、比較例は、図３に示すように、行動区間に含まれる時系列の特徴量（ｘ_１、ｘ_２、・・・、ｘ_１０）を、各要素行動区間の継続時間をモデル化した推定モデルに基づいて分節することにより、要素行動区間を推定する。図３では、特徴量ｘ_１～ｘ_３の区間が要素行動Ａに対応する要素行動区間、特徴量ｘ_４～ｘ_８の区間が要素行動Ｂに対応する要素行動区間、特徴量ｘ_９～ｘ_１０の区間が要素行動Ｃに対応する要素行動区間として推定された例を示している。そして、比較例は、要素行動区間毎に、その要素行動区間に振り分けられる特徴量について、全ての要素行動区間の各々の確率モデルによる尤度を算出し、上記（１）式により、相対適合度を算出する。

　しかし、図３に示す比較例の場合では、要素行動区間の境界がずれているにもかかわらず、信頼度が高く算出されてしまう場合がある。具体的には、図４に示すように、観測情報において、要素行動１の確率モデルとの適合度が高い時間帯と、要素行動２の確率モデルとの適合度が高い時間帯とが間をあけて発生しているとする。この場合において、要素行動区間１と要素行動区間２との正解の境界と、推定結果における境界とにずれが生じていたとしても、各要素行動区間内に各要素行動の確率モデルとの適合度が高い時間帯が含まれるため、各要素行動区間の相対適合度は高くなる。したがって、図４の例のように、相対適合度を信頼度として用いた場合には、要素行動区間の分節の推定結果の信頼性は低いと評価したいにもかかわらず、信頼性は高いと評価されてしまう。

　本実施形態では、要素行動区間の境界の部分的なずれに対応可能な方法を提案する。以下、本実施形態に係る行動区間評価装置の詳細について説明する。

　行動区間評価装置１０は、機能的には、図５に示すように、抽出部１１と、機械学習部２０と、分節部３０とを含む。機械学習部２０は、さらに、観測確率学習部２１と、遷移確率学習部２２と、構築部２３とを含む。分節部３０は、さらに、推定部３１と、算出部３２と、評価部３３とを含む。また、行動区間評価装置１０の所定の記憶領域には、推定モデル４１が記憶される。

　抽出部１１は、機械学習時において、学習用映像を取得する。学習用映像は、人の行動を撮影した映像であって、対象の行動の時間区間を示す行動区間、及び対象の行動に含まれる要素行動の各々の時間区間を示す要素行動区間の区切りを示す教師情報が付与された映像である。抽出部１１は、学習用映像の行動区間の映像から人の動作に関する特徴量を算出し、時系列の特徴量を抽出する。また、抽出部１１は、分節時において、分節用映像を取得する。分節用映像は、人の行動を撮影した映像であって、対象の行動区間における要素行動区間の区切りが未知の映像である。なお、本実施形態では、分節用映像自体が行動区間の時間区間であるか、又は、分節用映像に行動区間の開始時刻及び終了時刻が付与されるなどして、分節用映像における行動区間は既知であるものとする。抽出部１１は、分節用映像の行動区間からも同様に時系列の特徴量を抽出する。

　抽出部１１による映像からの時系列の特徴量の抽出方法の一例について具体的に説明する。抽出部１１は、映像（学習用映像又は分節用映像）を構成する各フレームから人物検出技術を適用して人の領域（例えば、バウンディングボックス）を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部１１は、１つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部１１は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部１１は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。

　また、抽出部１１は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、例えば、肘、膝等であってよい。また、抽出部１１は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを算出する。

　抽出部１１は、機械学習時においては、抽出した時系列の特徴量と、学習用映像が持つ行動区間及び要素行動区間の区切りを示す教師情報とを教師ありデータとして機械学習部２０へ受け渡し、分節時においては、抽出した時系列の特徴量を分節部３０へ受け渡す。

　機械学習部２０は、抽出部１１から受け渡された教師ありデータを用いて機械学習を実行することにより、推定モデル４１を生成する。

　本実施形態では、対象の行動区間における要素行動区間の分節を推定する推定モデル４１の一例として、図６に示すような隠れセミマルコフモデル（以下、「ＨＳＭＭ（Hidden semi-Markov model）」という）を構築する。ＨＳＭＭは、隠れマルコフモデル（以下、「ＨＭＭ（Hidden Markov model）」という）のパラメータに加え、状態毎の継続時間の確率分布をパラメータとして持つ。

　本実施形態のＨＳＭＭは、人の動作の各々を状態とする複数の第１ＨＭＭと、要素行動を状態とする第２ＨＭＭとを含む。図６において、ｍ１、ｍ２、ｍ３は各動作に対応した状態であり、ａ１、ａ２、ａ３は各要素行動に対応した状態である。要素行動は、複数の動作の組み合わせであり、動作は、複数の姿勢の組み合わせである。パラメータを設定することで構築されたＨＳＭＭに、映像から抽出された人の動作に関する時系列の特徴量が与えられると、ＨＳＭＭは最適な要素行動区間の分節を推定する。図６において、ｄ１、ｄ２、ｄ３は要素行動区間の一例である。

　ＨＭＭのパラメータには、観測確率及び遷移確率が存在する。図６において、Ｏ１、Ｏ２、・・・、Ｏ８は観測確率の一例であり、遷移確率は状態間をつなぐ矢印に対応付けられている。観測確率とは、各状態において、ある観測情報が観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数及び要素行動の数、すなわち、第１ＨＭＭ及び第２ＨＭＭの数は例示であり、図６に例示される数に限定されない。以下、機械学習部２０に含まれる観測確率学習部２１、遷移確率学習部２２、及び構築部２３の各々について詳述する。

　観測確率学習部２１は、以下に説明するように、教師ありデータから教師情報を除いた時系列の特徴量（以下、「教師なしデータ」ともいう）で推定モデル４１の一例であるＨＳＭＭを構成する各動作の観測確率を学習する。

　本実施形態では、ある作業目標を達成するための限定された行動を対象の行動とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
　性質１：行動を構成する各要素行動の違いは、限定された複数の動作の組み合わせの違いである。
　性質２：同じ行動を行う際に観測される複数の姿勢は類似している。

　本実施形態では、性質１に基づいて、全ての要素行動が１つの動作群に含まれる動作で構成される。例えば、図７に示すように、動作群には、３つの動作ｍ１１、ｍ１２、ｍ１３が含まれる。例えば、動作ｍ１１は「腕を上げる」、動作ｍ１２は「腕を降ろす」、動作ｍ１３は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図７の例に限定されない。また、各要素行動に含まれる動作の数も図７の例に限定されない。

　例えば、観測確率学習部２１は、混合ガウス分布モデル（以下、「ＧＭＭ（Gaussian Mixture Model）」という）を用いて各動作の観測確率を算出する。具体的には、観測確率学習部２１は、抽出部１１から受け渡された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたＧＭＭのパラメータを推定する。そして、観測確率学習部２１は、パラメータが推定されたＧＭＭを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。

　遷移確率学習部２２は、以下に説明するように、教師ありデータに基づいて、第１ＨＭＭで表される動作間の遷移確率を算出する。具体的には、遷移確率学習部２２は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を要素行動区間毎に振り分ける。そして、遷移確率学習部２２は、各要素行動区間に振り分けられた時系列の特徴量を観測情報とし、観測確率学習部２１で算出された各動作の観測確率を固定し、例えば、最尤推定やＥＭアルゴリズム（Expectation-Maximization algorithm）等を使用して、動作間の遷移確率を算出する。

　なお、教師ありデータの作成には時間及び労力がかかるため、遷移確率学習部２２は、種となる教師ありデータにノイズを付加する等して教師ありデータを水増ししてもよい。

　構築部２３は、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。例えば、構築部２３は、教師情報で与えられた各要素行動区間の継続時間に対して所定の範囲の一様分布を、要素行動の継続時間の確率分布として設定する。

　構築部２３は、観測確率学習部２１で算出された各動作の観測確率、遷移確率学習部２２で算出された動作間の遷移確率、及び設定した各要素行動の継続時間を使用して、例えば図６に示すようなＨＳＭＭを推定モデル４１として構築する。推定モデル４１は、設定した継続時間後に教師情報で与えられた各要素行動の順番に、各要素行動に対応する第２ＨＭＭが遷移するＨＳＭＭである。図６において、Ｏ１、Ｏ２、・・・、Ｏ８は、観測確率学習部２１で算出される観測確率を表す。また、要素行動ａ１、ａ２、ａ３の各々に含まれる動作ｍ１、ｍ２、及びｍ３間の矢印に対応付けられる遷移確率は、遷移確率学習部２２で算出される遷移確率に対応する。また、ｄ１、ｄ２、ｄ３は、各要素行動の継続時間を表す。構築部２３は、構築した推定モデル４１を所定の記憶領域に記憶する。

　分節部３０は、抽出部１１から受け渡された時系列の特徴量に基づいて、分節用映像の対象の行動区間における要素行動区間の分節を推定すると共に、要素行動区間の分節の推定結果を評価する。以下、分節部３０に含まれる推定部３１、算出部３２、及び評価部３３の各々について詳述する。

　推定部３１は、分節用映像の行動区間に対応する時系列の特徴量を推定モデル４１に入力することにより、行動区間における要素行動区間の分節を推定する。推定部３１は、要素行動区間の分節の推定結果を算出部３２へ受け渡す。

　算出部３２は、隣接する要素行動区間の境界を変更した場合における、境界の前及び後の要素行動区間の各々に対応する時系列の特徴量の、該当の要素行動に対応する確率モデルである第２ＨＭＭに対する適合度を算出する。

　具体的には、算出部３２は、要素行動区間の分節の推定結果における要素行動の境界ｊを基準とし、境界ｊに対応する時刻をずらしながら、以下に示すように適合度を算出する。算出部３２は、境界ｊの前及び後の２つの要素行動区間を合わせた区間の観測情報である時系列の特徴量｛Ｘ_ｊ，Ｘ_ｊ＋１｝について、適合度Ｐ（Ｘ_ｊ，Ｘ_ｊ＋１｜Ｍ_ｊ，Ｍ_ｊ＋１）を算出する。Ｐ（Ｘ_ｊ，Ｘ_ｊ＋１｜Ｍ_ｊ，Ｍ_ｊ＋１）＝Ｐ（Ｘ_ｊ｜Ｍ_ｊ）Ｐ（Ｘ_ｊ＋１｜Ｍ_ｊ＋１）であり、Ｍ_ｊ及びＭ_ｊ＋１は境界ｊの前及び後の要素行動の確率モデル（第２ＨＭＭ）である。算出部３２は、Ｐ（Ｘ_ｊ，Ｘ_ｊ＋１｜Ｍ_ｊ，Ｍ_ｊ＋１）を、境界ｊに対応する時刻ｔの関数Ｅ_ｊ（ｔ）で表す。

　例えば、図８に示すように、時刻ｔの特徴量をｘ_ｔ（図８の例では、ｔ＝１，２，・・・，８）とする。また、推定結果における境界ｊに対応する時刻Ｔ_ｊがｔの場合、ｘ_ｔまでの特徴量をｊ番目の要素行動の観測情報とする。Ｔ_ｊ＝４の場合、算出部３２は、特徴量ｘ_１～ｘ_４を確率モデルＭ_ｊに入力してＰ（Ｘ_ｊ｜Ｍ_ｊ）を算出し、特徴量ｘ_５～ｘ_８を確率モデルＭ_ｊ＋１に入力してＰ（Ｘ_ｊ＋１｜Ｍ_ｊ＋１）を算出する。そして、算出部３２は、Ｐ（Ｘ_ｊ｜Ｍ_ｊ）及びＰ（Ｘ_ｊ＋１｜Ｍ_ｊ＋１）からＥ_ｊ（Ｔ_ｊ）を算出する。同様に、算出部３２は、境界ｊを各時刻にずらした場合のＥ_ｊ（ｔ）を算出する。図８左図の中段の図は、境界ｊを時刻Ｔ_ｊの１時刻前の時刻Ｔ_ｊ－１とした場合の例であり、この場合の適合度はＥ_ｊ（Ｔ_ｊ－１）である。また、図８左図の下段の図は、境界ｊを時刻Ｔ_ｊの１時刻後の時刻Ｔ_ｊ＋１とした場合の例であり、この場合の適合度はＥ_ｊ（Ｔ_ｊ＋１）である。算出部３２は、算出した適合度の関数Ｅ_ｊ（ｔ）を評価部３３へ受け渡す。

　ここで、要素行動区間の分節の推定結果における境界に対応する時刻Ｔ_ｊでＥ_ｊ（ｔ）が最大となるように要素行動区間の分節は推定されているはずである。そのため、図８右図に示すように、境界ｊに対応する時刻をずらした場合には、Ｅ_ｊ（ｔ）は減少し、ずらす時間幅が大きくなるほど、Ｅ_ｊ（ｔ）の減少も大きくなるはずである。境界ｊに対応する時刻が特徴量から明らかな場合、すなわち、他の境界の可能性がほとんど考えられない場合、図９に示すように、境界ｊに対応する時刻をＴ_ｊから変化させた場合に、Ｅ_ｊ（ｔ）は急激に低下していく。一方、境界が曖昧な場合は、図１０に示すように、境界ｊに対応する時刻をＴ_ｊから変化させても、Ｅ_ｊ（ｔ）はすぐに大きく低下せず、ある程度高い値が続く。すなわち、Ｅ_ｊ（ｔ）の値が高い状態で続く場合には、要素行動区間の分節の推定結果の信頼度が低いといえる。

　そこで、評価部３３は、境界の変更の度合いに応じた適合度の変化に基づいて、要素行動区間の分節の推定結果の信頼度を評価する。具体的には、評価部３３は、推定結果が示す境界ｊに対応する時刻Ｔ_ｊを基準として境界を変更した場合に、適合度の変化が所定範囲内となる時間幅の最大値が大きいほど低くなる評価値を算出する。

　より具体的には、評価部３３は、推定結果が示す境界ｊに対応する時刻Ｔ_ｊの場合の適合度の対数ｌｏｇ（Ｅ_ｊ（Ｔ_ｊ））を基準に、境界ｊを変更した場合の適合度の対数が一定範囲となる最大時間を算出する。例えば、評価部３３は、図１１に示すように、ｌｏｇ（Ｅ_ｊ（ｔ））＞ｌｏｇ（Ｅ_ｊ（Ｔ_ｊ））－Ｃ（Ｃは実験的に決める定数）を満たす範囲で｜｜ｔ－Ｔ_ｊ｜｜の最大値をΔｔ_ｊ、そのときのｔをＴ_ｊ’とする。

　また、評価部３３は、Δｔ_ｊが要素行動区間ｊの長さに対して大きいほど信頼度が低くなるように、境界ｊに注目したときの要素行動区間ｊの信頼度を算出する。例えば、評価部３３は、要素行動区間ｊの推定された時間区間の長さＬ_ｊを、Ｌ_ｊ＝Ｔ_ｊ－Ｔ_ｊ－１とする。そして、評価部３３は、境界ｊに対応する時刻がＴ_ｊからＴ_ｊ’に変更された場合に要素行動区間ｊの長さが長くなる場合、すなわち、Ｔ_ｊ≦Ｔ_ｊ’の場合、信頼度を、Ｌ_ｊ／（Ｌ_ｊ＋Δｔ_ｊ）として算出する。一方、評価部３３は、境界ｊに対応する時刻がＴ_ｊからＴ_ｊ’に変更された場合に要素行動区間ｊの長さが短くなる場合、すなわち、Ｔ_ｊ＞Ｔ_ｊ’の場合、信頼度を、（Ｌ_ｊ－Δｔ_ｊ）／Ｌ_ｊとして算出する。

　１つの要素行動区間に注目すると、区間の開始と終了との２つの境界について、それぞれ信頼度が算出される。評価部３３は、２つの信頼度を統合して、該当の要素行動区間の最終的な信頼度を算出する。２つの信頼度の統合方法は、２つの信頼度のうち最小値を選択してもよいし、２つの信頼度の平均としてもよい。なお、行動区間の最初の要素行動区間については、それより前の要素行動区間がないため、評価部３３は、区間の終了の境界について算出された信頼度を採用する。また、行動区間の最後の要素行動区間については、それより後の要素行動区間がないため、評価部３３は、区間の開始の境界について算出された信頼度を採用する。評価部３３は、要素行動区間の分節の推定結果に、算出した要素行動区間毎の信頼度を付与して、評価付き推定結果として出力する。

　行動区間評価装置１０は、例えば図１２に示すコンピュータ５０で実現されてよい。コンピュータ５０は、ＣＰＵ（Central Processing Unit）５１と、一時記憶領域としてのメモリ５２と、不揮発性の記憶部５３とを備える。また、コンピュータ５０は、入力部、表示部等の入出力装置５４と、記憶媒体５９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部５５とを備える。また、コンピュータ５０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力装置５４、Ｒ／Ｗ部５５、及び通信Ｉ／Ｆ５６は、バス５７を介して互いに接続される。

　記憶部５３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部５３には、コンピュータ５０を、行動区間評価装置１０として機能させるための行動区間評価プログラム６０が記憶される。行動区間評価プログラム６０は、抽出プロセス６１と、機械学習プロセス７０と、分節プロセス８０とを有する。また、記憶部５３は、推定モデル４１を構成する情報が記憶される情報記憶領域９０を有する。

　ＣＰＵ５１は、行動区間評価プログラム６０を記憶部５３から読み出してメモリ５２に展開し、行動区間評価プログラム６０が有するプロセスを順次実行する。ＣＰＵ５１は、抽出プロセス６１を実行することで、図５に示す抽出部１１として動作する。また、ＣＰＵ５１は、機械学習プロセス７０を実行することで、図５に示す機械学習部２０として動作する。また、ＣＰＵ５１は、分節プロセス８０を実行することで、図５に示す分節部３０として動作する。また、ＣＰＵ５１は、情報記憶領域９０から情報を読み出して、推定モデル４１をメモリ５２に展開する。これにより、行動区間評価プログラム６０を実行したコンピュータ５０が、行動区間評価装置１０として機能することになる。なお、プログラムを実行するＣＰＵ５１はハードウェアである。

　なお、行動区間評価プログラム６０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

　次に、本実施形態に係る行動区間評価装置１０の作用について説明する。行動区間評価装置１０に学習用映像が入力され、推定モデル４１の機械学習の実行が指示されると、行動区間評価装置１０において、図１３に示す機械学習処理が実行される。また、行動区間評価装置１０に分節用映像が入力され、対象の行動区間の分節の実行が指示されると、行動区間評価装置１０において、図１４に示す分節処理が実行される。なお、機械学習処理及び分節処理は、開示の技術の行動区間評価方法の一例である。

　まず、図１３に示す機械学習処理について説明する。

　ステップＳ１１で、抽出部１１が、行動区間評価装置１０に入力された学習用映像を取得し、学習用映像の行動区間の映像から人の動作に関する時系列の特徴量を抽出する。

　次に、ステップＳ１２で、観測確率学習部２１が、上記ステップＳ１１で抽出された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたＧＭＭのパラメータを推定する。そして、観測確率学習部２１が、パラメータが推定されたＧＭＭを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。

　次に、ステップＳ１３で、遷移確率学習部２２が、上記ステップＳ１１で抽出された時系列の特徴量を、教師ありデータが持つ教師情報が示す要素行動区間毎に振り分ける。次に、ステップＳ１４で、遷移確率学習部２２が、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、上記ステップＳ１２で算出された各動作の観測確率を固定し、動作間の遷移確率を算出する。

　次に、ステップＳ１５で、構築部２３が、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。次に、ステップＳ１６で、構築部２３が、上記ステップＳ１２で算出された各動作の観測確率、上記ステップＳ１４で算出された動作間の遷移確率、及び上記ステップＳ１５で設定した各要素行動の継続時間を使用しＨＳＭＭを、推定モデル４１として構築する。そして、構築部２３が、構築した推定モデル４１を所定の記憶領域に記憶し、機械学習処理は終了する。

　次に、図１４に示す分節処理について説明する。

　ステップＳ２１で、抽出部１１が、行動区間評価装置１０に入力された分節用映像を取得し、分節用映像の行動区間から人の動作に関する時系列の特徴量を抽出する。次に、ステップＳ２２で、推定部３１が、分節用映像の行動区間に対応する時系列の特徴量を推定モデル４１に入力することにより、行動区間における要素行動区間の分節を推定する。

　次に、ステップＳ２３で、算出部３２が、行動区間に含まれる要素行動区間ｊ毎に、境界ｊを取り出す。そして、算出部３２が、境界ｊの前及び後の２つの要素行動区間を合わせた区間の特徴量｛Ｘ_ｊ，Ｘ_ｊ＋１｝について、２つの要素行動の確率モデルＭ_ｊ及びＭ_ｊ＋１に対する適合度を、境界ｊを各時刻にずらした場合の関数Ｅ_ｊ（ｔ）として算出する。

　次に、ステップＳ２４で、評価部３３が、推定結果が示す境界ｊに対応する時刻Ｔ_ｊの場合の適合度の対数ｌｏｇ（Ｅ_ｊ（Ｔ_ｊ））を基準に、境界ｊを変更した場合の適合度の対数が所定範囲となる最大時間Δｔ_ｊを算出する。次に、ステップＳ２５で、評価部３３が、最大時間Δｔ_ｊが要素行動区間ｊの長さに対して大きいほど信頼度が低くなるように、要素行動区間ｊの信頼度を算出する。上記ステップＳ２３～Ｓ２５は、行動区間に含まれる全ての境界について実行される。

　次に、ステップＳ２６で、評価部３３が、要素行動区間の開始と終了との２つの境界について算出された２つの信頼度を統合して、各要素行動区間についての最終的な信頼度を算出する。次に、ステップＳ２７で、評価部３３が、要素行動区間の分節の推定結果に、算出した要素行動区間毎の信頼度を付与して、評価付き推定結果として出力し、分節処理は終了する。

　以上説明したように、本実施形態に係る行動区間評価装置は、人の行動を撮影した映像から抽出された時系列の特徴量と、行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づいて、要素行動区間の分節を推定する。また、行動区間評価装置は、隣接する要素行動区間の境界を変更した場合における、境界の前及び後の要素行動区間の各々に対応する時系列の特徴量の、その要素行動に対応する確率モデルに対する適合度を算出する。そして、行動区間評価装置は、境界の変更の度合いに応じた適合度の変化に基づいて、要素行動区間の分節の推定結果を評価する。これにより、人の映像において、指定した行動の分節の信頼度を精度良く評価することができる。すなわち、本実施形態に係る行動区間評価装置は、コンピュータの機能を改善するものである。

　なお、上記実施形態では、推定モデルがＨＳＭＭである場合について説明したが、これに限定されず、ニューラルネットワークを利用したモデルなど、他の機械学習モデルを適用してもよい。

　また、上記実施形態において、境界の変更の度合いに応じた適合度の変化に基づく評価値に加え、図３で説明した比較例の相対適合度から算出される信頼度も考慮し、それらの最小値をとるなどして、最終的な信頼度を算出してもよい。

　また、上記実施形態では、行動区間評価装置において、分節用映像の行動区間における要素行動区間の分節の推定を行う場合について説明したが、分節用映像の代わりに、要素行動区間の分節の推定結果を取得するようにしてもよい。この場合、分節部３０は、要素行動区間の分節の推定結果を取得する取得部を備えると共に、推定部３１を省略してよい。

　また、上記実施形態では、機械学習部と分節部とを含む行動区間評価装置を１つのコンピュータで実現する場合について説明したが、それぞれ別のコンピュータで実現するようにしてもよい。

　また、上記実施形態では、行動区間評価プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

１０   行動区間評価装置
１１   抽出部
２０   機械学習部
２１   観測確率学習部
２２   遷移確率学習部
２３   構築部
３０   分節部
３１   推定部
３２   算出部
３３   評価部
４１   推定モデル
５０   コンピュータ
５１   ＣＰＵ
５２   メモリ
５３   記憶部
５４   入出力装置
５５   Ｒ／Ｗ部
５６   通信Ｉ／Ｆ
５７   バス
５９   記憶媒体
６０   行動区間評価プログラム
６１   抽出プロセス
７０   機械学習プロセス
８０   分節プロセス
９０   情報記憶領域

Claims

　人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
　隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
　前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
　ことを含む処理をコンピュータに実行させるための行動区間評価プログラム。
　前記推定結果を評価する処理は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項１に記載の行動区間評価プログラム。
　前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項２に記載の行動区間評価プログラム。
　前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出することを含む請求項３に記載の行動区間評価プログラム。
　前記人の行動を撮影した映像から前記時系列の特徴量を抽出し、
　抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する
　ことをさらに含む処理を前記コンピュータに実行させるための請求項１～請求項４のいずれか１項に記載の行動区間評価プログラム。
　前記推定モデルを、要素行動区間の分節が既知の行動区間の映像から抽出された時系列の特徴量を教師情報として機械学習を実行することにより生成することをさらに含む処理を前記コンピュータに実行させるための請求項１～請求項５のいずれか１項に記載の行動区間評価プログラム。
　前記行動は、人が製品を製造する行動であり、
　前記要素行動は、前記製造の各工程を実施する際の前記人の動作の組み合わせである
　請求項１～請求項６のいずれか１項に記載の行動区間評価プログラム。
　人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得する取得部と、
　隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出する算出部と、
　前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する評価部と、
　を含む行動区間評価装置。
　前記評価部は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価する請求項８に記載の行動区間評価装置。
　前記評価部は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価する請求項９に記載の行動区間評価装置。
　前記評価部は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出する請求項１０に記載の行動区間評価装置。
　前記人の行動を撮影した映像から前記時系列の特徴量を抽出する抽出部と、
　抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する推定部と、
　をさらに含む請求項８～請求項１１のいずれか１項に記載の行動区間評価装置。
　前記推定モデルを、要素行動区間の分節が既知の行動区間の映像から抽出された時系列の特徴量を教師情報として機械学習を実行することにより生成する機械学習部をさらに含む請求項８～請求項１２のいずれか１項に記載の行動区間評価装置。
　前記行動は、人が製品を製造する行動であり、
　前記要素行動は、前記製造の各工程を実施する際の前記人の動作の組み合わせである
　請求項８～請求項１３のいずれか１項に記載の行動区間評価装置。
　人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
　隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
　前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
　ことを含む処理をコンピュータが実行する行動区間評価方法。
　前記推定結果を評価する処理は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項１５に記載の行動区間評価方法。
　前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項１６に記載の行動区間評価方法。
　前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出することを含む請求項１７に記載の行動区間評価方法。
　前記人の行動を撮影した映像から前記時系列の特徴量を抽出し、
　抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する
　ことをさらに含む処理を前記コンピュータが実行する請求項１５～請求項１８のいずれか１項に記載の行動区間評価方法。
　人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
　隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
　前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
　ことを含む処理をコンピュータに実行させるための行動区間評価プログラムを記憶した非一時的記憶媒体。