WO2022162782A1

WO2022162782A1 - 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

Info

Publication number: WO2022162782A1
Application number: PCT/JP2021/002817
Authority: WO
Inventors: 純也藤本; 收文中山
Original assignee: 富士通株式会社
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-08-04
Also published as: US20230343142A1; EP4287078A4; EP4287078A1; JPWO2022162782A1

Abstract

隠れセミマルコフモデルにおいて、複数の第１隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含み、複数の第２隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、第１隠れマルコフモデルの動作の遷移確率を第２教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータに教師情報を付加することで水増しをする。

Description

行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

　本開示は、行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラムに関する。

　ディープラーニング技術の発展により通常のＲＧＢカメラで撮影した人の映像から姿勢を高精度に認識できるようになり、この認識情報を利用して人の行動を推定する様々な研究開発が行われている。当該状況下において、人の映像から検出した姿勢の時系列データから指定した行動が発生した時間区間を推定する取り組みが行われている。

山本龍一、酒向慎司、北村正、「隠れセミマルコフモデルと線形動的システムを組み合わせた音楽音響信号と楽譜の実時間アライメント手法」、研究報告音楽情報科学（ＭＵＳ）、２０１２年Ｓｈｕｎ－ＺｈｅｎｇＹｕ、「Ｈｉｄｄｅｎ　ｓｅｍｉ－Ｍａｒｋｏｖ　ｍｏｄｅｌｓ」、Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ、Ｖｏｌｕｍｅ　１７４、Ｉｓｓｕｅ　２、２０１０年２月、２１５～２４３頁若林啓、三浦孝夫、「階層型隠れマルコフモデルの高速パラメータ推定」、電子情報通信学会論文誌、２０１１年 "映像から人の様々な行動を認識するＡＩ技術「行動分析技術　Ａｃｔｌｙｚｅｒ」を開発"、［ｏｎｌｉｎｅ］、２０１９年１１月２５日、富士通株式会社、［２０２０年１月１９日検索］、インターネット（ＵＲＬ：ｈｔｔｐｓ：／／ｐｒ．ｆｕｊｉｔｓｕ．ｃｏｍ／ｊｐ／ｎｅｗｓ／２０１９／１１／２５．ｈｔｍｌ）

　行動の時間区間を推定するモデルを学習させる際の教師ありデータの教師情報を作成するコストが高い。

　本開示は、１つの側面として、行動区間推定モデルを効率的に構築することを目的とする。

　１つの実施形態では、隠れセミマルコフモデルにおいて、複数の第１隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含み、複数の第２隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、第１隠れマルコフモデルの動作の遷移確率を第２教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に第１教師ありデータの教師情報を付加することで水増しする。

　本開示は、１つの側面として、行動区間推定モデルを効率的に構築することができる。

本実施形態の隠れセミマルコフモデルを例示する概念図である。本実施形態の機能構成を例示するブロック図である。本実施形態の第１隠れマルコフモデルの状態を例示する概念図である。教師ありデータの水増しを説明する概念図である。教師ありデータの水増しを説明する概念図である。教師ありデータの水増しを説明する概念図である。教師ありデータの水増しを説明する概念図である。教師ありデータの水増しを説明する概念図である。教師ありデータの水増しを説明する概念図である。本実施形態のハードウェア構成を例示するブロック図である。行動区間推定モデル構築処理の流れを例示するフローチャートである。特徴ベクトル抽出処理の流れを例示するフローチャートである。教師ありデータ水増し処理の流れを例示するフローチャートである。行動区間推定処理の流れを例示するフローチャートである。関連技術の行動を説明する概念図である。関連技術の階層型隠れマルコフモデルを例示する概念図である。関連技術の概要を例示する概念図である。本実施形態の概要を例示する概念図である。観測データの揺らぎを例示する概念図である。

　本実施形態では、人の行動が発生した時間区間を推定する行動区間推定モデルの一例として、図１に例示するような隠れセミマルコフモデル（以下、ＨＳＭＭ（Ｈｉｄｄｅｎ　ｓｅｍｉ－Ｍａｒｋｏｖ　ｍｏｄｅｌ）という。）を構築する。ＨＳＭＭは、隠れマルコフモデル（以下、ＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　ｍｏｄｅｌ）という。）のパラメータに加え、状態ごとの継続時間の確率分布をパラメータとしてもつ。

　本実施形態のＨＳＭＭは、人の動作の各々を状態とする複数の第１ＨＭＭと、各々が複数の動作を組み合わせて定まる行動を状態とする第２ＨＭＭと、を含む。ｍ１、ｍ２、ｍ３は動作の一例であり、ａ１、ａ２、ａ３は行動の一例である。行動は、複数の動作の組合せであり、動作は、複数の姿勢の組合せである。

　パラメータを設定することで構築されたＨＳＭＭに人の姿勢を検知することで生成された時系列センサデータが与えられると、ＨＳＭＭは最適な行動の時間区間（以下、行動区間という。）を推定する。ｄ１、ｄ２、ｄ３は行動区間の一例である。

　ＨＭＭのパラメータには、観測確率及び遷移確率が存在する。Ｏ１、…、Ｏ８は観測確率の一例であり、遷移確率は状態をつなぐ矢印に対応する確率である。観測確率とは、各状態において、ある特徴が観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数、行動の数、即ち、第１ＨＭＭ、第２ＨＭＭの数の数は例示であり、図１に例示される数に限定されない。

　図２は、本実施形態の行動区間推定モデル構築装置１０の機能ブロック図の一例である。行動区間推定モデル構築装置１０は、観測確率学習部１１、遷移確率学習部１２、構築部１３を有する。観測確率学習部１１は、以下に説明するように、教師なしデータで行動区間推定モデルの一例であるＨＳＭＭの観測確率を学習する。

　本実施形態では、ある作業目標を達成するための限定された行動を対象とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
　性質１：作業を構成する各行動の違いは、限定された複数の動作の組合せの違いである。
　性質２：同じ作業を行う際に観測される複数の姿勢は類似している。

　本実施形態では、性質１に基づいて、全ての行動が１つの動作群に含まれる動作で構成される。図３に例示するように、動作群には、例えば、３つの動作ｍ１１、ｍ１２、ｍ１３が含まれている。

　例えば、動作ｍ１１は「腕を上げる」、動作ｍ１２は「腕を降ろす」、動作ｍ１３は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図３の例に限定されない。また、各行動に含まれる動作の数も図３の例に限定されない。

　図３のＨＭＭにおいて、破線矢印に対応する各動作の観測確率は行動には依存しないため、行動区間の教師なしデータで学習することができる。学習は、例えば、機械学習、ニューラルネットワーク、ディープラーニングなどを使用して行う。

　詳細には、観測確率の教師なし学習に使用するモデルは混合ガウス分布（以下、ＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）という。）であってよい。各観測は動作のうちの１つの動作が確率的に選択され、その動作についてのガウス分布により生成されると仮定する。これは、観測の時系列的な依存関係を使用しない教師あり学習とは異なる仮定である。学習したＧＭＭの各ガウス分布のパラメータを各動作における観測確率の確率分布であるガウス分布に割り当てる。

　遷移確率学習部１２は、以下に説明するように、教師情報をもつ学習データ（以下、教師ありデータという。）で、第１ＨＭＭの動作の遷移確率を学習する。教師情報は、姿勢の時系列データに対して各行動が発生している時間区間の正解を与える情報である。学習は、例えば、最尤推定やＥＭアルゴリズム（Ｅｘｐｅｃｔａｔｉｏｎ－Ｍａｘｉｍｉｚａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ）などを使用して行う（その他の機械学習、ニューラルネットワーク、ディープラーニングなどの方式を使用してもよい）。

　教師ありデータの生成には、時間及び労力がかかる。したがって、本実施形態では、観測確率学習部１１で学習した観測確率を固定し、既存の教師ありデータから遷移確率を学習する。

　詳細には、図４に例示するように、第１教師ありデータの一例である既存の教師ありデータのデータを種データＳＤとし、オーバーサンプリングすることでデータを水増しする。本実施形態では、例えば、時間方向にオーバーサンプリングを行い、その後、特徴空間上でオーバーサンプリングを行う。

　時間方向のオーバーサンプリングについて説明する。時間方向のオーバーサンプリングでは、例えば、人によって異なる動作にかかる時間の長さに関連する時間的な伸び縮みを考慮する。詳細には、以下の通りである。
（１）図５に例示するように、人の動作の観測系列の各時刻について、当該時刻の特徴の伸びの強さを表す乱数を生成する。図５の各時刻の縦線は、オリジナルパラメータに相当する乱数で生成した伸びの強さを表す。
（２）各時刻の伸びの強さを減衰させながら当該時刻の前後の時刻に伝播させる。伸びの強さは、所定の数離れた時刻で０になるように減衰される。図５の例では、破線で表すように、３時刻離れた時刻で０になるように減衰されている。減衰は、直線的な減衰でなくてもよい。
（３）各時刻のオリジナルの伸びの強さ、前後の時刻から伝播されたパラメータに相当する伝播された伸びの強さの内、最大の強さに対応する時刻の特徴値を、当該時刻の特徴値として選択する。図５の例では、時刻１では、オリジナルの伸びの強さが最大であるため、オリジナルの特徴値である時刻１の特徴値を選択し、時刻２では、時刻１から伝播された伸びの強さが最大であるため、時刻１の特徴値を選択する。時刻３では、時刻１から伝播された伸びの強さが最大であるため、時刻１の特徴値を選択し、時刻４では、オリジナルの伸びの強さが最大であるため、オリジナルの特徴値である時刻４の特徴値を選択する。

　特徴空間上でのオーバーサンプリングについて説明する。上記性質２によれば、同じ作業の姿勢は類似しているため、ノイズを付加することで、図６に例示するように実際の観測ごとのばらつきに類似したばらつきをもつデータを生成することができる。

　種データＳＤの教師情報ＴＩを、水増ししたデータの各々に共通に適用することで教師ありデータを水増しする。第２教師ありデータの一例である水増しした教師ありデータを使用して、第１ＨＭＭの複数の動作の遷移確率を教師あり学習で学習する。

　オーバーサンプリングでは、各時刻の特徴値にノイズを生成して付加する。例えば、特定した動作のサンプル群の共分散の定数倍の共分散の多変量ガウス分布から生成したノイズを付加してもよい。また、特定した動作のサンプル群から最も中心距離が近い動作のサンプル群までの中心距離ｄを算出し、特徴空間の各軸方向の標準偏差がｄの定数倍となる等方性のガウス分布（共分散行列が対角行列である）から生成したノイズを付加してもよい。

　本実施形態では、動作を行う人の身体部位ごとの速度に関連するノイズを身体部位ごとの動作の特徴値に付加する。例えば、ガウス分布の共分散行列のうち分散成分である対角成分を、動作を行う人の身体部位ごとに変更する。詳細には、身体部位ｉ（ｉは自然数）の特徴ベクトルの姿勢成分である特徴値の標準偏差σ_ｉ’（分散σ_ｉ’^２）を、身体部位ｉの角速度ω_ｉ、ベースとなる標準偏差の値σ_ｉ（分散σ_ｉ ^２）、定数係数ｋを用いて式（１）で算出する。
　　σ_ｉ’＝σ_ｉ＋ｋω_ｉ　…（１）

　σ_ｉ及びｋは、実験的に事前に決定される定数であり、身体部位ごとには変更しない。式（１）の第２項に示されるように、角速度の大きさに比例してノイズ、即ち、姿勢のばらつきを大きくする。例えば、図７の横軸は、身体部位１の姿勢成分である特徴値１を表し、縦軸は、身体部位２の姿勢成分である特徴値２を表す。

　図７では、特徴空間を２次元で表現しているが、次元数は２より多くてもよい。図７において、楕円は動作ｍ２１、ｍ２２、ｍ２３の特徴空間上の点で表されるサンプルが観測される確率分布（ガウス分布）の等高線を表す。楕円の中心に近いほど、確率が高い。

　身体部位１の動きの角速度成分と身体部位２の動きの角速度成分が略同様である場合、図７の左に示されるように、縦軸方向及び横軸方向の双方に、略同様の大きさのノイズを付加する。一方、身体部位１の動きの角速度成分が身体部位２の動きの角速度成分より大きい場合、図７の右に示されるように、縦軸方向に比較して横軸方向に大きいノイズを付加する。

　時間方向のオーバーサンプリングによれば、時間方向の変化に対応することができる。即ち、同じ作業を行っている場合でも、速く動いたり、遅く動いたりすることで、ある動作（動き特徴）が短く観測されたり、長く観測されたりする。速い動きでは、ある動作が観測されない場合もある。

　図８の左に例示するように、例えば、作業者Ａは、動作２に略３時刻使用しているが、図８の右上に例示するように、作業者Ｂは動作２に略４時刻使用し、図８の右下に例示するように、作業者Ｃは動作２に略１時刻使用している。時間方向のオーバーサンプリングを行うことで、このように、時間的な伸び縮みのあるサンプルを水増しすることができる。

　特徴空間上でのオーバーサンプリングによれば、姿勢を表す特徴値のばらつきに対応することができる。例えば、図９の左に例示するように、第１の腕の移動速度が大きく、第２の腕の移動速度が小さい場合、図９の右に例示するように、第１の腕の姿勢変化も速度に比例して大きく、したがって、特徴値のばらつきも大きい。

　一方、第２の腕の姿勢変化は速度に比例して小さく、したがって、特徴値のばらつきも小さい。特徴空間上でのオーバーサンプリングを行うことで、このように、身体部位によって特徴値のばらつきが異なるサンプルを水増しすることができる。

　時間方向のオーバーサンプリング及び特徴方向のオーバーサンプリングは両方行われてもよいし、何れか一方だけが行われてもよい。特徴方向のオーバーサンプリングだけが行われる場合、各時刻の身体部位ごとの当該時刻の特徴値に動作を行う人の身体部位ごとの速度に関連するノイズが付加される。

　構築部１３は、観測確率学習部１１で学習した観測確率、及び遷移確率学習部１２で学習した状態遷移確率を使用して、図１に例示するようなＨＳＭＭを構築する。Ｏ１、Ｏ２、…、Ｏ８は、観測確率学習部１１で学習した観測確率を表し、行動ａ１、ａ２、ａ３の各々に含まれる動作ｍ１、ｍ２、及びｍ３間の矢印は、遷移確率学習部１２で学習した状態遷移確率に対応する。ｄ１、ｄ２、ｄ３は、各行動の継続時間を表し、継続時間の確率分布は、教師情報の行動の継続時間から決定される。例えば、継続時間の確率分布は、一定範囲の一様分布であってよい。構築したＨＳＭＭに、センサで人の姿勢を検知して生成したセンサデータを適用して、各行動の時間区間である行動区間を推定する。推定についての詳細は、後述する。

　本実施形態の行動区間推定モデル構築装置１０は、以下の特徴を有する。
１．第１ＨＭＭの全行動で共通な動作の観測確率は教師なし学習で学習する。
２．第１ＨＭＭの動作間の遷移確率は、教師あり種データから水増しした教師ありデータを使用して、教師あり学習で学習する。

　行動区間推定モデル構築装置１０は、一例として、図１０に示すように、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５１、一次記憶装置５２、二次記憶装置５３、及び、外部インターフェイス５４を含む。ＣＰＵ５１は、ハードウェアであるプロセッサの一例である。ＣＰＵ５１、一次記憶装置５２、二次記憶装置５３、及び、外部インターフェイス５４は、バス５９を介して相互に接続されている。ＣＰＵ５１は、単一のプロセッサであってもよいし、複数のプロセッサであってもよい。また、ＣＰＵ５１に代えて、例えば、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）が使用されてもよい。

　一次記憶装置５２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などの揮発性のメモリである。二次記憶装置５３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの不揮発性のメモリである。

　二次記憶装置５３は、プログラム格納領域５３Ａ及びデータ格納領域５３Ｂを含む。プログラム格納領域５３Ａは、一例として、行動区間推定モデル構築プログラムなどのプログラムを記憶している。データ格納領域５３Ｂは、一例として、教師ありデータ、教師なしデータ、学習した観測確率、及び遷移確率などを記憶する。

　ＣＰＵ５１は、プログラム格納領域５３Ａから行動区間推定モデル構築プログラムを読み出して一次記憶装置５２に展開する。ＣＰＵ５１は、行動区間推定モデル構築プログラムをロードして実行することで、図２の観測確率学習部１１、遷移確率学習部１２、及び、構築部１３として動作する。

　なお、行動区間推定モデル構築プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶装置５２に展開されてもよい。また、行動区間推定モデル生成プログラムなどのプログラムは、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶装置５２に展開されてもよい。

　外部インターフェイス５４には外部装置が接続され、外部インターフェイス５４は、外部装置とＣＰＵ５１との間の各種情報の送受信を司る。図１０では、外部インターフェイス５４に、ディスプレイ５５Ａ及び外部記憶装置５５Ｂが接続されている例を示している。外部記憶装置５５Ｂには、例えば、教師ありデータ、教師なしデータ、及び、構築したＨＳＭＭなどを記憶する。ディスプレイ５５Ａは、例えば、構築したＨＳＭＭモデルを視認可能に表示する。

　行動区間推定モデル構築装置１０は、例えば、パーソナルコンピュータ、サーバ、及び、クラウド上のコンピュータなどであってよい。

　図１１に、行動区間推定モデル構築処理の流れを例示する。ＣＰＵ５１は、ステップ１０１で、後述するように、学習データから人の姿勢の連鎖である運動を表す特徴ベクトルを抽出する。ＣＰＵ５１は、ステップ１０２で、ステップ１０１で抽出した特徴ベクトルのクラスタリング（ＧＭＭのパラメータ推定）により、要素となる動作に分類し、各動作の観測確率を教師なし学習で学習する。

　ＣＰＵ５１は、ステップ１０３で、後述するように、教師あり種データをオーバーサンプリングして生成したデータに教師あり種データの教師情報を付与することで、教師ありデータを水増しする。ＣＰＵ５１は、ステップ１０４で、教師ありデータについて、教師情報で与えられた各行動の時間区間ごとに特徴ベクトルを振り分ける。

　ＣＰＵ５１は、ステップ１０５で、ステップ１０４で振り分けた時間区間内の特徴ベクトルの系列を観測データとして、ステップ１０３で水増しした教師ありデータを使用し、第１ＨＭＭの動作の遷移確率を教師あり学習で学習する。

　ＣＰＵ５１は、ステップ１０６で、各行動の継続時間の確率分布として、教師情報で与えられた各行動の継続時間に対して所定の範囲の一様分布を設定する。ＣＰＵ５１は、ステップ１０２で学習した観測確率及びステップ１０５で学習した遷移確率を使用して、ＨＳＭＭを構築する。ステップ１０６の設定で一定時間継続後に教師情報で与えられた各行動の順番に第２ＨＭＭの行動が遷移するＨＳＭＭを構築する。構築したＨＳＭＭは、例えば、データ格納領域５３Ｂに格納されてもよい。

　図１２は、図１１のステップ１０１の特徴ベクトル抽出処理の詳細を例示する。ＣＰＵ５１は、ステップ１５１で、学習に使用するデータから人を検出し、追跡することで、人の姿勢情報を取得する。ＣＰＵ５１は、ステップ１５２で、ステップ１５１で取得した姿勢情報が複数人の姿勢情報を含む場合、姿勢情報の時系列データから分析対象とする姿勢情報の時系列データを取得する。分析対象とする姿勢情報は、人を囲むバウンディングボックスの大きさ、及び時間などから選択する。

　ＣＰＵ５１は、ステップ１５３で、ステップ１５２で取得した姿勢情報の時系列データから身体の各部位についての運動情報の時系列データを取得する。運動情報の時系列とは、例えば、各部位の曲げの程度、曲げの速度などであってよい。各部位とは、例えば、肘、膝などであってよい。

　ＣＰＵ５１は、ステップ１５４で、スライディングタイムウィンドウにより一定の時間間隔ごとにウィンドウ内のステップ１５３の運動情報を時間方向で平均化して特徴ベクトルを算出する。

　図１３に、図１１のステップ１０３の教師ありデータ水増し処理の流れを例示する。ＣＰＵ５１は、ステップ２５１で、観測データ（人の動作の観測時系列）の時刻の各々で、当該時刻の特徴の伸びの強さを表す乱数を生成する。ＣＰＵ５１は、ステップ２５２で、時刻の各々で生成した伸びの強さの値を減衰させながら当該時刻の前後の時間に伝播させる。

　ＣＰＵ５１は、ステップ２５３で、当該時刻の伸びの強さ、及び、他の時刻から伝播された伸びの強さの値の内、最大の伸びの強さに該当する時刻の観測データの特徴値を、当該時刻の特徴値として選択する。ＣＰＵ５１は、ステップ２５４で、ガウス分布の共分散行列を、身体部位の各々の角速度の値に基づいて算出する。

　ＣＰＵ５１は、ステップ２５５で、ステップ２５３で選択した特徴値の各々に、ステップ２５４で算出した共分散行列のガウス分布で生成したノイズを付加する。教師ありデータの水増しを繰り返すことで、教師ありデータを水増しする。

　ステップ２５４及びステップ２５５の処理だけを繰り返し行ってもよい。この場合、各時刻のオリジナルの特徴値にノイズを付加する。また、ステップ２５１～ステップ２５３の処理だけを繰り返し行ってもよい。

　図１４に、本実施形態で構築したＨＳＭＭを使用した行動区間推定処理の流れを例示する。図１０の行動区間推定モデル構築装置１０は、構築したＨＳＭＭをデータ格納領域５３Ｂに格納することで行動区間推定装置として機能してもよい。

　ＣＰＵ５１は、ステップ２０１で、センサで人の姿勢を検知することにより生成されたセンサデータから特徴ベクトルを抽出する。センサは、人の姿勢を検知するデバイスであり、例えば、カメラ、赤外線センサ、モーションキャプチャデバイスなどであってよい。図１４のステップ２０１は、図１１のステップ１０１と同様であるため、詳細な説明は省略する。

　ＣＰＵ５１は、ステップ２０２で、ステップ２０１で抽出した特徴ベクトルの系列を観測データとして、行動区間推定モデル構築処理で構築したＨＳＭＭと照合して各行動状態の継続時間を推定する。ＣＰＵ５１は、ステップ２０３で、ステップ２０２で推定した各行動状態の継続時間から各行動の時間区間を推定する。

　例えば、映像を入力として、映像における特定の行動を認識するような技術では、基本動作認識、要素行動認識、及び上位行動認識を行う。映像における特定の行動とは、要素行動の組合せで、さらに複雑な上位行動であり、基本動作認識とは、フレームごとの姿勢認識であり、要素行動認識とは、時間的空間的認識を行い、ある程度の時間長における単純行動を認識することである。上位行動認識とは、ある程度の時間長における複雑行動の認識である。当該技術において、本実施形態の行動区間推定モデル構築処理及び構築した行動区間推定モデルを適用し、行動区間を推定することができる。

　関連技術では、行動に含まれる動作が特に限定されないＨＳＭＭが使用され得る。当該関連技術では、図１５に例示するように、例えば、以下の動作が存在すると仮定する。
（１）腕を上げる、（２）腕を降ろす、（３）腕を前に伸ばす、（４）両手を身体の前で近づける、（５）前に移動する、（６）横に移動する、（７）しゃがむ、（８）立つ

　行動の例は、例えば、以下の通りである。
行動ａ３１：（１）腕を上げる→（３）腕を前に伸ばす→（１）腕を上げる→（４）両手を身体の前で近づける→（７）しゃがむ、
行動ａ３２：（７）しゃがむ→（４）両手を身体の前で近づける→（８）立つ→（５）前に移動する→（３）腕を前に伸ばす、など

　上記のように、一般的な行動の動作、即ち、推定する行動が制限されない複数の動作をＨＭＭが含む場合、動作の観測確率を１つの単純な確率分布で表すことは困難である。この問題に対処するために、階層型隠れマルコフモデルを使用する技術が存在する。階層型隠れマルコフモデルは、図１６に例示するように、上位階層ＨＭＭが複数の下位階層ＨＭＭを状態として含む。行動ａ５１、ａ５２、及びａ５３は、下位階層ＨＭＭの例である。下位階層ＨＭＭの各々は、動作を状態として含み、ｍ５１、ｍ５２、ｍ５３、ｍ６１、ｍ６２、ｍ６３、ｍ７１、及びｍ７２は、動作の例である。

　階層型ＨＭＭでは、図１７に例示するように、教師情報ＴＩＬをもつ学習データＬＤを使用して、各行動の動作の観測確率及び遷移確率を教師あり学習で学習する。図１７では、行動ａ５１の観測確率ｐ１１、遷移確率ｐ２１、行動ａ５２の観測確率ｐ１２、遷移確率ｐ２２、行動ａ５３の観測確率ｐ１３、遷移確率ｐ２３を例示する。しかしながら、階層型ＨＭＭでは、パラメータの数が多く、パラメータの自由度が高いため、パラメータの学習のために教師ありデータを多数使用する。教師ありデータの教師情報を作成するには、時間及び労力を要する。

　一方、本開示では、図１８に例示するように、ＨＳＭＭの行動に対応する第１ＨＭＭの各々で共通の観測確率ｐ１は教師なしデータＬＤＮを使用して教師なし学習で学習する。学習した観測確率ｐ１を固定して、第１ＨＭＭの各々の動作の遷移確率ｐ２１Ｄ、ｐ２２Ｄ、ｐ２３Ｄを教師ありデータを使用して教師あり学習で学習する。本開示では、既存の教師ありデータＬＤＤをオーバーサンプリングし生成したデータに、教師ありデータＬＤＤの教師情報ＴＩＬを付加することで、教師ありデータを水増しして教師あり学習に使用する。したがって、本実施形態では、既存の教師ありデータが少ない場合でも、行動区間推定モデルを効率的に構築することができる。

　図１９の左に例示するように、例えば、時刻ｔ１で動作ｍ３１、時刻ｔ２で動作ｍ３１、時刻ｔ３で動作ｍ３３、時刻ｔ４で動作ｍ３２が高確率な動作の並びとなる場合の観測データの揺らぎについて例示する。図１９の右上に例示するように、動作の動きが変化し、時刻ｔ２の観測が動作ｍ３２の近くに変化した場合、時刻ｔ１で動作ｍ３１、時刻ｔ２で動作ｍ３２、時刻ｔ３で動作ｍ３３、時刻ｔ４で動作ｍ３２が高確率な動作の並びとなる。

　図１９の右下に例示するように、動作の速度が上がると、図１９の左の時刻ｔ３のサンプルが観測されず、時刻ｔ１で動作ｍ３１、時刻ｔ２で動作ｍ３１、時刻ｔ３で動作ｍ３２が高確率な動作の並びとなる。このような揺らぎに対し、どのような揺らぎが生じ得るかを事前に学習して遷移確率としてモデルに反映することができる。

　しかしながら、教師ありデータが少ない場合、多様な揺らぎを直接学習することができず、観測データの揺らぎへの対応が弱い。本実施形態では、時間方向のオーバーサンプリング及び特徴空間上でのオーバーサンプリングを行うことで、観測データの揺らぎに対応することができる適切な教師ありデータを水増しすることができる。

　本実施形態では、これにより、既存の教師ありデータが少ない場合であっても、観測データの揺らぎを想定した動作の並び方のモデル化が可能となる。したがって、観測データに揺らぎがある場合であっても高精度に時間区間を推定することができる。

　本実施形態では、隠れセミマルコフモデルにおいて、複数の第１隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含み、複数の第２隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、第１隠れマルコフモデルの動作の遷移確率を第２教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に第１教師ありデータの教師情報を付加することで水増しする。

　本開示によれば、行動区間推定モデルを効率的に構築することができる。即ち、例えば、工場での定型作業、ダンスの振り付け、武道の型などのように決まった順序で動作を行う複数の行動について、発生する順序に制約があるという条件の下で各行動の時間区間を正確に推定することができる。

１０　行動区間推定モデル構築装置
１１　観測確率学習部
１２　遷移確率学習部
１３　構築部
５１　ＣＰＵ
５２　一次記憶装置
５３　二次記憶装置

Claims

　各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第２隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第１隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習する観測確率学習部と、
　前記観測確率学習部にて学習した前記観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、前記第１隠れマルコフモデルの前記動作の遷移確率を前記第２教師ありデータを使用した教師あり学習で学習する遷移確率学習部と、
　前記観測確率学習部で学習した前記観測確率及び前記遷移確率学習部で学習した前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する構築部と、
　を含み、
　前記遷移確率学習部は、前記第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第１教師ありデータの教師情報を付加することで水増しする、
　行動区間推定モデル構築装置。
　前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
　各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
　請求項１に記載の行動区間推定モデル構築装置。
　前記オリジナルパラメータは、所定数離れた時刻で０となるように減衰される、
　請求項２に記載の行動区間推定モデル構築装置。
　前記特徴空間上のオーバーサンプリングは、前記第１教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
　請求項１～請求項３の何れか１項に記載の行動区間推定モデル構築装置。
　前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
　請求項４に記載の行動区間推定モデル構築装置。
　各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第２隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第１隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習し、
　学習した前記観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、前記第１隠れマルコフモデルの前記動作の遷移確率を前記第２教師ありデータを使用した教師あり学習で学習し、
　学習した前記観測確率及び前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する、
　行動区間推定モデル構築方法であって、
　前記第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第１教師ありデータの教師情報を付加することで水増しする、
　行動区間推定モデル構築方法。
　前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
　各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
　請求項６に記載の行動区間推定モデル構築方法。
　前記オリジナルパラメータは、所定数離れた時刻で０となるように減衰される、
　請求項７に記載の行動区間推定モデル構築方法。
　前記特徴空間上のオーバーサンプリングは、前記第１教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
　請求項６～請求項８の何れか１項に記載の行動区間推定モデル構築方法。
　前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
　請求項９に記載の行動区間推定モデル構築方法。
　各々が人の動作の種類を状態とする複数の第１隠れマルコフモデルを含む第２隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第２隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第１隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習し、
　学習した前記観測確率を固定し、入力された第１教師ありデータを水増しすることで第２教師ありデータとし、前記第１隠れマルコフモデルの前記動作の遷移確率を前記第２教師ありデータを使用した教師あり学習で学習し、
　学習した前記観測確率及び前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する、
　処理であって、
　前記第１教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第１教師ありデータの教師情報を付加することで水増しする、
　処理をコンピュータに実行させる行動区間推定モデル構築プログラム。
　前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
　各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
　請求項１１に記載の行動区間推定モデル構築プログラム。
　前記オリジナルパラメータは、所定数離れた時刻で０となるように減衰される、
　請求項１２に記載の行動区間推定モデル構築プログラム。
　前記特徴空間上のオーバーサンプリングは、前記第１教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
　請求項１１～請求項１３の何れか１項に記載の行動区間推定モデル構築プログラム。
　前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
　請求項１４に記載の行動区間推定モデル構築プログラム。