WO2019207714A1

WO2019207714A1 - 動作推定システム、動作推定方法および動作推定プログラム

Info

Publication number: WO2019207714A1
Application number: PCT/JP2018/017005
Authority: WO
Inventors: 裕宇野; 久保　雅洋; 友嗣大野; 昌洋林谷; 園駱; 英二湯本
Original assignee: 日本電気株式会社
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-10-31
Also published as: US11848091B2; US20210241464A1; JP7192860B2; JPWO2019207714A1

Abstract

動作推定システム８０は、ポーズ取得部８１と、アクション推定部８２とを備えている。ポーズ取得部８１は、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される、その一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得する。アクション推定部８２は、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定する。

Description

動作推定システム、動作推定方法および動作推定プログラム

　本発明は、複数人の動作を推定する動作推定システム、動作推定方法および動作推定プログラムに関する。

　コンピュータビジョンの技術の発展に伴い、非接触で動作を計測することが可能になっている。このように計測された動作を表す情報は、例えば、教育の場面、ロボットやＡＩ（Artificial Intelligence ）などが動作を学習するために用いる学習データとして利用される。

　一方、個々の動作ごとに逐次計測を行って記憶することは非常に手間のかかる作業である。このように動作ごとに計測して記録する煩雑さを解消するため、計測された連続動作を分節化する方法も知られている。

　例えば、特許文献１には、連続動作を分節化して学習できる動作学習装置が記載されている。特許文献１に記載された学習装置は、連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成し、生成した文書に含まれる文字列から意味のある文節を抽出して保存する。

　また、特許文献２には、作業動作を認識する技術が記載されている。特許文献２に記載されたシステムでは、解析用情報分割部が、トリガに含まれるタイムスタンプに従い、解析用情報バッファから解析用情報を分割して読み込み、解析部が、分割された解析用情報と選択された動作モデルを用いて解析を行う。具体的には、解析部が、分割された解析用情報によって示される動作が選択された動作モデルからどの程度逸脱しているかを表す逸脱度を算出し、それを解析結果として出力する。

特開２００９－２７６８８６号公報特開２０１７－２７６８８６号公報

　計測された動作を逐次蓄積することで、経験者の動作を定量化できるため、定量化されたデータに基づいて学習することで経験者の動作を再現するＡＩを実現することが可能になる。

　しかし、定量化が所望される動作は、特許文献１に記載されているような、１人のユーザの動作だけではない。例えば、相手の反応に応じて対応を変化させるような場面にも、同様の定量化が求められている。

　例えば、上述する場面の一例として、セラピストの動作が挙げられる。高齢化に伴い、脳卒中患者の数も増加していることから、脳卒中に伴う運動麻痺の患者のリハビリテーションの重要性が高まっているが、セラピストの数が患者の増加に追い付いていないという現実がある。

　セラピストのスキルは、個人に依存するものが多く、体系化も難しい。そのため、若手セラピストへの技術継承は多くの時間が必要になる。セラピストの動作を定量化できれば、ベテランセラピストのリハビリ記録をもとにした、若手セラピストへの技術移転を助けるようなＡＩを実現することも可能であると考えられる。

　特許文献１に記載された動作学習装置を用いることで、セラピストが患者に対して行う施術をセラピストの動作として定量化することは可能である。しかし、セラピストの動作は、患者の反応に応じて変化するものであり、セラピストの動作のみを定量化したとしても、意味のある定量化が行われたとは言い難い。

　すなわち、特許文献１に記載された動作学習装置は、ユーザが３次元モーションキャプチャカメラに向かって提示した動作に応じて時系列データを作成することから、測定された１人の動作に基づいて意味のある文節を抽出することを前提としている。そのため、特許文献１に記載された動作学習装置を用いたとしても、複数の人物が相互に影響を及ぼしあう動作から意味のある文節を抽出することは困難である。

　なお、特許文献２に記載されたシステムでは、トリガ生成テーブルに基づいて生成したトリガに基づいて単純に分割した動作時系列データを溜めているにすぎない。そのため、想定される各動作に対して予めトリガの条件を設定しておく必要があり、設定された条件以外の動作を分割することも困難である。

　そこで、本発明は、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる動作推定システム、動作推定方法および動作推定プログラムを提供することを目的とする。

　本発明の動作推定システムは、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部と、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部とを備えたことを特徴とする。

　本発明の動作推定方法は、ポーズ取得部が、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得し、アクション推定部が、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定することを特徴とする。

　本発明の動作推定プログラムは、コンピュータに、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得処理、および、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定処理を実行させることを特徴とする。

　本発明によれば、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。

本発明の動作推定システムの一実施形態の構成例を示すブロック図である。姿勢／位置取得部２０の入出力データの例を示す説明図である。演算部３０の入出力データの例を示す説明図である。ポーズ時系列を生成するモデルの例を示す説明図である。推定されたアクション系列に対応させて映像を出力する処理の例を示す説明図である。動作推定システムの動作例を示すフローチャートである。本発明による動作推定システムの概要を示すブロック図である。

　本発明では、対象とする複数の人物の動作を取得して定量化する。具体的には、本発明では、各人物の姿勢（以下、ポーズと記す。）の時系列情報のみを用いて、ポーズの時系列の部分列である動作（以下、アクションと記す。）およびアクションの系列（以下、文脈と記す。）を推定してシンボルを割り当てる。すなわち、アクションは、二以上のポーズからなる意味のある纏まりを表わし、アクション系列は、アクションの時系列の纏まりを表わす。

　その際、本発明では、一の人物の動作が他の人物の動作に影響を及ぼす状況（すなわち、複数の人物の動作が相互に影響を及ぼしあう状況）を想定する。これにより、複数の人物を撮影した映像から、相互に影響を及ぼす動作を文書化する。なお、ここでの文書化とは、具体的な文書として明文化する処理に限定されず、推定されたアクションおよび文脈をデータベース化する処理も含まれる。

　また、以下では、具体的な状況を明確にするため、セラピストが患者に対して施術を行う状況（リハビリテーション（以下、リハビリと記す。）を行う状況）を例に説明する。この状況は、セラピストの動作が患者の動作に影響を与える（セラピストと患者の動作が相互に影響を及ぼしあう）状況であると言える。本具体例の場合、アクションはリハビリ中の一つの行為を表わし、アクション系列は、一連のリハビリ行為を表わす。

　ただし、本発明が適用される状況は、セラピストと患者との動作に限定されない。他にも、例えば、保育士の動作が子供の動作に与える影響を想定した状況や、スポーツ選手同士の動作が互いに影響し合う状況などであってもよい。また、この状況は、必ずしも複数の人物が接触する動作を行う状況に限定されず、非接触の動作であっても互いに影響し合う状況であれば、本発明を適用可能である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明の動作推定システムの一実施形態の構成例を示すブロック図である。本実施形態の動作推定システム１００は、センサ１０と、姿勢／位置取得部２０と、演算部３０と、記憶部４０と、入出力部５０と、評価部６０とを備えている。

　記憶部４０は、後述する処理に必要な各種情報やパラメータを記憶する。また、記憶部４０は、センサ１０によって検出された各種情報や、推定された動作結果も記憶する。記憶部４０が記憶する内容については後述される。記憶部４０は、例えば、磁気ディスク等により実現される。

　センサ１０は、複数の人物の動作を時系列に取得する。例えば、人物の動作を映像として取得する場合、センサ１０は、イメージセンサおよび深度センサによって実現されていてもよい。この場合、センサ１０は、３Ｄセンサカメラなどの撮像装置（図示せず）に含まれる構成であってもよい。また、例えば、人物の体の各部の位置を座標として取得する場合、センサ１０は、例えば、ウェアラブルセンサによって実現されていてもよい。この場合、センサ１０は、人物の体に着脱可能な媒体に含まれる構成であってもよい。

　なお、複数の人物の動作を取得することから、センサ１０は、非接触計測で動作をデータ化できることが好ましい。また、複数の人物の動作を映像として取得する場合、一方向からの映像だけでは一の人物の存在により他の人物が隠れてしまう可能性があるため、複数の撮像装置で複数の方向から映像を取得できることが好ましい。この場合、各撮像装置が取得したそれぞれの映像は、撮像装置を設置する位置等に応じて対応付けられればよい。

　姿勢／位置取得部２０は、センサ１０によって取得された複数の人物の動作から、各人物のポーズを表す情報（以下、ポーズ情報と記す。）を時系列に取得する。すなわち、姿勢／位置取得部２０は、同時に特定される一の人物のポーズおよび他の人物のポーズを時系列に取得する

　具体的には、姿勢／位置取得部２０は、センサ１０によって取得された情報から、各人物のポーズをそれぞれ取得する。姿勢／位置取得部２０が各人物のポーズをそれぞれ取得する方法は任意である。姿勢／位置取得部２０は、例えば、ランダムフォレストを用いた学習ベースの識別器を用いて、複数人のポーズを認識してもよい。

　例えば、一の人物がセラピストであり、他の人物が患者であるとする。この場合、一の人物と他の人物とは、画像から一見して明らかであると言える。このような場合、姿勢／位置取得部２０は、一枚の画像にだけアノテーションを行い、その後の画像について時間方向に外挿することで、各人物のポーズを取得してもよい。

　姿勢／位置取得部２０が取得するポーズは、全体の処理を通して統一されていれば、その内容は任意である。例えば、センサ１０によって映像が撮影されている場合、姿勢／位置取得部２０は、撮影された映像から時系列に各人物の特徴点（例えば、体の各部の関節など）の座標を取得してもよい。取得された座標は、例えば、各時点のポーズを示すベクトルで表されていてもよい。これらの座標を繋ぐことで、人物の形のスケルトンを特定できる。また、このポーズ情報のことを記号列と記すこともある。

　なお、姿勢／位置取得部２０が映像から取得する情報は、特徴点の座標に限定されない。姿勢／位置取得部２０は、例えば、映像中の人物を認識した結果や、状態、状況などを取得してもよい。なお、映像から人物の状態や状況などを取得する方法は広く知られているため、ここでは詳細な説明を省略する。

　また、例えば、センサ１０によって人物の体の各部の位置の座標が取得されている場合、姿勢／位置取得部２０は、人物ごとの座標を時系列に取得してもよい。

　図２は、姿勢／位置取得部２０の入出力データの例を示す説明図である。深度センサで実現されるセンサ１０を含むカメラで画像を撮影した場合、姿勢／位置取得部２０は、カラー画像Ｉ_ｔおよび深度画像Ｄ_ｔを時系列に取得する。この画像にセラピストおよび患者が含まれているとする。このとき、姿勢／位置取得部２０は、セラピストのポーズｐ_ｔ ^ｔｈと患者のポーズｐ_ｔ ^ｐとを時系列に出力する。

　演算部３０は、取得された各人物の時系列のポーズ情報を教師なし学習により分割する。そして、演算部３０は、二以上のポーズ情報を含む動作の系列をアクション系列として推定する。以下の説明では、この推定するアクション系列を表す情報を動作記号列と記すこともある。

　図３は、演算部３０の入出力データの例を示す説明図である。ポーズとしてセラピストのポーズｐ_ｔ ^ｔｈと患者のポーズｐ_ｔ ^ｐが取得された場合、ポーズ系列Ｐを、２つのポーズ系列を含む行列で表すことができる。ポーズ系列Ｐが入力されると、演算部３０は、それぞれのポーズを分割したアクション系列Ａを出力する。図３に示す例では、演算部３０がセラピストのポーズ系列ｐ_ｔ ^ｔｈから、Ｍ個のアクション系列Ａ_Ｍ ^ｔｈを生成し、患者のポーズ系列ｐ_ｔ ^ｐから、ｍ個のアクション系列Ａ_ｍ ^ｐを生成したことを示す。

　なお、上述するように、各アクションは、一以上のポーズ情報を含む。そのため、例えば、セラピストのアクション系列Ａ_＊ ^ｔｈは、Ａ_＊ ^ｔｈ＝［ｐ^ｔ _＊－１　ｐ^ｔ _＊ｐ^ｔ _＊＋１］と表わすことができる。

　本発明では、人物の動作から取得されるポーズ情報、アクション、および、アクションの集合体に関して、いわゆる自然言語における文字、単語、および、文章（文脈）のアナロジーを用いて、同様の方法で各要素を推定できると想定する。すなわち、アクションの集合体は、アクションに対応する動作記号列の並びから決定されると想定する。

　本実施形態では、姿勢／位置取得部２０が取得するポーズの時系列より、動作自体がほぼ完全な情報で得られているとする。自然言語の処理に対応させると、演算部３０は、ポーズの時系列を「文章」として書き下し、要約する処理を行うと言える。

　さらに、本実施形態では、演算部３０は、１人の人物のポーズ情報だけでなく、複数の人物のポーズ情報からアクション系列を推定する。このように、複数人物のアクション系列を推定することで、一の人物の動作が他の人物の動作に影響を及ぼす状況を定量化できる。

　ここで解くべき問題は、多次元のポーズの系列（動作の系列）から、文字（アクションプリミティブ）、単語（アクション）、文章・文脈を推定するという問題に帰着する。上述するように、本実施形態では、自然言語とのアナロジーで動作を捉えようとしており、言語において書かれた文章の集まりから、教師なしで形態素・単語・文章の纏まりを推定する問題と基本的に同様の構造を有する。

　例えば、ある人物が車を運転し、交差点で左折する状況を考える。「左折する」という文脈には、「ブレーキを踏んで減速し」、「方向指示器を転倒させ」、「左のミラーを確認し」、「左側方向を目視し」、「ハンドルを左に回し」、「その後加速し」、「ハンドルを戻す」、などのような一連のアクションの系列が含まれると理解できる。このような状況において、車の姿勢や速度と、ドライバーの操作などの多次元時系列を適切な粒度で分節化（分割）して、アクションの系列を推定し、そのアクションに適当な文字を割り当てることで、元の時系列を低次元化して、文字列に変換し、要約することが可能になる。

　具体例として、演算部３０は、患者またはセラピスト単体のポーズ系列それぞれを階層Ｎグラムに基づき、ノンパラメトリックベイズ推定を用いてアクション系列に分割する。または、演算部３０は、患者とセラピストのポーズ系列を同時に、多重階層Ｎグラムモデルに基づき、ノンパラメトリックベイズ推定を用いてアクション系列に分割する。すなわち、演算部３０は、単語と単語の分割を階層的に行うベイズモデルを解く方法と同様に、ポーズ時系列からアクション系列への分割を階層的に行うベイズモデルをノンパラメットリックベイズで解くことにより、アクション系列を推定する。

　ここで、ポーズ時系列Ｘ＝｛ｘ_１，ｘ_２，…，ｘ_ｎ｝とする。このポーズ時系列Ｘは、別々に生成された複数の人物のポーズ時系列を纏めたものである。また、アクション系列をＺとし、各アクション間の相互作用をＳとすると、同時分布ｐ（Ｘ，Ｚ，Ｓ）は、パラメータＺによって定まるＸの条件付き確率密度関数ｐ（Ｘ｜Ｚ）、および、パラメータＳによって定まるＺの条件付き確率密度関数ｐ（Ｚ｜Ｓ）を用いて、以下に例示する式１のように表される。

　ｐ（Ｘ，Ｚ，Ｓ）＝ｐ（Ｘ｜Ｚ）ｐ（Ｚ｜Ｓ）ｐ（Ｓ）　　（式１）

　このとき、事後確率ｐ（Ｚ, Ｓ｜Ｘ）はベイズの定理により、また、周辺尤度ｐ（Ｘ）は、同時分布ｐ（Ｘ，Ｚ，Ｓ）をＺ，Ｓで積分消去して、それぞれ、以下に例示する式２および式３のように表される。

　ｐ（Ｚ，Ｓ｜Ｘ）＝ｐ（Ｘ，Ｚ，Ｓ）／ｐ（Ｘ）　　（式２）
　ｐ（Ｘ）＝∫ｐ（Ｘ，Ｚ，Ｓ）ｄＺｄＳ　　　（式３）

　演算部３０は、ポーズ時系列Ｘが与えられた場合の事後確率ｐ（Ｚ, Ｓ｜Ｘ）を最大化するアクション系列Ｚ＝｛Ｚ_ｔ｝，Ｓを推定する。具体的には、マルコフ連鎖モンテカルロ法（または、それに類する方法）で事後確率ｐ（Ｚ, Ｓ｜Ｘ）からのサンプリングを行うことでアクション系列を推定できる。なお、演算部３０が用いる統計モデルは任意である。推定された生成モデルの優劣は、例えば、情報量基準を用いてモデル間の比較を行うことで、比較可能である。

　さらに、演算部３０は、状況を表す文脈に基づいて、分割された動作からアクション系列を推定してもよい。例えば、同じ動作であっても、状況に応じてその動作の意味する内容は異なる。例えば、リハビリにおいて同じ下肢を上げる動作であっても、それが下肢のリハビリを行う動作か、下肢の位置を固定したうえで他の部位のリハビリを行う動作かは、状況によって異なる。本実施形態の演算部３０は、そのような状況を表す文脈（すなわち、前後の動作のつながり）を考慮してアクション系列を推定してもよい。

　具体的には、上述するリハビリの例の場合、統計モデルによって生成されるポーズ時系列を、実際に観測して記録する過程を表す観測モデルや、リハビリアプローチ（文脈・シチュエーション）に基づいて生成される文法モデルなども含めて、さらに階層化することも可能である。図４は、ポーズ時系列を生成するモデルの例を示す説明図である。図４に例示するように、各アクション間の相互作用を表すリハビリ方法論Ｓに基づいて、リハビリのアクション系列である介入行動系列Ｚが導出される。また、介入行動系列Ｚは、ポーズ時系列Ｚの集合として表される。

　演算部３０は、推定したアクション系列を記憶部４０に記憶する。演算部３０がアクション系列を保持する方法は任意である。上述するように、演算部３０は、推定したアクション系列を記号列として記憶部４０に記憶してもよい。また、演算部３０は、推定したアクション系列とともに、そのアクションが行われた日時や背景情報などを対応付けて記憶部４０に記憶してもよい。

　例えば、上述するリハビリの例の場合、演算部３０は、撮影されたリハビリを実施したセラピストおよび患者を識別する情報や、リハビリによるアウトカムをアクションに対応付けて記憶部４０に記憶してもよい。他にも、演算部３０は、リハビリに関連した記述を含む文章や画像を表す文献や、患者の病態や検査値、医師の診断などの情報を含むカルテ情報を、アクションと対応付けて記憶部４０に記憶してもよい。このように、リハビリのアクションやアウトカムが大規模に集められてデータベース化されることから、記憶部４０に記憶されたリハビリに関する情報のことを、リハビリコーパスと言うこともできる。

　また、リハビリで行ったアクションとその結果（アクトカム）とを蓄積することにより、リハビリのより適切な実践方法を把握することも可能になる。例えば、１回のリハビリの前後での患者動作（例えば、歩行課題）の計測を行い、データ化を行うことで、リハビリの効果を推定することも可能になる。

　また、リハビリコーパスを分析することで、データに基づいたリハビリ技術を体系化でき、優秀なセラピストの技術を模倣したＡＩを生成することも可能になる。例えば、特定の介入（リハビリ介入）について、記憶部４０に記憶された情報を抽出し、介入ごとのアウトカムの分布を比較することで、アウトカムがより得られやすいリハビリ介入を把握することが可能になる。また、これらの分布に対して患者の病態との組み合わせを考慮してもよい。

　また、これらの分析には様々な統計モデルを用いることが可能である。例えば、患者の病態や年齢、性別、脳画像などの背景情報を入力として、適切な（例えば、アウトカムのゲインの期待値が最大）になるリハビリ介入を出力する関数ｆを深層学習する学習部（図示せず）を動作推定システム１００が含んでいてもよい。

　すなわち、リハビリコーパスは、優秀セラピストの暗黙知や判断能力を示す情報を含んでいると言える。そのため、記憶部４０に記憶されたリハビリコーパスを利用してセラピストＡＩを学習することで、優秀セラピストの示唆（例えば、鑑別ポイントや介入ポイント、治療計画）を把握することが可能になる。

　入出力部５０は、推定されたアクション系列に応じた情報を出力する。また、入出力部５０は、推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付けてもよい。本実施形態で推定された各アクションには、明示的なラベル（すなわち、アクションの具体的内容）は付与されていない。そこで、各アクションに対してユーザが意図したラベル付けを行うことで、各アクションの内容をユーザが認識しやすい態様で管理できる。

　また、姿勢／位置取得部２０が、各人物が撮影された映像から時系列にポーズ情報を取得した場合、入出力部５０は、推定されたアクション系列を撮影された映像に対応付けて出力してもよい。また、その際、入出力部５０は、異なる時間に同一人物から取得されたアクション系列を並列に出力してもよい。さらに、その際、入出力部５０は、推定されたアクションの単位で映像の出力を制御してもよい。

　図５は、推定されたアクション系列に対応させて映像を出力する処理の例を示す説明図である。例えば、センサ１０が図５に例示する映像Ｉを取得していたとする。ここで、演算部３０により患者のアクション系列Ａ_ｐ１～Ａ_ｐ３が推定され、セラピストのアクション系列Ａ_ｔｈ１～Ａ_ｔｈ３が推定されたとする。この場合、入出力部５０は、切り取られたポーズ情報の時間に合わせて、患者およびセラピストの動作をそれぞれ出力するようにしてもよい。このように映像を出力することで、映像を参照しながらアクションをナビゲートすることが可能になる。

　また、入出力部５０は、推定された同一人物のアクション系列を並列に出力してもよい。具体的には、入出力部５０は、同一のアクション系列のうち、同一人物同士のアクション系列を、それぞれ並列に出力してもよい。このように並列して映像を出力することで、時間の経過に伴う行動の変化を一度に把握することが可能になる。例えば、リハビリの例の場合、同一のセラピストおよび患者のリハビリの状況を並列に出力することで、患者の回復度合いを一見して把握することが可能になる。

　評価部６０は、記憶部４０に記憶されたアクション系列から人物の動作を評価する。具体的には、姿勢／位置取得部２０が各人物のポーズ情報を時系列に新たに取得すると、評価部６０は、取得された時系列のポーズ情報と、記憶部４０に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価する。

　評価部６０は、例えば、時系列のポーズ情報を示す行列と、記憶部４０に記憶されたアクションを示す行列との類似度が高いほど評価を高くする方法によって、人物の動作を評価してもよい。その際、評価部６０は、例えば、各行列を正規化した場合に対応する各要素の差分が小さいほど類似度が高いと算出してもよい。なお、ここで示す評価方法や類似度の算出方法は一例であり、記憶部４０に記憶されたアクション系列と人物の動作との近さを評価する方法であれば、任意の方法を用いることが可能である。このような評価を行うことで、模範とする動作を学習する効果を上げることが可能になる。

　姿勢／位置取得部２０と、演算部３０と、入出力部５０と、評価部６０とは、プログラム（動作推定プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、動作推定システムの記憶部４０に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、姿勢／位置取得部２０、演算部３０、入出力部５０および評価部６０として動作してもよい。また、姿勢／位置取得部２０と、演算部３０と、入出力部５０と、評価部６０とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、本実施形態の動作推定システム１００の動作を説明する。図６は、本実施形態の動作推定システム１００の動作例を示すフローチャートである。まず、センサ１０が、一の人物の動作が他の人物の動作に影響を及ぼす状況において、複数の人物の動作を同時に取得する（ステップＳ１１）。姿勢／位置取得部２０は、一の人物の姿勢および他の人物のポーズ情報を時系列に取得する（ステップＳ１２）。

　演算部３０は、取得された各人物の時系列のポーズ情報を教師なし学習により分割してアクション系列を推定する（ステップＳ１３）。演算部３０は、推定したアクション系列を記憶部４０に記憶する（ステップＳ１４）。

　以上のように、本実施形態では、姿勢／位置取得部２０が、一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得し、演算部３０が、取得された各人物の時系列のポーズ情報を教師なし学習により分割してアクション系列を推定する。よって、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。

　例えば、１人の動作をそれぞれ単独で取得して組み合わせたとしても、総合に影響する動作の推定精度を上げることは困難である。一方、本実施形態では、姿勢／位置取得部２０が複数の人物のポーズ情報を同時に取得するため、相互に関連する人物の動作を高精度に推定できる。

　また、例えば、特許文献２に記載された方法では、動作時系列を離散化せずに、ある種の距離を算出して動作の逸脱度や相関を判断する。一方、本実施形態では、姿勢／位置取得部２０および演算部３０が動作の系列を離散化し、最適なシンボル（記号）を割り当てることで、アクション系列（例えば、リハビリ）を記号列として書き下す。例えば、リハビリの記号列は、リハビリの実践を定量化した動作時系列に、離散化したシンボルを付与したものである。このようにすることで、単純に動作時系列データを溜める場合と異なり、上述する索引を用いることで記号推論を行うことも可能になる。さらに、演算部３０が、リハビリ記号列と、リハビリのアウトカムや電子カルテの情報とをあわせて記憶部４０に記録することで、リハビリに関するデータベース（症状、行ったリハビリ、リハビリの成果など）を作成することも可能になる。

　次に、本発明の概要を説明する。図７は、本発明による動作推定システムの概要を示すブロック図である。本発明による動作推定システム８０（例えば、動作推定システム１００）は、一の人物（例えば、セラピスト）の動作が他の人物（例えば、患者）の動作に影響を及ぼす状況において同時に特定される、その一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部８１（例えば、姿勢／位置取得部２０）と、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部８２（例えば、演算部３０）とを備えている。

　そのような構成により、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。

　また、アクション推定部８２は、状況を表す文脈（例えば、文法モデル）に基づいて、分割された動作からアクション系列を推定してもよい。

　具体的には、ポーズ取得部８１は、リハビリテーションにおいてセラピストの姿勢および患者のポーズ情報を時系列に取得してもよい。そして、アクション推定部８２は、取得されたセラピストおよび患者のポーズ情報を分割してアクション系列を推定し、推定されたアクション系列から各アクション間の相互作用を表すリハビリ方法論に基づいて、リハビリテーションのアクション系列である介入行動系列を導出してもよい。

　また、動作推定システム８０は、推定されたアクション系列に応じた情報を出力する出力部（例えば、入出力部５０）を備えていてもよい。そして、ポーズ取得部８１は、一の人物および他の人物が撮影された映像から時系列にポーズ情報を取得し、出力部は、推定されたアクション系列を撮影された映像に対応付けて出力してもよい。このような構成により、映像を参照しながら動作（アクション）をナビゲートすることが可能になる。

　その際、出力部は、アクションの単位で映像の出力を制御してもよい。そのような構成によれば、アクションの単位で逐次動作を確認することが可能になる。

　また、動作推定システム８０は、推定されたアクション系列を記憶する記憶部（例えば、記憶部４０）を備えていてもよい。そして、アクション推定部８２は、推定されたアクション系列に一の人物および他の人物を識別する情報を対応付けて記憶部に記憶してもよい。このような構成によれば、アクション系列を記憶する記憶部を、いわゆるリハビリコーパスとして利用することが可能になる。

　また、動作推定システム８０は、記憶部に記憶されたアクション系列から人物の動作を評価する評価部（例えば、評価部６０）を備えていてもよい。このとき、ポーズ取得部８１は、各人物のポーズ情報を時系列に新たに取得し、評価部は、取得された時系列のポーズ情報と、記憶部に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価してもよい。そのような構成により、模範とする動作を学習する効果を上げることが可能になる。

　また、動作推定システム８０は、推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付ける入力部（例えば、入出力部５０）を備えていてもよい。そのような構成により、各アクションの内容をユーザが認識しやすい態様で管理できる。

　本発明は、複数人の動作を推定する動作推定システムに好適に適用される。例えば、本発明は、回復期リハビリテーションを効率化するためのリハビリ介入をデータ化する際に、好適に適用される。

　１０　センサ
　２０　姿勢／位置取得部
　３０　演算部
　４０　記憶部
　５０　入出力部
　６０　評価部

Claims

　一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部と、
　取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部とを備えた
　ことを特徴とする動作推定システム。
　アクション推定部は、状況を表す文脈に基づいて、分割された動作からアクション系列を推定する
　請求項１記載の動作推定システム。
　ポーズ取得部は、リハビリテーションにおいてセラピストの姿勢および患者のポーズ情報を時系列に取得し、
　アクション推定部は、取得されたセラピストおよび患者のポーズ情報を分割してアクション系列を推定し、推定されたアクション系列から各アクション間の相互作用を表すリハビリ方法論に基づいて、リハビリテーションのアクション系列である介入行動系列を導出する
　請求項２記載の動作推定システム。
　推定されたアクション系列に応じた情報を出力する出力部を備え、
　ポーズ取得部は、一の人物および他の人物が撮影された映像から時系列にポーズ情報を取得し、
　前記出力部は、推定されたアクション系列を撮影された映像に対応付けて出力する
　請求項１から請求項３のうちのいずれか１項に記載の動作推定システム。
　出力部は、アクションの単位で映像の出力を制御する
　請求項４記載の動作推定システム。
　推定されたアクション系列を記憶する記憶部を備え、
　アクション推定部は、推定されたアクション系列に一の人物および他の人物を識別する情報を対応付けて前記記憶部に記憶する
　請求項１から請求項５のうちのいずれか１項に記載の動作推定システム。
　記憶部に記憶されたアクション系列から人物の動作を評価する評価部を備え、
　ポーズ取得部は、各人物のポーズ情報を時系列に新たに取得し、
　前記評価部は、取得された時系列のポーズ情報と、前記記憶部に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価する
　請求項６記載の動作推定システム。
　推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付ける入力部を備えた
　請求項１から請求項７のうちのいずれか１項に記載の動作推定システム。
　ポーズ取得部が、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得し、
　アクション推定部が、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定する
　ことを特徴とする動作推定方法。
　コンピュータに、
　一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得処理、および、
　取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定処理
　を実行させるための動作推定プログラム。