WO2019198696A1

WO2019198696A1 - 行動推定装置

Info

Publication number: WO2019198696A1
Application number: PCT/JP2019/015402
Authority: WO
Inventors: 木村　大介
Original assignee: 株式会社アジラ
Priority date: 2018-04-11
Filing date: 2019-04-09
Publication date: 2019-10-17
Also published as: US11482046B2; US20210158029A1

Abstract

【課題】　複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供する。【解決手段】　行動推定装置１において、推定側検出部１３は、推定側識別器１１に記憶された複数の関節Ａを識別するための基準に基づき、各時系列画像Ｙに映った複数の関節Ａを検出する。推定側計側部１４は、各時系列画像Ｙに映った複数の関節Ａの座標及び深度を計測する。識別部１５は、計測された各関節Ａの座標及び深度の複数の時系列画像Ｙにおける変位に基づき、複数の関節Ａの中から、一の対象に属する関節群Ｂを識別する。推定部１６は、関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき、一の対象Ｚの行動を推定する。

Description

行動推定装置

　本発明は、複数の時系列画像に映った対象の行動を推定するための行動推定装置に関する。

　従来より、時系列データに映った人間の関節等から姿勢を検知し、当該姿勢の変化に応じて行動を認識する装置が知られている。（例えば、特許文献１参照）。

特開２０１７－２２８１００号公報

　しかしながら、上記特許文献１では、姿勢を検知する方法として一般的なものしか開示されておらず、より精度の高い姿勢検知、及び、行動認識が望まれている。

　そこで、本発明は、複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供することを目的としている。

　本発明は、一又は複数の対象が映った複数の時系列画像を取得する推定側取得部と、対象の複数の関節を識別するための基準を記憶した識別器と、前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出する推定側検出部と、各時系列画像に映った前記複数の関節の座標及び深度を計測する推定側計測部と、前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別する識別部と、前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定する推定部と、を備えたことを特徴とする行動推定装置を提供している。

　このような構成によれば、関節群の全体としての座標及び深度の複数の時系列画像における変位に基づき対象の行動を推定するので、各関節の時系列な変位を個別に追うだけでは実現することができない高精度な行動推定を実現することが可能となる。また、各関節の変位の全てを考慮する必要がないので、ＣＰＵへの負荷を大幅に軽減させることが可能となる。また、行動推定装置、学習装置、及び、撮影手段を準備するだけで、対象側にセンサを装着させる必要や、行動推定装置側に高価で特殊なセンサを備える必要がないので、より簡易かつ安価に行動推定を行うことが可能となる。また、アノテーション技術を駆使して、同一の画像から多くのトレーニングデータを生成することができるので、より安価かつ高精度の行動推定を行うことが可能となる。

　また、前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度の変位を含むことが好ましい。

　このような構成によれば、体の動きと密接に関連した重心の座標及び深度の変位を用いることで、正確に行動を推定することが可能となる。

　また、前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測する予測部を更に備えたことが好ましい

　このような構成によれば、対象が転倒防止機構を装着しているような場合には、転倒防止機構に転倒防止のための作動を瞬時に指示することが可能となる。

　また、前記識別器は、対象の基本姿勢に関する基準を更に記憶しており、前記識別部は、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことが好ましい。

　このような構成によれば、時系列画像に映った対象の数を正確に特定することが可能となる。

　また、前記識別器は、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、前記識別部は、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することが好ましい。

　このような構成によれば、時系列画像に映った対象の数をより正確に特定することが可能となる。

　また、前記識別器は、対象の複数の関節の可動域に関する基準を更に記憶しており、前記識別部は、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することが好ましい。

　また、本発明の別の観点によれば、対象の複数の関節を識別するための基準が記憶されたコンピュータにインストールされるプログラムであって、一又は複数の対象が映った複数の時系列画像を取得するステップと、前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出するステップと、各時系列画像に映った前記複数の関節の座標及び深度を計測するステップと、前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別するステップと、前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定するステップと、を備えたことを特徴とする行動推定プログラムを提供している。

　また、前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度を含むことが好ましい。

　また、前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測するステップを更に備えたことが好ましい。

　また、前記コンピュータは、対象の基本姿勢に関する基準を更に記憶しており、前記識別するステップでは、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことが好ましい。

　また、前記コンピュータは、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、前記識別するステップでは、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することが好ましい。

　また、前記コンピュータは、対象の複数の関節の可動域に関する基準を更に記憶しており、前記識別するステップでは、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することが好ましい。

　本発明の行動推定装置によれば、複数の時系列画像に映った対象の行動を高精度に推定することが可能となる。

本発明の実施の形態による行動推定装置の使用状態の説明図本発明の実施の形態による学習装置及び行動推定装置のブロック図本発明の実施の形態による関節群の説明図本発明の実施の形態による対象数識別の説明図本発明の実施の形態による行動推定装置による行動推定のフローチャート本発明の実施の形態による対象数識別のフローチャート本発明の実施の形態による行動学習のフローチャート

　以下、本発明の実施の形態による行動推定装置１について、図１－図７を参照して説明する。

　行動推定装置１は、図１に示すように、撮影手段Ｘによって撮影された複数の時系列画像Ｙ（動画を構成する各フレーム等）に映った一又は複数の対象Ｚの行動を推定するためのものである（本実施の形態では、理解容易のため、対象Ｚを骨格だけで簡易的に表示している）。行動の推定に当たっては、学習装置２（図２参照）によって学習された情報を参照する。

　まず、学習装置２の構成について説明する。

　学習装置２は、図２に示すように、学習側識別器２１と、学習側取得部２２と、学習側検出部２３と、正解行動取得部２４と、学習側計側部２５と、第１の学習部２６と、第２の学習部２７と、を備えている。

　学習側識別器２１は、対象Ｚの複数の関節Ａ（本実施の形態では、首、右肘、左肘、腰、右膝、左膝）を識別するためのものであり、関節Ａごとに、それぞれを識別するための形状、方向、サイズ等の基準が記憶されている。また、学習側識別器２１には、対象Ｚの様々なバリエーション（“歩行”、“直立”等）の “基本姿勢 “、”各関節Ａの可動域“、一の対象Ｚにおける”各関節Ａ間の距離“に関する基準も記憶されている。

　学習側取得部２２は、正解行動が既知の映像、すなわち、複数の時系列画像Ｙを取得する。この複数の時系列画像Ｙは、行動推定装置１のユーザにより入力される。

　学習側検出部２３は、各時系列画像Ｙに映った複数の関節Ａを検出する。具体的には、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いてモデリングされた推論モデルにより、学習側識別器２１が示す基準に該当する部位を検出する。検出された各関節Ａ（図１では、Ａ１－Ａ１７）は、表示部（図示せず）上に、選択可能に表示される。

　正解行動取得部２４は、複数の時系列画像Ｙに映った対象Ｚの対応する正解行動を、学習側検出部２３により検出された各関節Ａについて取得する。この正解行動は、行動推定装置１のユーザにより入力される。具体的には、ユーザは、学習側取得部２２において対象Ｚが転倒した際の複数の時系列画像Ｙを入力した場合には、正解行動取得部２４には、表示部上で各関節Ａを選択し、正解行動“転倒”を入力することとなる。

　また、本実施の形態では、時系列画像Ｙに複数の対象Ｚが映っている場合には、各対象Ｚに対して正解行動を入力する。この場合、同一の対象Ｚに含まれる関節Ａを特定した上で、各関節Ａに対して正解行動を入力する。例えば、図１の対象Ｚ１に関しては、関節Ａ１－Ａ６を特定した上で、それぞれに対し、正解行動“歩行”を入力する。また、図１の対象Ｚ２に関しては、関節Ａ７－Ａ１１を特定した上で、正解行動“転倒”を入力する。また、図１の対象Ｚ３に関しては、関節Ａ１２－Ａ１７を特定した上で、正解行動“しゃがむ”を入力する。更に、対象Ｚ３に関しては、しゃがんでいるだけでなく、バランスも崩しているので、”各関節Ａ１２－Ａ１７に対し、正解行動“バランスを崩す”を更に入力する。

　学習側計側部２５は、学習側検出部２３により検出された複数の関節Ａの座標及び深度を計測する。この計測は、各時系列画像Ｙに対して行われる。

　例えば、時刻ｔ１の時系列画像Ｙにおける関節Ａ１の座標及び深度は、（ＸＡ１（ｔ１）、ＹＡ１（ｔ１）、ＺＡ１（ｔ１））のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Ｙにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、正解行動取得部２４において各関節Ａの深度を入力しておき、その入力された深度をそのまま用いてもよい。本発明の“学習側計側部による深度の計測”には、このように、入力された深度を用いる場合も含まれる。この場合には、後述する第１の学習部２６は、例えば、「この関節のサイズ、角度等であれば、○○ｍの距離である」と学習していくことになる。

　第１の学習部２６は、各対象Ｚに属する複数の関節Ａの全体としての座標及び深度の複数の時系列画像Ｙにおける変位を学習する。具体的には、正解行動取得部２４において特定された各対象Ｚに属する複数の関節Ａを関節群Ｂ（図３参照）と識別した上で、当該関節群Ｂ全体としての座標及び深度の複数の時系列画像Ｙにおける変位を学習する。

　関節群Ｂの全体としての座標及び深度の変位としては、検出された全ての関節Ａの座標の中心点の座標及び深度の変位や、体の動きと密接に関連した重心の座標及び深度の変位を用いることが考えられる。また、これらの両方を用いたり、これらに加えて各関節Ａの座標及び深度の変位も考慮して、より精度を高めてもよい。なお、重心の座標及び深度は、各関節Ａの座標及び深度と、各関節Ａ（筋肉、脂肪等を含む）の重量と、を考慮して算出することが考えられる。この場合、各関節Ａの重量は、学習側識別器２１等に記憶させておけばよい。

　第２の学習部２７は、第１の学習部２６で学習された関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位を、正解行動取得部２４で入力された正解行動と対応付けて学習する。例えば、正解行動“前方への転倒”の場合、関節群Ｂの全体としての座標の変位は、“第１の距離だけ下方へ進む”、関節群Ｂの全体としての深度の変位は、“第２の距離だけ前方へ進む”というように学習することになる。

　続いて、行動推定装置１の構成について説明する。

　行動推定装置１は、図２に示すように、推定側識別器１１と、推定側取得部１２と、推定側検出部１３と、推定側計側部１４と、識別部１５と、推定部１６と、を備えている。

　推定側識別器１１は、対象Ｚの複数の関節Ａ（肘、肩、腰、膝等）を識別するためのものであり、関節Ａごとに、それぞれを識別するための形状、方向、サイズ等の基準が記憶されている。また、学習側識別器２１には、対象Ｚの様々なバリエーション（“歩行”、“直立”等）の“基本姿勢 “、”各関節Ａの可動域“、一の対象Ｚにおける”各関節Ａ間の距離“に関する基準も設けられている。本実施の形態では、学習側識別器２１と同一のものを用いるものとする。

　推定側取得部１２は、撮影手段Ｘに接続されており、撮影手段Ｘにより撮影された映像、すなわち、複数の時系列画像Ｙを取得する。本実施の形態では、複数の時系列画像Ｙをリアルタイムで取得するものとするが、行動推定装置１の使用目的によっては、後から取得するようにしてもよい。

　推定側検出部１３は、各時系列画像Ｙに映った複数の関節Ａを検出する。具体的には、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いてモデリングされた推論モデルにより、推定側識別器１１に記憶された関節Ａを識別するための基準に該当する部位を検出する。推定側検出部１３が関節Ａを検出した場合には、時系列画像Ｙに一又は複数の対象Ｚが映っていると考えることができる。

　推定側計側部１４は、推定側検出部１３により検出された複数の関節Ａの座標及び深度を計測する。この計測は、各時系列画像Ｙに対して行われる。

　例えば、時刻ｔ１の時系列画像Ｙにおける関節Ａ１の座標及び深度は、（ＸＡ１（ｔ１）、ＹＡ１（ｔ１）、ＺＡ１（ｔ１））のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Ｙにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、第１の学習部２６によって深度の学習が行われている場合には、第１の学習部２６を参照して深度を特定してもよい。本発明の“推定側計側部による深度の計測”には、このように、第１の学習部２６で学習された深度を用いる場合も含まれる。

　識別部１５は、第１の学習部２６を参照して、推定側計側部１４により計測された各関節Ａの座標及び深度の複数の時系列画像Ｙにおける変位に基づき、複数の関節Ａの中から、各対象Ｚに属する関節群Ｂを識別する。図１及び図３では、関節Ａ１－Ａ６が対象Ｚ１に属する関節群Ｂ１であり、関節Ａ７－Ａ１１が対象Ｚ２に属する関節群Ｂ２であり、関節Ａ１２－Ａ１７が対象Ｚ３に属する関節群Ｂ３であると識別することになる。

　ここで、本実施の形態では、各対象Ｚに属する複数の関節群Ａ（関節群Ｂ）の識別に当たり、まず、対象Ｚの数の特定を行う。対象Ｚの数の特定に当たっては、推定側識別器１１に記憶された“基本姿勢”に関する基準に基づき、（１）対象Ｚの数の推定を行い、続いて、複数の関節Ａの種類ごとの個数に基づき、（２）対象Ｚの数の特定を行う。

　（１）対象Ｚの数の推定

　対象Ｚの数の推定では、推定側識別器１１に記憶された“基本姿勢”に関する基準に該当する複数の関節Ａを推定する。図１の例では、推定側検出部１３により、関節Ａ１－Ａ１７が検出されることになるが、このうち、関節Ａ１－Ａ６、及び、関節Ａ７－１１に関しては、“基本姿勢”に含まれる関節Ａであると判断され、２つの対象Ｚが存在すると推定される。また、関節Ａ１２－１４に関しては、“基本姿勢”の一部であると判断され、１つの対象Ｚが存在すると推定される。

　一方、イレギュラーな位置にある関節Ａ１５－１７に関しては、“基本姿勢”の一部であるとは判断されず、それぞれが個別の対象Ｚと推定されることになる。

　従って、この場合、図４に示すように、“関節Ａ１－Ａ６”、“関節Ａ７－１１”、“Ａ１２－Ａ１４”、“関節Ａ１５”、“関節Ａ１６”、“関節Ａ１７”の合計６つの対象Ｚ１’－Ｚ６’が存在するものと推定されることになる。

　（２）対象Ｚの数の特定

　続いて、推定された対象Ｚの数と、複数の関節Ａの種類ごとの個数と、に基づき、対象Ｚの数の特定を行う。

　例えば、図４では、対象Ｚ１’には、６つの関節Ａ（“頭”、“右肘”、“左肘”、“腰”、“右膝”、“左膝”）が、対象Ｚ２’には、５つの関節Ａ（“頭”、“右肘”、“左肘”、“腰”、“左膝”）が、対象Ｚ３’には、３つの関節Ａ（“頭”、“右肘”、“左肘”）が、対象Ｚ４’には、１つの関節Ａ（“腰”）が、対象Ｚ５’には、１つの関節Ａ（“右膝”）が、対象Ｚ６’には、１つの関節Ａ（“左膝”）が含まれている。

　この場合、それぞれ３つずつ存在する“頭”、“右肘”、“左肘”、“腰”、“左膝”の関節Ａが最も多く存在する種類の関節Ａとなるので、最終的には、全部で３つの対象Ｚが存在すると特定されることになる。

　（３）各対象Ｚに属する複数の関節群Ａ（関節群Ｂ）の識別

　各対象Ｚに属する複数の関節群Ａ（関節群Ｂ）の識別では、（Ａ）対象Ｚ’の“メイン対象”と“サブ対象”への分類、（Ｂ）“サブ対象”の“メイン対象”への連結、を行う。

　（Ａ）対象Ｚ’の“メイン対象”と“サブ対象”への分類

　ここでは、まず、対象Ｚ１’－Ｚ６’を、“メイン対象”と“サブ対象”に分類する。

　図４に示す例では、「（２）対象Ｚの数の特定」において、全部で３つの対象Ｚが存在すると特定されているので、検出された関節Ａの数が多い順に３つの対象Ｚ１’、Ｚ２’、Ｚ３’を“メイン対象”、その他の対象Ｚ４’、Ｚ５’、Ｚ６’を“サブ対象”に分類する。

　（Ｂ）“サブ対象”の“メイン対象”への連結

　続いて、推定側識別器１１に記憶された“各関節Ａの可動域”及び”各関節Ａ間の距離“に関する基準を考慮して、“サブ対象”Ｚ４’、Ｚ５’、Ｚ６’を、分類された “メイン対象”Ｚ１’、Ｚ２’、Ｚ３’のうちのいずれかに連結可能がどうかを判断する。

　図４では、“サブ対象”Ｚ４’（“腰”）、Ｚ５（“右膝”）’、Ｚ６’（“左膝”）は、“メイン対象”Ｚ３’と連結した場合に、“各関節Ａの可動域”及び“各関節Ａ間の距離”に不自然なところがないため、“メイン対象”Ｚ３’に連結可能と判断され、これらを連結し、各対象Ｚ１－Ｚ３に属する複数の関節Ａ（関節群Ｂ）を決定することになる。

　なお、図１に示すように、対象Ｚ２に関しては、対象Ｚ３に隠れて、“右膝”のデータが欠損していることになるが、識別部１５は、推定側識別器１１に記憶された“基本姿勢”、“各関節Ａの可動域”、“各関節Ａ間の距離”に関する基準を考慮して、その他の関節Ａ７－Ａ１１の位置から推定される位置に“右膝”が存在するものとして座標を与え、前後の時系列画像Ｙで“左膝”を検出した場合に連続動作として扱うことになる。また、上記連結は、分類された“メイン対象”が１つの場合を除外するものではない。

　図２に戻り、推定部１６は、第２の学習部２７を参照して、識別部１５で識別された関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき、対象Ｚの行動を推定する。具体的には、第２の学習部２７を参照して、様々な行動の選択肢（「転倒」、「歩行」、「走行」、「投球」等）の中から、確率の高い一又は複数の行動が選択されることになる。すなわち、行動推定装置１では、各対象Ｚの関節群Ｂ全体としての座標及び深度を、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）を用いた時系列の推論モデルにインプットし、「ｗａｌｋｉｎｇ」「ｓｔａｎｄｉｎｇ」といった行動識別ラベルをアウトプットすることになる。

　ここで、対象Ｚの行動というものは、各関節Ａの時系列な変位によってある程度は推定できるが、各関節Ａの時系列な変位を個別に追うだけでは、高精度に行動を推定することは難しい。そこで、本実施の形態では、一の対象Ｚに属する関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき、対象Ｚの行動を推定することで、高精度な行動推定を実現している。

　続いて、図５及び図６のフローチャートを用いて、行動推定装置１による“各対象Ｚに属する関節群Ｂの識別”及び“各対象Ｚの行動の推定”について説明する。

　まず、推定側取得部１２が複数の時系列画像Ｙを取得すると（Ｓ１）、推定側検出部１３により、各時系列画像Ｙに映った複数の関節Ａが検出される（Ｓ２）。

　続いて、推定側計側部１４により、Ｓ２で検出された複数の関節Ａの座標及び深度が計測される（Ｓ３）。この計測は、各時系列画像Ｙに対して行われる。

　続いて、識別部１５により、Ｓ３で計測された各関節Ａの座標及び深度の複数の時系列画像Ｙにおける変位に基づき、複数の関節Ａの中から、各対象Ｚに属する関節群Ｂが識別される（Ｓ４）。

　この“各対象Ｚに属する関節群Ｂの識別”に関しては、図６のフローチャートに示すように、まず、学習側識別器２１に記憶された“基本姿勢”に関する基準に基づき、対象Ｚの数の推定を行う（Ｓ４１）。

　図４に示す例では、“関節Ａ１－Ａ６”、“関節Ａ７－１１”、“Ａ１２－Ａ１４”、“関節Ａ１５”、“関節Ａ１６”、“関節Ａ１７”の合計６つの対象Ｚ１’－Ｚ６’が存在すると推定されることになる。

　続いて、複数の関節Ａの種類ごとの個数に基づき、対象Ｚの数の特定を行う（Ｓ４２）。

　図４に示す例では、それぞれ３つずつ存在する“頭”、“右肘”、“左肘”、“腰”、“左膝”の関節Ａが最も多く存在する種類の関節Ａとなるので、全部で３つの対象Ｚが存在すると特定されることになる。

　続いて、対象Ｚ１’－Ｚ６’を、“メイン対象”と“サブ対象”に分類する（Ｓ４３）。

　図４に示す例では、含まれる関節Ａの数が多い上位３つの対象Ｚ１’、Ｚ２’、Ｚ３’を“メイン対象”、その他の対象Ｚ４’、Ｚ５’、Ｚ６’を“サブ対象”に分類する。

　続いて、推定側識別器１１に記憶された“各関節Ａの可動域”に関する基準を考慮して、“サブ対象”Ｚ４’、Ｚ５’、Ｚ６’を、いずれかの“メイン対象”Ｚ１’、Ｚ２’、Ｚ３’に連結可能がどうかを判断する（Ｓ４４）。

　連結可能と判断された場合には（Ｓ４４：ＹＥＳ）、これらを連結し（Ｓ４５）、各対象Ｚに属する複数の関節Ａ（関節群Ｂ）を決定することになる（Ｓ４６）。

　図４に示す例では、サブ対象Ｚ４’（“腰”）、Ｚ５（“右膝”）’、Ｚ６’（“左膝”）は、全て、メイン対象Ｚ３’に連結可能と判断され、連結されることになる。

　そして、図５に戻り、最後に、推定部１６により、Ｓ４で識別された関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき、対象Ｚの行動を推定する（Ｓ５）。

　このような構成を有する行動推定装置１は、例えば、介護施設において、被介護者がいる室内を常時撮影し、撮影された映像に基づき被介護者（対象Ｚ）が転倒したこと等を推定した場合に、その旨を介護者へ報知する等の用途で用いることができる。

　なお、上記した行動推定装置１による“各対象Ｚの行動の推定”には、学習装置２による“各対象Ｚの行動の学習”が前提となるので、図７のフローチャートを用いて、学習装置２による“各対象Ｚの行動の学習”について説明する。

　まず、学習側取得部２２が複数の時系列画像Ｙを取得すると（Ｓ２１）、学習側検出部２３により、各時系列画像Ｙに映った複数の関節Ａが検出される（Ｓ２２）。

　続いて、正解行動取得部２４により、学習側検出部２３により検出された各関節Ａに対して正解行動が取得されると（Ｓ２３）、学習側計側部２５により、Ｓ２２で検出された複数の関節Ａの座標及び深度が計測される（Ｓ２４）。この計測は、各時系列画像Ｙに対して行われる。

　続いて、第１の学習部２６により、各対象Ｚに属する複数の関節Ａの全体としての座標及び深度の複数の時系列画像Ｙにおける変位が学習される（Ｓ２５）。

　そして、最後に、第２の学習部２７により、第１の学習部２６で学習された関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位を、正解行動取得部２４で入力された正解行動と対応付けて学習する（Ｓ２６）。

　以上説明したように、本実施の形態による行動推定装置１では、複数の関節Ａ（関節群Ｂ）の全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき、対象Ｚの行動を推定する。

　このような構成によれば、関節群Ｂの全体としての座標及び深度の複数の時系列画像Ｙにおける変位に基づき対象Ｚの行動を推定するので、各関節Ａの時系列な変位を個別に追うだけでは実現することができない高精度な行動推定を実現することが可能となる。また、各関節Ａの変位の全てを考慮する必要がないので、ＣＰＵへの負荷を大幅に軽減させることが可能となる。また、行動推定装置１、学習装置２、及び、撮影手段Ｘを準備するだけで、対象Ｚ側にセンサを装着させる必要や、行動推定装置１側に高価で特殊なセンサを備える必要がないので、より簡易かつ安価に行動推定を行うことが可能となる。また、アノテーション技術を駆使して、同一の画像から多くのトレーニングデータを生成することができるので、より安価かつ高精度の行動推定を行うことが可能となる。

　また、本実施の形態による行動推定装置１では、関節群Ｂの全体としての座標及び深度の変位は、関節群Ｂの重心の座標及び深度の変位を含んでいる。

　また、本実施の形態による行動推定装置１では、“基本姿勢”に関する基準に基づき、各時系列画像Ｙに映った対象Ｚの数の推定を行い、推定された対象Ｚの数と、検出された複数の関節Ａの種類ごとの個数と、に基づき、時系列画像Ｙに映った対象Ｚの数の特定を行う。

　このような構成によれば、時系列画像Ｙに映った対象Ｚの数を正確に特定することが可能となる。

　また、本実施の形態による行動推定装置１では、対象Ｚの数の特定に当たり、数が推定された対象Ｚ’を、“メイン対象”と、それ以外の“サブ対象”と、に分類し、“複数の関節Ａの可動域” 及び”各関節Ａ間の距離“に関する基準を考慮して、サブ対象を分類されたメイン対象のうちのいずれかに連結し、その際、検出された関節Ａの数が多い順に、特定された数だけ、“メイン対象”に分類する。

　このような構成によれば、時系列画像Ｙに映った対象Ｚの数をより正確に特定することが可能となる。

　また、本実施の形態による学習装置２では、複数の関節Ａ（関節群Ｂ）の全体としての座標及び深度の複数の時系列画像Ｙにおける変位を、正解行動と対応付けて学習する。

　このような構成によれば、行動推定装置１に対し、高精度な行動推定を実現するための情報を提供することが可能となる。

　また、本実施の形態による学習装置２では、関節群Ｂの全体としての座標及び深度の変位は、関節群Ｂの重心の座標及び深度の変位である。

　このような構成によれば、行動推定装置１に対し、より高精度な行動推定を実現するための情報を提供することが可能となる。

　尚、本発明の行動推定装置は、上述した実施の形態に限定されず、特許請求の範囲に記載した範囲で種々の変形や改良が可能である。

　例えば、上記実施の形態では、対象Ｚの行動推定に当たり、関節群Ｂの座標及び深度の複数の時系列画像Ｙにおける変位を考慮したが、各関節Ａの複数の時系列画像Ｙにおける変位を更に考慮してもよい。

　また、上記実施の形態では、深度をＺ（ｔ）の座標で表したが、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Ｙにおける相対的な深度で表してもよい。

　また、上記実施の形態では、複数の時系列画像Ｙにおける対象Ｚの行動を推定したが、複数の時系列画像Ｙの後に起こるであろう行動を予測してもよい。例えば、対象Ｚの体が倒れる動作を学習装置２に学習させておき、行動推定装置１において、複数の時系列画像Ｙが倒れる動作の前半部分であった場合、複数の時系列画像Ｙの後に転倒するものと予測することができる。従って、対象Ｚが転倒防止機構を装着しているような場合には、転倒防止機構に転倒防止のための作動を瞬時に指示することが可能となる。

　また、上記実施の形態では、対象Ｚの数の特定において、検出された関節Ａの数が多い順に、特定された数（３つ）だけ、“メイン対象”に分類したが、“基本姿勢”又は“基本姿勢”の一部であると判断された関節Ａを含む対象Ｚ’を“メイン対象”に分類する方法も考えられる。

　また、上記実施の形態では、対象Ｚとして人間を例に説明したが、動物やロボットの行動を推定するために使用することも可能である。また、上記実施の形態では、複数の関節Ａとして、首、右肘、左肘、腰、右膝、左膝を例に説明を行ったが、その他の関節や、より多くの関節Ａを用いてもよいことは言うまでもない。

　また、本発明は、行動推定装置１及び学習装置２が行う処理に相当するプログラムや、当該プログラムを記憶した記録媒体にも応用可能である。記録媒体の場合、コンピュータ等に当該プログラムがインストールされることとなる。ここで、当該プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体としては、ＣＤ－ＲＯＭ等が考えられるが、それに限定されるものではない。

１           行動推定装置
２           学習装置
１１       推定側識別器
１２       推定側取得部
１３       推定側検出部
１４       推定側計側部
１５       識別部
１６       推定部
２１       学習側識別器
２２       学習側取得部
２３       学習側検出部
２４       正解行動取得部
２５       学習側計側部
２６       第１の学習部
２７       第２の学習部
Ａ           関節
Ｂ           関節群
Ｘ           撮影手段
Ｙ           時系列画像
Ｚ           対象

Claims

　一又は複数の対象が映った複数の時系列画像を取得する推定側取得部と、
　対象の複数の関節を識別するための基準を記憶した識別器と、
　前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出する推定側検出部と、
　各時系列画像に映った前記複数の関節の座標及び深度を計測する推定側計測部と、
　前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別する識別部と、
　前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定する推定部と、
を備えたことを特徴とする行動推定装置。
　前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度の変位を含むことを特徴とする請求項１に記載の行動推定装置。
　前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測する予測部を更に備えたことを特徴とする請求項１又は２に記載の行動推定装置。
　前記識別器は、対象の基本姿勢に関する基準を更に記憶しており、
　前記識別部は、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことを特徴とする請求項１から３のいずれか一項に記載の行動推定装置。
　前記識別器は、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、
　前記識別部は、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することを特徴とする請求項４に記載の行動推定装置。
　前記識別器は、対象の複数の関節の可動域に関する基準を更に記憶しており、
　前記識別部は、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することを特徴とする請求項４に記載の行動推定装置。
　対象の複数の関節を識別するための基準が記憶されたコンピュータにインストールされるプログラムであって、
　一又は複数の対象が映った複数の時系列画像を取得するステップと、
　前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出するステップと、
　各時系列画像に映った前記複数の関節の座標及び深度を計測するステップと、
　前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別するステップと、
　前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定するステップと、
を備えたことを特徴とする行動推定プログラム。
　前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度を含むことを特徴とする請求項７に記載の行動推定プログラム。
　前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測するステップを更に備えたことを特徴とする請求項７又は８に記載の行動推定プログラム。
　前記コンピュータは、対象の基本姿勢に関する基準を更に記憶しており、
　前記識別するステップでは、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことを特徴とする請求項７から９のいずれか一項に記載の行動推定プログラム。
　前記コンピュータは、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、
　前記識別するステップでは、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することを特徴とする請求項１０に記載の行動推定プログラム。
　前記コンピュータは、対象の複数の関節の可動域に関する基準を更に記憶しており、
　前記識別するステップでは、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することを特徴とする請求項１０に記載の行動推定プログラム。