WO2023079783A1

WO2023079783A1 - 行動認識方法、行動認識装置、及び行動認識プログラム

Info

Publication number: WO2023079783A1
Application number: PCT/JP2022/023524
Authority: WO
Inventors: 信彦若井; 恵大飯田
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-11-05
Filing date: 2022-06-10
Publication date: 2023-05-11
Also published as: CN118176530A; JPWO2023079783A1; US20240282147A1

Abstract

行動認識装置は、カメラが撮影した画像からユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された複数の骨格点から、カメラが検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた検知可能骨格点の基準信頼度と、抽出された検知可能骨格点の信頼度と、を比較することにより、複数の対象行動から１以上の候補行動を決定し、１以上の候補行動からユーザの行動を決定し、決定した行動を示す行動ラベルを出力する。

Description

行動認識方法、行動認識装置、及び行動認識プログラム

　本開示は画像からユーザの行動を認識する技術に関するものである。

　特許文献１は、処理負荷を増大させることなく高精度な行動認識を行うことを目的として、画像から人を含む人領域を検出し、検出した人領域に映る人の姿勢種別と人の周辺の物体の物体種別とを推定し、姿勢種別と物体種別との組み合わせから人の行動を認識する技術を開示する。

　特許文献２は、人物以外の映像領域の影響を受けることなく人物の行動を高精度に認識することを目的として、映像データから抽出された人物のスケルトン情報から認識した人物の行動のスコアと、スケルトン情報の囲み領域から認識した人物の行動のスコアと、を統合し、統合スコアを出力する技術を開示する。

　しかしながら、上記従来の行動認識技術は、良好なカメラの位置及びアングルでユーザの全身を撮影することが前提とされているので、全身が写っていない画像からユーザの行動を高精度に認識することができないという課題がある。

特開２０１８－２０６３２１号公報特開２０１９－１４４８３０号公報

　本開示は、このような課題を解決するためになされたものであり、全身が写っていない画像であっても高精度にユーザの行動を認識する技術を提供することを目的とする。

　本開示の一態様における画像認識方法は、ユーザの行動を認識する行動認識装置における行動認識方法であって、前記行動認識装置のプロセッサが、撮影装置が撮影した前記ユーザの画像を取得し、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、前記１以上の候補行動から前記ユーザの前記行動を決定し、決定した前記行動を示す行動ラベルを出力する。

　本開示によれば、全身が写っていない画像であっても高精度にユーザの行動を認識できる。

本開示の実施の形態における行動認識システムの構成の一例を示すブロック図である。推定部が推定する骨格点を含む骨格情報の一例を示す図である。データベース記憶部の詳細な構成を示す図である。第１データベースのデータ構成の一例を示す図である。第２データベースのデータ構成の一例を示す図である。第３データベースのデータ構成の一例を示す図である。本開示の実施の形態の行動認識装置の処理の一例を示すフローチャートである。行動ラベルの決定処理の一例を示すフローチャートである。行動中のユーザをカメラが撮影した画像一例を示す図である。

　（本開示の基礎となる知見）
　近年、画像から人の骨格点を推定し、推定した骨格点に基づいてユーザの行動を認識する手法が知られている。このような認識手法においては、畳み込み層やプーリング層を含むディープニューラルネットワークを用いて骨格点が推定されており、高精度化が図られている。

　ディープニューラルネットワークは、予め定められた複数の骨格点の全てについて骨格点の座標を算出するように設計されているので、画像内に写っていない信頼度の低い骨格点があってもその骨格点の座標も算出する。このような信頼度の低い骨格点の座標を用いてユーザの行動を認識すると、却って認識精度が低下する。

　従来の認識手法は、センシングに有利なカメラアングルでユーザの全身を撮影した画像を用いることが前提とされている。つまり、従来の認識手法は、ユーザの体の一部が他の物体により隠れている、及び体の一部が画像からはみ出ているというような画像を用いて行動を推定することは想定されていない。そのため、従来の認識手法は、ユーザの全身が撮影されていない画像を用いた場合、ディープニューラルネットワークが算出した信頼度の低い骨格点の座標も用いてユーザの行動を認識する結果、高精度にユーザの行動を認識できないという課題がある。特に、カメラの設置位置に制約のある住宅内においては、このような課題が生じ易い。したがって、従来の認識手法は住宅内におけるユーザの行動を認識するには不十分である。

　本開示は、上記課題に鑑みて創案されたもので、全身が写っていない画像であっても、ユーザの行動を高精度に認識する技術を提供することである。

　この構成によれば、画像から推定された複数の骨格点のうち撮影装置が検知可能な検知可能骨格点が抽出され、検知可能骨格点の信頼度と基準信頼度とを比較することにより候補行動が推定されている。そのため、撮影装置が検知不可能な骨格点を除外してユーザの行動を決定することができ、全身が写っていない画像であってもユーザの行動を高精度に認識することができる。

　上記行動認識方法において、前記行動は、施設に設置された器具又は設備を使用する前記ユーザの行動であってもよい。

　この構成によれば、器具又は設備を使用するユーザの行動を高精度に認識できる。

　上記行動認識方法において、前記設備は、前記ユーザの動作を補助する棒を含み、前記器具は、前記ユーザの動作を補助する台又は椅子を含んでもよい。

　この構成によれば、ユーザの歩行等の動作を補助する棒、台、又は椅子を使用するユーザの行動を高精度に認識できる。

　上記行動認識方法において、前記行動の決定では、前記１以上の候補行動のそれぞれについて、抽出された前記検知可能骨格点の座標と、前記検知可能骨格点の基準座標と、の距離を対象行動ごとに算出し、前記対象行動ごとに算出した前記距離に基づいて前記行動を決定してもよい。

　この構成によれば、１以上の候補行動の中からユーザの行動を高精度に決定できる。

　上記行動認識方法において、前記行動の決定では、前記１以上の候補行動を前記行動として決定してもよい。

　この構成によれば、候補行動をそのままユーザの行動として決定できる。

　上記行動認識方法において、前記１以上の候補行動の決定では、複数の検知可能骨格点の前記信頼度の分布と、前記複数の検知可能骨格点の前記基準信頼度の分布と、の類似度を対象行動ことに算出し、前記対象行動ことに算出した前記類似度に基づいて、前記１以上の候補行動を決定してもよい。

　撮影装置の設置環境からもともと高い信頼度が得られない検知可能骨格点については画像から推定される信頼度は低くなり、逆に高い信頼度が得られる検知可能骨格点については画像から推定される信頼度は高くなるはずである。また、このような傾向は対象行動ごとに異なる。

　この構成によれば、画像から推定された検知可能骨格点の信頼度の分布と、検知可能骨格点の基準信頼度の分布と、の類似度に基づいて、候補行動が決定されているので、撮影装置の設置位置及び対象行動に起因して、もともと低い信頼度しか得られない検知可能骨格点については低い信頼度が得られた場合に類似度が高くなり、対象行動の中からユーザの行動を高精度に決定できる。

　上記行動認識方法において、前記類似度は、複数の検知可能骨格点のそれぞれについて算出された、前記信頼度と前記基準信頼度との差の合計値であってもよい。

　この構成によれば、画像から推定された検知可能骨格点の信頼度の分布と、検知可能骨格点の基準信頼度の分布との類似度を正確に算出できる。

　上記行動認識方法において、前記基準信頼度は、事前推定された前記信頼度が閾値を超える前記検知可能骨格点に付与された真の信頼度と、事前推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に付与された偽の信頼度とを含み、さらに、前記画像から推定された前記信頼度が前記閾値を超える前記検知可能骨格点に真の信頼度を付与し、前記画像から推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に偽の信頼度を付与し、前記類似度は、前記複数の検知可能骨格点のそれぞれにおいて前記信頼度と前記基準信頼度との真偽が一致する前記信頼度の個数であってもよい。

　この構成によれば、事前推定された真の信頼度と事前推定された偽の信頼度とを含む基準信頼度の分布と、画像から推定された信頼度の分布との類似度を正確に算出できる。

　上記行動認識方法において、前記１以上の候補行動の決定では、前記類似度が上位Ｎ（Ｎは１以上の整数）位の対象行動を前記１以上の候補行動として決定してもよい。

　この構成によれば、類似度が高い対象行動を候補行動として決定できる。

　上記行動認識方法において、前記骨格点及び前記信頼度は、前記画像と前記骨格点との関係を機械学習することで得られた学習済みモデルに前記画像を入力することで推定されてもよい。

　この構成によれば、画像から骨格点を正確に推定できる。

　上記行動認識方法において、前記検知可能骨格点の抽出では、各骨格点が前記検知可能骨格点であるか否かを示す情報を規定する第１データベースを参照することで、前記検知可能骨格点を抽出してもよい。

　この構成によれば、検知可能骨格点を速やかに抽出できる。

　上記行動認識方法において、前記１以上の候補行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の前記基準信頼度を規定する第２データベースを参照することで、前記１以上の候補行動を決定してもよい。

　この構成によれば、複数の対象行動のそれぞれについて、検知骨格点の基準信頼度を速やかに取得できるので、１以上の候補行動を速やかに決定できる。

　上記行動認識方法において、前記行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の基準座標を規定する第３データベースを参照することで、前記行動を決定してもよい。

　この構成によれば、複数の対象行動のそれぞれについて、基準可能骨格点の基準座標を速やかに取得できるので、行動を速やかに決定できる。

　上記行動認識方法において、前記検知可能骨格点は、初期設定時において、前記撮影装置が前記ユーザを撮影することで得られた画像の分析結果に基づいて予め決定されたものであってもよい。

　この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、検知可能骨格点を特定できる。

　上記行動認識方法において、前記基準信頼度は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮像することで得られた画像から推定された各骨格点の前記信頼度に基づいて予め算出されたものであってもよい。

　この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、複数の対象行動ごとの基準信頼度を算出できる。

　上記行動認識方法において、前記基準座標は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮影することで得られた画像から推定された各骨格点の座標に基づいて予め算出されたものであってもよい。

　この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、複数の対象行動ごとの骨格点の基準座標を算出できる。

　本開示の別の一態様における行動認識装置は、ユーザの行動を認識する行動認識装置であって、撮影装置が撮影した前記ユーザの画像を取得する取得部と、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定する推定部と、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出する抽出部と、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、前記１以上の候補行動から前記ユーザの前記行動を決定する決定部と、決定した前記行動を示す行動ラベルを出力する出力部と、を備える。

　この構成によれば、上記行動認識方法と同様の作用効果の得られる行動推定装置を提供できる。

　本開示のさらに別の一態様における行動認識プログラムは、ユーザの行動を認識する行動認識方法をコンピュータに実行させる行動認識プログラムであって、前記コンピュータに、撮影装置が撮影した前記ユーザの画像を取得し、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、前記１以上の候補行動から前記ユーザの前記行動を決定し、決定した前記行動を示す行動ラベルを出力する、処理を実行させる。

　この構成によれば、上記行動認識方法と同様の作用効果の得られる行動推定プログラムを提供できる。

　本開示は、このような行動推定プログラムによって動作する行動推定システムとして実現することもできる。また、このようなコンピュータプログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態）
　以下、本開示の実施の形態について図面を参照しながら説明する。図１は、本開示の実施の形態における行動認識システムの構成の一例を示すブロック図である。行動認識システムは、行動認識装置１及びカメラ４を含む。カメラ４は撮影装置の一例である。カメラ４は行動の認識対象となるユーザが居住する住宅内に設置された固定カメラである。カメラ４は、所定のフレームレートでユーザを撮影し、撮影した画像を所定のフレームレートで行動認識装置１に入力する。

　行動認識装置１は、プロセッサ２、メモリ３、及びインターフェイス回路（図略）を含むコンピュータで構成されている。プロセッサ２は、例えば中央演算処理装置である。メモリ３は例えばフラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブ等の不揮発性の書き換え可能な記憶装置である。インターフェイス回路は、例えば通信回路である。

　行動認識装置１は、住宅内に設置されたエッジサーバで構成されてもよいし、住宅内に設置されたスマートスピーカーで構成されてもよいし、クラウドサーバで構成されてもよい。行動認識装置１がエッジサーバで構成される場合、カメラ４と行動認識装置１とはローカルエリアネットワークを介して接続され、行動認識装置１がクラウドサーバで構成される場合、カメラ４と行動認識装置１とはインターネット等の広域通信網を介して接続される。なお、行動認識装置１は一部がエッジ側に設置され、残りがクラウド側に設けられて構成されてもよい。

　プロセッサ２は、取得部２１、推定部２２、抽出部２３、決定部２４、及び出力部２５を含む。取得部２１～出力部２５は中央演算処理装置が行動認識プログラムを実行することで実現されてもよいし、ＡＳＩＣ等の専用のハードウェア回路で構成されてもよい。

　取得部２１は、カメラ４が撮影した画像を取得し、取得した画像をフレームメモリ３１に記憶する。

　推定部２２は、フレームメモリ３１から読み出した画像からユーザの複数の骨格点及び各骨格点の信頼度を推定する。推定部２２は、画像と骨格点との関係を機械学習することで得られた学習済みモデルに画像を入力することで複数の骨格点及び信頼度を推定する。学習済みモデルの一例は、ディープニューラルネットワークである。ディープニューラルネットワークの一例は畳み込み層及びプーリング層等を含む畳み込みニューラルネットワークである。なお、推定部２２は、ディープニューラルネットワーク以外の学習モデルで構成されてもよい。

　図２は、推定部２２が推定する骨格点Ｐを含む骨格情報２０１の一例を示す図である。骨格情報２０１は、一人分の骨格点Ｐを示す情報である。骨格情報２０１は、例えば、左目、右目、左耳、右耳、鼻、左肩、右肩、左腰、右腰、左肘、右肘、左手首、右手首、左膝、右膝、左足首、及び右足首からなる１７の骨格点Ｐを含む。すなわち、推定部２２は、これら１７の骨格点Ｐを推定するように構成されている。更に、骨格情報２０１は、骨格点Ｐ同士の繋がりを示すリンクＬを含む。図２において、破線は顔の輪郭と首の位置とを示す補助線である。骨格点Ｐは、画像上での位置を示すＸ座標、Ｙ座標で表現される。骨格情報２０１は、骨格点Ｐを一意に特定するパーツキーと、骨格点Ｐの座標と、骨格点Ｐの信頼度とで表現される。例えば、骨格情報２０１は、｛パーツキー「右目」：［Ｘ座標、Ｙ座標、信頼度］、パーツキー「左目」：［Ｘ座標、Ｙ座標、信頼度］、・・・、パーツキー「左足首」：［Ｘ座標、Ｙ座標、信頼度］｝というような辞書形式で表現される。

　信頼度は、推定部２２が各骨格点Ｐに対して推定した信頼度である。信頼度は、推定された骨格点Ｐの確からしさを確率で表現したものである。信頼度は、値が大きくなるにつれて確からしさが高くなる。信頼度は、例えば０以上１以下の値を採る。なお、図２の例では、骨格情報２０１は、１７の骨格点Ｐで構成されているが、これは一例に過ぎず、骨格点Ｐの数は、１６以下であってもよいし、１８以上であってもよい。この場合、学習済みモデルを１６以下又は１８以上の所定数の骨格点Ｐを推定するように構成すればよい。また、骨格情報２０１は、図２で示す骨格点Ｐ以外の骨格点（例えば、指及び口等の骨格点）を含んでもよい。

　抽出部２３は、推定部２２により推定された複数の骨格点Ｐから、カメラ４が検知可能な予め定められた検知可能骨格点を抽出する。例えば、抽出部２３は後述する第１データベース４１（図４）を参照して、検知可能骨格点を抽出する。

　決定部２４は、複数の対象行動のそれぞれについて予め定められた検知可能骨格点の基準信頼度と、画像から抽出された検知可能骨格点の信頼度と、を比較することにより、複数の対象行動から１以上の候補行動を決定する。さらに、決定部２４は、１以上の候補行動からユーザの行動を決定する。複数の対象行動は事前に定められている。対象行動は、例えば、住宅内に設置された器具又は設備を使用するユーザの行動である。設備の一例は、ユーザの動作を補助する棒（例えば手すり）であり、器具の一例は、ユーザの動作を補助する台又は椅子である。

　対象行動の一例は、手すりを持つ行動、手すりを持ちながら椅子から立ち上がる行動である。これは一例であり、対象行動は、ユーザが住宅内で行うことが想定される様々な行動が該当する。例えば、対象行動は、料理をする行動であってもよい。料理をする行動の一例は、フライパンを振る行動、包丁を使う行動、冷蔵庫を開け閉めする行動等である。また、対象行動は、洗濯を行う行動、掃除を行う行動であってもよい。洗濯を行う行動の一例は、洗濯物を洗濯機に入れる行動、洗濯物を洗濯機から取り出して干す行動等である。掃除を行う行動の一例は、掃除機を使う行動、雑巾を使う行動等である。また、対象行動は、食事をする行動であってもよい。さらに、対象行動は、ベッドに横たわる行動、ベッドから起き上がる行動、テレビを見る行動、読書をする行動、デスクワークをする行動、歩く動作、立ち上がる動作、座る動作等であってもよい。

　メモリ３は、フレームメモリ３１及びデータベース記憶部３２を含む。フレームメモリ３１は、取得部２１がカメラ４から取得した画像を記憶する。

　データベース記憶部３２は、事前知識として用いられるデータベースを記憶する。図３は、データベース記憶部３２の詳細な構成を示す図である。データベース記憶部３２は、第１データベース４１、第２データベース４２、及び第３データベース４３を含む。

　図４は、第１データベース４１のデータ構成の一例を示す図である。第１データベース４１は、各骨格点が検知可能骨格点であるか否かを示す情報である検知可能性を記憶する。具体的には、第１データベース４１は、骨格点のパーツキーと検知可能性とを対応付けて記憶する。検知可能性は検知可能と検知不可能とを含む。カメラ４の撮影範囲に含まれる骨格点は検知可能となる。一方、カメラ４の撮影範囲に含まれていない骨格点及びカメラ４の撮影範囲に含まれているが遮蔽物等により隠れている骨格点は、検知不可能となる。図４の例では右目～左腰は検知可能であり、右膝～左足首は検知不可能である。第１データベース４１を用いることで、検知不可能な骨格点が後段の処理から除去される。これにより、行動の認識精度が向上される。

　第１データベース４１は、カメラ４の設置後の行動認識装置１の初期設定時に作成される。カメラ４は、設置場所ごとに撮影範囲が異なり、それに伴い、カメラ４が撮影する画像に含まれる骨格点も異なる。そのため、第１データベース４１はカメラ４の設置場所ごとに作成される。例えば、カメラ４がユーザの上半身しか撮影できない場所に設置されている場合、両膝と両足首の骨格点は検出不可能となる。

　検知可能性は、初期設定時において、カメラ４がユーザを撮影することで得られた画像の分析結果に基づいて予め決定される。この分析は、例えば、行動認識装置１を管理する管理者により行われる。初期設定時に、ユーザはカメラ４に自身を撮影させ、その画像を管理者サーバ（図略）に送信する。管理者は管理者サーバが受信した画像を閲覧してどの骨格点が検知可能であり、どの骨格点が検知不可能であるかを目視により分析し、分析結果を行動認識装置１に送信する。行動認識装置１は、送信された分析結果を第１データベース４１に登録する。これにより図４に示す第１データベース４１が得られる。初期設定とは、行動認識装置１を導入したユーザが最初に行う設定である。ここでは、管理者が目視で分析するとして説明したが、これは一例であり、コンピュータが画像処理により分析してもよい。

　図５は、第２データベース４２のデータ構成の一例を示す図である。第２データベース４２は、複数の対象行動のそれぞれについて、検知可能骨格点の基準信頼度を規定するデータベースである。具体的には、第２データベース４２は、対象行動ごとに、検知可能骨格点のパーツキーと基準信頼度とを対応付けて記憶する。基準信頼度は、初期設定時において、複数の対象行動を行ったユーザをカメラ４が撮像することで得られた画像から推定された各骨格点の信頼度に基づいて予め算出される。具体的には、初期設定時において、ユーザに複数の対象行動を順次行ってもらい、対象行動ごとのユーザの画像がカメラ４により撮影される。そして、得られた画像における検知可能骨格点の信頼度が推定部２２により推定され、推定結果に基づいて基準信頼度が決定される。

　図５の例では、初期設定時における信頼度が閾値を超える骨格点は認識可能な骨格点であることを示す真の信頼度が付与され、初期設定時における信頼度が閾値より小さい骨格点は認識できないことを示す偽の信頼度が付与されている。閾値は、例えば、０．１、０．２、０．３等の適宜の値が採用できる。

　信頼度が偽の骨格点は、カメラ４には写っているが、対象となる行動をユーザが行った場合に高い信頼度が得られない骨格点である。本実施の形態では、このような骨格点を認識できない骨格点として取り扱うことで、候補行動の認識精度が高められている。また、第２データベース４２には、第１データベース４１において検知不可能であることが登録された右膝、左膝、右足首、及び左足首の骨格点は、候補行動の決定には用いられないので省かれている。

　図５の例では、信頼度の真偽値が記憶されているが、信頼度の値が記憶されていてもよい。

　図６は、第３データベース４３のデータ構成の一例を示す図である。第３データベース４３は、複数の対象行動のそれぞれについて、検知可能骨格点の基準座標を規定するデータベースである。具体的には、第３データベース４３は、対象行動ごとに、検知可能骨格点のパーツキー及び基準座標配列を対応付けて記憶する。基準座標配列は、初期設定時において対象行動を行ったユーザをカメラ４が撮影することで得られた画像から推定された各検知可能骨格点の座標の配列である。具体的には、初期設定時において、ユーザに複数の対象行動を順次行ってもらい、対象行動ごとに所定フレーム分のユーザの画像がカメラ４により撮影される。そして、得られた画像における検知可能骨格点の座標が推定部２２により推定され、推定された座標が基準座標配列として第３データベース４３に記憶される。

　なお、図６の例では、基準座標配列が記憶されているが、１フレーム分の基準座標が記憶されていてもよい。この場合、１フレーム分の基準座標は、例えば複数フレームの検知可能骨格点の座標の平均値である。なお、基準座標は、骨格座標の重心を基準とする相対座標であってもよい。さらに、基準座標は、特定のユーザの画像でなく、事前に収集された不特定のユーザの画像から推定された骨格点の座標であってもよい。

　第３データベース４３には、第１データベース４１において検知不可能であることが登録された右膝、左膝、右足首、及び左足首の骨格点は、行動の決定には用いられないので省かれている。

　行動認識装置１は、必ずしも単一のコンピュータ装置で実現される必要はなく、端末装置とサーバとを含む分散処理システム（不図示）によって実現されてもよい。この場合、取得部２１、フレームメモリ３１、推定部２２を端末装置に設け、データベース記憶部３２、決定部２４、及び出力部２５をサーバに設けてもよい。この場合、構成要素間でのデータの受け渡しは、広域通信網を介して行われる。

　以上が行動認識装置１の構成である。引き続き、行動認識装置１の処理について説明する。図７は、本開示の実施の形態の行動認識装置１の処理の一例を示すフローチャートである。

　（ステップＳ１）
　取得部２１は、画像を取得してフレームメモリ３１に記憶する。

　（ステップＳ２）
　推定部２２は、フレームメモリ３１から画像を取得し、取得した画像を学習済みモデルに入力することで複数の骨格点と各骨格点の信頼度とを推定する。ここでは、説明を簡単にするために、１枚の画像単位でユーザの行動を推定するものとして説明するが、これは一例であり、複数の画像単位でユーザの行動を推定してもよい。この場合、推定される骨格点及び信頼度は時系列データとなる。

　（ステップＳ３）
　推定部２２は、画像内に複数のユーザが含まれる場合、複数のユーザの中から認識対象となるユーザを選択する。推定部２２は、ステップＳ２の推定において複数の骨格情報２０１が得られた場合、画像内に複数のユーザが含まれると判定すればよい。画像内に複数のユーザが含まれていない場合、ステップＳ３の処理はスルーされる。

　推定部２２は、複数のユーザのうち信頼度が最大のユーザを選択すればよい。或いは、推定部２２は、複数のユーザのうち骨格点の外接矩形の面積が最大のユーザを選択すればよい。或いは、推定部２２は、画像に含まれる特定の物体の位置と、骨格点の重心等の基準点との距離が最小のユーザを選択してもよい。特定の物体の一例は、ドアである。

　ここでは、説明を簡単にするために、画像に複数のユーザが含まれている場合、一人のユーザを選択するものとして説明したが、複数のユーザのそれぞれの行動を同時に推定してもよいし、複数のユーザのそれぞれの行動を順次に推定してもよい。

　（ステップＳ４）
　抽出部２３は、推定部２２により推定された骨格点のうち、第１データベース４１に規定された検知可能骨格点を抽出する。ここでは、第１データベース４１に従って、右目、左目、鼻、・・・、右腰、及び左腰の骨格点が検知可能骨格点として抽出され、右膝、左膝、右足首、及び左足首の骨格点は検知不可能であるので除去される。

　（ステップＳ５）
　決定部２４は、行動ラベルの決定処理を実行する。行動ラベルの決定処理の詳細は図８を用いて後述する。

　（ステップＳ６）
　出力部２５は、決定部２４に決定された行動ラベルを出力する。ここで、行動ラベルの出力態様は、行動認識装置１が適用される行動認識システムに応じて異なる。例えば、行動認識システムが行動ラベルに応じて機器を制御するシステムである場合、出力部２５は、当該機器に行動ラベルを出力する。また、行動認識システムがユーザの行動を管理するシステムの場合、出力部２５は、行動ラベルにタイムスタンプを対応付けてメモリ３に記憶する。

　次に、図７のステップＳ５の行動ラベルの決定処理の詳細について説明する。図８は行動ラベルの決定処理の一例を示すフローチャートである。

　（ステップＳ５１）
　決定部２４は、抽出部２３で抽出された検知可能骨格点の座標及び検知可能骨格点の信頼度を取得する。ここでは、検知可能骨格点である、右目、左目、鼻、・・・、右腰、及び左腰の、座標及び信頼度が取得される。

　（ステップＳ５２）
　決定部２４は、抽出部２３から取得した信頼度の真偽を判定する。ここでは、検知可能骨格点である、右目、左目、鼻、・・・、右腰、及び左腰の信頼度がそれぞれ閾値と比較され、信頼度が閾値を超える検知可能骨格点には真の信頼度が付与され、信頼度が閾値より小さい検知可能骨格点には偽の信頼度が付与される。これにより、検知可能骨格点の信頼度の分布が得られる。閾値は、例えば０．１、０．２、０．３等の適宜の値が採用できる。

　（ステップＳ５３）
　決定部２４は、第２データベース４２に規定された基準信頼度の分布と、ステップＳ５２で得られた検知可能骨格点の信頼度の分布とを対象行動ごとに比較することで、対象行動ごとの類似度を算出する。以下、類似度の算出処理について説明する。

　まず、ステップＳ５２で算出された信頼度の分布を、真偽値の集合Ａとおき、基準信頼度の分布を、真偽値の集合Ｂとおく。また、集合Ａと集合Ｂとにおいて共通する検知可能骨格点同士の真偽値の一致の有無を示す集合を、集合Ｃとおく。集合Ｃは排他的論理和を用いて以下のように表現される。そして、集合Ｃにおいて真の個数が類似度となる。

　Ｃ＝ｎｏｔ（Ａ　ＸＯＲ　Ｂ’）
　但し、Ｂ’は集合Ａから選択されたある１つの検知可能骨格点の、集合Ｂにおける真偽値である。集合Ｃに含まれる真の要素の個数が多いほど、信頼度の分布が対象行動ラベルと一致する度合いが高くなる。例えば、集合Ａを｛右目：真、左目：真、鼻：真、右肩：真、左肩：真、右腰：真、左腰：真、右肘：偽、左肘：真、右手首：真、左手首：真｝とする。第２データベース４２に登録された対象行動「手すりを持つ」の集合をＢとする。この場合、共通する検知可能骨格点同士の真偽値は全て一致しているので、集合Ｃの真の個数は１３となり、類似度は１３となる。

　一方、対象行動「フライパンを使う」の集合をＢとすると、右手首の真偽値が集合Ａと集合Ｂとで異なるので、集合Ｃの真の個数は１２となり、類似度は１２となる。したがって、対象行動「手すりを持つ」は、対象行動「フライパンを使う」よりも類似度が高いので、集合Ａに対応する対象行動である可能性が高いと判定される。

　このように、本実施の形態では、検知可能骨格点であってもカメラ４の設置環境からもともと高い信頼度が得られない検知可能骨格点には、偽の基準信頼度が付与されている。また、このような検知可能骨格点は画像から推定される信頼度も低くなるはずである。そこで、本実施の形態は、集合Ｃの真の個数を類似度として算出する。そのため、集合Ａに対応する行動がどの対象行動に該当するかを高精度に決定できる。

　上記説明では、信頼度と基準信頼度との比較は真偽値で行われたこれは一例である。信頼度と基準信頼度との比較は、信頼度の値と基準信頼度の値との比較であってもよい。この場合、決定部２４は、集合Ａを信頼度の値で構成し、集合Ｂを基準信頼度の値で構成し、集合Ａと集合Ｂとにおいて共通する検知可能骨格点同士の信頼度と基準信頼度との差を算出し、差の合計値Ｄを類似度として算出すればよい。差は、例えば絶対値差又は二乗誤差等である。この場合、合計値Ｄが小さい対象行動ほど、集合Ａに対応する行動に一致する度合が高くなる。

　（ステップＳ５４）
　決定部２４は、対象行動ごとに算出した類似度に基づいて、対象行動の中から候補行動を決定する。例えば、決定部２４は、類似度が集合Ｃにおける真の個数で表現される場合、集合Ｃにおける真の個数が基準個数より大きい対象行動を候補行動として決定すればよい。基準個数は、例えば、５個、８個、１０個、１５個等、適宜の値が採用できる。

　或いは、決定部２４は、類似度が合計値Ｄで表現される場合、合計値Ｄが基準合計値より小さい対象行動を候補行動として決定すればよい。

　或いは、決定部２４は、対象行動を類似度が高い順に並べ、上位Ｎ個の対象行動を候補行動として決定してもよい。Ｎ個は、３個、４個、５個、６個等、適宜の値が採用できる。

　（ステップＳ５５）
　決定部２４は、ステップＳ５１で取得された検知可能骨格点の座標と、第３データベース４３に規定された基準座標とを、ステップＳ５４で決定された候補行動ごとに比較することで、ユーザの行動ラベルを決定する。

　図６を参照する。具体的には、決定部２４は、取得された検知可能骨格点の座標が１フレーム分の座標である場合、基準座標配列のうちの基準フレームに対応する座標を読み出し、読み出した座標と、入力された検知可能骨格点の座標との距離を、検知可能骨格点ごとに算出する。距離は例えばユークリッド距離である。基準フレームは、先頭フレームであってもよいし、中央フレームであってもよいし、先頭フレームから所定番目のフレームであってもよい。

　次に、決定部２４は、検知可能骨格点ごとに算出した距離の平均値を評価値として算出する。決定部２４は、このような処理を候補行動ごとに実行し、候補行動ごとの評価値を算出する。

　次に、決定部２４は、評価値が基準評価値より小さい候補行動をユーザの行動として決定する。基準評価値は、例えば、１０画素、１５画素、２０画素、２５画素等、画像の解像度を考慮して適宜の値が採用できる。

　入力された検知可能骨格点の座標が複数フレーム分の場合、決定部２４は、対応するフレーム同士の距離の平均値を検知可能骨格点ごとに算出し、算出した検知可能骨格点ごとの距離の平均値をさらに平均した値を評価値として算出すればよい。複数フレームが２フレームの場合、対象行動「手すりを持つ」の右目の例では、（３２、６４）と（３７、８４）との基準座標が基準座標配列から読み出される。入力された右目の２フレーム分の座標を（Ｘ１、Ｙ１）、（Ｘ２、Ｙ２）とすると、（３６、６４）及び（Ｘ１、Ｙ１）の距離と、（３７、８４）及び（Ｘ２、Ｙ２）の距離とが算出され、両距離の平均値が対象行動「手すりを持つ」の右目の距離の平均値となる。この距離の平均値が対象行動「手すりを持つ」の他の検知可能骨格点についても算出され、算出された距離の平均値をさらに平均した値が対象行動「手すりを持つ」の評価値となる。

　なお、検知可能骨格点の座標を特徴ベクトルと扱い、特徴ベクトルを学習済みモデルに入力することで、各候補行動の評価値が算出されてもよい。学習済みモデルは、サポートベクターマシン又はディープニューラルネットワークである。

　決定部２４は、候補行動のうち、評価値が基準評価値より小さい候補行動がない場合、行動ラベルの決定結果をその他の行動としてもよい。

　また、決定部２４は、評価値が基準評価値よりも低い候補行動が複数ある場合、評価値が最小の候補行動をユーザの行動ラベルとして決定してもよい。或いは、決定部２４は、評価値が基準評価値よりも低い候補行動が複数ある場合、評価値が小さい順に各候補行動を順位付けし、順位付けされた候補行動を出力するユーザの行動ラベルとして決定してもよい。

　図９は、行動中のユーザをカメラ４が撮影した画像９００の一例を示す図である。画像９００は、玄関の手すり９０２を持つ行動を行うユーザ９０１を含む。ユーザ９０１は、靴の脱ぎ履きのための椅子（図略）に腰かけており、右手を後方に挙げて後方の手すり９０２をつかんでいる。カメラ４は、このユーザ９０１を正面から見下ろすアングルに設置されている。左膝、右膝、左足首、右足首はカメラ４の撮影範囲外であるので、第１データベース４１において、検出不可能な骨格点として記憶されている。

　歩く、座る、立つといった典型的なユーザの行動は、手を下げた姿勢で行われるのが一般的であり、画像９００のように手を挙げた姿勢で行われることは少ない。そのため、骨格点を推定する学習済みモデルにおいて、手を挙げた姿勢の画像が学習データとして用いられるケースは少ない。その結果、学習済みモデルは、ユーザが画像９００のような姿勢をとった場合、骨格点をうまく推定できない可能性が高くなる。また、学習済みモデルは、インターネットから収集した画像を用いて学習が行われることもある。この場合も、学習済みモデルは、典型的な立ち姿勢、歩き姿勢、及び座り姿勢以外の姿勢をとったユーザの骨格点をうまく推定できない可能性が高くなる。

　また、肘又は膝のような体の非端点に位置する骨格点は、手首及び足首のような体の端点に位置する骨格点よりも検知するのが難しい。そのため、画像９００では、右手首の骨格点Ｐは検知されているが、右肘の骨格点は検知に失敗している。なお、画像９００では、右目、左目、及び鼻の骨格点Ｐは検知されている。

　住宅内においてユーザによりよく行われる行動としてフライパンを振る行動がある。フライパンを振る行動は、手を挙げた姿勢で行われる。上述したように、学習済みモデルは、このような手を挙げる姿勢を学習していないことが多いので、学習済みモデルは、フライパンを持つ右手の、右手首の骨格点と右肘の骨格点との推定に失敗する可能性が高い。

　また、このような、推定に失敗する骨格点は、カメラ４の設置環境及び行動に応じて異なる。

　そこで、本実施の形態は、推定に失敗しやすい骨格点が行動ごとに異なることに着目し、そのような骨格点は推定できないものとして取り扱って、ユーザの行動を決定する。具体的には、本実施の形態は、初期設定時に対象行動ごとに信頼度が閾値より大きい骨格点と信頼度が閾値よりも小さい骨格点と分別し、信頼度が閾値よりも大きい骨格点には真の信頼度を付与し、信頼度が閾値よりも小さい骨格点には偽の信頼度を付与し、真の信頼度及び偽の信頼度を第２データベース４２に事前知識として記憶させる。そのため、高精度にユーザの行動を認識できる。特に、本実施の形態は、カメラ４の設置位置に制約の多い住宅内におけるユーザの行動認識において有用である。

　（変形例）
　図８に示すステップＳ５５において、決定部２４は、検知可能骨格点の座標と候補行動の基準座標とを比較する処理を行わなくてもよい。この場合、決定部２４は、ステップＳ５４で決定された候補行動をそのままユーザの行動として決定してもよい。

　本開示の行動認識装置は、住宅内におけるユーザの行動を認識するうえで有用である。

Claims

　ユーザの行動を認識する行動認識装置における行動認識方法であって、
　前記行動認識装置のプロセッサが、
　撮影装置が撮影した前記ユーザの画像を取得し、
　前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、
　推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、
　複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、
　前記１以上の候補行動から前記ユーザの前記行動を決定し、
　決定した前記行動を示す行動ラベルを出力する、
　行動認識方法。
　前記行動は、施設に設置された器具又は設備を使用する前記ユーザの行動である、
　請求項１に記載の行動認識方法。
　前記設備は、前記ユーザの動作を補助する棒を含み、
　前記器具は、前記ユーザの動作を補助する台又は椅子を含む、
　請求項２に記載の行動認識方法。
　前記行動の決定では、前記１以上の候補行動のそれぞれについて、抽出された前記検知可能骨格点の座標と、前記検知可能骨格点の基準座標と、の距離を対象行動ごとに算出し、前記対象行動ごとに算出した前記距離に基づいて前記行動を決定する、
　請求項１記載の行動認識方法。
　前記行動の決定では、前記１以上の候補行動を前記行動として決定する、
　請求項１記載の行動認識方法。
　前記１以上の候補行動の決定では、複数の検知可能骨格点の前記信頼度の分布と、前記複数の検知可能骨格点の前記基準信頼度の分布と、の類似度を対象行動ことに算出し、前記対象行動ことに算出した前記類似度に基づいて、前記１以上の候補行動を決定する、
　請求項１記載の行動認識方法。
　前記類似度は、複数の検知可能骨格点のそれぞれについて算出された、前記信頼度と前記基準信頼度との差の合計値である、
　請求項６に記載の行動認識方法。
　前記基準信頼度は、事前推定された前記信頼度が閾値を超える前記検知可能骨格点に付与された真の信頼度と、事前推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に付与された偽の信頼度とを含み、
　さらに、前記画像から推定された前記信頼度が前記閾値を超える前記検知可能骨格点に真の信頼度を付与し、前記画像から推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に偽の信頼度を付与し、
　前記類似度は、前記複数の検知可能骨格点のそれぞれにおいて前記信頼度と前記基準信頼度との真偽が一致する前記信頼度の個数である、
　請求項６に記載の行動認識方法。
　前記１以上の候補行動の決定では、前記類似度が上位Ｎ（Ｎは１以上の整数）位の対象行動を前記１以上の候補行動として決定する、
　請求項６記載の行動認識方法。
　前記骨格点及び前記信頼度は、前記画像と前記骨格点との関係を機械学習することで得られた学習済みモデルに前記画像を入力することで推定される、
　請求項１記載の行動認識方法。
　前記検知可能骨格点の抽出では、各骨格点が前記検知可能骨格点であるか否かを示す情報を規定する第１データベースを参照することで、前記検知可能骨格点を抽出する、
　請求項１記載の行動認識方法。
　前記１以上の候補行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の前記基準信頼度を規定する第２データベースを参照することで、前記１以上の候補行動を決定する、
　請求項１記載の行動認識方法。
　前記行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の基準座標を規定する第３データベースを参照することで、前記行動を決定する、
　請求項１記載の行動認識方法。
　前記検知可能骨格点は、初期設定時において、前記撮影装置が前記ユーザを撮影することで得られた画像の分析結果に基づいて予め決定されたものである、
　請求項１記載の行動認識方法。
　前記基準信頼度は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮像することで得られた画像から推定された各骨格点の前記信頼度に基づいて予め算出されたものである、
　請求項１～１４のいずれかに記載の行動認識方法。
　前記基準座標は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮影することで得られた画像から推定された各骨格点の座標に基づいて予め算出されたものである、
　請求項４に記載の行動認識方法。
　ユーザの行動を認識する行動認識装置であって、
　撮影装置が撮影した前記ユーザの画像を取得する取得部と、
　前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定する推定部と、
　推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出する抽出部と、
　複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、前記１以上の候補行動から前記ユーザの前記行動を決定する決定部と、
　決定した前記行動を示す行動ラベルを出力する出力部と、を備える、
　行動認識装置。
　ユーザの行動を認識する行動認識方法をコンピュータに実行させる行動認識プログラムであって、
　前記コンピュータに、
　撮影装置が撮影した前記ユーザの画像を取得し、
　前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、
　推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、
　複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から１以上の候補行動を決定し、
　前記１以上の候補行動から前記ユーザの前記行動を決定し、
　決定した前記行動を示す行動ラベルを出力する、処理を実行させる、
　行動認識プログラム。