WO2023195305A1

WO2023195305A1 - 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Info

Publication number: WO2023195305A1
Application number: PCT/JP2023/009509
Authority: WO
Inventors: 朋和小幡
Original assignee: コニカミノルタ株式会社
Priority date: 2022-04-08
Filing date: 2023-03-13
Publication date: 2023-10-12

Abstract

ケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、ケア対象者の姿勢や行動を推定できる情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムを提供する。情報処理装置２００は、キーポイント取得部１１２および補完部１１３を有する。キーポイント取得部１１２は、検出対象の複数フレーム分のキーポイント検出結果を取得する。補完部１１３は、複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。

Description

情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

　本発明は、情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムに関する。

　我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢等により、介護等の対応を必要とする要介護者等（以下、「ケア対象者」と称する）の増加が想定される。病院や老人福祉施設等の施設（以下、単に「施設」と称する）では、介護士や看護師等（以下、「ケアスタッフ」と称する）によってケア対象者へのケア等の対応が行われている。

　また、ケア対象者の増加に伴い、ケアスタッフの負担が増大しており、その負担を軽減するための技術開発が進められている。例えば、ケア対象者の居室にケア対象者の様子を撮影するためのカメラ（例えば、近赤外線カメラ等）を設置し、撮影された画像からケア対象者の姿勢（立位や臥位等）や行動（起床や離床等）を推定する技術が知られている（例えば、特許文献１）。

　しかし、ケア対象者をカメラにより撮影する際に、居室内のケア対象者の位置によっては、ケアスタッフ等の居室内にいる他の人や、備え付けのベッド、椅子等の物体の陰にケア対象者が隠れることにより、ケア対象者の全体または一部が検出できない可能性がある（オクルージョン）。

　これに関連して、対象物の一部の部位が遮蔽された状態で撮影された画像から、遮蔽されている部位を補完して対象物を認識する技術が開示されている（特許文献２）。また、画像における欠損している部分を補間する技術が開示されている（特許文献３）。

特開２０２０－８６８１９号公報特開２０２０－１３５５５１号公報国際公開第２０１９／１８６８３３号

　しかしながら、特許文献２の技術においては、対象物の全体がカメラの視野から遮蔽された状態で撮影された画像からは、対象物を認識することはできない。また、特許文献３の技術においても、人物の全体が欠損している画像からは、欠損している部分を補間することはできない。

　本発明は上述の問題を解決するためになされたものである。すなわち、本発明の主な目的は、ケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、ケア対象者の姿勢や行動を推定できる情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムを提供することである。

　本発明の上記課題は、以下の手段によって解決される。

　（１）検出対象の複数フレーム分のキーポイント検出結果を取得するキーポイント取得部と、前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する補完部と、を有する、情報処理装置。

　（２）前記キーポイント取得部は、時間的に連続する複数フレームの画像を含む動画におけるキーポイント検出結果を取得し、前記補完部は、前記動画におけるキーポイント検出結果を使用して、前記動画において未検出のキーポイントを補完する、上記（１）に記載の情報処理装置。

　（３）前記キーポイント取得部は、少なくとも１つの撮影装置によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する、上記（１）または（２）に記載の情報処理装置。

　（４）前記キーポイント検出結果は、２次元のキーポイントからなる、上記（３）に記載の情報処理装置。

　（５）前記キーポイント取得部は、前記キーポイント検出結果に加えて、キーポイントを内包する矩形をさらに取得する、上記（４）に記載の情報処理装置。

　（６）前記キーポイント検出結果は、複数の関節点の検出結果、または関節点と関節点同士を連結するノードとを含む骨格情報の検出結果である、上記（１）または（２）に記載の情報処理装置。

　（７）前記キーポイント取得部は、前記補完部の処理方法に応じて、取得するキーポイント検出結果のフレーム数を変更する、上記（１）または（２）に記載の情報処理装置。

　（８）前記補完部は、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、前記正解データを目標として機械学習した学習済みモデルを使用して、前記キーポイント検出結果の未検出のキーポイントを補完する、上記（１）または（２）に記載の情報処理装置。

　（９）前記学習モデルは、前記キーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて、未検出のキーポイントを再構成する生成モデルである、上記（８）に記載の情報処理装置。

　（１０）前記学習モデルは、前記複数フレーム分のキーポイント検出結果を入力シーケンスとし、再構成された複数フレーム分のキーポイント検出結果を推論結果とするトランスフォーマーモデルである、上記（８）に記載の情報処理装置。

　（１１）前記補完部によって補完されたキーポイントを使用して、行動推定を行う行動推定部をさらに有する、上記（１）または（２）に記載の情報処理装置。

　（１２）前記補完部によって補完されたキーポイントを使用して、人数推定を行う人数推定部をさらに有する、上記（１）または（２）に記載の情報処理装置。

　（１３）前記補完部によって補完されたキーポイントを使用して、姿勢推定を行う姿勢推定部をさらに有する、上記（１）または（２）に記載の情報処理装置。

　（１４）前記キーポイント取得部は、前記検出対象の複数フレーム分の画像のキーポイントを検出する、上記（１）または（２）に記載の情報処理装置。

　（１５）検出対象の複数フレーム分のキーポイント検出結果を取得する手順（ａ）と、前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する手順（ｂ）と、を含む処理をコンピューターに実行させるための情報処理プログラム。

　（１６）少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける受け付け部と、前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する学習部と、を有する、機械学習装置。

　（１７）少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける手順（ａ）と、前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する手順（ｂ）と、をコンピューターに実行させるための機械学習プログラム。

　本発明においては、検出対象の複数フレーム分のキーポイント検出結果を取得し、当該複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。したがって、検出対象の撮影時に検出対象の全体または一部のキーポイントが他の物体等の陰に隠れて検出できない場合でも、未検出のキーポイントを補完できる。これにより、例えば介護の現場において、検出対象としてのケア対象者を撮影中にケア対象者の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、補完されたキーポイント検出結果を使用してケア対象者の姿勢や行動を推定できる。

本発明の一実施形態に係る情報処理システムの概略構成を例示する図である。図１に示す撮影装置の概略構成を例示するブロック図である。図１に示すサーバーの概略構成を例示するブロック図である。図１に示す携帯端末の概略構成を例示するブロック図である。図１に示すサーバーが情報処理装置として機能する場合における制御部の機能を例示する機能ブロック図である。図５に示す画像取得部により取得された複数フレーム（Ａ）～（Ｆ）を含む画像を例示する図である。画像からケア対象者またはケアスタッフのキーポイントを検出したキーポイント検出結果を例示する模式図である。図１に示すサーバー（制御部）における情報処理方法の処理手順を例示するフローチャートである。図６に示す複数フレームを含む画像のキーポイント検出結果を例示する模式図である。補完されたキーポイント検出結果に基づいて推定された姿勢、人数、および行動の推定結果を例示する図である。補完されたキーポイント検出結果を例示する模式図である。図１に示すサーバーが機械学習装置として機能する場合における制御部の機能を例示する機能ブロック図である。図１２に示す機械学習装置における学習方法の処理手順を例示するフローチャートである。

　以下、図面を参照して、本発明の実施形態に係る情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　＜実施形態＞
　［情報処理システム１０の全体構成］
　図１は、一実施形態に係る情報処理システム１０の概略構成を例示するブロック図である。情報処理システム１０は、例えば、撮影装置１００、サーバー２００、通信ネットワーク３００、および携帯端末４００を含んでいる。撮影装置１００は、通信ネットワーク３００によりサーバー２００と相互に通信可能に接続されている。携帯端末４００は、アクセスポイント３１０を介して通信ネットワーク３００と接続されうる。サーバー２００は、本実施形態の情報処理装置の一具体例に対応する。なお、後述するサーバー２００の機能の一部または全部を撮影装置１００が実行するようにしてもよい。この場合、撮影装置１００が単独で、またはサーバー２００とともに情報処理装置を構成しうる。

　（撮影装置１００）
　図２は、図１に示す撮影装置１００の概略構成を例示するブロック図である。撮影装置１００は、制御部１１０、通信部１２０、およびカメラ１３０を有し、これらはバス１０１によって相互に接続されている。撮影装置１００は、例えば、ケア対象者５１０の居室の天井や壁等に少なくとも１つ設置されている。以下では、撮影装置１００が天井に１つ設置されている場合について例示するが、その個数は１つに限定されない。

　制御部１１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等のメモリにより構成され、情報処置プログラムに従って撮影装置１００の各部の制御および演算処理を行う。

　制御部１１０は、カメラ１３０が所定領域を撮影することにより得られる複数フレーム分の画像（例えば、後述の図６の画像５００）を、通信部１２０によりサーバー２００等へ送信する。所定領域は、例えばケア対象者５１０（図１）の居室の床面全体を含む３次元の領域である。

　通信部１２０は、例えば、通信ネットワーク３００を介して、携帯端末４００等と通信するためのインターフェース回路（例えばＬＡＮカード等）を含んでいる。

　カメラ１３０は、例えば広角カメラである。カメラ１３０は、所定領域を俯瞰する位置、具体的には、ケア対象者５１０の居室の天井等に設置され、当該所定領域を撮影する。ケア対象者５１０は、例えばケアスタッフにより介護または看護を必要とする者である。カメラ１３０は、広角カメラより画角が狭い標準カメラであってもよい。

　以下、説明を簡単にするために、カメラ１３０は、広角カメラであるものとして説明する。カメラ１３０により撮影される画像には、ケア対象者５１０、ケアスタッフ、および物体が含まれうる。物体には、例えば、ベッド６１０、車椅子６２０等が含まれる。カメラ１３０により撮影される画像には、静止画および動画が含まれる。

　カメラ１３０は、例えば近赤外線カメラであり、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（Ｃｏｍｐｌｅｍｅｍｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することにより所定領域を撮影しうる。

　カメラ１３０により撮影される画像は、近赤外線の反射率を各画素とするモノクロ画像でありうる。撮影装置１００は、例えば１５ｆｐｓ～３０ｆｐｓのフレームレートの、時間的に連続する複数の撮影画像（フレーム）からなる動画として撮影領域を撮影しうる。また、カメラ１３０は、近赤外線カメラの代わりに可視光カメラを用いてもよく、これらを併用してもよい。

　（サーバー２００）
　図３は図１に示すサーバー２００の概略構成を例示するブロック図である。サーバー２００は、制御部２１０、通信部２２０、および記憶部２３０を有する。サーバー２００の各構成要素は、バス２０１によって、相互に接続されている。

　制御部２１０および通信部２２０の基本構成は、上記撮影装置１００の制御部１１０および通信部１２０と同様であるため、重複する説明は省略する。制御部２１０の具体的な機能については、後述する。記憶部２３０は、例えば、ＲＡＭ、ＲＯＭ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等により構成される。ＳＳＤには、例えば、情報処理プログラム等のプログラム、後述する学習済みモデルが記憶される。

　（携帯端末４００）
　図４は、図１に示す携帯端末４００の概略構成を例示するブロック図である。携帯端末４００は、制御部４１０、無線通信部４２０、表示部４３０、入力部４４０、および音声入出力部４５０を有している。各構成要素は、バス４０１により相互に接続されている。携帯端末４００は、例えば、タブレット型コンピューター、スマートフォン、または携帯電話等の通信端末機器によって構成されうる。制御部４１０は、撮影装置１００の制御部１１０の構成と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭ等の基本構成を備える。

　無線通信部４２０は、Ｗｉ－ＦｉおよびＢｌｕｅｔｏｏｔｈ（登録商標）等の規格による無線通信を行う機能を有し、アクセスポイント３１０を経由して、または直接に各装置と無線通信する。無線通信部４２０は、イベント通知をサーバー２００から受信する。

　表示部４３０および入力部４４０は、タッチパネルであり、液晶等で構成される表示部４３０の表示面に、入力部４４０としてのタッチセンサーが設けられる。表示部４３０は、サーバー２００から受信したケア対象者５１０の行動を表示する。ケア対象者５１０の行動は、上述したイベント通知を表示することにより表示されてもよい。

　音声入出力部４５０は、例えばスピーカーおよびマイクを含んでいる。この音声入出力部４５０は、無線通信部４２０を介して他の携帯端末４００との間でケアスタッフ相互間の音声通話を可能にする。

　［サーバー２００の機能］
　次に、サーバー２００、具体的には制御部２１０の機能について説明する。図５は、サーバー２００が情報処理装置として機能する場合における制御部２１０の機能を例示する機能ブロック図である。制御部２１０は、例えば、画像取得部２１１、キーポイント検出部２１２、補完部２１３、姿勢推定部２１４、人数推定部２１５、行動推定部２１６、および出力部２１７として機能する。

　画像取得部２１１は、所定領域が撮影された複数フレーム分の画像を取得する。図６は、画像取得部２１１により取得された複数フレーム（Ａ）～（Ｆ）を含む画像５００を例示する図である。画像５００は、例えば、居室において順次（時刻ｔ１，ｔ２，ｔ３，ｔ４，ｔ５，ｔ６）撮影装置１００により撮影された動画でありうる。

　同図は、例えば介護の現場において、ケアスタッフ５２０がケア対象者５１０を車椅子５３０に移乗させる介護の様子を例示する。より具体的には、フレーム（Ａ），（Ｂ）においてケアスタッフ５２０がケア対象者５１０の近くへ移動し、（Ｃ）においてケアスタッフ５２０がケア対象者５１０に車椅子５３０への移乗を説明し、（Ｄ），（Ｅ）において移乗を行い、（Ｆ）において車椅子５３０への移乗が完了する。

　画像取得部２１１は、例えば、撮影装置１００から画像５００を通信部２２０により受信することにより取得する。撮影装置１００により撮影された画像５００が予め記憶部２３０等に記憶されている場合は、画像取得部２１１は、画像５００を記憶部２３０等から読み出すことにより取得してもよい。なお、撮影装置１００により撮影された画像５００は、外部の記憶装置等に記憶されてもよい。また、画像取得部２１１が取得する画像５００は、例えばバッチ処理が施された画像であってもよく、画像取得部２１１はオフラインで画像５００を取得してもよい。

　キーポイント検出部２１２は、画像取得部２１１によって取得された複数フレームの画像を含む画像５００から、検出対象としてケア対象者５１０およびケアスタッフ５２０の各々のキーポイントを検出し、キーポイント検出結果として出力する。あるいは、キーポイント検出部２１２は、検出対象の複数フレーム分のキーポイント検出結果をサーバー２００の外部から受け付けることもできる。キーポイント検出部２１２は、キーポイント取得部として機能する。

　また、キーポイント検出部２１２によって取得されるキーポイント検出結果のフレーム数は、固定されるものではなく、補完部２１３による補完方法によって変更されうる。例えば、キーポイント検出部２１２は、後述する補完部２１３の処理方法に応じて、フレーム数を変更するように構成されうる。また、ユーザーがフレーム数を任意に設定するように構成されてもよい。

　例えば、後述するように、補完部２１３が、機械学習された学習済みモデルを使用して補完処理を行う場合は、学習済みモデルの構成に応じて、フレーム数が設定されうる。例えば、学習済みモデルがキーポイントを再構成するオートエンコーダー（ＡＥ：Ａｕｔｏ－Ｅｎｃｏｄｅｒ）または変分オートエンコーダー（ＶＡＥ：Ｖａｒｉａｔｉｏｎａｌ　Ａｕｔｏ－Ｅｎｃｏｄｅｒ）である場合は、特徴量抽出に必要なフレーム数が設定されうる。また、学習済みモデルがトランスフォーマーモデルである場合は、入力シーケンスに必要なフレーム数が設定されうる。また、補完部２１３が機械学習以外の方法を使用して補完処理を行う場合は、当該補完処理に適したフレーム数が設定される。

　図７に示すように、キーポイント７００は、例えばケア対象者５１０およびケアスタッフ５２０の目、鼻、首、肩、肘、手首、腰、膝、足首等の特徴点（関節点）７１０の２次元または３次元座標を含みうる。キーポイント検出結果は、複数の関節点７１０の検出結果、または複数の関節点７１０と関節点７１０同士を連結するノード７２０とを含む骨格情報の検出結果でありうる。

　キーポイント検出部２１２は、例えばＯｐｅｎＰｏｓｅ（https://arxiv.org/abs/1812.08008）等の公知の手法を使用して、ケア対象者５１０およびケアスタッフ５２０の各々のキーポイント７００を検出しうる。ＯｐｅｎＰｏｓｅは、複数人のキーポイントを同時に検出できるソフトウェアである。

　また、キーポイント検出部２１２は、画像５００に対して物体検出（人物検出）を行い、検出されたケア対象者５１０およびケアスタッフ５２０の各々の各領域について個別に姿勢推定を行うことによりキーポイント７００を検出するように構成されてもよい。

　例えば、キーポイント検出部２１２は、画像５００からケア対象者５１０およびケアスタッフ５２０の人矩形７３０を各々推定し、推定された各々の人矩形７３０についてキーポイント７００を推定することにより、キーポイント７００および人矩形７３０を取得する。

　人矩形７３０は、画像５００におけるケア対象者５１０、またはケアスタッフ５２０のキーポイント７００を内包する領域であり、各々ケア対象者５１０およびケアスタッフ５２０の位置、大きさ、および姿勢を反映しうる。例えば、キーポイント７００が２次元データであり、奥行（高さ）に関する情報を有しない場合、キーポイント７００を内包する人矩形を表示させることにより、奥行方向の位置によって人物（ケア対象者５１０およびケアスタッフ５２０）の見え方が変化する。すなわち、手前の人物は大きく見える一方で、奥の人物は小さく見える。このように、キーポイント７００に加えて、人物のサイズを表す人矩形７３０を有することにより、奥行方向の位置に応じた見かけの大きさの変化にも対応できる。一方、キーポイント７００が３次元データであり、奥行（高さ）に関する情報を有する場合、奥行方向の位置によって見え方の影響を受けないので、人矩形を表示させる必要はない。

　人矩形７３０は、例えば画像から人矩形を推定するように予め学習されたニューラルネットワークの学習済みモデルを使用して推定されうる。画像から人矩形を推定するための学習済みモデルとして、例えばＲ－ＣＮＮ、Ｆａｓｔ　Ｒ－ＣＮＮ、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（https://arxiv.org/abs/1506.01497）、ＹＯＬＯ（https://arxiv.org/abs/1506.02640）、ＳＳＤ（https://arxiv.org/abs/1512.02325）等のモデルが使用されうる。

　キーポイント７００は、人矩形からキーポイントを推定するように予め学習されたニューラルネットワークの学習済みモデルを使用して推定される。人矩形からキーポイントを推定するための学習済みモデルとして、例えば、Ｄｅｅｐ　Ｐｏｓｅ（https://arxiv.org/abs/1312.4659）、ＲｅｓＮｅｔ（https://arxiv.org/abs/1512.03385）等のモデルが使用されうる。

　また、キーポイント検出部２１２は、人物がいない所定領域を撮影装置１００により撮影し、背景画像として記憶しておき、人物がいる所定領域を撮影した撮影画像と上記背景画像との差分に基づいて人矩形７３０を算出するように構成されてもよい（背景差分法）。あるいは、キーポイント検出部２１２は、撮影画像と、過去の撮影画像の平均との差分に基づいて人矩形７３０を算出するように構成されてもよい（時間差分法）。

　このように、キーポイント取得部１１２は、キーポイント検出結果を画像５００から検出するか、または外部から受け付けることによって取得する。また、キーポイント取得部１１２は、キーポイント７００を内包する人矩形７３０を推定、または外部から受け付けることによって取得することもできる。

　補完部２１３は、検出対象の複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果における未検出の（すなわち欠落している）キーポイントを補完し、未検出キーポイントが補完されたキーポイント検出結果を補完結果として出力部２１７に伝達する。例えば、補完部２１３は、複数フレーム分の画像を含む画像５００についてのキーポイント検出結果を使用して、当該キーポイント検出結果における未検出のキーポイントを補完する。

　より具体的には、補完部２１３は、検出対象の複数フレーム分のキーポイント検出結果を学習済みモデルに入力し、当該学習済みモデルを使用して、キーポイント検出結果における未検出のキーポイントを補完する。学習済みモデルは、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、正解データを目標として機械学習することにより生成される。

　学習モデルは、複数フレーム分のキーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて（すなわち、複数フレーム分のキーポイント検出結果の多次元データを入力として）、未検出のキーポイントを再構成する生成モデルでありうる。本実施形態において特徴量は、複数フレーム分の人物の姿勢および位置に関する情報を含む多次元データ（テンソル）である。例えば、生成モデルは、複数フレームにおける人物のキーポイントを入力として、フレーム間における未検出フレームのキーポイントを再構成するＡＥまたはＶＡＥを使用して実現できる。

　また、補完部２１３は、トランスフォーマーによって学習された学習済みモデルを使用して、未検出のキーポイント補完するように構成されうる。トランスフォーマーにおいて、学習モデルは、複数フレーム分のキーポイント検出結果を入力シーケンスとして、再構成されたキーポイント検出結果を推論結果とするトランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルでありうる。例えば、トランスフォーマーモデルは、キーポイント検出結果の未検出のキーポイントを推論するタスクについて予め機械学習を行った学習済みモデルである。トランスフォーマーにおいて、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデル（トランスフォーマーモデル）に入力し、正解データを目標として機械学習することにより学習済みモデルが生成される。

　なお、補完部２１３による補完方法は、このような機械学習を使用して補完処理を行う方法に限定されない。

　姿勢推定部２１４は、補完部２１３による補完結果を使用して、画像５００の特定画像における人物（ケア対象者５１０および／またはケアスタッフ５２０）の各々について姿勢を推定する。姿勢の推定結果は、出力部２１７に伝達される。

　人数推定部２１５は、補完結果を使用して、画像５００の特定画像に含まれる人数を推定する。人数の推定結果は、出力部２１７に伝達される。

　行動推定部２１６は、補完結果を使用して、人物（ケア対象者５１０および／またはケアスタッフ５２０）の各々について行動を推定する。行動の推定結果は、出力部２１７に伝達される。

　出力部２１７は、補完結果を出力する。また、出力部２１７は、補完結果に加えて、姿勢、人数、および行動の推定結果を出力する。これらの推定結果の詳細については後述する。

　［サーバー２００の処理］
　次に、図８～図１１を用いて制御部２１０により実行される処理、すなわち、本発明の情報処理方法の一具体例について説明する。図８は、図１に示すサーバーにおける情報処理方法の処理手順を例示するフローチャートである。なお、図８に示す機能の一部または全部が撮影装置１００により実行される場合は、本フローチャートは、情報処理プログラムに従い、撮影装置１００の制御部１１０により実行されてもよい。また、図９は、図６に示す複数フレームを含む画像のキーポイント検出結果を例示する模式図である。また、図１０は補完結果に基づいて推定した姿勢、人数、および行動の推定結果を例示する図であり、図１１は補完結果を例示する模式図である。

　まず、居室内を撮影した画像を取得する（ステップＳ１０１）。画像取得部２１１は、居室内を撮影した画像データを撮影装置１００から受信することにより画像５００を取得する。

　次に、検出対象の複数フレーム分のキーポイント検出結果を取得する（ステップＳ１０２）。図９に示すように、キーポイント検出部２１２は、画像５００からキーポイントを検出し、複数フレーム分のキーポイント検出結果を取得する。図９におけるフレーム（Ｃ）および（Ｄ）においては、ケア対象者５１０の足または下半身がケアスタッフ５２０の陰に隠れるため、ケア対象者５１０の一部のキーポイントが未検出である。また、同図（Ｅ）に示すフレームおいては、ケア対象者５１０の概ね全身がケアスタッフ５２０の陰に隠れるため、ケア対象者５１０の全部のキーポイントが未検出である。

　次に、キーポイント検出結果の未検出のキーポイントを補完する（ステップＳ１０３）。図１０に示すように、補完部２１３は、複数フレーム分のキーポイント検出結果を使用して、学習済みモデルによりキーポイント検出結果の未検出のキーポイントを補完する。補完部２１３は、例えば、図６における（Ａ）～（Ｆ）の５つフレームのキーポイント検出結果を使用して、同図におけるフレーム（Ｃ）～（Ｅ）におけるケア対象者５１０の未検出のキーポイントを補完する。

　また、姿勢推定部２１４は、補完結果を使用して、ケア対象者５１０およびケアスタッフ５２０の各々について姿勢を推定する。例えば、フレーム（Ａ），（Ｂ）において、ケア対象者５１０の姿勢は「座位」であり、ケアスタッフ５２０の姿勢は「立位」であると推定される。一方、キーポイントが補完されたフレーム（Ｃ），（Ｄ）において、ケア対象者５１０の姿勢は「座位」であり、ケアスタッフ５２０の姿勢は「立位（しゃがみ）」であると推定される。また、キーポイントが補完されたフレーム（Ｅ）において、ケア対象者５１０の姿勢は「座位」であり、ケアスタッフ５２０の姿勢は「立位（前屈）」であると推定される。さらに、フレーム（Ｆ）において、ケア対象者５１０の姿勢は「座位」であり、居室にいるのはケア対象者５１０のみであるため、ケアスタッフ５２０の姿勢は推定されない。

　また、人数推定部２１５は、補完結果を使用して、画像５００特定画像に含まれる人数を推定する。フレーム（Ａ），（Ｂ）において、ケア対象者５１０およびケアスタッフ５２０の２人がいるため人数の推定結果は「２人」となる。また、キーポイントが補完されたフレーム（Ｃ）～（Ｅ）においても、人数の推定結果は「２人」となる。一方、フレーム（Ｆ）において、居室にいるのはケア対象者５１０のみであるため、人数の推定結果は「１人」となる。

　また、行動推定部２１６は、補完結果を使用して、ケアスタッフ５２０の行動を推定する。例えば、フレーム（Ａ），（Ｂ）において、ケアスタッフ５２０の行動は「介護」であると推定される。また、キーポイントが補完されたフレーム（Ｃ）～（Ｅ）においても、ケアスタッフ５２０の行動は「介護」であると推定される。一方、フレーム（Ｆ）において、居室にいるのはケア対象者５１０のみであるため、ケアスタッフ５２０の行動は「非介護」であると推定される。

　次に、補完結果を出力する（ステップＳ１０４）。図１１に示すように、出力部２１７は、例えば、補完結果をディスプレイに表示する。同図においては、ケア対象者５１０の補完されたキーポイントを見易くするため、ケアスタッフ５２０の輪郭線を破線で示すとともに、キーポイントも併せて示している、また、出力部２１７は、補完結果に加えて、図１０に示す姿勢の推定結果、人数の推定結果、および行動の推定結果を表示することもできる。

　このように、図８に示すフローチャートの処理においては、制御部２１０は、検出対象の複数フレーム分のキーポイント検出結果を取得し、複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。また、出力部２１７は、補完結果、および補完結果に基づく推定結果等を出力する。

　（機械学習装置）
　次に、図１０に示す学習済みモデルを生成する機械学習装置について説明する。図１２は図１に示すサーバー２００が機械学習装置として機能する場合における制御部２１０の機能を例示する機能ブロック図であり、図１３は図１２に示す機械学習装置における学習方法の処理手順を例示するフローチャートである。

　図１２に示すように、制御部２１０は、受け付け部２１８、および学習部２１９として機能する。機械学習装置による学習方法の処理手順の概要、および受け付け部２１８、および学習部２１９の各機能の概要は、以下のとおりである。

　図１３に示すように、まず、検出対象の複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける（ステップＳ２０１）。複数フレームは、キーポイント検出結果の少なくとも一部のキーポイントが欠落している欠落フレームを含みうる。受け付け部２１８は、記憶部２３０、または通信部２２０を通じてサーバー２００の外部から、キーポイント検出結果および正解データからなる学習データを受け付ける。学習データは、例えば数千～数十万フレーム分準備されていることが望ましい。

　次に、学習済みモデルを生成する（ステップＳ２０２）。学習部２１９は、検出対象の複数フレーム分のキーポイント検出結果、および正解データを学習モデルに入力し、正解データを目標として、学習モデルを繰り返し機械学習させることにより学習済みモデルを生成する。生成された学習済みモデルは、記憶部２３０に記憶される。学習モデルは、上述の生成モデルまたはトランスフォーマーモデルでありうる。

　［情報処理システム１０の作用効果］
　上述のように、施設等では、撮影装置１００がケア対象者５１０の居室の天井に設置されていることがある。すなわち、撮影装置１００は、ケア対象者５１０の上方向から所定領域を撮影する。このため、撮影装置１００により撮影された一部の画像では、ケア対象者５１０と、ケアスタッフ５２０や物体とが重なることにより、ケア対象者５１０（あるいはケアスタッフ５２０や物体）を検出できない、すなわち、未検出となることがある。

　例えば、ケアスタッフ５２０がケア対象者５１０をベッド６１０から車椅子６２０へ移乗させるときのようにケアスタッフ５２０とケア対象者５１０との距離が近い場合、天井から居室内を俯瞰するカメラ１３０の視野がケアスタッフ５２０により遮られることにより、ケア対象者５１０を検出できない場合がある。その結果、画像５００からはケアスタッフ５２０によってケア対象者５１０の介護が行われているように判定されず、ケアスタッフ５２０の行動推定に誤りが生じる可能性がある。

　本実施形態の情報処理装置、および情報処理プログラムによれば、検出対象の複数フレーム分のキーポイント検出結果を取得し、当該複数フレーム分のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。すなわち、従来の関節点補完技術においては、単一の静止画に対してキーポイントを補間するのに対して、本実施形態の情報処理装置、および情報処理プログラムは、複数フレームの画像からなる画像５００から検出したキーポイント検出結果に対して未検出のキーポイントを補完する技術である。これにより、撮影対象の人物が撮影装置１００から見えない位置にいる場合、すなわち全てのキーポイントが未検出になっているフレームに対してもキーポイントを補完できる。

　したがって、例えば介護の現場において、ケア対象者５１０を撮影中にケア対象者５１０の全体または一部が他の人や物体の陰に隠れて検出できない場合でも、補完されたキーポイントを使用してケア対象者５１０の姿勢や行動を推定できる。なお、以上では、ケアスタッフ５２０の陰に隠れたケア対象者５１０の未検出のキーポイントを補完する場合について主に説明したが、本発明はこのような場合に限定されない。本発明は、ケア対象者５１０の陰に隠れたケアスタッフ５２０の未検出のキーポイントや、物体の陰に隠れたケア対象者５１０の未検出のキーポイントを補完する場合についても適用できる。また、介護分野以外でも、監視カメラ分野、スポーツ分野等において、画像から姿勢推定を行った際に人物の未検出が発生した場合でも、当該技術を用いることにより未検出のキーポイントを補完できる。これにより、検出対象の姿勢推定、行動推定、および人数推定の精度が向上する。

　また、本実施形態では、キーポイント検出部２１２は、少なくとも１つの撮影装置１００によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する。例えば、キーポイント検出部２１２は、所定領域を１つの撮影装置１００によって撮影された複数フレーム分の静止画に対して推定された２次元のキーポイント検出結果を取得する。そして、補完部２１３は、複数フレーム分の２次元のキーポイント検出結果を使用して、キーポイント検出結果の未検出のキーポイントを補完する。したがって、モーションキャプチャー等の特殊な装置を使用して、ケア対象者５１０およびケアスタッフ５２０の関節点の位置（３次元）を測定する必要がない。そのため、本実施形態は、介護分野や監視カメラ分野等、３次元データを計測するためのセンサーを検出対象に装着することが困難であり、検出対象の３次元データを取得できない分野においても適用できる。一方、キーポイント検出部２１２は、所定領域を２つの撮影装置１００によって撮影された複数フレーム分の静止画に対して推定された３次元のキーポイント検出結果を取得することもできる。

　また、キーポイント検出部２１２は、キーポイント検出結果に加えて、キーポイント７００を内包する人矩形７３０をさらに取得できる。２次元データの場合、画像内の位置によって人の見かけの大きさが変化する。キーポイント７００を内包する人矩形７３０を同時に取得することにより、見かけの大きさを考慮した２次元データを使用して複数フレーム分のキーポイント検出結果を再構成することができる。

　以上に説明した情報処理システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な情報処理システムが備える構成を排除するものではない。

　例えば、上記実施形態では、情報処理システム１０が、撮影装置１００、サーバー２００、通信ネットワーク３００、および携帯端末４００を含む例を説明したが、情報処理システム１０は、さらに、施設の情報管理者用の端末（管理者端末）を含んでいてもよい。このとき、管理者端末が、本発明の情報処理装置の一部または全部の具体例に対応してもよい。

　また、上述した情報処理システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてサーバーその他の装置のソフトウェアに組み込まれてもよい。

　本出願は、２０２２年４月８日に出願された日本国特許出願番号２０２２－０６４２７７号に基づいており、その開示内容は、参照により全体として組み入れられている。

　　１０　　情報処理システム、
　　１００　　撮影装置、
　　１１０　　制御部、
　　１２０　　通信部、
　　１３０　　カメラ、
　　２００　　サーバー、
　　２１０　　制御部、
　　２１１　画像取得部、
　　２１２　キーポイント検出部、
　　２１３　補完部、
　　２１４　姿勢推定部、
　　２１５　人数推定部、
　　２１６　行動推定部、
　　２１７　出力部、
　　２１８　受け付け部、
　　２１９　学習部、
　　２２０　　通信部、
　　２３０　　記憶部、
　　３００　　通信ネットワーク、
　　４００　　携帯端末、
　　４１０　　制御部、
　　４２０　　無線通信部、
　　４３０　　表示部、
　　４４０　　入力部、
　　４５０　　音声入出力部、
　　５００　　画像、
　　５１０　　ケア対象者、
　　５２０　　ケアスタッフ、
　　６１０　　ベッド、
　　６２０　　車椅子、
　　７００　　キーポイント、
　　７１０　　関節点、
　　７２０　　ノード、
　　７３０　　人矩形。

Claims

　検出対象の複数フレーム分のキーポイント検出結果を取得するキーポイント取得部と、
　前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する補完部と、を有する、情報処理装置。
　前記キーポイント取得部は、時間的に連続する複数フレームの画像を含む動画におけるキーポイント検出結果を取得し、
　前記補完部は、前記動画におけるキーポイント検出結果を使用して、前記動画において未検出のキーポイントを補完する、請求項１に記載の情報処理装置。
　前記キーポイント取得部は、少なくとも１つの撮影装置によって撮影された複数フレーム分の静止画に対して推定されたキーポイント検出結果を取得する、請求項１または２に記載の情報処理装置。
　前記キーポイント検出結果は、２次元のキーポイントからなる、請求項３に記載の情報処理装置。
　前記キーポイント取得部は、前記キーポイント検出結果に加えて、キーポイントを内包する矩形をさらに取得する、請求項４に記載の情報処理装置。
　前記キーポイント検出結果は、複数の関節点の検出結果、または関節点と関節点同士を連結するノードとを含む骨格情報の検出結果である、請求項１または２に記載の情報処理装置。
　前記キーポイント取得部は、前記補完部の処理方法に応じて、取得するキーポイント検出結果のフレーム数を変更する、請求項１または２に記載の情報処理装置。
　前記補完部は、少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と当該キーポイント検出結果に対応する正解データとを学習モデルに入力し、前記正解データを目標として機械学習した学習済みモデルを使用して、前記キーポイント検出結果の未検出のキーポイントを補完する、請求項１または２に記載の情報処理装置。
　前記学習モデルは、前記キーポイント検出結果から特徴量を抽出し、抽出された特徴量に基づいて、未検出のキーポイントを再構成する生成モデルである、請求項８に記載の情報処理装置。
　前記学習モデルは、前記複数フレーム分のキーポイント検出結果を入力シーケンスとし、再構成された複数フレーム分のキーポイント検出結果を推論結果とするトランスフォーマーモデルである、請求項８に記載の情報処理装置。
　前記補完部によって補完されたキーポイントを使用して、行動推定を行う行動推定部をさらに有する、請求項１または２に記載の情報処理装置。
　前記補完部によって補完されたキーポイントを使用して、人数推定を行う人数推定部をさらに有する、請求項１または２に記載の情報処理装置。
　前記補完部によって補完されたキーポイントを使用して、姿勢推定を行う姿勢推定部をさらに有する、請求項１または２に記載の情報処理装置。
　前記キーポイント取得部は、前記検出対象の複数フレーム分の画像のキーポイントを検出する、請求項１または２に記載の情報処理装置。
　検出対象の複数フレーム分のキーポイント検出結果を取得する手順（ａ）と、
　前記複数フレーム分のキーポイント検出結果を使用して、前記キーポイント検出結果の未検出のキーポイントを補完する手順（ｂ）と、を含む処理をコンピューターに実行させるための情報処理プログラム。
　少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける受け付け部と、
　前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する学習部と、を有する、機械学習装置。
　少なくとも一部のキーポイントが欠落している欠落フレームを含む複数フレーム分のキーポイント検出結果と、当該キーポイント検出結果に対応する正解データとを受け付ける手順（ａ）と、
　前記複数フレーム分のキーポイント検出結果、および前記正解データを学習モデルに入力し、前記正解データを目標として、前記学習モデルを機械学習させることにより学習済みモデルを生成する手順（ｂ）と、をコンピューターに実行させるための機械学習プログラム。