WO2021157691A1

WO2021157691A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2021157691A1
Application number: PCT/JP2021/004301
Authority: WO
Inventors: 勇人西岡; 貴紀奥; 晋一古屋
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-06
Filing date: 2021-02-05
Publication date: 2021-08-12
Also published as: CN115023732A; JPWO2021157691A1; US20230054973A1; EP4102460A4; EP4102460A1

Abstract

情報処理装置（１００）は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する推定部（１３２）と、を備える。推定部（１３２）は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第１機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　従来、楽器演奏者や伝統工芸職人、料理人などの卓越した手指の巧緻動作を他者（弟子など）に伝達し、他者の熟達を支援する目的で、手指の動作を記録および再生する技術が知られている。例えば、複数の投影方向に投影された手指の画像に基づいて、複数の投影方向における手指に関する注目点の存在確率を示す確率マップを特定し、特定した複数の確率マップに基づいて、手指に関する注目点の３次元位置を推定する技術が提案されている。

国際公開第２０１８／０８３９１０号

　しかしながら、上記の従来技術では、手指の姿勢を適切に推定することができるとは限らない。例えば、上記の従来技術では、手指の注目点の３次元位置が推定されるにすぎず、手指の姿勢が適切に推定されるとは限らない。

　そこで、本開示では、手指の姿勢を適切に推定することができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、を備える。

本開示の第１の実施形態に係る情報処理の一例を示す図である。同実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理装置の構成例を示す図である。同実施形態に係る情報処理システムの動作例について説明するための図である。同実施形態に係るカメラ及び照明の配置例を示す図である。同実施形態に係るカメラ配置と撮像画像の組の一例を示す図である。同実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。同実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。同実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。同実施形態に係る手指の姿勢に関する情報の提示例を示す図である。同実施形態に係る手指の姿勢に関する情報の提示例を示す図である。同実施形態の変形例に係る情報処理システムの動作例について説明するための図である。ピアノ演奏における指くぐり奏法について説明するための図である。本開示の第２の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係るセンサ情報処理装置の構成例を示す図である。同実施形態に係る情報処理装置の構成例を示す図である。同実施形態に係る情報処理システムの動作例について説明するための図である。同実施形態に係るＩＭＵセンサの装着例を示す図である。同実施形態に係るＩＭＵセンサの装着例を示す図である。本開示の第３の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係るセンサ情報処理装置の構成例を示す図である。同実施形態に係る情報処理装置の構成例を示す図である。同実施形態に係る情報処理システムの動作例について説明するための図である。同実施形態に係るウェアラブルカメラによるセンシングの概要について説明するための図である。同実施形態に係るウェアラブルカメラの構造について説明するための図である。同実施形態の変形例に係る情報処理システムの動作例について説明するための図である。本開示の第４の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理装置の構成例を示す図である。同実施形態に係る情報処理システムの動作例について説明するための図である。同実施形態に係る対象物に対する手指の接触動作について説明するための図である。同実施形態に係る手指の関節角度の推定処理について説明するための図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　０．はじめに
　１．第１の実施形態
　　１．１．情報処理システムの概要
　　１．２．情報処理システムの構成例
　　１．３．情報処理装置の構成例
　　１．４．情報処理システムの動作例
　　１．５．カメラ及び照明の配置例
　　１．６．カメラ配置と撮像画像の組の例
　　１．７．手の特徴点の２次元位置
　　１．８．手指の姿勢に関する情報の提示例
　　１．９．変形例
　２．第２の実施形態
　　２．１．ピアノ演奏の指くぐり奏法
　　２．２．情報処理システムの構成例
　　２．３．センサ情報処理装置の構成例
　　２．４．情報処理装置の構成例
　　２．５．情報処理システムの動作例
　　２．６．ＩＭＵセンサの装着例
　３．第３の実施形態
　　３．１．情報処理システムの構成例
　　３．２．センサ情報処理装置の構成例
　　３．３．情報処理装置の構成例
　　３．４．情報処理システムの動作例
　　３．５．ウェアラブルカメラによるセンシングの概要
　　３．６．ウェアラブルカメラの構造
　　３．７．変形例
　４．第４の実施形態
　　４．１．情報処理システムの構成例
　　４．２．情報処理システムの動作例
　　４．３．情報処理装置の構成例
　　４．４．対象物に対する手指の接触動作
　　４．５．手指の関節角度の推定処理
　５．効果
　６．ハードウェア構成

　［０．はじめに］
　楽器演奏者や伝統工芸職人、料理人などの卓越した手指の巧緻動作の記録および再生は、熟練者の技能を他者（弟子など）に伝達する上で非常に重要である。また、技能の熟達支援においても、高速な手指の運動を記録し、利用者に提示することは，直感的な暗黙知の伝達に非常に有効である。

　しかしながら、高速で巧緻な手指の運動の記録には、高い空間分解能と高い時間分解能が要求される。従来は、ジェスチャー認識に重点を置いているものが多く、手指の動きを必ずしも高精度に認識可能とすることができるとは限らなかった。

　そこで、本開示の実施形態に係る情報処理システムは、撮影範囲を手の動作範囲に絞り、環境に高速カメラを平面上で複数台設置し、高速カメラによる撮影画像から手の各特徴点の２次元位置等の推定を行い、推定した特徴点の２次元位置等に基づいて手指の姿勢を推定する。これにより、情報処理システムは、手指の関節等にセンサやマーカーを装着することなく、手指の姿勢を推定することができる。すなわち、情報処理システムは、センサやマーカー等の装着により、手指の動作を妨げることなく、手指の姿勢を推定することができる。したがって、情報処理システムは、手指の姿勢を適切に推定することができる。

［１．第１の実施形態］
［１．１．情報処理システムの概要］
　ここから、図１を用いて、本開示の第１の実施形態に係る情報処理の概要について説明する。図１は、本開示の第１の実施形態に係る情報処理の一例を示す図である。

　図１に示す例では、ピアノの鍵盤の両脇および鍵盤の上方に３台の高速カメラＣ１～Ｃ３が設置されており、３台の高速カメラＣ１～Ｃ３それぞれは、それぞれのカメラの位置からピアノを演奏する演奏者の演奏中の手元を撮影する。例えば、３台の高速カメラＣ１～Ｃ３それぞれは、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作を撮影する。

　センサ情報処理装置１０は、３台の高速カメラＣ１～Ｃ３それぞれの位置から撮影された３つの動画像それぞれを取得する。センサ情報処理装置１０は、３つの動画像を取得すると、取得した３つの動画像を情報処理装置１００に送信する。

　情報処理装置１００は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。図１では、対象物は、鍵盤であり、対象物に対する手指の動作は、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作である。

　具体的には、情報処理装置１００の推定部１３２は、各カメラの動画像（以下、センサ画像ともいう）それぞれに対して、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定する。例えば、情報処理装置１００の推定部１３２は、各カメラの動画像それぞれから動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定するよう予め学習された機械学習モデルＭ１を用いて、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定する。

　続いて、情報処理装置１００の推定部１３２は、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。続いて、情報処理装置１００の推定部１３２は、手指の関節、手掌、手背、手首の特徴点の３次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置１００の推定部１３２は、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度（以下、３次元特徴量ともいう）の時系列情報を推定する。

　続いて、情報処理装置１００の推定部１３２は、推定した手指の３次元特徴量の時系列情報を記憶部１２０の３次元特徴量データベース１２３に格納する。また、情報処理装置１００は、３次元特徴量データベース１２３を参照して、３次元特徴量の時系列情報をアプリサーバ２００に送信する。

　アプリサーバ２００は、３次元特徴量の時系列情報を取得する。アプリサーバ２００は、取得した３次元特徴量の時系列情報に基づいて、３次元特徴量の時系列情報を視覚可能にした画像を生成する。なお、アプリサーバ２００は、３次元特徴量の時系列情報を音とともに出力可能にしたコンテンツを生成してもよい。アプリサーバ２００は、生成したコンテンツを利用者の端末装置３００に配信する。

　端末装置３００は、３次元特徴量の時系列情報を視覚可能にした画像を表示する。また、端末装置３００は、３次元特徴量の時系列情報を音とともに出力してもよい。

［１．２．情報処理システムの構成例］
　次に、図２を用いて、本開示の第１の実施形態に係る情報処理システムの構成について説明する。図２は、本開示の第１の実施形態に係る情報処理システムの構成例を示す図である。図２に示すように、第１の実施形態に係る情報処理システム１には、センサ情報処理装置１０と情報処理装置１００とアプリサーバ２００と端末装置３００とが含まれる。

　図２に示した各種装置は、ネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図２に示した情報処理システム１には、任意の数のセンサ情報処理装置１０と任意の数の情報処理装置１００と任意の数のアプリサーバ２００と任意の数の端末装置３００とが含まれていてもよい。

　センサ情報処理装置１０は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像を高速モノクロカメラまたは高速赤外線カメラから取得する。センサ情報処理装置１０は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像を取得する。また、センサ情報処理装置１０は、カメラから画像を取得すると、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報を情報処理装置１００に送信する。

　情報処理装置１００は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報をセンサ情報処理装置１０から取得する。続いて、情報処理装置１００は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、情報処理装置１００は、推定した手指の姿勢に関する時系列情報をアプリサーバ２００に送信する。なお、センサ情報処理装置１０と情報処理装置１００とは、一体の装置であってもよい。その場合、情報処理装置１００は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像を高速モノクロカメラまたは高速赤外線カメラから取得する。情報処理装置１００は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像を取得する。

　アプリサーバ２００は、情報処理装置１００によって推定された手指の姿勢に関する時系列情報を情報処理装置１００から取得する。アプリサーバ２００は、手指の姿勢に関する時系列情報を取得すると、手指の姿勢に関する時系列情報を利用者に対して提示するためのコンテンツ（例えば、動画像や音声）を生成する。アプリサーバ２００は、コンテンツを生成すると、生成したコンテンツを端末装置３００に配信する。

　端末装置３００は、利用者によって利用される情報処理装置である。端末装置３００は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal　Computer）や、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等により実現される。また、端末装置３００は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者から指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、画面に表示された画像等のコンテンツに対する各種の操作を受付ける。また、端末装置３００は、スピーカーを備え、音声を出力する。

　端末装置３００は、アプリサーバ２００からコンテンツを受信する。端末装置３００は、コンテンツを受信すると、受信したコンテンツ（例えば、動画像）を画面に表示する。また、端末装置３００は、動画像を画面に表示するとともに、動画像に合わせて音（例えば、ピアノの音）を出力する。

［１．３．情報処理装置の構成例］
　次に、図３を用いて、本開示の第１の実施形態に係る情報処理装置の構成について説明する。図３は、本開示の第１の実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、第１の実施形態に係る情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０を備える。

（通信部１１０）
　通信部１１０は、ネットワークＮを介して、センサ情報処理装置１０やアプリサーバ２００や端末装置３００といった外部の情報処理装置と無線通信する。通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）やアンテナ等によって実現される。ネットワークＮは、インターネット又は電話回線網などの公衆通信網であってもよく、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）又はＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などの限られた領域内に設けられた通信網であってもよい。なお、ネットワークＮは、有線であってもよい。その場合、通信部１１０は、外部の情報処理装置と有線通信する。

（記憶部１２０）
　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０には、各種プログラムや設定データ等が記憶される。また、記憶部１２０は、図３に示すように、センサデータベース１２１とモデルデータベース１２２と３次元特徴量データベース１２３を有する。

（センサデータベース１２１）
　センサデータベース１２１は、センサ情報処理装置１０から取得された画像情報を格納する。具体的には、センサデータベース１２１は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像に関する情報を記憶する。

（モデルデータベース１２２）
　モデルデータベース１２２は、機械学習モデルに関する情報を格納する。具体的には、モデルデータベース１２２は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報（手指の３次元特徴量の時系列情報）を推定するよう学習された第１機械学習モデルに関する情報を格納する。例えば、モデルデータベース１２２は、第１機械学習モデルのモデルデータＭＤＴ１を格納する。

　モデルデータＭＤＴ１は、手指の動作と対象物とを含む画像情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された画像情報に応じて、入力層に入力された画像情報に含まれる手指の３次元特徴量の時系列情報を出力層から出力するよう、情報処理装置１００を機能させてもよい。

　ここで、モデルデータＭＤＴ１が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータＭＤＴ１が含む第１要素は、x1やx2等といった入力データ（xi）に対応する。また、第１要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。

　また、モデルデータＭＤＴ１がＤＮＮ（Deep　Neural　Network）等、１つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータＭＤＴ１が含む第１要素は、入力層または中間層が有するいずれかのノードに対応する。また、第２要素は、第１要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第１要素の重みは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。

　情報処理装置１００は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、画像情報に含まれる手指の３次元特徴量の時系列情報の算出を行う。具体的には、モデルデータＭＤＴ１は、手指の動作と対象物とを含む画像情報が入力された場合に、画像情報に含まれる手指の３次元特徴量の時系列情報を出力するように係数が設定される。情報処理装置１００は、このようなモデルデータＭＤＴ１を用いて、手指の３次元特徴量の時系列情報を算出する。

（３次元特徴量データベース１２３）
　３次元特徴量データベース１２３は、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度である３次元特徴量の時系列情報を格納する。

（制御部１３０）
　制御部１３０は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図３に示すように制御部１３０は、取得部１３１と推定部１３２と提供部１３３を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（取得部１３１）
　取得部１３１は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報を取得する。具体的には、取得部１３１は、センサ情報処理装置１０から画像情報を取得する。より具体的には、取得部１３１は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報を取得する。例えば、取得部１３１は、対象物の両脇および対象物の上方に設置された３台以上のカメラそれぞれによって撮影された複数の画像情報を取得する。

（推定部１３２）
　推定部１３２は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。具体的には、推定部１３２は、手指の姿勢に関する時系列情報として、手指の３次元特徴量の時系列情報を推定する。例えば、推定部１３２は、手指の姿勢に関する時系列情報として、手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する。

　より具体的には、推定部１３２は、各カメラの動画像それぞれに対して、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定する。例えば、推定部１３２は、各カメラの動画像それぞれから動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定するよう予め学習された機械学習モデルを用いて、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置を推定する。

　続いて、推定部１３２は、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。続いて、推定部１３２は、手指の関節、手掌、手背、手首の特徴点の３次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、推定部１３２は、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度（以下、３次元特徴量ともいう）の時系列情報を推定する。

　また、推定部１３２は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第１機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定してもよい。例えば、推定部１３２は、手指の動作と対象物とを含む画像情報を第１機械学習モデルに入力して、手指の姿勢の時系列情報として、各カメラの動画像に含まれる手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度（以下、３次元特徴量ともいう）の時系列情報を推定する。

（提供部１３３）
　提供部１３３は、推定部１３２によって推定された手指の姿勢に関する時系列情報を利用者に対して提供する。具体的には、提供部１３３は、３次元特徴量データベース１２３を参照して、手指の姿勢に関する時系列情報を取得すると、手指の姿勢に関する時系列情報を利用者に対して提示するためのコンテンツ（例えば、動画像や音声）を生成する。例えば、提供部１３３は、手指の姿勢や特徴点の位置、速度、加速度を矢印や色で表した画像を生成する。また、提供部１３３は、生成した画像と音を一緒に提示するコンテンツを生成する。続いて、提供部１３３は、生成したコンテンツを端末装置３００に配信する。

　なお、提供部１３３は、手指の姿勢に関する時系列情報をアプリサーバ２００に送信し、アプリサーバ２００を介して手指の姿勢に関する時系列情報を利用者に対して提供してもよい。

［１．４．情報処理システムの動作例］
　次に、図４を用いて、本開示の第１の実施形態に係る情報処理システムの動作について説明する。図４は、本開示の第１の実施形態に係る情報処理システムの動作例について説明するための図である。図４に示す例では、情報処理装置１００は、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像１、２、３、…を取得する。続いて、情報処理装置１００は、取得したセンサ画像１、２、３、…を機械学習モデルＭ１に入力する。情報処理装置１００は、機械学習モデルＭ１の出力情報として、センサ画像１、２、３、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置それぞれを推定する。

　続いて、情報処理装置１００は、推定した各センサ画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置とカメラパラメータとに基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。続いて、情報処理装置１００は、手指の関節、手掌、手背、手首の特徴点の３次元位置に基づいて、手指の３次元特徴量の時系列情報を推定する。続いて、情報処理装置１００は、手指の３次元特徴量の時系列情報をデータベースに格納する。

［１．５．カメラ及び照明の配置例］
　次に、図５を用いて、本開示の第１の実施形態に係るカメラ及び照明の配置について説明する。図５は、本開示の第１の実施形態に係るカメラ及び照明の配置例を示す図である。図５では、複数のカメラが対象物である鍵盤を異なる複数の方向から撮影するように設置されている。具体的には、鍵盤の両脇および鍵盤の上方に３台のカメラＣ１～Ｃ３が設置されている。また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。具体的には、画像情報は、対象物の両脇および対象物の上方に設置された３台以上のカメラそれぞれによって撮影された複数の画像情報である。

　高速カメラによって撮影する場合、一般環境では光量が足りないことが多いため、作業空間を囲むように赤外線や可視光の線や面の光源を設置する。図５に示す例では、カメラの照明は、ピアノの鍵盤を囲む門状の構造物に設置される。また、３つのカメラＣ１～Ｃ３は、ピアノの鍵盤を囲む門状の構造物に取り付けられ、各カメラによって撮影された画像情報それぞれは、手指が３つのカメラＣ１～Ｃ３それぞれの近傍に設置された光源によって照らされた状態で撮影される。このように、複数のカメラは、対象物を囲む門状の構造物に取り付けられ、複数の画像情報それぞれは、手指がカメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された複数の画像情報である。これにより、手に横からも光があたるようになり、手指が手の影に隠れないようになる。なお、それぞれのカメラにリングライトを取り付けてもよい。また、演奏者側にはひさしを設け、照明が目に入らないようにしてもよい。

　また、ピアノの演奏のような高速動作を撮影する場合、シャッター速度を上げる必要があり、演奏者に影響がないように光量を確保するためには、モノクロカメラや赤外線カメラを用いることが望ましい。図５では、高速モノクロカメラ（例えば、90fps以上）であるカメラＣ１～Ｃ３が環境に取り付けられている。また、カメラＣ１～Ｃ３によって撮影された画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である。なお、モノクロカメラの方が赤外光も取り込むことで、高速撮影には適している（可視光で光量を増やすと、被測定者の動作に影響する）なお、ＲＧＢカメラ（以下、通常のカメラともいう）を用いることも可能である。また、カメラはフレームや部屋の中で、１つの平面上にあるように取り付ける。これにより、エピポーラ幾何が計算に使え、計算精度の向上が見込める。

　また、ピアノの演奏中は、親指や小指が手によって隠されてしまうことが多いので、撮影方向と反対側にもカメラを配置する。これにより、親指や小指が手によって隠されてしまうことをカバーできる。具体的には、反対側のカメラを接地面に平行から４５度くらいまでの範囲で傾けて、カメラを設置する。これにより、図５のように、カメラが３台しかなくても、親指や小指も２台以上のカメラで追うことができるようになり、手指の３次元位置推定の際のデータ欠落が少なくなる。

　また、カメラの撮像範囲は手が撮影できる範囲に絞る。カメラの解像度は有限なので、撮影範囲を絞ったほうが位置推定の分解能・精度が上がる（例えば、１ｍの範囲を２０００ｐｘのセンサで写した場合、分解能は０．５ｍｍとなる）。図５に示す例では、カメラＣ１～Ｃ３の撮影範囲は、演奏者の左手Ｈ１および右手Ｈ２の手指の指先から手首までの範囲である。また、画像情報は、手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である。

［１．６．カメラ配置と撮像画像の組の例］
　次に、図６を用いて、本開示の第１の実施形態に係るカメラ配置と撮像画像の組について説明する。図６は、本開示の第１の実施形態に係るカメラ配置と撮像画像の組の一例を示す図である。

　図６に示す例では、４台のカメラ（１）～（４）が対象物である鍵盤を異なる複数の方向から撮影するように設置されている。具体的には、鍵盤の両脇および鍵盤の上方に４台のカメラ（１）～（４）が設置されている。

　また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。具体的には、カメラ（１）によって撮影された画像は、鍵盤の左脇に設置されたカメラ（１）によって撮影された画像である。また、カメラ（２）によって撮影された画像は、鍵盤の左上方に設置されたカメラ（２）によって撮影された画像である。また、カメラ（３）によって撮影された画像は、鍵盤の右上方に設置されたカメラ（３）によって撮影された画像である。また、カメラ（４）によって撮影された画像は、鍵盤の右上方に設置されたカメラ（４）によって撮影された画像である。

［１．７．手の特徴点の２次元位置］
　次に、図７～図９を用いて、本開示の第１の実施形態に係る各カメラによる撮像画像に含まれる手の特徴点の２次元位置について説明する。

　まず、図７を用いて、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置について説明する。図７は、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。図７は、鍵盤の上方に設置されたカメラによって撮影された画像に含まれる手の特徴点の２次元位置の一例を示す。

　次に、図８を用いて、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置について説明する。図８は、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。図８は、鍵盤の左脇に設置されたカメラによって撮影された画像に含まれる手の特徴点の２次元位置の一例を示す。

　次に、図９を用いて、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置について説明する。図９は、本開示の第１の実施形態に係る撮像画像に含まれる手の特徴点の２次元位置の一例を示す図である。図９は、鍵盤の右脇に設置されたカメラによって撮影された画像に含まれる手の特徴点の２次元位置の一例を示す。

［１．８．手指の姿勢に関する情報の提示例］
　次に、図１０～図１１を用いて、本開示の第１の実施形態に係る手指の姿勢に関する情報の提示について説明する。まず、図１０を用いて、について説明する。図１０は、本開示の第１の実施形態に係る手指の姿勢に関する情報の提示例を示す図である。図１０に示す例では、提供部１３３は、手指の移動の軌跡を線で重ねて表現した画像を提供する。端末装置３００は、手指の移動の軌跡を線で重ねて表現した画像を表示する。また、端末装置３００は、手指の移動に合わせてピアノ演奏の音を一緒に出力する。

　次に、図１１を用いて、本開示の第１の実施形態に係る手指の姿勢に関する情報の提示について説明する。図１１は、本開示の第１の実施形態に係る手指の姿勢に関する情報の提示例を示す図である。図１１に示す例では、提供部１３３は、手指の速度や角度などの時間変化をグラフで表現したコンテンツを提供する。端末装置３００は、手指の速度や角度などの時間変化をグラフで表現したコンテンツを表示する。

［１．９．変形例］
　次に、図１２を用いて、本開示の第１の実施形態の変形例に係る情報処理システムの動作について説明する。図１２は、本開示の第１の実施形態の変形例に係る情報処理システムの動作例について説明するための図である。手指の動作は腱の動きとして手の甲にも表れる。そこで、図１２に示す例では、推定部１３２は、手指の動作を行っている手の手背の画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。

　具体的には、推定部１３２は、手指の動作を行っている手の手背の画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第２機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。例えば、推定部１３２は、環境に設置された高速カメラによって撮影された画像情報から手背の特徴領域の画像情報を抽出する。例えば、推定部１３２は、手背の特徴領域の画像情報として、手の甲の腱の部分の画像情報を抽出する。続いて、推定部１３２は、手背の特徴領域の画像情報に基づいて手指の関節の角度に関する時系列情報を推定するよう学習された第２機械学習モデルを用いて、手指の関節の角度に関する時系列情報を推定する。

　例えば、推定部１３２は、環境に設置された高速カメラによって撮影された画像情報をセンサ情報処理装置１０から取得する。続いて、推定部１３２は、取得した画像情報から手背の特徴領域を抽出する。続いて、推定部１３２は、抽出した手背の特徴領域の画像情報を第２機械学習モデルに入力して、高速カメラによって撮影された画像に含まれる手指の関節の角度に関する時系列情報を推定する。

［２．第２の実施形態］
［２．１．ピアノ演奏の指くぐり奏法］
　次に、図１３を用いて、ピアノ演奏における指くぐり奏法について説明する。図１３は、ピアノ演奏における指くぐり奏法について説明するための図である。ピアノの演奏には「指くぐり」と呼ばれる、人差し指が親指をまたいで演奏する奏法があり、親指が隠れてしまうことがある。図１３に示す点線は、ピアノ演奏における指くぐり奏法を行っている手を真上から見たときに、手掌に隠れて見えなくなってしまった親指の位置を示す。

　図１３に示す「指くぐり」により、親指が点線のような位置にあるときは、環境に取り付けたカメラではどの角度からも撮影が難しい。そこで、情報処理システム２では、利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されるセンシングデータにより、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する。

［２．２．情報処理システムの構成例］
　次に、図１４を用いて、本開示の第２の実施形態に係る情報処理システムの構成について説明する。図１４は、本開示の第２の実施形態に係る情報処理システムの構成例を示す図である。図１４に示すように、第２の実施形態に係る情報処理システム２は、第１の実施形態に係る情報処理システム１と比較して、センサ情報処理装置２０を備える点が異なっている。また、第２の実施形態に係る情報処理システム２は、第１の実施形態に係る情報処理システム１の情報処理装置１００の代わりに、情報処理装置１００Ａを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置２０について主に説明し、第２の実施形態に係る情報処理システム２が備える他の構成についての詳細な説明は省略する。

　図１４に示した各種装置は、ネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図１４に示した情報処理システム２には、任意の数のセンサ情報処理装置１０と任意の数のセンサ情報処理装置２０と任意の数の情報処理装置１００Ａと任意の数のアプリサーバ２００と任意の数の端末装置３００とが含まれていてもよい。

　センサ情報処理装置２０は、利用者の親指および手背に設置された複数のＩＭＵセンサそれぞれによって検出されたセンシングデータを複数のＩＭＵセンサそれぞれから取得する。また、センサ情報処理装置２０は、複数のＩＭＵセンサそれぞれから取得したセンシングデータに基づいて、複数のＩＭＵセンサ間の相対姿勢を推定する。センサ情報処理装置２０は、複数のＩＭＵセンサ間の相対姿勢を推定すると、推定した複数のＩＭＵセンサ間の相対姿勢に関する情報を情報処理装置１００Ａに送信する。

　情報処理装置１００Ａは、複数のＩＭＵセンサそれぞれによって検出されたセンシングデータをセンサ情報処理装置２０から取得する。情報処理装置１００Ａは、センシングデータに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢を推定する。なお、センサ情報処理装置２０と情報処理装置１００Ａとは、一体の装置であってもよい。その場合、情報処理装置１００Ａは、利用者の親指および手背に設置された複数のＩＭＵセンサそれぞれによって検出されたセンシングデータを複数のＩＭＵセンサそれぞれから取得する。また、情報処理装置１００Ａは、複数のＩＭＵセンサそれぞれから取得したセンシングデータに基づいて、複数のＩＭＵセンサ間の相対姿勢を推定する。

［２．３．センサ情報処理装置の構成例］
　次に、図１５を用いて、本開示の第２の実施形態に係るセンサ情報処理装置の構成について説明する。図１５は、本開示の第２の実施形態に係るセンサ情報処理装置の構成例を示す図である。図１５に示す例では、センサ情報処理装置２０は、姿勢推定部と通信部を備える。

　姿勢推定部それぞれは、３つのＩＭＵセンサ１～３それぞれからセンシングデータを取得する。姿勢推定部は、３つのＩＭＵセンサ１～３それぞれから取得したセンシングデータに基づいて、３つのＩＭＵセンサ１～３間の相対姿勢を推定する。姿勢推定部は、３つのＩＭＵセンサ１～３間の相対姿勢を推定すると、推定した姿勢に関する情報を通信部に出力する。

　通信部は、ネットワークＮを介して、情報処理装置１００Ａと通信する。また、通信部は、Ｗｉ－Ｆｉ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｂｌｕｅｔｏｏｔｈ　Ｌｏｗ　Ｅｎｅｒｇｙ（登録商標）、ＡＮＴ（登録商標）、ＡＮＴ＋（登録商標）、又はＥｎＯｃｅａｎ　Ａｌｌｉａｎｃｅ（登録商標）等による通信を用いて、情報処理装置１００Ａと無線通信してもよい。

　通信部は、３つのＩＭＵセンサ１～３間の相対姿勢に関する情報を姿勢推定部から取得する。通信部は、３つのＩＭＵセンサ１～３間の相対姿勢に関する情報を取得すると、取得した相対姿勢に関する情報を情報処理装置１００Ａに送信する。

［２．４．情報処理装置の構成例］
　次に、図１６を用いて、本開示の第２の実施形態に係る情報処理装置の構成について説明する。図１６は、本開示の第２の実施形態に係る情報処理装置の構成例を示す図である。図１６に示すように、第２の実施形態に係る情報処理装置１００Ａは、第１の実施形態に係る情報処理装置１００と比較して、推定部１３２、センサデータベース１２１の代わりに、推定部１３２Ａ、センサデータベース１２１Ａを備える点が異なっている。したがって、以下の説明では、推定部１３２Ａ、センサデータベース１２１Ａについて主に説明し、第２の実施形態に係る情報処理装置１００Ａが備える他の構成についての詳細な説明は省略する。

（センサデータベース１２１Ａ）
　センサデータベース１２１Ａは、第１の実施形態に係る情報処理装置１００のセンサデータベース１２１と比較して、センサ情報処理装置２０から取得した複数のＩＭＵセンサ間の相対姿勢に関する情報を格納する点が異なる。センサデータベース１２１Ａは、取得部１３１が取得した利用者の親指および手背に設置された複数のＩＭＵセンサ間の相対姿勢に関する情報を格納する。

（推定部１３２Ａ）
　推定部１３２Ａは、利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されたセンシングデータに基づいて、利用者の手指の姿勢に関する時系列情報を推定する。具体的には、推定部１３２Ａは、センサデータベース１２１Ａを参照して、利用者の親指および手背に設置された複数のＩＭＵセンサ間の相対姿勢に関する情報を取得する。また、推定部１３２Ａは、複数のＩＭＵセンサが設置された手指のモデルに関する情報を取得する。

　続いて、推定部１３２Ａは、複数のＩＭＵセンサ間の相対姿勢に関する情報、手指のモデルに関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。

　例えば、推定部１３２Ａは、各カメラの動画像に所定の手指の特徴点が含まれないと判定した場合、複数のＩＭＵセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて、所定の手指の特徴点の３次元位置を推定する。また、推定部１３２Ａは、各カメラの動画像に所定の手指の特徴点が含まれるが、その確度が低いと判定した場合、複数のＩＭＵセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて推定した所定の手指の特徴点の３次元位置の確度と、各カメラの動画像に基づいて推定した所定の手指の特徴点の３次元位置の確度とでそれぞれ重み付けて平均をとることにより、所定の手指の特徴点の３次元位置を推定する。

　続いて、推定部１３２Ａは、推定した所定の手指の３次元位置に基づいて、所定の手指の姿勢の時系列情報を推定する。より具体的には、推定部１３２Ａは、所定の手指の姿勢の時系列情報として、所定の手指の３次元特徴量の時系列情報を推定する。

　また、推定部１３２Ａは、ＩＭＵセンサが取り付けられた手指の関節の角度は、ＩＭＵセンサに関する情報に基づいて推定した値の重みを大きくしてもよい。また、推定部１３２Ａは、ＩＭＵセンサが取り付けられた手指の関節の位置についてセンサ画像が存在する場合、センサ画像の情報を用いて補完してもよい。これにより、隠れた手指の位置の補完のみでなく、隠れた手指の関節の角度推定の精度向上も見込むことができる。

［２．５．情報処理システムの動作例］
　次に、図１７を用いて、本開示の第２の実施形態に係る情報処理システムの動作について説明する。図１７は、本開示の第２の実施形態に係る情報処理システムの動作例について説明するための図である。図１７に示す例では、図４と同様に、情報処理装置１００Ａは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像１、２、３、…を取得する。続いて、情報処理装置１００Ａは、取得したセンサ画像１、２、３、…を機械学習モデルＭ１に入力する。情報処理装置１００Ａは、機械学習モデルＭ１の出力情報として、センサ画像１、２、３、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置それぞれを推定する。また、情報処理装置１００Ａは、複数の高速カメラそれぞれのカメラパラメータを取得する。

　また、図１７では、情報処理装置１００Ａは、情報処理装置１００Ａは、利用者の所定の手指および手背に設置された複数のＩＭＵセンサ１、２、３、…からそれぞれ検出されたセンシングデータを取得する。続いて、情報処理装置１００Ａは、取得したセンシングデータに基づいて、複数のＩＭＵセンサ間の相対姿勢を推定する。また、情報処理装置１００Ａは、複数のＩＭＵセンサが設置された手指のモデルに関する情報を取得する。

　続いて、情報処理装置１００Ａは、複数のＩＭＵセンサ間の相対姿勢に関する情報、手指のモデルに関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。

　例えば、情報処理装置１００Ａは、図４と同様に、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。また、情報処理装置１００Ａは、各カメラの動画像に所定の手指（例えば、指くくり奏法により隠れた親指等の手指）の特徴点が含まれないと判定した場合、複数のＩＭＵセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて、所定の手指の特徴点の３次元位置を推定する。また、情報処理装置１００Ａは、各カメラの動画像に所定の手指の特徴点が含まれるが、その確度が低いと判定した場合、複数のＩＭＵセンサ間の相対姿勢に関する情報および手指のモデルに関する情報に基づいて推定した所定の手指の特徴点の３次元位置の確度と、各カメラの動画像に基づいて推定した所定の手指の特徴点の３次元位置の確度とでそれぞれ重み付けて平均をとることにより、所定の手指の特徴点の３次元位置を推定する。

　続いて、情報処理装置１００Ａは、推定した手指の３次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置１００Ａは、手指の姿勢の時系列情報として、手指の３次元特徴量の時系列情報を推定する。続いて、情報処理装置１００は、手指の３次元特徴量の時系列情報をデータベースに格納する。

［２．６．ＩＭＵセンサの装着例］
　次に、図１８～図１９を用いて、本開示の第２の実施形態に係るＩＭＵセンサの装着について説明する。図１８～図１９では、第２の実施形態に係るＩＭＵセンサによって親指のセンシングデータを取得する場合の装着例について説明する。例えば、第２の実施形態に係るＩＭＵセンサによって親指をセンシングする場合、親指の２つの節と、少なくとももう１か所にＩＭＵセンサを取り付ける。

　まず、図１８を用いて、について説明する。図１８は、本開示の第２の実施形態に係るＩＭＵセンサの装着例を示す図である。図１８に示す例では、親指のＩＰ関節から末節骨までの範囲に１つ目のＩＭＵセンサ（ＩＭＵ１）を取り付ける。例えば、１つ目のＩＭＵセンサ（ＩＭＵ１）は、薄くて小さい形状であり、親指の所定の位置に張り付け可能である。

　また、親指のＭＰ関節から基節骨までの範囲に２つ目のＩＭＵセンサ（ＩＭＵ２）を取り付ける。例えば、２つ目のＩＭＵセンサ（ＩＭＵ２）は、リング状であり、親指にはめることができる。

　また、手掌の月状骨の辺りに３つ目のＩＭＵセンサ（ＩＭＵ３）を取り付ける。なお、３つ目のＩＭＵセンサ（ＩＭＵ３）の取り付け位置は、手掌の月状骨の辺りに限られず、解剖学的に動きづらい位置であればどこでもよい。例えば、３つ目のＩＭＵセンサ（ＩＭＵ３）は、薄くて小さい形状であり、手掌の所定の位置に張り付け可能である。

　次に、図１９を用いて、本開示の第２の実施形態に係るＩＭＵセンサの装着について説明する。図１９は、本開示の第２の実施形態に係るＩＭＵセンサの装着例を示す図である。図１９に示す例では、図１８と同様に、親指のＩＰ関節から末節骨までの範囲に１つ目のＩＭＵセンサ（ＩＭＵ１）を取り付ける。また、親指のＭＰ関節から基節骨までの範囲に２つ目のＩＭＵセンサ（ＩＭＵ２）を取り付ける。

　図１９では、掌の月状骨の辺りでなく、人差し指に３つ目のＩＭＵセンサ（ＩＭＵ３）を取り付ける点が図１８と異なる。図１９では、３つ目のＩＭＵセンサ（ＩＭＵ３）は、リング状であり、人差し指にはめることができる。

［３．第３の実施形態］
　上述した第２の実施形態に係る情報処理システム２では、利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されるセンシングデータにより、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する例について説明した。しかしながら、ピアノ演奏を撮影した場合には、指くくり等による親指以外の手指が隠れてしまう場合も多くある。

　例えば、ピアノの演奏を撮影した場合、演奏者が中指や薬指を動かした際に、中指や薬指が他の指に隠れてしまう場合がある。そこで、第３の実施形態に係る情報処理システム３では、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報およびウェアラブルカメラに搭載されたＩＭＵセンサによって検出されたセンシングデータに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢推定を補完する例について説明する。

［３．１．情報処理システムの構成例］
　次に、図２０を用いて、本開示の第３の実施形態に係る情報処理システムの構成について説明する。図２０は、本開示の第３の実施形態に係る情報処理システムの構成例を示す図である。図２０に示すように、第３の実施形態に係る情報処理システム３は、第１の実施形態に係る情報処理システム１と比較して、センサ情報処理装置３０を備える点が異なっている。また、第３の実施形態に係る情報処理システム３は、第１の実施形態に係る情報処理システム１の情報処理装置１００の代わりに、情報処理装置１００Ｂを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置３０について主に説明し、第３の実施形態に係る情報処理システム３が備える他の構成についての詳細な説明は省略する。

　図２０に示した各種装置は、ネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図２０に示した情報処理システム３には、任意の数のセンサ情報処理装置１０と任意の数のセンサ情報処理装置３０と任意の数の情報処理装置１００Ｂと任意の数のアプリサーバ２００と任意の数の端末装置３００とが含まれていてもよい。

　センサ情報処理装置３０は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。センサ情報処理装置３０は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の２次元位置を推定する。例えば、センサ情報処理装置３０は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置である手指の特徴点の２次元位置を推定する。センサ情報処理装置３０は、手指の特徴点の２次元位置を推定すると、推定した手指の特徴点の２次元位置に関する情報を情報処理装置１００Ｂに送信する。

　また、センサ情報処理装置３０は、ウェアラブルカメラが備えるＩＭＵセンサによって検出されたセンシングデータをウェアラブルカメラのＩＭＵセンサから取得する。センサ情報処理装置３０は、ＩＭＵセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、センサ情報処理装置３０は、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。センサ情報処理装置３０は、ウェアラブルカメラのカメラパラメータを推定すると、推定したウェアラブルカメラのカメラパラメータに関する情報を情報処理装置１００Ｂに送信する。

　情報処理装置１００Ｂは、ウェアラブルカメラで撮影された画像に含まれる手指の特徴点の２次元位置に関する情報をセンサ情報処理装置３０から取得する。また、情報処理装置１００Ｂは、ウェアラブルカメラのカメラパラメータに関する情報をセンサ情報処理装置３０から取得する。情報処理装置１００Ｂは、ウェアラブルカメラで撮影された画像に含まれる手指の特徴点の２次元位置に関する情報とウェアラブルカメラのカメラパラメータに関する情報とに基づいて、環境に設置したカメラによる撮影が困難な手指の姿勢を推定する。なお、センサ情報処理装置３０と情報処理装置１００Ｂとは、一体の装置であってもよい。その場合、情報処理装置１００Ｂは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。情報処理装置１００Ｂは、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の２次元位置を推定する。例えば、情報処理装置１００Ｂは、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置である手指の特徴点の２次元位置を推定する。また、情報処理装置１００Ｂは、ウェアラブルカメラが備えるＩＭＵセンサによって検出されたセンシングデータをウェアラブルカメラのＩＭＵセンサから取得する。情報処理装置１００Ｂは、ＩＭＵセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、情報処理装置１００Ｂは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。

［３．２．センサ情報処理装置の構成例］
　次に、図２１を用いて、本開示の第３の実施形態に係るセンサ情報処理装置の構成について説明する。図２１は、本開示の第３の実施形態に係るセンサ情報処理装置の構成例を示す図である。図２１に示す例では、センサ情報処理装置３０は、姿勢推定部と画像処理部と通信部を備える。

　姿勢推定部は、ウェアラブルカメラが備えるＩＭＵセンサによって検出されたセンシングデータをウェアラブルカメラのＩＭＵセンサから取得する。姿勢推定部は、ＩＭＵセンサから取得したセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定する。続いて、姿勢推定部は、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。姿勢推定部は、ウェアラブルカメラのカメラパラメータを推定すると、推定したウェアラブルカメラのカメラパラメータに関する情報を通信部に出力する。

　画像処理部は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報をウェアラブルカメラから取得する。例えば、画像処理部は、深度センサで撮影された画像情報をウェアラブルカメラから取得してもよい。画像処理部は、ウェアラブルカメラから取得した画像情報に基づいて、画像に含まれる手指の特徴点の２次元位置を推定する。例えば、画像処理部は、ウェアラブルカメラから取得した画像情報に基づいて画像に含まれる手指の特徴点の２次元位置を推定するよう学習された機械学習モデルを用いて、画像に含まれる手指の特徴点の２次元位置を推定する。画像処理部は、手指の特徴点の２次元位置を推定すると、推定した手指の特徴点の２次元位置に関する情報を通信部に出力する。

　通信部は、ネットワークＮを介して、情報処理装置１００Ｂと通信する。また、通信部は、Ｗｉ－Ｆｉ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｂｌｕｅｔｏｏｔｈ　Ｌｏｗ　Ｅｎｅｒｇｙ（登録商標）、ＡＮＴ（登録商標）、ＡＮＴ＋（登録商標）、又はＥｎＯｃｅａｎ　Ａｌｌｉａｎｃｅ（登録商標）等による通信を用いて、情報処理装置１００Ｂと無線通信してもよい。

　通信部は、ウェアラブルカメラのカメラパラメータに関する情報を姿勢推定部から取得する。また、通信部は、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報を画像処理部から取得する。通信部は、カメラパラメータに関する情報と手指の特徴点の２次元位置に関する情報とを取得すると、取得したカメラパラメータに関する情報と手指の特徴点の２次元位置に関する情報を情報処理装置１００Ｂに送信する。

［３．３．情報処理装置の構成例］
　次に、図２２を用いて、本開示の第３の実施形態に係る情報処理装置の構成について説明する。図２２は、本開示の第３の実施形態に係る情報処理装置の構成例を示す図である。図２２に示すように、第３の実施形態に係る情報処理装置１００Ｂは、第１の実施形態に係る情報処理装置１００と比較して、推定部１３２、センサデータベース１２１の代わりに、推定部１３２Ｂ、センサデータベース１２１Ｂを備える点が異なっている。したがって、以下の説明では、推定部１３２Ｂ、センサデータベース１２１Ｂについて主に説明し、第３の実施形態に係る情報処理装置１００Ｂが備える他の構成についての詳細な説明は省略する。

（センサデータベース１２１Ｂ）
　センサデータベース１２１Ｂは、第１の実施形態に係る情報処理装置１００のセンサデータベース１２１と比較して、センサ情報処理装置３０から取得したウェアラブルカメラのカメラパラメータに関する情報およびウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報を格納する点が異なる。センサデータベース１２１Ａは、取得部１３１が取得したカメラパラメータに関する情報と手指の特徴点の２次元位置に関する情報を格納する。

（推定部１３２Ｂ）
　推定部１３２Ｂは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報に基づいて、利用者の手指の姿勢に関する時系列情報を推定する。例えば、推定部１３２Ｂは、ウェアラブルカメラで撮影された画像情報に基づいてウェアラブルカメラで撮影された画像に含まれる手指の特徴点の２次元位置を推定するよう学習された機械学習モデルを用いて、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報を推定する。

　また、ウェアラブルカメラは、ＩＭＵセンサをさらに備え、推定部１３２Ｂは、ＩＭＵセンサによって検出されたセンシングデータに基づいて、手指の姿勢に関する時系列情報を推定する。具体的には、推定部１３２Ｂは、センサデータベース１２１Ｂを参照して、ウェアラブルカメラのカメラパラメータに関する情報およびウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報を取得する。

　なお、推定部１３２Ｂは、ウェアラブルカメラのＩＭＵセンサによって検出されたセンシングデータをウェアラブルカメラから取得して、ＩＭＵセンサによって検出されたセンシングデータに基づいて、ウェアラブルカメラの姿勢を推定してもよい。続いて、推定部１３２Ｂは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定してもよい。

　推定部１３２Ｂは、ウェアラブルカメラのカメラパラメータに関する情報、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。

　例えば、推定部１３２Ｂは、環境に設置された複数の高速カメラとウェアラブルカメラのうちの任意の２台のカメラでステレオ視した画像に基づいて、それぞれのカメラの組み合わせでの手指の特徴点の３次元位置とその確かさを算出する。続いて、推定部１３２Ｂは、各カメラの動画像に所定の手指の特徴点が含まれないと判定した場合、各組合せでの所定の手指の特徴点（手指の関節の位置や指先の位置）の３次元位置を、算出した確かさで重みづけして平均をとることで、所定の手指の特徴点（手指の関節の位置や指先の位置）の３次元位置を推定する。

　続いて、推定部１３２Ｂは、推定した所定の手指の３次元位置に基づいて、所定の手指の姿勢の時系列情報を推定する。より具体的には、推定部１３２Ｂは、所定の手指の姿勢の時系列情報として、所定の手指の３次元特徴量の時系列情報を推定する。

［３．４．情報処理システムの動作例］
　次に、図２３を用いて、本開示の第３の実施形態に係る情報処理システムの動作について説明する。図２３は、本開示の第３の実施形態に係る情報処理システムの動作例について説明するための図である。図２３に示す例では、図４と同様に、情報処理装置１００Ｂは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像１、２、３、…を取得する。続いて、情報処理装置１００Ｂは、取得したセンサ画像１、２、３、…を機械学習モデルＭ１に入力する。情報処理装置１００Ｂは、機械学習モデルＭ１の出力情報として、センサ画像１、２、３、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置それぞれを推定する。また、情報処理装置１００Ｂは、複数の高速カメラそれぞれのカメラパラメータを取得する。

　また、図２３では、情報処理装置１００Ｂは、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報を取得する。続いて、情報処理装置１００Ｂは、ウェアラブルカメラで撮影された画像情報に基づいてウェアラブルカメラで撮影された画像に含まれる手指の特徴点の２次元位置を推定するよう学習された機械学習モデルを用いて、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報を推定する。

　また、情報処理装置１００Ｂは、ウェアラブルカメラのＩＭＵセンサによって検出されたセンシングデータをウェアラブルカメラから取得する。続いて、情報処理装置１００Ｂは、取得したセンシングデータに基づいて、ウェアラブルカメラ（のＩＭＵセンサ）の姿勢を推定する。続いて、情報処理装置１００Ｂは、推定したウェアラブルカメラ（のＩＭＵセンサ）の姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。

　続いて、情報処理装置１００Ｂは、ウェアラブルカメラのカメラパラメータに関する情報、ウェアラブルカメラによって撮影された画像に含まれる手指の特徴点の２次元位置に関する情報、および推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。

　例えば、情報処理装置１００Ｂは、図４と同様に、推定した各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。また、情報処理装置１００Ｂは、環境に設置された複数の高速カメラとウェアラブルカメラのうちの任意の２台のカメラでステレオ視した画像に基づいて、それぞれのカメラの組み合わせでの手指の特徴点の３次元位置とその確かさを算出する。続いて、情報処理装置１００Ｂは、各カメラの動画像に所定の手指（例えば、他の指に隠れた中指や薬指等の手指）の特徴点が含まれないと判定した場合、各組合せでの所定の手指の特徴点（手指の関節の位置や指先の位置）の３次元位置を、算出した確かさで重みづけして平均をとることで、所定の手指の特徴点（手指の関節の位置や指先の位置）の３次元位置を推定する。

　続いて、情報処理装置１００Ｂは、推定した手指の３次元位置に基づいて、手指の姿勢の時系列情報を推定する。より具体的には、情報処理装置１００Ｂは、手指の姿勢の時系列情報として、手指の３次元特徴量の時系列情報を推定する。続いて、情報処理装置１００Ｂは、手指の３次元特徴量の時系列情報をデータベースに格納する。

［３．５．ウェアラブルカメラによるセンシングの概要］
　次に、図２４を用いて、本開示の第３の実施形態に係るウェアラブルカメラによるセンシングの概要について説明する。図２４は、本開示の第３の実施形態に係るウェアラブルカメラによるセンシングの概要について説明するための図である。

　図２４の左側に示すように、ウェアラブルカメラＨＣは、利用者の手首に取り付けられ、利用者の手掌側を撮影する。ウェアラブルカメラＨＣは、図２４の左側に示すＲ１の範囲を撮影する。例えば、Ｒ１の範囲は、ウェアラブルカメラＨＣのカメラ位置から利用者の手掌側に向かって円錐状に広がる範囲を示す。

　ウェアラブルカメラＨＣでＲ１の範囲を撮影すると、図２４の中央に示すような画像Ｇ１が得られる。例えば、画像Ｇ１には、利用者の指先に近い手指のＤＩＰ関節や指先が含まれる。センサ情報処理装置３０は、ウェアラブルカメラＨＣから取得した画像情報に基づいて、画像に含まれる手指の関節や指先の位置を手指の特徴点として抽出する。

　また、ウェアラブルカメラＨＣは、通常のカメラまたは深度センサによって利用者の手掌側を撮影する。また、ウェアラブルカメラＨＣのカメラ周辺には赤外線の光源を取り付けてもよい。また、カメラはＴＯＦ（Time-of-Flight）センサで代替してもよい。また、ウェアラブルカメラＨＣ自体の姿勢は、カメラと同じ場所に取り付けたＩＭＵセンサのセンシングデータによって推定する。

　このように、ウェアラブルカメラＨＣは、手掌側を撮影することにより、環境に取り付けたカメラで撮影できなかった手指の情報の補完を行うことができる。また、ウェアラブルカメラＨＣにより手掌側を撮影することで、他の指に隠れることなく、指先のトラッキングが可能になる。

［３．６．ウェアラブルカメラの構造］
　次に、図２５を用いて、本開示の第３の実施形態に係るウェアラブルカメラの構造について説明する。図２５は、本開示の第３の実施形態に係るウェアラブルカメラの構造について説明するための図である。
　図２５に示すように、ウェアラブルカメラＨＣは、通常のカメラまたは深度センサであるカメラＣ４を備える。なお、ウェアラブルカメラＨＣを手首に取り付けて手掌を撮影するため、カメラＣ４の位置はバンドから飛び出ている必要がある。

　また、ウェアラブルカメラＨＣは、ＩＭＵセンサ（ＩＭＵ４）を備える。ＩＭＵセンサ（ＩＭＵ４）は、ウェアラブルカメラＨＣの本体内部に取り付けられる。

　また、ウェアラブルカメラＨＣは、手首に固定するためのバンドＢ１を備える。

　また、ウェアラブルカメラＨＣは、バンドの周囲に外部センサからトラッキングするためのマーカーＭＲ１を備えてもよい。

［３．７．変形例］
　次に、図２６を用いて、本開示の第３の実施形態の変形例に係る情報処理システムの動作について説明する。図２６は、本開示の第３の実施形態の変形例に係る情報処理システムの動作例について説明するための図である。図２６では、情報処理システム３が、ウェアラブルカメラのＩＭＵセンサによるセンシングデータを用いることなく、ウェアラブルカメラの画像情報と環境に設置された高速カメラの画像情報に基づいて手指の姿勢に関する時系列情報を推定する例について説明する。

　図２６に示す例では、図２３と同様に、情報処理装置１００Ｂは、環境に設置された複数の高速カメラそれぞれによって撮影されたセンサ画像１、２、３、…を取得する。続いて、情報処理装置１００Ｂは、取得したセンサ画像１、２、３、…を機械学習モデルＭ１に入力する。情報処理装置１００Ｂは、機械学習モデルＭ１の出力情報として、センサ画像１、２、３、…それぞれに含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置それぞれを推定する。また、情報処理装置１００Ｂは、複数の高速カメラそれぞれのカメラパラメータを取得する。

　また、情報処理装置１００Ｂは、取得したセンサ画像１、２、３、…に基づいて、ウェアラブルカメラの姿勢を推定する。続いて、情報処理装置１００Ｂは、推定したウェアラブルカメラの姿勢に基づいて、ウェアラブルカメラのカメラパラメータを推定する。

［４．第４の実施形態］
　第４の実施形態に係る情報処理システム４では、対象物への接触を検知する接触センサが対象物の内部に搭載されている。そして、第４の実施形態に係る情報処理システム４の情報処理装置１００Ｃは、対象物に対する手指の接触に関するセンシングデータに基づいて、対象物に接触した手指の姿勢の時系列情報を推定する。

［４．１．情報処理システムの構成例］
　次に、図２７を用いて、本開示の第４の実施形態に係る情報処理システムの構成について説明する。図２７は、本開示の第４の実施形態に係る情報処理システムの構成例を示す図である。図２７に示すように、第４の実施形態に係る情報処理システム４は、第１の実施形態に係る情報処理システム１と比較して、センサ情報処理装置４０を備える点が異なっている。また、第４の実施形態に係る情報処理システム４は、第１の実施形態に係る情報処理システム１の情報処理装置１００の代わりに、情報処理装置１００Ｃを備える点が異なっている。したがって、以下の説明では、センサ情報処理装置４０について主に説明し、第４の実施形態に係る情報処理システム４が備える他の構成についての詳細な説明は省略する。

　センサ情報処理装置４０は、対象物に対する手指の接触に関するセンシングデータを対象物の内部に搭載された接触センサから取得する。センサ情報処理装置４０は、対象物に対する手指の接触に関するセンシングデータを取得すると、センシングデータを情報処理装置１００Ｃに送信する。

　情報処理装置１００Ｃは、対象物に対する手指の接触に関するセンシングデータをセンサ情報処理装置４０から取得する。情報処理装置１００Ｃは、センシングデータに基づいて、対象物に接触した手指の姿勢の時系列情報を推定する。なお、センサ情報処理装置４０と情報処理装置１００Ｃとは、一体の装置であってもよい。その場合、情報処理装置１００Ｃは、対象物に対する手指の接触に関するセンシングデータを対象物の内部に搭載された接触センサから取得する。

［４．２．情報処理システムの動作例］
　次に、図２８を用いて、本開示の第４の実施形態に係る情報処理システムの動作について説明する。図２８は、本開示の第４の実施形態に係る情報処理システムの動作例について説明するための図である。図２８に示す例では、第１～第３の実施形態に係る情報処理装置と同様に、情報処理装置１００Ｃは、各カメラの動画像に含まれる手指の関節、手掌、手背、手首の特徴点の２次元位置に関する情報に基づいて、手指の関節、手掌、手背、手首の特徴点の３次元位置を推定する。

　また、情報処理装置１００Ｃは、対象物への手指の接触情報をセンサ情報処理装置４０から取得する。続いて、情報処理装置１００Ｃは、手指の関節、手掌、手背、手首の特徴点の３次元位置と対象物への手指の接触情報とに基づいて、対象物に接触した手指を推定する。また、情報処理装置１００Ｃは、対象物に接触した手指を特定するための手指のモデルを取得する。続いて、情報処理装置１００Ｃは、推定した対象物に接触した手指と取得した手指のモデルとに基づいて、対象物に接触した手指の姿勢を推定する。

［４．３．情報処理装置の構成例］
　次に、図２９を用いて、本開示の第４の実施形態に係る情報処理装置の構成について説明する。図２９は、本開示の第４の実施形態に係る情報処理装置の構成例を示す図である。図２９に示すように、第４の実施形態に係る情報処理装置１００Ｃは、第１の実施形態に係る情報処理装置１００と比較して、推定部１３２、センサデータベース１２１の代わりに、推定部１３２Ｃ、センサデータベース１２１Ｃを備える点が異なっている。したがって、以下の説明では、推定部１３２Ｃ、センサデータベース１２１Ｃについて主に説明し、第４の実施形態に係る情報処理装置１００Ｃが備える他の構成についての詳細な説明は省略する。

（センサデータベース１２１Ｃ）
　センサデータベース１２１Ｃは、第１の実施形態に係る情報処理装置１００のセンサデータベース１２１と比較して、センサ情報処理装置４０から取得した対象物に対する手指の接触に関するセンシングデータを格納する点が異なる。センサデータベース１２１Ｃは、取得部１３１が取得した対象物に対する手指の接触に関するセンシングデータを格納する。

（推定部１３２Ｃ）
　推定部１３２Ｃは、対象物に対する手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。具体的には、推定部１３２Ｃは、対象物への手指の接触情報をセンサ情報処理装置４０から取得する。続いて、推定部１３２Ｃは、手指の関節、手掌、手背、手首の特徴点の３次元位置と対象物への手指の接触情報とに基づいて、対象物に接触した手指を推定する。また、推定部１３２Ｃは、対象物に接触した手指を特定するための手指のモデルを取得する。続いて、推定部１３２Ｃは、推定した対象物に接触した手指と取得した手指のモデルとに基づいて、対象物に接触した手指の姿勢に関する情報を推定する。例えば、推定部１３２Ｃは、対象物に接触した手指の姿勢に関する情報として、対象物に接触した手指の関節角度を推定する。なお、推定部１３２Ｃによる手指の関節角度の推定処理については、後述する図３１を用いて詳細に説明する。

［４．４．対象物に対する手指の接触動作］
　次に、図３０を用いて、本開示の第４の実施形態に係る対象物に対する手指の接触動作について説明する。図３０は、本開示の第４の実施形態に係る対象物に対する手指の接触動作について説明するための図である。図３０に示す例では、対象物Ｏ２は、例えば、ピアノの鍵盤である。また、対象物Ｏ２の内部には、対象物への接触を検知する接触センサＦＳが搭載されている。図３０では、演奏者の手Ｈ１の人差し指と対象物Ｏ２とが対象物Ｏ２の上面の点Ｐ１で接触すると、接触センサＦＳは対象物Ｏ２に対する人差し指の接触を検知する。接触センサＦＳは、対象物Ｏ２に対する人差し指の接触を検知すると、対象物Ｏ２と人差し指との接触情報をセンサ情報処理装置４０に送信する。

［４．５．手指の関節角度の推定処理］
　次に、図３１を用いて、本開示の第４の実施形態に係る手指の関節角度の推定処理について説明する。図３１は、本開示の第４の実施形態に係る手指の関節角度の推定処理について説明するための図である。図３１に示す例では、利用者の手指が対象物Ｏ３の上面の点Ｐ１を押下する場合を示す。例えば、鍵盤である対象物Ｏ３は、利用者の手指が鍵盤の一方の端に位置する点Ｐ１を押下すると、押下位置Ｐ１に近い鍵盤の端が下方に下がり、押下位置Ｐ１から遠い鍵盤の端が上方に持ち上がることにより、対象物Ｏ３の位置が変化する。図３１では、対象物Ｏ３に対する手指の接触動作が行われる前の対象物Ｏ３の位置を点線で示す。また、対象物Ｏ３に対する手指の接触動作が行われた状態の対象物Ｏ３の位置を実線で示す。

　推定部１３２は、対象物に対する手指の接触動作が行われる前の対象物の位置情報、対象物に対する手指の接触動作が行われた前後における対象物の位置の変化量、および対象物に対する手指の接触位置情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。図３１では、推定部１３２は、対象物Ｏ３に対する手指の接触動作が行われる前の対象物の位置情報（点線の位置情報）、対象物Ｏ３に対する手指の接触動作が行われた前後における対象物の位置の変化量（点線と実線との位置の変化量）、および対象物Ｏ３に対する手指の接触位置Ｐ１の情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。

　より具体的には、推定部１３２は、対象物と接触した手指の姿勢に関する時系列情報として、手指のＭＰ関節とＰＩＰ関節との間の距離、手指のＰＩＰ関節と指先との間の距離、手指のＭＰ関節の位置、および手指の指先の位置に基づいて、手指のＰＩＰ関節の角度を推定する。図３１では、推定部１３２は、手指のＭＰ関節の位置Ｐ３とＰＩＰ関節の位置Ｐ２との間の距離Ｌ１、手指のＰＩＰ関節の位置Ｐ２と指先の位置Ｐ１との間の距離Ｌ２、手指のＭＰ関節の位置Ｐ３、および手指の指先の位置Ｐ１に基づいて、手指のＰＩＰ関節の角度θを推定する。例えば、推定部１３２は、環境に設置された高速カメラの画像情報に基づいて、画像情報に含まれる手指のＭＰ関節の位置Ｐ３、とＰＩＰ関節の位置Ｐ２、指先の位置Ｐ１を推定する。続いて、推定部１３２は、手指のＭＰ関節の位置Ｐ３とＰＩＰ関節の位置Ｐ２との間の距離Ｌ１、手指のＰＩＰ関節の位置Ｐ２と指先の位置Ｐ１との間の距離Ｌ２をそれぞれ算出する。続いて、推定部１３２は、算出した距離Ｌ１、Ｌ２、および推定したＭＰ関節の位置Ｐ３、指先の位置Ｐ１に基づいて、余弦定理を用いて、手指のＰＩＰ関節の角度θを推定する。なお、手指のＤＩＰ関節は、手指のＰＩＰ関節と同期して動くため、計算上は省略する。

［５．効果］
　上述のように、本開示の実施形態又はその変形例に係る情報処理装置１００は、推定部１３２を備える。推定部１３２は、対象物に対する手指の接触動作を含む対象物に対する手指の動作と対象物とを含む画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、推定部１３２は、手指の動作と対象物とを含む画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第１機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。

　これにより、情報処理装置１００は、手指の関節等にセンサやマーカーを装着することなく、手指の姿勢を推定することができる。すなわち、情報処理装置１００は、センサやマーカー等の装着により、手指の動作を妨げることなく、手指の姿勢を推定することができる。したがって、情報処理装置１００は、例えば、ピアノの演奏中の手指のように、対象物に対する手指の接触動作を含む対象物に対する手指の動作中の手指の姿勢を適切に推定することができる。

　また、推定部１３２は、手指の姿勢に関する時系列情報として、手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する。

　これにより、情報処理装置１００は、手指の３次元位置のみならず、手指の関節の角度まで適切に推定することができるので、手指の姿勢をより適切に推定することができる。

　また、画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である。

　これにより、情報処理装置１００は、手指の高速動作を撮影するためシャッター速度を上げる場合であっても、手指の動作を行っている利用者に対して眩しさを感じさせることなく、十分な光量を確保することができるので、手指の姿勢を適切に推定可能とすることができる。

　また、画像情報は、対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である。

　これにより、情報処理装置１００は、１つの方向から撮影した場合には、他の手指等により隠れてしまった手指についても、他の方向から撮影することでカバーすることができるので、手指の姿勢をより適切に推定することができる。

　また、複数のカメラは、対象物を囲む門状の構造物に取り付けられ、複数の画像情報それぞれは、手指がカメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された複数の画像情報である。

　これにより、情報処理装置１００は、手指の高速動作を撮影する場合であっても、十分な光量を確保して撮影することができるので、手指の姿勢をより適切に推定することができる。

　また、画像情報は、対象物の両脇および対象物の上方に設置された３台以上のカメラそれぞれによって撮影された複数の画像情報である。

　また、画像情報は、手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である。

　これにより、情報処理装置１００は、撮影範囲を絞ることにより、手指の姿勢推定の分解能および精度を向上させることができるので、手指の姿勢をより適切に推定することができる。

　また、推定部１３２は、手指の動作を行っている手の手背の画像情報に基づいて、手指の姿勢に関する時系列情報を推定する。また、推定部１３２は、手指の動作を行っている手の手背の画像情報に基づいて手指の姿勢に関する時系列情報を推定するよう学習された第２機械学習モデルを用いて、手指の姿勢に関する時系列情報を推定する。

　これにより、情報処理装置１００は、高速動作中の手指と比較すると、より撮影がしやすい手背の画像に基づいて、手指の姿勢をより適切に推定することができる。

　また、推定部１３２は、利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されたセンシングデータに基づいて、利用者の手指の姿勢に関する時系列情報を推定する。

　これにより、情報処理装置１００は、他の手指等により隠れた手指の姿勢推定を補完することができる。

　また、推定部１３２は、利用者の手首に取り付けられたウェアラブルカメラで撮影された画像情報に基づいて、利用者の手指の姿勢に関する時系列情報を推定する。

　また、ウェアラブルカメラは、ＩＭＵセンサをさらに備え、推定部１３２は、ＩＭＵセンサによって検出されたセンシングデータに基づいて、手指の姿勢に関する時系列情報を推定する。

　これにより、情報処理装置１００は、他の手指等により隠れた手指の姿勢推定をより精度よく補完することができる。

　また、推定部１３２は、対象物に対する手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。また、推定部１３２は、対象物に対する手指の接触動作が行われる前の対象物の位置情報、対象物に対する手指の接触動作が行われた前後における対象物の位置の変化量、および対象物に対する手指の接触位置情報に基づいて、対象物と接触した手指の姿勢に関する時系列情報を推定する。また、推定部１３２は、対象物と接触した手指の姿勢に関する時系列情報として、手指のＭＰ関節とＰＩＰ関節との間の距離、手指のＰＩＰ関節と指先との間の距離、手指のＭＰ関節の位置、および手指の指先の位置に基づいて、手指のＰＩＰ関節の角度を推定する。

　また、対象物は、鍵盤であり、対象物に対する手指の動作は、鍵盤に対する手指の打鍵動作または鍵盤に対して手指の位置を移動させる移動動作である。

　これにより、情報処理装置１００は、ピアノの演奏中の手指の姿勢を適切に推定することができる。

　また、情報処理装置１００は、提供部１３３をさらに備える。提供部１３３は、推定部１３２によって推定された手指の姿勢に関する時系列情報を利用者に対して提供する。

　これにより、情報処理装置１００は、手指の巧緻動作を他者（弟子など）に伝達し、他者の熟達を支援することができる。

［６．ハードウェア構成］
　上述してきた実施形態や変形例に係る情報処理装置１００等の情報機器は、例えば図２９に示すような構成のコンピュータ１０００によって実現される。図２９は、情報処理装置１００等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、上述の実施形態又はその変形例に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１３５０の一例である本開示の一実施形態又はその変形例に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が上述の実施形態又はその変形例に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示の一実施形態又はその変形例に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１３５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
　を備える情報処理装置。
（２）
　前記推定部は、
　前記手指の動作と前記対象物とを含む画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第１機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
　前記（１）に記載の情報処理装置。
（３）
　前記推定部は、
　前記手指の姿勢に関する時系列情報として、前記手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または前記手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である、
　前記（１）～（３）のいずれか１つに記載の情報処理装置。
（５）
　前記画像情報は、前記対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である、
　前記（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記複数のカメラは、前記対象物を囲む門状の構造物に取り付けられ、
　前記複数の画像情報それぞれは、前記手指が前記カメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された前記複数の画像情報である、
　前記（５）に記載の情報処理装置。
（７）
　前記画像情報は、前記対象物の両脇および前記対象物の上方に設置された３台以上のカメラそれぞれによって撮影された複数の画像情報である、
　前記（１）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記画像情報は、前記手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である、
　前記（１）～（７）のいずれか１つに記載の情報処理装置。
（９）
　前記推定部は、
　前記手指の動作を行っている手の手背の画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
　前記（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記推定部は、
　前記手指の動作を行っている手の手背の画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第２機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
　前記（９）に記載の情報処理装置。
（１１）
　前記推定部は、
　利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されたセンシングデータに基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
　前記（１）～（１０）のいずれか１つに記載の情報処理装置。
（１２）
　前記推定部は、
　利用者の手首に取り付けられたウェアラブルカメラで撮影された前記画像情報に基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
　前記（１）～（１１）のいずれか１つに記載の情報処理装置。
（１３）
　前記ウェアラブルカメラは、ＩＭＵセンサをさらに備え、
　前記推定部は、
　前記ＩＭＵセンサによって検出されたセンシングデータに基づいて、前記手指の姿勢に関する時系列情報を推定する、
　前記（１２）に記載の情報処理装置。
（１４）
　前記推定部は、
　前記対象物に対する前記手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
　前記（１）～（１３）のいずれか１つに記載の情報処理装置。
（１５）
　前記推定部は、
　前記対象物に対する前記手指の接触動作が行われる前の前記対象物の位置情報、前記対象物に対する前記手指の接触動作が行われた前後における前記対象物の位置の変化量、および前記対象物に対する前記手指の接触位置情報に基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
　前記（１４）に記載の情報処理装置。
（１６）
　前記推定部は、
　前記対象物と接触した前記手指の姿勢に関する時系列情報として、前記手指のＭＰ関節とＰＩＰ関節との間の距離、前記手指のＰＩＰ関節と指先との間の距離、前記手指のＭＰ関節の位置、および前記手指の指先の位置に基づいて、前記手指のＰＩＰ関節の角度を推定する、
　前記（１４）または（１５）に記載の情報処理装置。
（１７）
　前記対象物は、鍵盤であり、
　前記対象物に対する前記手指の動作は、前記鍵盤に対する前記手指の打鍵動作または前記鍵盤に対して前記手指の位置を移動させる移動動作である、
　前記（１）～（１６）のいずれか１つに記載の情報処理装置。
（１８）
　前記推定部によって推定された前記手指の姿勢に関する時系列情報を利用者に対して提供する提供部をさらに備える、
　前記（１）～（１７）のいずれか１つに記載の情報処理装置。
（１９）
　コンピュータが、
　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
　情報処理方法。
（２０）
　コンピュータを、
　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
　として機能させるためのプログラム。

　　　１　　情報処理システム
　　１０　　センサ情報処理装置
　１００　　情報処理装置
　１１０　　通信部
　１２０　　記憶部
　１２１　　センサデータベース
　１２２　　モデルデータベース
　１２３　　３次元特徴量データベース
　１３０　　制御部
　１３１　　取得部
　１３２　　推定部
　１３３　　提供部
　２００　　アプリサーバ
　３００　　端末装置

Claims

　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
　を備える情報処理装置。
　前記推定部は、
　前記手指の動作と前記対象物とを含む画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第１機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記手指の姿勢に関する時系列情報として、前記手指の各関節もしくは各指先、手掌、手背もしくは手首の特徴点の位置、速度、加速度、もしくは軌道、または前記手指の各関節の角度、角速度、もしくは角加速度の時系列情報を推定する
　請求項１に記載の情報処理装置。
　前記画像情報は、高速モノクロカメラまたは高速赤外線カメラによって撮影された画像情報である、
　請求項１に記載の情報処理装置。
　前記画像情報は、前記対象物を異なる複数の方向から撮影するように設置された複数のカメラそれぞれで取得された複数の画像情報である、
　請求項１に記載の情報処理装置。
　前記複数のカメラは、前記対象物を囲む門状の構造物に取り付けられ、
　前記複数の画像情報それぞれは、前記手指が前記カメラそれぞれの近傍に設置された光源によって照らされた状態で撮影された前記複数の画像情報である、
　請求項５に記載の情報処理装置。
　前記画像情報は、前記対象物の両脇および前記対象物の上方に設置された３台以上のカメラそれぞれによって撮影された複数の画像情報である、
　請求項１に記載の情報処理装置。
　前記画像情報は、前記手指の指先から手首までの範囲を撮影範囲として撮影された画像情報である、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記手指の動作を行っている手の手背の画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記手指の動作を行っている手の手背の画像情報に基づいて前記手指の姿勢に関する時系列情報を推定するよう学習された第２機械学習モデルを用いて、前記手指の姿勢に関する時系列情報を推定する、
　請求項９に記載の情報処理装置。
　前記推定部は、
　利用者の親指および手背に設置された複数のＩＭＵセンサによって検出されたセンシングデータに基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　利用者の手首に取り付けられたウェアラブルカメラで撮影された前記画像情報に基づいて、前記利用者の前記手指の姿勢に関する時系列情報を推定する、
　請求項１に記載の情報処理装置。
　前記ウェアラブルカメラは、ＩＭＵセンサをさらに備え、
　前記推定部は、
　前記ＩＭＵセンサによって検出されたセンシングデータに基づいて、前記手指の姿勢に関する時系列情報を推定する、
　請求項１２に記載の情報処理装置。
　前記推定部は、
　前記対象物に対する前記手指の接触動作を検出する接触センサによって検出されたセンシングデータに基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記対象物に対する前記手指の接触動作が行われる前の前記対象物の位置情報、前記対象物に対する前記手指の接触動作が行われた前後における前記対象物の位置の変化量、および前記対象物に対する前記手指の接触位置情報に基づいて、前記対象物と接触した前記手指の姿勢に関する時系列情報を推定する、
　請求項１４に記載の情報処理装置。
　前記推定部は、
　前記対象物と接触した前記手指の姿勢に関する時系列情報として、前記手指のＭＰ関節とＰＩＰ関節との間の距離、前記手指のＰＩＰ関節と指先との間の距離、前記手指のＭＰ関節の位置、および前記手指の指先の位置に基づいて、前記手指のＰＩＰ関節の角度を推定する、
　請求項１４に記載の情報処理装置。
　前記対象物は、鍵盤であり、
　前記対象物に対する前記手指の動作は、前記鍵盤に対する前記手指の打鍵動作または前記鍵盤に対して前記手指の位置を移動させる移動動作である、
　請求項１に記載の情報処理装置。
　前記推定部によって推定された前記手指の姿勢に関する時系列情報を利用者に対して提供する提供部をさらに備える、
　請求項１に記載の情報処理装置。
　コンピュータが、
　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する、
　情報処理方法。
　コンピュータを、
　対象物に対する手指の接触動作を含む前記対象物に対する前記手指の動作と前記対象物とを含む画像情報に基づいて、前記手指の姿勢に関する時系列情報を推定する推定部と、
　として機能させるためのプログラム。