JPWO2019142329A1

JPWO2019142329A1 - 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JPWO2019142329A1
Application number: JP2019565662A
Authority: JP
Inventors: 和之有松; 良徳大橋
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-09-03
Anticipated expiration: 2038-01-19
Also published as: US20200327693A1; US11302029B2; WO2019142329A1; JP6854928B2

Abstract

対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、対象者の手の位置またはポーズの少なくとも一方に関する、第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置とに接続され、第１、第２の情報取得装置からそれぞれ第１の情報及び第２の情報を受け入れ、当該受け入れた第１、第２の情報のそれぞれを取得したタイミングの情報に関連付けて保持し、共通したタイミングで取得された第１、第２の情報を対情報として抽出する情報処理装置である。

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、及びプログラムに関する。

近年、プレイヤの手の位置やポーズを認識し、ゲーム等の処理に当該認識した手の位置やポーズの情報を供する家庭用ゲーム機等の情報処理装置が開発されている。

このような情報処理装置では、プレイヤの手に把持されるデバイス（以下、コントローラデバイスと呼ぶ）に、例えばコントローラデバイス自身からプレイヤの各指までの距離等を計測させ、当該計測された、コントローラデバイスと、各指までの距離の情報、並びにコントローラデバイス自身の姿勢等の情報等を用いてプレイヤの手の位置やポーズを推定する。

また別の例では、情報処理装置は、カメラ等によりプレイヤの手の画像を撮像し、当該撮像された手の画像に基づいてプレイヤの手の位置やポーズを推定する。

この推定の処理については種々の方法があるが、例えば人工知能等の機械学習結果を用いた方法が一例として挙げられる。この機械学習の結果を用いる場合、例えば正解となるユーザの手の位置やポーズの情報を別途、上記コントローラデバイスや上記カメラ等のデバイス（以下、便宜的に推測デバイスと呼ぶ）以外のデバイス（以下便宜的に測定デバイスと呼ぶ）によって測定して取得し、当該正解の情報を教師信号とし、上記コントローラデバイスが取得した情報を入力信号として、ニューラルネットワークを学習させ、当該ニューラルネットワークを用いることとなる。

しかしながら、上記教師信号となる正解の情報を取得したり、当該正解の情報と、対応するコントローラデバイスが取得した情報を見いだしたりすることは必ずしも容易ではない。

例えば、上記測定デバイスを用いて、測定の対象者の手の位置やポーズの情報を、正解の情報として取得する場合、当該情報を取得した時点に対応して、推定デバイスが取得した情報（カメラの画像や、コントローラデバイスと、各指までの距離の情報等）を見いだす必要があるが、従来の方法では、対象者に、指定した位置に手を移動して、指定したポーズをとってもらい、測定デバイスにより情報を取得するとともに、その時点で推定デバイスによって取得した情報を対応付けて記録していた。そして、手作業で一つ一つの位置及びポーズに係る、互いに関連する、測定デバイスが取得する情報（教師信号）と、推定デバイスが取得した情報（入力信号）とを設定して、機械学習処理を行っていた。

このため、機械学習用のデータ（教師信号と対応する入力信号とを関連付けた情報）を準備するための負担が大きかった。

本発明は上記実情に鑑みて為されたもので、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる情報処理装置、情報処理システム、情報処理方法、及びプログラムを提供することを、その目的の一つとする。

上記従来例の問題点を解決する本発明の一態様は、情報処理装置であって、対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置とに接続され、前記第１、第２の情報取得装置からそれぞれ前記第１の情報及び第２の情報を受け入れる受入手段と、前記受け入れた第１、第２の情報のそれぞれを、前記第１、第２の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、前記保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する抽出手段と、を含み、当該抽出した対情報が、当該対情報に含まれる第１の情報を教師信号、第２の情報を入力信号として機械学習の学習処理に供されることとしたものである。

本発明によると、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる。

本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。本発明の実施の形態に係る情報処理システムが用いる測定デバイスの一例を表す概要説明図である。本発明の実施の形態に係る情報処理システムが用いる推定デバイスの一例を表す概要説明図である。本発明の実施の形態に係る情報処理装置の例を表す機能ブロック図である。本発明の実施の形態に係る情報処理装置が保持する情報の例を表す説明図である。本発明の実施の形態に係る情報処理の動作例を表すフローチャート図である。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム１は、図１に例示するように、第１の情報取得装置としての測定デバイス１０と、第２の情報取得装置としての推定デバイス２０と、情報処理装置３０とを含んで構成される。

ここで情報処理装置３０は、図１に示すように、制御部３１と、記憶部３２と、操作部３３と、表示制御部３４と、入出力部３５とを含んで構成される。

また本実施の形態の一例の測定デバイス１０は、図２に例示するように、測定の対象となる対象者の手の周囲に配された多数のカメラＣを含み、対象者の手がどの位置で、どのようなポーズとなっていても、カメラＣのうちの複数のカメラＣ１，Ｃ２…によって当該手を撮像可能となっているものである。またこの測定デバイス１０は、パーソナルコンピュータ（ＰＣ）等の情報処理デバイスを含み、所定のタイミングごと（例えば１／６０秒等の定期的なタイミングごと）に撮像された画像から、対象者の手の主要位置（例えば各指の各関節位置等）に予め貼り付けられた複数のマーカーの三次元空間内での位置をそれぞれ認識する。そして測定デバイス１０は、当該認識した当該各マーカーの位置の情報（三次元の座標情報）を、撮像の時点を表すタイムスタンプ情報とともに出力する。このようなデバイスは、例えば、スパイス社のOptiTrack（登録商標）等のモーションキャプチャシステムとして知られているシステムを用いて実現できるので、ここでの詳しい説明を省略する。もっとも、この測定デバイスは、カメラを用いるものに限られず、対象者の手の位置またはポーズの少なくとも一方を必ず取得できるものであれば、筋電計や超音波などを用いる方法であっても構わない。

また、本実施の形態の一例に係る推定デバイス２０は、例えば図３に例示するように、対象者の手に把持されるコントローラデバイス２００である。このコントローラデバイス２００は、図３の例では、細長の柱状の形状をなし、把持されたときに対象者の各指が接触する位置には、それぞれ例えば静電容量センサや、赤外線距離センサ等、指先までの位置を測定するセンサ２０１が配されている。
なお、図２，図３の例では説明のため対象者の手を破線で示している。

本実施の形態の一例では、このコントローラデバイス２００は、各センサ２０１が測定した対象者の指先までの距離の情報を、所定のタイミングごと（例えば１００ミリ秒等の定期的なタイミングごと）に繰り返し取得する。そしてコントローラデバイス２００は、当該情報を取得するごとに、当該情報を情報処理装置３０に対して送出する。

情報処理装置３０の制御部３１は、ＣＰＵなどのプログラム制御デバイスであり、記憶部３２に格納されたプログラムに従って動作する。この制御部３１は、本実施の形態においては、第１の情報取得装置である測定デバイス１０から、対象者の手の各部に配したマーカーの位置を表す三次元の座標情報と、当該マーカーを撮像した時点を表すタイムスタンプ情報とを、第１の情報として受け入れる。またこの制御部３１は、第２の情報取得装置としての推定デバイス２０から、推定デバイス２０が取得した情報を受け入れる。例えば推定デバイス２０がコントローラデバイス２００であれば、この制御部３１は、コントローラデバイス２００から、所定のタイミングごと（例えば１００ミリ秒等の定期的なタイミングごと）に、コントローラデバイス２００から対象者の指先までの距離の情報を第２の情報として受け入れる。

制御部３１は、受け入れた第１、第２の情報のそれぞれを、第１、第２の情報取得装置である測定デバイス１０及び推定デバイス２０がそれぞれ第１、第２の情報を取得したタイミングの情報に関連付けて保持する。また、制御部３１は、当該保持した第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する。そしてこの抽出した対情報が、当該対情報に含まれる第１の情報を教師信号、第２の情報を入力信号とした機械学習の学習処理に供される。この制御部３１の詳しい動作については、後に述べる。

記憶部３２は、メモリデバイスやディスクデバイス等であり、制御部３１によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部３２に格納されたものであってもよい。またこの記憶部３２は、制御部３１のワークメモリとしても動作する。

操作部３３は、キーボードやマウス等のデバイスに接続され、これらから利用者の指示操作の入力を受け入れて、当該指示操作の内容を表す情報を、制御部３１に出力する。表示制御部３４は、ディスプレイ等に接続され、制御部３１から入力される指示に従って、情報を表示出力するよう、ディスプレイ等を制御する。

入出力部３５は、ＵＳＢ等の有線またはブルートゥース（登録商標）等の無線通信により、測定デバイス１０や推定デバイス２０に接続され、これらのデバイスが出力する情報を受け入れて制御部３１に出力する。またこの入出力部３５は、制御部３１から入力される指示に従い、接続されたデバイスに対して情報を出力する。

次に、制御部３１の動作について説明する。本実施の形態の制御部３１は、機能的には、図４に例示するように、受入部４１と、前処理部４２と、保持処理部４３と、抽出処理部４４とを含んで構成される。なお、以下の例では、情報処理装置３０に接続されている推定デバイス２０はコントローラデバイス２００であるものとする。

受入部４１は、第１の情報取得装置である測定デバイス１０から、入出力部３５を介して第１の情報として受け入れる。ここで第１の情報には、所定のタイミングごとに撮像された画像に基づいて認識された、対象者の手の各部に配したマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）と、当該マーカーを撮像した時点を表すタイムスタンプ情報（Ｔ）とを含む。

またこの受入部４１は、第２の情報取得装置としてのコントローラデバイス２００から、入出力部３５を介して、所定のタイミングごと（例えば１００ミリ秒等の定期的なタイミングごと）に、コントローラデバイス２００と対象者の各指の指先との距離の情報（ＦＰ１，ＦＰ２…）を第２の情報として受け入れる。

前処理部４２は、受入部４１が受け入れた第１、第２の情報を保持処理部４３により保持するための前処理を実行する。本実施の形態のある例では、この前処理部４２は、コントローラデバイス２００から第２の情報を受け入れるごとに、当該受け入れたタイミングの情報（時刻情報）を取得する。この時刻情報は、図示しない計時回路（リアルタイムクロック（ＲＴＣ）等）から取得するか、またはネットワーク等を介して時刻情報サーバから取得すればよい。

前処理部４２は、処理を開始してから最初に第２の情報を受け入れたときに取得した時刻情報ｔを基準時刻ｔ0として、ｉ番目に受け入れた第２の情報を、そのときに取得した時刻情報ｔから基準時刻ｔ0を差引きして得たタイミングの情報ｔi（ｉ＝１，２，…、従って最初の第２の情報についてはｔ1＝０となる）を、対応する第２の情報に含めて、保持処理部４３に対して出力する。またこの例では、前処理部４２は、第１の情報についてはそのまま保持処理部４３に出力する。

保持処理部４３は、前処理部４２が出力する第１，第２の情報（第２の情報についてはタイミングの情報が含められたもの）を受け入れて、これらの情報を記憶部３２に蓄積して格納する。

この保持処理部４３の動作により、記憶部３２には、図５に例示するように、第１の情報については、タイムスタンプ情報（Ｔ１，Ｔ２…）で表されるマーカーを撮像した時点ごとに、当該時点で撮像されたマーカーに基づいて得られたマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）が関連付けて記憶される。

また第２の情報については、前処理部４２で得られたタイミングの情報（ｔ１，ｔ２…）で表される時点ごとに、当該時点で受け入れた、コントローラデバイス２００と対象者の各指の指先との距離の情報（ＦＰ１，ＦＰ２…）が関連付けられて、記憶部３２に蓄積して格納された状態となる。

抽出処理部４４は、記憶部３２に保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する。具体的に、この抽出処理部４４は、例えば第１、第２の情報のうち、記録されている情報が得られたタイミングの間隔が比較的長い情報を選択する。例えば第１の情報がΔＴ＝１／６０秒（約１７ミリ秒）ごとに取得されており、第２の情報がΔｔ＝１００ミリ秒ごとに取得されていれば、ΔＴ＜Δｔであるので、抽出処理部４４は第２の情報を選択する。

抽出処理部４４は、選択した第２の情報のうち、一つのタイミング情報に関連付けられて保持されている情報を、記憶部３２から読み出す。すなわち抽出処理部４４は、タイミングの情報ｔi（ｉ＝１，２，…）のいずれかを選択し、当該選択したタイミングの情報ｔiに関連付けられた対象者の各指の指先との距離の情報（ＦＰ１，ＦＰ２…）を読み出す。

抽出処理部４４は、ここで選択されたタイミングの情報が表す時刻ｔiに最も近いタイミングを表す情報Ｔに関連付けられた、第１の情報（記録されている情報が得られたタイミングの間隔が比較的短い情報）を記憶部３２から検索する。

ここでの例では第１の情報に含まれるタイミングの情報はタイムスタンプであり、第２の情報については、測定開始からの経過時間に相当するタイミングの情報が関連付けられている。そこで、本実施の形態の、この例に係る抽出処理部４４は、第１の情報に含まれるタイムスタンプのうち、最も時間的に早い時刻を表すタイムスタンプの時点Ｔ0が、第２の情報を受け入れた際に、前処理部４２が取得した基準時刻ｔ0と等しいものとして、第１の情報に含まれるタイムスタンプＴj（ｊ＝１，２…）からＴ0を差引きした値Ｔj−Ｔ0（ｊ＝１，２…）のうち、選択されたタイミングの情報が表す時刻ｔiに最も近いタイムスタンプＴjを見いだす。

抽出処理部４４は、ここで見いだしたタイムスタンプＴjに関連付けられた対象者の手の各部に配したマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）を記憶部３２から読み出し、また、選択されたタイミングの情報が表す時刻ｔiに関連付けられて記憶部３２に格納されている、対象者の各指の指先とコントローラデバイス２００との距離の情報（ＦＰ１，ＦＰ２…）を読み出す。

抽出処理部４４は、ここで読み出したマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）を、正解を表す教師信号とし、対象者の各指の指先とコントローラデバイス２００との距離の情報（ＦＰ１，ＦＰ２…）を入力信号として、これらを組にして、学習用情報として記憶部３２に蓄積して格納する。

抽出処理部４４は、第２の情報のタイミングの情報ｔi（ｉ＝１，２，…）ごとに、上記の処理を繰り返して、学習用情報を蓄積して記憶部３２に格納する。

本実施の形態の制御部３１は、以上のようにして学習用情報を生成し、この、記憶部３２に蓄積して記憶された学習用情報を、ニューラルネットワーク等の機械学習処理に供する。教師信号と入力信号との組に基づいて機械学習処理を行う方法については、広く知られた方法を採用できるので、ここでの詳しい説明は省略する。

［動作］
本実施の形態の一例に係る情報処理システム１は以上の構成を備えており、この例に係る情報処理システム１は次のように動作する。測定対象者は、その手の主要位置（例えば各指の各関節位置等）にマーカーを貼り付け、コントローラデバイス２００を把持した状態で、予め指定された通りに、あるいは任意に、手や指を動かして、手の位置を移動したり、ポーズを変更したりといった行動を行う。

測定デバイス１０は、所定のタイミングごと（例えば１／６０秒等の定期的なタイミングごと）に、この対象者の手の画像を複数の場所から撮像しており、当該撮像された画像から、対象者の手に貼り付けられた複数のマーカーの三次元空間内での位置をそれぞれ認識し、当該各マーカーの位置の情報（三次元の座標情報）を、撮像の時点を表すタイムスタンプ情報とともに出力する。なお、この出力のタイミングは、対象者がすべての行動を終了した後にまとめて出力することとしてもよい。

また、対象者の手に把持されるコントローラデバイス２００は、その表面に配された各センサ２０１が測定した対象者の各指先までの距離の情報を、所定のタイミングごと（例えば１００ミリ秒等の定期的なタイミングごと）に繰り返し取得し、当該情報を取得するごとに、当該情報を情報処理装置３０に対して送出する。

情報処理装置３０は、コントローラデバイス２００からは、コントローラデバイス２００がコントローラデバイス２００と対象者の各指の指先との距離の情報（ＦＰ１，ＦＰ２…）を取得するごとに、当該情報を第２の情報として受け入れる。

そして情報処理装置３０は、コントローラデバイス２００から第２の情報を受け入れるごとに、当該受け入れたタイミングの情報（時刻情報）を取得し、最初に第２の情報を受け入れたときに取得した時刻情報ｔを基準時刻ｔ0として、ｉ番目に受け入れた第２の情報を、そのときに取得した時刻情報ｔから基準時刻ｔ0を差引きして得たタイミングの情報ｔi（ｉ＝１，２，…、従って最初の第２の情報についてはｔ1＝０となる）を、対応する第２の情報に含める。情報処理装置３０は、このタイミングの情報が含められた第２の情報を、記憶部３２に蓄積して格納する。

一方、情報処理装置３０は、例えば測定が終了したときに、測定中に測定デバイス１０が所定のタイミングごとに取得した、各マーカーの位置の情報（三次元の座標情報）をタイムスタンプ情報とともに受け入れて、対応するタイムスタンプ情報と、各マーカーの位置の情報（Ｐ１，Ｐ２…）とを関連付けて、記憶部３２に蓄積して格納する。

こうして記憶部３２には、図５に例示したように、第１の情報については、タイムスタンプ情報（Ｔ１，Ｔ２…）で表されるマーカーを撮像した時点ごとに、当該時点で撮像されたマーカーに基づいて得られたマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）が関連付けて記憶された状態となり、第２の情報については、タイミングの情報（ｔ１，ｔ２…）で表される時点ごとに、当該時点で受け入れた、コントローラデバイス２００と対象者の各指の指先との距離の情報（ＦＰ１，ＦＰ２…）が関連付けられて、記憶部３２に蓄積して格納された状態となる。

情報処理装置３０は、例えば利用者から、機械学習用の学習用情報を生成すべき旨の指示を受け入れて、学習用情報を生成する処理を開始し、第１，第２の情報のいずれかを基準として、次の処理を行う。ここで基準とする情報は、記録されている情報が得られたタイミングの間隔が比較的長い情報（得られているデータの数が少ない方の情報）を選択すればよい。以下の説明では第２の情報が選択されたものとして説明する。

情報処理装置３０は、図６に例示するように、第１の情報について、記憶部３２に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの時点Ｔ0を取得する（Ｓ１）。

また情報処理装置３０は、選択した第２の情報に含まれるタイミング情報（ｔ１，ｔ２…）を順次選択して、次の処理を繰り返し実行する（Ｓ２）。すなわち、情報処理装置３０は選択したタイミング情報ｔiに最も近いタイミングを表す情報Ｔに関連付けられた、第１の情報（記録されている情報が得られたタイミングの間隔が比較的短い情報）を記憶部３２から検索する。

具体的に情報処理装置３０は、記憶部３２に格納されたタイムスタンプＴj（ｊ＝１，２…）のそれぞれからＴ0を差引きした値Ｔj−Ｔ0（ｊ＝１，２…）を得て、タイミング情報ｔiに最も近い値Ｔj−Ｔ0となっているタイムスタンプＴjを見いだす（Ｓ３）。

そして情報処理装置３０は、処理Ｓ３で見いだしたタイムスタンプＴjに関連付けられているマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）を読み出す（Ｓ４）。

また情報処理装置３０は、処理Ｓ２で選択したタイミング情報ｔiに関連付けられている、対象者の各指の指先とコントローラデバイス２００との距離の情報（ＦＰ１，ＦＰ２…）を読み出す（Ｓ５）。

情報処理装置３０は、処理Ｓ４で読み出したマーカーの位置を表す三次元の座標情報（Ｐ１，Ｐ２…）を正解を表す教師信号とし、処理Ｓ５で読み出した対象者の各指の指先とコントローラデバイス２００との距離の情報（ＦＰ１，ＦＰ２…）を入力信号として、これらを組として学習用情報として記憶部３２に蓄積して格納する（Ｓ６）。

情報処理装置３０は、以上の処理を、選択していないタイミング情報（ｔ１，ｔ２…）がなくなるまで、処理Ｓ２から繰り返して実行する。これにより、記憶部３２には、第２の情報が得られたタイミングを表すタイミング情報（ｔ１，ｔ２…）ごとの、教師信号と入力信号との組（対情報）が保持された状態となる。

このように本実施の形態によると、手作業による教師信号と入力信号との組み合わせが必要なくなり、対象者の手の位置やポーズ等の情報を推定するための機械学習用のデータを、効率的に生成できる。

［情報の内容を参照する例］
また、ここまでの説明では、共通したタイミングで取得された第１、第２の情報を見いだすため、第２の情報については取得した時点を表すタイミングの情報を関連付けていた。そして、測定の開始時点が測定デバイス１０と、推定デバイス２０とで共通していることを前提に、この関連付けたタイミングの情報が表す時点に最も近い時点を表すタイムスタンプに関連付けられた第１の情報を検索する例について述べた。

しかしながら、測定デバイス１０の測定開始時点と、推定デバイス２０が最初に情報を出力した時点にずれがある場合、学習用の情報に誤りが生じることとなる。そこで、本実施の形態の一例では、学習用情報を生成する利用者が、予め目視で第１の情報と第２の情報とを確認し、それぞれの情報が同じ手の位置やポーズを表している時点を情報処理装置３０に指定することとしてもよい。

例えば、第１の情報のタイムスタンプＴkにおける情報と、第２の情報のうち、タイミングの情報ｔmにおける情報とが同じ手の位置やポーズを表している場合に、それらを指定する。すると、情報処理装置３０は、ΔＴk＝Ｔk−Ｔ0（ここでＴ0は、既に述べたように、第１の情報について、記憶部３２に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの情報）と、ｔmとの差、Δ＝ΔＴk−ｔmを補正情報として取得し、上記処理Ｓ３では、記憶部３２に格納されたタイムスタンプＴj（ｊ＝１，２…）のそれぞれからＴ0を差引きした値Ｔj−Ｔ0（ｊ＝１，２…）を得て、タイミング情報ｔiに、この補正情報Δを加算した値、ｔi＋Δに最も近い値Ｔj−Ｔ0となっているタイムスタンプＴjを見いだす。

さらに、ここでは利用者が目視で、第１，第２の情報が同じ手の位置やポーズを表している時点を探索することとしたが、この探索を情報処理装置３０が機械的に（人為的処理なしに）行ってもよい。

この場合は例えば、対象者に当初、手を握る（コントローラデバイス２００に指先を接触させた状態とする）動作と、手を開く（コントローラデバイス２００から指先をできるだけ離した状態とする）動作とを行ってもらう。そして、情報処理装置３０は、記録している第１の情報のうち、タイムスタンプの小さい順に調べたときに、手を開いた状態であることを表す情報（例えば指ごとに貼られた各マーカーの三次元座標の点が実質的に直線状となっている情報）が最初に記録されている時点Ｔfまでの間にある第１の情報であって、手を握った状態であることを表す情報（例えば各マーカーの三次元座標の点を含む最小の凸包の体積が最も小さくなったときの第１の情報）に関連付けられたタイムスタンプの情報Ｔminを得る。

また情報処理装置３０は、記録している第２の情報を記録順に（関連付けられたタイミングの情報が表す時刻が小さい順に）調べ、最初に見いだされる、手を握った状態であることを表す情報（例えば各指先までの距離が最小となっている第２の情報）に関連付けられた、タイミングの情報ｔminを得る。

そして、情報処理装置３０は、ΔＴk＝Ｔmin−Ｔ0（ここでＴ0は、既に述べたように、第１の情報について、記憶部３２に格納されているタイムスタンプのうち、時間的に最も早い時刻を表すタイムスタンプの情報）と、ｔminとの差、Δ＝ΔＴk−ｔminを補正情報として取得し、上記処理Ｓ３では、記憶部３２に格納されたタイムスタンプＴj（ｊ＝１，２…）のそれぞれからＴ0を差引きした値Ｔj−Ｔ0（ｊ＝１，２…）を得て、タイミング情報ｔiに、この補正情報Δを加算した値、ｔi＋Δに最も近い値Ｔj−Ｔ0となっているタイムスタンプＴjを見いだす。

これにより、保持された第１、第２の情報がそれぞれ表す対象者の手の位置またはポーズが、実質的に同一と判断されるタイミングを共通したタイミングとして、当該共通したタイミングで取得された第１、第２の情報を対情報として抽出することが可能となる。

［推定デバイスにもマーカーを貼る例］
また、ここまでの説明において、第１の情報取得装置である測定デバイス１０が検出するマーカーは、対象者の手の各部に貼付されることとしていたが、本実施の形態の例では、第２の情報取得装置であるコントローラデバイス２００にも、このマーカーを配してもよい。

この場合、測定デバイス１０は、推定デバイス２０としてのコントローラデバイス２００の位置や姿勢等の情報を、対象者の手の位置やポーズに関する情報とともに取得する。そして、情報処理装置３０は、対象者の手の位置やポーズに関する情報とともにコントローラデバイス２００の位置や姿勢の情報を含む第１の情報を記録し、この第１の情報の記録から教師信号を取り出すとともに、当該取り出した教師信号が得られたタイミングと共通するタイミングでコントローラデバイス２００が取得した第２の情報（入力信号）を取り出して、対情報として出力する。

本実施の形態のこの例では、コントローラデバイス２００を把持するプレイヤの手の位置やポーズだけでなく、当該把持されているコントローラデバイス２００の位置や姿勢の情報まで推定するための機械学習処理が可能となる。

［推定デバイスがカメラである例］
また、本実施の形態では、推定デバイス２０は、必ずしも対象者の手に把持されるコントローラデバイス２００でなくてもよい。例えば本実施の形態のある例では、推定デバイス２０は、プレイヤ（対象者）に対して所定の一ヶ所の位置に対象者の方向に向けて配した一対のカメラを含むデプスカメラであってもよい。

この場合、推定デバイス２０であるデプスカメラは、対象者の姿勢や手のポーズの状況によっては、対象者のすべての指が視認できるとは限らない（例えばデプスカメラから指までの間にプレイヤの手の甲が入ってしまう場合など）が、測定デバイス１０は、対象者のすべての指の関節等に貼付されたすべてのマーカーの位置情報を取得できる。

この例では、第２の情報は、デプスカメラに含まれる一対のカメラが撮像した２つの画像データである。

またこの例では、前処理部４２は、受入部４１が第２の情報を受け入れるごとに、当該受け入れたタイミングの情報（時刻情報）を取得する。また前処理部４２は、処理を開始してから最初に第２の情報を受け入れたときに取得した時刻情報ｔを基準時刻ｔ0として、ｉ番目に受け入れた第２の情報を、そのときに取得した時刻情報ｔから基準時刻ｔ0を差引きして得たタイミングの情報ｔi（ｉ＝１，２，…、従って最初の第２の情報についてはｔ1＝０となる）を、対応する第２の情報に含めて、保持処理部４３に対して出力する。

さらに本実施の形態のこの例では、前処理部４２は、第２の情報である画像データに含まれる、測定デバイス１０が認識するためのマーカーの画像を除去する処理を行ってもよい。具体的にマーカーは、例えば予め定められた色で着色されているので、前処理部４２は、第２の情報である画像データに含まれる当該マーカーの色の部分を抽出し、当該部分をその周囲の色で塗りつぶす処理を行う。この処理はフォトレタッチ等の画像処理として広く知られた処理を用いることができるので、ここでの詳しい説明を省略する。

このように前処理を行うと、学習用情報の入力信号にはマーカーが含まれない画像が提供される状態となる。通常、実際にこの学習用情報を用いて学習されたニューラルネットワーク等が利用される場面では、デプスカメラが撮像した画像データにはマーカーは含まれないので、学習用情報である入力信号が当該実際に利用される画像データに近いものとされていることで、より的確な推定が行われることが期待できる。

１情報処理システム、１０測定デバイス、２０推定デバイス、３０情報処理装置、３１制御部、３２記憶部、３３操作部、３４表示制御部、３５入出力部、４１受入部、４２前処理部、４３保持処理部、４４抽出処理部、２００コントローラデバイス、２０１センサ。

Claims

対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置とに接続され、
前記第１、第２の情報取得装置からそれぞれ前記第１の情報及び第２の情報を受け入れる受入手段と、
前記受け入れた第１、第２の情報のそれぞれを、前記第１、第２の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、
前記保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する抽出手段と、を含み、
当該抽出した対情報が、当該対情報に含まれる第１の情報を教師信号、第２の情報を入力信号として機械学習の学習処理に供される情報処理装置。
請求項１に記載の情報処理装置であって、
前記抽出手段は、前記保持された第１、第２の情報の内容に基づいて、共通したタイミングで取得された第１、第２の情報を対情報として抽出する情報処理装置。
請求項２に記載の情報処理装置であって、
前記抽出手段は、前記保持された第１、第２の情報がそれぞれ表す前記対象者の手の位置またはポーズが、実質的に同一と判断されるタイミングを共通したタイミングとして、当該共通したタイミングで取得された第１、第２の情報を対情報として抽出する情報処理装置。
対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、
前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置と、
情報処理装置と、を含み、
前記情報処理装置が、
前記第１、第２の情報取得装置からそれぞれ前記第１の情報及び第２の情報を受け入れる受入手段と、
前記受け入れた第１、第２の情報のそれぞれを、前記第１、第２の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持手段と、
前記保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する抽出手段と、を有し、
当該抽出した対情報が、当該対情報に含まれる第１の情報を教師信号、第２の情報を入力信号として機械学習の学習処理に供される情報処理システム。
請求項４に記載の情報処理システムであって、
前記第１の情報取得装置は、対象者の手に配した複数のマーカーの位置を検出し、当該検出したマーカーの位置に基づいて対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得しており、
前記第２の情報取得装置は、対象者の手に把持されるデバイスを含み、当該デバイスが検出する情報に基づいて対象者の手の位置またはポーズの少なくとも一方に関する第２の情報を取得しており、
前記第１の情報取得装置が検出するマーカーが、前記第２の情報取得装置の前記デバイスにも配されて、前記第１の情報取得装置は、対象者の手の位置またはポーズの少なくとも一方に関する第１の情報とともに、前記第２の情報取得装置の前記デバイスの位置または姿勢に関する情報を取得して、前記情報処理装置に出力する情報処理システム。
対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置とに接続される情報処理装置を用い、
情報処理装置の受入手段が、前記第１、第２の情報取得装置からそれぞれ前記第１の情報及び第２の情報を受け入れる工程と、
保持手段が前記受け入れた第１、第２の情報のそれぞれを、前記第１、第２の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する工程と、
抽出手段が前記保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する工程と、を含み、
当該抽出した対情報が、当該対情報に含まれる第１の情報を教師信号、第２の情報を入力信号として機械学習の学習処理に供される情報処理方法。
対象者の手の位置またはポーズの少なくとも一方に関する第１の情報を取得する第１の情報取得装置と、前記対象者の手の位置またはポーズの少なくとも一方に関する、前記第１の情報取得装置が取得する第１の情報とは異なる第２の情報を取得する第２の情報取得装置とに接続される情報処理装置に、
前記第１、第２の情報取得装置からそれぞれ前記第１の情報及び第２の情報を受け入れる受入工程と、
前記受け入れた第１、第２の情報のそれぞれを、前記第１、第２の情報取得装置がそれぞれ取得したタイミングの情報に関連付けて保持する保持工程と、
前記保持された第１、第２の情報のうち、共通したタイミングで取得された第１、第２の情報を対情報として抽出する抽出工程と、を実行させるためのプログラム。