WO2022220049A1

WO2022220049A1 - システム、情報処理方法および情報処理プログラム

Info

Publication number: WO2022220049A1
Application number: PCT/JP2022/013836
Authority: WO
Inventors: 直之宮田; 英樹柳澤; 麻美子石田
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2021-04-13
Filing date: 2022-03-24
Publication date: 2022-10-20
Also published as: US20240127629A1; JP2022162703A; JP7434207B2

Abstract

所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサと、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサと、第１画像センサ及び第２画像センサの姿勢情報を取得する慣性センサと、少なくとも第２画像信号に基づいてユーザーを認識し、少なくとも第２画像信号に基づいて、ユーザーに関する座標情報を算出する第１の演算処理装置と、姿勢情報に基づいて、座標情報に対する座標変換処理を行う第２の演算処理装置と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステムが提供される。

Description

システム、情報処理方法および情報処理プログラム

　本発明は、システム、情報処理方法および情報処理プログラムに関する。

　入射する光の強度変化を検出したピクセルが時間非同期的に信号を生成する、イベント駆動型のビジョンセンサが知られている。イベント駆動型のビジョンセンサは、所定の周期ごとに全ピクセルをスキャンするフレーム型ビジョンセンサ、具体的にはＣＣＤやＣＭＯＳなどのイメージセンサに比べて、低電力で高速に動作可能である点で有利である。このようなイベント駆動型のビジョンセンサに関する技術は、例えば特許文献１および特許文献２に記載されている。

特表２０１４－５３５０９８号公報特開２０１８－８５７２５号公報

　しかしながら、イベント駆動型のビジョンセンサについては、上記のような利点は知られているものの、他の装置と組み合わせた利用方法については、まだ十分に提案されているとは言いがたい。

　そこで、本発明は、画像センサにより生成した画像信号に基づいてユーザーに関する座標情報を算出し、画像センサの姿勢情報に基づいて、座標情報に対する座標変換を行う。そして、座標変換後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成することにより、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができるシステム、情報処理方法および情報処理プログラムを提供することを目的とする。

　本発明のある観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサと、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサと、第１画像センサ及び第２画像センサの姿勢情報を取得する慣性センサと、少なくとも第２画像信号に基づいてユーザーを認識し、少なくとも第２画像信号に基づいて、ユーザーに関する座標情報を算出する第１の演算処理装置と、姿勢情報に基づいて、座標情報に対する座標変換処理を行う第２の演算処理装置と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステムが提供される。
　本発明の別の観点によれば、表示装置に表示する表示画像を生成する情報処理方法であって、所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された第２画像信号とを取得する取得ステップと、少なくとも第２画像信号に基づいてユーザーを認識し、少なくとも第２画像信号に基づいて、ユーザーに関する座標情報を算出する算出ステップと、第１画像センサ及び第２画像センサの姿勢情報に基づいて、座標情報に対する座標変換処理を行う変換処理ステップと、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成ステップとを含む情報処理方法が提供される。
　本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された第２画像信号とを取得する機能と、少なくとも第２画像信号に基づいてユーザーを認識し、少なくとも第２画像信号に基づいて、ユーザーに関する座標情報を算出する機能と、第１画像センサ及び第２画像センサの姿勢情報に基づいて、座標情報に対する座標変換処理を行う機能と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する機能とをコンピュータに実現させる情報処理プログラムが提供される。

　上記の構成によれば、画像センサにより生成した画像信号に基づいてユーザーに関する座標情報を算出し、画像センサの姿勢情報に基づいて、座標情報に対する座標変換を行う。そして、座標変換後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成することにより、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができる。

本発明の一実施形態に係るシステムの全体を示す模式図である。本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。本発明の一実施形態に係るシステムにおける算出部の概略的な構成を示すブロック図である。本発明の一実施形態におけるカメラユニットの姿勢情報について説明する図である。本発明の一実施形態におけるカメラユニットの姿勢情報について説明する別の図である。本発明の一実施形態におけるカメラユニットの姿勢について説明する別の図である。本発明の一実施形態におけるカメラユニットの位置情報について説明する図である。本発明の一実施形態におけるカメラユニットの位置情報について説明する別の図である。本発明の一実施形態に係る処理方法の例を示すフローチャートである。本発明の一実施形態に係る処理方法の例を示す別のフローチャートである。本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。

　以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　図１は、本実施形態に係るシステム１の全体を示す模式図である。
　本実施形態に係るシステム１は、図１に示すように、センサ装置であるカメラユニット１０と、情報処理装置２０と、コントローラ３０と、表示装置４０とを含むゲームシステムである。情報処理装置２０は、カメラユニット１０、コントローラ３０、および表示装置４０のぞれぞれと有線または無線のネットワークにより接続される。
　システム１では、カメラユニット１０およびコントローラ３０から送信される情報に応じて情報処理装置２０がゲームを進行し、表示装置４０が、情報処理装置２０の実行時画面、例えばゲーム画面を表示する。

　本実施形態において、カメラユニット１０は、ゲームのプレイヤーであるユーザーに関する座標情報を算出して、情報処理装置２０に送信する。ここで、ユーザーに関する座標情報とは、ユーザーの姿勢に関する座標情報、ユーザーの腕の形状に関する座標情報、ユーザーの手指の形状に関する座標情報、またはユーザーが装着または保持しているコントローラ３０などの外部装置の姿勢に関する座標情報の少なくとも１つを含む。
　カメラユニット１０は、ユーザーに関する座標情報を算出して出力することにより、コントローラ３０と同様にユーザー操作を受け付けるための操作装置として機能する。このようなカメラユニット１０は、ユーザーに関する座標情報を算出するために、被写界にユーザーが収まる位置、例えばユーザーから１メートル程度の距離に配置され、手動または電動で仰角を変更可能である。図１の例では、カメラユニット１０は、表示装置４０の近傍に配置される。カメラユニット１０の配置の詳細は後述する。

　以下、システム１の各構成について説明する。
　図２は、本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。
　カメラユニット１０は、ＲＧＢカメラ１１と、ＥＤＳ（Event Driven Sensor）１２と、ＩＭＵ（Inertial Measurement Unit）１３と、位置情報取得部１４と、第１の演算処理装置として機能する算出部１５と、情報出力部１６とを含む。
　ＲＧＢカメラ１１は、第１画像センサであるイメージセンサ１１１と、イメージセンサ１１１に接続される処理回路１１２とを含む。イメージセンサ１１１は、例えば所定の周期で、またはユーザー操作に応じた所定のタイミングで全ピクセル（全画素）を同期的にスキャンすることによって第１画像信号であるＲＧＢ画像信号１１３を生成する。処理回路１１２は、例えばＲＧＢ画像信号１１３を保存および伝送に適した形式に変換する。また、処理回路１１２は、ＲＧＢ画像信号１１３にタイムスタンプを与える。

　ＥＤＳ１２は、センサアレイを構成する第２画像センサであるセンサ１２１と、センサ１２１に接続される処理回路１２２とを含む。センサ１２１は、受光素子を含み、画素ごとに入射する光の強度変化、より具体的には予め定めた所定の値を超える輝度変化を検出したときに第２画像信号であるイベント信号１２３を生成するイベント駆動型のビジョンセンサである。処理回路１２２を経て出力されるイベント信号１２３は、センサ１２１の識別情報（例えばピクセルの位置）と、輝度変化の極性（上昇または低下）と、タイムスタンプとを含む。また、輝度変化を検出した際に、ＥＤＳ１２は、ＲＧＢ画像信号１１３の生成頻度（ＲＧＢカメラ１１のフレームレート）より大幅に高い頻度でイベント信号１２３を生成することができる。また、ＥＤＳ１２は、ＲＧＢ画像信号１１３の生成頻度（ＲＧＢカメラ１１のフレームレート）より大幅に高い頻度でイベント信号１２３を生成することができる。
　なお、本明細書では、当該信号に基づいて画像を構築可能な信号を画像信号という。したがって、ＲＧＢ画像信号１１３およびイベント信号１２３は、画像信号の一例を示す。

　本実施形態において、ＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプは同期している。具体的には、例えば、ＥＤＳ１２でタイムスタンプを生成するために用いられる時刻情報をＲＧＢカメラ１１に提供することによって、ＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプを同期させることができる。あるいは、タイムスタンプを生成するための時刻情報がＲＧＢカメラ１１とＥＤＳ１２とでそれぞれ独立している場合、特定のイベント（例えば、画像全体にわたる被写体の変化）が発生した時刻を基準にしてタイムスタンプのオフセット量を算出することによって、事後的にＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプを同期させることができる。

　また、本実施形態では、事前に実行されるＲＧＢカメラ１１とＥＤＳ１２とのキャリブレーション手順によって、ＥＤＳ１２のセンサ１２１がＲＧＢ画像信号１１３の１または複数のピクセルに対応付けられ、イベント信号１２３はＲＧＢ画像信号１１３の１または複数のピクセルにおける光の強度変化に応じて生成される。より具体的には、例えば、ＲＧＢカメラ１１とＥＤＳ１２とで共通の校正パターンを撮像し、ＲＧＢカメラ１１およびＥＤＳ１２のぞれぞれの内部パラメータおよび外部パラメータからカメラとセンサとの間の対応パラメータを算出することによって、ＲＧＢ画像信号１１３の１または複数のピクセルにセンサ１２１を対応付けることができる。

　ＩＭＵ１３は、カメラユニット１０自体、より具体的には、イメージセンサ１１１およびセンサ１２１の姿勢を検出する慣性センサである。ＩＭＵ１３は、所定の周期で、または、所定のタイミングでイメージセンサ１１１およびセンサ１２１の三次元の姿勢情報を取得する。この姿勢情報は、上述したカメラユニット１０の仰角を示す。ＩＭＵ１３は、取得した姿勢情報を、情報出力部１６に出力する。

　位置情報取得部１４は、例えば、ＧＰＳ衛星から位置情報を取得し、情報出力部１６に出力する。なお、位置情報取得部１４は、ＧＰＳ衛星に代えて、または、加えて、無線基地局からの位置情報等を取得してもよい。

　算出部１５は、ＥＤＳ１２において生成されたイベント信号１２３と、ＲＧＢカメラ１１において生成されたＲＧＢ画像信号１１３とに基づいて、ユーザーに関する座標情報を算出する。図３は、算出部１５の概略的な構成を示すブロック図である。算出部１５は、座標算出部１５１、および学習済みモデル１５２を含む。
　算出部１５の座標算出部１５１は、例えば、イベント信号１２３において同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、ＲＧＢ画像信号１１３の対応する部分に基づいて被写体認識を行うことによりユーザーを認識する。カメラユニット１０の被写界に複数のユーザーが含まれる場合、座標算出部１５１は、それぞれのユーザーを識別する。
　そして、座標算出部１５１は、認識したユーザーごとに、学習済みモデル１５２に基づいて、ＲＧＢ画像信号１１３からユーザーが有する複数の関節の位置を示す座標情報を算出する。学習済みモデル１５２は、例えば、複数の関節を有する人物の画像を入力データとし、人物の複数の関節の位置を示す座標情報を正解データとした教師あり学習を実行することによって予め構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、算出部１５に関係性学習部を備え、ＲＧＢ画像信号１１３が入力される度に、入力されたＲＧＢ画像信号１１３に基づく画像と関節の位置を示す座標情報との関係性を学習して学習済みモデル１５２を更新する構成としてもよい。

　さらに、座標算出部１５１は、認識したユーザーごとに、当該ユーザーが保持するコントローラ３０を認識する。座標算出部１５１は、例えば、座標算出部１５１により算出したユーザーが有する複数の関節の位置を示す座標情報に基づき、ＲＧＢ画像信号１１３のうち、ユーザーの手の近傍に対応する部分について被写体認識を行うことによりコントローラ３０を認識する。また、ユーザーがコントローラ３０を保持していない場合、座標算出部１５１は、座標情報の代わりに、「ユーザーがコントローラ３０を保持していない」ことを示す情報を算出する。そして、座標算出部１５１は、認識したコントローラ３０の姿勢を推定する。座標算出部１５１は、例えば、ＲＧＢ画像信号１１３のうち、上述した被写体認識の結果に基づいてコントローラ３０の形状を推定し、推定した形状に基づいてコントローラ３０の姿勢を推定する。なお、コントローラ３０がコントローラ３０自体の姿勢を検出する慣性センサ等を有する場合、そのセンサの出力を加味してコントローラ３０の姿勢の推定を行ってもよい。上述したように被写界に複数のユーザーが含まれる場合、座標算出部１５１は、それぞれのユーザーが保持するコントローラ３０について姿勢を推定する。なお、座標算出部１５１は、上述した学習済みモデルを用いた機械学習の手法を利用してコントローラ３０の姿勢を推定してもよい。

　情報出力部１６は、算出部１５により算出したユーザーに関する座標情報と、ＩＭＵ１３により取得した姿勢情報と、位置情報取得部１４により取得した位置情報とを情報処理装置２０に出力する。

　ここまで説明したように、カメラユニット１０は、ＲＧＢ画像信号１１３およびイベント信号１２３の生成からユーザーに関する座標情報の算出までを単体で完結し、情報処理装置２０に対してＲＧＢ画像信号１１３およびイベント信号１２３は出力せずに、算出した座標情報および姿勢情報を出力することができる。なお、カメラユニット１０は、独立した電源を有することが好ましい。

　ここで、カメラユニット１０の配置について説明する。上述したように、カメラユニット１０は、被写界にユーザーが収まる位置に配置される。図４Ａおよび図４Ｂは、カメラユニット１０の基準設置状態を示す。図４Ａは、ユーザーＵ、カメラユニット１０、および表示装置４０の位置関係を側方から見た図であり、図４Ｂは、ユーザーＵ、カメラユニット１０、および表示装置４０の位置関係を上方から見た図である。
　基準設置状態とは、図４Ａおよび図４Ｂに示すように、ユーザーＵが表示装置４０に正対した状態で、カメラユニット１０は、表示装置４０のユーザーＵ側に、ユーザーＵに正対して配置される状態である。基準設置状態において、ユーザーＵ、カメラユニット１０の撮像方向（矢印Ｃ）、表示装置４０の表示方向（矢印Ｄ）は略平行である。
　なお、このような基準設置状態は、例えば、情報処理装置２０によって表示装置４０にチュートリアルなどを表示し、ユーザーＵにカメラユニット１０の正しい配置を促すことにより実現する。この時、カメラユニット１０によりテスト撮影を行い、生成されたＲＧＢ画像信号１１３およびイベント信号１２３を評価することにより、基準設置状態が正しく実現されているかを判断することができる。また、基準設置状態が実現された際に、ＩＭＵ１３により取得した姿勢情報、および、位置情報取得部１４により生成された位置情報は、基準設置状態の姿勢情報および位置情報である。基準設置状態の姿勢情報および位置情報は、情報出力部１６により出力され、情報処理装置２０における情報処理に用いられる。

　ところで、ユーザーＵの状態によっては、基準設置状態では算出部１５による座標情報の算出が困難な場合がある。例えば、図４Ａに示すように、ユーザーＵが弓矢を構えるポーズをとり、コントローラ３０の中央部分を左手で把持し、右手を動かすことにより仮想の弓Ｖ１および矢Ｖ２を操作するゲームの例を考える。このような場合は、カメラユニット１０から見るとコントローラ３０およびユーザーＵの両手が重なってしまうおそれがある。そのため、生成されたＲＧＢ画像信号１１３およびイベント信号１２３においてコントローラ３０およびユーザーＵの両手を分離して座標情報を算出することは非常に困難である。
　このような場合には、図５に示すように、コントローラ３０およびユーザーＵの体の各要素が重ならないようにカメラユニット１０の設置状態を変更することにより、生成されたＲＧＢ画像信号１１３およびイベント信号１２３においてコントローラ３０およびユーザーＵの両手を分離して座標情報を算出することができる。図５は、ユーザーＵ、カメラユニット１０、および表示装置４０の位置関係を側方から見た図であり、カメラユニット１０の位置は変更せずに、仰角を角度ａ１だけ変更した例を示す。角度ａ１は、ＩＭＵ１３により取得される姿勢情報から求めることができる。

　さらに、図６Ａおよび図６Ｂに示すように、カメラユニットの設置状態を変更してもよい。図６Ａおよび図６Ｂは、ユーザーＵ、カメラユニット１０、および表示装置４０の位置関係を上方から見た図である。
　図６Ａは、カメラユニット１０の仰角は変更せずに、ユーザーＵから表示装置４０を見た際の水平方向において、カメラユニットの位置を距離ｄ１だけ変更した例を示す。距離ｄ１は、位置情報取得部１４により取得された位置情報から求めることができる。また、ユーザーＵを中心とした回転角度である角度ａ２は、ＩＭＵ１３により取得される姿勢情報から求めることができる。
　図６Ｂは、カメラユニット１０の仰角は変更せずに、ユーザーＵから表示装置４０を見た際の水平方向において、カメラユニットの位置を距離ｄ２だけ変更し、さらに、前後方向において、カメラユニットの位置を距離ｄ２だけ変更した例を示す。距離ｄ２およびｄ３は、位置情報取得部１４により取得された位置情報から求めることができる。また、ユーザーＵを中心とした回転角度である角度ａ３は、ＩＭＵ１３により取得される姿勢情報から求めることができる。

　なお、ユーザーＵおよび表示装置４０に対するカメラユニット１０の最適な設置状態は、目的に応じて異なる。例えば、プレイ対象のゲームの内容や、シーン等に応じて、ユーザーの体全体、上半身、手元等、把握する対象が異なるとともに、把握可能な位置も異なる。したがって、上述した基準設置状態と同様に、最適な設置状態についても、例えば、情報処理装置２０によって表示装置４０にチュートリアルなどを表示することにより、ユーザーＵにカメラユニット１０の正しい配置を促すとよい。この時、カメラユニット１０によりテスト撮影を行い、生成されたＲＧＢ画像信号１１３およびイベント信号１２３を評価することにより、最適な設置状態が正しく実現されているかを判断することができる。

　再び図２を参照して、情報処理装置２０は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、第２の演算処理装置および画像生成装置として機能する通信部２１および制御部２２を含む。制御部２２は、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される推定部２２１、変換処理部２２２、制御値算出部２２３、画像生成部２２４、および警告部２２５の各機能を含む。以下、各部の機能についてさらに説明する。

　通信部２１は、カメラユニット１０の情報出力部１６から出力された各情報を受信する。また、通信部２１は、コントローラ３０と相互に通信可能であるとともに、表示装置４０に表示させる表示画像を出力する。
　制御部２２の推定部２２１は、通信部２１を介して取得した姿勢情報および位置情報に基づいて、表示装置４０とカメラユニット１０との相対的な位置関係を推定する。上述したように、ユーザーＵ、カメラユニット１０、および表示装置４０の位置関係は、ＩＭＵ１３により取得される姿勢情報、および位置情報取得部１４により取得された位置情報から求めることができる。

　変換処理部２２２は、推定部２２１により推定した位置関係に基づいて、ユーザーに関する座標情報に対する座標変換処理を行う。より具体的には、変換処理部２２２は、通信部２１を介して取得したユーザーに関する座標情報を、上述した基準設置状態における座標系に変換する座標変換処理を行う。この変換処理は公知の座標変換処理により実現できる。座標変換処理により、カメラユニット１０が基準設置状態からずれた状態で生成されたＲＧＢ画像信号１１３およびイベント信号１２３に基づいて算出された座標情報を、基準設置状態において生成される座標情報に変換することができる。

　制御値算出部２２３は、通信部２１を介して取得した座標情報とコントローラ３０から受信した情報との少なくとも一方に基づいて、コントローラ３０および表示装置４０を含む外部装置へのフィードバック制御の制御値を算出する。上述したように、カメラユニット１０およびコントローラ３０は、ユーザー操作を受け付けるための操作装置として機能する。そこで、制御値算出部２２３は、カメラユニット１０とコントローラ３０との少なくとも一方を介して行われたユーザー操作に応じて、コントローラ３０および表示装置４０を含む外部装置へのフィードバック制御の制御値を算出する。算出された制御値は、通信部２１を介してコントローラ３０に出力される。

　画像生成部２２４は、変換処理部２２２による座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する。より具体的には、画像生成部２２４は、制御値算出部２２３により算出した制御値に応じて、表示装置４０に表示する表示画像を生成する。生成された表示画像は、通信部２１を介して表示装置４０に出力される。なお、表示画像には、ユーザーの視点を再現したいわゆるFirst Person View画像、ユーザーを外部からみたいわゆるThird Person View画像などが含まれる。どのような表示画像を用いるかは、プレイ対象のゲームの内容や、シーン等目的に応じて定められる。また、制御値の算出、および表示画像の生成の詳細については、後述するコントローラ３０および表示装置４０の構成の説明と関連して説明を行う。

　警告部２２５は、姿勢情報または位置情報の変化が所定の閾値を超えた場合に、警告動作を行う。警告動作とは、例えば、表示装置４０による警告メッセージの表示、および音声による警告メッセージの出力等が考えられる。
　姿勢情報または位置情報の変化が所定の閾値を超えた場合とは、カメラユニット１０の設置状態が座標情報の算出にふさわしくない、あるいはカメラユニット１０の設置状態が変化してしまい、座標情報の算出が困難である等、カメラユニット１０の設置状態を変更する必要がある場合である。一方、変化量が所定の閾値未満である場合とは、カメラユニット１０の設置状態が座標情報の算出に適した状態である、あるいは、カメラユニット１０の設置状態が変化していたとしても、上述した各部による処理によって、その変化を補完可能な範囲であるため、カメラユニット１０の設置状態を変更する必要がない場合である。なお、閾値は目的に応じて変更してもよい。例えば、プレイ対象のゲームの内容や、シーン等に応じた許容範囲に基づき、閾値を変更してもよい。

　コントローラ３０は、図２に示すように、通信部３１、操作部３２、力覚提示部３３、振動部３４、および音声出力部３５を含む。ユーザーはコントローラ３０を操作することによりゲームに関する各種操作を行うことができる。
　通信部３１は、情報処理装置２０の通信部２１から出力された制御値を受信して、力覚提示部３３、振動部３４、および音声出力部３５の各部に出力する。また、通信部３１は、操作部３２により受け付けたユーザー操作に関する情報を、情報処理装置２０に出力する。
　操作部３２は、ボタンおよびパッドなどの複数の操作子を備え、操作子に対するユーザーの操作入力を受け付ける。
　力覚提示部３３は、操作部３２の少なくとも一部の操作子に設けられ、情報処理装置２０から供給される制御値にしたがい、ユーザー操作に抗する、あるいは連動する力をユーザーに提示する。具体的に、力覚提示部３３は、回転するロータを含むモータやアクチュエータ等で構成できる。力覚提示部３３を構成する力覚提示装置については広く知られたものを採用できるので、ここでの詳しい説明を省略する。

　振動部３４は、情報処理装置２０から供給される制御値にしたがい、振動を発生するものであり、例えばモータにより構成できる。振動部３４は、ユーザー操作が行われた場合に振動を発生することにより、ユーザー操作が正しく行われ、情報処理装置２０に認識されたことをユーザーに通知することが可能である。
　音声出力部３５は、情報処理装置２０から供給される制御値にしたがい、音声を出力するものであり、例えばスピーカにより構成できる。音声出力部３５は、ユーザー操作が行われた場合に音声を出力することにより、ユーザー操作が正しく行われ、情報処理装置２０に認識されたことをユーザーに通知することが可能である。
　なお、上述した力覚提示部３３による力覚の提示と連動して、振動部３４による振動と、音声出力部３５による音声出力との少なくとも一方が行われることにより、ユーザーへのフィードバック制御の多様性を高めることが可能である。

　情報処理装置２０の制御値算出部２２３は、上述したように、コントローラ３０へのフィードバック制御の制御値を算出するが、より具体的には、コントローラ３０の力覚提示部３３、振動部３４、および音声出力部３５へのフィードバック制御の制御値を算出する。このとき、制御値算出部２２３は、変換処理部２２２により変換処理を行う前の、通信部２１を介して取得した座標情報に基づいて、コントローラ３０へのフィードバック制御の制御値を算出する。通信部２１を介して取得した座標情報は、コントローラ３０およびユーザーＵの体の各要素が重ならない最適な設置状態での座標情報である。そのため、このような座標情報に基づいて制御値を算出することにより、ユーザーの状態を正確に把握して反映することが可能な制御値を算出することができる。なお、制御値算出部２２３による制御値の算出の際に、変換処理部２２２による座標変換処理後の座標情報を補助的に利用してもよい。

　力覚提示部３３に関して、制御値算出部２２３は、ユーザー操作に応じたフィードバック制御としてどのような力覚を提示させるかを示す制御値を算出する。振動部３４に関して、制御値算出部２２３は、ユーザー操作に応じたフィードバック制御としてどのような振動を発生させるかを提示するかを示す制御値を算出する。音声出力部３５に関して、制御値算出部２２３は、ユーザー操作に応じたフィードバック制御としてどのような音声を出力させるかを示す制御値を算出する。制御値算出部２２３による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。

　なお、ここまで説明したコントローラ３０には公知の様々な構成を適用することが可能である。例えば、両手のそれぞれに把持可能な一対のコントローラにより構成されてもよいし、キーボートのような文字入力が可能なコントローラにより構成されてもよいし、スマートフォンなどのアプリケーションにより構成されてもよい。
　また、コントローラ３０に、音声入力部を備え、音声認識技術を適用してもよい。例えば、コントローラ３０にマイクなどの音声入力部と音声認識部とを備え、ユーザーが発声するコマンドや、ユーザーの呼びかけなどを示す情報を、通信部３１を介して情報処理装置２０に供給してもよい。

　表示装置４０は、図２に示すように、受信部４１、および表示部４２を含む。
　受信部４１は、情報処理装置２０の画像生成部２２４が生成した表示画像を示す情報を、通信部２１を介して受信する。
　表示部４２は、例えばＬＣＤ（Liquid Crystal Display）や有機ＥＬなどのモニタを備え、受信部４１により受信した情報に基づき、表示画像を表示することにより、ユーザーに提示することが可能である。

　なお、上述した表示装置４０には公知の様々な構成を適用することが可能である。例えば、図１に示した専用の表示装置により構成されてもよいし、ユーザーの頭部に装着されるＨＭＤなどの表示装置により構成されてもよい。例えば、ＨＭＤの表示部は、例えばＬＣＤ（Liquid Crystal Display）、有機ＥＬなどの表示素子と、レンズなどの光学装置とを備え、表示素子は、透過型の表示素子であってもよいし、非透過型の表示素子であってもよい。さらに、ＡＲ（Augmented Reality）グラス、ＭＲ（Mixed Reality）グラスなどの装着型デバイスをＨＭＤとして使用してもよい。また、上述した表示装置４０は、コンピュータの表示装置により構成されてもよいし、スマートフォンなどの端末装置の表示装置により構成されてもよい。また、表示部４２の表面に接触を検知するタッチパネルを備えてもよい。

　情報処理装置２０の制御値算出部２２３は、上述したように、表示装置４０に表示する表示画像へのフィードバック制御の制御値を算出する。このとき、制御値算出部２２３は、変換処理部２２２による変換処理後の座標情報に基づいて、表示画像へのフィードバック制御の制御値を算出する。変換処理後の座標情報は、基準設置状態における座標系に変換された座標情報である。そのため、このような座標情報に基づいて制御値を算出することにより、カメラユニット１０の設置状態にかかわらず、一定の視点からの表示画像を生成するためのフィードバック制御の制御値を算出することができる。
　なお、制御値算出部２２３による制御値の算出の際に、変換処理部２２２により変換処理を行う前の、通信部２１を介して取得した座標情報を補助的に利用してもよい。また、変換処理部２２２により変換処理を行う前の、通信部２１を介して取得した座標情報に基づく制御値と、変換処理後の座標情報に基づく制御値との両方を算出してもよい。
　制御値算出部２２３は、ユーザー操作に応じたフィードバック制御として表示画像をどのように変化させるかを示す制御値を算出する。制御値算出部２２３による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。

　情報処理装置２０の画像生成部２２４は、上述したように、制御値算出部２２３により算出した制御値に応じて表示装置４０に表示する表示画像を生成する。より具体的には、画像生成部２２４は、表示画像を変化させるための制御値にしたがって、新たに表示装置４０に表示する表示画像を生成する。上述したように、表示画像へのフィードバックの制御値は、基準設置状態における座標系に変換された座標情報に基づいて算出される。そのため、振動や外部からの力によってカメラユニット１０の設置状態が変化したとしても、その変化を補完し、一定の視点からの表示画像を生成し続けることができる。このような構成により、表示画像における揺れの発生や突発的な変化等を抑え、表示装置４０における描画の内容を安定させることができる。
　なお、制御値算出部２２３が、通信部２１を介して取得した座標情報に基づく制御値と、変換処理後の座標情報に基づく制御値との両方を算出する場合に、詳細な描画が必要な部分については通信部２１を介して取得した座標情報に基づく制御値を用いることにより、より繊細な描画を実現することも可能である。

　図７は、本発明の一実施形態に係るカメラユニット１０の処理の例を示すフローチャートである。図示された例では、ＲＧＢカメラ１１のイメージセンサ１１１がＲＧＢ画像信号１１３を生成する（ステップＳ１０１）とともに、ＥＤＳ１２のセンサ１２１がイベント信号１２３を生成する（ステップＳ１０２）。
　そして、算出部１５がユーザーに関する座標情報を算出し（ステップＳ１０３）、情報出力部１６が座標情報、姿勢情報、および位置情報を出力する（ステップＳ１０４）。
　カメラユニット１０はステップＳ１０３からステップＳ１０４の処理を繰り返す（ステップＳ１０１からＳ１０２の処理も繰り返されるが、必ずしもステップＳ１０３以降の処理と同じ周期でなくてもよい）ことにより、ユーザーの状態を示す各種情報を情報処理装置２０に供給することが可能である。

　図８は、本発明の一実施形態に係る情報処理装置２０の処理の例を示すフローチャートである。図示された例では、通信部２１がカメラユニット１０から供給された各種情報を取得する（ステップＳ２０１）。
　そして、警告部２０８が姿勢情報の変化量と所定の閾値とを比較し（ステップＳ２０２）、変化量が所定の閾値以上である場合（ステップＳ２０２ＮＯ）には、警告動作を行い（ステップＳ２０３）、ユーザーにカメラユニット１０の設定状態の変更を促す。
　一方、変化量が所定の閾値未満である場合（ステップＳ２０２ＹＥＳ）には、ステップＳ２０４に進む。
　なお、ステップＳ２０２の判定処理においては、姿勢情報の変化量に代えて、または加えて、位置情報の変化量と所定の閾値とを比較してもよい。このような判定を行うことにより、カメラユニット１０の設定状態をより厳密に監視し、適切なタイミングで警告動作を行うことが可能となる。

　変化量が所定の閾値未満である、あるいは、警告動作を経て変化量が所定の閾値未満となった場合には、制御部２２の推定部２２１がカメラユニット１０と表示装置４０との相対的な位置関係を推定し（ステップＳ２０４）、変換処理部２２２が座標情報に対する座標変換処理を行う（ステップＳ２０５）。
　次に、制御値算出部２２３がフィードバック制御の制御値を算出し（ステップＳ２０６）、画像生成部２２４が制御値に基づいて表示画像を生成し（ステップＳ２０７）、通信部２１を介して表示画像を出力する（ステップＳ２０８）。

　以上で説明したような本発明の一実施形態では、カメラユニット１０は、イメージセンサ１１１およびセンサ１２１によりそれぞれ生成したＲＧＢ画像信号１１３およびイベント信号１２３に基づいて、ユーザーに関する座標情報を算出し、イメージセンサ１１１およびセンサ１２１の姿勢情報とともに情報処理装置２０に出力する。そして、情報処理装置２０は、姿勢情報に基づいて、座標情報に対する座標変換処理を行い、処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する。
　したがって、カメラユニット１０の設置状態の変化にかかわらず、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができる。また、カメラユニット１０の設置位置の自由度を向上させることができる。

　また、ＲＧＢ画像信号１１３およびイベント信号１２３の生成からユーザーに関する座標情報の算出までをカメラユニット１０で行い、ＲＧＢ画像信号１１３およびイベント信号１２３は出力せずに、座標情報と、イメージセンサ１１１およびセンサ１２１の姿勢情報とを出力することにより、通信負荷や通信遅延の問題を低減することができる。さらに、ＲＧＢ画像信号１１３およびイベント信号１２３を出力する必要がないため、プライバシー保護の点でも有用である。
　また、本発明の一実施形態のカメラユニット１０は、ユーザーに関する座標情報を算出することによりユーザー操作を受け付けることができるため、従来のポインティングデバイス方式の操作装置のようにカーソル位置を維持するためにユーザーの肉体疲労を引き起こすこともない。また、カメラユニット１０は、従来の姿勢検出方式の操作装置のように認識対象となるマーカーやアタッチメントをユーザーに装着させる必要もない。

　また、本発明の一実施形態では、カメラユニット１０がＥＤＳ１２およびＲＧＢカメラ１１の両方を備え、タイムラグが相対的に小さいイベント信号１２３に基づいてユーザーを認識し、情報量が相対的に多いＲＧＢ画像信号１１３から認識したユーザーに関する座標情報を算出する。そのため、ＲＧＢ画像信号１１３およびイベント信号１２３のそれぞれの特性を活かした好適な処理を実現することができる。

　また、本発明の一実施形態では、カメラユニット１０の位置情報取得部１４がイメージセンサ１１１およびセンサ１２１の位置情報を取得し、情報処理装置２０の制御部２２の各部が位置情報および姿勢情報に基づいて、表示装置４０とカメラユニット１０との相対的な位置関係を推定し、推定した位置関係に基づいて座標変換処理を行う。したがって、カメラユニット１０の設置状態を把握し、表示画像の生成に反映することができる。

　また、本発明の一実施形態では、カメラユニット１０の算出部１５により算出される座標情報は、ユーザーの姿勢に関する座標情報、ユーザーの腕の形状に関する座標情報、ユーザーの手指の形状に関する座標情報、またはユーザーが装着または保持している外部装置の姿勢に関する座標情報の少なくとも１つを含む。したがって、特徴的なユーザーの状態を把握し、ユーザー操作の意図や内容を的確に把握することができる。

　また、本発明の一実施形態では、カメラユニット１０の算出部１５は、複数の関節を有する人物の画像と、複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、ＲＧＢ画像信号１１３に基づく第１画像（ＲＧＢ画像）に含まれる人物の少なくとも１つの関節の座標情報を算出する。したがって、ユーザーに関する座標情報を的確かつ高速に算出することができる。

　また、本発明の一実施形態では、カメラユニット１０のＩＭＵ１３により取得された姿勢情報の変化量が所定の閾値を超えた場合に、情報処理装置２０の警告部２２５が警告動作を行う。したがって、カメラユニット１０の設置状態が座標情報の算出にふさわしくない、あるいはカメラユニット１０の設置状態が変化してしまい、座標情報の算出が困難である等、カメラユニット１０の設置状態を変更する必要がある場合に、ユーザーにカメラユニット１０の設定状態の変更を促すことができる。

　図９は、本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。なお、図９は、図２の情報処理装置２０に代えて、サーバ５０および端末装置６０を備えたシステム２の構成を示すブロック図であり、図９においては、図２と実質的に同一の機能構成を有する構成要素については、同一の符号を付する。

　図９の例においては、サーバ５０は、カメラユニット１０および端末装置６０とインターネット通信網や、無線によって通信可能に接続されたサーバ（例えば、クラウドサーバ）である。サーバ５０は、図２で説明した情報処理装置２０と同様の構成を有し、カメラユニット１０により出力された情報に基づく各種処理を行う。また、端末装置６０は、通信部６１を備え、通信部６１は、サーバ５０から出力された情報を受信する。また、通信部６１は、図２で説明した情報処理装置２０の通信部２１と同様に、コントローラ３０と相互に通信可能であるとともに、表示装置４０に表示させる画像を出力する。
　このような構成により、ＲＧＢ画像信号１１３およびイベント信号１２３の生成から座標情報の算出までをカメラユニット１０で行い、サーバ５０には座標情報とカメラユニット１０の姿勢情報等とを出力することにより、クラウドサーバなどのサーバを用いたゲームシステムにおいても同様の効果を得ることができる。

　なお、上記の各例で説明されたカメラユニット１０は、ＩＭＵ１３および位置情報取得部１４の両方を備える例を示したが、一方のみを備える構成としてもよい。この場合、推定部２２１は、姿勢情報および位置情報の何れかに基づいて表示装置４０とカメラユニット１０との相対的な位置関係を推定すればよい。また、変換処理部２２２は、姿勢情報および位置情報の何れかに基づいて座標情報の座標変換処理を行えば良い。

　また、上記の各例において情報処理装置２０で行った処理の一部をカメラユニット１０で行う構成としてもよい。例えば、情報処理装置２０における推定部２２１の機能をカメラユニット１０内に備えてもよいし、情報処理装置２０における推定部２２１および変換処理部２２２の機能をカメラユニット１０内に備えてもよい。この場合、カメラユニット１０は、座標変換処理後の座標情報を出力する。

　また、上記の各例において、ＲＧＢカメラ１１およびＥＤＳ１２の数は同数であってもよいし、異なる数であってもよい。また、ＲＧＢカメラ１１およびＥＤＳ１２の数は、それぞれ１つであってもよいし、複数であってもよい。例えば、複数のＲＧＢカメラ１１を備える場合には、ＲＧＢ画像信号１１３を生成する被写界のレンジを拡大したり、複数のＲＧＢ画像信号１１３から人物の状態を三次元で推定したりすることができる。また、例えば、複数のＥＤＳ１２を備える場合には、イベント信号１２３を生成する被写界のレンジを拡大したり、複数のイベント信号１２３に基づいて、人物の三次元の移動量を算出したりすることができる。

　また、上記の各例で説明されたカメラユニット１０は、単一の装置内で実装されてもよいし、複数の装置に分散して実装されてもよい。例えば、各センサの少なくとも一部を独立に備え、その他の構成をカメラユニット１０本体として実装してもよい。

　以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

　１・２…システム、１０…カメラユニット、１１…ＲＧＢカメラ、１２…ＥＤＳ、１３…ＩＭＵ、１４…位置情報取得部、１５…算出部、１６…情報出力部、２０…情報処理装置、２１・３１・６１…通信部、２２…制御部、３２…操作部、３３…力覚提示部、３４…振動部、３５…音声出力部、４０…表示装置、４２…表示部、５０…サーバ、６０…端末装置、１１１…イメージセンサ、１１２・１２２…処理回路、１１３…ＲＧＢ画像信号、１２１…センサ、１２３…イベント信号、２２１…推定部、２２２…変換処理部、２２３…制御値算出部、２２４…画像生成部、２２５…警告部。

Claims

　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサと、
　画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサと、
　前記第１画像センサ及び前記第２画像センサの姿勢情報を取得する慣性センサと、
　少なくとも前記第２画像信号に基づいてユーザーを認識し、少なくとも前記第２画像信号に基づいて、前記ユーザーに関する座標情報を算出する第１の演算処理装置と、
　前記姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う第２の演算処理装置と、
　前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステム。
　前記第１画像センサおよび前記第２画像センサの位置情報を取得する位置情報取得部と、
　前記位置情報と前記姿勢情報とに基づいて、前記表示画像を表示する表示装置と前記第１画像センサおよび前記第２画像センサとの相対的な位置関係を推定する推定部とをさらに備え、
　前記第２の演算処理装置は、前記位置関係に基づいて前記座標変換処理を行う、請求項１に記載のシステム。
　前記座標情報は、前記ユーザーの姿勢に関する座標情報、前記ユーザーの腕の形状に関する座標情報、前記ユーザーの手指の形状に関する座標情報、または前記ユーザーが装着または保持している外部装置の姿勢に関する座標情報の少なくとも１つを含む、請求項１または請求項２に記載のシステム。
　前記第１の演算処理装置は、複数の関節を有する人物の画像と、前記複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、前記ユーザーの少なくとも１つの関節の座標情報を算出する、請求項１から請求項３のいずれか１項に記載のシステム。
　前記姿勢情報の変化が所定の閾値を超えた場合に、警告動作を行う警告部をさらに備える、請求項１から請求項４のいずれか１項に記載のシステム。
　前記第１画像センサと、前記第２画像センサと、前記慣性センサと、前記第１の演算処理装置と含むセンサ装置と、
　前記第２の演算処理装置と、前記画像生成装置とを含む情報処理装置と、を含むシステムであって、
　前記センサ装置は、前記姿勢情報と、前記座標情報とを前記情報処理装置に出力する、請求項１から請求項５のいずれか１項に記載のシステム。
　表示装置に表示する表示画像を生成する情報処理方法であって、
　所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された前記第２画像信号とを取得する取得ステップと、
　少なくとも前記第２画像信号に基づいてユーザーを認識し、少なくとも前記第２画像信号に基づいて、前記ユーザーに関する座標情報を算出する算出ステップと、
　前記第１画像センサ及び前記第２画像センサの姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う変換処理ステップと、
　前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す前記表示画像を生成する画像生成ステップと
　を含む情報処理方法。
　所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された前記第２画像信号とを取得する機能と、
　少なくとも前記第２画像信号に基づいてユーザーを認識し、少なくとも前記第２画像信号に基づいて、前記ユーザーに関する座標情報を算出する機能と、
　前記第１画像センサ及び前記第２画像センサの姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う機能と、
　前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す表示画像を生成する機能と
　をコンピュータに実現させる情報処理プログラム。