WO2013175701A1

WO2013175701A1 - 映像解析装置、映像解析方法、および注視点表示システム

Info

Publication number: WO2013175701A1
Application number: PCT/JP2013/002483
Authority: WO
Inventors: 善数大貫
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2012-05-25
Filing date: 2013-04-11
Publication date: 2013-11-28
Also published as: CN104302226A; US20150130714A1; CN104302226B; US9727130B2; JP5689850B2; JP2013244212A

Abstract

　映像取得部３１０は、ユーザの頭部の動きと連動して移動する第１光源２２０と、ユーザが観察対象とする映像提示部５００に対して相対位置が不変な第２光源４００とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子２１０が撮像した映像を取得する。頭部移動推定部３２０は、映像取得部３１０が取得した映像中における第１光源２２０の反射光に対する第２光源４００の反射光の相対位置をもとに、ユーザの頭部の動きを推定する。

Description

映像解析装置、映像解析方法、および注視点表示システム

　本発明は、映像解析装置、映像解析方法、および注視点表示システムに関する。

　注視点（Point-Of-Gage;POG）の推定技術は長く研究されており、コンピュータへの情報入力や、ウェブブラウザ上での人の注目対象の観察など、コンピュータとの対話に関わる多くの分野に応用されている。高精度な注視点推定を達成するため、角膜の湾曲中心と瞳孔中心とを光屈折を考慮して正確に計測することが行わることもある。

　一方で、注視点の推定技術を例えばゲームのようなアプリケーションに適用する場合、注視点を常に正確に推定することよりも、快適な操作で簡単に注視点制御ができることが求められる。言い換えると、ターゲットに視線を置きつつカーソルをターゲットに正確に合わせられる技術が望まれている。

　上述した角膜の湾曲中心と瞳孔中心とを光屈折を考慮した注視点の推定技術は精度は高いが、比較的高い計算能力を必要とするため遅延が生じうる。

　本発明はこうした課題に鑑みてなされたものであり、その目的は、計算コストをかけずに注視点を制御することを可能とする技術を提供することにある。

　上記課題を解決するために、本発明のある態様は映像解析装置である。この装置は、ユーザの頭部の動きと連動して移動する第１光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第２光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する映像取得部と、前記映像取得部が取得した映像中における前記第１光源の反射光に対する前記第２光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部とを含む。

　本発明の別の態様は、映像解析方法である。この方法は、ユーザの頭部の動きと連動して移動する第１光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第２光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得し、当該映像中におけるふたつの反射光の相対位置をもとにユーザの頭部の動きを推定することをプロセッサに実行させる。

　本発明のさらに別の態様は、注視点表示システムである。このシステムは、ユーザのいずれか一方の眼球を撮像する撮像素子であって、ユーザの頭部の動きと連動して移動する頭部装着型撮像素子と、前記撮像素子が撮像する眼球に光を照射する光源であって、前記撮像素子の動きと連動して移動する第１光源と、ユーザが観察対象とする映像提示部と、前記撮像素子が撮像する眼球に光を照射する光源であって、前記映像提示部に取り付けられた第２光源と、前記撮像素子が撮像する映像中における前記第１光源の反射光に対する前記第２光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部と、前記撮像素子が撮像する映像中における前記第１光源の反射光の絶対位置を、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部と、前記注視位置取得部が取得した注視位置と対応する前記映像提示部の表示領域における位置に表示させるカーソル画像を生成するカーソル生成部とを含む。

　本発明のさらに別の態様は、上記の方法の各ステップをコンピュータに実現させるプログラムである。

　このプログラムは、ビデオやオーディオのデコーダ等のハードウェア資源の基本的な制御を行なうために機器に組み込まれるファームウェアの一部として提供されてもよい。このファームウェアは、たとえば、機器内のＲＯＭ（Read Only Memory）やフラッシュメモリなどの半導体メモリに格納される。このファームウェアを提供するため、あるいはファームウェアの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、計算コストをかけずに注視点を制御することを可能とする技術を提供することができる。

実施の形態に係る角膜反射を用いた視線追跡システムの系統図である。実施の形態に係る手法Ａ－１およびＡ－２における、画面上の各Ｐ_ｇａｚｅに対応するＰ_ｃｏｒの座標を示す図である。実施の形態に係る手法Ｃにおける、Ｐ_{ｃｏｒ＿ｓｃｒ}とＰ_{ｃｏｒ＿ｈｍ}の相対位置の座標を示す図である。実施の形態に係る各手法の性能を比較するための実験システムを示す図である。実施の形態に係る各フェーズのキャリブレーションプロセスとキャリブレーション結果を示す図である。被験者が画面上の９つのマーカを追跡する場合の推定注視点を示す図である。被験者が１０個の固定されたマーカにカーソルを１つずつ重ねる場合の軌跡を示す図である。実施の形態に係る各手法のゲームの使用事例における性能を評価するためのアプリケーションを示す図である。実施の形態に係る各手法のゲームの使用事例における性能を評価した結果を示す図である。実施の形態に係る各手法のゲームの使用事例における性能を評価した結果を示す別の図である。実施の形態に係る注視点表示システムの構成を模式的に示す図である。実施の形態に係る頭部移動推定部および眼球移動推定部の内部構成を模式的に示す図である。図１３（ａ）－（ｄ）は、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}と第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}との位置関係を例示する図である。実施の形態に係る注視点表示システムにおける処理の流れを示すフローチャートである。

　以下本発明を好適な実施の形態をもとに説明する。まず、実施の形態の基礎となる理論を前提技術として述べ、その後、具体的な実施の形態を説明する。

　（前提技術）
　I．はじめに
　注視点の推定技術は長く研究されており、コンピュータへの情報入力や、ウェブブラウザ上での人の注目対象の観察など、コンピュータとの対話に関わる多くの分野に応用されている。ほとんどすべての状況において、最も重大な関心事の１つが高精度な注視点推定である。この目的を達成するため、角膜の湾曲中心と瞳孔中心とを光屈折を考慮して正確に計測することが行わることもある。この方法は非常に精度が高いが、比較的高い計算能力を必要とするため遅延が生じる。ゲームにおいては、入力データの遅延を最小限にすることが最も重要な要件の１つとなるため、このような複雑な画像処理は可能な限り避けるべきである。

　一方で、ゲームにおける視線推定の効果的な利用を考えた場合に、まず思いつくのがファーストパーソン・シューティングゲーム（First Person Shooter;FPS）への応用である。完全に正確な視線推定が実現できればすぐに適用可能であるが、現実には多くの要因によって、実際の注視点から簡単にずれがちである。このような状況で、ターゲットに照準を合わせる際に重要なのは、常に正確に注視点を推定することよりも、快適な操作で簡単に注視点制御ができることである。言い換えると、ターゲットに視線を置きつつカーソルをターゲットに正確に合わせられる能力が非常に重要である。ちなみに、ゲーム制作の観点からみると、頭の動きと視線の動きとを別々に表現できると、臨場感をうまく表現できる場合がある。頭の動きと連動して背景画像をパンし、視線の動きでカーソルを移動させるケースがその代表例である。

　II．関連手法
　注視点の推定においては、角膜表面の光源反射を利用するのが一般的である。図１は、角膜反射を用いた視線追跡システムの系統図である。この図では、２つの赤外線光源が示されており、１つは画面上にあり、もう１つは頭部に搭載されている。多くの研究では、これらのいずれか１つが注視点推定に使用される。図１の画像に見られるように、画面上の光源の光力が比較的強く（３つの光源が２列に並んだ構成）、非常に出力の低い光源が鼻の先端のすぐ近くに置かれている。前者の選択の理由は、２種類の光源の反射を効果的に区別するためで、後者の選択の理由は目への悪影響を考慮しているからである。さらに、より高い解像度で目の画像を得るために、カメラを頭部に搭載している。標準的なＵＳＢ２．０カメラを用い、赤外線遮断シートを取り除くことで、効率的に赤外線反射を検出できるように構成されている。

　このシステムを使用することで、角膜反射点Ｐ_ｃｏｒの座標から注視点Ｐ_ｇａｚｅへのマッピング変換は以下の式（１）で表せる。
　　Ｐ_ｇａｚｅ＝Ｍ・Ｐ_ｃｏｒ　　（１）

　式（１）において、Ｍはマッピング変換行列である。標準的なケースでは、Ｍはキャリブレーションプロセスで計算される。このプロセスでは、被験者が画面上の特定のいくつかの固定点（通常は４隅と中心）を注視し、それに伴う角膜反射点の座標がそれぞれ計測される。式（１）で表されたこの関係に基づいて、視線推定における頭の動きの影響が、以下に示す２つのシンプルな視線推定技術を用いてシミュレーションされる。このシミュレーションでは、図１のように画面全体に広がって格子状に並べられた９つのマーカを被験者が注視し、さらに被験者は左右上下に１０度ずつ頭を回転させる。このシミュレーションで用いられるパラメータを表１に示す。

　Ａ．単一光源の角膜反射を用いて注視点を推定するシンプルなマッピング手法（手法Ａ）
　視線推定で最もシンプルな手法の１つはＰ_ｃｏｒをＰ_ｇａｚｅにマッピングすることであるが、これは頭の動きがマッピングに敏感に影響することがよく知られている。

　図２には、手法Ａ－１およびＡ－２における、画面上の各Ｐ_ｇａｚｅに対応するＰ_ｃｏｒの座標を示している。ここで、手法Ａ－１は画面の上に設置された光源のＰ_ｃｏｒを用いたケースで、Ｐ_{ｃｏｒ＿ｓｃｒ}で表している。ここで、マッピング変換は以下の式（２）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_ｓｃｒ・Ｐ_{ｃｏｒ＿ｓｃｒ}　　（２）

　式（２）において、Ｍ_ｓｃｒはキャリブレーション済みのマッピング変換行列を表し、Ｐ_ｇａｚｅは推定注視点を表す。手法Ａ－２は、頭部に搭載した光源のＰ_ｃｏｒを用いたケースで、Ｐ_{ｃｏｒ＿ｈｍ}で表している。ここで、マッピング変換は以下の式（３）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}　　（３）

　式（３）において、Ｍ_ｈｍはキャリブレーション済みのマッピング変換行列を表す。

　これらの結果が示すのは、注視点は頭の動きに応じて大きく変化するため、正確に注視点を推定するには被験者が頭をしっかりと固定し、目だけを動かすようにしなければならないということである。さらに、手法Ａ－２は手法Ａ－１よりも頭の動きの影響は小さくなるが、特に被験者が頭を右に動かした場合に、点の並びのゆがみがひどくなる。これは、カメラの位置と頭部搭載光源の位置との関係に起因しており、位置調整によって状況は改善されるが、傾向は大きくは変わらない。

　Ｂ．角膜反射と瞳孔中心の相対位置を用いて注視点を推定するマッピング手法（手法Ｂ）
　Ｐ_ｃｏｒと瞳孔中心の相対位置の検出とＰ_ｇａｚｅへのマッピングは、頭の動きに比較的左右されにくいことが知られている。図２には、手法Ｂ－１およびＢ－２における、画面上の各Ｐ_ｇａｚｅに対応するＰ_ｃｏｒと瞳孔中心の相対位置の座標を示す。ここで、手法Ｂ－１は画面上の光源のＰ_ｃｏｒを用いたケースを示している。ここで、マッピング変換は以下の式（４）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_{ｓｃｒ＿ｐｕｐ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｃ_ｐｕｐ）　　（４）

　式（４）において、Ｍ_{ｓｃｒ＿ｐｕｐ}はキャリブレーション済みのマッピング変換行列を表し、Ｃ_ｐｕｐは瞳孔中心の座標を表す。手法Ｂ－２は、頭部搭載の光源のＰ_ｃｏｒを用いたケースを示す。ここで、マッピング変換は以下の式（５）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_{ｈｍ＿ｐｕｐ}・（Ｐ_{ｃｏｒ＿ｈｍ}－Ｃ_ｐｕｐ）　　（５）

　式（５）において、Ｍ_{ｈｍ＿ｐｕｐ}はキャリブレーション済みのマッピング変換行列である。これらの結果が示すのは、頭の動きの影響が手法Ａ－１およびＡ－２に比べて小さいため、被験者が頭を動かした場合でも推定注視点は大きく変化しないということである。さらに、検出されるＰ_{ｃｏｒ＿ｈｍ}－Ｃ_ｐｕｐのダイナミックレンジは手法Ａ－１およびＡ－２よりも大きくなる。つまり、手法Ｂ－１およびＢ－２を用いることで、より高い解像度のＰ_ｇａｚｅを得ることができる。一方で、これらの結果から直接観察はできないが、Ｃ_ｐｕｐを検出するための計算がより複雑になり、特に目の中心で瞳孔が定まらない場合には、信頼度の低い瞳孔認識と光の屈折の影響のために精度があまり保証されない。さらに、カメラが被験者から遠い位置にあると、頭の動きの影響があまり改善されないことが知られている。本明細書には記載しないが、別のシミュレーションによれば、カメラが画面上部に置かれていると、頭の動きの影響は無視できるほど小さくなる。しかし、今回の分析では、このような性能の高さよりも高解像度のカメラ画像が優先される。これは、遠距離カメラを使用すると高度な検出や認識の技術が必要となり、推定性能が低下してしまう恐れがあるからである。

　III．提案技術
　提案技術は、Ｐ_{ｃｏｒ＿ｓｃｒ}とＰ_{ｃｏｒ＿ｈｍ}との間の相対位置が頭の動きを反映するという特性を利用する。さらに、手法Ａと組み合わせることで、頭が動く状況での新たな視線推定技術を提示する。重要なポイントは、すべての手順で瞳孔中心の検出が不要だということであり、これにより、必要となる計算能力を比較的低く抑えることができる。

　Ａ．２つの光源の角膜反射の位置関係を用いて頭の動きを推定するマッピング手法（手法Ｃ）
　図３は、手法Ｃにおける、Ｐ_{ｃｏｒ＿ｓｃｒ}とＰ_{ｃｏｒ＿ｈｍ}の相対位置の座標を示している。ここで、マッピング変換は以下の式（６）で表すことがでる。

　　Ｐ_ｇａｚｅ＝Ｍ_{ｓｃｒ＿ｈｍ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）　　（６）
　式（６）において、Ｍ_{ｓｃｒ＿ｈｍ}はキャリブレーション済みのマッピング変換行列を表す。これらの結果が示すのは、Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}は純粋に頭の動きを反映し、視線の動きの影響はほぼ排除されるということである。シミュレーションおよび実験結果によると、頭部搭載カメラ位置と頭部搭載光源位置の関係が若干結果に影響するため、それらの配置に多少の調整を要する。

　Ｂ．２つの光源の角膜反射の位置関係を用いて注視点を推定するマッピング手法（手法Ｄ）
　手法Ａは、注視点を推定する最もシンプルな技術であるが、頭の動きの影響は著しく大きくなる。一方で、手法Ｃは純粋に頭の動きを反映し、視線の動きの影響はほぼ排除される。提案技術は、手法Ｃを用いることで手法Ａにおける頭の動きの影響を排除するという考えに基づく。手法Ａ－２を用いると、手法Ｄは以下の式（７）で表される。
　　Ｐ_ｇａｚｅ＝Ｍ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}＋Ｍ_{ｓｃｒ＿ｈｍ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）　　（７）

　Ｍ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}＝０の場合、式（７）は式（６）と等しくなる。つまり、Ｍ_{ｓｃｒ＿ｈｍ}をキャリブレーションする際に、Ｍ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}＝０であれば式（６）が成り立つ。実際、以下の１から４のプロセスにしたがってキャリブレーションを実行すれば、実現は難しくない。

　１．Ｐ_{ｃｏｒ＿ｈｍ}を測定して、Ｐ_{ｃｏｒ＿ｈｍ}からＰ_ｇａｚｅへの変換行列を計算することでＭ_ｈｍを推定する。このとき、被験者は頭をしっかりと固定して「キャリブレーション用マーカ」を追跡する。

　２．この最初のキャリブレーション結果を用いて、画面上にＰ_ｇａｚｅ（＝Ｍ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}）を表す「マーカ１」を表示する。

　３．画面の中心（＝０）に「マーカ２」を表示する。

　４．Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}を測定して、Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}からＰ_ｇａｚｅへの変換行列を計算することで、Ｍ_{ｓｃｒ＿ｈｍ}を推定する。被験者は「キャリブレーション用マーカ」の追跡において、「マーカ１」が「マーカ２」に重なるよう注視する。

　あるいは、画面の中心を注視して頭を動かす際に、Ｐ_{ｃｏｒ＿ｈｍ}とＰ_{ｃｏｒ＿ｓｃｒ}とを測定する方法もある。これら２つの要素の関係を計算することによって、Ｍ_ｈｍ ^－１・Ｍ_{ｓｃｒ＿ｈｍ}を求めることができる。実際、図３の手法Ｄは、マッピング変換がシンプルな線形変換であることを条件として、Ｐ_{ｃｏｒ＿ｈｍ}＋Ｍ_ｈｍ ^－１・Ｍ_{ｓｃｒ＿ｈｍ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）をシミュレーションすることで求められる。つまり、手法Ｃの結果を用いることで手法Ａ－２における頭の動きの影響を排除することができ、Ｐ_ｇａｚｅを正確に推定できる。

　IV．実験
　Ａ．実験システム
　図４は、上述した各手法の性能を比較するための実験システムを示す。図４に示す例は初期の試作型であるため、外見は手作りであるが、十分に動作する。図４に示す例では、２台のカメラが左右それぞれの目の前に置かれるが、そのうちの１台だけを評価で使用する。カメラで撮影した画像のサイズはＶＧＡ（Video Graphics Array）で、撮影速度はおよそ１０ｆｐｓである。

　Ｂ．キャリブレーション
　キャリブレーションプロセスは２つのフェーズで構成される。１つ目は手法Ａ－２向けであり、２つ目が手法Ｃ向けのものである。図５は、各フェーズのキャリブレーションプロセスとキャリブレーション結果を示す。手法Ａ－２のキャリブレーションプロセスでは、図５の「手法Ａ－２向けプロセス」に示すように、被験者は９つのマーカを連続して注視する。この手順では、被験者は頭を動かさずに視線だけを動かすことが重要なポイントである。測定されたＰ_{ｃｏｒ＿ｈｍ}の結果の例を、図５の「手法Ａ－２の結果」に示す。この図において、撮影される原寸カメラ画像が６４０×４８０ピクセルという条件で、各軸の単位がカメラのピクセルになる。このステップの後、手法Ｃ向けのキャリブレーションプロセスを開始する。マーカの動きは前回の順序と同様であり、さらに中心マーカと手法Ａ－２の推定注視点が手順全体を通じて示される。被験者は、９つのマーカを１つずつ注視し、推定注視点のマーカが中心マーカにそれぞれ重なるよう頭を動かす。測定されたＰ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}の結果の例を、図５の「手法Ｃの結果」に示す。この結果は、頭の動きが比較的正確に測定できることを示している。さらに、手法Ｃのキャリブレーションプロセス全体を通じてＭ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}＝０が維持されるため、式（７）で表されるように、手法Ａ－２と手法Ｃの線形結合によって手法Ｄが実現できる。

　Ｃ．注視点推定の比較
　ここで提示している評価は、注視点推定の正確性に焦点を当てるのではなく、ターゲットに容易に到達できることを重視しているため、本実施の形態に係るアルゴリズムは正確な視線推定法を実行するよう調整されてはいない。マッピングアルゴリズムはシンプルな線形変換で、最初のプロセスにおけるガウスフィルタ以外に高度なフィルタは使用しない。このような状況において、図６は被験者が画面上の９つのマーカを追跡する場合の推定注視点を示している。この実験では、被験者は頭を動かすことを制限されていないため、頭の動きの影響が直接観察される。この図において、パネルの原寸が１９２０×１０８０で、実験アプリケーションのウィンドウサイズが１３００×９４０（幅２０ｃｍ高さ１４ｃｍのサイズに相当）という条件で、各軸の単位がカメラのピクセルとなる。結果、手法Ｂ－２および手法Ｄでは、頭が動いた場合でも推定注視点は９つのマーカの点の周りに集まっている。

　Ｄ．カーソル移動手段としての比較
　注視点推定が正確にできるとカーソル移動が素早く行えるようになるが、ターゲットに到達する能力も重要である。図７は、被験者が１０個の固定されたマーカにカーソルを１つずつ重ねる場合の軌跡を示している。手法Ａ－２のケースでは、まずカーソルが素早く動き、その後、頭の動きによってカーソルを置く手順が見られる。マーカを通り過ぎてしまうこともあるが、カーソルは確実にマーカに到達する。実際、手法Ａ－２では頭の動きの影響が明確であるため、被験者にかかるストレスは大きくない。手法Ｂ－２のケースでは、カーソルが非常に迅速に動き、ほとんどの場合でカーソルを置く手順を必要としない。しかし、カーソルがマーカを外れた場合、被験者はカーソルをマーカに向けて少しも動かすことができないストレスを感じることになる。手法Ｃのケースでは、状況はかなり異なる。カーソルは頭の動きによってのみ制御されるため、カーソルは比較的ゆっくり近づく。しかし、確実にマーカに到達する。手法Ｄのケースでは、カーソルが完璧に動き、マーカに重ねられる。実際、手法Ｄでは頭の動きの影響が明確で直感的であるため、被験者は操作しやすい。

　Ｅ．ゲーム利用での性能比較
　各手法の、ゲームの使用事例における性能を評価するため、図８に示すゲームのようなアプリケーションを用いる。アプリケーションＡでは、１０個のマーカが連続的に表示され、これらは動かない。被験者は推定注視点を表すカーソルを制御して、マーカに重ねる。重なるまでの時間がカウントされ、２秒が経過するとマーカは消え、別のマーカが現れる。同時に複数のマーカを表示することはしないため、被験者は１つのマーカに集中し、これを逐次処理する。マーカは、半径４０ピクセル（６ｍｍ）の円で示され、推定注視点を表すカーソルは半径２０ピクセル（３ｍｍ）の円で示される。それぞれの円の端が接触する、つまりこれらの中心間の距離が６０ピクセル（９ｍｍ）未満になると、重なったと認識する。アプリケーションＢでは、マーカの外見条件はアプリケーションＡと同様であるが、さらにマーカは秒速約２００ピクセル（３０ｍｍ／秒）で動く。マーカの位置と方向はランダムに決められ、図８はその一例を示す。１０個すべてのマーカが消えるまでにかかった時間を測定、評価する。

　２４歳女性、３５歳男性、４３歳女性、４５歳男性の４人の被験者が実験に参加した。４３歳女性および４５歳男性はこのシステムに精通しており、残り２人の被験者は初めてこのシステムを使用した。全員の被験者が、短時間自由に試した後に各アプリケーションを５回実行した。その結果を図９と図１０に示す。記載のように、マーカが消えるまで少なくとも２秒かかっているため、１回の試行につき少なくとも２０秒かかることになる。

　アプリケーションＡの結果から、すべての手法の結果が１００秒未満であり、特に悪い記録ではないことがわかる。平均スコアが良いのは手法Ｂ－２および手法Ｄであり、スコアが最高であったのは手法Ｂ－２であった。スコアのばらつきが最も小さいのは手法Ｃだが、手法Ｂ－２および手法Ｄもそれほど悪くはなかった。最も悪いスコアは手法Ａ－２であった。一方、アプリケーションＢの結果では、手法Ａ－２および手法Ｂ－２でとりわけ悪いスコアが見られた。平均スコアが最も良いのは手法Ｄで、わずかな差で手法Ｂ－２が続いた。スコアのばらつきが最も小さいのは手法Ｃで、最も大きいのは手法Ａ－２であった。

　Ｅ．考察
　手法Ａ－２では、被験者は頭を固定して目だけを動かすようにする。さらに、手法Ａではカーソルが頭の動きと反対の方向に移動するという特性があるため、カーソルを右に動かすには、被験者は頭を左に動かす。カーソルがマーカから外れると、被験者はマーカと反対の方向に頭を動かすことになるが、動くマーカを追跡する際に被験者は混乱しがちである。

　手法Ｂ－２では正確に視線推定ができ、頭の動きにも対応できる。その一方で、手法Ｂ－２では、いったんカーソルがマーカから外れると、頭の動きを使って誤りを修正するのは比較的困難になるという負の特性がある。これが、手法Ｂ－２においてときおり特にスコアが悪くなる理由である。これは手法Ａ－２ほど著しいわけではないが、手法Ｂ－２も頭の動きと反対の方向にカーソルが動くという特性がある。しかし、その影響はかなり小さいため、一部の被験者はその影響を明確に感じることができず、カーソルを近づけることができなかった。そのような状況で、視線を少しマーカから離すことで回避しようとする被験者もいた。

　手法Ｃは視線の動きに影響されないため、被験者は頭の動きによってのみカーソルを制御しなければならない。断続的眼球運動によって素早くカーソルを移動させることができないため、手法Ｃはカーソルをマーカに近づけるのに時間がかかるという弱点がある。しかしながら、全員の被験者が、明確な頭の動きによって確実にマーカに到達できた。結果、カーソルへ近づくのに時間はかかるが、安定したスコアが得られた。

　手法Ｄは、手法Ｃにおける頭の動きの影響と手法Ａ－２における視線の動きの影響という両方の特性がある。被験者が固定点を注視して頭を動かすと、カーソルは頭の動きと同じ方向にゆっくりと動く。視線推定のレベルは手法Ｂ－２よりも若干低下するが、カーソルがマーカから外れた場合であっても、被験者は直感的な頭の動きで容易に修正することができる。これが、手法Ｄで特に悪いスコアが見られなかった理由である。結論として、手法Ｄは、断続的眼球運動と頭の動きによる直感的な操作のバランスがうまく保たれているといえる。

　Ｖ．結論
　以上、視線推定のゲームへの応用について考察し、ゲームのようなアプリケーションを用いることで２つの従来手法と２つの提案手法の性能比較を記載した。そして、カーソルを確実にターゲットに移動させることに焦点を当て、注視点制御の性能を提示した。この結果、提案手法は、瞳孔中心を計算することなく従来手法と同様の性能を実現でき、計算コストをかけず、ストレスのない直感的操作で注視点制御が得られた。

　（具体例）
　実施の形態
　図１１は、実施の形態に係る注視点表示システム１００の全体構成を模式的に示す図である。実施の形態に係る注視点表示システム１００は、ヘッドセット２００、映像解析装置３００、映像提示部５００、および映像提示部５００に取り付けられた第２光源４００を含む。

　ヘッドセット２００は、ユーザの頭部に装着して使用できるように構成されており、ユーザの右目あるいは左目のいずれか一方の眼球を含む映像を撮像する撮像素子２１０と、撮像素子２１０が撮像する方の眼球に赤外光を照射する第１光源２２０とを備える。第１光源２２０は、上述した前提技術［II］の頭部に搭載された赤外光源に対応し、撮像素子２１０は赤外線遮断シートを取り除いた標準的なＵＳＢ２．０カメラに対応する。ヘッドセット２００はユーザの頭部に装着されているため、撮像素子２１０と第１光源２２０とはともに、ユーザの頭部の動きと連動して移動する。

　第１光源２２０が赤外光を照射する方の目には、ユーザが観察対象とする映像提示部５００に対して相対位置が不変な第２光源４００からも赤外光が照射される。映像提示部５００は、上述した前提技術［II］における画面に対応し、例えば液晶モニタ等で実現される。第２光源４００は上述の画面上の光源に対応し、３つの光源を２列に並べて比較的強い光を照射するように構成されている。撮像素子２１０は、ユーザの眼球上で反射する第１光源２２０および第２光源４００それぞれの反射光を含む領域を流し撮りする。撮像素子２１０が撮像する映像の一例は、図１に示されている。

　映像解析装置３００は、映像取得部３１０、頭部移動推定部３２０、眼球移動推定部３３０、注視位置取得部３４０、およびカーソル生成部３５０を含む。

　映像取得部３１０は、撮像素子２１０が撮像する、ユーザの眼球上で反射する第１光源２２０および第２光源４００それぞれの反射光を含む領域の映像を取得する。頭部移動推定部３２０は、映像取得部３１０が取得した映像中における第１光源２２０の反射光に対する第２光源４００の反射光の相対位置をもとに、ユーザの頭部の動きを推定する。

　ここで、ユーザの眼球上で反射する第１光源２２０の反射光の位置は上述の前提技術におけるＰ_{ｃｏｒ＿ｈｍ}であり、ユーザの眼球上で反射する第２光源４００の反射光の位置は上述のＰ_{ｃｏｒ＿ｓｃｒ}である。映像中における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}は、撮像素子２１０が撮像する映像における位置座標で表すことができる。前提技術［IV］で説明したように、撮像素子２１０が撮像する映像はＶＧＡサイズであり、６４０ピクセル×４８０ピクセルの解像度である。そのため、例えば第１光源２２０の反射光が映像の中央に存在する場合、その位置座標は（３２０，２４０）となる。頭部移動推定部３２０は、第１光源２２０の反射光の位置座標を始点とし、第２光源４００の反射光を終点とする位置ベクトルの向きおよび大きさから、ユーザの頭部の動きの推定量を求める。

　眼球移動推定部３３０は、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の絶対位置Ｐ_{ｃｏｒ＿ｈｍ}をもとに、撮像素子２１０が撮像する眼球の動きを推定する。注視位置取得部３４０は、頭部移動推定部３２０が推定したユーザの頭部の動きと、眼球移動推定部３３０が推定した眼球の動きとをもとに、映像提示部５００の表示領域におけるユーザの注視位置Ｐ_ｇａｚｅの推定値を取得する。

　図１２は、実施の形態に係る頭部移動推定部３２０および眼球移動推定部３３０の内部構成を模式的に示す図である。眼球移動推定部３３０は、第１位置座標取得部３３２と第１変換部３３４とを含む。また頭部移動推定部３２０は、第２位置座標取得部３２２、位置ベクトル取得部３２４、および第２変換部３２６を含む。

　眼球移動推定部３３０中の第１位置座標取得部３３２は、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}を取得する。第１変換部３３４は、第１位置座標取得部３３２が取得した第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}に第１変換行列Ｍ_ｈｍを積算して、ユーザが観察対象とする映像提示部５００の表示領域における位置座標に変換する。これは上述の式（３）に基づく。

　頭部移動推定部３２０中の第２位置座標取得部３２２は、撮像素子２１０が撮像する映像中における第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}を取得する。位置ベクトル取得部３２４は、第１位置座標取得部３３２が取得した第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}を始点とし、第２位置座標取得部３２２が取得した第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}を終点とする位置ベクトルＶ_{ｈｍ＿ｓｃｒ}（＝Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）を取得する。第２変換部３２６は、第２変換行列Ｍ_{ｓｃｒ＿ｈｍ}を用いて、位置ベクトル取得部３２４が取得した位置ベクトルＶ_{ｈｍ＿ｓｃｒ}を、ユーザが観察対象とする映像提示部５００の表示領域における位置座標に変換する。これは上述の式（６）に基づく。

　以下、眼球移動推定部３３０によるユーザの眼球の動きの推定と、頭部移動推定部３２０によるユーザの頭部の動きの推定との原理について、図１３を参照して具体的に説明する。

　図１３は、第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}と第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}との位置関係を例示する図である。図１３（ａ）－（ｄ）において、符号６０２は第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}を示し、符号６０４は、第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}を示す。また符号６０６は、瞳孔中心の位置Ｃ_ｐｕｐを示す。

　図１３（ａ）は、ユーザの頭部は正面を向いており、かつユーザの眼球が目の中央付近に存在する場合における、撮像素子２１０が撮像する映像の一例を模式的に示す図である。一方、図１３（ｂ）は、ユーザが眼球が目の中央付近に位置するように保ったまま、ユーザの頭部を動かした場合における、撮像素子２１０が撮像する映像の一例を模式的に示す図である。

　上述したように、撮像素子２１０と第１光源２２０とはともにヘッドセット２００に備えられており、これらはユーザの頭部の動きと連動して移動する。このため、ユーザが眼球の位置を変えずに頭部を動かした場合、撮像素子２１０、第１光源２２０、およびユーザの眼球の相対的な位置関係は変化しない。したがって、図１３（ａ）および図１３（ｂ）に示すように、ユーザが頭部を動かしたとしても眼球の位置を変えなければ、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置座標はほとんど変化しない。言い換えると、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置座標は、ユーザが頭部の動きによらず眼球の位置によって定まる。

　これに対し、第２光源４００はユーザの頭部に接続していない。したがって、ユーザが頭部を動かすと、ユーザが眼球の位置を変えない場合であっても、第２光源４００とユーザの眼球との位置関係が変化する。したがって、図１３（ａ）および図１３（ｂ）に示すように、ユーザが眼球の位置を変えない場合であっても頭部を動かすことにより、撮像素子２１０が撮像する映像中における第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の位置座標が変化する。

　図１３（ｃ）は、ユーザの頭部は正面を向けたまま、眼球を目の中央付近から端に移動させた場合における、撮像素子２１０が撮像する映像の一例を模式的に示す図である。撮像素子２１０および第１光源２２０は、ユーザの頭部の動きとは連動して移動するものの、ユーザの眼球の動きには連動しない。したがって、図１３（ａ）および図１３（ｃ）に示すように、ユーザが頭部を動かさない場合であっても、眼球を動かすことにより、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の位置座標が変化する。一方で、人間の眼球がほぼ球形状であること等の理由により、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係はほとんど変化しない。言い換えると、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係は、ユーザの眼球の動きによらず頭部の位置によって定まる。

　本発明の実施の形態は、撮像素子２１０が撮像する映像中における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置座標がユーザが頭部の動きによらず眼球の位置によって定まる第１の事実と、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係がユーザの眼球の動きによらず頭部の位置によって定まる第２の事実とを利用して、ユーザの注視点Ｐ_ｇａｚｅを推定する。上述した前提技術における手法Ａ－２は第１の事実を利用する手法であり、手法Ｃは第２の事実を利用する手法である。

　図１３（ｄ）は、ユーザが図１３（ｂ）に示した位置にまで頭部を動かし、かつ図１３（ｃ）に示した位置まで眼球を動かした場合における、撮像素子２１０が撮像する映像の一例を模式的に示す図である。上述した第１の事実と第２の事実とは互いに独立な事象である。したがって、図１３（ｄ）に示すように、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置は図１３（ｂ）に示す位置とほぼ同じであり、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係は図１３（ｃ）に示す位置とほぼ同じである。

　以上より、眼球移動推定部３３０が第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置座標からユーザの眼球の動きを推定し、頭部移動推定部３２０が第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}および第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係からユーザの頭部の動きを推定することにより、ユーザの頭部の動きと眼球の動きとを独立して推定することが可能となる。また、ユーザの頭部の動きと眼球の動きとを合成することにより、ユーザの視線方向を推定することもできる。

　ここで、第１変換部３３４が用いる第１変換行列Ｍ_ｈｍは、ユーザが頭部の動きを固定して眼球を動かすことによって映像提示部５００の表示領域中の注視位置Ｐ_ｇａｚｅを移動させたときの、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}とその注視位置Ｐ_ｇａｚｅの表示領域における絶対位置座標とをもとに予め算出された２行２列の大きさの行列である。

　具体的に、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の撮像素子２１０が撮像する映像における位置座標を（ｘ_１，ｙ_１）とし、そのときの注視位置Ｐ_ｇａｚｅの映像提示部５００の表示領域における位置座標を（Ｘ_１，Ｙ_１）とする。ユーザが頭部の動きを固定する場合、注視位置Ｐ_ｇａｚｅの表示領域における位置座標（Ｘ_１，Ｙ_１）は、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}に応じて定まるから、（Ｘ_１，Ｙ_１）^Ｔ＝Ｍ_ｈｍ・（ｘ_１，ｙ_１）^ＴとなるＭ_ｈｍを定めればよい。すなわち、行列Ｍ_ｈｍは撮像素子２１０が撮像する映像における位置座標を映像提示部５００の表示領域における位置座標に写像する行列である。Ｍ_ｈｍは上述した前提技術の手法Ａ－２のキャリブレーションプロセスによって求めることができる。なお記号「Ｔ」はベクトルの転置を表す。

　第２変換部３２６が用いる第２変換行列Ｍ_{ｓｃｒ＿ｈｍ}は、ユーザが眼球の動きを固定して頭部を動かすことによって映像提示部５００の表示領域中の注視位置Ｐ^ｇａｚｅを移動させたときの、位置ベクトル取得部３２４が取得した位置ベクトルＶ_{ｈｍ＿ｓｃｒ}（＝Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）と、表示領域における注視位置Ｐ_ｇａｚｅの絶対位置座標とをもとに予め算出された行列である。

　第２変換行列Ｍ_{ｓｃｒ＿ｈｍ}の具体的な算出手段は、第１変換行列Ｍ_ｈｍの算出手段と同様である。すなわち、撮像素子２１０が撮像する映像における第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}の位置座標を（ｘ_１，ｙ_１）、第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}の位置座標を（ｘ_２，ｙ_２）、そのときの注視位置Ｐ_ｇａｚｅの映像提示部５００の表示領域における位置座標を（Ｘ_２，Ｙ_２）とする。ユーザが眼球の動きを固定する場合、注視位置Ｐ_ｇａｚｅの表示領域における位置座標（Ｘ_２，Ｙ_２）は、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}に対する第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}の相対的な位置関係に応じて定まるから、（Ｘ_２，Ｙ_２）^Ｔ＝Ｍ_{ｓｃｒ＿ｈｍ}・（ｘ_２－ｘ_１，ｙ_２－ｙ_１）^ＴとなるＭ_{ｓｃｒ＿ｈｍ}を定めればよい。すなわち、行列Ｍ_{ｓｃｒ＿ｈｍ}も撮像素子２１０が撮像する映像における位置座標を映像提示部５００の表示領域における位置座標に写像する行列である。行列Ｍ_{ｓｃｒ＿ｈｍ}は上述した前提技術の手法Ｃのキャリブレーションプロセスによって求めることができる。

　図１１の説明に戻り、映像解析装置３００中の注視位置取得部３４０は、第１変換部３３４が変換して取得した位置座標（Ｘ_１，Ｙ_１）と、第２変換部が変換して取得した位置座標（Ｘ_２，Ｙ_２）とを加算して、映像提示部５００の表示領域におけるユーザの注視位置Ｐ_ｇａｚｅの位置座標を確定する。具体的には、注視位置取得部３４０は上述した式（７）に基づいてＭ_ｈｍ・Ｐ_{ｃｏｒ＿ｈｍ}＋Ｍ_{ｓｃｒ＿ｈｍ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）を計算し、注視位置Ｐ_ｇａｚｅの位置座標を取得する。カーソル生成部３５０は、注視位置取得部３４０が取得した表示領域におけるユーザの注視位置Ｐ_ｇａｚｅに基づいて、映像提示部５００に表示させるカーソルの位置を制御する。

　図１４は、実施の形態に係る注視点表示システム１００における注視点表示処理の流れを示すフローチャートである。本フローチャートにおける処理は、例えば映像解析装置３００の電源が投入されたときに開始する。

　ヘッドセット２００に備えられた撮像素子２１０は、第１光源２２０および第２光源４００の反射光を含む、ヘッドセット２００を装着したユーザの目を撮像する（Ｓ２）。第１位置座標取得部３３２は、第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}を取得する（Ｓ４）。第１変換部３３４は、第１変換行列Ｍ_ｈｍを用いて、第１位置座標取得部３３２が取得した第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}に起因する表示領域における位置座標を取得する（Ｓ６）。

　第２位置座標取得部３２２は、第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}を取得する（Ｓ８）。位置ベクトル取得部３２４は、第１位置座標取得部３３２が取得した第１光源２２０の反射光の位置座標Ｐ_{ｃｏｒ＿ｈｍ}を始点とし、第２位置座標取得部３２２が取得した第２光源４００の反射光の位置座標Ｐ_{ｃｏｒ＿ｓｃｒ}を終点とする位置ベクトルＶ_{ｈｍ＿ｓｃｒ}を取得する（Ｓ１０）。

　第２変換部３２６は、第２変換行列Ｍ_{ｓｃｒ＿ｈｍ}を用いて、位置ベクトル取得部３２４が取得した位置ベクトルＶ_{ｈｍ＿ｓｃｒ}をユーザの頭部移動に起因する位置座標を取得する（Ｓ１２）。注視位置取得部３４０は、第１変換部３３４が取得した位置座標と第２変換部３２６が取得した位置座標とを加算して、映像提示部５００の表示領域におけるユーザの注視点Ｐ_ｇａｚｅの位置を算出する（Ｓ１４）。カーソル生成部３５０は、注視位置取得部３４０が取得した表示領域におけるユーザの注視位置Ｐ_ｇａｚｅに基づいて、映像提示部５００に表示させるカーソルの位置を移動する（Ｓ１６）。カーソル生成部３５０が映像提示部５００に表示させるカーソルの位置を移動すると、本フローチャートにおける処理は終了する。

　以上の構成による注視点表示システム１００の利用シーンは以下のとおりである。ユーザは、実施の形態に係るヘッドセット２００を装着して映像提示部５００の表示領域を眺める。ヘッドセット２００に備えられた撮像素子２１０は、ユーザの眼球を含む領域を撮像する。映像解析装置３００は、ユーザの頭部の動きに連動して移動する第１光源２２０とから照射された赤外光と、映像提示部５００に取り付けられた第２光源４００から照射された赤外光とのふたつの反射光の位置関係から、映像提示部５００の表示領域におけるユーザの注視点の位置を推定し、その位置にカーソルを移動する。

　以上述べたように、実施の形態に係る注視点表示システム１００によれば、計算コストをかけずに注視点を制御することを可能とする技術を提供することができる。

　特に、本発明の実施の形態に係る注視点表示システム１００によれば、ユーザの注視点の推定にユーザの瞳孔中心の位置を利用しないため、瞳孔中心位置を求める演算を省略することができる。また、ユーザの頭部の動きと眼球の動きとを分離して推定することができるため、それらの情報を独立して利用することができる。これにより、例えば頭の動きと連動して背景画像をパンしつつ、視線の動きでカーソルを移動させるといった操作を実現することができる。また、頭部の動きや位置と、眼球の動きや位置とが特定の関係となったときに、特定の処理を実現することもできる。より具体的には、例えば頭部と眼球とが同じ方向に動くときは、その方向に画面をスクロールするといった処理を実現できる。

　以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

（第１の変形例）
　上記では、第２光源４００は映像提示部５００に取り付けられていることを前提に説明したが、第２光源４００は必ずしも映像提示部５００の近くに設置する必要はない。第２光源４００はユーザの頭部の動きとは独立して、ユーザの眼球に赤外光線を照射可能な位置に設置されていればよい。一方で、映像提示部５００はユーザの観察対象である。したがって第２光源４００の照射光をユーザの目に照射しやすくなるために、第２光源４００と映像提示部５００との距離は近いほど好ましい。

（第２の変形例）
　瞳孔中心Ｃ_ｐｕｐを求めるための計算コストを許容する場合、上述の前提技術における手法Ｂ－２と手法Ｃとを組み合わせて注視点Ｐ_ｇａｚｅを推定してもよい。この場合、マッピング変換は以下の式（８）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_{ｈｍ＿ｐｕｐ}・（Ｐ_{ｃｏｒ＿ｈｍ}－Ｃ_ｐｕｐ）＋Ｍ_{ｓｃｒ＿ｍｈ}・（Ｐ_{ｃｏｒ＿ｓｃｒ}－Ｐ_{ｃｏｒ＿ｈｍ}）　　（８）

　これにより、手法Ｂ－２の特徴と手法Ｃの特徴とのふたつの特徴を合わせ持つ注視点制御が実現できる。

（第３の変形例）
　上述した手法をさらに一般化して、第１光源２２０の反射光の位置Ｐ_{ｃｏｒ＿ｈｍ}と、第２光源４００の反射光の位置Ｐ_{ｃｏｒ＿ｓｃｒ}と、瞳孔中心Ｃ_ｐｕｐとの３点から注視点Ｐ_ｇａｚｅを推定する問題に帰着することもできる。この場合、マッピング変換は以下の式（９）で表すことがでる。
　　Ｐ_ｇａｚｅ＝Ｍ_１・Ｐ_{ｃｏｒ＿ｈｍ}＋Ｍ_２・Ｐ_{ｃｏｒ＿ｓｃｒ}＋Ｍ_３・Ｃ_ｐｕｐ　　（９）
　ここでＭ_１，Ｍ_２，Ｍ_３は、それぞれ一般化された変換行列である。Ｍ_１，Ｍ_２，Ｍ_３のうちいずれか１つあるいは２つがゼロ行列となる場合もある。

　これにより、例えば計算リソースに余裕があるときはＣ_ｐｕｐを注視点推定に利用し、計算コストを下げたいときはＣ_ｐｕｐを利用せずに注視点を推定するといった柔軟な注視点推定を実現することができる。

　１００　注視点表示システム、　２００　ヘッドセット、　２１０　撮像素子、　２２０　第１光源、　３００　映像解析装置、　３１０　映像取得部、　３２０　頭部移動推定部、　３２２　第２位置座標取得部、　３２４　位置ベクトル取得部、　３２６　第２変換部、　３３０　眼球移動推定部、　３３２　第１位置座標取得部、　３３４　第１変換部、　３４０　注視位置取得部、　３５０　カーソル生成部、　４００　第２光源、　５００　映像提示部。

　本発明は、映像解析装置、映像解析方法、および注視点表示システムに利用可能である。

Claims

　ユーザの頭部の動きと連動して移動する第１光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第２光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する映像取得部と、
　前記映像取得部が取得した映像中における前記第１光源の反射光に対する前記第２光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部とを含むことを特徴とする映像解析装置。
　前記撮像素子が撮像する映像中における前記第１光源の反射光の絶対位置をもとに、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、
　推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部とをさらに含むことを特徴とする請求項１に記載の映像解析装置。
　前記眼球移動推定部は、
　前記撮像素子が撮像する映像中における前記第１光源の反射光の位置座標を取得する第１位置座標取得部と、
　前記第１位置座標取得部が取得した位置座標に所定の第１変換行列を積算してユーザが観察対象とする映像提示部の表示領域における位置座標に変換する第１変換部とを含み、
　前記第１変換部が用いる第１変換行列は、ユーザが頭部の動きを固定して眼球を動かすことによって映像提示部の表示領域中の注視位置を移動させたときの、前記第１光源の反射光の位置座標と当該注視位置の表示領域における絶対位置座標とをもとに予め算出された行列であることを特徴とする請求項２に記載の映像解析装置。
　前記頭部移動推定部は、
　前記撮像素子が撮像する映像中における前記第２光源の反射光の位置座標を取得する第２位置座標取得部と、
　前記第１位置座標取得部が取得した位置座標を始点とし、前記第２位置座標取得部が取得した位置座標を終点とする位置ベクトルを取得する位置ベクトル取得部と、
　前記位置ベクトル取得部が取得した位置ベクトルを、ユーザが観察対象とする映像提示部の表示領域における位置座標に変換する第２変換部とを含み、
　前記第２変換部は、ユーザが眼球の動きを固定して頭部を動かすことによって映像提示部の表示領域中の注視位置を移動させたときの前記位置ベクトル取得部が取得した位置ベクトルと、当該注視位置の表示領域における絶対位置座標とをもとに予め算出された第２変換行列を用いて前記位置ベクトルを映像提示部の表示領域における位置座標に変換することを特徴とする請求項３に記載の映像解析装置。
　前記注視位置取得部は、前記第１変換部が変換した位置座標と前記第２変換部が変換した位置座標とを加算して、ユーザの注視位置を取得することを特徴とする請求項４に記載の映像解析装置。
　前記第２光源は、ユーザが観察対象とする映像提示部に取り付けられていることを特徴とする請求項１から５のいずれかに記載の映像解析装置。
　ユーザの頭部の動きと連動して移動する第１光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第２光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得し、当該映像中におけるふたつの反射光の相対位置をもとにユーザの頭部の動きを推定することをプロセッサに実行させることを特徴とする映像解析方法。
　ユーザの頭部の動きと連動して移動する第１光源とユーザが観察対象とする映像提示部に対して相対位置が不変な第２光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する機能と、
　取得した映像中におけるふたつの反射光の相対位置を、ユーザの頭部の動きベクトルの推定値に変換する機能とをコンピュータに実現させることを特徴とするプログラム。
　ユーザのいずれか一方の眼球を撮像する撮像素子であって、ユーザの頭部の動きと連動して移動する頭部装着型撮像素子と、
　前記撮像素子が撮像する眼球に光を照射する光源であって、前記撮像素子の動きと連動して移動する第１光源と、
　ユーザが観察対象とする映像提示部と、
　前記撮像素子が撮像する眼球に光を照射する光源であって、前記映像提示部に取り付けられた第２光源と、
　前記撮像素子が撮像する映像中における前記第１光源の反射光に対する前記第２光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部と、
　前記撮像素子が撮像する映像中における前記第１光源の反射光の絶対位置を、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、
　推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部と、
　前記注視位置取得部が取得した注視位置と対応する前記映像提示部の表示領域における位置に表示させるカーソル画像を生成するカーソル生成部とを含むことを特徴とする注視点表示システム。