JPWO2018155026A1

JPWO2018155026A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JPWO2018155026A1
Application number: JP2019501119A
Authority: JP
Inventors: 真里斎藤; 賢次杉原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-02-27
Filing date: 2018-01-19
Publication date: 2019-12-19
Anticipated expiration: 2038-01-19
Also published as: WO2018155026A1; EP3588494B1; JP7092108B2; KR20190121758A; US20200013401A1; EP3588494A1; CN110326300B; EP3588494A4; US11205426B2; CN110326300A

Abstract

本技術の一形態に係る情報処理装置は、ユーザ情報取得部と、オブジェクト情報取得部と、出力制御部とを具備する。前記ユーザ情報取得部は、ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得する。オブジェクト情報取得部は、前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得する。出力制御部は、前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う。

Description

本技術は、コンテンツの再生制御に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

特許文献１には、カクテルパーティ効果を利用したタグ情報の提供について開示されている。ユーザが携帯端末のスピーカに耳をかざすと、携帯端末は、周囲の位置に対応付けられているタグ情報を同時に音声出力する。人間は、様々な雑音が存在する状況においても、自分が興味のあるワードや会話は自然と聞き分けることができる（カクテルパーティ効果）。従って、同時に出力されたタグ情報の中から、自分が興味のあるタグ情報を迅速に選択し、そのタグ情報の詳細情報を取得することが可能である（特許文献１の明細書段落［００２７］〜［００２９］［００５０］〜［００５２］図３、９等）。

特開２０１３−１０１２４８号公報

このような人間の特性を利用した情報の提供方法のように、人間に対して効率よく情報を提供することを可能とする技術が求められている。例えばコンテンツの再生制御についても、コンテンツの内容を効率よく提供可能であることが望ましい。

以上のような事情に鑑み、本技術の目的は、コンテンツの内容を効率よく提供することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、ユーザ情報取得部と、オブジェクト情報取得部と、出力制御部とを具備する。
前記ユーザ情報取得部は、ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得する。
オブジェクト情報取得部は、前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得する。
出力制御部は、前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う。

この情報処理装置では、ユーザの注視位置に関する情報、コンテンツを再生する音源の位置情報、及びユーザに注視されている第１オブジェクトの位置情報がそれぞれ取得される。そして第１オブジェクト内にある注視位置が音源に向かって移動した場合、上記の第１出力制御が実行される。これにより例えばユーザのリアクション等に応じた再生制御が可能となり、コンテンツの内容を効率よく提供することが可能となる。

本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得することを含む。
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とが取得される。
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御が行われる。

本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得するステップ。
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得するステップ。
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行うステップ。

以上のように、本技術によれば、コンテンツの内容を効率よく提供することが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

一実施形態に係るコンテンツ提供システムの構成例を示す模式図である。本実施形態に係る情報処理装置として機能するＰＣ（Personal Computer）の機能的な構成例を示すブロック図である。コンテンツの出力制御の基本的な処理例を示すフローチャートである。コンテンツに対する興味の度合いの増加を判定するための処理例を示すフローチャートである。注視位置の移動先が音源であるか否かを判定するための一例を説明するための模式図である。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。第１及び第２の領域の設定例を説明するための模式図である。人間の視野特性を説明するための模式図である。第１及び第２の領域の他の設定例を説明するための模式図である。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。コンテンツの再生制御の他の処理例を示すフローチャートである。段階的な出力制御の他の処理例を示すフローチャートである。ユーザのコンテンツに対する興味の度合いの増加に応じて実行される第１出力制御の他の例を説明するための図である。本技術に係るヘッドマウントディスプレイの構成例を示す斜視図である。本技術に係るヘッドマウントディスプレイの構成例を示す斜視図である。第１出力制御としての表示部の制御例について説明するための図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

［コンテンツ提供システムの構成］
図１は、本技術の一実施形態に係るコンテンツ提供システムの構成例を示す模式図である。図２は、本実施形態に係る情報処理装置として機能するＰＣ（Personal Computer）の機能的な構成例を示すブロック図である。

図１に示すように、コンテンツ提供システム１００は、ユーザ１に使用されるＰＣ１０と、コンテンツを再生する音源として機能するテレビ装置３０とを含む。ＰＣ１０は、ユーザ１が作業を行う対象のデバイスであり、本実施形態において、ユーザ１に注視される第１オブジェクトに相当する。

図２に示すように、ＰＣ１０は、通信部１１、記憶部１２、表示部１３、操作部１４、撮像部１５、外部Ｉ／Ｆ（インタフェース）１６、マイク１７、スピーカ１８、及びコントローラ１９を有する。

通信部１１は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して他のデバイスと通信するための通信モジュールである。Bluetooth（登録商標）等の近距離無線通信用の通信モジュールが備えられてもよい。またモデムやルータ等の通信機器が用いられてもよい。

本実施形態では、ＰＣ１０は、通信部１１を介して、ネットワーク３上の種々のサーバ装置５と通信可能に接続される。サーバ装置５としては、例えば種々のＷｅｂサービスを提供するＷｅｂサーバや、メールサーバ等の任意の種類のサーバ装置が含まれる。

例えば通信部１１を介して、ＬＩＮＥ（登録商標）やＴｗｉｔｔｅｒ（登録商標）等のＳＮＳ（Social Networking Service）、Ｓｋｙｐｅ（登録商標）等のメッセンジャサービス等を提供するサーバ装置５に接続可能である。ユーザ１は、ＰＣ１０を介して、これらのサービス（アプリケーション）を利用することが可能である。その他、ＡＲ（Augmented Reality：拡張現実感）やＶＲ（Virtual Reality：仮想現実）等によるコミュニケーションを実現するサービスやニュース配信サービス等の、種々のＷｅｂサービスを利用することが可能である。

記憶部１２は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ、その他の固体メモリである。

記憶部１２には、ＰＣ１０の全体の動作を制御するための制御プログラム、本技術に係る情報処理方法を実行するためのアプリケーションプログラムや種々のデータが記憶される。アプリケーションプログラム等をＰＣ１０にインストールする方法は限定されない。例えば、種々の記録媒体やネットワーク等を介した任意の方法で、インストールが実行されてよい。

表示部１３は、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた表示デバイスである。操作部１４は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部１４がタッチパネルを含む場合、そのタッチパネルは表示部１３と一体となり得る。

撮像部１５は、ＰＣ１０を使用するユーザ１の顔や上半身等を撮影することが可能である。撮像部１５としては、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）やＣＣＤ（Charge Coupled Devices）センサ等のイメージセンサを備えるデジタルカメラが用いられる。

外部Ｉ／Ｆ１６は、例えばＵＳＢやＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等の規格に基づいて、外部機器と接続するためのインタフェースである。マイク１７は、ユーザ１から発せられる音声を集音することが可能である。スピーカ１８は、音声を出力することが可能である。

コントローラ１９は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のコンピュータの構成に必要なハードウェアを有する。ＣＰＵが記憶部１２に記憶されている制御プログラムをＲＡＭにロードして実行することにより、種々の処理が実行される。

コントローラ１９の具体的な構成は限定されず、例えばＦＰＧＡ（Field Programmable Gate Array）、画像処理ＩＣ（Integrated Circuit）、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

本実施形態では、コントローラ１９のＣＰＵが本実施形態に係るプログラムを実行することで、機能ブロックとしてコンテンツ分析部２１、出力音声制御部２２、音源制御部２３、視線検出部２４、動作検出部２５、及び音声判定部２６が実現される。各機能ブロックを実現するために、専用のハードウェアが適宜用いられてもよい。

図１に示すように、音源として機能するテレビ装置３０は、表示部３１と、模式的に図示されたスピーカ３２とを有する。本実施形態では、ＰＣ１０の音源制御部２３により、テレビ装置３０の表示部３１やスピーカ３２の各々の動作が制御される。

例えばＰＣ１０及びテレビ装置３０間に、通信部１１を介してネットワーク通信や近距離無線通信が確立され制御信号が送信される。又は、外部Ｉ／Ｆ３８を介して、有線／無線により制御信号が送信されてもよい。その他、赤外線（ＩＲ）通信等の任意の通信方法が用いられてよい。

（ユーザ情報の取得）
本実施形態では、ＰＣ１０により、ユーザ１に関する種々のユーザ情報が取得される。例えばユーザ情報として、ユーザ１の注視位置Ｅに関する情報が含まれる。注視位置Ｅに関する情報とは、ユーザ１の注視位置Ｅを検出又は推定することが可能な情報であり、典型的には、ユーザ１の視線方向の情報である。もちろん視線方向の情報に限定されず、他の情報が注視位置Ｅに関する情報として取得されてよい。また注視位置Ｅ自体の情報が、注視位置Ｅに関する情報として取得されてもよい。

本実施形態では視線検出部２４により、撮像部１５で撮影されたユーザ１の画像に基づいて、ユーザ１の視線方向が検出される。そしてユーザ１の注視位置Ｅが推定される。例えばユーザ１の眼球の画像に基づいて視線方向が検出されてもよいし、ユーザ１の頭（顔）の向きに基づいて視線方向が検出されてもよい。その他、任意のアルゴリズムが採用されてよく、ディープラーニング等の機械学習が用いられてもよい。本実施形態では、撮像部１５及び視線検出部２４は、ユーザ情報取得部として機能する。

なおＰＣ１０とは異なるデバイス等により、ユーザ１の注視位置Ｅに関する情報が生成され、通信部１１や外部Ｉ／Ｆ１６を介して、ＰＣ１０に送信されてもよい。例えばテレビ装置３０側にカメラが設置され、当該カメラの撮影画像に基づいてユーザ１の視線方向等の情報が検出される。検出された視線方向等の情報が、注視位置Ｅに関する情報として、通信部１１等を介してＰＣ１０に送信されてもよい。この場合、注視位置Ｅに関する情報を受信する通信部１１等が、ユーザ情報取得部として機能する。

また本実施形態では、ユーザ情報として、注視位置Ｅに関する情報とは異なるユーザ１の行動に関する情報が取得される。ユーザ１の行動に関する情報とは、ユーザ１の動作量に関する情報を含み、ユーザ１の動作量が小さい場合には、ユーザ１の行動の情報量は小さくなる。またユーザ１の動作量が大きい場合には、ユーザ１の行動の情報量は大きくなる。

例えば動作検出部２５により、撮像部１５で撮影されたユーザ１の画像に基づいて、ユーザ１の表情、姿勢、顔（頭）の動作、手の動作等が検出される。そして姿勢や手の動作の変化等に基づいて、ユーザ１の行動に関する情報が生成される。

例えば表情が変化した、上半身が動いている、顔（頭）が左右に揺れている、両手でＰＣ１０のキーボード（操作部１４）を操作している場合等においては、ユーザ１の行動に関する情報の情報量は大きくなる。一方、上半身の動きが止まった、顔（頭）の動きが止まった、両手の動きが止まった場合等においては、ユーザ１の行動に関する情報の情報量は小さくなる。

なおユーザ１がどのような行動を行っているかの具体的な情報、すなわち「両手でＰＣ１０のキーボード（操作部１４）を操作している」、「両手の動きが止まった」等の情報が、ユーザ１の行動に関する情報に含まれてもよい。ユーザ１の行動に関する情報は、例えば機械学習を用いた行動解析等の任意の技術により取得可能である。動作検出部２５は、ユーザ情報取得部として機能する。

またユーザ１の撮影画像が用いられる場合に限定されず、ユーザ１が操作するＰＣ１０への操作の有無、及びその操作量に基づいて、ユーザ１の行動に関する情報が生成されてもよい。例えばキーボードへの操作量、マウスの動き量等に基づいて、ユーザ１の行動に関する情報が生成されてもよい。さらにＰＣ１０とは異なるデバイスによりユーザ１の行動に関する情報が生成され、ＰＣ１０に送信されてもよい。この場合、通信部１１等がユーザ情報取得部として機能する。

また本実施形態では、ユーザ情報として、ユーザ１の音声に関する情報が取得される。ユーザ１の音声に関する情報は、例えばマイク１７により集音されるユーザ１の音声、及び当該音声に関する種々の情報を含む。

本実施形態では、音声判定部２６により、ユーザ１の音声が言語的音声か否かが判定される。言語的音声とは、意味のある言語を構成する音声であり、例えば機械学習等を利用した任意の音声解析技術を用いることで判定を実行することが可能である。

本実施形態では、ユーザ１が言語的音声か否かの判定結果が、ユーザ１の音声に関する情報に含まれる。またユーザ１が言語的音声ではないという判定結果が、非言語的音声に関する情報に相当する。例えばユーザ１から意味のある言語を構成しない、「お！」「ん？」等の非言語的音声が発せられるとする。そうすると音声判定部２６により、ユーザ１の音声は言語的音声ではないと判定される。当該判定結果が得られることは、非言語的音声に関する情報が取得されることに相当する。もちろん音声判定部２６により、ユーザ１の音声が非言語的音声であるか否かが判定されてもよい。

また例えばＰＣ１０に、音声による入力に用いられる言語が予め登録されており、マイク１７に集音された音声が、登録された言語を構成する音声であるか否かが判定されてもよい。この場合、ユーザ１の音声が、音声入力用に登録された言語を構成しない場合は、無意味な非言語的音声として処理されてもよい。すなわちユーザ１の音声が、音声入力用の登録言語の音声ではないという判定結果が、非言語的音声に関する情報として扱われてもよい。

（オブジェクト情報の取得）
また本実施形態では、ＰＣ１０により、オブジェクト情報が取得される。オブジェクト情報は、ユーザ１が位置する空間２に存在するテレビ装置３０に関する位置情報、第１オブジェクトであるＰＣ１０に関する位置情報、及び空間２に存在する音源とは異なる第２オブジェクトに関する位置情報を含む。

音源とは異なる第２オブジェクトは、典型的には、ユーザ１が注視する可能性のあるオブジェクトであり、注目度を有するオブジェクトと言える。図１に示す例では、第２オブジェクトとして時計４０が図示されている。これに限定されず、カレンダー、固定電話、本棚等が第２オブジェクトとして挙げられる。また家族やペット等の人や動物も、第２オブジェクトとして挙げられる。空間２内に存在する第２オブジェクトの数は限定されない。

本実施形態では、テレビ装置３０に関する位置情報として、基準位置情報と、境界位置情報とが取得される。基準位置情報は、テレビ装置３０の所定の基準点の位置情報である。基準点としては、例えばテレビ装置３０の表示部３１の中央や、スピーカ３２の位置等、任意の位置に設定されてよい。本実施形態では、表示部３１の中央に、基準点Ｓ１が設定される（図５参照）。

境界位置情報は、テレビ装置３０の内部と外部との境界の位置情報である。境界位置情報は、典型的には、テレビ装置３０の縁部Ｂ１の位置情報が用いられる（図５参照）。後に図５を参照して説明するように、基準位置情報は、ユーザ１の注視位置Ｅがテレビ装置３０に向かって移動しているのか否かを判定する際に用いられる。境界位置情報は、注視位置Ｅが、テレビ装置３０内にあるのか、テレビ装置３０外にあるのかを判定する際に用いられる。

ＰＣ１０に関する位置情報も同様に、ＰＣ１０の所定の基準点の位置情報である基準位置情報が取得される。またＰＣ１０の内部と外部とを規定するための、境界位置情報が取得される。基準位置情報としては、例えば表示部１３の中央に設定された基準点Ｓ２の位置情報が用いられる。境界位置情報としては、表示部１３等の縁部Ｂ２の位置情報が用いられる（図５参照）。

第２オブジェクトである時計４０に関する位置情報についても、基準位置情報及び境界位置情報が取得される。例えば時計４０の中央に設定された基準点Ｓ３の位置情報が基準位置情報として取得され、時計４０の縁部Ｂ３の位置情報が、境界位置情報として取得される（図５参照）。

テレビ装置３０、ＰＣ１０、及び時計４０の各々に関する位置情報を取得する方法は限定されない。例えばＰＣ１０の撮像部１５により空間２全体が撮影され、当該撮影画像に基づいて、ＰＣ１０により各デバイスに関する位置情報が生成されてもよい。この場合、例えばコントローラ１９により実現される位置情報を生成するための機能ブロックが、オブジェクト情報取得部として機能する。

または空間２全体の撮影画像等に基づいて、ＰＣ１０とは異なる他のデバイス、例えば空間２内に配置されたマップ生成装置や、ネットワーク３上のマップ生成用のサーバ装置５等により、各デバイスに関する位置情報が生成されてもよい。この場合、生成された位置情報を受信する通信部１１や外部Ｉ／Ｆ１６が、オブジェクト情報取得部として機能する。また各デバイスに関する位置情報等を生成するためのアルゴリズム等は限定されず、機械学習等を含む任意のアルゴリズムが用いられてよい。

［コンテンツの出力制御］
コンテンツの内容をユーザ１に対して提供する出力制御について説明する。本実施形態では、コンテンツ分析部２１、出力音声制御部２２、及び音源制御部２３により、出力制御部が実現され、コンテンツの出力制御が実行される。

ここでは、図１に模式的に示すように、ユーザ１を含む複数人で構成されたグループによりネットワーク３を介して行われる会話の内容が、テレビ装置３０のスピーカ３２により再生される場合を例に挙げる。ユーザ１は、スピーカ３２から出力されるグループの会話を聞きながらＰＣ１０を用いて作業を行っている。

図３は、コンテンツの出力制御の基本的な処理例を示すフローチャートである。まずテレビ装置３０のスピーカ３２により、第１制御量で会話の内容が自動的に再生される（ステップ１０１）。

本実施形態では、ネットワーク３上のサーバ装置５により、グループ内の会話の内容を含むサービス情報が送信される。サービス情報には、コンテンツに関する種々の情報、例えば会話を行っているグループに関する情報、会話の開始時間、各発言の発話時間、会話のジャンル、盛り上がり度等の種々の情報が含まれる。コンテンツ分析部２１は、サービス情報に基づいて、コンテンツの内容（ここではグループによる会話の内容）や、コンテンツに関する種々の情報を分析して、出力音声制御部２２に出力する。

出力音声制御部２２は、テレビ装置３０のスピーカ３２により出力される音声データに関する制御を実行する。本実施形態では、出力音声制御部２２により、スピーカ３２から再生される音声データが生成される。例えばグループで行われる会話がテキストを入力することが行われる場合には、各会話が音声合成された合成音声データが生成される。例えば任意のテキスト読み上げ（ＴＴＳ：Text-To-Speech）技術が用いられてよい。

グループの会話が音声を入力することで行われる場合に、各会話の音声データがそのまま出力対象となる音声データとして用いられる。もちろん一度テキスト化されて合成音声データが生成されてもよい。

会話の全てが音声として出力される場合に限定されず、所定のキーワード（例：固有名詞、出現頻度の高い単語、強調して発話された単語等）が抽出され、当該キーワードの音声データが生成されてもよい。また会話の内容が適宜要約され、当該要約された音声データが生成されてもよい。キーワード抽出や要約の生成を実現するために、任意のアルゴリズムが用いられてよい。

またグループの各メンバーごとに、音声データの周波数が変えられてもよい。また盛り上がり度に応じて、盛り上がり度を表現するための音声データが生成されてもよい。例えば盛り上がり度が高い場合に、各メンバーの音声が大きく再生される。あるいは背景音（ざわざわ音）等の、会話とは異なる音声が出力されてもよい。その他、コンテンツの内容の再生に関する任意の音声出力が採用されてよく、それに応じた音声データへの制御が実行される。

音源制御部２３は、テレビ装置３０のスピーカ３２を介した音声出力動作を制御する。例えばスピーカ３２から出力される音声の音量や再生速度等が制御される。その他、音声出力に関する種々の制御が可能である。

図３のステップ１０１に示すように、出力音声制御部２２による出力音声の制御、及び音源制御部２３による音声出力動作の制御は、第１制御量にて実行される。ここで「制御量」とは、例えば音量、再生速度、コンテンツの内容の情報量、及び再生タイミング等の、コンテンツの再生に関する種々の制御に関する制御量を含む。

音量及び再生速度は、再生されるコンテンツの再生音量及び再生速度である。コンテンツの内容の情報量は、ユーザ１に提供する内容の情報量である。例えばコンテンツの内容からキーワードを抽出して再生する場合には、キーワード量が情報量に相当する。またコンテンツの内容を要約して再生する場合に、その要約の情報量が相当する。要約の情報量が高いほど、コンテンツの内容の詳細度が高い要約となる。

第１制御量は、例えばＰＣ１０を使用するユーザ１の作業を邪魔しない程度であり、カクテルパーティ効果により、興味のあるキーワード等を拾える程度に設定される。具体的な音量、情報量、及び再生速度等は限定されず、適宜設定されてよい。

図３に示すように、テレビ装置３０により第１制御量でコンテンツの内容が自動再生されている間に、ユーザ１のコンテンツに対する興味の度合いが増加したかどうかが判定される（ステップ１０２）。本実施形態では、当該判定ステップは、視線検出部２４、動作検出部２５、及び音声判定部２６の各々からの検出結果等に基づいて、出力音声制御部２２により実行される。

ユーザ１のコンテンツに対する興味の度合いが増加しない場合は（ステップ１０２のＮｏ）、ステップ１０１に戻り、第１制御量でのコンテンツの再生が継続される。ユーザ１のコンテンツに対する興味の度合いが増加した場合には（ステップ１０２のＹｅｓ）、第２制御量でコンテンツの内容をユーザ１に対して提供する第１出力制御が実行される。すなわち「制御量」が第１制御量から第２制御量に変更され、第２制御量でコンテンツが再生される（ステップ１０３）。

第１出力制御の際に設定される第２制御量は、例えばユーザ１のコンテンツに対する興味の度合いの増加に応じて、コンテンツの内容をより詳細に提供可能なように設定される。なお、第１制御量と第２制御量の間の大小関係は、制御パラメータに応じて異なる。例えば、制御パラメータが再生音量である場合、第２制御量は第１制御量よりも大きい値となる。制御パラメータが再生速度である場合、第２制御量は第１制御量よりも小さい値となる。従って、例えば第１出力制御の際に再生速度と再生音量を同時に制御する場合、再生音量の第１制御量と第２制御量の大小関係と、再生速度の第１制御量と第２制御量の大小関係は異なる。もちろん、第１出力制御において、１種類の制御パラメータが用いられてもよく、２種類以上の制御パラメータの組み合わせが用いられてもよい。

例えば音源の再生音量は大きく設定される。従ってスピーカ３２からは音量が増加されてコンテンツの内容が再生される。再生速度は、低く設定される。例えば第１制御量による再生時に早送り再生等が実行されている場合には、通常の再生速度でコンテンツの内容が再生される（例えば１．３〜２．０倍速再生→１．０倍速）。もちろんこれに限定される訳ではない。

また再生されるコンテンツの内容の情報量は大きく設定される。例えばキーワードが抽出されて再生される場合には、再生するキーワード量が増加される。またコンテンツの内容が要約されて再生される場合には、第１制御量で再生される要約よりも詳細なコンテンツの内容が再生される。例えばより詳細な要約が再生されてもよいし、コンテンツの内容が要約されることなく、そのまま再生されてもよい。

例えばカクテルパーティ効果等により、ユーザ１の興味のあるキーワードが耳に入り、コンテンツの対する興味の度合いが増加したとする。本実施形態では、ＰＣ１０により当該興味の度合いの増加が検出され、第２制御量による第１出力制御が実行される。これによりユーザ１は興味のあるキーワードが含まれた会話の内容の詳細を容易に把握することが可能となる。

なおユーザ１のコンテンツに対する興味の度合い増加が検出された場合に、その検出タイミングの直前に再生されていたコンテンツの内容の少なくとも一部が再生されてもよい。例えばコンテンツの内容が所定の時間だけ巻き戻されて再生されてもよい。これによりユーザ１は、興味をひかれた会話の内容をさかのぼって確認することが可能となる。その他、興味の度合いの増加を検出したタイミングを基準として、第１出力制御として、コンテンツの再生タイミングが適宜制御されてよい。

ユーザ１のコンテンツに対する興味の度合いの増加を判定する方法としては、種々の方法が挙げられる。例えば、興味のあるキーワードに対するユーザ１の瞬間的なリアクションが検出される。例えば音源の方を向く、ふと顔を上げる、「お！」と声を上げる、作業を中断する、体が固まる等、種々のリアクションが考えられ、これらを検出することで興味の度合いの増加を判定することが可能である。

図４は、コンテンツに対する興味の度合いの増加を判定するための処理例を示すフローチャートである。ステップ２０１にて第１制御量でコンテンツが再生されている間に、第１オブジェクトであるＰＣ１０内にある注視位置Ｅが移動したか否かが判定される（ステップ２０２）。

注視位置ＥがＰＣ１０内にあるか否かは、ＰＣ１０の境界位置情報を参照することで判定可能である。注視位置Ｅの移動がない場合には（ステップ２０２のＮｏ）、ステップ２０１に戻り、第１制御量でのコンテンツの再生が継続される。

ＰＣ１０内にある注視位置Ｅが移動した場合（ステップ２０２のＹｅｓ）、その移動先が音源であるテレビ装置３０であるか否かが判定される（ステップ２０３）。移動先がテレビ装置３０ではない場合は（ステップ２０３のＮｏ）、ステップ２０１に戻り、第１制御量でのコンテンツの再生が継続される。

移動先がテレビ装置３０である場合には（ステップ２０３のＹｅｓ）、第１制御量から第２制御量に変更されて第１出力制御が実行される（ステップ２０４）。すなわち本例では、ＰＣ１０内にある注視位置Ｅがテレビ装置３０に向かって移動した場合に、コンテンツに対する興味の度合いが増加したとして、第１出力制御が実行される。

図５は、注視位置Ｅの移動先が音源であるか否かを判定するための一例を説明するための模式図である。例えば図５に示すように、ＰＣ１０（第１オブジェクト）、テレビ装置３０（音源）、及び時計４０（第２オブジェクト）が配置されているとする。そして各デバイスに関する位置情報（基準位置情報、境界位置情報）が記憶されているとする。

注視位置Ｅの移動先は、注視位置Ｅの移動方向に基づいて判定可能である。例えば移動前の注視位置Ｅ１とテレビ装置３０の基準位置Ｓ１とを結ぶ直線Ｌ１が算出され、当該直線Ｌ１の方向が注視位置Ｅ１からテレビ装置３０への方向として設定される。もちろん基準位置Ｓ１以外の点が用いられてもよい。

また移動前の注視位置Ｅ１と時計４０とを結ぶ直線Ｌ２が算出され、当該直線Ｌ２の方向が注視位置Ｅ１から時計４０への方向として設定される。そして移動前の注視位置Ｅ１から移動後の注視位置Ｅ２を結ぶ注視位置Ｅの移動方向（符号Ｌ３）が、注視位置Ｅ１からテレビ装置３０への方向、及び注視位置Ｅ１から時計４０への方向のいずれに近いかが判定される。具体的には、直線Ｌ１及びＬ２の各々と、注視位置Ｅの移動方向（符号Ｌ３）との角度が算出される。そして角度が小さい方の直線により表される方向が、注視位置Ｅの移動方向に近い方向として判定される。

図５に示す例では、注視位置Ｅの移動方向は、注視位置Ｅ１と時計４０とを結ぶ直線Ｌ２に近い。この場合、注視位置Ｅはテレビ装置３０ではなくむしろ時計４０に向かって移動していると判定される。従ってステップ２０３はＮｏとなり、第１制御量でのコンテンツの再生が継続される。

このように注視位置Ｅの移動先が、テレビ装置３０であるか時計４０であるかが判定すされる。これにより注視位置Ｅは一見テレビ装置３０に向かっているが、実際にはユーザ１は時計４０を見ようしており、ユーザ１は音源に対して反応を示したわけでないといったことが判定可能である。すなわちコンテンツに対する興味の度合いの増加の有無を、高い精度で判定することが可能となる。

図６は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図６に示すように、注視位置Ｅの移動先が音源である場合に（ステップ３０３のＹｅｓ）、注視位置Ｅが第１オブジェクであるＰＣ１０の外に移動したか否かが判定されてもよい（ステップ３０４）。注視位置ＥがＰＣ１０の外に移動しない場合には（ステップ３０４のＮｏ）、第１制御量でのコンテンツの再生が継続される（ステップ３０１）。注視位置ＥがＰＣ１０の外に移動した場合には（ステップ３０４のＹｅｓ）、第２制御量による第１出力制御が実行される（ステップ３０５）。

このように注視位置Ｅがテレビ装置３０に向かって移動しつつＰＣ１０の外に注視位置Ｅが移動した場合に第１出力制御が行われ、注視位置Ｅがテレビ装置３０に向かって移動しつつＰＣ１０内に注視位置Ｅが留まった場合は第１出力制御が行われなくてもよい。

例えばＰＣ１０を使用するユーザ１の作業中に、表示部１３内で視線（注視位置Ｅ）が行き来する場合が考えられる。図６に示す処理を実行することで、作業内における表示部１３上の視線の移動を、コンテンツに対する興味の度合いの増加と区別して判定することが可能となる。この結果、第１出力制御を非常に高い精度で実行することが可能となる。

図７は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図７に示す例では、注視位置Ｅの移動先が音源である場合に（ステップ４０３のＹｅｓ）、移動直後に注視位置Ｅが実質的に停留したか否かが判定される（ステップ４０４）。注視位置Ｅが実質的に停留するとは、注視位置Ｅが同じ位置に完全に留まる場合と、注視位置Ｅが所定の狭い範囲内に留まる場合の両方を含む。

移動直後に注視位置Ｅが実質的に停留していない場合、すなわち注視位置Ｅの移動が継続している場合は（ステップ４０４のＮｏ）、第１制御量でのコンテンツの再生が継続される（ステップ４０１）。注視位置Ｅが実質的に停留した場合は（ステップ４０４のＹｅｓ）、第２制御量による第１出力制御が実行される（ステップ４０５）。

このように、注視位置Ｅがテレビ装置３０に向かって移動した直後に注視位置Ｅが実質的に停留した場合に第１出力制御が行われ、注視位置Ｅがテレビ装置３０に向かって移動を継続している間は前記第１出力制御が行われなくてもよい。これにより、例えば興味のあるキーワード等に対する瞬間的なリアクションであるか、他のオブジェクトへの視線の変更であるか、といったことを判定することが可能となる。すなわちコンテンツに対する興味の度合いの増加を精度よく判定することが可能となる。

図８は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図９〜図１１は、図８に示す処理例を説明するための模式図である。

図８に示す例では、注視位置Ｅが第２領域Ｒ２（図９参照）内からテレビ装置３０に向かって移動した場合に、第１出力制御が実行される（ステップ５０２のＹＥＳ、ステップ５０３のＹｅｓ、ステップ５０４）。

本処理を実行するために、図９に示すように、テレビ装置３０（音源）を囲む第１領域Ｒ１が設定される。例えばテレビ装置３０の縁部ｂ１を基準として所定の幅分の大きさの領域が、第１領域Ｒ１として設定される。縁部Ｂ１からの幅の大きさは、全て同じ大きさに設定されてもよいし、縁部Ｂ１の各々にて異なる幅が設定されてもよい。

第２領域Ｒ２は、第１領域Ｒ１の外側に設定される。すなわち図８に示す例では、テレビ装置３０を見ていない状態からテレビ装置３０に向けて視線（注視位置Ｅ）を移動させる動作を検出することで、ユーザ１のコンテンツに対する興味の度合いの増加が判定される。

このようにテレビ装置３０の周囲に第１領域Ｒ１を設定し、その外側を第２領域Ｒ２とすることで、テレビ装置３０への視線の変化を精度よく検出することが可能である。すなわちコンテンツに対して興味が増加したことを精度よく検出することが可能となる。

なお図８に示す処理では、移動前の注視位置ＥがＰＣ１０内であるか否かにかかわらず、ステップ５０２及び５０３が実行される。すなわち図９に示す符号Ｌ４及びＬ５の注視位置Ｅの移動の両方ともが、第１出力制御が実行される条件を満たしている。もちろん注視位置ＥがＰＣ１０内かつ第２の領域Ｒ２内であり、そこから注視位置Ｅがテレビ装置３０に向かって移動した場合に、第１出力制御が実行されてもよい。

図１０に模式的に示すように、人間の視野は、中心視野ＣＦと周辺視野ＰＦとに分類可能である。中心視野ＣＦは、中心視ＣＶを中心としたユーザ１により直視されている領域であり、対象物を十分に認識することが可能な領域である。典型的には、中心視野ＣＦの中心である中心視ＣＶの位置が、注視位置Ｅに相当する。周辺視野ＰＦは、中心視野ＣＦの周囲の領域であり、対象物を漠然と認識することができる領域である。

このような人間の視野特性に基づいて、第１領域Ｒ１の幅を設定することが可能である。具体的には、ユーザ１の視点を基準として、中心視野ＣＦの半径に基づいて、第１領域Ｒ１の幅を設定することが可能である。ユーザ１の視点を基準とした中心視野ＣＦの半径は、例えばＰＣ１０からテレビ装置３０までの距離（ユーザ１から音源までの距離）等に基づいて算出される。あるいは予め定まった値が、中心視野ＣＦの半径として用いられてもよい。また中心視野ＣＦは典型的には楕円形状となる。本開示において、「中心視野の半径」は、水平方向や上下方向等の一方向における半径や、各方向における半径の最大値や平均値等、種々の値を含む。

例えば第１領域Ｒ１の水平方向の幅を、中心視野ＣＦの半径の最大値（典型的には、水平方向における半径）の２分の１以上の大きさに設定する。第１領域Ｒ１の上下方向の幅を、中心視野ＣＦの上下方向における半径の２分の１以上の値に設定される。

これにより中心視野ＣＦがテレビ装置３０に重なる状態では、注視位置Ｅ（中心視ＣＶ）が第１領域Ｒに含まれることになる。すなわち注視位置Ｅが第２領域Ｒ２内にありつつ、中心視野ＣＦがテレビ装置３０と重なるという状態が排除される。この結果、第２領域Ｒ２を、ユーザ１がテレビ装置３０を直視していない領域として定義することが可能となる。この結果、テレビ装置３０を見ていない状態からテレビ装置３０に向けて視線を移動させる動作を高い精度で検出することが可能となる。またユーザ１がテレビ装置３０を直視する前に、第２制御量による第１出力制御を開始することが可能である。

また図９に示すように、ユーザ１の視野特性を鑑み、第１領域Ｒ１の上下方向の幅を、左右方向の幅よりも小さく設定される。これにより視線の移動による興味の度合いの増加を高精度に判定することが可能となる。またユーザの視野の主な移動方向である水平方向における視線の移動にともなう判定精度が向上される。

図１１に示すように、ユーザ１の視点を基準として、第１オブジェクトであるＰＣ１０と音源であるテレビ装置３０とがオーバーラップする場合もあり得る。この場合、オーバーラップしている部分については、ＰＣ１０の縁部Ｂ３を基準として、第１領域Ｒ１が設定されてもよい。これにより、オーバーラップしている部分においてテレビ装置３０への注視位置Ｅの移動が、コンテンツに対する興味度の増加であるか否かを精度よく検出することが可能となる。

例えばコンテンツに対する興味の度合いの増加を判定するために、注視位置ＥがＰＣ１０内にある場合は、ＰＣ１０内からテレビ装置３０に向かう注視位置Ｅの移動の有無が判定される。注視位置ＥがＰＣ１０の外にある場合には、第２領域Ｒ２からテレビ装置３０に向かう注視位置Ｅの移動の有無が判定される。このような処理を実行する場合には、オーバーラップする部分においては、第１領域Ｒ１は設定されなくてもよい。

図１２は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図１２に示す例では、注視位置Ｅが第２の領域Ｒ２内に位置するときの、注視位置Ｅとテレビ装置３０の間の距離の変化に基づいて、コンテンツに対する興味の度合いの増加が判定される。具体的には、注視位置Ｅとテレビ装置３０の間の距離が減少と増加を繰り返した場合、コンテンツに対する興味の度合いが増加したと判定され、第１出力制御が実行される（ステップ６０２のＹＥＳ、ステップ６０３のＹｅｓ、ステップ６０４）。

この判定は、興味を有するキーワード等が耳に入った場合に、テレビ装置３０の方向をちらちら見るという動作に基づいて実行される処理である。例えばコンテンツに興味を引かれながらも、ＰＣ１０等により作業をしている場合に、テレビ装置３０の方をちらちら見るといった動作が行われ得る。テレビ装置３０が中心視野ＣＦと重なるまで視線を動かす場合もあれば、作業中の注視位置Ｅを若干テレビ装置３０に向けて移動させ、また戻すといった、狭い範囲での注視位置Ｅの移動もあり得る。このような動作を検出することで、興味の度合いの増加を高精度に検出することが可能となる。

なお注視位置Ｅとテレビ装置３０との間の距離は、テレビ装置３０の基準位置Ｓ１に基づいて算出されてもよい。あるいは縁部Ｂ１に基づいて算出されてもよい。また減少と増加の繰り返しの有無を判定するための周期等も適宜設定されてよい。

図１３は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図１３に示す例では、動作検出部２５により取得されたユーザ１の行動に関する情報に基づいて、ユーザ１の行動の情報量が所定の閾値以下であるか否かが判定される（ステップ７０２）。当該処理は、ユーザ１の行動に関する情報に基づいて、ユーザ１の動作量が所定の閾値以下であるか否かを判定することと見做すこともできる。

ユーザ１の行動の情報量が閾値以下でない場合は（ステップ７０２のＮｏ）、ステップ７０１に戻り、第１制御量でのコンテンツの再生が継続される。ユーザ１の行動の情報量が閾値以下となる場合（ステップ７０２のＹｅｓ）、情報量が閾値以下となったときを基準として所定時間が経過したかが判定される（ステップ７０３）。

所定時間が経過している場合は（ステップ７０３のＹｅｓ）、ステップ７０１に戻り、第１制御量でのコンテンツの再生が継続される。所定の時間が経過していない場合（ステップ７０３のＮｏ）、注視位置Ｅがテレビ装置３０に向かって移動したか否かが判定される（ステップ７０４）。注視位置Ｅがテレビ装置３０に向かって移動していない場合は（ステップ７０４のＮｏ）、ステップ７０１に戻り、第１制御量でのコンテンツの再生が継続される。注視位置Ｅがテレビ装置３０に向かって移動した場合は、第２制御量による第１出力制御が実行される（ステップ７０５）。

このように本例では、ユーザ１の行動の情報量が所定値以下となったときを基準とした所定時間以内の間に、注視位置Ｅがテレビ装置３０に向かって移動した場合に第１出力制御が実行され、ユーザ１の行動の情報量が所定値より大きい場合は第１出力制御が実行されない。

これにより興味を有するキーワード等が耳に入ったときに作業を中断して、視線をテレビ装置３０の方に向けるといったユーザ１のリアクションを高精度に検出することが可能となり、第１出力制御を精度よく実行することが可能となる。

なお図１３に示す処理は、視線移動後に動作が停止するケース、及び視線移動前に動作が停止するケースの両方を検出可能である。従ってこれら両方のケースが発生した場合には、コンテンツに対する興味の度合いが増加されたとして第１出力制御が実行される。

なおステップ７０２の情報量に関する閾値は適宜設定されてよい。またステップ７０３の所定時間も任意に設定されてよく、例えば視線移動と動作の停止との間に関連性があると見做せる程度の時間が設定される。これによりコンテンツに対する興味の度合いの増加を精度よく判定することが可能となる。

図１４は、コンテンツに対する興味の度合いの増加を判定するための他の処理例を示すフローチャートである。図１４に示す例では、注視位置Ｅがテレビ装置３０に向かって移動したか否かが判定される（ステップ８０２）。注視位置Ｅが移動していない場合（ステップ８０２のＮｏ）、ステップ８０１に戻り、第１制御量でのコンテンツの再生が継続される。

注視位置Ｅが移動した場合（ステップ８０２のＹｅｓ）、注視位置Ｅが移動中にマイク１７を介して音声が取得されたか否かが判定される（ステップ８０３）。音声が取得されない場合は（ステップ８０３のＮｏ）、ステップ８０１に戻り、第１制御量でのコンテンツの再生が継続される。注視位置Ｅの移動中に音声が取得された場合は（ステップ８０３のＹｅｓ）、その音声が言語的音声か否かが判定される（ステップ８０４）。

取得された音声が言語的音声である場合は、ステップ８０１に戻り、第１制御量でのコンテンツの再生が継続される。音声が言語的音声でない場合は、非言語的音声が発せられたとして、第２制御量による第１出力制御が実行される（ステップ８０５）。

ステップ８０４における、取得された音声は言語的音声ではないという判定結果は、非言語的音声に関する情報に相当する。すなわちステップ８０４は、非言語的音声に関する情報の取得の有無の判定と見做すことができる。非言語的音声に関する情報が取得されない場合には、第１制御量でのコンテンツの再生が継続される。非言語的音声に関する情報が取得される場合には、第２制御量による第１出力制御が実行される。

上記したように、ステップ８０４にて、取得された音声が、音声入力用の登録言語の音声ではないという判定され場合に、非言語的音声に関する情報が取得されたとして、第２制御量による第１出力制御が実行されてもよい。

このように図１４に示す例では、注視位置Ｅがテレビ装置３０に向かって移動している間に非言語的音声に関する情報が取得された場合に第１出力制御が実行され、注視位置Ｅがテレビ装置３０に向かって移動している間に非言語的音声に関する情報が取得されない場合には第１出力制御が実行されない。

これにより興味を有するワードが耳に入ったときに思わず「お！」「ん？」等の声をもらすといったユーザ１のリアクションを高精度に検出することが可能となり、コンテンツの内容を効率よく提供することが可能となる。

ユーザ１のコンテンツに対する興味の度合いの増加を判定するための処理は、上記したものに限定されず、任意に設定されてよい。例えば上記した各フローチャート内の各ステップが、任意に組み合わされて実行されてもよい。また各フローチャート内の各ステップが、単独で、コンテンツに対する興味の度合いの増加を判定する処理として実行されてもよい。例えば図１３のステップ７０２の行動の情報量に関する判定ステップや、図１４のステップ８０４の言語的音声／非言語的音声に関する判定ステップが、単独で、コンテンツに対する興味の度合いの増加を判定するための処理として実行されてもよい。その他、任意の処理が実行されてよい。

図１５は、コンテンツの再生制御の他の処理例を示すフローチャートである。図１５に示すように、ステップ９０３の第１出力制御の実行後に、コンテンツに対する興味の度合いの変化に基づいて、制御量が変更されてもよい。

例えば第１出力制御の実行後に、コンテンツに対する興味の度合いが変化したか否かが判定される（ステップ９０４）。興味の度合いの変化が検出されない場合は（ステップ９０４のＮｏ）、ステップ９０１に戻り、第１制御量でのコンテンツが再生される。すなわち制御量が、第２制御量から第１制御量に戻される。

興味の度合いの変化が検出された場合（ステップ９０４のＹｅｓ）、当該変化が増加であるか否かが判定される（ステップ９０５）。興味の度合いの変化が減少である場合（ステップ９０５のＮｏ）、ステップ９０１に戻り、第１制御量にてコンテンツが再生される。興味の度合いの変化が増加である場合（ステップ９０５のＹｅｓ）、制御量が増加され、当該増加された制御量でコンテンツの内容をユーザ１に対して提供する増加出力制御が実行される（ステップ９０６）。

その後、コンテンツに対する興味の度合いが減少した場合（ステップ９０７のＹｅｓ）、ステップ９０１に戻り、第１制御量にてコンテンツが再生される。興味の度合いが減少しない場合（ステップ９０７のＮｏ）、ユーザ１がテレビ装置３０を直接注視しているか否かが判定される（ステップ９０８）。例えば注視位置Ｅがテレビ装置３０内に移動した場合に、テレビ装置３０が注視されていると判定される。あるいは図１０に示す中心視野ＣＦがテレビ装置３０が重なった場合に、テレビ装置３０が注視されていると判定されてもよい。

テレビ装置３０が注視されていない場合は（ステップ９０８のＮｏ）、ステップ９０６に戻り、増加された制御量による増加出力制御が継続される。テレビ装置３０が注視されている場合には、テレビ装置３０の直接制御が開始される（ステップ９０９）。テレビ装置３０の直接制御は、典型的には、コンテンツの内容の提供とは異なる出力制御である。例えば提供するコンテンツの切替えや、テレビ装置３０の再生モードの切替え、電源制御等が実行される。その他、視線による入力を利用した種々の制御が組み合わされてもよく、周知の制御が実行されてもよい。

なおステップ９０８に変えて、テレビ装置３０を注視している注視時間が所定の閾値以上であるか否かが判定されてもよい。そして注視時間が閾値以上である場合、すなわちユーザ１が所定時間以上テレビ装置３０を注視している場合に、テレビ装置３０の直接制御が開始されてもよい。

図１５の再生制御の具体例としては、ステップ９０２にて、注視位置Ｅが第２領域Ｒ２内から移動したかが判定され、判定の結果が肯定の場合には、第１出力制御が実行される（ステップ９０３）。ステップ９０４にて、注視位置Ｅがテレビ装置３０に向かって移動している場合に、コンテンツの度合いが変化したと判定される。ステップ９０５にて、注視位置Ｅが第１領域Ｒ１内に移動した場合に、興味の度合いの変化は増加であると判定される。そして増加された制御量にて増加出力制御が実行される（ステップ９０６）。この場合、増加された制御量は第５制御量に相当し、増加出力制御は第４出力制御に相当する。第２の制御量は、第１制御量と第５制御量の間の値となる。

ステップ９０７にて、第１領域Ｒ１内にて注視位置Ｅがテレビ装置３０に向かって移動している場合に、興味の度合いは減少しない（増加している）と判定される。そして注視位置Ｅがテレビ装置３０上に移動した場合に、テレビ装置３０の直接制御が開始される（ステップ９０９）。

このようにコンテンツに対する興味の度合いに応じてコンテンツの内容をユーザ１に対して提供する出力制御が、各々異なる制御量にて段階的に実行されてもよい。これによりユーザ１のリアクション等に応じたコンテンツの再生制御を精度よく実行することが可能となり、コンテンツの内容を効率よく提供することが可能となる。

ステップ９０２、９０４、９０５、及び９０７等の、ユーザ１のコンテンツに対する興味の度合いを判定するための具体的な処理方法は限定されず、任意に設定されてよい。例え上記で説明した各フローチャートの各ステップの処理や、これらの任意の組み合わせ等が適宜用いられてよい。

図１６は、段階的な出力制御の他の処理例を示すフローチャートである。図１６に示すように、第１出力制御の実行前に、第１制御量及び第２制御量の間の値である中間制御量でコンテンツの内容をユーザに対して提供する中間出力制御が実行されてもよい。

第１制御量でコンテンツが再生されている間に、ユーザ１のコンテンツに対する興味の度合いが変化したか否かが判定される（ステップ１００２）。興味の度合いの変化が検出されない場合は（ステップ１００２のＮｏ）、ステップ１００１に戻り、第１制御量でのコンテンツの再生が継続される。

興味の度合いの変化が検出された場合（ステップ１００２のＹｅｓ）、当該変化が増加であるか否かが判定される（ステップ１００３）。興味の度合いの変化が減少である場合（ステップ１００３のＮｏ）、ステップ１００１に戻り、第１制御量でのコンテンツの再生が継続される。興味の度合いの変化が増加である場合（ステップ１００３のＹｅｓ）、中間制御量による中間出力制御が実行される（ステップ１００４）。

その後、コンテンツに対する興味の度合いが減少した場合（ステップ１００５のＹｅｓ）、ステップ１００１に戻り、第１制御量でコンテンツが再生される。すなわち制御量が、中間制御量から第１制御量に戻される。興味の度合いが減少していない場合（ステップ１００５のＮｏ）、コンテンツに対する興味の度合いが増加したかが判定され、増加したと判定された場合は第２制御量よる第１出力制御が実行される（ステップ１００６のＹｅｓ、ステップ１００７）。

第１出力制御後にコンテンツに対する興味の度合いが減少した場合（ステップ１００８のＹｅｓ）、ステップ１００１に戻り、第１制御量でのコンテンツが再生される。すなわち制御量が、第２制御量から第１制御量に戻される。興味の度合いが減少しない場合（ステップ１００８のＮｏ）、ユーザ１がテレビ装置３０を直接注視しているか否かが判定される（ステップ１００９）。テレビ装置３０が注視されている場合には（ステップ１００９のＹｅｓ）、テレビ装置３０の直接制御が開始される（ステップ１０１０）。

例えばユーザ１の行動の情報量が所定値より大きい状態で注視位置Ｅがテレビ装置３０に向かって移動した場合、中間制御量による中間出力制御が実行される。この場合、中間制御量は第３制御量に相当し、中間出力制御は第２出力制御に相当する。

そして注視位置Ｅの移動が継続されている状態で、ユーザ１の行動の情報量が所定値以下となった場合に、さらにコンテンツに対する興味の度合いが増加したとして、第２制御量による第１出力制御が実行される。このような段階的な出力制御により、視線のみが移動した場合にまず中間出力制御が実行され、ユーザ１の動作の停止にともなって第１出力制御が実行可能となる。この結果、コンテンツの内容を効率的に提供すること可能となる。

また例えば、注視位置Ｅがテレビ装置３０に向かって移動している間に非言語的音声に関する情報が取得されていない場合、中間制御量による中間出力制御が実行される。この場合、中間制御量は第４制御量に相当し、中間出力制御は第３出力制御に相当する。なお第４制御量は上記の第３制御量と同じ値であってもよいし、異なる値であってもよい。

そして注視位置Ｅの移動が継続されている状態で、非源語的音声に関する情報が取得された場合に、さらにコンテンツに対する興味の度合いが増加したとして、第２制御量による第１出力制御が実行される。このような段階的な出力制御により、視線のみが移動した場合にまず中間出力制御が実行され、「お！」「ん？」等の非言語的音声のリアクションにともなって第１出力制御が実行可能となる。この結果、コンテンツの内容を効率的に提供すること可能となる。

ステップ１００２、１００３、１００５、１００６及び１００７等の、ユーザ１のコンテンツに対する興味の度合いを判定するための具体的な処理方法は限定されず、任意に設定されてよい。例え上記で説明した各フローチャートの各ステップの処理や、これらの任意の組み合わせ等が適宜用いられてよい。

例えばユーザ１の音声及び動作を同時に判定して、複数のモーダルで興味の度合いが複数段階で判定されてもよい。もちろん複数のモーダルをディープラーニング等により解析し、ユーザ１の意図推定に用いられる各モーダルの重み付けが適宜制御／変更されてもよい。

図１７は、ユーザ１のコンテンツに対する興味の度合いの増加に応じて実行される第１出力制御の他の例を説明するための図である。例えばユーザ１の視界内にある表示部を制御することで、第１出力制御が実行されてもよい。図１７に示す例では、音源として機能するテレビ装置３０の表示部３１が制御されるが、音源として機能するデバイスとは異なる表示デバイスが、表示部として制御されてもよい。

図１７に示すように、例えばテレビ装置３０からコンテンツの内容としてキーワードが再生されている場合に、「お台場」というキーワードに対するユーザ１の反応が検出されたとする。この場合、お台場で行われるイベント等の、「お台場」に関するコンテンツの見出し５０が表示される。これによりユーザ１は、興味のあるキーワードに関するコンテンツの内容を詳細に把握することが可能となる。

またコンテンツの内容の再生履歴の少なくとも一部が表示するように、表示部を制御することで、第１出力制御が実行されてもよい。例えばユーザ１の反応が検出されたキーワードやタイミング等に応じて、表示対象となる再生履歴が選択され、表示部に表示される。これにより過去に再生されたコンテンツの内容を把握することが可能となる。なお再生履歴として、過去に再生された内容がそのまま再生されてもよいし、要約が再生されてもよい。

その他、表示部の具体的な制御方法は限定されず、コンテンツの詳細等をユーザ１に提供可能な任意の制御が実行されてよい。例えば図１７に示すように、コンテンツの内容に関連する表示が、ユーザ１の注視位置Ｅにて行われるように、表示部３１が制御されてもよい。これによりコンテンツに関する情報を自然に注視することが可能となる。

以上、本実施形態に係るコンテンツ提供システムでは、ユーザ１の注視位置Ｅに関する情報、コンテンツを再生するテレビ装置３０の位置情報、及びユーザ１に注視されているＰＣ１０の位置情報がそれぞれ取得される。そしてＰＣ１０内にある注視位置Ｅがテレビ装置３０に向かって移動した場合、第２制御量による第１出力制御が実行される。これにより例えばユーザ１のリアクション等に応じた再生制御が可能となり、コンテンツの内容を効率よく提供することが可能となる。

作業中である場合等では、例えばグループが構成されて会話が始まった旨の視覚的な通知がＰＣ１０等の表示部１３に表示されたとしても、当該通知に気付かない場合が多い。一方で、会話等の開始に応じて、その会話の内容を全て通知しようとすると、その時にユーザ１にとって興味がひかれるものであるかどうかが分からない。従ってユーザ１にとって煩わしいものとなり、作業を邪魔してしまう場合も考えられる。

本実施形態では、例えばユーザ１の作業を邪魔しない程度であり、カクテルパーティ効果により興味のあるキーワード等を拾える程度の第１制御量にて、コンテンツが再生される。そしてユーザ１のコンテンツに対する興味の度合いの増加に応じて、制御量が増加された第２の制御量による第１出力制御が実行される。これによりユーザ１が興味をもつコンテンツの内容の詳細等を、適当なタイミングでユーザ１に提供することが可能となる。またユーザ１にとっても、自分が興味をもつ内容が会話されているタイミングでグループの会話に参加することが可能となり、コミュニケーションを楽しむことが可能となる。

また図１５及び図１６に示すように、異なる制御量による段階的な出力制御が可能であるので、例えば一度ユーザ１がコンテンツに対して反応した後に、再び作業に戻るといった場合に、制御量を小さい値に戻すといった柔軟な処理が可能である。

なおグループによる会話に限定されず、チャットでの会話、メールの自動読み上げ、ニュースの自動読み上げ、再生中の動画の音声等、任意のコンテンツに対して、本技術は適用可能である。

＜その他の実施形態＞
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

図１８及び図１９は、本技術に係る情報処理装置として使用可能なヘッドマウントディスプレイ（ＨＭＤ）の構成例を示す斜視図である。

図１８に示すＨＭＤ２００は、透過型のディスプレイを備えたメガネ型の装置であり、ユーザ１の頭部に装着されて使用される。ＨＭＤ２００は、左右のレンズ２０１Ｌ及び２０１Ｒ、左眼用ディスプレイ２０２Ｌ及び右眼用ディスプレイ２０２Ｒ、左眼用カメラ２０３Ｌ及び右眼用カメラ２０３Ｒ、及びセンサ部２０４を有する。

左右のレンズ２０１Ｌ及び２０１Ｒは、ユーザの左眼及び右眼の前方にそれぞれ配置される。左眼用及び右眼用ディスプレイ２０２Ｌ及び２０２Ｒは、ユーザ１の視野を覆うように、左右のレンズ２０１Ｌ及び２０１Ｒにそれぞれ設けられる。

左眼用及び右眼用ディスプレイ２０２Ｌ及び２０２Ｒは、透過型のディスプレイであり、左眼及び右眼用の画像等がそれぞれ表示される。ＨＭＤ２００を装着するユーザ１は、現実の景色を視認すると同時に、各ディスプレイに表示される画像を視認することが可能となる。これにより、ユーザは拡張現実感（ＡＲ）等を体験することが可能となる。

なお、左眼用及び右眼用ディスプレイ２０２Ｌ及び２０２Ｒの外側（ユーザ１の眼とは反対の側）に、調光素子（図示省略）等が設けられてもよい。調光素子は、当該素子を透過する光の量を調節可能な素子である。調光素子を設けることで、例えば各ディスプレイを透過してユーザに視認される現実の景色を規制し、各ディスプレイに表示される画像を強調してユーザに視認させることが可能である。これにより、ユーザは仮想現実（ＶＲ）等を体験することが可能となる。

左眼用及び右眼用ディスプレイ２０２Ｌ及び２０２Ｒとしては、例えば透過型の有機ＥＬディスプレイやＬＣＤ（Liquid Crystal Display、液晶表示素子）ディスプレイ等が用いられる。また調光素子としては、例えば透過率を電気的に制御可能な調光ガラス、調光シート、及び液晶シャッター等が用いられる。

左眼用及び右眼用カメラ２０３Ｌ及び２０３Ｒは、ユーザの左眼及び右眼を撮像可能な任意の位置に設けられる。例えば左眼用及び右眼用カメラ２０３Ｌ及び２０３Ｒにより撮影された左眼及び右眼の画像に基づいて、視線方向等の注視位置Ｅに関する情報が取得される。

左眼用及び右眼用カメラ２０３Ｌ及び２０３Ｒとしては、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線ＬＥＤ等の赤外線照明を搭載した赤外線カメラが用いられてもよい。

センサ部２０４は、例えば加速度センサ、ジャイロセンサ及び地磁気センサ（９軸センサ）等を含み、ユーザ１の動きや姿勢（走行、歩行、停止等）を含む、上記したユーザ１の行動に関する情報を取得する。センサ部２０４により検出されるユーザ１の頭（顔）の向きに基づいて視線方向等の注視位置Ｅに関する情報が取得されてもよい。その他、センサ部２０４として、心拍センサ、発汗センサ、温度（体温）センサ、脳波センサ等の、ユーザ１の生体情報を取得可能なセンサが備えられてもよい。そしてユーザ１の生体情報の変化等に基づいて、ユーザ１のコンテンツに対する興味の度合いの増加等が検出されてもよい。

図１９Ａは、ＨＭＤ３００の外観を模式的に示す斜視図である。図１９Ｂは、ＨＭＤ３００を分解した様子を模式的に示す斜視図である。ＨＭＤ３００は、ユーザ１の頭部に装着されるマウント部３０１と、ユーザ１の両眼の前方に配置されるディスプレイユニット３０２と、ディスプレイユニット３０２を覆うように構成されるカバー部３０３とを含む。ＨＭＤ３００は、ユーザの視野を覆うように構成された没入型のヘッドマウントディスプレイであり、仮想現実（ＶＲ）用のＨＭＤとして用いられる。

図１に例示するＰＣ１０に代えて、図１８及び図１９に例示するＨＭＤ２００及び３００により、本技術に係るコンテンツ提供システムが実現されてもよい。例えばＨＭＤ２００を装着し、音源として機能するテレビ装置３０を含むＡＲ空間内にて、ユーザ１のコンテンツに対する興味の度合いの増加等に応じたコンテンツの出力制御が実行されてもよい。またＨＭＤ３００を装着することで体験可能なＶＲ空間内にて、ユーザ１のコンテンツに対する興味の度合いの増加等に応じたコンテンツの出力制御が実行されてもよい。この場合、ＶＲ空間内にコンテンツを再生する音源が設けられ、ＨＭＤ３００に備えられたスピーカ等により、コンテンツが再生される。すなわち本技術において「ユーザがいる空間」とは、実空間及び仮想空間の両方を含む。

図２０は、第１出力制御としての表示部の制御例について説明するための図である。例えばＨＭＤ２００や３００等が装着される場合には、コンテンツの内容に関連する表示を、ＡＲ空間やＶＲ空間内において、自由に制御することが可能である。例えば図２０に示すように、コンテンツの内容の見出し５０等を、注視位置Ｅとテレビ装置３０との間に配置することも可能である。すなわちユーザ１の視線に合わせてコンテンツに関連する表示を移動させることが可能であり、視線の先、または視線が移動する先に表示することも可能である。これによりコンテンツに関する情報を自然に注視することが可能となる。

第１制御量によりコンテンツの再生方法として、複数のコンテンツが同じタイミングで再生されてもよい。例えば複数のグループによる各々の会話が同じタイミングで再生される。この場合、各グループの会話が区別しやすいように、所定の時間で区切って、各グループの会話を順番に再生してもよい。例えばグループＡ〜Ｄの各々が存在する場合に、２分ごとにグループＡからＤまで順番に会話を再生する等である。

例えばマルチチャンネル再生等が可能な音源が用いられる場合には、複数のコンテンツの各々が、互いに異なるチャンネルから再生されてもよい。また複数のコンテンツの各々が、音量、音質、定位等が異なるように再生されてもよい。これにより複数のコンテンツの内容を、効率よくユーザ１に提供することが可能となる。

第１制御量によるコンテンツの再生、第２制御量による第１出力制御、中間制御量による中間出力制御、増加された制御量による増加出力制御として、任意の出力制御が適宜設定されてよい。

上記ではユーザ１により操作されるＰＣ１０、ＨＭＤ２００及び３００等のコンピュータにより、本技術に係る情報処理方法が実行される場合を説明した。しかしながらユーザ１が操作するコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。またユーザ１が操作するコンピュータと、他のコンピュータとが連動して、本技術に係るコンテンツ提供システムが構築されてもよい。

すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばユーザ情報の取得、各位置情報の取得、各制御量によるコンテンツの出力制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

なお、本技術は以下のような構成も採ることができる。
（１）ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得するユーザ情報取得部と、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得するオブジェクト情報取得部と、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う出力制御部と
を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
前記オブジェクト情報取得部は、前記空間に存在する前記音源とは異なる第２オブジェクトに関する位置情報を取得し、
前記出力制御部は、前記注視位置が前記音源ではなくむしろ前記第２オブジェクトに向かって移動している場合、前記第１出力制御を行わない
情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動しつつ前記第１オブジェクトの外に前記注視位置が移動した場合に前記第１出力制御を行い、前記注視位置が前記音源に向かって移動しつつ前記第１オブジェクト内に前記注視位置が留まった場合は前記第１出力制御を行わない
情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記注視位置が、前記音源を囲む第１領域の外側にある第２領域内から前記音源に向かって移動した場合、前記第１出力制御を行う
情報処理装置。
（５）（４）に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記第２領域内に位置するとき前記注視位置と前記音源の間の距離が減少と増加を繰り返した場合、前記第１出力制御を行う
情報処理装置。
（６）（４）又は（５）に記載の情報処理装置であって、
前記ユーザの視点を基準として、前記音源を囲む第１領域の幅が、前記ユーザの中心視野の半径の２分の１以上である
情報処理装置。
（７）（１）から（６）のうちいずれか１つに記載の情報処理装置であって、
前記ユーザ情報取得部は、前記注視位置に関する情報とは異なる前記ユーザの行動に関する情報を取得し、
前記出力制御部は、前記ユーザの行動の情報量が所定値以下となったときを基準とした所定時間以内の間に、前記注視位置が前記音源に向かって移動した場合に前記第１出力制御を行い、前記ユーザの行動の情報量が所定値より大きい場合は前記第１出力制御を行わない
情報処理装置。
（８）（７）に記載の情報処理装置であって、
前記出力制御部は、前記ユーザの行動の情報量が所定値より大きい状態で前記注視位置が前記音源に向かって移動した場合、前記第１制御量及び前記第２制御量の間の値である第３制御量で前記コンテンツの内容を前記ユーザに対して提供する第２出力制御を行う
情報処理装置。
（９）（１）から（８）のうちいずれか１つに記載の情報処理装置であって、
前記ユーザ情報取得部は、前記ユーザの音声に関する情報を取得し、
前記出力制御部は、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得した場合に前記第１出力制御を行い、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得していない場合は前記第１出力制御を行わない
情報処理装置。
（１０）（９）に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得していない場合、前記第１制御量及び前記第２制御量の間の値である第４制御量で前記コンテンツの内容を前記ユーザに対して提供する第３出力制御を行う
情報処理装置。
（１１）（１）から（１０）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記音源を制御することで前記第１出力制御を行う
情報処理装置。
（１２）（１１）に記載の情報処理装置であって、
前記第１制御量及び前記第２制御量は、少なくとも前記音源の音量に関連し、
前記出力制御部は、前記音源の音量を増加させることで前記第１出力制御を行う
情報処理装置。
（１３）（１１）又は（１２）に記載の情報処理装置であって、
前記第１制御量及び前記第２制御量は、少なくとも前記再生されるコンテンツの内容の情報量に関連する
情報処理装置。
（１４）（１３）に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動する直前に再生されていた前記コンテンツの内容の少なくとも一部を再生することで前記第１出力制御を行う
情報処理装置。
（１５）（１３）又は（１４）に記載の情報処理装置であって、
前記出力制御部は、前記音源が前記コンテンツの内容からキーワードを抽出して再生している場合、再生するキーワード量を増加させることで前記第１出力制御を行う
情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記ユーザの視界内にある表示部を制御することで前記第１出力制御を行う
情報処理装置。
（１７）（１６）に記載の情報処理装置であって、
前記出力制御部は、前記コンテンツの内容の再生履歴の少なくとも一部を表示するよう前記表示部を制御することで前記第１出力制御を行う
情報処理装置。
（１８）（１６）又は（１７）に記載の情報処理装置であって、
前記出力制御部は、再生中の前記コンテンツの内容の見出しを表示するよう前記表示部を制御することで前記第１出力制御を行う
情報処理装置。
（１９）
ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得し、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得し、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う
ことをコンピュータシステムが実行する情報処理方法。
（２０）
ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得するステップと、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得するステップと、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行うステップと
をコンピュータシステムに実行させるプログラム。
（２１）（１）から（１８）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動した直後に前記注視位置が実質的に停留した場合に前記第１出力制御を行い、前記注視位置が前記音源に向かって移動を継続している間は前記第１出力制御を行わない
情報処理装置。
（２２）（４）から（６）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記第１領域内に移動した場合、前記第１制御量及び前記第２制御量とは異なる第５制御量で前記コンテンツの内容を前記ユーザに対して提供する第４出力制御を行い、
前記第２制御量は、前記第１制御量と前記第５制御量の間の値である
情報処理装置。
（２３）（４）から（７）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源上に移動した場合、前記コンテンツの内容の提供とは異なる出力制御を行う
情報処理装置。
（２４）（１）から（１８）のうちいずれか１つに記載の情報処理装置であって、
前記第１制御量及び前記第２制御量は、前記コンテンツの内容の再生速度に関連し、
前記出力制御部は、前記コンテンツの内容の再生速度を減少させることで前記第１出力制御を行う
情報処理装置。
（２５）（１３）から（１５）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記音源が前記コンテンツの内容の要約を再生している場合、前記要約よりも詳細な前記コンテンツの内容を再生することで前記第１出力制御を行う
情報処理装置。
（２６）（１６）から（１８）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記コンテンツの内容に関連する表示を前記注視位置又は前記注視位置と前記音源との間に配置するよう前記表示部を制御することで前記第１出力制御を行う
情報処理装置。

注視位置…Ｅ
Ｒ１…第１領域
Ｒ２…第２領域
２…空間
１０…ＰＣ
２１…コンテンツ分析部
２２…出力音声制御部
２３…音源制御部
２４…視線検出部
２５…動作検出部
２６…音声判定部
３０…テレビ装置
３１…表示部
３２…スピーカ
４０…時計
１００…コンテンツ提供システム
２００、３００…ＨＭＤ

Claims

ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得するユーザ情報取得部と、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得するオブジェクト情報取得部と、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う出力制御部と
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記オブジェクト情報取得部は、前記空間に存在する前記音源とは異なる第２オブジェクトに関する位置情報を取得し、
前記出力制御部は、前記注視位置が前記音源ではなくむしろ前記第２オブジェクトに向かって移動している場合、前記第１出力制御を行わない
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動しつつ前記第１オブジェクトの外に前記注視位置が移動した場合に前記第１出力制御を行い、前記注視位置が前記音源に向かって移動しつつ前記第１オブジェクト内に前記注視位置が留まった場合は前記第１出力制御を行わない
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が、前記音源を囲む第１領域の外側にある第２領域内から前記音源に向かって移動した場合、前記第１出力制御を行う
情報処理装置。
請求項４に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記第２領域内に位置するとき前記注視位置と前記音源の間の距離が減少と増加を繰り返した場合、前記第１出力制御を行う
情報処理装置。
請求項４に記載の情報処理装置であって、
前記ユーザの視点を基準として、前記音源を囲む第１領域の幅が、前記ユーザの中心視野の半径の２分の１以上である
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ユーザ情報取得部は、前記注視位置に関する情報とは異なる前記ユーザの行動に関する情報を取得し、
前記出力制御部は、前記ユーザの行動の情報量が所定値以下となったときを基準とした所定時間以内の間に、前記注視位置が前記音源に向かって移動した場合に前記第１出力制御を行い、前記ユーザの行動の情報量が所定値より大きい場合は前記第１出力制御を行わない
情報処理装置。
請求項７に記載の情報処理装置であって、
前記出力制御部は、前記ユーザの行動の情報量が所定値より大きい状態で前記注視位置が前記音源に向かって移動した場合、前記第１制御量及び前記第２制御量の間の値である第３制御量で前記コンテンツの内容を前記ユーザに対して提供する第２出力制御を行う
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ユーザ情報取得部は、前記ユーザの音声に関する情報を取得し、
前記出力制御部は、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得した場合に前記第１出力制御を行い、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得していない場合は前記第１出力制御を行わない
情報処理装置。
請求項９に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動している間に前記ユーザ情報取得部が前記ユーザの非言語的音声に関する情報を取得していない場合、前記第１制御量及び前記第２制御量の間の値である第４制御量で前記コンテンツの内容を前記ユーザに対して提供する第３出力制御を行う
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記音源を制御することで前記第１出力制御を行う
情報処理装置。
請求項１１に記載の情報処理装置であって、
前記第１制御量及び前記第２制御量は、少なくとも前記音源の音量に関連し、
前記出力制御部は、前記音源の音量を増加させることで前記第１出力制御を行う
情報処理装置。
請求項１１に記載の情報処理装置であって、
前記第１制御量及び前記第２制御量は、少なくとも前記再生されるコンテンツの内容の情報量に関連する
情報処理装置。
請求項１３に記載の情報処理装置であって、
前記出力制御部は、前記注視位置が前記音源に向かって移動する直前に再生されていた前記コンテンツの内容の少なくとも一部を再生することで前記第１出力制御を行う
情報処理装置。
請求項１３に記載の情報処理装置であって、
前記出力制御部は、前記音源が前記コンテンツの内容からキーワードを抽出して再生している場合、再生するキーワード量を増加させることで前記第１出力制御を行う
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記ユーザの視界内にある表示部を制御することで前記第１出力制御を行う
情報処理装置。
請求項１６に記載の情報処理装置であって、
前記出力制御部は、前記コンテンツの内容の再生履歴の少なくとも一部を表示するよう前記表示部を制御することで前記第１出力制御を行う
情報処理装置。
請求項１６に記載の情報処理装置であって、
前記出力制御部は、再生中の前記コンテンツの内容の見出しを表示するよう前記表示部を制御することで前記第１出力制御を行う
情報処理装置。
ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得し、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得し、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行う
ことをコンピュータシステムが実行する情報処理方法。
ユーザがいる空間に存在する音源から第１制御量でコンテンツの内容が自動的に再生されている間の前記ユーザの注視位置に関する情報を取得するステップと、
前記音源に関する位置情報と、前記ユーザに注視されている第１オブジェクトに関する位置情報とを取得するステップと、
前記第１オブジェクト内にある前記注視位置が前記音源に向かって移動した場合、前記第１制御量とは異なる第２制御量で前記コンテンツの内容を前記ユーザに対して提供する第１出力制御を行うステップと
をコンピュータシステムに実行させるプログラム。