JPWO2020158440A1

JPWO2020158440A1 - 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体

Info

Publication number: JPWO2020158440A1
Application number: JP2020569505A
Authority: JP
Inventors: 慧高橋; 康之古賀
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-30
Filing date: 2020-01-17
Publication date: 2021-12-02
Also published as: DE112020000591T5; US20220040577A1; US11826648B2; WO2020158440A1

Abstract

本技術の一形態に係る情報処理装置は、再生制御部を具備する。前記再生制御部は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する。

Description

本技術は、音声ＡＲ（Augmented Reality）等の音声制御に適用可能な情報処理装置、情報処理方法、及びプログラムを記載した記録媒体に関する。

特許文献１に記載の音声出力方法では、カメラで撮影された画像をもとに、プレイヤーの操作するオブジェクトが第１進入領域から第２進入領域に到達するまでの移動時間が計算される。計算された移動時間が参照され、オブジェクトが第２侵入領域に到達するのと実質的に同時にプレイヤーが音声を聴取するように、音声の出力タイミングが調節される。これにより、視覚および聴覚の両方を通してアクションが認識されたことをプレイヤーに知らしめることが図られている（特許文献１の明細書段落［００５２］［００５５］図８、９等）。

特開２００８−１２１０２号公報

このような音声ＡＲ等の音声制御について、高品質な仮想体験を提供することを可能とする技術が求められている。

以上のような事情に鑑み、本技術の目的は、高品質な仮想体験を提供することを可能とする情報処理装置、情報処理方法、及びプログラムを記載した記録媒体を提供することにある。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、再生制御部を具備する。
前記再生制御部は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する。

この情報処理装置では、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、実物体の動きに応じた音声コンテンツの再生が制御される。具体的には、時間情報が所定の時間範囲内である場合には第１の再生方法で音声コンテンツの再生が制御される。時間情報が所定の時間範囲外である場合には第２の再生方法で音声コンテンツの再生が制御される。これにより、高品質な仮想体験を提供することを可能となる。

前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信されてもよい。

前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間であってもよい。

前記第１の再生方法は、前記実物体の動きに応じたアタック音の再生を含んでもよい。この場合、前記第２の再生方法は、前記アタック音の再生を規制してもよい。

前記第２の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含んでもよい。

前記情報処理装置は、さらに、ユーザにより前記実物体が操作されたか否かを判定する第１の判定部を具備してもよい。この場合、前記再生制御部は、前記第１の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。

前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第１の判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。

前記第１の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行してもよい。

前記第１の判定部は、前記ユーザの動きに基づいて、前記判定を実行してもよい。

前記情報処理装置は、さらに、前記実物体に対するユーザの関心度を判定する第２の判定部を具備してもよい。この場合、前記再生制御部は、前記第２の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。

前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第２の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。

前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御してもよい。

前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御してもよい。

前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御してもよい。

前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる１以上のセンサ情報を選択し、選択された前記１以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御してもよい。

前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記１以上のセンサ情報として選択してもよい。

前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定してもよい。

前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御してもよい。

本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御することを含む。

本技術の一形態に係るプログラムが記録された記録媒体は、コンピュータシステムに以下のステップを実行させる。
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御するステップ。

本技術の第１の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。通信端末の構成例を示すブロック図である。音声ＡＲシステムの機能的な構成例を示すブロック図である。実物体の動きが開始してから、音声コンテンツを通信端末で出力するまでに生じる遅延を説明するための模式図である。音声コンテンツの再生の制御例を示すフローチャートである。遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。アタック音とアタック音が規制された音の一例を説明するための模式図である。本実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。本技術の第３の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。通信端末とヘッドフォンとの協働による音声コンテンツの再生制御例を示すフローチャートである。第４の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。関心度に基づいてセンサ情報が規制される制御を示す模式図である。他の実施形態に係るセンサ情報の通信制御を示す模式図である。様々な場面に応じた音声コンテンツの例を示す図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

＜第１の実施形態＞
［音声ＡＲシステム］
図１は、本技術の第１の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。音声ＡＲシステムは、本技術に係る情報処理システムの一実施形態に相当する。

音声ＡＲシステム１００は、ユーザに、聴覚的な拡張現実（ＡＲ：Augmented Reality）体験を提供することが可能である。例えば現実には発生していない仮想的な音声コンテンツを、ユーザが装着するヘッドフォン等から出力する。これによりユーザは、様々な仮想体験を楽しむことが可能となる。

なお本技術の適用が、仮想的な音声コンテンツのみが再生されるＡＲシステムに限定される訳ではない。音声コンテンツに加えて、画像コンテンツや、触覚（ハプティクス）フィードバック等を提供可能なＡＲシステムに対して、本技術を適用可能である。すなわち聴覚的なＡＲ体験のみならず、視覚的なＡＲ体験や触覚的なＡＲ体験を提供可能なＡＲシステムに対しても、本技術は適用可能である。

本実施形態では、図１に示すように、ドア１の開閉に応じた音声ＡＲの提供を例に挙げる。すなわち本実施形態では、実物体及び実物体の動きとして、ドア１の開閉を例に挙げて説明を行う。

もちろん実物体及び実物体の動きは限定されない。例えば、実物体の動きの例として、実物体の開閉、実物体のスライド、実物体の回転動作、実物体の移動等が挙げられる。具体例としては、ぬいぐるみやロボット等を動かす、ボタン、レバー、ハンドル等の操作デバイスを操作する、車等の移動体を操作する、といった例が挙げられる。これ以外にも、実空間とゲーム等のコンテンツが連動している特定の場所のアイテムや水道の蛇口等の実物体の小道具の操作等も挙げられる。種々の実物体及び実物体の動きに応じた仮想的な音声コンテンツの再生に対して、本技術を広く適用することが可能である。

音声ＡＲシステム１００は、ドア１に設置される通信端末２０、ユーザ２に携帯される通信端末４０、及びユーザ２に装着されるヘッドフォン３を含む。通信端末４０は、本技術に係る情報処理装置の一実施形態に相当する。ドア１に設置される通信端末２０は、本技術に係るセンサ装置の一実施形態に相当する。

ユーザ２によりドア１が開けられると、通信端末２０によりドア１の動きがセンシングされ、ドア１の動きに基づいたセンサ情報が生成される。そして通信端末２０により、ドア１の動きに基づいたセンサ情報が通信端末４０へ送信される。

センサ情報は、ドア１の動きに基づいた任意の情報を含む。本実施形態では、ドア１が開かれたイベントを表すイベントＩＤが、センサ情報として用いられる。もちろんドア１が開かれたイベントを表す情報として、イベントＩＤとは異なる情報が用いられてもよい。またセンサ情報として、ドア１が開かれたイベントを表す情報とは異なる情報が用いられてもよい。例えば、通信端末２０が備えるセンサ部２５（図２参照）により、ドア１の動きに基づいて検出される加速度等の生値（検出値）が、センサ情報として用いられてもよい。

通信端末４０は、通信端末２０から送信されたドア１の動きに基づいたセンサ情報に基づいて、ドア１の開く動きに応じた音声コンテンツの再生を制御する。例えばドア１が開く際に実際に発生する音に類似した「ガチャ！」「ギー」というような仮想的な音を含む音声コンテンツの再生が制御される。

もちろんドア１が開く際に実際に発生する音とは異なる音声が、仮想的な音声として再生されてもよい。例えば「ワ！ハ！ハ！ようこそホラーランドへ」等の音声が出力されてもよい。

通信端末４０は、ヘッドフォン３による音声コンテンツの再生を制御する。すなわちユーザ３に装着されたヘッドフォン３から出力される音声が適宜制御される。ヘッドフォン３としては、例えば開放型ヘッドフォンや首掛けヘッドフォン等が用いられる。もちろんこれに限定されず、他の任意の構成を有するヘッドフォンが用いられてもよい。

またスマートウォッチ等のウェアラブルデバイスやスマートフォン等に内蔵されるスピーカが用いられる場合でも、本技術は適用可能である。例えば通信端末４０に内蔵されたスピーカにより、ドア１の動きに応じた音声コンテンツが再生されてもよい。その他、任意の音声出力デバイスに対して、本技術は適用可能である。

また例えば、通信端末４０自体がヘッドフォンとして構成されてもよい。すなわち通信端末４０の機能を搭載するヘッドフォンが、本技術に係る情報処理装置として用いられてもよい。もちろん開放型ヘッドフォンとして構成されてもよい。

また透過型のディスプレイを備えたメガネ型のＨＭＤ（Head Mounted Display）が、本技術に係る情報処理装置として構成されてもよい。この場合、ＨＭＤに搭載されるスピーカ等から様々な音声コンテンツが再生される。また実空間に対して仮想オブジェクトの画像を重畳することで、視覚的なＡＲを体験することも可能となる。これにより高品質な仮想体験が実現される。その他、種々の装置により本技術に係る情報処理装置を実現することが可能である。

なお通信端末２０、通信端末４０、及びヘッドフォン３を通信可能に接続する方法は限定されない。例えばＷｉＦｉ等の無線ＬＡＮ通信や、Bluetooth（登録商標）等の近距離無線通信を利用することが可能である。その他、無線及び有線による任意の接続形態が用いられてもよい。

このような音声ＡＲを提供することで、例えばユーザ２は実物体の操作に応じて、ホラーシーンや山小屋のドア等の仮想的な音を聞くことができる。この結果、ユーザ２は、日常から離れた音声ＡＲ体験を得ることが可能となる。

図２は、通信端末２０及び４０の構成例を示すブロック図である。本実施形態では、説明を簡素化するために、通信端末２０及び４０が互いに等しい構成を有するものとする。もちろんこれに限定されず、通信端末２０及び４０の構成が互いに異なっていてもよい。

通信端末２０及び通信端末４０は、コントローラ２１、スピーカ２２、マイク２３、カメラ２４、及びセンサ部２５を有する。また通信端末２０及び通信端末４０は、表示部２６、操作部２７、Ｉ/Ｆ（インタフェース）部２８、通信部２９、及び記憶部３０を有する。

スピーカ２２は、種々の音を出力可能である。スピーカ２２の具体的な構成は限定されない。

マイク２３は、周辺で発生する音声を取得することが可能である。例えば、通信端末２０のマイク２３は、ドア１の開閉に応じて発生する音声や、周囲の環境音を検出して取得することが可能である。

通信端末４０のマイク２３は、ユーザ２の周囲の環境音や、ユーザ２が発する音声を検出して取得することが可能である。またユーザ２がドア１を操作する場合には、その操作に応じて発生する音声を検出することが可能である。マイク２３の具体的な構成は限定されない。

カメラ２４は、周囲を撮影し周囲の画像（画像データ）を生成することが可能である。例えば通信端末２０のカメラ２４は、ドア１の周囲を撮影することが可能であり、ドア１を操作する人物の顔や全身等を撮影することが可能である。以下、カメラ２４により対象物を撮影し対象物の画像を生成することを、対象物の画像を撮影すると記載する場合がある。

通信端末４０のカメラ２４は、ユーザの周囲の画像を撮影することが可能である。例えば、ユーザ２がドア１を操作する場合には、操作されたドア２の状態を撮影することが可能である。例えばドア１が開けられた状態や、ドア１が閉められた状態が撮影される。

カメラ２４として、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線ＬＥＤ等の赤外線照明を搭載した赤外線カメラが用いられてもよい。

センサ部２５は、９軸センサ３１、及びＧＰＳ３２を含む。９軸センサ３１は、３軸加速度センサ、３軸ジャイロセンサ、及び３軸コンパスセンサを含む。９軸センサ３１により、通信端末２０（４０）の角度、移動、及び向きの変化を検出することが可能である。ＧＰＳ３２は、通信端末２０（４０）の位置情報を出力することが可能である。

例えば通信端末２０のセンサ部２５により、ドア１の動き、姿勢、向き等を検出することが可能である。またＧＰＳ３２により通信端末２０が付随したドア１の位置情報を検出することが可能である。通信端末４０のセンサ部２５により、ユーザ２の動き、姿勢、向き等を検出することが可能である。またユーザ２の位置情報を検出することが可能である。

センサ部２５として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばユーザ２の体温及び脈拍数等を検出可能な生体センサ等が設けられてもよい。また周囲の環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。なお図２に示すマイク２３及びカメラ２４がセンサ部２５として機能してもよい。

表示部２６は、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた表示デバイスであり、種々の画像や種々のＧＵＩ（Graphical User Interface）等が表示される。操作部２７は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部２７がタッチパネルを含む場合、そのタッチパネルは表示部２６と一体となり得る。

Ｉ／Ｆ部２８は、ＵＳＢ（Universal Serial Bus）端子やＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。

通信部２９は、他のデバイスと通信するための通信モジュールであり、例えばＷｉＦｉ等の無線ＬＡＮ（Local Area Network）モジュールや、Bluetooth（登録商標）等の近距離無線通信用の通信モジュールが用いられる。本実施形態では、通信部２９を介して、通信端末２０と通信端末４０との通信が実行される。

コントローラ２１は、通信端末２０及び通信端末４０が有する各ブロックの動作を制御する。コントローラ２１は、例えばＣＰＵ（プロセッサ）、ＲＯＭ、ＲＡＭ、及びＨＤＤ等のコンピュータの構成に必要なハードウェアを有する。ＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラム（例えばアプリケーションプログラム）をＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。

コントローラ２１の具体的な構成は限定されず、例えばＧＰＵ、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等の任意のハードウェアが用いられてもよい。

プログラムは、例えば種々の記録媒体を介して通信端末２０及び通信端末４０にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。もちろん通信端末２０へのプログラムのインストール方法と、通信端末４０へのプログラムのインストール方法が同じである必要はなく、互いに異なる方法が用いられてもよい。

本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。

通信端末２０及び通信端末４０は、例えばスマートフォン、タブレット端末、ウェアラブル装置、センサ装置等により実現することが可能である。もちろんこれに限定されず、任意のコンピュータ装置が用いられてよい。例えば通信端末２０として、ドア１の動きをセンシング可能であり、そのセンサ情報を送信可能な任意の装置が用いられてよい。また通信端末４０として、センサ情報を受信可能であり、受信したセンサ情報に基づいてドア１の動きに応じた音声コンテンツンの再生を制御可能な任意の装置が用いられてよい。

もちろんセンシング機能を有する装置、及び通信機能を有する装置が協働することで、通信端末２０が実現されてもよい。また通信機能を有する装置、及び音声コンテンツの再生を制御する機能を有する装置が協働することで、通信端末４０が実現されてもよい。

以下の説明において、図２に示す各ブロックについて、通信端末２０が有するブロックについては符号に「ａ」を添えて記載する場合がある。また通信端末４０が有するブロックについては符号に「ｂ」を添えて記載する場合がある。例えば通信端末２０が有するスピーカ２２については、「スピーカ２２ａ」と記載する場合がある。通信端末４０が有するスピーカ２２については、「スピーカ２２ｂ」と記載する場合がある。

図３は、音声ＡＲシステム１００の機能的な構成例を示すブロック図である。

本実施形態では、通信端末２０のコントローラ２１ａのＣＰＵ等が、本実施形態に係るプログラムを実行することで、機能ブロックとして動き認識部３４、時間取得部３５、及び通信制御部３６が実現される。各ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。

また、通信端末４０のコントローラ２１ｂのＣＰＵ等が、本実施形態に係るプログラムを実行することで、機能ブロックとして通信制御部５４、情報処理部５５、遅延算出部５６、及び再生制御部５７が実現される。各ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。

動き認識部３４は、通信端末２０のセンサ部２５ａによる検出結果に基づいて、ドア１の動きを認識する。例えば加速度の変化等に基づいて、ドア１の開く動き、ドア１の閉まる動き、動きの速度、等を認識することが可能である。またドア１がノックされたこと等を認識することも可能である。もちろん通信端末２０のカメラ２４ａにより撮影される画像や、マイク２３ａにより取得される音声等に基づいて、ドア１の動きが認識されてもよい。

動き認識部３４は、認識したドア１の動きに応じたイベントＩＤを生成し、通信制御部３６に供給する。例えばドア１が開いた場合はイベントＩＤ「００１」が供給され、ドア１が閉められた場合は、イベントＩＤ「００１」が供給される。ドア１の開く速度に応じて異なるイベントＩＤが生成されてもよい。

ドア１の動きを認識するための具体的な方法は限定されず、任意の技術が用いられてよい。例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、ドア１の動きの認識精度を向上させることが可能となる。

時間取得部３５は、動き認識部３４により認識されたドア１の動きに応じたイベントＩＤを、通信制御部３６が他のデバイス（通信端末４０）に送信する際の時間情報を取得する。時間情報としては、例えばタイムスタンプ等が用いられる。タイムスタンプとして実際の時間情報が用いられてもよいし、共通の基準時間を基準として一意に増加するクロックの情報が用いられてもよい。時間情報を取得する方法は限定されず、任意の方法が採用されてよい。例えば携帯網（ＬＴＥ：Long Term Evolution）等からの時刻が利用されてもよい。

なお、通信端末２０にてイベントＩＤが生成される際のタイムスタンプが、イベントＩＤとともに送信されてもよい。この場合、通信端末２０によりセンサ情報（本実施形態では、イベントＩＤ）が生成された時間から、通信端末２０によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。

通信制御部３６は、通信端末４０との通信を制御する。本実施形態では、通信制御部３６により、図２に示す通信部２９の動作が制御され、種々の情報（データ）を通信端末４０に送信することが可能である。

本実施形態では、通信制御部３６により、ドア１の動きに応じたイベントＩＤ、及びタイムスタンプがセットで通信端末４０に送信される。

上記でも述べたが本実施形態では、動き認識部３４により認識されたドア１の動きに応じたイベントＩＤが、実物体の動きに基づいて生成されるセンサ情報に相当する。もちろんこれに限定されず、他の情報が用いられてもよい。例えば動き認識部３４に入力されるセンサ部２５ａの生値（検出値）等が、センサ情報として通信端末４０に送信されてもよい。そして通信端末４０側で、ドア１の動きの認識が実行されてもよい。

通信端末４０の通信制御部５４は、通信端末２０との通信を制御する。本実施形態では、通信制御部５４により、通信端末４０の通信部２９ｂの動作が制御され、種々の情報（データ）を通信端末２０から受信することが可能である。もちろん通信端末４０から通信端末２０に種々の情報（データ）に送信することも可能である。

通信制御部５４は、通信端末２０から受信したイベントＩＤ及びタイムスタンプを情報処理部５５に供給する。

情報処理部５５は、ユーザ状態検出部６１と、状況検出部６２と、イベント認識部６３と、イベントＤＢ６４と、時間取得部６５と、関心度判定部６６と、ユーザ判定部６７とを有する。

ユーザ状態検出部６１は、通信端末４０のセンサ部２５ｂによる検出結果（センシング結果）、マイク２３ｂにより取得された音声（音声データ）、カメラ２４ｂにより撮影された画像（画像データ）等に基づいて、ユーザ２の状態に関する状態情報を検出することが可能である。

ユーザ２の状態情報として、例えばユーザ２の姿勢、動き、位置、発話内容等のユーザ２に関する種々の情報を検出することが可能である。例えば歩行中、走行中、電車にて移動中、運転中等の情報や運動しているスポーツの種類等の情報が、ユーザ２の状態情報として検出される。またユーザ２のジェスチャーや視線方向等を検出することも可能である。

例えば、ドア１に対する操作、ユーザ２の足音、ユーザ２の発話内容、ドア１を注視しているかどうか、他の人物に対するコミュニケーションの有無等を検出することが可能である。これに限定されず、ユーザ２のあらゆる行動を検出することが可能である。

状況検出部６２は、センサ部２５ｂによる検出結果（センシング結果）、マイク２３ｂにより取得された音声（音声データ）、カメラ２４ｂにより撮影された画像（画像データ）等に基づいて、周囲の状況に関する状況情報を検出することが可能である。例えばユーザ２がいる場所の種類、周囲の環境音、周囲に存在する実物体の種類、実物体とユーザ２との距離、実物体の動き、実物体が発する音声等を検出することが可能である。

例えば、ドア１の動き、ドア１から発せられる音、周囲にいる他の人物の動き、他の人物の発話内容、他の人物の足音、屋内であるか屋外であるか、周囲の明るさ、天候等、種々の状況情報を検出することが可能である。

これら種々のユーザ２の状態情報や周囲の状況情報は、例えば機械学習を用いた行動解析等の、任意の技術により検出可能である。

なお、通信端末２０により取得されたセンシング結果、音声データ、及び画像データが、通信制御部３６及び５４を介して、ユーザ状態検出部６１及び状況検出部６２に入力されてもよい。そして入力された各情報に基づいて、ユーザの状態情報や周囲の状況情報が検出されてもよい。

また通信端末２０にもユーザ状態検出部６１及び状況検出部６２が備えられてもよい。そして通信端末２０により検出されたユーザ２の状態情報や、周囲の状況情報が、通信端末４０に送信されてもよい。

本実施形態において、ユーザの状態情報、及び周囲の状況情報は、検出情報に含まれる。ユーザの状態情報のみが検出される構成や、周囲の状況情報のみが検出される構成が採用されてもよい。またユーザの状態情報と周囲の状況情報とが明確に区分される必要は必ずしもない。ユーザの状態に関する情報、及び周囲の状況に関する情報が包括的に検出情報として検出されてよい。

本実施形態において、ユーザ状態検出部６１、及び状況検出部６２は、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部として機能する。

イベント認識部６３は、通信制御部５４により供給されたイベントＩＤからイベントの内容を認識する。例えば、イベントＤＢ６４に記憶されるイベントＩＤと供給されたイベントＩＤとが一致した場合に、そのイベントが実空間で起きたと認識される。

またイベント認識部６３は、センサ部２５による検出結果（センシング結果）、マイク２３により取得された音声（音声データ）、カメラ２４により撮影された画像（画像データ）等に基づいて、実空間で起きたイベントを認識することも可能である。例えばドア１が開く音に基づいて、ドア１が開いたイベントが認識される。イベント認識部６３を、ユーザ状態検出部６１及び状況検出部６２の一機能として構成することも可能である。

イベントＤＢ６４は、イベントの内容と紐づいたイベントＩＤが記憶される。記憶されるイベントＩＤは限定されない。本実施形態では、コントローラ２１内のＨＤＤ等によりイベントＤＢ６４が構築される。これに限定されず、コントローラ２１の外部に設けられた記憶デバイス等により、イベントＤＢ６４が構築されてもよい。

イベントＤＢ６４に、イベントの順序に関する情報が記憶されてもよい。例えば、弾丸の発射のイベントＩＤと、弾丸が対象物に着弾するイベントＩＤとがある場合、弾丸の発射のイベントの後に、弾丸が着弾するイベントが続く旨の情報が記憶されてもよい。また例えば、イベントＩＤの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定されてもよい。

時間取得部６５は、通信端末２０からイベントＩＤとタイムスタンプとを受信した際の時間情報を取得する。本実施形態では、タイムスタンプが用いられる。すなわちイベントＩＤとタイムスタンプとを受信した際のタイムスタンプが取得される。

関心度判定部６６は、実物体に対するユーザ２の関心度を判定する。関心度は、ユーザ２が実物体に対してどのぐらい注目しているか、又は実物体に対して関わっているかを示すパラメータである。本実施形態では、例えばドア１に対するユーザ２の関心度が判定される。関心度判定部６６による判定については、後に詳しく説明する。

本実施形態において、関心度判定部６６は、第２の判定部として機能する。関心度判定部６６を、ユーザ状態検出部６１及び状況検出部６２の一機能として構成することも可能である。この場合、関心度判定部６６は、取得部としても機能する。

ユーザ判定部６７は、ユーザ２によりドア１が操作されたか否かを判定する。例えば、ユーザ判定部６７は、例えば検出情報として検出されたドア１とユーザ２との距離に基づいて、ユーザ２によりドア１が操作されたか否かを判定する。もちろん他の判定方法が用いられてもよい。

本実施形態において、ユーザ判定部６７は、第１の判定部として機能する。ユーザ判定部６７を、ユーザ状態検出部６１及び状況検出部６２の一機能として構成することも可能である。この場合、ユーザ判定部６７は、取得部としても機能する。

遅延算出部５６は、時間取得部３５及び時間取得部６５から供給される時間情報に基づいて、通信端末２０から送信されるセンサ情報（本実施形態では、イベントＩＤ）が通信端末４０に受信されるまでの遅延量（レイテンシ）を算出する。

本実施形態では、イベントＩＤとともに送信されるタイムスタンプと、イベントＩＤの受信の際のタイムスタンプとにより、遅延量が算出される。すなわち本実施形態では、通信端末２０によりセンサ情報が通信端末４０に送信された時間から、通信端末２０によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。

本実施形態において、遅延量（到達時間）は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に相当する。

再生制御部５７は、イベント認識部６３により認識されたイベントに応じた音声コンテンツの再生を制御する。本実施形態では、遅延量（到達時間）に基づいて、ドア１の動きに応じた音声コンテンツの再生が制御される。

例えば再生制御部５７は、第１の再生制御として、遅延量（到達時間）が所定の時間範囲内であるときに、第１の再生方法でドア１の動きに応じた音声コンテンツの再生を制御する。また第２の再生制御として、遅延量（到達時間）が所定の時間範囲外であるときに、第１の再生方法とは異なる第２の再生方法でドア１の動きに応じた音声コンテンツの再生を制御する。

すなわち再生制御部５７は、算出された遅延量が所定の時間範囲内のときと、所定の時間範囲外であるときとで異なる再生方法で、イベントに応じた音声コンテンツの再生を制御することが可能である。遅延量に応じた再生方法の具体例は後に詳しく説明する。

また再生制御部５７は、ユーザの状態情報及び周囲の状況情報を含む検出情報、関心度判定部６６による判定結果、及びユーザ判定部６７による判定結果に基づいて、音声コンテンツの再生を制御することも可能である。

また再生制御部５７は、イベントＤＢに記憶されたイベントの順序に基づいて、音声コンテンツの再生を制御することも可能である。

なおイベントＩＤが用いられる場合に限定される訳ではなく、イベントＩＤがなくても実物体の動きに応じた音声コンテンツの再生を実行させることも可能である。例えば上記したように、イベントＩＤの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定される構成が採用されるとする。この場合、当該センサ端末や専用線からの信号に基づいて、特定された実物体の動きに応じた音声コンテンツを再生することが可能である。またイベントＩＤに基づいた音声コンテンツの再生と、イベントＩＤを用いない音声コンテンツの再生の両方が実行可能であってもよい。

図４は、実物体の動きが開始してから、音声コンテンツを通信端末４０で出力するまでに生じる遅延を説明するための模式図である。

直線７０は、通信端末２０の時間軸であり、矢印方向に沿って時間が経過する。直線８０は、通信端末４０の時間軸であり、矢印方向に沿って時間が経過する。

星マーク７１は、ドア１の動きがあったタイミングを表現している。ここではドア１が開かれた場合を例に挙げる。ドア１の開く動きに応じて、通信端末２０のセンサ部２５によりセンシング７２が実行される。

図４の処理７３は、動き認識部３４、時間取得部３５、及び通信制御部３６により行われる処理を１つの処理として示す。すなわち、動き認識部３４によりドア１の開きが認識され、ドア１の開きに応じたイベントＩＤが通信制御部３６に供給される。時間取得部３５により、通信制御部３６による送信タイミングのタイムスタンプが取得される。通信制御部３６により、イベントＩＤ及びタイムスタンプが送信される。

図４の通信７５は、イベントＩＤ及びタイムスタンプが通信中であることを表現している。すなわち通信端末２０から送信されたイベントＩＤ及びタイムスタンプが、通信端末４０に到達するまでの通信処理が表現されている。

図４の処理８１は、通信端末４０の通信制御部５４、情報処理部５５、遅延算出部５６、及び再生制御部５７により行われる処理を１つの処理として示す。

本実施形態では、通信制御部５４は、イベントＩＤをイベント認識部６３に供給し、タイムスタンプを時間取得部６５に供給する。イベント認識部６３は、供給されたイベントＩＤに基づいて、ドア１が開かれた旨のイベントを認識する。時間取得部６５は、供給されたタイムスタンプ（処理７３が実行された時間）を受信した際のタイムスタンプ（処理８１が実行された時間）を取得する。

遅延算出部５６は、送信された際のタイムスタンプと受信された際のタイムスタンプから、遅延量を算出する。すなわち、通信７５に掛かる時間が遅延量として算出される。

再生制御部５７は、遅延量とイベントに基づいて、ドア１の動きに応じた再生コンテンツの再生を制御する。これによりユーザ２に装着されたヘッドフォン３から、ドア１の開く動きに応じた音声コンテンツが再生される（図４の再生８２）。

星マーク８３は、ユーザ２が音声コンテンツの音を知覚した時間を示す。図４に示すように、音声コンテンツの再生が開始してから、人間が音を知覚するまでには多少の時間が掛かる。

図４の遅延８５は、ドアが動いた星マーク７１からユーザ２が音を知覚した星マーク８３までの時間を示す。遅延８５の要因として、通信端末２０及び通信端末４０にて実行される処理に掛かる時間や、通信端末２０と通信端末４０との通信７５に掛かる時間（遅延量）等が挙げられる。本実施形態では、通信７５の時間（遅延量）に基づいて、音声コンテンツの再生が制御される。

もちろん通信端末２０及び通信端末４０にて実行される処理に掛かる時間に基づいて、音声コンテンツの再生を制御することも可能である。例えば、無線方式とは異なる他の通信方式が採用される場合等において、通信端末２０及び通信端末４０にて実行される処理に掛かる時間を遅延量として、本技術を適用することも可能である。

遅延量は、通信端末２０及び通信端末４０による無線通信の環境に応じて変化する。例えば、通信端末２０と通信可能な通信端末の数が多い場合、遅延量は大きくなる。また例えば、通信端末２０と通信端末４０との通信量が多い場合も、遅延量は大きくなる。また通信端末２０及び４０の通信部２９の性能等によっても、遅延量は変わってくる。

以下に説明するように、遅延量に応じて音声コンテンツの制御を実行することで、ユーザ２に高品質な仮想体験を提供することが可能となる。すなわち遅延量に応じた高品質な音ＡＲ体験を提供することが可能となる。例えばユーザ２自身の動作やユーザ２が観察した動作に付随する、納得のできる視聴体験を提供することが可能となる。また音と映像のクロスモーダル効果を発揮することも可能となる。

図５は、音声コンテンツの再生の制御例を示すフローチャートである。図６は、遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。図６Ａは、遅延量が所定の時間範囲内であるときの再生制御を示す模式図である。図６Ｂは、遅延量が所定の時間範囲外であるときの再生制御を示す模式図である。以下、図５及び図６を参照しながら説明を行う。

図６Ａ及びＢの星マーク７１に示すように、ドア１が開かれる。そうすると通信端末２０のセンサ部２５等により、ドア１が開く動きに基づいたセンシング結果が検出される（ステップ１０１）。動き認識部３４により、ドア１が開かれたイベントが認識され、イベントＩＤが生成される（ステップ１０２）。

通信端末２０の通信制御部３６は、イベントＩＤと、時間取得部３５により取得されたタイムスタンプｔｓ０とを、通信端末４０に送信する（ステップ１０３）。

通信端末４０の通信制御部５４は、通信端末２０から送信されたドア１が開かれたことを示すイベントＩＤと送信時のタイムスタンプｔｓ０を受信する。イベント認識部６３は、ドアが開かれたことを示すイベントＩＤから、実空間で起きたイベントとしてドア１が開かれたことを認識する。また時間取得部６５は、イベントＩＤを受信した時間を示すタイムスタンプｔｓ１を取得する（ステップ１０４）。

遅延算出部５６は、受信した時間を示すタイムスタンプｔｓ１と送信した時間を示すタイムスタンプｔｓ０とから遅延量を算出する。

再生制御部５７は、算出された遅延量が、所定の時間範囲内であるか否かを判定する。本実施形態では、所定の時間範囲として０．２秒が設定される。従って再生制御部により、算出された遅延量が０．２秒以内であるか否かが判定される（ステップ１０５）。もちろんステップ１０５の判定の基準となる所定の時間範囲は限定されず、任意に設定されてよい。例えば、０．０５秒等のさらに短い時間範囲が設定されてもよいし、０．５秒等のさらに長い時間範囲が設定されてもよい。

図６Ａに示すように、通信７５に掛かる時間である遅延量８５が０．２秒未満であった場合（ステップ１０５のＹＥＳ）、再生制御部５７は、第１の再生方法により、ドア１の動きに応じた音声コンテンツの再生の制御を実行する。

本実施形態では、まずドア１の動きに応じたアタック音として、ドア１が開いた瞬間の「ガチャ！」という音が再生される（ステップ１０６）。そして、アタック音が再生された後に、アタック音を含まない音として、ドア１が開く動きに応じた「ギー」という音が再生される（ステップ１０７）。

図６Ｂに示すように、通信７５に掛かる時間である遅延量８５が０．２秒以上であった場合（ステップ１０５のＮＯ）、再生制御部５７は、第２の再生方法により、ドア１の動きに応じた音声コンテンツの再生の制御を実行する。

本実施形態では、ドア１の動きに応じたアタック音である「ガチャ！」は再生されず、アタック音を含まない「ギー」という音が再生される。またアタック音を含まない「ギー」という音は、フェードインにより再生される。

このように本実施形態に係る第１の再生方法は、実物体の動きに応じたアタック音を含む。また第２の再生方法は、実物体の動きに応じたアタック音の再生が規制される。アタック音の再生の規制は、アタック音として規定された音の再生の停止、及びアタック音として規定された音以外の音の再生を含む。またアタック音の再生の規制は、アタック音が規制された音の再生を含む。アタック音及びアタック音が規制された音については、後に詳しく説明する。

また第２の再生方法は、音声コンテンツのフェードインを含む。なおステップ１０８にて再生された「ギー」という音が、そのままフェードアウトされてもよい。すなわち第２の再生方法として、音声コンテンツのフェードアウトが含まれてもよい。

もちろん第１の再生方法及び第２の再生方法が、このような再生方法に限定される訳ではない。例えば第１の再生方法がアタック音を含まない場合もあり得る。また第２の再生方法が音声コンテンツンのフェードインやフェードアウトを含まない場合もあり得る。高品質の視聴体験を実現するために、第１の再生方法及び第２の再生方法が任意に設定されてよい。

図６に示す遅延量８５が大きい場合に、音声ＡＲとして、「ガチャ！」等のアタック音が再生されるとする。この場合、実際のドア１の動きと、仮想的な音声との連動性が損なわれてしまい、仮想体験の品質が大きく低減してしまう可能性が高い。例えばユーザ２がドアノブを捻ってドア１を大きく開いた後に、「ガチャ！」という音が聞えてしまい、ユーザ２にとって大きな違和感となってしまう。

本実施形態では、遅延量８５が所定範囲内の場合に、アタック音の再生が実行される。一方、遅延量が所定の範囲外の場合には、アタック音の再生が規制される。これにより、ドア１の実際の動きと、仮想的な音声の再生との連動性が高く維持される。この結果、高品質な仮想体験を提供することが可能となる。

また遅延量が所定範囲外の場合には、音声コンテンツのフェードインやフェードアウトが実行される。これにより、実際のドア１の動きと仮想的な音声とのずれの影響をさらに抑制することが可能となり、仮想体験の品質を向上させることが可能となる。また音声コンテンツのフェードイン及びフェードアウトを用いることで、事前に多数の音源を用意することなく、実物体の動きと音との連動感が出せる。

なお、図６に示す例では、ステップ１０８において、アタック音の再生が規制されている。これに限定されず、遅延量が所定範囲内の場合には、音声コンテンツの後半であっても、アタック音が再生されてもよい。

図７は、アタック音とアタック音が規制された音の一例を説明するための模式図である。図７Ａは、アタック音の一例を示す模式図である。図７Ｂは、アタック音が規制された音の一例を示す模式図である。

図７のグラフは、横軸が時間であり、縦軸が波形の振幅を示す。例えば音の波形に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。

例えば、一定時間における振幅の変化に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。図７Ａに示すように、一定時間における振幅の減衰が大きい音を、アタック音として規定することが可能である。一定時間、及び減衰が大きいか否かを判定する基準となる閾値等は、任意に設定されてよい。もちろん振幅のピークからの減衰量（減衰率）や、ピーク値等が、アタック音を規定するためのパラメータとして用いられてもよい。

図７Ａに例示する波形の形状に着目して、類似した波形が繰り返されない音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。

アタック音としては、例えば、「ガチャッ」というドアを開ける瞬間に発生する音、「バン」という銃の発射音、及び「ガチャン」という物同士が衝突した際に発生する音等が挙げられる。もちろんこれらの音に限定される訳ではない。

図７Ｂに示すように、一定時間における振幅の変化率（変化量）が所定の範囲内となる音を、アタック音が規制された音として規定することが可能である。また一定時間において振幅が略一定となる音を、アタック音が規制された音として規定することが可能である。一定時間、及び所定の範囲、略一定であるか否かを定める閾値等は、任意に設定されてよい。もちろん、振幅のピークからの減衰量（減衰率）を用いて、減衰量（減衰率）が所定の閾値よりも小さい場合に、アタック音が規制された音として規定されてもよい。またピーク値等が、判定パラメータとして用いられてもよい。

図７Ｂに例示する波形の形状に着目して、類似した波形が繰り返される音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。

アタック音が規制された音としては、例えば、「キー」というドアが開いている間の音、「シャラシャラ」という落ち葉が擦れる音、「ヒュー」という窓を開けたときの風切り音、及び「ザー」という雨の音等の連続的な音が挙げられる。もちろんこれらの音に限定される訳ではない。

例えば他の人物が落ち葉を強く踏みつけた後に、静かに落ち葉の上を歩いたとする。他の人物が携帯する通信端末により、他の人物の動きに基づいてイベントＩＤが生成され、タイムスタンプとともにユーザ２の通信端末４０に送信される。

イベントＩＤを受信するまでの遅延量が所定の時間範囲内の場合には、落ち葉を強く踏みつける仮想的なアタック音が再生された後に、落ち葉を静かに歩く仮想的な音が再生される。遅延量が所定の時間範囲外の場合は、落ち葉を強く踏みつける仮想的なアタック音の音は再生されず、落ち葉を静かに歩く仮想的な音がフェードンイン／フェードアウトされる。例えばこのような再生制御を実行することが可能である。なおこの例では、他の人物が実物体に相当する。

なお、アタック音、及びアタック音が規制された音を規定する方法として、他の方法が採用されてよい。例えば所定の時間範囲内（例えば０．５秒以内）に音の再生が終了され、その後繰り返されない音がアタック音として規定されてもよい。また所定の時間範囲内（例えば０．５秒以内）に音圧レベル（振幅）が最大値の半分以下になる音が、アタック音として規定されてもよい。

あるいは、類似した波形が繰り返される場合でも、その振幅が所定の値よりも大きい場合には、複数のアタック音として規定されてもよい。

またその音が発生するタイミングを強くユーザに認識させる音を、アタック音として規定することも可能である。すなわちその音を聞いたユーザが、その音がいつ発生したかを強く認識させてしまう音を、アタック音として規定することが可能である。例えば突発的な音、短くて強い音と表現され得る音等が含まれる。例えば単位時間当たりの振幅の増加量が大きな音や振幅のピーク値が所定の閾値よりも大きい音等を、アタック音として規定することが可能である。

また、実物体の動きとの関連性（連動性）により、アタック音が規定されてもよい。例えば、実物体の動きに対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。この場合、アタック音とは異なる表現、例えば時間的に関連性が高い音や、動きとのずれが許容されない音といった表現で、その音を規定することも可能である。

実物体へのユーザの操作との関連性（連動性）により、アタック音が規定されてもよい。例えばユーザの操作に対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。例えば操作関連音といった表現で、その音を規定することも可能である。

また１回の動き（１回の操作）に対して、１回発生する音が、アタック音として規定されてもよい。

また例えば、音圧レベルの変化がなだらかな音等が、アタック音が規制された音として規定されてもよい。もちろんこれに限定されず、様々な音がアタック音が規制された音として定義されてよい。例えば、ユーザの１回の動作又は実物体の動きに対して、繰り返し再生されてもユーザが違和感を覚えない音が挙げられる。もちろんアタック音として規定された音以外の音が、アタック音が規制された音として規定されてもよい。

なお図５のステップ１０５の判定の基準となる所定の時間範囲を設定する方法の１つとして、アタック音として規定された音を実際に再生して、どのくらいまでの遅延量であれば違和感を覚えないかを実験的に確認してもよい。これにより高品質な仮想体験を実現することが可能となる。

以上、本実施形態に係る音声ＡＲシステム１００では、ドア１の動きに基づいて生成されるセンサ情報の取得に関する遅延量（到達時間）に基づいて、遅延量が所定の時間範囲内であるときに、第１の再生方法でドア１の動きに応じた音声コンテンツの再生が制御され、遅延量が所定の時間範囲外であるときに、第２の再生方法でドア１の動きに応じた音声コンテンツの再生が制御される。これにより、遅延量を考慮して音声コンテンツを再生することができるため、高品質な仮想体験を提供することを可能となる。

実物体の動きをセンシングしてヘッドフォンで効果音等の仮想的な音声コンテンツを再生する場合、実物体で検知した動きの情報が小さい遅延量でヘッドフォンに伝わらないと良い仮想体験を作れない。一方で、無線帯域や処理のリソースには限りがあるので、混雑した状況だと遅延量を保証するのは難しい。

そこで、本技術では、通信の遅延量に基づいて、音声コンテンツの再生を制御する。遅延量が小さい場合は、注意を向けやすいアタック音のような音を再生し、遅延量が大きい場合は、遅れることによって仮想体験を大きく損なう可能性の高いアタック音を規制するように音声コンテンツの再生を制御する。これにより、高品質な仮想体験を提供することを可能となる。

本技術では、通信の遅延量に基づいて音声コンテンツの再生が制御されるため、他のユーザが多く無線帯域が混んで遅延が多い環境下でも、違和感の少ない音声ＡＲ体験が可能となる。

また遅延量が大きい場合でも体験が大きく損なわれないため、ＢＬＥ（Bluetooth Low Energy）等の低消費電力なプロトコルを使用でき、実物体側及びユーザが持つ通信端末の充電回数を減らすことが可能となる。

＜第２の実施形態＞
本技術に係る第２の実施形態の音声ＡＲシステムについて説明する。これ以降の説明では、上記の実施形態で説明した音声ＡＲシステム１００における構成及び作用と同様な部分については、その説明を省略又は簡略化する。

図８は、本実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。本実施形態では、実物体であるドア１に、センサ装置として、複数の通信端末２０ａ及び２０ｂが設置される。なお、通信端末２０ａ及び通信端末２０ｂのセンサ部２５の構成は限定されず、互いに同じ構成であってもよいし異なる構成でもよい。

通信端末２０ａ及び２０ｂの構成は、互いに同じであってもよいし、異なっていてもよい。またドア１の動きを検出する方法も限定されず、任意の方法が採用されてよい。すなわち通信端末２０ａ及び２０ｂが、同じ検出方法で、ドア１の動きを検出可能であってもよい。あるいは、通信端末２０ａ及び２０ｂが、互いに異なる検出方法で、ドア１の動きを検出可能であってもよい。

本実施形態では、通信端末２０ａ及び２０ｂの各々から、ドア１の動きに応じたセンサ情報（イベントＩＤ）が生成され、タイムスタンプとともに、通信端末４０に送信される。

通信端末４０では、最も早く取得したイベントＩＤ及びタイムスタンプを基準として、図５に例示する音声コンテンツの再生制御を実行する。これにより、遅延量に応じた高品質な仮想体験を提供することが可能である。

なお、通信端末２０ａ及び２０ｂの両方からのセンサ情報（イベントＩＤ）の到着を待って、音声コンテンツの再生が実行されてもよい。この場合、典型的には、最も遅く取得したイベントＩＤ及びタイムスタンプを基準として、音声コンテンツの再生が制御される。この場合、遅延量（到達時間）が大きくなる可能性が高くなるが、第１の再生方法及び第２の再生方法が適宜選択されて音声コンテンツの制御が実行されるので、仮想体験が損なわれることが抑えられる。

例えば、実物体の動きの検出精度を優先する場合や、実物体の動きに応じた音声コンテンツにアタック音が含まれない場合等では、全てのセンサ装置からのセンサ情報を待ってから音声コンテンツの再生制御を実行する。このように条件等に応じて設定を適宜選択することで、さらに高品質な仮想体験を実現することが可能である。また複数のセンサ情報を用いることで、高い精度で実物体の動きの検出をすることができ、精度の悪いセンサでも遅延量の改善に寄与できる。

本実施形態において、通信端末２０ａ及び２０ｂの両方からのセンサ情報（イベントＩＤ）は、実物体の動きに基づいて生成される複数のセンサ情報に相当する。この複数の再生情報のうち、再生制御の基準となる１以上のセンサ情報が選択され、選択された１以上のセンサ情報の取得に関する時間情報に基づいて、音声コンテンツの再生が制御される。

上記したように、複数のセンサ情報のうち、最も早く取得されたセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。あるいは、全てのセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。

＜第３の実施形態＞
図９は、本技術の第３の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。本実施形態では、第１及び第２の実施形態において説明した通信端末４０の機能が備えられたヘッドフォン１４０が用いられる。

ヘッドフォン１４０は、図２及び図３に示す通信端末４０の各ブロックを有する。図９では、マイク２３と、カメラ２４とが図示されている。なおスピーカ２２は、耳に装着される部分に配置される。またコントローラ２１やセンサ部２５等は、ヘッドフォン１４０の任意の位置に設けられる。

例えば、ドア１に設置された通信端末２０と、ユーザにより装着されるヘッドフォン１４０とが協働することで、ドア１の動きに応じた音声コンテンツの再生制御が実行されてもよい。

図１０は、通信端末２０とヘッドフォン１４０との協働による音声コンテンツの再生制御例を示すフローチャートである。まず通信端末２０から通信端末４０に、ドア１の動きに応じたイベントＩＤが送信される。

ヘッドフォン１４０により、通信端末２０から送信されたイベントＩＤが受信される（ステップ２０１）。ヘッドフォン１４０により、マイク２３がイベントＩＤに対応するドア１の動きの音声を検出した時間情報が取得される。

例えば、マイク２３により検出された音声データが解析され、イベントＩＤに対応するドア１の動きの音声が検出された場合には、タイムスタンプｔｓ０が取得され記憶される。ステップ２０２では、通信端末２０からイベントＩＤを受信した場合に、そのイベントＩＤに対応するドア１の動きの音声が検出された際のタイムスタンプｔｓ０が取得される。

例えば、通信端末２０からドア１が開いた旨のイベントＩＤが送信されたとする。ヘッドフォン１４０側では、ドア１が開いた音が検出されたタイムスタンプｔｓ０が記憶されている。ステップ２０２では、その記憶されたタイムスタンプｔｓ０が取得される。

ヘッドフォン１４０は、現在のタイムスタンプｔｓ１を取得する（ステップ２０３）。そしてイベントＩＤに対応するドア１の動きの音が検出された際のタイムスタンプｔｓ０と、現在のタイムスタンプｔｓ１との遅延量に基づいて、ドア１の動きに応じた音声コンテンツの再生が制御される（ステップ２０４、２０５、２０６、２０７）。

このように、実物体に設置されている通信端末２０からのイベントＩＤの受信をトリガーとして、イベントＩＤに対応するドア１の動きの音声の検出タイミングと、現在時間との遅延量が算出されてもよい。そして遅延量に基づいて、音声コンテンツの再生が制御されてもよい。

この場合、ヘッドフォン１４０は、本技術に係るセンサ装置としても機能する。またヘッドフォン１４０にて検出される音声データや、イベントＩＤに対応するドア１の動きの音であるという判定結果が、実物体の動きに基づいて生成されるセンサ情報に含まれる。そしてイベントＩＤに対応するドア１の動きの音声の検出タイミングと、現在時間との遅延量が、センサ情報の取得に関する時間情報に相当する。

なお、マイク２３により検出された音声データに基づいて、ドア１の動きを認識し、音声コンテンツの再生を認識することも可能である。一方、本実施形態のように、実物体に設置されている通信端末２０からのイベントＩＤの受信をトリガーとすることで、ドア１の動きの認識精度を向上させつつ、遅延量に応じた音声コンテンツの再生制御が可能となる。この結果、高品質な仮想体験を実現することが可能となる。

なお、ヘッドフォン１４０のマイク２３により検出される音声データのみならず、ヘッドフォン１４０のカメラ２４により撮影される撮影画像を用いて、通信端末２０との協働処理が実行されてもよい。すなわち撮影画像を用いて、受信したイベントＩＤに対応するドア１の動きの検出が実行され、現在時間との遅延量が算出されてもよい。

＜第４の実施形態＞
図１１は、第４の実施形態に係る音声ＡＲシステムの概要を説明するための模式図である。

上記の第１〜第３の実施形態では、センサ情報の遅延量に基づいて、音声コンテンツの再生の制御が行われた。これに加えて、あるいはこれに代えて、様々な条件に基づいた音声コンテンツの再生制御が実行されてもよい。

例えば、本実施形態では、ドア等の実物体に対して、ユーザ以外の他人が操作を行った場合や、ユーザの実物体に対する関心度に基づいて、音声コンテンツの再生の制御が実行される例を説明する

図１１に示すように、ドア１の付近にユーザ２とユーザ４とがいるとする。ユーザ２から見れば、ユーザ４は他の人物に相当する。ユーザ４から見れば、ユーザ２は他の人物に相当する。ユーザ４により、ドア１が開かれる場合を例に挙げる。

ユーザ４がドア１を開けた場合、通信端末２０のセンサ部２５は、ドア１の動きをセンシングする。動き認識部３４は、センシング結果に基づいて、ドア１が開いたイベントを認識する。通信制御部３６は、認識されたドア１の動きに応じたイベントＩＤと、タイムスタンプとをユーザ２の通信端末４０ａと、ユーザ４の通信端末４０ｂに送信する。なお、ユーザ２の通信端末４０ｂ、及びユーザ４の通信端末４０ａの構成は限定されず、互いに同じ構成であってもよいし異なる構成であってもよい。もちろん通信端末４０ａ及び４０ｂとして、同じデバイスが用いられてもよい。

本実施形態では、ユーザ２の通信端末４０ａのユーザ判定部６７により、ユーザ２によりドア１が操作されたか否かが判定される。同様に、ユーザ４の通信端末４０ｂのユーザ判定部６７により、ユーザ４によりドア１が操作されたか否かが判定される。例えば各ユーザ判定部６７は、ユーザ２（４）とドア１との距離に基づいて、ユーザ２（４）によりドア１が操作されたか否かを判定する。

ユーザ４の通信端末４０ｂでは、ユーザ４によりドア１が操作されたと判定される。この場合、例えば図５に示す処理が実行され、音声ＡＲが実現される。

ユーザ２の通信端末４０ａでは、ユーザ２によりドア１が操作されていないと判定される。すなわち他の人物により、ドア１が操作されたと判定される。この場合、センサ情報（イベントＩＤ）の遅延量にかかわらず、アタック音の再生が規制される。または音声コンテンツのボリュームが十分に抑えられる。または、音声コンテンツの再生自体が規制されてもよい（例えばコンテンツ再生の停止やボリュームの制限等が含まれる）。

例えば、遅延量に基づいて選択的に実行される第１の再生方法及び第２の再生方法が実行されてもよい。すなわち、通信端末のユーザによりドア１が操作されたと判定された場合に、第１の再生方法でドア１の動きに応じた音声コンテンツの再生を制御する。他の人物によりドア１が操作されたと判定された場合に、第２の再生方法でドア１の動きに応じた音声コンテンツの再生を制御する。このような処理が実行されてもよい。

このように実物体とユーザとの距離の差に応じた音声コンテンツの再生制御が行われることで、ユーザはよりリアルに近くで起こっているイベントに集中して体験ができる。また遠くのイベントに関して通信内容を減らせることから、音声ＡＲシステム１００に用いられる必要なシステムを少なくできる。

なお、ユーザ判定部６７の判定方法は限定されない。例えば、カメラ２４がユーザ４によりドア１が操作される画像が撮影された場合でも、実物体への操作がユーザ２以外の人物に行われたと判定してもよい。また例えば、ドア１の加速度等のセンサ部２５の取得するセンサ値から判定されてもよい。

また再生制御部５７の音声コンテンツの再生の制御も限定されない。例えば、実物体への操作がユーザ２以外の人物に行われた場合、音声コンテンツの再生を規制してもよい。

実物体とユーザとの距離が、ドア１を操作する人物の判定に用いられる場合に限定される訳ではない。実物体とユーザとの距離自体に基づいて、音声コンテンツの再生制御が実行されてもよい。例えば実物体からの距離が一定範囲であるか否か、実物体に近い所定の範囲内であるか否か、実物体から離れた所定の範囲内であるか否か等に基づいて、音声コンテンツの再生が制御されてもよい。これにより様々な仮想体験を実現することが可能となり、ユーザを楽しませることが可能となる。

次に、ユーザ２がドア１に対する関心度に基づいて、音声コンテンツの再生の制御が行われる説明を行う。

関心度判定部６６は、マイク２３、カメラ２４、及びセンサ部２５により取得される検出情報に基づいて、ユーザ２がドア１に対してどのくらいの関心度を持っているか判定する。

関心度が判定される方法の例としては、ユーザ２がドア１を操作しているか、ドア１を操作しているユーザ４がユーザ２とグループ関係か、ユーザ２がドア１を操作した際に出力される音声コンテンツを既に体験しているか、ユーザ２がドア１を見ているか、ユーザ２がドア１の近くでドア１の方向を向いているか等が挙げられる。

グループ関係は、ユーザ４がユーザ２と同じグループに属しているか、ユーザ４と家族か、ユーザ４と友人か、又はユーザ４とＳＮＳ（Social Networking-Service）上の知り合いかの少なくとも１つを含んでもよい。もちろんこれに限定されず、様々なユーザ２との関係性に基づいてグループ関係が設定されてよい。

再生制御部５７は、関心度判定部６６による判定結果に基づいて、音声コンテンツの再生を制御する。例えば、再生制御部５７は、ユーザ２の友人であるユーザ４がドア１を操作する姿を見ている場合等のユーザ２のドア１に対する関心度が高い場合、アタック音を再生する。また再生制御部５７は、ユーザ２のドア１に対する関心度が低い場合、アタック音が規制された音を再生する。

例えばユーザの関心度が高い場合には、他に人物が操作している場合でも、ユーザ２が操作している場合と同様の再生制御を実行する。一方で、ユーザの関心度が低い場合には、ユーザ２が操作している場合でも、他の人物が操作している場合と同様の再生制御を実行する。例えばユーザ２が他の方向を注視したり、他の人物と話しながらドア１を開けた場合には、ユーザの関心度が低いと判定され、アタック音の再生が規制される。あるいは音声コンテンツ自身の再生が規制される。

なお、関心度が判定される方法は限定されない。例えば、ユーザ２が移動中や停止中に基づいて関心度が判定されてもよい。また例えば、ユーザ２が音楽等の様々な音や他の音声コンテンツがスピーカ２２から出力されている場合、ドア１の動きに応じた音声コンテンツの再生が規制されてもよい。

また関心度に基づいて音声コンテンツの再生の制御も限定されない。例えば、各関心度に数値を紐づけて、閾値を超えた場合に音声コンテンツの再生が制御されてもよい。また例えば、複数の関心度の測定方法が任意に組み合わされて実行されてもよい。

すなわち、ユーザ４がドア１を操作した場合、上記の第４の実施形態ではアタック音が規制された音が再生された。この場合でも、ユーザ２がドア１に対して高い関心度があると判定された場合は、再生制御部５７は、アタック音を再生してもよい。例えば、ドア１を操作するユーザ４とユーザ２とがグループ関係ではないが、ユーザ２がドア１の近くでドア１を凝視しており、ユーザ２がドア１を操作した際に出力される音声コンテンツを未体験の場合、再生制御部５７は、アタック音を再生してもよい。

また例えば、再生制御部５７は、ユーザ２のドア１に対する関心度が低い場合にアタック音を再生してもよい。

図１２は、関心度に基づいてセンサ情報が規制される制御を示す模式図である。

直線１１０は、ドアの動きに関する加速度等のセンサ値を示し、矢印方向に沿って時間が経過する。直線１２０は、通信端末４０で出力される音声コンテンツの波形を示し、矢印方向に沿って時間が経過する。

センサ部２５により取得されるドア１の動きは、通信端末４０に送信される。通信端末４０は、送信されたドア１の動きに基づいて、音声コンテンツの再生を制御する。

図１２Ａに示すように、ドア１の動きが短い時間間隔で頻繁に送信されることで、ユーザ２は、ドア１の動きに関する音声コンテンツを細かく聞くことができる。例えば、ドア１が勢いよく開けられた場合やドア１がゆっくりと開けられた場合に、再生制御部５７は、ドア１の加速度に応じて音声コンテンツを制御する。これにより、ユーザ２は、高品質な仮想体験が体験できる。

第４の実施形態では、ユーザ２がドア１に対する関心度に基づいて、センサ部２５から送信されるドア１の動きに基づいて生成されるセンサ情報の情報量が規制される。

図１２Ａに示すように、関心度判定部６６がユーザ２のドア１に対する関心度が高いと判定した場合、通信制御部５４は、センサ部２５が取得したセンサ情報の情報量を規制せずに受信する。

また図１２Ｂに示すように、関心度判定部６６がユーザ２のドア１に対する関心度が低いと判定した場合、通信制御部５４は、センサ部２５が取得したセンサ情報の情報量を規制する。具体的なセンサ情報の情報量の規制の例としては、通信制御部５４は、ドア１が開いた最初のセンサ情報１１１と、ドア１の動きが停止した最後のセンサ情報１１２のみを受信する。

ユーザ２のドア１に対する関心度が低いと判定した場合、送信側である通信制御部３６により、送信するセンサ情報の情報量が規制されてもよい。もちろん送信側及び受信側の両方で、センサ情報の情報量が規制されてもよい。

なお、センサ情報の情報量の規制する方法は限定されない。例えば、通信端末２０及び通信端末４０の通信環境に基づいて、情報量が規制されてもよい。また例えば、ユーザ２がドア１に対して高い関心度を持つ場合、より多くのセンサ情報が送信されてもよい。

ドアの動きのセンサ情報が頻繁に送信されると実物体の動きにあったリアルな音表現が可能となる分、通信や処理のリソースがかかる。例えば、通信端末２０が配置された実物体がドア以外にも複数ある場合、それらのセンサ情報を頻繁に送信されると遅延量が大きくなる可能性がある。

このため、第４の実施形態では、ユーザの関心度が判定されることで、ユーザが実物体を見たり操作している時のみにセンサ情報が頻繁に送られ、見ていない時のセンサ情報の送信頻度は低減される。これにより、遅延量を減らすことで、高品質な仮想体験が体験できる。

また、ユーザが実物体を主体的に操作した音のみ、高い音や音量の大きい音、単位時間当たりの振幅の変化が大きな音等のいわゆる目立つ音（アタック音）で再生されることで、他のユーザが多くいる混んだ環境でも、最も注目したい音が最も目立つように再生される。また、他人が操作したユーザの関心が低い実物体のアタック音が規制される。これにより、他のユーザの操作の音が目立たないため自分の体験に集中できる。またユーザの周りで様々な出来事（イベント）が起こっている状況において、一番関心のある出来事に関する音を聞くことが可能となり、大事な体験により集中することが可能となる。

＜その他の実施形態＞
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

上記の第１〜第４の実施形態では、通信端末２０が設置される実物体はドア１だった。これに限定されず、実物体は、ユーザ２により操作される実空間内に存在する物体であってもよい。例えば、いす、カバン、車、スイッチ、及びペン等が挙げられる。また例えば、ユーザが操作を行えない物体でもよい。例えば、駅の広告を表示する液晶ディスプレイ等にも本技術は適用可能である。またユーザ２の実物体の操作は、ユーザ２の動きとも言える。

上記の第１〜第４の実施形態では、音声コンテンツの再生の制御は、遅延量及び関心度等に基づいて制御された。これに限定されず、音声コンテンツの再生の制御は、ユーザ２の周囲の環境や周囲の環境音に基づいて、音声コンテンツの再生が制御されてもよい。例えば、人の密集度、照明の明るさ、電波の混雑状況、友人の有無等に基づいて、音声コンテンツの再生が制御されてもよい。また周囲の環境音がうるさい又は静かであるか否か（環境音の音量の大小）、音声コンテンツと同じような音が流れているか否か、ユーザ自身が会話しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。またユーザが別のコンテンツに集中しているか否か、スマートフォン等により映像を視聴しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。また例えば、ドア１に対するユーザ２の操作の回数に基づいて、音声コンテンツの再生が制御されてもよい。

また上記の第１〜第４の実施形態では、音声コンテンツの再生の制御は、イベントの到達する順番に基づいて再生された。これに限定されず、イベントＩＤの到達順序の同期が取られてもよい。例えば、弾丸が壁に着弾する音を示すイベントＩＤが到達した場合、弾丸の発射音を示すイベントＩＤが到達するまで音声コンテンツの再生が規制されてもよい。これにより、再生される音声コンテンツの順番が正しく制御されることで、ユーザの仮想体験が損なわれることを防ぐことが可能となる。

図１３は、他の実施形態に係るセンサ情報の通信制御を示す模式図である。図１３に示すように、直線１３０は、矢印方向に沿って時間が経過し、ドア１の動きに関する加速度等のセンサ値を示す波形の時間軸を示す。直線１４０は、矢印方向に沿って時間が経過し、通信端末４０で出力される音声コンテンツの波形を示す波形の時間軸を示す。

上記の第１〜第４の実施形態では、ドア１の開く動きに基づいて生成されるセンサ情報が通信端末４０に送信されることにより音声コンテンツが再生された。これに限定されず、ドア１の開く動きに基づいて生成されるセンサ情報が段階的に分かれて送信されてもよい。

図１３Ａは、通信端末２０からのセンサ情報に基づいて音声コンテンツが再生されることを示す模式図である。

図１３Ａに示すように、通信端末２０によりドアの動きがセンシングされる。この時通信制御部３６は、ドアが動き始めたことを示すセンサ情報１３１を通信端末４０の通信制御部５４に送信する。再生制御部５７は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。

次にドアが更に開かれた場合、通信制御部３６は、ドアが動いていることを示すセンサ情報１３２を通信制御部５４に送信する。再生制御部５７は、ドアが動いている動きに応じた音声コンテンツの再生を制御する。

すなわち、再生制御部５７は、センサ情報の取得に応じて音声コンテンツの再生を開始し、音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、音声コンテンツの再生を継続するか否かを決定する。なお、本実施形態において、センサ情報１３１、１３２、及び１３３は、音声コンテンツの再生の継続に関する情報に相当する。

再生制御部５７がドアの動きに応じた音声コンテンツの再生を制御するためには、ドアが開いたという動作を示すセンサ情報を数ミリ秒蓄える必要がある。しかし、上記の実施形態に示すように、再生制御部５７は、通信の遅延量に基づいて音声コンテンツの再生を制御するため、センサ情報を数ミリ秒蓄えると遅延量が大きくなってしまう場合があり得る。

本実施形態のようにセンサ情報が段階的に送信されることで、実物体が動いたと認識できるまでの遅延量を減らすことができる。これにより、高品質な仮想体験が体験できる。

図１３Ｂは、通信端末２０からのセンサ情報に基づいて音声コンテンツの再生が停止されることを示す模式図である。

図１３Ｂに示すように、通信端末２０によりドアの動きがセンシングされ、通信制御部３６は、ドアが動き始めたことを示すセンサ情報１３１を通信端末４０の通信制御部５４に送信する。再生制御部５７は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。

次にドアの動きが停止した場合、通信制御部３６は、ドアが停止したことを示すセンサ情報１３３を通信制御部５４に送信する。再生制御部５７は、ドアが停止したセンサ情報に基づいて、音声コンテンツの再生を制御する。例えば、ドアが動き始めた際に再生された「ガチャッ」という音をフェードアウトすることで音声コンテンツの再生を停止させる。

すなわち、図１３Ｂでは、ドアが開いたという動きに応じた音声コンテンツが再生された後にドアの動きが停止した場合、音声コンテンツの再生を停止するように制御が行われる。この結果、ユーザによる意図しない実物体の動きに応じた音声コンテンツの再生を防ぐことが可能となる。

図１４は、様々な場面に応じた音声コンテンツの例を示す図である。

上記の第１〜第４の実施形態では、ドア等の実物体を動かす際に発生する音が仮想的な音に設定された。これに限定されず、様々な場面に応じて仮想的な音が設定されてよい。

１つの例として、場所や空間に紐づけられた音声コンテンツが再生されてもよい。例えば、ユーザが鳥や川の絵が飾られている場所に近づいた場合に、鳥の声や川の音が再生されてもよい。また例えば、雨が降っている空間（映像）をユーザが視聴している場合に、雨音が再生されてもよい。

１つの例として、ユーザの動きによって変わる音声コンテンツが再生されてもよい。例えば、ユーザが走っている時や歩いている時等に応じて足音が変わる様に音声コンテンツが再生されてもよい。

１つの例として、他のユーザの動きにより変わる音声コンテンツが再生されてもよい。例えば、他のユーザが近くで歩いている場合に、足音が再生されてもよい。

１つの例として、実空間内の実物体の動きにより変わる音声コンテンツが再生されてもよい。例えば、実世界でゲーム体験ができるイベント等で、実空間にある宝箱を開けるときの音が通信端末４０を使用しているユーザにのみ再生されてもよい。これ以外にも、窓、スイッチ、リモコン等の操作にも様々な音声コンテンツが再生されてもよい。

１つの例として、シナリオ内の仮想的なイベントで変わる音声コンテンツが再生されてもよい。例えば、ユーザの視野にお化けを模した仮想オブジェクトが現れた場合に、仮想のお化けの叫び声が再生されてもよい。

もちろんこれらに限定されず、様々な場面が想定されてよい。例えば、車が雨の降ってない道路を走っている場合に、車載スピーカから雨が降っている道路を車が走っている際の音声コンテンツが再生されてもよい。

上記の第１〜第４の実施形態では、実物体の動きに応じた音声コンテンツの再生が制御された。これに限定されず、通信端末４０や専用の装置等が振動をしてもよい。

上記の第１〜第４の実施形態では、通信端末２０から実物体の動きに基づいて生成されたセンサ情報が送信された。これに限定されず、通信端末２０から音声コンテンツを再生する旨の制御信号が送信されてもよい。

上記の第１〜第４の実施形態では、ドア１が開いた場合等の実物体の動きに対してすぐに音が発生する場合に第１の及び第２の再生方法で音声コンテンツの再生の制御が行われた。これに限定されず、実物体の動きに対して少し遅れて発生する音にも音声コンテンツの再生の制御が行われてもよい。例えば、開いているドアが閉まる場合、遅延量に基づいてドアが閉まるよりも早めに音声コンテンツが再生されてもよい。

また上記の第１〜第４の実施形態では、取得されたタイムスタンプの時間差から遅延量が算出された。これに限定されず、タイムスタンプではなく遅延量の情報そのものが取得されてもよい。

上記の第１〜第４の実施形態では、通信端末４０を所持しているユーザ全員に音声コンテンツが再生された。これに限定されず、通信端末４０を所持している一部ユーザにのみ聞こえるようにスピーカ２２から音声コンテンツが出力されてもよい。例えば、駅の券売機や情報案内板等の音声指示を必要としている特定のユーザのスピーカ２２にのみ音声が再生されてもよい。

上記の第１〜第４の実施形態では、ユーザの実物体に対する関心度に応じて音声コンテンツの再生が制御された。これに限定されず、周囲の環境や他のユーザ又は実物体との距離等に応じて音声コンテンツの音量が制御されてもよい。例えば、１０人以降の他のユーザの操作による実物体の動きの音声コンテンツの再生が規制されてもよい。

上記の第１〜第４の実施形態では、遅延量に基づいて、音声コンテンツの再生が制御された。これに限定されず、通信端末４０側の遅延が大きい場合に、出力される音声コンテンツが軽量なファイルに制御されてもよい。例えば、遅延が大きい場合、wave（RIFF waveform audio format）等の軽量な固定のファイルが用いられてもよう。また例えば、遅延が小さい場合は、リアルタイムで音声合成されたファイルが用いられてもよい。

上記の第１〜第４の実施形態では、アタック音を規制する方法として、アタック音が規制された音が再生された。これに限定されず、様々なアタック音を規制する方法が採用されてもよい。例えば、音声コンテンツのアタック音の部分をフェードインすることでユーザが知覚しづらいように隠してもよい。またアタック音が再生される時に雑踏の音等の別の音が重ねられてもよい。

通信端末に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータとが連動することにより、あるいはＨＭＤと通信可能な他のコンピュータにより、本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。

すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、イベントの認識、遅延量の算出、及び音声コンテンツの再生の制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。

すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

各図面を参照して説明した情報処理部、イベント認識部、遅延算出部、再生制御部等の各構成、通信システムの制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

なお、本開示中に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。上記の複数の効果の記載は、それらの効果が必ずしも同時に発揮されるということを意味しているのではない。条件等により、少なくとも上記した効果のいずれかが得られることを意味しており、もちろん本開示中に記載されていない効果が発揮される可能性もある。

以上説明した各形態の特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。

なお、本技術は以下のような構成も採ることができる。
（１）実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する再生制御部
を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
情報処理装置。
（３）（２）に記載の情報処理装置であって、
前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
前記第１の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
前記第２の再生方法は、前記アタック音の再生を規制する
情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
前記第２の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
情報処理装置。
（６）（１）から（５）のうちいずれか１つに記載の情報処理装置であって、さらに、
ユーザにより前記実物体が操作されたか否かを判定する第１の判定部を具備し、
前記再生制御部は、前記第１の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（７）（６）に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第１の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
（８）（６）又は（７）に記載の情報処理装置であって、
前記第１の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
情報処理装置。
（９）（６）から（８）のうちいずれか１つに記載の情報処理装置であって、
前記第１の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
情報処理装置。
（１０）（１）から（９）のうちいずれか１つに記載の情報処理装置であって、さらに、
前記実物体に対するユーザの関心度を判定する第２の判定部を具備し、
前記再生制御部は、前記第２の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１１）（１０）に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第２の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
（１２）（１）から（１１）のうちいずれか１つに記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１３）（１２）に記載の情報処理装置であって、
前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１４）（１２）又は（１３）に記載の情報処理装置であって、
前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる１以上のセンサ情報を選択し、選択された前記１以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１６）（１５）に記載の情報処理装置であって、
前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記１以上のセンサ情報として選択する
情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
（１９）実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する
ことをコンピュータシステムが実行する情報処理方法。
（２０）実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御するステップ
をコンピュータシステムに実行させるプログラムが記録された記録媒体。
（２１）（１）から（１８）のうちいずれか１つに記載の情報処理装置であって、
開放型ヘッドフォンによる前記音声コンテンツの再生を制御する
情報処理装置。
（２２）（１）から（１８）及び（２１）のうちいずれか１つに記載の情報処理装置であって、
開放型ヘッドフォンとして構成されている
情報処理装置。
（２３）（１）から（１８）のうちいずれか１つに記載の情報処理装置であって、
前記音声コンテンツを出力するヘッドフォンを具備し、
ＨＭＤ（Head Mounted Display）として構成されている
情報処理装置。

２０…通信端末
２１…コントローラ
３４…動き認識部
３５…時間取得部
４０…通信端末
５６…遅延算出部
５７…再生制御部
６１…ユーザ状態検出部
６２…状況検出部
６３…イベント認識部
６５…時間取得部
６６…関心度判定部
６７…ユーザ判定部

Claims

実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する再生制御部
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
情報処理装置。
請求項１に記載の情報処理装置であって、
前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
前記第２の再生方法は、前記アタック音の再生を規制する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第２の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
情報処理装置。
請求項１に記載の情報処理装置であって、さらに、
ユーザにより前記実物体が操作されたか否かを判定する第１の判定部を具備し、
前記再生制御部は、前記第１の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項６に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第１の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
請求項６に記載の情報処理装置であって、
前記第１の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
情報処理装置。
請求項６に記載の情報処理装置であって、
前記第１の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
情報処理装置。
請求項１に記載の情報処理装置であって、さらに、
前記実物体に対するユーザの関心度を判定する第２の判定部を具備し、
前記再生制御部は、前記第２の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項１０に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第２の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
請求項１に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項１２に記載の情報処理装置であって、
前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項１２に記載の情報処理装置であって、
前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる１以上のセンサ情報を選択し、選択された前記１以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記１以上のセンサ情報として選択する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御する
ことをコンピュータシステムが実行する情報処理方法。
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第１の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第２の再生方法で前記音声コンテンツの再生を制御するステップ
をコンピュータシステムに実行させるプログラムが記録された記録媒体。