WO2020026864A1

WO2020026864A1 - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: WO2020026864A1
Application number: PCT/JP2019/028576
Authority: WO
Inventors: 慶一大迫; 祐基光藤
Original assignee: ソニー株式会社
Priority date: 2018-07-30
Filing date: 2019-07-22
Publication date: 2020-02-06
Also published as: KR102666792B1; JP7494732B2; KR20210038431A; CN112470490B; EP3833044A4; JPWO2020026864A1; CN112470490A; US20210274304A1; EP3833044A1

Abstract

本開示に係る情報処理装置、情報処理システム、情報処理方法及びプログラムは、スピーカアレー（２０）によって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部（１３１）と、ディスプレイ（３０）に表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレー（２０）からの出力を制御する出力制御部（１３３）と、を備える。

Description

情報処理装置、情報処理システム、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

　近年、ディスプレイに表示した情報と、表示された情報に関する音声情報とをユーザに提供する情報提示システムの普及が進んでいる。

　例えば、以下の特許文献１には、案内情報を表示する表示装置と、案内情報を音声として出力する音出力装置を備え、指定された案内領域にユーザが属したことを検出してその案内領域に音声を出力することで、ユーザに対して適切な案内を行う案内装置が開示されている。

特開２０１７－１６１４４８号公報

　しかしながら、特許文献１に記載の案内装置に備えられる音出力装置は、指向性が制御された平面波によって案内領域に音声を出力するため、案内領域外に存在する人にもその音声が聞こえる可能性がある。

　そこで、本開示では、上記事情に鑑みて、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能な、情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。

　本開示によれば、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置が提供される。

　また、本開示によれば、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理システムが提供される。

　また、本開示によれば、プロセッサが、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定すること、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、を含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラムが提供される。

　本開示によれば、スピーカアレーが生成した球面波を生じる仮想音源から音声情報が出力される。

　以上説明したように本開示によれば、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、又は、上記の効果に代えて、本明細書に示されたいずれかの効果、又は、本明細書から把握され得る他の効果が奏されてもよい。

平面波による音の伝搬によりユーザに音声情報を提供する一般の情報提示システムを説明するための説明図である。一般の情報提示システムに備えられるスピーカアレーが出力する平面波を説明するための説明図である。平面波による音の伝搬によりユーザに音声情報を提供する一般の情報提示システムを説明するための説明図である。本開示の第１の実施形態に係る情報処理システムの構成の一例を示すブロック図である。同実施形態に係る情報処理装置の構成の一例を示すブロック図である。同実施形態に係る音源位置決定部によるユーザの聴取位置を算出する方法の一例を説明するための説明図である。同実施形態に係る出力制御部が生成する仮想音源を説明するための説明図である。同実施形態に係る出力制御部が生成する仮想音源を説明するための説明図である。同実施形態に係る出力制御部が生成する仮想音源を説明するための説明図である。平面波による音の伝搬の一例を説明するための説明図である。同実施形態に係る情報処理装置によりユーザに提示された情報を説明するための説明図である。同実施形態に係る情報処理装置によりユーザに提示された情報を説明するための説明図である。同実施形態に係る情報処理装置の動作の一例を説明するための流れ図である。同実施形態に係る情報処理装置の動作の一例を説明するための説明図である。本開示の第２の実施形態に係る情報処理システムの構成の一例を示すブロック図である。同実施形態に係る情報処理装置の構成の一例を示すブロック図である。同実施形態に係る情報処理装置の動作の一例を説明するための流れ図である。同実施形態に係る情報処理装置の動作の一例を説明するための説明図である。本開示に係る情報処理システムの第１の変形例を説明するための説明図である。本開示に係る情報処理システムの第２の変形例を説明するための説明図である。本開示に係る情報処理装置の第３の変形例を説明するための説明図である。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　＜１．背景＞
　＜２．第１の実施形態＞
　＜３．第２の実施形態＞
　＜４．変形例＞
　＜５．ハードウェア構成＞
　＜６．結び＞

　＜１．背景＞
　ディスプレイに表示した情報と、表示された情報に関する音声情報とをユーザに提供する情報提示システムの普及が進んでいる。例えば、空港、駅又はバスの停留所等に挙げられる公共機関、ショッピングモール又は量販店等に挙げられる商業施設において、情報提示システムが利用されている。具体的には、空港においては、情報提示システムによって、ディスプレイ上に航空機の離発着時刻又は搭乗時刻等が表示され、この表示された離発着時刻又は搭乗時刻等が音声情報としてユーザに提供されている。また、ショッピングモールでは、ディスプレイ上にショッピングモール内の地図が表示され、ユーザは、ディスプレイ上の地図に示された店舗情報にタッチすることで、その店舗の詳細情報をさらにディスプレイに表示させることができる。そして、情報提示システムによって、店舗の詳細情報の表示に合わせてその店舗情報が音声情報として出力される。

　上記のような情報提示システムでは、対象とするユーザの人数又はユーザに提供される情報の内容によって、情報提示システムに用いられるディスプレイのサイズや出力される音声の音量等は異なる。例えば、多数のユーザに対して共通の情報を提示するためには、大画面のディスプレイと、広範囲に音声を出力することが可能な音声出力装置とを備えた情報提示システムが用いられる。また、例えば、少数のユーザに対して共通の情報を提示するには、小画面のディスプレイと、その少人数のユーザが聴取可能な小さな音量で狭い範囲に音声を出力することが可能な音声出力装置とを備えた情報提示システムが用いられる。少数のユーザに対する音声出力には、例えば、ヘッドホン等が用いられることもある。

　複数のユーザに対する共通の情報の提示に対し、複数のユーザそれぞれに対して、個別の情報を提示することが求められる場合がある。このような場合として、例えば、異なる言語による情報を提示する場合や、各々のユーザが指定した個別の情報を提示する場合等が挙げられる。具体的には、空港における航空機の離発着情報を異なる言語でユーザに提示する場合等が挙げられる。このような、複数のユーザそれぞれに対して、個別の情報を提示する方法としては、例えば、以下のような、ディスプレイによる表示及び音声出力の方法が挙げられる。

　一つ目の情報提示方法は、複数のユーザに対して、共通のディスプレイを用いて一定時間ごとに表示する情報を変更し、複数のユーザが存在する領域に向けて出力する音声情報を一定時間ごとに変更する方法である。この方法では、複数の情報が一定時間ごとに変更されて出力されるため、ユーザが欲している情報をそのユーザが取得するまでに時間を要することになる。そのため、この方法の利便性は十分でなく改善の余地がある。

　二つ目の情報提示方法は、ディスプレイの表示領域を複数に分割、又は複数のディスプレイの使用によってユーザに提示される複数の視覚情報を同時に表示し、音声情報は、複数のユーザが存在する領域に向けて出力する音声情報を一定時間ごとに変更する方法である。視覚情報とは、ディスプレイに表示される画像情報、文字情報などユーザが視認可能な情報である。この方法では、複数の視覚情報を同時に表示することができるものの、音声情報は、一定時間ごとに変更されるため、ユーザが音声情報を求める場合は、その音声情報を取得するまでに時間を要することになる。そのため、この方法の利便性は十分でなく改善の余地がある。

　三つ目の情報提示方法は、ディスプレイの表示領域を複数に分割、又は複数のディスプレイの使用によってユーザに提示される複数の視覚情報を同時に表示し、異なる音声情報をそれぞれ異なる出力領域に出力する方法である。異なる音声情報をそれぞれ異なる出力領域に出力する方法としては、例えば、ヘッドホンを利用して音声情報を各ユーザの耳に出力する方法、指向性スピーカを利用して音声の出力方向を制御する音声出力方法等が挙げられる。この情報提示方法では、各ユーザは、短時間で個別の情報を取得することができる。また、例えば、ユーザがヘッドホンを利用する場合には、必要な音声情報がヘッドホンごとに出力され、一のユーザが聞く音声に他のユーザが聞く音声が混入することが抑制されるため、確実な情報伝達が可能となる。しかし、ユーザによってはヘッドホンの装着が煩わしく感じられることがある。更に、ヘッドホンは、ユーザに装着されて使用されるため、劣化が避けられず、交換が必要になる。そのため、ヘッドホンを用いた情報提示システムでは、ランニングコストが増加する可能性がある。

　また、例えば、指向性スピーカによる音の指向性を用いて音声の受聴領域を複数設定した場合、一の受聴領域には、日本語の音声情報を提示し、他の受聴領域には、英語の音声情報を提示することができ、情報提示の効率が向上する。しかし、指向性スピーカを用いた場合であっても複数の受聴領域のうちの一の領域内に、他の領域に出力される音声が侵入するため、ユーザによる音声情報取得が阻害されることがある。また、出力領域外にいる音声情報を求めていない人は、出力領域の音声情報が漏れ聞こえるため、不快に感じることがある。

　ここで、図１～図３を参照して、指向性スピーカを利用した情報提示システムによる音声出力の概要を説明する。図１は、平面波による音の伝搬によりユーザに音声情報を提供する情報提示システムを説明するための説明図である。図２は、一般の情報提示システムに備えられるスピーカアレーが出力する平面波を説明するための説明図である。図３は、平面波による音の伝搬によりユーザに音声情報を提供する情報提示システムを説明するための説明図である。

　一般的な情報提示システムの一例として、例えば、図１に示すように、ユーザＵが受聴エリアＡに入ったことを検出して、その受聴エリアＡに指向性を有する音声を出力するスピーカアレー２１を備えた情報提示システムがある。このシステムでは、例えば、音の周波数や振幅を制御してスピーカアレー２１から出力される音の波形を合成して平面波Ｗｐを生成することで特定の範囲に音を伝搬させる。例えば、図１に示すように、上方に設置されたスピーカアレー２１は、ユーザＵが位置する領域Ａに向かって指向性が制御された平面波を出力する。これにより、ユーザＵは、スピーカアレー２１が出力する音声情報を受聴することができる。

　しかし、平面波Ｗｐを発するスピーカアレー２１は、実際には、図２に示すように、スピーカアレー２１を軸とした軸まわりに平面波Ｗｐを出力する。そのため、図３に示すように、スピーカアレー２１から出力された平面波Ｗｐは、受聴エリアＡの外にいる非ユーザＮの頭部にも到達する。従って、スピーカアレー２１から出力される音声情報は、受聴エリアＡの外に漏れ、音声情報の受聴を望まない人にも聞こえてしまうことになる。漏れ出した音声情報は、周囲の人にとっては必要のない情報であり、雑音として感じられるため望ましくない。

　また、一般的な情報提示システムは、ユーザＵが受聴エリアＡに存在するか否かを、例えば、赤外線や超音波等を用いてセンシングすることによって判定することが多い。そのため、音声情報の取得を望まない非ユーザＮが受聴エリアＡを通過するだけでスピーカアレー２１から音声情報が出力される可能性がある。このような、音声情報の不要な出力は、その音声情報を欲していない人にとって煩わしいものである。そのため、出力される音声情報は、ユーザＵが意図したときに出力されること望ましい。

　球面波では、一般に、音源からの距離が２倍になると音圧レベルは６ｄＢ低下する。一方、平面波では、一般に、音源からの距離が２倍になると音圧レベルは３ｄＢ低下する。そのため、平面波は、球面波に比べて遠方まで到達する。これにより、例えば、異なる音声情報を提示するための受聴エリアＡを平面波の進行方向に沿って複数設けた場合、一の受聴エリアＡに位置するユーザＵは、所望の音声情報に加えて、欲していない他の音声情報を認識する場合がある。従って、平面波を利用した一般的な情報提示システムでは、複数の音声情報が一つの受聴エリアＡに出力されないように、設置レイアウトが制限されることがある。

　上記の、受聴エリアＡの外への音声情報漏れ及び設置レイアウトの制限は、超音波により指向性を有する音を生成するパラメトリックスピーカ等を利用した場合も起こり得る。

　そこで、本発明者らは、上記について鋭意検討した結果、本技術を発明するに至った。以下において、本技術の実施形態を詳細に説明する。

＜２．第１の実施形態＞
［２－１．構成］
　まず、図４及び図５を参照しながら、第１の実施形態に係る情報処理システム１及び情報処理装置１０の構成について説明する。図４は、本実施形態に係る情報処理システム１の構成の一例を示すブロック図である。図５は、本実施形態に係る情報処理装置１０の構成の一例を示すブロック図である。

　まず、本実施形態に係る情報処理システム１の構成を説明する。情報処理システム１は、情報処理装置１０、スピーカアレー２０、ディスプレイ３０及びネットワーク４０を備える。情報処理システム１は、情報処理装置１０によって、スピーカアレー２０により生成されて球面波を生じる仮想音源の位置を決定し、ディスプレイ３０に表示された情報である視覚情報に応じた音声情報を出力する仮想音源が前記位置に定位されるように、スピーカアレー２０からの出力を制御する。

　情報処理装置１０は、スピーカアレー２０によって生成されて球面波を生じる仮想音源の位置を決定し、決定した位置に仮想音源が定位されるようにスピーカアレー２０からの出力を制御する。情報処理装置１０は、図５に示すように、操作情報取得部１１０、音声情報取得部１２０、制御部１３０、記憶部１４０、及び通信部１５０を備える。

　操作情報取得部１１０は、ユーザによる操作に関する操作情報を取得する。操作情報には、ディスプレイ３０に備えられた入力機器による各種の情報、ユーザによって選択された視覚情報のディスプレイ３０上の位置、視覚情報に紐づいた情報などが含まれてもよい。操作情報取得部１１０は、例えば、ディスプレイ３０が表示した入力用インタフェースを介したユーザの操作に関する操作情報、例えば、視覚情報の選択、音声情報の再生、終了、巻き戻し等の操作情報をディスプレイ３０から取得してもよい。また、例えば、ユーザにより選択されディスプレイ３０がタッチセンサを有する場合、操作情報取得部１１０は、ユーザがタッチしたディスプレイ３０の座標値をディスプレイ３０から取得してもよい。また、操作情報取得部１１０は、記憶部１４０に記憶された視覚情報に紐づいた情報を取得してもよい。操作情報取得部１１０は、例えば、情報処理システム１が音楽の試聴に利用される場合は、タッチ操作位置に表示された楽曲ジャケットに紐づいた音声情報、又は、発売日や演奏者等のメタデータを取得してもよい。

　音声情報取得部１２０は、ディスプレイ３０の表示における操作情報取得部１１０により取得されたタッチ操作位置の視覚情報に応じた音声情報を記憶部１４０から取得する。

　制御部１３０は、スピーカアレー２０による音声及びディスプレイ３０による表示を制御する。制御部１３０は、音源位置決定部１３１、出力制御部１３３、及び表示制御部１３５を有する。

　音源位置決定部１３１は、スピーカアレー２０によって生成される仮想音源の位置を決定する。音源位置決定部１３１は、例えば、ユーザの聴取位置を算出し、聴取位置に基づいて仮想音源の位置を決定してもよい。ここでいう聴取位置は、例えば、ユーザの頭部の位置、又はユーザの耳の位置である。また、以降、音源位置決定部１３１により決定される仮想音源の位置を、定位位置と呼称することもある。

　また、音源位置決定部１３１は、ディスプレイ３０に備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて聴取位置を算出してもよい。音源位置決定部１３１による仮想音源の生成位置の決定方法の一例を、図６を参照して説明する。図６は、音源位置決定部１３１によるユーザの聴取位置を算出する方法の一例を説明するための説明図である。

　例えば、ディスプレイ３０として、入力検出用のタッチセンサを有するタッチパネルが用いられる場合、音源位置決定部１３１は、以下のようにして、仮想音源の生成位置を決定してもよい。音源位置決定部１３１は、ユーザがタッチした位置の座標を取得する。音源位置決定部１３１は、例えば、図６に示すように、ユーザによるタッチ操作位置Ｐ_Ｔ（Ｘ_Ｔ、Ｚ_Ｔ）を取得する。音源位置決定部１３１は、例えば、所定の変換式を用いて、タッチ操作位置Ｐ_Ｔ（Ｘ_Ｔ、Ｚ_Ｔ）から聴取位置Ｐ_Ｈ（Ｘ_Ｈ、Ｚ_Ｈ）を算出し、音源位置を決定してもよい。具体的には、下記式（１）により、聴取位置Ｐ_Ｈは算出されてもよい。
　　　（Ｘ_Ｈ、Ｚ_Ｈ）＝（Ｘ_Ｔ、Ｚ_Ｔ＋Ｆ_Ｚ）　…式（１）
　Ｆ_Ｚは、Ｚ軸方向に関する補正係数である。

　式（１）は、ユーザがタッチするポイントは、Ｘ軸方向においてはユーザの正面であり、Ｚ軸方向においてはユーザの頭の高さより低い位置にあると仮定し、ユーザの頭部の位置に仮想音源が位置するように作成された変換式である。従って、式（１）では、Ｘ軸方向についてはタッチ操作位置の座標を用い、Ｚ軸方向については、タッチ操作位置を補正係数Ｆ_Ｚで補正した値を用いることで、定位位置を決定する。このときの補正係数Ｆ_Ｚは、一例として、０．１ｍ～０．３ｍの範囲で設定してもよい。

　上記のように、音源位置決定部１３１がユーザのタッチ操作位置に基づいて聴取位置を算出することで、ユーザが欲する音声情報をそのユーザに対して適切に提示することが可能となる。

　なお、変換式には、式（１）に限られず、その他の変換式が用いられてもよく、例えば、機械学習等により作成された変換式が用いられてもよい。機械学習等により作成された変換式が用いられることで、音源位置決定部１３１は、より正確に聴取位置を算出することが可能となる。

　上記では、タッチセンサによるタッチ操作位置に基づいて聴取位置の算出し、音源位置決定部１３１による定位位置を決定する方法を説明したが、音源位置決定部１３１は、ユーザが選択した視覚情報の位置情報を取得して、その位置情報に基づいて定位位置を決定すればよい。このような音源位置決定部１３１による定位位置の決定方法には、既存の技術を適用することができる。また、音源位置決定部１３１による定位位置の決定方法には、例えば、第２の実施形態で説明する、カメラによりユーザの頭部位置を検出する方法を適用してもよい。

　出力制御部１３３は、球面波を生じる仮想音源が音源位置決定部１３１により決定された位置に定位されるように、スピーカアレー２０からの出力を制御する。出力制御部１３３は、波面合成フィルタ処理を行い、仮想音源が定位位置に定位されるようにスピーカアレーからの出力を制御してもよい。具体的には、出力制御部１３３は、仮想音源を定位位置に定位するための波面合成フィルタを算出し、当該波面合成フィルタを用いて音声データに波面合成フィルタ処理を行ってもよい。このようなスピーカアレー２０からの出力の制御方法としては、既存の仮想音源生成技術を適用することが可能であり、例えば、既存の公開文献「Ｓ．Ｓｐｏｒｓ　ｅｔ　ａｌ．：“Ｐｈｙｓｉｃａｌ　ａｎｄ　Ｐｅｒｃｅｐｔｕａｌ　Ｐｒｏｐｅｒｔｉｅｓ　ｏｆ　Ｆｏｃｕｓｅｄ　Ｓｏｕｒｃｅｓ　ｉｎ　Ｗａｖｅ　Ｆｉｅｌｄ　Ｓｙｎｔｈｅｓｉｓ”，Ａｕｄｉｏ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｓｏｃｉｅｔｙ　Ｃｏｎｖｅｎｔｉｏｎ　Ｐａｐｅｒ，１２７ｔｈ　Ｃｏｎｖｅｎｔｉｏｎ　２００９　Ｏｃｔｏｂｅｒ　９－１２」に記載された技術を適用することが可能である。

　ここで、図７～図９及び図１０を参照して、出力制御部１３３により生成される仮想音源について説明する。図７～図９は、出力制御部１３３からの制御によってスピーカアレー２０が生成する仮想音源を説明するための説明図である。図１０は、平面波による音の伝搬の一例を説明するための説明図である。

　出力制御部１３３は、例えば、上述した公開文献に記載された方法を適用して、スピーカアレー２０からの出力を制御して球面波を生じる仮想音源Ｓを生成する。スピーカアレー２０が一方向にスピーカが並設されたラインアレースピーカである場合、スピーカアレー２０は、仮想音源Ｓのスピーカアレー２０の長手方向に沿った方向の位置を制御する。例えば、図７に示すように、出力制御部１３３がユーザＵの頭部の位置に仮想音源Ｓが位置するようにスピーカアレー２０を制御した場合、スピーカアレー２０によって生成される仮想音源Ｓは、図８に示すように、スピーカアレー２０の長手方向に対して垂直な断面（図８では、ＹＺ面）においてスピーカアレー２０から等距離の位置に複数生成する。音声情報は仮想音源Ｓから周囲に伝搬されるが、仮想音源Ｓが発する音は球面波であるため、平面波と比較して音の減衰が大きい。これにより、図９に示すように、出力制御部１３３は、ユーザＵの頭部の位置に仮想音源Ｓから出力される音の音圧を制御することで、仮想音源Ｓから離れた位置に存在する人Ｎによる仮想音源Ｓから出力される音声情報の認識を抑制することが可能となる。

　また、音が平面波である場合、図１０に示すように、平面波の伝搬方向に壁などの障害物が存在する場合、平面波は壁で反射されるため、設定された受聴エリア外において音声が漏れ出る可能性がある。一方、仮想音源Ｓが発する音は平面波と比較して音の減衰が大きいため、仮想音源Ｓが発した球面波が障害物に到達したときの球面波を十分減衰した状態にすることが可能である。その結果、仮想音源Ｓが出力した音声情報が受聴エリア外の人に認識されるのを抑制することが可能となる。

　また、出力制御部１３３は、音源位置決定部１３１が算出した聴取位置に基づいて決定した位置に仮想音源が定位されるようにスピーカアレー２０の出力を制御してもよい。聴取位置に仮想音源が定位されることで、仮想音源が発する音声情報の音量が小さい場合でも、ユーザは当該音声情報を聴取することが可能となり、ユーザの周囲に存在する人による当該音声情報の認識を抑制することが可能となる。

　また、出力制御部１３３は、複数の仮想音源が生成されるようにスピーカアレー２０の出力を制御してもよい。複数の仮想音源が生成されることで、複数のユーザに異なる音声情報を提示することが可能となる。

　表示制御部１３５は、ディスプレイ３０の表示を制御し、ディスプレイ３０によってユーザに提示する視覚情報を制御する。表示制御部１３５は、例えば、情報処理システム１が音楽試聴に用いられる場合、試聴可能な楽曲に関連する画像、例えば楽曲のジャケット、ミュージックビデオ等を表示してもよい。

　記憶部１４０は、制御部１３０が上記のような各種の処理を実施する際に利用する各種のプログラムやデータベース等が適宜記録されている。記憶部１４０は、例えば、音源位置決定部１３１が仮想音源の位置を決定するのに必要な変換式やタッチ操作位置の座標、タッチ操作位置の座標を変換して算出された定位位置の座標等、保存する必要が生じた様々なパラメータや処理の途中経過等が適宜記録されてもよい。また、記憶部１４０は、出力制御部１３３によって出力される音声情報、又は表示制御部１３５によってディスプレイ３０に表示される視覚情報を記憶してもよい。この記憶部１４０に対して、制御部１３０は、自由にリード／ライト処理を実施してもよい。

　通信部１５０は、ネットワーク４０を介して、スピーカアレー２０及びディスプレイ３０と各種情報の送受信を行う。通信部１５０は、例えば、ディスプレイ３０から視覚情報を受信し制御部１３０に出力する。通信部１５０は、ディスプレイ３０がタッチパネルである場合、ユーザのタッチ操作位置座標をディスプレイ３０から受信してもよい。また、通信部１５０は、出力制御部１３３からの出力指示をスピーカアレー２０に送信し、表示制御部１３５からの表示指示をディスプレイ３０に送信する。

　スピーカアレー２０は、出力制御部１３３の指示に応じて球面波を生じる仮想音源を生成し、当該仮想音源からディスプレイ３０に表示される視覚情報に応じた音声情報を発する。スピーカアレー２０には、例えば、複数のスピーカが配列されたラインアレースピーカが用いられる。仮想音源が定位される位置、仮想音源の数又は仮想音源から出力する音声の音量等に応じて、スピーカアレー２０に備えられるスピーカの個数、仕様などは変更されてよい。

　スピーカアレー２０は、音源位置決定部１３１により決定された位置に仮想音源を定位することができればよく、複数のスピーカが直線状に配列した形状、湾曲して配列した形状等、種々の形状とすることができる。また、スピーカアレー２０には、ラインアレースピーカが複数積み重ねられたものが用いられてもよい。例えば、スピーカアレー２０は、複数のスピーカが配列された方向である長手方向に対してラインアレースピーカが垂直に複数積み重ねられたものが用いられてもよい。

　スピーカアレー２０は、ユーザが視覚情報を認識してタッチ操作を行うことができる範囲に、仮想音源を定位することができるように設置されればよく、例えば、図１１に示すように、ディスプレイ３０の上方に設置されてもよい。

　ディスプレイ３０は、視覚情報を表示する。ディスプレイ３０は、複数の視覚情報を表示してもよい。ディスプレイ３０は、例えば、記憶部１４０に記憶された視覚情報を表示してもよい。また、ディスプレイ３０は、タッチセンサを備えていてもよい。当該タッチセンサがユーザのタッチを検出することにより、ディスプレイ３０に表示された複数の視覚情報のうちから音声情報が出力される視覚情報が選択される。

　ディスプレイ３０は、入力用インタフェースを表示してもよい。ディスプレイ３０は、ユーザの入力用インタフェースを介した操作により、音声情報の再生、終了、巻き戻し等の操作情報を操作情報取得部１１０に送信してもよい。なお、ディスプレイ３０は、マウス、キーボード等に例示される入力装置を備えていてもよい。

　ネットワーク４０は、ネットワーク４０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク４０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。

　ここで、図１１及び図１２を参照して、情報処理システム１の使用例を説明する。図１１及び図１２は、本実施形態に係る情報処理装置１０によりユーザに提示された情報を説明するための説明図である。図１１に示すように、ユーザＵの正面にディスプレイ３０が設置され、ディスプレイ３０の上方にはスピーカアレー２０が設置される。図１１では、ディスプレイ３０には、複数の視覚情報として、楽曲のジャケット画像が表示されている。ユーザＵによって選択された視覚情報がディスプレイ３０に大きく表示される。仮想音源Ｓは、ユーザＵの頭部の位置に定位され、仮想音源Ｓは、視覚情報に応じた音声情報、例えば、ジャケット画像に応じた楽曲を出力する。そして、ユーザＵは、その楽曲を聴取することが可能となる。なお、ディスプレイ３０には、ユーザＵが選択した視覚情報に関連するメタデータが表示されてもよい。

　また、情報処理システム１は、複数のユーザに同時に使用されてもよい。例えば、図１２に示すように、ユーザＵ１及びユーザＵ２がそれぞれ異なるジャケット画像を選択した場合、スピーカアレー２０は、２つの仮想音源を異なる位置に定位し、仮想音源ごとに異なる音声情報を出力してもよい。スピーカアレー２０により生成される仮想音源Ｓが発する球面波は、仮想音源Ｓからの距離に応じて大きく減衰する。そのため、例えば、情報処理システム１によれば、ユーザＵ１の頭部の位置に定位される仮想音源Ｓ１が発する音声情報をユーザＵ２が認識することが防止される。その結果、情報処理システム１は、互いのユーザの使用を害することなく、それぞれのユーザに対して異なる音声情報を同時に提示することが可能となる。

　ここまで、本実施形態にかかる情報処理システム１の構成について説明した。

［２－２．動作］
　続いて、図１３及び図１４を参照して、情報処理装置１０の動作について説明する。図１３は、本実施形態に係る情報処理装置１０の動作の一例を説明するための流れ図である。図１４は、本実施形態に係る情報処理装置１０の動作の一例を説明するための説明図である。なお、以下の説明においては、音楽の試聴を目的として本実施形態に係る情報処理装置１０が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置１０は、音楽の視聴に限定されないことはいうまでもない。

　まず、表示制御部１３５は、ディスプレイ３０に視覚情報を表示する（ステップＳ１０１）。表示制御部１３５は、例えば、記憶部１４０に記憶された楽曲のジャケット画像をディスプレイ３０に表示する。次に、ディスプレイ３０が有するタッチセンサは、ユーザによるタッチ操作を検出する（ステップＳ１０３）。ユーザによるタッチ操作がタッチセンサによって検出されると、操作情報取得部１１０は、ディスプレイ３０からタッチ操作位置の座標値を取得し、記憶部１４０からタッチ操作位置に表示されているジャケット画像に紐づいたメタデータを取得する（ステップＳ１０５）。音源位置決定部１３１は、操作情報取得部１１０からタッチ操作位置の座標値を取得し、当該座標値に基づいて定位位置を決定する（ステップＳ１０７）。次いで、出力制御部１３３は、音源位置決定部１３１により決定された仮想音源の定位位置に仮想音源を定位するための波面合成フィルタを計算する（ステップＳ１０９）。

　次いで、音声情報取得部１２０は、操作情報取得部１１０からタッチ操作位置の座標値を取得する。音声情報取得部１２０は、タッチ操作位置に表示されたジャケットに応じたオーディオデータを記憶部１４０から取得し、出力制御部１３３に当該オーディオデータを入力する（ステップＳ１１１）。続いて、出力制御部１３３は、入力されたオーディオデータに対し、算出された波面合成フィルタを用いた波面合成フィルタ処理を施す。そして、出力制御部１３３は、波面合成フィルタ処理が施されたデジタル信号である波面合成信号をスピーカアレー２０に送信する（ステップＳ１１３）。スピーカアレー２０は、ＤＡＣ（Ｄｉｇｉｔａｌ　Ａｎａｌｏｇ　Ｃｏｎｖｅｒｔｅｒ）で波面合成信号をアナログ信号に変換し、変換されたアナログ信号を音声に変換して発することで、定位位置に仮想音源を定位し、ジャケットに応じた楽曲を仮想音源から出力する（ステップＳ１１５）。このとき、表示制御部１３５は、操作情報取得部１１０からタッチ位置関連情報を取得し、ディスプレイ３０にメタデータを表示してもよい。楽曲の再生が完了、又はユーザの操作により停止されることで音声の出力は終了する。

＜３．第２の実施形態＞
［３－１．構成］
　続いて、図１５及び図１６を参照して、本開示の第２の実施形態に係る情報処理システム２及び情報処理装置５０ついて説明する。図１５は、本開示の第２の実施形態に係る情報処理システム２の構成の一例を示すブロック図である。図１６は、本実施形態に係る情報処理装置５０の構成の一例を示すブロック図である。

　本実施形態に係る情報処理システム２は、図１５に示すように、情報処理装置５０、スピーカアレー２０、ディスプレイ３０、ネットワーク４０及びカメラ６０を備える。情報処理システム２が備える、スピーカアレー２０、ディスプレイ３０及びネットワーク４０は第１の実施形態と同様である。しかし、本実施形態に係る情報処理システム２は、カメラ６０を有する点で第１の実施形態と相違する。スピーカアレー２０、ディスプレイ３０及びネットワーク４０は第１の実施形態で説明したものと同様であるため、ここでの詳細な説明は省略する。

　本実施形態に係る情報処理装置５０は、図１６に示すように、制御部１３０、記憶部１４０、通信部１５０及び頭部位置検出部１６０を備える。情報処理装置５０が備える、制御部１３０、記憶部１４０及び通信部１５０の機能は、第１の実施形態で説明したものと同様である。しかし、本実施形態に係る情報処理装置５０は、頭部位置検出部１６０を有する点で第１の実施形態と相違する。制御部１３０が有する、操作情報取得部１１０、音声情報取得部１２０、出力制御部１３３、制御部１３０が有する表示制御部１３５、記憶部１４０及び通信部１５０の機能は、第１の実施形態で説明したものと同様であるため、ここでの詳細な説明は省略する。

　頭部位置検出部１６０は、カメラ６０によって撮像された画像からユーザの頭部を検出し、ユーザの頭部位置を検出する。頭部位置検出部１６０は、例えば、公知の顔検出技術を用いてユーザの頭部位置を検出することができる。頭部位置検出部１６０は、例えば、カメラ６０によって撮像された画像を随時取得してユーザの頭部位置を随時検出してもよいし、ユーザがディスプレイに対する入力操作を行ったときに撮像された画像をカメラ６０から取得して、当該画像からユーザの頭部位置を検出してもよい。

　音源位置決定部１３１は、第１の実施形態で説明した機能に加え、頭部位置検出部１６０によって検出された頭部位置に基づいて定位位置を決定してもよい。音源位置決定部１３１は、ユーザによる所定の入力操作が検出されたときに頭部位置検出部１６０によって検出されたユーザの頭部の位置に基づいて定位位置を決定してもよい。音源位置決定部１３１は、例えば、ディスプレイ３０に備えられるタッチセンサによって、ユーザによるタッチ操作が検出されたときの、頭部位置検出部１６０によって検出されたユーザの頭部の位置を定位位置に決定してもよい。

　カメラ６０は、情報処理システム２が設置される空間の少なくとも一部を撮像して画像を生成する。カメラ６０は、例えば、当該空間のうちのユーザが存在する可能性がある範囲の画像を取得できるように設置される。カメラ６０により撮像された画像は、頭部位置検出部１６０に送信される。

　ここまで、本実施形態にかかる情報処理システム２の構成について説明した。

［３－２．動作］
　続いて、図１７及び図１８を参照して、情報処理装置５０の動作について説明する。図１７は、本実施形態に係る情報処理装置５０の動作の一例を説明するための流れ図である。図１８は、本実施形態に係る情報処理装置５０の動作の一例を説明するための説明図である。図１７に示したステップＳ２０１、ステップＳ２０３、ステップＳ２０５、ステップＳ２０９～ステップＳ２１５のそれぞれは、それぞれ第１の実施形態において説明したステップＳ１０１、ステップＳ１０３、ステップＳ１０５、ステップＳ１０９～ステップＳ１１５と同様であるため、ここでの詳細な説明は省略する。本実施形態に係る情報処理装置５０の動作は、頭部位置検出ステップＳ２０４の動作が含まれる点で、第１の実施形態に係る情報処理装置１０の動作と異なる。なお、以下の説明においては、第１の実施例と同様に、音楽の試聴を目的として本実施形態に係る情報処理装置５０が適用される場合を例に挙げて説明するが、本実施形態に係る情報処理装置５０は、音楽の視聴に限定されないことはいうまでもない。

　ステップＳ２０４において、頭部位置検出部１６０は、ユーザの頭部の位置を検出する。頭部位置検出部１６０は、例えば、カメラ６０によって撮像された画像を随時取得してユーザの頭部位置を随時検出してもよいし、ユーザがディスプレイに対する入力操作を行ったときに撮像された画像をカメラ６０から取得して、当該画像からユーザの頭部位置を検出してもよい。

　ステップＳ２０７において、音源位置決定部１３１は、頭部位置検出部１６０によって検出された頭部位置に基づいて定位位置を決定する。そして、ステップＳ２０９～ステップＳ２１５が実行された後、楽曲の再生が完了、又はユーザの操作により停止されることで音声の出力は終了する。以上の動作により、情報処理装置５０は、より正確に、ユーザの頭部の位置に仮想音源を定位させることが可能となる。その結果、仮想音源から出力される音声情報の音量を不要に大きくすることなくユーザに音声情報を提示することが可能となり、周囲の人による当該音声情報の認識を抑制することが可能となる。

＜４．変形例＞
［４－１．第１の変形例］
　第１の実施形態に係る情報処理システム１及び第２の実施形態に係る情報処理システム２では、スピーカアレー２０及びディスプレイ３０がそれぞれ１つ備えられる場合を説明したが、情報処理システムに備えられるスピーカアレー２０及びディスプレイ３０は、複数であってもよい。図１９を参照して、スピーカアレー２０及びディスプレイ３０が複数備えられる情報処理システムを説明する。図１９は、情報処理システムの第１の変形例を説明するための説明図である。

　本変形例に係る情報処理システムは、例えば、３つのスピーカアレー２０と、３つのディスプレイ３０を備えてもよい。図１９に示すように３つのスピーカアレー２０のうち、スピーカアレー２０Ａとスピーカアレー２０Ｃは、互いに対向するように設置されてもよく、３つのディスプレイ３０のうち、ディスプレイ３０Ａとディスプレイ３０Ｃは、互いに対向するように設置されてもよい。スピーカアレー２０が生成する仮想音源Ｓが発する球面波は、仮想音源Ｓからの距離に応じて大きく減衰する。そのため、本変形例かかる情報処理システムによれば、ユーザＵＡの後方に存在するユーザＵＣがスピーカアレー２０Ａにより生成される仮想音源ＷＡが発する音声情報を認識することが防止される。従って、本変形例に係る情報処理システム１は、複数のスピーカアレー２０を互いに対向する位置に設置することが可能である。

［４－２．第２の変形例］
　上記では、ユーザの頭部の位置を仮想音源の定位位置に決定する場合を例に挙げて説明したが、音源位置決定部１３１は、仮想音源の定位位置をユーザの右耳の位置及び左耳の位置に決定してもよい。出力制御部１３３は、図２０に示すように、ユーザの右耳の位置及び左耳の位置のそれぞれに仮想音源が定位されるように、スピーカアレー２０の出力を制御してもよい。図２０は、情報処理システムの第２の変形例を説明するための説明図である。この場合、例えば、音源位置決定部１３１は、下記式（２）及び下記式（３）を用いて、タッチ操作位置Ｐ_Ｔ（Ｘ_Ｔ、Ｚ_Ｔ）から、ユーザの右耳の位置に対応する聴取位置Ｐ_ＨＲ（Ｘ_ＨＲ、Ｚ_ＨＲ）及びユーザの左耳の位置に対応する聴取位置Ｐ_ＨＬ（Ｘ_ＨＬ、Ｚ_ＨＬ）を算出し、定位位置を決定してもよい。
　　　（Ｘ_ＨＲ、Ｚ_ＨＲ）＝（Ｘ_Ｔ－Ｆ_Ｘ、Ｚ_Ｔ＋Ｆ_Ｚ）　…式（２）
　　　（Ｘ_ＨＬ、Ｚ_ＨＬ）＝（Ｘ_Ｔ＋Ｆ_Ｘ、Ｚ_Ｔ＋Ｆ_Ｚ）　…式（３）
　Ｆ_ＸはＸ軸方向に関する補正係数であり、Ｆ_ＺはＺ軸方向に関する補正係数である。

　補正係数Ｆ_Ｘを用いることで、Ｘ軸方向におけるユーザのタッチ操作位置をユーザの右耳の位置及び左耳の位置に変換し、補正係数Ｆ_Ｚを用いることで、Ｚ軸方向におけるユーザのタッチ操作位置をユーザの右耳の位置及び左耳の位置に変換することができる。このときの補正係数Ｆ_Ｘは、一例として、０．１ｍとしてもよく、補正係数Ｆ_Ｚは、０．１ｍ～０．３ｍの範囲で設定してもよい。

　これにより、右耳の位置に定位された仮想音源及び左耳の位置に定位された仮想音源は、それぞれ異なる音声情報を再生することができ、音声をステレオ再生することが可能となる。

　ユーザの右耳の位置と左耳の位置に仮想音源が定位されるように出力制御部１３３がスピーカアレー２０の出力を制御する場合、この出力制御部１３３は、頭部伝達関数を用いたフィルタ処理を行ってもよい。頭部伝達関数によるフィルタ処理が施された音声が、右耳の位置に定位された仮想音源及び左耳の位置に定位された仮想音源から出力されることで、ユーザに対してより高い臨場感を提供することが可能となる。

［４－３．第３の変形例］
　上記では、ディスプレイ３０の上方にスピーカアレー２０が設置される場合を例示して情報処理システム１及び情報処理システム２を説明したが、先立って説明したようにスピーカアレー２０は、ユーザが視覚情報を認識してタッチ操作を行うことができる範囲に、仮想音源を定位することができるように設置されればよい。スピーカアレー２０は、例えば、図２１に示すように、ディスプレイ３０の背面に、ラインアレースピーカが複数積み重ねられて設置されてもよい。スピーカアレー２０が一つのラインアレースピーカである場合、図７を参照して先立って説明したように、ラインアレースピーカの長手方向に対して垂直な断面におけるスピーカアレー２０から等距離の位置に仮想音源が複数生成する。しかし、ラインアレースピーカが複数積み重ねられたスピーカアレー２０では、仮想音源の定位位置をラインアレースピーカの長手方向に対して垂直な方向に対しても制御することが可能となる。その結果、スピーカアレー２０が生成する仮想音源は、点状の音源として生成可能となる。これにより、例えば、ラインアレースピーカが積層して形成されたスピーカアレー２０をディスプレイ３０の後方に設置して、点状の仮想音源をディスプレイ３０の表示面に定位することで、ディスプレイ３０に表示された画像の位置から音声情報を出力することが可能となる。その結果、ユーザは、あたかもディスプレイ３０に表示された画像が音を発しているような感覚を得ることが可能となる。

　なお、上記した第１の変形例～第３の変形例は、第１の実施形態又は第２の実施形態に組み合わせてよい。

＜５．ハードウェア構成＞
　以上、本開示に係る実施形態について説明した。上述した情報処理は、ソフトウェアと、以下に説明する情報処理システム又は情報処理装置のハードウェアとの協働により実現される。

　図２２は、本開示の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図２１を参照すると、情報処理装置は、例えば、ＣＰＵ９０１と、ＲＯＭ９０２と、ＲＡＭ９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、表示装置９０９と、音声出力装置９１０と、ストレージ装置９１１と、ドライブ９１２と、接続ポート９１３と、リムーバブル記憶媒体９１４と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　ＣＰＵ９０１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、ストレージ装置９１１、又はリムーバブル記憶媒体９１４に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＣＰＵ９０１は、操作情報取得部１１０、音声情報取得部１２０、制御部１３０、及び頭部位置検出部１６０を形成し得る。

　ＲＯＭ９０２は、ＣＰＵ９０１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０３には、例えば、ＣＰＵ９０１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　ＣＰＵ９０１、ＲＯＭ９０２、ＲＡＭ９０３は、例えば、高速なデータ伝送が可能なホストバス９０４を介して相互に接続される。一方、ホストバス９０４は、例えば、ブリッジ９０５を介して比較的データ伝送速度が低速な外部バス９０６に接続される。また、外部バス９０６は、インタフェース９０７を介して種々の構成要素と接続される。

　入力装置９０８には、例えば、タッチパネル、マウス、キーボード等が用いられ得る。さらに、入力装置９０８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。本開示の一実施形態に係る情報処理システムでは、入力装置９０８は、ディスプレイ３０備えられたタッチセンサ（タッチパネル）に相当する。

　表示装置９０９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等が適用されたディスプレイ３０であり、音声出力装置９１０はスピーカアレー２０である。表示装置９０９及び音声出力装置９１０は、いずれも取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

　ストレージ装置９１１は、各種のデータを格納するための装置である。ストレージ装置９１１としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。ストレージ装置９１１は、記憶部１４０に相当する。

　ドライブ９１２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体９１４に記録された情報を読み出し、又はリムーバブル記憶媒体９１４に情報を書き込む装置である。

　リムーバブル記憶媒体９１４は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体９１４は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　接続ポート９１３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

＜６．結び＞
　以上説明したように、本開示によれば、周囲への音漏れを抑制しつつ、ユーザに対して、ディスプレイに表示された情報に応じた音声情報を提供することが可能となる。また、出力された音声情報が対象とするユーザ以外に認識されることが抑制され、ユーザ以外の人の情報取得行為が阻害されないようにすることが可能となる。

　また、本開示に係る情報処理システムには、ヘッドホンなどの装着機器を必要としないため、装着機器を装着する手間が省け、装着による不快感の発生を防止することが可能となる。

　また、装着機器の摩耗等による劣化がないため、メンテナンスコストの削減が可能となる。また、特殊な指向性スピーカ又は超音波スピーカを使用する必要がないため、製造コストの削減が可能となる。

　また、本開示に係る情報処理システムによれば、ユーザの入力操作により音声情報が提示されるため、非ユーザが当該情報処理システム付近に存在するだけでは、音声情報は出力されず、誤作動が抑制される。

　また、本開示に係る情報処理システムによれば、仮想音源が発する音声は球面波であり音声の減衰が大きいため、ユーザのみに音声が認識される程度の音量で音声情報を提示することができる。これにより、非ユーザの当該音声情報の認識が抑制され、非ユーザに不快感を与えることが防止される。

　また、本開示に係る情報処理システムは、スピーカアレーの近接設置及びスピーカアレーの対面設置が可能となるため、設置空間の有効活用が可能となる。また、設置場所の単位面積当たりの、本開示に係る情報処理システムを使用できるユーザ数を増やすことが可能となる。

　一般的な指向性スピーカ、指向性波面の合成技術では困難であったステレオによる情報提示が可能となり、ユーザに対してより高い臨場感、定位感のある音声を提供可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、又は、上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書において流れ図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置。
（２）
　前記出力制御部は、波面合成フィルタ処理を行い、前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する、前記（１）に記載の情報処理装置。
（３）
　前記音源位置決定部は、ユーザの聴取位置を算出して前記聴取位置に基づいて前記仮想音源の位置を決定し、
　前記出力制御部は、前記位置に前記仮想音源が定位されるように前記スピーカアレーからの出力を制御する、前記（１）又は（２）に記載の情報処理装置。
（４）
　前記音源位置決定部は、前記ディスプレイに備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて前記聴取位置を算出する、前記（３）に記載の情報処理装置。
（５）
　ユーザの頭部の位置を検出する頭部位置検出部をさらに備え、
　前記音源位置決定部は、ユーザによる所定の入力操作が検出されたときに前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記（１）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記音源位置決定部は、前記ディスプレイに備えられてユーザのタッチ操作を検出するタッチセンサによってユーザのタッチ操作が検出されたときの、前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、前記（５）に記載の情報処理装置。
（７）
　前記出力制御部は、複数の仮想音源を出力する、前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記出力制御部は、複数の前記視覚情報のそれぞれに応じて異なる音声情報を出力する複数の前記仮想音源が生成されるように、前記スピーカアレーからの出力を制御する、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）
　前記出力制御部は、前記仮想音源がユーザの右耳の位置又は左耳の位置の少なくともいずれかに定位するように、前記スピーカアレーからの出力を制御する、前記（８）に記載の情報処理装置。
（１０）
　前記出力制御部は、頭部伝達関数を用いたフィルタ処理を行う、前記（９）に記載の情報処理装置。
（１１）
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、
を備える、情報処理システム。
（１２）
　プロセッサが、
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定することと、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、
を含む、情報処理方法。
（１３）
　コンピュータを、
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラム。

　１、２　　　情報処理システム
　１０、５０　　　情報処理装置
　２０　　　スピーカアレー
　３０　　　ディスプレイ
　４０　　　ネットワーク
　６０　　　カメラ
　１１０　　　操作情報取得部
　１２０　　　音声情報取得部
　１３０　　　制御部
　１３１　　　音源位置決定部
　１３３　　　出力制御部
　１３５　　　表示制御部
　１４０　　　記憶部
　１５０　　　通信部
　１６０　　　頭部位置検出部

Claims

　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように、前記スピーカアレーからの出力を制御する出力制御部と、を備える、情報処理装置。
　前記出力制御部は、波面合成フィルタ処理を行い、前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する、請求項１に記載の情報処理装置。
　前記音源位置決定部は、ユーザの聴取位置を算出して前記聴取位置に基づいて前記仮想音源の位置を決定し、
　前記出力制御部は、前記位置に前記仮想音源が定位されるように前記スピーカアレーからの出力を制御する、請求項１に記載の情報処理装置。
　前記音源位置決定部は、前記ディスプレイに備えられ、ユーザのタッチ操作を検出するタッチセンサにより検出されたタッチ操作位置に基づいて前記聴取位置を算出する、請求項３に記載の情報処理装置。
　ユーザの頭部の位置を検出する頭部位置検出部をさらに備え、
　前記音源位置決定部は、ユーザによる所定の入力操作が検出されたときに前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、請求項１に記載の情報処理装置。
　前記音源位置決定部は、前記ディスプレイに備えられてユーザのタッチ操作を検出するタッチセンサによってユーザのタッチ操作が検出されたときの、前記頭部位置検出部によって検出された前記ユーザの頭部の位置に基づいて前記仮想音源の位置を決定する、請求項５に記載の情報処理装置。
　前記出力制御部は、複数の仮想音源を出力する、請求項１に記載の情報処理装置。
　前記出力制御部は、複数の前記視覚情報のそれぞれに応じて異なる音声情報を出力する複数の前記仮想音源が生成されるように、前記スピーカアレーからの出力を制御する、請求項１に記載の情報処理装置。
　前記出力制御部は、前記仮想音源がユーザの右耳の位置又は左耳の位置の少なくともいずれかに定位するように、前記スピーカアレーからの出力を制御する、請求項８に記載の情報処理装置。
　前記出力制御部は、頭部伝達関数を用いたフィルタ処理を行う、請求項９に記載の情報処理装置。
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部と、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部と、
を備える、情報処理システム。
　プロセッサが、
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定することと、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御することと、
を含む、情報処理方法。
　コンピュータを、
　スピーカアレーによって生成されて球面波を生じる仮想音源の位置を決定する音源位置決定部、
　ディスプレイに表示された情報である視覚情報に応じた音声情報を出力する前記仮想音源が前記位置に定位されるように前記スピーカアレーからの出力を制御する出力制御部、として機能させるためのプログラム。