WO2022064905A1

WO2022064905A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2022064905A1
Application number: PCT/JP2021/030340
Authority: WO
Inventors: 剛五十嵐; 真己新免; 宏平浅田; 善之黒田; 正輝鎌田
Original assignee: ソニーグループ株式会社
Priority date: 2020-09-25
Filing date: 2021-08-19
Publication date: 2022-03-31
Also published as: JPWO2022064905A1; CN116210234A; EP4221262A4; US20230336934A1; EP4221262A1

Abstract

情報処理装置（３０）は、音源抽出部（３４１）とマッピング処理部（３４３）とを有する。音源抽出部（３４１）は、オーディオコンテンツ（ＡＣ）から異なる音源に対応する１以上のオーディオデータ（ＡＤ）を抽出する。マッピング処理部（３４３）は、発音機構を有する組み合わせ可能な１以上の表示ユニット（１２）から、オーディオデータ（ＡＤ）ごとに、オーディオデータ（ＡＤ）のマッピング先となる１以上の表示ユニット（１２）を選択する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　複数のスピーカを用いて音場と映像とを連動させる技術が知られている。例えば、特許文献１には、ファントム音像の位置を、ディスプレイに表示された音源の位置に連動して制御するシステムが開示されている。

特開２０１１－２５９２９８号公報

　ファントム音像方式では、正しく音像が再現される視聴位置の範囲が狭い。そのため、映像と音声との一体感が得られにくい。

　そこで、本開示では、映像と音声との一体感が得られやすい情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出する音源抽出部と、発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択するマッピング処理部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

オーディオ・ビデオコンテンツ出力システムの概略構成を示す図である。制御システムの構成を示す図である。オーディオデコーダの構成を示す図である。タイリングディスプレイの概略構成を示す図である。表示ユニットの構成および配置の一例を示す図である。タイリングディスプレイおよびスピーカユニット再生周波数の説明図である。表示ユニットの再生周波数と再生時の振動の大きさとの関係を示す図である。表示ユニットの論理番号を説明する図である。表示ユニットの論理番号を説明する図である。表示ユニットの論理番号を説明する図である。キャビネットと制御システムとの接続形態の一例を示す図である。キャビネットと制御システムとの接続形態の一例を示す図である。キャビネットと表示ユニットとの接続形態の一例を示す図である。オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。チャンネルベースオーディオのオーディオデータのマッピング処理の一例を示す図である。オブジェクトベースオーディオのオーディオデータのマッピング処理の一例を示す図である。オブジェクトベースオーディオのオーディオデータのマッピング処理の一例を示す図である。チャンネルベースオーディオのオーディオデータのマッピング処理の他の例を示す図である。奥行方向の音像の制御方法を説明する図である。奥行方向の音像の制御方法を説明する図である。奥行方向の音像の制御方法を説明する図である。奥行方向の音像の制御方法を説明する図である。音像の定位強調制御技術の他の例を示す図である。スピーカユニットの配置の一例を示す図である。表示ユニットの位置の検出方法の一例を示す図である。表示ユニットの位置の検出に用いられるマイクの配置を示す図である。表示ユニットの物理位置の検出方法の他の例を示す図である。再生音の指向性制御を説明する図である。視聴者ごとに異なる再生音を振り分ける例を示す図である。制御システムが行う情報処理方法の一例を示すフローチャートである。オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。オーディオ・ビデオコンテンツ出力システムをシアターに適用した例を示す図である。スピーカユニットの配置の一例を示す図である。スピーカユニットの配置の他の例を示す図である。空間特性の測定に用いられるマイクの配置を示す図である。オーディオ・ビデオコンテンツ出力システムをテレプレゼンスシステムに適用した例を示す図である。オブジェクト音の集音処理および再生処理の一例を示す図である。オーディオ・ビデオコンテンツ出力システムをデジタルサイネージシステムに適用した例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．オーディオ・ビデオコンテンツ出力システムの概要］
　［１－１．システムの構成例］
　［１－２．制御システムの構成］
　［１－３．表示ユニットの構成および配置形態］
　［１－４．表示ユニットの論理番号］
　［１－５．キャビネットと制御システムとの接続形態］
　［１－６．キャビネットと表示ユニットとの接続形態］
［２．第１実施形態］
　［２－１．システムのイメージ］
　［２－２．チャンネルベースオーディオのオーディオデータのマッピング処理］
　［２－３．オブジェクトベースオーディオのオーディオデータのマッピング処理］
　［２－４．ＤＮＮエンジンを用いた音源配置］
　［２－５．奥行方向の音像の制御］
　［２－６．音像の定位強調制御］
　　［２－６－１．帯域の拡大による音像定位能の強化］
　　［２－６－２．先行音効果による音像定位能の強化］
　［２－７．スピーカユニットの配置］
　［２－８．表示ユニットの位置の検出方法］
　［２－９．再生音の指向性制御］
　［２－１０．情報処理方法］
　［２－１１．効果］
［３．第２実施形態］
　［３－１．システムのイメージ］
　［３－２．スピーカユニットの配置］
　［３－３．内蔵マイクによる空間特性の測定および残響キャンセル］
［４．第３実施形態］
　［４－１．システムのイメージ］
　［４－２．オブジェクト音の集音および再生］
［５．第４実施形態］

［１．オーディオ・ビデオコンテンツ出力システムの概要］
［１－１．システムの構成例］
　図１は、オーディオ・ビデオコンテンツ出力システム１の概略構成を示す図である。

　オーディオ・ビデオコンテンツ出力システム１は、コンテンツデータＣＤからオーディオ・ビデオコンテンツを再生して視聴者Ｕに提示するシステムである。オーディオ・ビデオコンテンツ出力システム１は、タイリングディスプレイ１０と、複数のスピーカユニット２０と、制御システム３０と、を有する。

　タイリングディスプレイ１０は、タイル状に並べられた複数の表示ユニット１２を有する。タイリングディスプレイ１０は、マトリックス状に組み合わすことが可能な１以上の表示ユニット１２により形成される単一の大型のスクリーンＳＣＲを有する。表示ユニット１２は、映像と音声の双方を再生する。タイリングディスプレイ１０は、映像を表示する表示ユニット１２から映像に関連する音を出力する。以下の説明では、鉛直方向をタイリングディスプレイ１０の高さ方向と記載する。高さ方向と直交する表示ユニット１２の並び方向をタイリングディスプレイ１０の幅方向と記載する。高さ方向および幅方向と直交する方向をタイリングディスプレイ１０の奥行方向と記載する。

　タイリングディスプレイ１０の周囲には複数のスピーカユニット２０が配置されている。図１の例では、複数のスピーカユニット２０として、第１アレイスピーカ２１と、第２アレイスピーカ２２と、サブウーファ２３と、が設けられている。第１アレイスピーカ２１および第２アレイスピーカ２２は、複数のスピーカＡＳＰ（図１５参照）がライン状に並ぶラインアレイスピーカである。第１アレイスピーカ２１は、タイリングディスプレイ１０の上辺に沿って配置されている。第２アレイスピーカ２２は、タイリングディスプレイ１０の下辺に沿って配置されている。複数のスピーカユニット２０は、タイリングディスプレイ１０とともに、表示映像に関連する音を出力する。

　制御システム３０は、コンテンツデータＣＤから抽出された各種情報を処理する情報処理装置である。制御システム３０は、コンテンツデータＣＤから異なる音源に対応する１以上のオーディオデータＡＤ（図３参照）を抽出する。制御システム３０は、再生環境となる複数の表示ユニット１２および複数のスピーカユニット２０の構成に関する再生環境情報３５２（図３参照）を取得する。制御システム３０は、再生環境情報３５２に基づいてレンダリングを行い、各オーディオデータＡＤを再生環境にマッピングする。

［１－２．制御システムの構成］
　図２は、制御システム３０の構成を示す図である。

　制御システム３０は、デマルチプレクサ３１と、ビデオデコーダ３２と、オーディオデコーダ３３と、を有する。デマルチプレクサ３１は、外部機器からコンテンツデータＣＤを取得する。コンテンツデータＣＤは、ビデオコンテンツＶＣに関する情報とオーディオコンテンツＡＣに関する情報とを含む。デマルチプレクサ３１は、コンテンツデータＣＤからビデオコンテンツＶＣとオーディオコンテンツＡＣとを分離して生成する。

　ビデオデコーダ３２は、ビデオコンテンツＶＣから映像出力信号を生成し、映像出力信号線ＶＬを介して複数の表示ユニット１２に出力する。オーディオデコーダ３３は、オーディオコンテンツＡＣから１以上のオーディオデータＡＤを抽出する。オーディオデコーダ３３は、各オーディオデータＡＤを複数の表示ユニット１２および複数のスピーカユニット２０にマッピングする。オーディオデコーダ３３は、マッピングに基づいて生成された音響出力信号を音響出力信号線ＡＬを介して複数の表示ユニット１２および複数のスピーカユニット２０に出力する。

　制御システム３０は、チャンネルベースオーディオ、オブジェクトベースオーディオおよびシーンベースオーディオの各種方式のオーディオコンテンツＡＣを扱うことができる。制御システム３０は、再生環境情報３５２に基づいてオーディオコンテンツＡＣにレンダリング処理を行う。これにより、再生環境となる複数の表示ユニット１２および複数のスピーカユニット２０にオーディオデータＡＤがマッピングされる。

　例えば、チャンネルベースオーディオのオーディオコンテンツＡＣは、チャンネルごとに生成された１以上のオーディオデータＡＤを含む。制御システム３０は、サブウーファ２３以外のチャンネルのオーディオデータＡＤのマッピング先を、チャンネルの配置に基づいて、複数の表示ユニット１２および複数のスピーカＡＳＰから選択する。

　オブジェクトベースオーディオのオーディオコンテンツＡＣは、オブジェクト（素材音）ごとに生成された１以上のオーディオデータと、メタ情報と、を含む。メタ情報は、オブジェクトごとの、位置ＯＢ、音の広がり、および、各種エフェクトなどの情報を含む。制御システム３０は、メタ情報に規定されたオブジェクトの位置ＯＢに基づいて、オーディオデータＡＤのマッピング先を複数の表示ユニット１２および複数のスピーカＡＳＰから選択する。制御システム３０は、オブジェクトの位置ＯＢの移動に合わせて、オブジェクトのオーディオデータＡＤのマッピング先となる表示ユニット１２を変化させる。

　シーンベースオーディオは、視聴者Ｕを取り巻く空間全体の物理情報を３６０°の全天球空間に記録および再生する方式である。シーンベースオーディオのオーディオコンテンツＡＣは、Ｗ（無指向成分）、Ｘ（前後の広がり成分）、Ｙ（左右の広がり成分）およびＺ（上下の広がり成分）のチャンネルに対応した４つのオーディオデータＡＤを含む。制御システム３０は、記録された物理情報に基づいて、オーディオデータＡＤのマッピング先を複数の表示ユニット１２および複数のスピーカＡＳＰから選択する。

　図３は、オーディオデコーダ３３の構成を示す図である。

　オーディオデコーダ３３は、演算部３４と記憶部３５とを有する。演算部３４は、音源抽出部３４１と、帯域分割部３４２と、マッピング処理部３４３と、位置検出部３４４と、音源位置推定部３４５と、を有する。

　音源抽出部３４１は、オーディオコンテンツＡＣから１以上のオーディオデータＡＤを抽出する。例えば、オーディオデータＡＤは音源ごとに生成されている。例えば、チャンネルベースオーディオのオーディオコンテンツＡＣからは、音源となるチャンネルごとに生成された１以上のオーディオデータＡＤが抽出される。オブジェクトベースオーディオのオーディオコンテンツＡＣからは、音源となるオブジェクトごとに生成された１以上のオーディオデータＡＤが抽出される。

　帯域分割部３４２は、オーディオデータＡＤを周波数帯域ごとに分割する。帯域分割処理は、例えば、オーディオデータＡＤの重低音成分をカットしてから行われる。帯域分割部３４２は、オーディオデータＡＤを分割して得られた１以上の波形データＰＡＤをマッピング処理部３４３に出力する。帯域分割処理は、重低音以外の周波数成分を有するオーディオデータＡＤに対して行われる。重低音のみのオーディオデータＡＤは、音源抽出部３４１からマッピング処理部３４３を介してサブウーファ２３にマッピングされる。

　マッピング処理部３４３は、帯域分割部３４２から出力された１以上の波形データＰＡＤを周波数帯域に応じてタイリングディスプレイ１０（表示ユニット１２）および複数のスピーカユニット２０にマッピングする。

　マッピング処理部３４３は、複数の表示ユニット１２および複数のスピーカＡＳＰから、オーディオデータＡＤごとに、オーディオデータＡＤのマッピング先となる１以上の表示ユニット１２または１以上のスピーカＡＳＰ、もしくは、１以上の表示ユニット１２および１以上のスピーカＡＳＰを選択する。

　例えば、オーディオデータＡＤがチャンネルベースオーディオのオーディオコンテンツＡＣから抽出されたマルチチャンネルスピーカ用のオーディオデータである場合、マッピング処理部３４３は、マルチチャンネルスピーカの配置によって決まる１以上の表示ユニット１２または１以上のスピーカＡＳＰ、もしくは、１以上の表示ユニット１２および１以上のスピーカＡＳＰをマッピング先として選択する。

　オーディオデータＡＤがオブジェクトベースオーディオのオーディオコンテンツＡＣから抽出されたオブジェクトのオーディオデータである場合、マッピング処理部３４３は、オーディオコンテンツＡＣから抽出されたオブジェクトの位置ＯＢに対応する１以上の表示ユニット１２または１以上のスピーカＡＳＰ、もしくは、１以上の表示ユニット１２および１以上のスピーカＡＳＰをマッピング先として選択する。

　位置検出部３４４は、複数の表示ユニット１２の空間配置を検出する。空間配置の検出は、表示ユニット１２から出力された音または映像などの測定データＭＤに基づいて行われる。位置検出部３４４は、検出された空間配置に基づいて各表示ユニット１２に論理番号ＬＮを付与する。マッピング処理部３４３は、論理番号ＬＮに基づいてマッピング先を特定する。

　音源位置推定部３４５は、オーディオデータＡＤごとに、オーディオデータＡＤの音源が表示された位置を推定する。音源位置推定部３４５は、音源の位置情報を持たないオーディオデータＡＤが入力された場合に、その音源の映像内での位置を特定するために用いられる。マッピング処理部３４３は、音源の表示位置に対応する１以上の表示ユニット１２をマッピング先として選択する。

　例えば、音源位置推定部３４５は、音源抽出部３４１において抽出された１以上のオーディオデータＡＤとビデオコンテンツＡＣとを分析モデル３５１に当てはめる。分析モデル３５１は、機械学習によって、オーディオデータＡＤと映像内の音源の位置との関係を学習したＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）エンジンである。音源位置推定部３４５は、分析モデル３５１による分析結果に基づいて、音源が表示されたスクリーンＳＣＲ内の位置を推定する。

　記憶部３５は、例えば、演算部３４が実行するプログラム３５３と、分析モデル３５１と、再生環境情報３５２と、を記憶する。プログラム３５３は、制御システム３０が担う情報処理をコンピュータに実行させるプログラムである。演算部３４は、記憶部３５に記憶されているプログラム３５３にしたがって各種の処理を行う。記憶部３５は、演算部３４の処理結果を一時的に記憶する作業領域として利用されてもよい。記憶部３５は、例えば、半導体記憶媒体および磁気記憶媒体などの任意の非一過的な記憶媒体を含む。記憶部３５は、例えば、光ディスク、光磁気ディスクまたはフラッシュメモリを含んで構成される。プログラム３５３は、例えば、コンピュータにより読み取り可能な非一過的な記憶媒体に記憶されている。

　演算部３４は、例えば、プロセッサとメモリとで構成されるコンピュータである。演算部３４のメモリには、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）およびＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）が含まれる。演算部３４は、プログラム３５３を実行することにより、音源抽出部３４１、帯域分割部３４２、マッピング処理部３４３、位置検出部３４４および音源位置推定部３４５として機能する。

［１－３．表示ユニットの構成および配置形態］
　図４は、タイリングディスプレイ１０の概略構成を示す図である。

　タイリングディスプレイ１０は、タイル状に組み合わされた複数のキャビネット１１を有する。キャビネット１１には、複数の表示ユニット１２がタイル状に並べられた状態で取り付けられている。表示ユニット１２の外周部には額縁となる領域が存在しない。複数の表示ユニット１２の画素は、画素ピッチを維持したまま、表示ユニット１２の境界部をまたいで連続的に配置される。これにより、複数の表示ユニット１２にまたがる単一のスクリーンＳＣＲを有するタイリングディスプレイ１０が形成されている。

　１つのキャビネット１１に取り付けられる表示ユニット１２の数および配置は任意である。タイリングディスプレイ１０を構成するキャビネット１１の数および配置も任意である。例えば、図４の例では、高さ方向に４列および幅方向に８列の合計３２個のキャビネットが２次元的に配列されている。１つのキャビネット１１には、高さ方向に２列および幅方向に３列の合計６つの表示ユニット１２が取り付けられている。よって、タイリングディスプレイ１０は、高さ方向に８列および幅方向に２４列の合計１９２個の表示ユニット１２によって構成されている。

　図５は、表示ユニット１２の構成および配置の一例を示す図である。

　表示ユニット１２は、表示パネル１２１と、アクチュエータ１２２と、制御回路１２３と、を有する。表示パネル１２１は、バックライトを備えない自発光式の薄型表示パネルである。本実施形態では、表示パネル１２１として、画素ごとに赤、緑および青の３種類のマイクロＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）が配置されたＬＥＤパネルが用いられる。アクチュエータ１２２は、表示パネル１２１を振動させて表示パネル１２１の表面から音を出力させる。制御回路１２３は、画素を駆動する画素駆動回路、および、アクチュエータ１２２を駆動するアクチュエータ駆動回路を有する。アクチュエータ１２２およびアクチュエータ駆動回路は、表示ユニット１２から音を発生させるための発音機構として機能する。

　キャビネット１１は、筐体１１１と、接続基板１１２と、キャビネット基板１１３と、を有する。接続基板１１２は、制御回路１２３とキャビネット基板１１３とを接続する基板である。接続基板１１２は、筐体１１１に固定される。表示パネル１２１は接続基板１１２にねじ止めなどにより固定される。これにより、表示ユニット１２はキャビネット１１に支持される。キャビネット基板１１３は、制御システム３０に接続される。制御システム３０は、キャビネット基板１１３を介して制御回路１２３に映像出力信号および音響出力信号を出力する。

　図６は、タイリングディスプレイ１０およびスピーカユニット２０再生周波数の説明図である。図７は、表示ユニット１２の再生周波数と再生時の振動の大きさとの関係を示す図である。

　タイリングディスプレイ１０の表示映像に関連する音は、タイリングディスプレイ１０（表示ユニット１２）および複数のスピーカユニット２０によって再生される。図６に示すように、再生周波数帯域は、高域ＨＦ、中域ＭＦ、低域ＬＦおよび超低域ＶＬＦ（重低音）の４つに分類される。高域ＨＦは、第１周波数ＦＨ以上の周波数帯域である。中域ＭＦは、第２周波数ＦＭ以上で且つ第１周波数ＦＨ未満の周波数帯域である。低域ＬＦは、第３周波数ＦＬ以上で且つ第２周波数ＦＭ未満の周波数帯域である。超低域ＶＬＦは、第３周波数ＦＬ未満の周波数帯域である。例えば、第１周波数ＦＨは１ｋＨｚである。第２周波数ＦＭは５００Ｈｚである。第３周波数ＦＬは１００Ｈｚである。

　帯域分割部３４２は、オーディオデータＡＤを、高域ＨＦ、中域ＭＦおよび低域ＬＦの３つの波形データＰＡＤに分割する。超低域ＶＬＦの波形データは、帯域分割部３４２によって分割される。マッピング処理部３４３は、高域ＨＦ、中域ＭＦおよび低域ＬＦの波形データＰＡＤを表示ユニット１２またはスピーカＡＳＰにマッピングする。

　音像の位置を感知させる音像定位能は、音の周波数によって変化する。周波数が高い音ほど音像定位能は高い。そのため、マッピング処理部３４３は、オーディオデータＡＤのうち最も周波数の高い高域ＨＦの波形データＰＡＤをマッピング先となる１以上の表示ユニット１２にマッピングする。音像定位能が高い高域ＨＦの音が表示ユニット１２から出力されることで、音源の位置と音像の位置との間にずれが生じにくくなる。

　図７に示すように、表示ユニット１２の再生周波数が低くなると、表示ユニット１２の振動量が大きくなる。そのため、周波数の低い音を表示ユニット１２で再生すると、振動による映像の揺れが視聴者Ｕに認識される可能性がある。そのため、マッピング処理部３４３は、中域ＭＦおよび低域ＬＦ（中低域）の波形データＰＡＤを第１アレイスピーカ２１および第２アレイスピーカ２２にマッピングする。

　例えば、マッピング処理部３４３は、タイリングディスプレイ１０の周囲に配置された複数のスピーカＡＳＰから、オーディオデータＡＤの音源の位置に対応した１以上のスピーカＡＳＰを選択する。マッピング処理部３４３は、オーディオデータＡＤのうち最も周波数の低い低域ＬＦの波形データＰＡＤ、および、高域ＨＦと低域ＬＦとの間の中域ＭＦの波形データＰＡＤを、選択された１以上のスピーカＡＳＰにマッピングする。

　表示ユニット１２の振動の大きさは、再生される音の音圧（音量）によって変わる。音圧が大きければ振動は大きく、音圧が小さければ振動は小さい。そのため、マッピング処理部３４３は、中低域の波形データＰＡＤであっても、音圧が小さい場合には、中低域の波形データＰＡＤを表示ユニット１２にマッピングすることができる。例えば、マッピング処理部３４３は、中低域の波形データＰＡＤのうち、音像定位能が大きい中域ＭＦの波形データＰＡＤの振幅が予め設定された閾値以下である場合には、中域ＭＦの波形データＰＡＤを表示ユニット１２にマッピングする。これにより、表示ユニット１２の振動による映像の揺れを抑制しつつ、音像定位能を高めることができる。

　音圧が大きい場合でも、振動させる表示ユニット１２の数を増やせば、１枚当たりの表示ユニット１２の振動の大きさを小さくすることができる。そのため、マッピング処理部３４３は、中域ＭＦの波形データＰＡＤがマッピングされる表示ユニット１２の数を高域ＨＦの波形データＰＡＤがマッピングされる表示ユニット１２の数よりも大きくする。この構成でも、表示ユニット１２の振動による映像の揺れを抑制しつつ、音像定位能を高めることができる。

［１－４．表示ユニットの論理番号］
　図８ないし図１０は、表示ユニット１２の論理番号を説明する図である。

　図８に示すように、複数のキャビネット１１には、各キャビネット１１の位置に基づく論理番号Ｌ１が付されている。図８の例では、幅方向をＸ方向、高さ方向をＹ方向とするＸＹ座標が設定されている。各キャビネット１１には、それぞれのＸＹ座標上の位置に基づいて論理番号Ｌ１が設定されている。例えば、第１行第１列に位置するキャビネット１１には「ＣＬＸ１ＣＬＹ１」という論理番号Ｌ１が付されている。第２列第５行に位置するキャビネット１１には「ＣＬＸ５ＣＬＹ２」という論理番号Ｌ１が付されている。

　図９に示すように、１つのキャビネット１１には、複数の表示ユニット１２が取り付けられている。同一のキャビネット１１に取り付けられた複数の表示ユニット１２には、キャビネット１１内でのそれぞれの位置に基づいて論理番号Ｌ２が付されている。例えば、キャビネット１１の第１行第１列に位置する表示ユニット１２には「ＵＬＸ１ＵＬＹ１」という論理番号Ｌ２が付されている。キャビネット１１の第２列第３行に位置する表示ユニット１２には「ＵＬＸ３ＵＬＹ２」という論理番号Ｌ２が付されている。

　図１０に示すように、各表示ユニット１２には、表示ユニット１２が属するキャビネット１１の位置、および、キャビネット１１内での表示ユニット１２の位置に基づいて論理番号ＬＮが付されている。例えば、第１行第１列のキャビネット１１内の第１行第１列の表示ユニット１２には「ＣＬＸ１ＣＬＹ１－ＵＬＸ１ＵＬＹ１」という論理番号ＬＮが付されている。第１行第１列のキャビネット１１内の第１行第２列の表示ユニット１２には「ＣＬＸ１ＣＬＹ１－ＵＬＸ２ＵＬＹ１」という論理番号ＬＮが付されている。

［１－５．キャビネットと制御システムとの接続形態］
　図１１および図１２は、キャビネット１１と制御システム３０との接続形態の一例を示す図である。

　複数のキャビネット１１は、制御システム３０に対してシリアル接続、パラレル接続またはこれらを複合した方式により接続されている。例えば、図１１の例では、複数のキャビネット１１は制御システム３０に対してシリアル接続されている。隣り合う２つのキャビネット１１は、キャビネット基板１１３どうしを接続することにより接続されている。複数のキャビネット１１にはキャビネット接続番号ＣＥｋ（ｋは１から３２までの整数）が付されている。制御システム３０からは、キャビネット接続番号にしたがって映像出力信号および音響出力信号が複数のキャビネット１１に出力される。

　図１２の例では、複数のキャビネット１１は制御システム３０に対してシリアル接続およびパラレル接続を複合した方式で接続されている。複数のキャビネット１１にはキャビネット接続番号ＣＥｌ，ｍ（ｌは１から８までの整数。ｍは１から４までの整数）が付されている。制御システム３０からは、キャビネット接続番号にしたがって映像出力信号および音響出力信号が複数のキャビネット１１に出力される。

［１－６．キャビネットと表示ユニットとの接続形態］
　図１３は、キャビネット１１と表示ユニット１２との接続形態の一例を示す図である。

　同一キャビネット１１に支持される複数の表示ユニット１２は、キャビネット基板１１３に対してパラレルに接続されている。複数の表示ユニット１２は、キャビネット基板１１３を介して制御システム３０と電気的に接続されている。複数の表示ユニット１２には、ユニット接続番号ＵＥ１～ＵＥ６が付されている。キャビネット基板１１３からは、ユニット接続番号にしたがって映像出力信号および音響出力信号が複数の表示ユニット１２に出力される。

［２．第１実施形態］
［２－１．システムのイメージ］
　図１４は、オーディオ・ビデオコンテンツ出力システム１をシアターＣＴ１に適用した例を示す図である。

　シアターＣＴ１では、チャンネルベースオーディオのオーディオコンテンツＡＣが用いられる。図１４には、レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨのマルチチャンネルスピーカの位置が仮想的に示されている。

　サウンドスクリーンを用いたシアターでは、サウンドスクリーンの背面にマルチチャンネルスピーカが配置される。サウンドスクリーンには多数の微小なサウンドホールが設けられている。マルチチャンネルスピーカから出力された音声は、サウンドホールを介して視聴者側（サウンドスクリーンの前面側）に出力される。

　しかし、タイリングディスプレイ１０には、複数の表示ユニット１２が隙間なく敷き詰められている。そのため、サウンドホールのような穴をタイリングディスプレイ１０に設けることはできない。タイリングディスプレイ１０の周囲にマルチチャンネルスピーカを配置してファンタム音像を生成する方法も考えられるが、この方法では音像が正しく定位される視聴位置の範囲が狭い。

　そのため、シアターＣＴ１では、レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨのオーディオデータＡＤがタイリングディスプレイ１０（表示ユニット１２）にマッピングされる。マルチチャンネルスピーカ用のオーディオデータＡＤがスクリーンＳＣＲ上で直接再生されることにより、サウンドスクリーンのような映像と音声との一体感が実現される。

［２－２．チャンネルベースオーディオのオーディオデータのマッピング処理］
　図１５は、チャンネルベースオーディオのオーディオデータＡＤのマッピング処理の一例を示す図である。

　演算部３４には、チャンネルベースオーディオのオーディオコンテンツＡＣが入力される。オーディオコンテンツＡＣは、チャンネルごとに生成された１以上のオーディオデータＡＤを含む。音源抽出部３４１は、オーディオコンテンツＡＣから、音源となるチャンネルごとにオーディオデータＡＤを抽出する。図１５の例では、レフトチャンネルＬＣＨ、センターチャンネルＣＣＨ、ライトチャンネルＲＣＨおよび低音増強用チャンネルＬＦＥに対応する４つのオーディオデータＡＤが抽出される。

　レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨのオーディオデータＡＤには、高域ＨＦから低域ＬＦまでの周波数帯域の音が割り当てられている。低音増強用チャンネルＬＦＥのオーディオデータＡＤには、超低域ＶＬＦの周波数帯域の音が割り当てられている。音源抽出部３４１は、レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨのオーディオデータＡＤを帯域分割部３４２に出力する。音源抽出部３４１は、低音増強用チャンネルＬＦＥのオーディオデータＡＤをサブウーファ２３に出力する。

　帯域分割部３４２は、低音増強用チャンネルＬＦＥ以外のチャンネル（レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨ）のオーディオデータＡＤを周波数帯域ごとに分割する。例えば、帯域分割部３４２は、レフトチャンネルＬＣＨ、センターチャンネルＣＣＨおよびライトチャンネルＲＣＨの各オーディオデータＡＤを高域ＨＦの波形データＰＡＤと中低域の波形データとに分割し、マッピング処理部３４３に出力する。

　マッピング処理部３４３は、各チャンネルのオーディオデータＡＤから抽出された高域ＨＦおよび中低域の波形データＰＡＤを、マルチチャンネルスピーカの位置によって決まる１以上の表示ユニット１２および１以上のスピーカＡＳＰにマッピングする。マルチチャンネルスピーカの位置は再生環境情報３５２から抽出される。再生環境情報３５２には、例えば、マルチチャンネルスピーカの中心部が位置するスクリーンＳＣＲ上の座標がマルチチャンネルスピーカの位置として規定されている。マッピング処理部３４３は、この座標を中心としたスクリーンＳＣＲ上の所定の領域を音源領域ＳＲとして抽出する。

　例えば、マッピング処理部３４３は、再生環境情報３５２から、各チャンネルの音源領域ＳＲとして、レフトチャンネルＬＣＨの音源領域ＬＳＲ、センターチャンネルＣＣＨの音源領域ＣＳＲおよびライトチャンネルＲＣＨの音源領域ＲＳＲを抽出する。図１５の例では、濃いハッチングで示された領域（図１５の例では、８つの表示ユニット１２にまたがる領域）が音源領域ＳＲとして抽出されている。

　マッピング処理部３４３は、レフトチャンネルＬＣＨの高域ＨＦの波形データＰＡＤを、レフトチャンネルＬＣＨの音源領域ＬＳＲに配置された１以上の表示ユニット１２にマッピングする。マッピング処理部３４３は、レフトチャンネルＬＣＨの音源領域ＬＳＲと同じＸ軸上の位置に配置された１以上のスピーカＡＳＰにレフトチャンネルＬＣＨの中低域の波形データＰＡＤをマッピングする。

　レフトチャンネルＬＣＨの高域ＨＦの音圧が大きい場合、音源領域ＬＳＲに配置された表示ユニット１２のみで、設定された音圧を実現しようとすると、個々の表示ユニット１２の振動が大きくなる。表示ユニット１２の振動が大きくなると、映像の揺れが視聴者Ｕに認識される可能性がある。

　そのため、マッピング処理部３４３は、音源領域ＬＳＲの周囲にマッピング先を拡大する。マッピング処理部３４３は、音源領域ＬＳＲの周囲に配置される１以上の表示ユニット１２（図１５の例では、薄いハッチングで示された５つの表示ユニット１２）にも波形データＰＡＤをマッピングする。マッピング処理部３４３は、高域ＨＦの波形データＰＡＤのマッピング先の拡大に合わせて中低域の波形データＰＡＤのマッピング先も拡大する。これにより、高域ＨＦの音像と中低域の音像との間にずれが生じにくくなる。

　センターチャンネルＣＣＨおよびライトチャンネルＲＣＨの波形データＰＡＤについても同様の方法でマッピングが行われる。

　すなわち、マッピング処理部３４３は、センターチャンネルＣＣＨの高域ＨＦの波形データＰＡＤを、センターチャンネルＣＣＨの音源領域ＣＳＲに配置された１以上の表示ユニット１２にマッピングする。マッピング処理部３４３は、音源領域ＣＳＲと同じＸ軸上の位置に配置された１以上のスピーカＡＳＰにセンターチャンネルＣＣＨの中低域の波形データＰＡＤをマッピングする。レフトチャンネルＬＣＨの高域ＨＦの音圧が大きい場合には、マッピング処理部３４３は、音源領域ＣＳＲの周囲にマッピング先を拡大する。マッピング処理部３４３は、高域ＨＦの波形データＰＡＤのマッピング先の拡大に合わせて中低域の波形データＰＡＤのマッピング先も拡大する。

　マッピング処理部３４３は、ライトチャンネルＲＣＨの高域ＨＦの波形データＰＡＤを、ライトチャンネルＲＣＨの音源領域ＲＳＲに配置された１以上の表示ユニット１２にマッピングする。マッピング処理部３４３は、音源領域ＲＳＲと同じＸ軸上の位置に配置された１以上のスピーカＡＳＰにライトチャンネルＲＣＨの中低域の波形データＰＡＤをマッピングする。ライトチャンネルＲＣＨの高域ＨＦの音圧が大きい場合には、マッピング処理部３４３は、音源領域ＲＳＲの周囲にマッピング先を拡大する。マッピング処理部３４３は、高域ＨＦの波形データＰＡＤのマッピング先の拡大に合わせて中低域の波形データＰＡＤのマッピング先も拡大する。

　マッピング処理部３４３は、各表示ユニット１２にマッピングされた波形データＰＡＤをシリアライズ処理する。マッピング処理部３４３は、シリアライズ処理によって生成された表示ユニット１２用の音響出力信号をタイリングディスプレイ１０に出力する。マッピング処理部３４３は、各スピーカＡＳＰにマッピングされた波形データＰＡＤに基づいてスピーカＡＳＰ用の音響出力信号を生成し、第１アレイスピーカ２１および第２アレイスピーカ２２に出力する。

［２－３．オブジェクトベースオーディオのオーディオデータのマッピング処理］
　図１６および図１７は、オブジェクトベースオーディオのオーディオデータＡＤのマッピング処理の一例を示す図である。

　図１６に示すように、演算部３４には、オブジェクトベースオーディオのオーディオコンテンツＡＣが入力される。オーディオコンテンツＡＣは、オブジェクトごとに生成された１以上のオーディオデータＡＤを含む。音源抽出部３４１は、オーディオコンテンツＡＣから、音源となるオブジェクトごとにオーディオデータＡＤを抽出する。

　図１６の例では、キャラクタが指をはじく映像がスクリーンＳＣＲに表示されている。オーディオコンテンツＡＣには、指をはじく音（オブジェクト）のオーディオデータＡＤ、および、指をはじく位置（オブジェクトの位置ＯＢ）を示すメタ情報が含まれている。図１６の例では、オブジェクトの数は１つであるが、オブジェクトの数は１つに限られない。図１７に示すように、複数の位置ＯＢに、異なるオブジェクトが配置されてもよい。この場合、音源抽出部３４１は、オーディオコンテンツＡＣから、異なるオブジェクトに対応した複数のオーディオデータＡＤを抽出する。

　帯域分割部３４２は、低域ＬＦ以上のオーディオデータＡＤの波形データを周波数帯域ごとに分割する。例えば、帯域分割部３４２は、オブジェクトのオーディオデータＡＤを高域ＨＦの波形データＰＡＤと中低域の波形データとに分割し、マッピング処理部３４３に出力する。

　マッピング処理部３４３は、オブジェクトのオーディオデータＡＤから抽出された高域ＨＦおよび中低域の波形データＰＡＤを、オブジェクトの位置ＯＢに対応する１以上の表示ユニット１２および１以上のスピーカＡＳＰにマッピングする。オブジェクトの位置ＯＢは、例えば、予め設定された視聴位置からの水平角、仰角および距離の情報としてメタ情報に規定されている。マッピング処理部３４３は、位置ＯＢを中心としたスクリーンＳＣＲ上の所定の領域を音源領域ＯＳＲとして抽出する。図１６の例では、音源領域ＯＳＲは、濃いハッチングで示された表示ユニット１２ひとつぶんの大きさを持った領域として抽出されている。

　なお、図１６には、音源領域ＳＲとして、各チャンネルの音源領域ＬＳＲ，ＣＳＲ，ＲＳＲと、オブジェクトの音源領域ＯＳＲと、が同時に存在した状態が示されている。

　マッピング処理部３４３は、オブジェクトの高域ＨＦの波形データＰＡＤを、オブジェクトの音源領域ＳＲに配置された１以上の表示ユニット１２にマッピングする。マッピング処理部３４３は、オブジェクトの音源領域ＯＳＲと同じＸ軸上の位置に配置された１以上のスピーカＡＳＰにオブジェクトの中低域の波形データＰＡＤをマッピングする。

　オブジェクトの高域ＨＦの音圧が大きい場合には、マッピング処理部３４３は、音源領域ＳＲの周囲（図１６の例では、薄いハッチングで示された３つの表示ユニット１２）にマッピング先を拡大する。マッピング処理部３４３は、高域ＨＦの波形データＰＡＤのマッピング先の拡大に合わせて中低域の波形データＰＡＤのマッピング先も拡大する。

　マッピング処理部３４３は、各表示ユニット１２にマッピングされた波形データＰＡＤをシリアライズ処理する。マッピング処理部３４３は、シリアライズ処理によって生成された表示ユニット１２用の音響出力信号をタイリングディスプレイ１０に出力する。マッピング処理部３４３は、各スピーカＡＳＰにマッピングされた波形データＰＡＤをシリアライズ処理する。マッピング処理部３４３は、シリアライズ処理によって生成されたスピーカＡＳＰ用の音響出力信号を第１アレイスピーカ２１および第２アレイスピーカ２２に出力する。

［２－４．ＤＮＮエンジンを用いた音源配置］
　図１８は、チャンネルベースオーディオのオーディオデータＡＤのマッピング処理の他の例を示す図である。

　演算部３４には、チャンネルベースオーディオのオーディオコンテンツＡＣが入力される。音源抽出部３４１は、音源分離技術を用いて、オーディオコンテンツＡＣから、音源ＳＳごとにオーディオデータＡＤを抽出する。音源分離技術としては、ブラインド信号源分離などの公知の音源分離技術が用いられる。図１８の例では、スクリーンＳＣＲに映る個々のキャラクタが音源ＳＳとなる。音源抽出部３４１は、音源ＳＳごとに、音源ＳＳとなるキャラクタの話し声をオーディオデータＡＤとして抽出する。なお、図１８の例では、音源ＳＳとして、音源ＳＳ１、音源ＳＳ２および音源ＳＳ３が抽出される。しかし、音源ＳＳの数Ｎはこれに限られない。音源ＳＳの数Ｎは、１以上の任意の数とすることができる。

　音源ＳＳの位置は音源位置推定部３４５によって推定される。音源位置推定部３４５は、例えば、ＤＮＮエンジンを用いた分析モデル３５１に、音源抽出部３４１で抽出された１以上のオーディオデータＡＤとビデオコンテンツＡＣとを当てはめる。音源抽出部３４１は、分析モデル３５１による分析結果に基づいて、音源ＳＳごとに、音源ＳＳが表示されたスクリーンＳＣＲ上の位置を音源領域ＳＲとして推定する。

　マッピング処理部３４３は、音源ＳＳごとに、音源ＳＳのオーディオデータＡＤを音源ＳＳの位置に配置された１以上の表示ユニット１２にマッピングする。マッピング処理部３４３は、各音源ＳＳのオーディオデータＡＤをマッピング結果に基づいてシリアライズ処理する。マッピング処理部３４３は、シリアライズ処理によって得られた音響出力信号をタイリングディスプレイ１０に出力する。

　例えば、図１８の例では、音源ＳＳ１の音源領域ＳＲ１は、４つの表示ユニット１２にまたがる領域として推定される。音源ＳＳ１の話し声が小さい場合には、マッピング処理部３４３は、音源領域ＳＲ１が配置された４つの表示ユニット１２を音源ＳＳ１のオーディオデータＡＤのマッピング先として選択する。

　音源ＳＳ２の音源領域ＳＲ２は、２つの表示ユニット１２にまたがる領域として推定される。音源ＳＳ２の話し声が大きい場合には、マッピング処理部３４３は、音源領域ＳＲ２が配置された２つの表示ユニット１２（濃いハッチングが施された表示ユニット１２）と、その周囲に配置された５つの表示ユニット１２（薄いハッチングが施された表示ユニット１２）を音源ＳＳ２のオーディオデータＡＤのマッピング先として選択する。

　音源ＳＳ３の音源領域ＳＲ３は、２つの表示ユニット１２にまたがる領域として推定される。音源ＳＳ３の話し声が小さい場合には、マッピング処理部３４３は、音源領域ＳＲ３が配置された２つの表示ユニット１２を音源ＳＳ３のオーディオデータＡＤのマッピング先として選択する。

［２－５．奥行方向の音像の制御］
　図１９ないし図２２は、奥行方向の音像の制御方法を説明する図である。

　奥行方向の音像の位置は、Ｍｏｎｏｐｏｌｅ　Ｓｙｎｔｈｅｓｉｓ、Ｗａｖｅ　Ｆｉｅｌｄ　Ｓｙｎｔｈｅｓｉｓ（ＷＦＳ）、ＳｐｅｃｔｒａｌＤｉｖｉｓｉｏｎ　ＭｅｔｈｏｄおよびＭｏｄｅ　Ｍａｔｃｈｉｎｇなどの公知の信号処理によって制御される。

　例えば、図２０および図２１に示すように、基準面ＲＦ上に複数の点音源ＰＳが配列された状態を仮定する。複数の点音源ＰＳの音圧および位相が適切に制御されると、基準面ＲＦから離れた位置に焦点ＦＳを持つ音場が生成される。音像は焦点ＦＳに定位する。図２０に示すように、焦点ＦＳが基準面ＲＦよりも奥に移動すると、視聴者Ｕから遠ざかるような音像が生成される。図２１に示すように、焦点ＦＳが基準面ＲＦの手前に移動すると、視聴者Ｕに近づくような音像が生成される。

　点音源ＰＳは、個々の表示ユニット１２またはスピーカＡＳＰに相当する。基準面ＲＦは、タイリングディスプレイ１０のスクリーンＳＣＲまたはアレイスピーカ（第１アレイスピーカ２１、第２アレイスピーカ２２）の音声出力面に相当する。

　図１９に示すように、マッピング処理部３４３は、ＦＩＲ（Ｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）フィルタを用いて、マッピング先となる表示ユニット１２およびスピーカＡＳＰから出力される音の音圧および位相を制御する。

　波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す点以外は図１６に示したマッピング処理と同様である。すなわち、音源抽出部３４１で抽出されたオーディオデータＡＤが帯域分割部３４２によって高域ＨＦの波形データＰＡＤと中低域の波形データＰＡＤとに分割される。高域ＨＦの波形データＰＡＤは、オブジェクトの位置ＯＢに対応するｎ個（ｎは２以上の整数）の表示ユニット１２にマッピングされる。中低域の波形データＰＡＤは、オブジェクトの位置ＯＢに対応するｍ個（ｍは２以上の整数）のスピーカＡＳＰにマッピングされる。

　マッピング処理部３４３は、高域ＨＦの波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部３４３は、デジタルフィルタ処理によって、高域ＨＦの波形データＰＡＤのマッピング先となるｎ個の表示ユニット１２から出力される音の音圧および位相を表示ユニット１２ごとに調整する。マッピング処理部３４３は、表示ユニット１２ごとに表示ユニット１２から出力される音の音圧および位相を調整することで、奥行方向の音像の位置を制御する。

　マッピング処理部３４３は、中低域の波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部３４３は、デジタルフィルタ処理によって、中低域の波形データＰＡＤのマッピング先となるｍ個のスピーカＡＳＰから出力される音の音圧および位相をスピーカＡＳＰごとに調整する。マッピング処理部３４３は、スピーカＡＳＰごとにスピーカＡＳＰから出力される音の音圧および位相を調整することで、奥行方向の音像の位置を制御する。

［２－６．音像の定位強調制御］
［２－６－１．帯域の拡大による音像定位能の強化］
　図２２は、音像の定位強調制御技術の一例を示す図である。

　図２２には、高域ＨＦの音圧レベルが小さいオーディオデータＡＤが示されている。オーディオデータＡＤを帯域分割すると、音圧の低い高域ＨＦの波形データＰＡＤが生成される。音像定位能は、高域ＨＦの波形データＰＡＤの音圧によって変化する。そのため、マッピング処理部３４３は、高域補間技術を用いて、高域ＨＦの音圧レベルが閾値ＴＨよりも小さいオーディオデータＡＤから、高域ＨＦの音圧レベルが閾値ＴＨ以上の補正オーディオデータＣＡＤを生成する。マッピング処理部３４３は、補正オーディオデータＣＡＤの高域ＨＦの波形データＰＡＤをマッピング先となる１以上の表示ユニット１２にマッピングする。

［２－６－２．先行音効果による音像定位能の強化］
　図２３は、音像の定位強調制御技術の他の例を示す図である。

　図２３にはオーディオデータＡＤの周波数帯域と位相との関係が示されている。位相は、音の出力タイミングに関係する。オリジナルのオーディオデータＡＤでは、音像定位能が低い中低域および超低域ＶＬＦの音と、音像定位能が高い高域ＨＦの音と、が同時に出力される。

　そのため、マッピング処理部３４３は、高域ＨＦの波形データＰＡＤが出力されるタイミングを、中低域および超低域ＶＬＦの波形データＰＡＤが出力されるタイミングと同時、または、中低域および超低域ＶＬＦの波形データＰＡＤが出力されるタイミングよりも早くする。先に高域ＨＦの音が出力されることで、視聴者Ｕは音像の位置を速やかに認識することができる。中低域および超低域ＶＬＦの音が出力されている期間は、視聴者Ｕは、先行音となる高域ＨＦの音によって定位された位置に音像を認識することができる。

［２－７．スピーカユニットの配置］
　図２４は、スピーカユニット２０の配置の一例を示す図である。

　タイリングディスプレイ１０の最上段のキャビネット１１には、第１アレイスピーカ２１を収容するエンクロージャが取り付けられている。タイリングディスプレイ１０の最下段のキャビネット１１には、第２アレイスピーカ２２を収容するエンクロージャが取り付けられている。エンクロージャには、音導部ＳＳＧとなるスリットが設けられている。スリットの幅はスピーカＡＳＰの直径よりも狭い。スピーカＡＳＰから出力された音は、音導部ＳＳＧを介してエンクロージャの外部に放出される。音導部ＳＳＧは、タイリングディスプレイ１０の縁に近接して配置される。タイリングディスプレイ１０の縁ぎりぎりのところから音が出力されるため、高い音像定位能が得られる。

　なお、拡大図に示すように、スピーカＡＳＰはキャビネット１１に収容されてもよい。この場合、タイリングディスプレイ１０の最上段および最下段には、音導部ＳＳＧを有するスピーカ内蔵型の端部専用キャビネットが配置される。

［２－８．表示ユニットの位置の検出方法］
　図２５は、表示ユニット１２の位置の検出方法の一例を示す図である。図２６は、表示ユニット１２の位置の検出に用いられるマイクＭＣの配置を示す図である。

　図２５に示すように、タイリングディスプレイ１０の４つの角部には、マイク付き表示ユニット１２Ｍが配置されている。図２６に示すように、マイクＭＣはマイク付き表示ユニット１２Ｍの裏面に取り付けられている。マイク付き表示ユニット１２Ｍの１つの角部には、音導部ＣＳＧとなる切り欠きが形成されている。マイクＭＣは、切り欠きが形成されたマイク付き表示ユニット１２Ｍの角部の近傍に配置されている。

　位置検出部３４４は、表示ユニット１２から出力された音（インパルス）が、複数個所に設けられたマイクＭＣにそれぞれ伝達する時間に基づいて、表示ユニット１２の空間的な位置を検出する。位置検出部３４４は、各表示ユニット１２の空間配置に基づいて各表示ユニット１２に論理番号ＬＮを付与する。

　例えば、位置検出部３４４は、キャビネット１１ごとに、１つの表示ユニット１２を選択し、選択された表示ユニット１２から音（インパルス）を出力させる。位置検出部３４４は、各マイクＭＣから、音の伝達時間に関する測定データＭＤを取得する。位置検出部３４４は、各マイクＭＣから取得した測定データＭＤに基づいて、キャビネット１１の空間的な位置を検出する。

　キャビネット１１内での表示ユニット１２の配列は再生環境情報３５２に規定されている。位置検出部３４４は、再生環境情報３５２に規定された配列の情報に基づいて、キャビネット１１と、キャビネット１１に保持される各表示ユニット１２と、の相対位置を検出する。位置検出部３４４は、キャビネット１１の位置と、キャビネット１１に対する各表示ユニット１２の相対位置と、に基づいて、各表示ユニット１２の位置を検出する。

　タイリングディスプレイ１０の前面に音を反射する障害物があると、正確な測定が行えない可能性がある。その場合、全ての表示ユニット１２または一定の密度で配置された複数の表示ユニット１２にマイクＭＣを設置することで、測定精度が高まる。なお、マイクＭＣは、表示ユニット１２から出力される音の音響補正ために用いることもできる。

　図２７は、表示ユニット１２の位置の検出方法の他の例を示す図である。

　図２７の例では、複数のマイクＭＣはタイリングディスプレイ１０の外部に配置される。マイクＭＣの位置は異なるが、位置検出部３４４は、図２５で説明したのと同様の方法で各表示ユニット１２の位置を検出することができる。図２７の例では、マイクＭＣに音を伝達するための音導部ＣＳＧをタイリングディスプレイ１０に設ける必要がない。そのため、音導部ＣＳＧに起因した画質の低下が生じにくい。

［２－９．再生音の指向性制御］
　図２８は、再生音ＤＳの指向性制御を説明する図である。

　再生音ＤＳの指向性は、配列された複数の点音源の波面の干渉を利用して制御される。例えば、高さ方向に並ぶ複数の点音源の波面の干渉によって高さ方向の再生音ＤＳの指向性が制御される。幅方向に並ぶ複数の点音源の波面の干渉によって幅方向の再生音ＤＳの指向性が制御される。点音源は、個々の表示ユニット１２またはスピーカＡＳＰに相当する。例えば、マッピング処理部３４３は、ＦＩＲフィルタを用いて、マッピング先となる個々の表示ユニット１２およびスピーカＡＳＰから出力される音の音圧および位相を個別に制御する。

　波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す点以外は図１５に示したマッピング処理と同様である。すなわち、音源抽出部３４１で抽出されたオーディオデータＡＤが帯域分割部３４２によって高域ＨＦの波形データＰＡＤと中低域の波形データＰＡＤとに分割される。高域ＨＦの波形データＰＡＤは、マルチチャンネルスピーカの位置に対応するｎ個（ｎは２以上の整数）の表示ユニット１２にマッピングされる。中低域の波形データＰＡＤは、マルチチャンネルスピーカの位置に対応するｍ個（ｍは２以上の整数）のスピーカＡＳＰにマッピングされる。

　マッピング処理部３４３は、高域ＨＦの波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部３４３は、デジタルフィルタ処理によって、高域ＨＦの波形データＰＡＤのマッピング先となるｎ個の表示ユニット１２から出力される音の音圧および位相を表示ユニット１２ごとに調整する。マッピング処理部３４３は、表示ユニット１２ごとに表示ユニット１２から出力される音の音圧および位相を調整することで、視聴領域ＶＡ内での再生音ＤＳの指向性および音圧の均一性などの音響特性を制御する。

　マッピング処理部３４３は、中低域の波形データＰＡＤに、ＦＩＲフィルタを用いたデジタルフィルタ処理を施す。マッピング処理部３４３は、デジタルフィルタ処理によって、中低域の波形データＰＡＤのマッピング先となるｍ個のスピーカＡＳＰから出力される音の音圧および位相をスピーカＡＳＰごとに調整する。マッピング処理部３４３は、スピーカＡＳＰごとにスピーカＡＳＰから出力される音の音圧および位相を調整することで、視聴領域ＶＡ内での再生音ＤＳの指向性および音圧の均一性などの音響特性を制御する。

　図２９は、視聴者Ｕごとに異なる再生音ＤＳを振り分ける例を示す図である。

　タイリングディスプレイ１０の近傍には１以上のカメラＣＡが設置されている。カメラＣＡは、タイリングディスプレイ１０の前方を撮影可能な広角カメラである。図２９の例では、タイリングディスプレイ１０の視聴領域ＶＡ全体をカバーするために、タイリングディスプレイ１０の幅方向の両側に１つずつカメラＣＡが設置されている。

　制御システム３０は、各カメラＣＡから取得した撮影データに基づいて、視聴領域ＶＡに存在する視聴者Ｕの数および各視聴者Ｕの位置を検出する。タイリングディスプレイ１０には、視聴者Ｕごとに設定された複数の音源ＳＳの映像がスクリーンＳＣＲの異なる位置に表示される。マッピング処理部３４３は、音源ＳＳごとに、音源ＳＳの表示位置に対応する複数の表示ユニット１２を音源ＳＳのオーディオデータＡＤのマッピング先として選択する。マッピング処理部３４３は、各視聴者Ｕの位置情報に基づいて、視聴者Ｕごとに、音源ＳＳから視聴者Ｕに向けた高い指向性を有する再生音ＤＳを生成し出力する。

［２－１０．情報処理方法］
　図３０は、制御システム３０が行う情報処理方法の一例を示すフローチャートである。

　ステップＳ１において、音源抽出部３４１は、オーディオコンテンツＡＣから１以上のオーディオデータＡＤを抽出する。オーディオコンテンツＡＣとしては、チャンネルベースオーディオ、オブジェクトベースオーディオおよびシーンベースオーディオなどの各種方式のオーディオコンテンツが利用可能である。例えば、音源抽出部３４１は、オーディオコンテンツＡＣから、音源となるチャンネルごと又はオブジェクトごとに生成された１以上のオーディオデータＡＤを抽出する。

　ステップＳ２において、マッピング処理部３４３は、オーディオデータＡＤごとに、オーディオデータＡＤのマッピング先となる１以上の表示ユニット１２および１以上のスピーカＡＳＰを選択する。例えば、マッピング処理部３４３は、マルチチャンネルスピーカの位置またはオブジェクトの位置ＯＢに対応したスクリーンＳＣＲ上の音源領域ＳＲを検出する。マッピング処理部３４３は、音源領域ＳＲに対応する１以上の表示ユニット１２および１以上のスピーカＡＳＰをマッピング先として選択する。マッピング処理部３４３は、オーディオデータＡＤの音圧、音像の奥行方向の位置および再生音ＤＳの指向性などに基づいて、マッピング先を音源領域ＳＲの外側に広げる。

　ステップＳ３において、マッピング処理部３４３は、オーディオデータＡＤをマッピング先となる１以上の表示ユニット１２および１以上のスピーカＡＳＰに出力し、音源に関連付けられた位置（音源領域ＳＲ、または、音源領域ＳＲから奥行方向にずれた位置）に音像を定位させる。

［２－１１．効果］
　制御システム３０は、音源抽出部３４１とマッピング処理部３４３とを有する。音源抽出部３４１は、オーディオコンテンツＡＣから異なる音源に対応する１以上のオーディオデータＡＤを抽出する。マッピング処理部３４３は、発音機構を有する組み合わせ可能な１以上の表示ユニット１２から、オーディオデータＡＤごとに、オーディオデータＡＤのマッピング先となる１以上の表示ユニット１２を選択する。本実施形態の情報処理方法は、上述した制御システム３０の処理がコンピュータにより実行される。本実施形態のプログラムは、上述した制御システム３０の処理をコンピュータに実現させる。

　この構成によれば、オーディオデータＡＤは表示ユニット１２で直接再生される。そのため、映像と音声との一体感が得られやすい。

　オーディオデータＡＤは、チャンネルベースオーディオのオーディオコンテンツＡＣから抽出されたマルチチャンネルスピーカ用のオーディオデータである。マッピング処理部３４３は、マルチチャンネルスピーカの配置によって決まる１以上の表示ユニット１２をマッピング先として選択する。

　この構成によれば、あたかもマルチチャンネルスピーカがスクリーンＳＣＲの前面に配置されたような、迫力のあるサウンドが得られる。

　オーディオデータＡＤは、オブジェクトベースオーディオのオーディオコンテンツＡＣから抽出されたオブジェクトのオーディオデータである。マッピング処理部３４３は、オーディオコンテンツＡＣから抽出されたオブジェクトの位置ＯＢに対応する１以上の表示ユニット１２をマッピング先として選択する。

　この構成によれば、オブジェクトの位置ＯＢにオブジェクトの音像を定位させることができる。

　制御システム３０は、音源位置推定部３４５を有する。音源位置推定部３４５は、オーディオデータＡＤごとに、オーディオデータＡＤの音源ＳＳが表示された位置を推定する。マッピング処理部３４３は、音源ＳＳが表示された位置に対応する１以上の表示ユニット１２をマッピング先として選択する。

　この構成によれば、音源ＳＳが表示された位置に音源ＳＳの音像を定位させることができる。

　マッピング処理部は、マッピング先となる複数の表示ユニット１２から出力される音の音圧および位相を表示ユニット１２ごとに調整して奥行方向の音像の位置を制御する。

　この構成によれば、奥行方向の音像の位置が容易に制御される。

　制御システム３０は、帯域分割部３４２を有する。帯域分割部３４２は、オーディオデータＡＤを周波数帯域ごとに分割する。マッピング処理部３４３は、オーディオデータＡＤのうち最も周波数の高い高域ＨＦの波形データＰＡＤをマッピング先となる１以上の表示ユニット１２にマッピングする。

　この構成によれば、音像定位能が高い高域ＨＦの音が表示ユニット１２から出力される。そのため、音源の位置と音像の位置との間にずれが生じにくい。

　マッピング処理部３４３は、複数の表示ユニット１２の周囲に配置された複数のスピーカＡＳＰから、オーディオデータＡＤの音源の位置に対応した１以上のスピーカＡＳＰを選択する。マッピング処理部３４３は、オーディオデータＡＤのうち最も周波数の低い低域ＬＦの波形データＰＡＤ、および、高域ＨＦと低域ＬＦとの間の中域ＭＦの波形データＰＡＤを、選択された１以上のスピーカＡＳＰにマッピングする。

　この構成によれば、高域ＨＦに比べて音像定位能が低い中域ＭＦおよび低域ＬＦの音がスピーカＡＳＰから出力される。表示ユニット１２から出力される音が高域ＨＦの音だけであるため、音が出力される際の表示ユニット１２の振動が最小限に抑えられる。

　マッピング処理部３４３は、高域ＨＦの音圧レベルが閾値よりも小さいオーディオデータＡＤから、高域ＨＦの音圧レベルが閾値以上の補正オーディオデータＣＡＤを生成する。マッピング処理部３４３は、補正オーディオデータＣＡＤの高域ＨＦの波形データＰＡＤをマッピング先となる１以上の表示ユニット１２にマッピングする。

　この構成によれば、高域ＨＦの音圧レベルの低いオーディオデータＡＤについても、高い音像定位能が得られる。

　マッピング処理部３４３は、高域ＨＦの波形データＰＡＤが出力されるタイミングを、中域ＭＦおよび低域ＬＦの波形データＰＡＤが出力されるタイミングと同時、または、中域ＭＦおよび低域ＬＦの波形データＰＡＤが出力されるタイミングよりも早くする。

　この構成によれば、音像定位能の高い高域ＨＦの波形データＰＡＤの出力タイミングが早まる。そのため、先行音効果により、オーディオデータＡＤの音像定位能が高まる。

　制御システム３０は、位置検出部３４４を有する。位置検出部３４４は、複数の表示ユニット１２の空間配置を検出する。位置検出部３４４は、検出された空間配置に基づいて各表示ユニット１２に論理番号ＬＮを付与する。マッピング処理部３４３は、論理番号ＬＮに基づいてマッピング先を特定する。

　この構成によれば、表示ユニット１２のアドレッシングを自動で行うことができる。

　位置検出部３４４は、表示ユニット１２から出力された音が、複数個所に設けられたマイクＭＣにそれぞれ伝達する時間に基づいて、表示ユニット１２の空間配置を検出する。

　この構成によれば、表示ユニット１２の空間配置を容易に検出することができる。

　マッピング処理部は、マッピング先となる複数の表示ユニット１２から出力される音の音圧および位相を表示ユニット１２ごとに調整して再生音ＤＳの指向性を制御する。

　この構成によれば、各表示ユニット１２から出力される波面の干渉によって再生音ＤＳの指向性が制御される。

［３．第２実施形態］
［３－１．システムのイメージ］
　図３１および図３２は、オーディオ・ビデオコンテンツ出力システム１をシアターＣＴ２に適用した例を示す図である。

　図３１に示すように、シアターＣＴ２は、全天球映像を表示可能なシアターである。図３２に示すように、タイリングディスプレイ１０は客席ＳＴの正面、左右面、天井面および床面を全て覆うように配置されている。全方位に設置された多数の表示ユニット１２によって、あらゆる方向から音が再生される。

［３－２．スピーカユニットの配置］
　図３３は、スピーカユニット２０の配置の一例を示す図である。

　シアターＣＴ２では、多数の表示ユニット１２が全方位に隙間なく配置されている。そのため、スピーカユニット２０の設置スペースが限られる。例えば、第１実施形態では、タイリングディスプレイ１０の上辺および下辺に沿って中低域用のスピーカユニット２０（第１アレイスピーカ２１、第２アレイスピーカ２２）が設置された。しかし、シアターＣＴ２では、タイリングディスプレイ１０が全方位に設置されているため、第１アレイスピーカ２１および第２アレイスピーカ２２を設置するスペースがない。

　そのため、シアターＣＴ２では、中低域用のスピーカユニット２０として、ウーファ２４が客席ＳＴのシートの肩部分に設置されている。超低域ＶＬＦ用のスピーカユニット２０であるサブウーファ２３は、シートの下に設置されている。音像定位能の高い高域ＨＦの音は、表示ユニット１２から出力される。スピーカユニット２０がシートに設置されることにより、スピーカユニット２０から視聴者Ｕまでの距離が短くなる。そのため、余計な音圧を再生する必要がない。よって、シアターＣＴ２内の不要な残響が抑えられる。

　図３４は、スピーカユニット２０の配置の他の例を示す図である。

　図３４の例では、中低域用のスピーカユニット２０として、開放型のイヤホンＥＰが視聴者Ｕの耳ＵＥに装着されている。イヤホンＥＰは、耳穴部分に開口部ＯＰを有する。視聴者Ｕは、開口部ＯＰを介して、表示ユニット１２から出力された音を視聴することができる。スピーカユニット２０は、必ずしもイヤホンＥＰである必要はなく、視聴者Ｕに装着可能なウェアラブルな音響デバイス（開放型ヘッドホン、肩掛けスピーカなど）であればよい。図３４の例でも、スピーカユニット２０から視聴者Ｕまでの距離が短くなる。そのため、余計な音圧を再生する必要がなくなり、不要な残響が抑えられる。

［３－３．内蔵マイクによる空間特性の測定および残響キャンセル］
　図３５は、空間特性の測定に用いられるマイクＭＣの配置を示す図である。

　タイリングディスプレイ１０は全方位を覆うため、相互に向かい合うスクリーン部分の間で音の反射が起こり、定位感が低減する可能性がある。そのため、制御システム３０は、予め測定されたシアターＣＴ２の空間特性に基づいて各表示ユニット１２の音圧および位相を制御し、残響を低減する。マイクＭＣの配置は、図２６において説明したものと同様である。図２６の例では、特定の表示ユニット１２のみにマイクＭＣが設置されたが、本実施形態では、全ての表示ユニット１２にマイクＭＣが設置される。

　シアターＣＴ２の空間特性は、各表示ユニット１２に内蔵されたマイクＭＣを用いて測定される。例えば、シアターＣＴ２では、表示ユニット１２ごとに、表示ユニット１２の出力音の他の全ての表示ユニット（マイクＭＣ）に対する出力特性が測定される。この測定によって、波面の伝達特性（周波数と音圧を変数とする伝達特性、周波数と位相（伝達時間を含む）を変数とする伝達特性）が測定される。伝達特性に基づいてシアターＣＴ２の空間特性が検出される。シアターＣＴ２の空間特性は再生環境情報３５２として記憶部３５に記憶される。

　マッピング処理部３４３は、シアターＣＴ２の空間特性に基づいて、マッピング先となる複数の表示ユニット１２から出力される音の音圧および位相を表示ユニット１２ごとに調整し、残響を低減する。例えば、マッピング先として選択された表示ユニット１２をマッピング先ユニットとし、マッピング先として選択されない表示ユニット１２を非マッピング先ユニットとする。マッピング処理部３４３は、マッピング先ユニットから出力された音が非マッピング先ユニットに到達して反射した際に、非マッピング先ユニットにおいて１次反射波面と逆相の音を再生させる。これにより、非マッピング先ユニットでの反射による残響が低減される。

［４．第３実施形態］
［４－１．システムのイメージ］
　図３６は、オーディオ・ビデオコンテンツ出力システム１をテレプレゼンスシステムＴＰに適用した例を示す図である。

　テレプレゼンスシステムＴＰは、遠隔地を結んで双方向の映像および音声による会議を行うシステムである。壁一面が遠隔地の映像を映し出すタイリングディスプレイ１０となっている。第１遠隔地の視聴者Ｕ１の映像および音声は、第２遠隔地にあるタイリングディスプレイ１０Ｂから視聴者Ｕ２に出力される。第２遠隔地の視聴者Ｕ２の映像および音声は、第１遠隔地にあるタイリングディスプレイ１０Ａから視聴者Ｕ１に出力される。

［４－２．オブジェクト音の集音および再生］
　図３７は、オブジェクト音の集音処理および再生処理の一例を示す図である。

　タイリングディスプレイ１０の近傍には１以上のカメラＣＡが設置されている。カメラＣＡは、タイリングディスプレイ１０の前方を撮影可能な広角カメラである。図３７の例では、タイリングディスプレイ１０の視聴領域ＶＡ全体をカバーするために、タイリングディスプレイ１０の幅方向の両側に１つずつカメラＣＡが設置されている。

　第１遠隔地では、各カメラＣＡの撮影データに基づいて、視聴領域ＶＡに存在する視聴者Ｕ１の数、各視聴者Ｕ１の位置および各視聴者Ｕ１の口の動きなどが検出される。視聴者Ｕ１の音声は入力音ＩＳとして、各表示ユニット１２に内蔵された高指向性マイクで集音される。制御システム３０Ａは、集音データとカメラＣＡの撮像データとをＤＮＮに入力して音源分離を行い、音源となる視聴者Ｕ１の音声をオブジェクトとするオーディオコンテンツＡＣを生成する。制御システム３０Ａは、カメラＣＡの撮像データを用いてビデオコンテンツと、入力音ＩＳを用いて生成されたオーディオコンテンツＡＣと、を用いてコンテンツデータＣＤを生成する。

　第２遠隔地の制御システム３０Ｂは、第１遠隔地の制御システム３０Ａで生成されたコンテンツデータＣＤをネットワークＮＷを介して取得する。制御システム３０Ｂは、コンテンツデータＣＤからオーディオコンテンツＡＣとビデオコンテンツＶＣとを分離する。制御システム３０Ｂは、ビデオコンテンツＶＣを用いて第１遠隔地の視聴者Ｕ１の映像をタイリングディスプレイ１０Ｂで再生する。制御システム３０Ｂは、オーディオコンテンツＡＣを用いて第１遠隔地の視聴者Ｕ１の音声をタイリングディスプレイ１０Ｂおよび複数のスピーカユニット２０Ｂで再生する。オーディオコンテンツＡＣの再生処理は、図１６に示したものと同様である。

　制御システム３０Ｂは、オーディオコンテンツＡＣを再生する際に、各カメラＣＡから取得した撮影データに基づいて、視聴領域ＶＡに存在する視聴者Ｕ２の数および各視聴者Ｕ２の位置を検出する。タイリングディスプレイ１０Ｂには、オブジェクトの音源となる第１遠隔地の視聴者Ｕ１の映像がスクリーンＳＣＲに表示されている。マッピング処理部３４３は、オブジェクト（視聴者Ｕ１の音声）の位置に応じた複数の表示ユニット１２をオブジェクトのオーディオデータＡＤのマッピング先として選択する。マッピング処理部３４３は、各視聴者Ｕ２の位置情報に基づいて、視聴者Ｕ２ごとに、マッピング先となる複数の表示ユニット１２から視聴者Ｕ２に向けた高い指向性を有する再生音ＤＳを生成し出力する。再生音ＤＳの指向の制御方法は、図２９に示したものと同様である。

［５．第４実施形態］
　図３８は、オーディオ・ビデオコンテンツ出力システム１をデジタルサイネージシステムＤＳＳに適用した例を示す図である。

　デジタルサイネージシステムＤＳＳは、従来の看板や紙のポスターに代え、デジタル映像機器を使って情報を発信するシステムである。建物や通路の壁などが映像を映し出すタイリングディスプレイ１０となっている。デジタルサイネージシステムＤＳＳでは、視聴者Ｕごとにデジタル広告ＤＣが生成される。タイリングディスプレイ１０には、視聴者Ｕごとに生成された複数のデジタル広告ＤＣがスクリーンＳＣＲ上の異なる位置に表示される。マッピング処理部３４３は、音源となるデジタル広告ＤＣごとに、デジタル広告ＤＣの表示位置に対応する複数の表示ユニット１２をデジタル広告ＤＣのオーディオデータＡＤのマッピング先として選択する。マッピング処理部３４３は、各視聴者Ｕの位置情報に基づいて、視聴者Ｕごとに、デジタル広告ＤＣの表示位置から視聴者Ｕに向けた高い指向性を有する再生音を生成し出力する。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［付記］
　なお、本技術は以下のような構成も取ることができる。
（１）
　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出する音源抽出部と、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択するマッピング処理部と、
　を有する情報処理装置。
（２）
　前記オーディオデータは、チャンネルベースオーディオの前記オーディオコンテンツから抽出されたマルチチャンネルスピーカ用のオーディオデータであり、
　前記マッピング処理部は、前記マルチチャンネルスピーカの配置によって決まる１以上の表示ユニットを前記マッピング先として選択する
　上記（１）に記載の情報処理装置。
（３）
　前記オーディオデータは、オブジェクトベースオーディオの前記オーディオコンテンツから抽出されたオブジェクトのオーディオデータであり、
　前記マッピング処理部は、前記オーディオコンテンツから抽出された前記オブジェクトの位置に対応する１以上の表示ユニットを前記マッピング先として選択する
　上記（１）に記載の情報処理装置。
（４）
　前記オーディオデータごとに、前記オーディオデータの音源が表示された位置を推定する音源位置推定部を有し、
　前記マッピング処理部は、前記音源が表示された位置に対応する１以上の表示ユニットを前記マッピング先として選択する
　上記（１）に記載の情報処理装置。
（５）
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して奥行方向の音像の位置を制御する
　上記（３）または（４）に記載の情報処理装置。
（６）
　前記オーディオデータを周波数帯域ごとに分割する帯域分割部を有し、
　前記マッピング処理部は、前記オーディオデータのうち最も周波数の高い高域の波形データを前記マッピング先となる前記１以上の表示ユニットにマッピングする
　上記（１）ないし（５）のいずれか１つに記載の情報処理装置。
（７）
　前記マッピング処理部は、複数の前記表示ユニットの周囲に配置された複数のスピーカから、前記オーディオデータの音源の位置に対応した１以上のスピーカを選択し、前記オーディオデータのうち最も周波数の低い低域の波形データ、および、前記高域と前記低域との間の中域の波形データを、選択された前記１以上のスピーカにマッピングする
　上記（６）に記載の情報処理装置。
（８）
　前記マッピング処理部は、前記高域の音圧レベルが閾値よりも小さいオーディオデータから、前記高域の音圧レベルが前記閾値以上の補正オーディオデータを生成し、前記補正オーディオデータの前記高域の波形データを前記マッピング先となる前記１以上の表示ユニットにマッピングする
　上記（６）または（７）に記載の情報処理装置。
（９）
　前記マッピング処理部は、前記高域の波形データが出力されるタイミングを、前記中域および前記低域の波形データが出力されるタイミングと同時、または、前記中域および前記低域の波形データが出力されるタイミングよりも早くする
　上記（７）に記載の情報処理装置。
（１０）
　複数の前記表示ユニットの空間配置を検出し、前記空間配置に基づいて各表示ユニットに論理番号を付与する位置検出部を有し、
　前記マッピング処理部は、前記論理番号に基づいて前記マッピング先を特定する
　上記（１）ないし（９）のいずれか１つに記載の情報処理装置。
（１１）
　前記位置検出部は、前記表示ユニットから出力された音が、複数個所に設けられたマイクにそれぞれ伝達する時間に基づいて、前記表示ユニットの空間配置を検出する
　上記（１０）に記載の情報処理装置。
（１２）
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して再生音の指向性を制御する
　上記（１）ないし（１１）のいずれか１つに記載の情報処理装置。
（１３）
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して残響を低減する
　上記（１）ないし（１２）のいずれか１つに記載の情報処理装置。
（１４）
　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出し、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択する、
　ことを有する、コンピュータにより実行される情報処理方法。
（１５）
　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出し、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択する、
　ことをコンピュータに実現させるプログラム。

１２　表示ユニット
３０　制御システム（情報処理装置）
３４１　音源抽出部
３４２　帯域分割部
３４３　マッピング処理部
３４４　位置検出部
３４５　音源位置推定部
ＡＣ　オーディオコンテンツ
ＡＤ　オーディオデータ

Claims

　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出する音源抽出部と、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択するマッピング処理部と、
　を有する情報処理装置。
　前記オーディオデータは、チャンネルベースオーディオの前記オーディオコンテンツから抽出されたマルチチャンネルスピーカ用のオーディオデータであり、
　前記マッピング処理部は、前記マルチチャンネルスピーカの配置によって決まる１以上の表示ユニットを前記マッピング先として選択する
　請求項１に記載の情報処理装置。
　前記オーディオデータは、オブジェクトベースオーディオの前記オーディオコンテンツから抽出されたオブジェクトのオーディオデータであり、
　前記マッピング処理部は、前記オーディオコンテンツから抽出された前記オブジェクトの位置に対応する１以上の表示ユニットを前記マッピング先として選択する
　請求項１に記載の情報処理装置。
　前記オーディオデータごとに、前記オーディオデータの音源が表示された位置を推定する音源位置推定部を有し、
　前記マッピング処理部は、前記音源が表示された位置に対応する１以上の表示ユニットを前記マッピング先として選択する
　請求項１に記載の情報処理装置。
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して奥行方向の音像の位置を制御する
　請求項３に記載の情報処理装置。
　前記オーディオデータを周波数帯域ごとに分割する帯域分割部を有し、
　前記マッピング処理部は、前記オーディオデータのうち最も周波数の高い高域の波形データを前記マッピング先となる前記１以上の表示ユニットにマッピングする
　請求項１に記載の情報処理装置。
　前記マッピング処理部は、複数の前記表示ユニットの周囲に配置された複数のスピーカから、前記オーディオデータの音源の位置に対応した１以上のスピーカを選択し、前記オーディオデータのうち最も周波数の低い低域の波形データ、および、前記高域と前記低域との間の中域の波形データを、選択された前記１以上のスピーカにマッピングする
　請求項６に記載の情報処理装置。
　前記マッピング処理部は、前記高域の音圧レベルが閾値よりも小さいオーディオデータから、前記高域の音圧レベルが前記閾値以上の補正オーディオデータを生成し、前記補正オーディオデータの前記高域の波形データを前記マッピング先となる前記１以上の表示ユニットにマッピングする
　請求項６に記載の情報処理装置。
　前記マッピング処理部は、前記高域の波形データが出力されるタイミングを、前記中域および前記低域の波形データが出力されるタイミングと同時、または、前記中域および前記低域の波形データが出力されるタイミングよりも早くする
　請求項７に記載の情報処理装置。
　複数の前記表示ユニットの空間配置を検出し、前記空間配置に基づいて各表示ユニットに論理番号を付与する位置検出部を有し、
　前記マッピング処理部は、前記論理番号に基づいて前記マッピング先を特定する
　請求項１に記載の情報処理装置。
　前記位置検出部は、前記表示ユニットから出力された音が、複数個所に設けられたマイクにそれぞれ伝達する時間に基づいて、前記表示ユニットの空間配置を検出する
　請求項１０に記載の情報処理装置。
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して再生音の指向性を制御する
　請求項１に記載の情報処理装置。
　前記マッピング処理部は、前記マッピング先となる複数の表示ユニットから出力される音の音圧および位相を表示ユニットごとに調整して残響を低減する
　請求項１に記載の情報処理装置。
　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出し、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択する、
　ことを有する、コンピュータにより実行される情報処理方法。
　オーディオコンテンツから異なる音源に対応する１以上のオーディオデータを抽出し、
　発音機構を有する組み合わせ可能な１以上の表示ユニットから、オーディオデータごとに、前記オーディオデータのマッピング先となる１以上の表示ユニットを選択する、
　ことをコンピュータに実現させるプログラム。