WO2020189263A1

WO2020189263A1 - 音響処理装置、音響処理方法、および音響処理プログラム

Info

Publication number: WO2020189263A1
Application number: PCT/JP2020/008997
Authority: WO
Inventors: 亨中川; 越沖本
Original assignee: ソニー株式会社
Priority date: 2019-03-19
Filing date: 2020-03-03
Publication date: 2020-09-24
Also published as: US20220312143A1; EP3944638A1; CN113519171A; EP3944638A4; KR20210138006A; JPWO2020189263A1

Abstract

本開示に係る音響処理装置（１）は、取得部（４１）と、記憶部（３）と、処理部（４２）とを有する。取得部（４１）は、音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する。記憶部（３）は、場所における音響に関する音響情報（３４）を記憶する。処理部（４２）は、音響情報（３４）に基づいて音響コンテンツの音響特性を場所に応じた音響特性に変換して音場再生させる。

Description

音響処理装置、音響処理方法、および音響処理プログラム

　本開示は、音響処理装置、音響処理方法、および音響処理プログラムに関する。

　複数のマイクロホンで集音した音場の信号から波面合成法を用いて生成する駆動信号によってスピーカを駆動し、仮想的に集音場所の音場を再現する音場集音生成装置がある（例えば、特許文献１参照）。

特開２０１５－１７１１１１号公報

　しかしながら、音場を再現するだけでは、音響の聞き手に十分な臨場感を与えることができない場合がある。そこで、本開示では、音響の聞き手に与える臨場感を高めることができる音響処理装置、音響処理方法、および音響処理プログラムを提案する。

　本開示に係る音響処理装置は、取得部と、記憶部と、処理部とを有する。取得部は、音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する。記憶部は、前記場所における音響に関する音響情報を記憶する。処理部は、前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる。

本開示に係る音響処理装置による音響処理の概要を示す説明図である。本開示に係る音響処理装置の構成の一例を示すブロック図である。本開示に係るＶＲ全天球映像の作成方法の説明図である。本開示に係る音響情報の一例を示す説明図である。本開示に係るＨＲＴＦの計測方法の説明図である。本開示に係るＨＲＴＦの計測方法の説明図である。本開示に係る音響処理装置の動作例の説明図である。本開示に係る音響処理装置の動作例の説明図である。本開示に係る音響処理装置の動作例の説明図である。本開示に係る音響処理装置の動作例の説明図である。本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

（１．音響処理の概要）
　図１は、本開示に係る音響処理装置１による音響処理の概要を示す説明図である。音響処理装置１は、例えば、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の音響コンテンツの音響特性を録音場所の音響特性に変換することによって録音場所の音場を再現した状態で音場再生させる装置である。

　ここで、音響処理装置１は、録音場所の音場を再現するだけでは、音響コンテンツの聞き手に十分な臨場感を与えることができない場合がある。具体的には、音響処理装置１は、音響コンテンツの音響特性が測定された測定場所と、音響コンテンツの再生場所とが一致している場合には、聞き手にまるでその場にいるかのような臨場感を与えることができるが、そうでない場合には臨場感が半減する。

　例えば、音響処理装置１は、自宅で映画を視聴するユーザへ映画館の残響特性や反響特性等を再現した音響特性に変換した映画の音響コンテンツを提供しても、ユーザの居場所が自宅であるため、映画館にいるかのような感覚をユーザに与えることは困難である。

　そこで、音響処理装置１は、例えば、仮想現実（以下、ＶＲ：Virtual　Realityと記載する）等の技術を利用して、音響コンテンツの音響情報が測定された測定場所を再現した上で、測定場所の音響特性を再現した音響コンテンツを音場再生させる。

　例えば、図１に示すように、音響処理装置１は、予め映画の映像コンテンツＤ１と、映画の音響コンテンツＤ２と、映画館の音響情報Ｄ３とに加えて、映画館内のＶＲ全天球映像Ｄ４を記憶する（ステップＳ０１）。映画館の音響情報Ｄ３には、映画館内の音響特性に関する種々のパラメータが含まれる。

　そして、音響処理装置１は、例えば、ユーザＵが携帯するスマートフォン等のユーザ端末１１から映画のコンテンツの提供要求を取得した場合に、ユーザＵのユーザ端末１１へ映画の映像コンテンツＤ１と、映画の音響コンテンツＤ２とを送信して提供する。

　このとき、音響処理装置１は、映画館の音響情報Ｄ３に基づいて、映画の音響コンテンツＤ２の音響特性を映画館の音響特性に変換し、さらに、映画館内のＶＲ全天球映像Ｄ４と共にユーザ端末１１へ提供する（ステップＳ０２）。

　映画館のＶＲ全天球映像Ｄ４には、映画館に設置されたスクリーンの画像と、観客席や映画館の壁および天井等が含まれるスクリーンの周囲環境の画像とが含まれている。音響処理装置１は、映画の映像コンテンツＤ１に対して、映画館内のＶＲ全天球映像Ｄ４におけるスクリーンの位置を映画の映像コンテンツＤ１の表示位置とすることを示す情報を付加してユーザ端末１１へ提供する。

　これにより、音響処理装置１は、例えば、ユーザＵが装着するヘッドマウントディスプレイ１２に映画館内のＶＲ全天球映像Ｄ４を表示させ、ＶＲ全天球映像Ｄ４内のスクリーンに映画の映像コンテンツＤ１を表示させることができる（ステップＳ０３）。

　同時に、音響処理装置１は、例えば、ユーザＵが装着するイヤホン１３によって、音響特性を映画館内の音響特性に変換した映像コンテンツＤ１の音響コンテンツＤ２を音場再生することができる（ステップＳ０４）。

　このように、音響処理装置１は、スクリーンに映し出される映画の映像コンテンツＤ１だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザＵに視認させながら、音響コンテンツＤ２をユーザＵに聞かせることができる。

　これにより、音響処理装置１は、例えば、自宅で映画の映像コンテンツを視聴するユーザＵに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。ここでは、映画館内のＶＲ全天球映像Ｄ４をヘッドマウントディスプレイ１２に表示させたが、音響処理装置１は、映画館内のＶＲ全天球映像Ｄ４に代えて、映画館内を再現した３ＤＣＧ（Dimensional　Computer　Graphics）映像を表示させてもよい。なお、図１を参照して説明した音響処理装置１の動作は一例である。音響処理装置１の他の動作例については、図７～図１０を参照して後述する。

（２．音響処理装置の構成）
　次に、図２を参照し、音響処理装置１の構成の一例について説明する。図２は、本開示に係る音響処理装置１の構成の一例を示すブロック図である。図２に示すように、音響処理装置１は、通信部２と、記憶部３と、制御部４とを備える。

　通信部２は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部２は、例えば、インターネット等の通信ネットワークＮを介して有線又は無線によって、ユーザ端末１１、音響情報作成装置１００、およびクリエータ端末１０１と情報通信可能に接続される。

　音響情報作成装置１００は、後述する音響情報３４を作成する装置である。また、クリエータ端末１０１は、音響処理装置１によってユーザＵに提供される音響コンテンツ３２を作成するクリエータが使用する端末装置である。

　記憶部３は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。かかる記憶部３は、映像コンテンツ３１、音響コンテンツ３２、ＶＲ映像情報３３、および音響情報３４等を記憶する。

　映像コンテンツ３１は、映画、音楽ライブ、楽曲のプロモーションビデオ、およびテレビ番組等の複数の映像データであり、音響処理装置１によってユーザ端末１１へ提供されるコンテンツデータである。

　音響コンテンツ３２は、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の複数の音声データであり、音響処理装置１によってユーザ端末１１へ提供されるコンテンツデータである。

　ＶＲ映像情報３３は、種々の場所で撮像された複数のＶＲ全天球映像を含む。ここで、図３を参照し、ＶＲ全天球映像の作成方法の一例について説明する。図３は、本開示に係るＶＲ全天球映像の作成方法の説明図である。

　図３に示すように、ＶＲ全天球映像を作成する場合には、音響コンテンツ３２が再生される各場所に、３６０°カメラ１０２を設置し、３６０°カメラ１０２によって、その場所の前後上下左右全方位の画像を撮像することによって、ＶＲ全天球映像Ｖｒを撮像する。

　これにより、例えば、映画館に３６０°カメラ１０２を設置して撮像を行うことにより、図１に示した映画館のスクリーンと、映画館の客席や壁および天井等といったスクリーンの周囲環境の画像とを含むＶＲ全天球映像Ｖｒを作成することができる。

　なお、図１に示す例では、１面のスクリーンが設置される映画館を例に挙げたが、本開示では、正面、左右両側面、および底面の４面スクリーンがある映画館のＶＲ全天球映像Ｖｒを作成することもできる。

　かかる場合、音響処理装置１は、４面のスクリーンのうち、正面の１面のスクリーンに映像コンテンツ３１を表示させ、他の３面のスクリーンに映画館の周囲環境を表示させる。これによっても、音響処理装置１は、ユーザに与える臨場感を向上させることができる。

　図２へ戻り、音響情報３４について説明する。音響情報３４は、音響コンテンツ３２が音場再生される各場所における音響に関する複数の情報を含む。ここで、図４を参照し、音響情報３４の一例について説明する。図４は、本開示に係る音響情報３４の一例を示す説明図である。

　図４に示すように、音響情報３４は、音響処理装置１によって映像コンテンツ３１や音響コンテンツ３２を提供するユーザ毎に設けられる。音響情報３４は、ユーザＩＤと、ユーザの頭部伝達関数（以下、ＨＲＴＦ：Head　Related　Transfer　Functionと記載する）と、場所と、ＶＲ映像と、音響パラメータとが対応付けられた情報である。

　ユーザＩＤは、各ユーザを識別するための識別情報である。ＨＲＴＦは、音源からユーザの耳への音の届き方を数学的に表した各ユーザ固有の関数情報である。ここで、図５および図６を参照し、ＨＲＴＦの計測方法について説明する。

　図５および図６は、本開示に係るＨＲＴＦの計測方法の説明図である。例えば、図１を参照して説明した映画館の音響情報Ｄ３に含まれるＨＲＴＦを計測する場合、図５に示すように、ユーザＵに映画館Ｍｔの客席でイヤマイクロホン１４を装着してもらい、映画館のスピーカＳＰから試験信号Ｔｓを出音させる。

　そして、音響情報作成装置１００は、ユーザＵの左耳に装着されたイヤマイクロホン１４によって集音された音声信号ＳＬと、ユーザＵの右耳に装着されたイヤマイクロホン１４によって集音された音声信号ＳＲとを取得する。

　そして、音響情報作成装置１００は、取得した２つの音声信号ＳＬ，ＳＲの時間的なズレ、信号レベル（強度）のズレ、響きの違い等に基づいて、ユーザＵのＨＲＴＦを導出する。このように、音響情報作成装置１００は、ユーザＵによって聞かれる試験信号Ｔｓを実測することによって、ユーザＵの正確なＨＲＴＦを導出することができる。

　なお、ＨＲＴＦは、ユーザＵが試験信号Ｔｓを聴く場所（環境）によって異なる。このため、例えば、ユーザが音響コンテンツ３２を聴きながら見たい場所の映像が複数ある場合には、ユーザに各場所に来てもらい、ＨＲＴＦを計測して導出する必要があり、かかる作業はユーザにとって負担となる。

　このため、音響情報作成装置１００は、ユーザＵの負担を軽減しつつ、複数の場所でのユーザＵのＨＲＴＦを導出することもできる。例えば、図６に示すように、ユーザＵの耳に装着されたイヤマイクロホン１４によって集音される音声信号は、始めの所定時間部分に音波特性がユーザＵに依存する時間があり、それ以降に音波特性が場所に依存する時間がある。

　このため、音響情報作成装置１００は、例えば、１箇所の場所へユーザＵに来てもらい、イヤマイクロホン１４によって試験信号Ｔｓを集音し、ユーザＵに依存する時間の部分の音声信号波形を取得する。その後、音響情報作成装置１００は、イヤマイクロホン１４を装着させたダミー人形ＤＭをユーザＵが望む複数の場所に設置して、音波特性が場所に依存する時間の部分の音声信号波形を取得する。

　そして、音響情報作成装置１００は、ユーザＵに依存する時間の部分の音声信号波形と、複数の場所でダミー人形を使用して取得した場所に依存する時間の部分の音声信号波形とを合成し、合成信号に基づいて、各場所におけるユーザＵのＨＲＴＦを導出する。

　これにより、音響情報作成装置１００は、実測する場合に比べて精度が若干下がるが、ユーザＵの負担を軽減しつつ、ユーザＵが望む複数の場所におけるユーザＵのＨＲＴＦを導出することができる。

　また、音響情報作成装置１００は、例えば、ユーザＵに自身の耳の写真を撮像して画像データを送信してもらい、耳の画像データに基づいてユーザＵのＨＲＴＦを推定して導出することもできる。かかる場合、音響情報作成装置１００は、耳の映像を含む画像データが入力された場合に、その耳に対応するＨＲＴＦを出力するように機械学習された学習モデルを使用して、ユーザＵのＨＲＴＦを導出する。

　これにより、音響情報作成装置１００は、ユーザＵにＨＲＴＦを測定する場所へ来てもらわなくても、ユーザのＨＲＴＦを推定して導出することができるので、ＨＲＴＦの計測に要するユーザＵの負担をさらに軽減することができる。

　図３へ戻り、音響情報３４の説明を続ける。音響情報３４に含まれる場所は、事前に登録されたユーザＵが音響コンテンツ３２を聴きながら見たい場所を識別するための識別情報である。ＶＲ映像は、音響情報３４に含まれる場所に対応するＶＲ全天球映像を識別するための識別情報である。

　音響パラメータは、各場所における複数の出音位置毎に、残響時間等の残響特性や、音波の反射係数等の反響特性を示す数値が対応付けられる。音響情報作成装置１００は、各場所で実際の音響を測定し、収集した音響に基づいて音響パラメータを導出する。これにより、音響情報作成装置１００は、実際の場所に即した正確な音響パラメータを導出することができる。なお、図４では、各項目のデータを「Ａ０１」や「Ｂ０１」のように概念的に記載しているが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。

　音響情報作成装置１００は、作成した音響情報３４を音響処理装置１へ送信する。音響処理装置１は、音響情報作成装置１００から受信する音響情報３４を記憶部３に記憶させる。なお、ここでは、音響情報作成装置１００が音響情報３４を作成する場合について説明したが、音響処理装置１が音響情報作成装置１００と同様の機能および構成を備え、自装置によって音響情報３４を作成して記憶部３に記憶させる構成であってもよい。

　図２へ戻り、制御部４について説明する。制御部４は、例えば、ＣＰＵ（Central　Processing　Unit）、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、入出力ポートなどを有するマイクロコンピュータや各種の回路を含む。

　制御部４は、ＣＰＵがＲＯＭに記憶された各種プログラム（実施形態に係る音響処理プログラムの一例に相当）を、ＲＡＭを作業領域として使用して実行することにより機能する取得部４１と、処理部４２、と提供部４３とを備える。

　なお、制御部４が備える取得部４１、処理部４２、提供部４３は、それぞれ一部または全部がＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等のハードウェアで構成されてもよい。

　取得部４１、処理部４２、提供部４３は、それぞれ以下に説明する情報処理の作用を実現または実行する。なお、制御部４の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部４１は、例えば、ユーザＵから映像コンテンツ３１および音響コンテンツ３２の提供要求を取得する。また、取得部４１は、ユーザＵから映像コンテンツ３１および音響コンテンツ３２の提供要求を取得した場合に、音響コンテンツ３２を聴くユーザによって見られる場所に関する情報をユーザ端末１１から取得する。

　例えば、取得部４１は、ユーザ端末１１から映画の映像コンテンツＤ１および映画の音響コンテンツＤ２の提供要求を取得し、ユーザ端末１１から場所情報として映画館を示す情報を取得した場合、ユーザ端末１１から取得した情報を処理部４２へ出力する。

　処理部４２は、ユーザ端末１１から取得された情報が取得部４１から入力された場合に、音響情報３４に基づいて、音響コンテンツ３２の音響特性をユーザ端末１１から取得された場所情報に対応する場所に応じた音響特性に変換して提供部４３へ出力する。

　このとき、処理部４２は、ユーザＵ毎に、ユーザＵのＨＲＴＦを適用して、音響コンテンツ３２の音響特性を変換する。これにより、処理部４２は、ユーザＵにとって最適な音響特性となるように、音響コンテンツ３２の音響特性を変換することができる。処理部４２は、音響特性変換後の音響コンテンツ３２と合わせて、ユーザ端末１１から取得された情報を提供部４３へ出力する。

　提供部４３は、処理部４２から入力される音響コンテンツ３２と、場所情報に対応する場所のＶＲ全天球映像と、ユーザによって提供要求された映像コンテンツ３１とをユーザ端末１１へ送信する。

　これにより、音響処理装置１は、例えば、図１に示したように、スクリーンに映し出される映画の映像コンテンツＤ１だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザＵに視認させることができる。

　そして、音響処理装置１は、同時に、映画館の音響特性に変換した映画の音響コンテンツＤ２をユーザに聴かせることができる。したがって、音響処理装置１は、例えば、自宅で映画の映像コンテンツを視聴するユーザＵに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。

　なお、ここまでは、取得部４１がユーザ端末１１から映像コンテンツ３１および音響コンテンツ３２の提供要求を取得する場合について説明したが、取得部４１は、ユーザ端末１１から音響コンテンツ３２の提供要求と合わせて、ユーザＵの居場所の画像を取得する場合がある。

　かかる場合、処理部４２は、ユーザＵの居場所に応じて音響コンテンツ３２の音響特性を変換し、変換後の音響コンテンツ３２を提供部４３によってユーザ端末１１へ送信し、ユーザ端末１１によって音場再生させる。かかる音響処理装置１の動作例については、図７および図８を参照して後述する。

　また、取得部４１は、音響コンテンツ３２を作成したクリエータから音響コンテンツ３２の音響情報３４、および音響コンテンツ３２が音場再生される場所のＶＲ全天球映像の提供要求を取得する場合がある。かかる場合の音響処理装置１の動作例については、図１０を参照して後述する。

（３．音響処理装置の動作例）
　次に、図７～図１０を参照し、音響処理装置１の動作例について説明する。図７～図１０は、本開示に係る音響処理装置１の動作例の説明図である。

　図７に示すように、音響処理装置１の取得部４１は、例えば、ユーザＵが車両Ｃ内に居るときに、ユーザ端末１１によって撮像された居場所（ここでは、車両Ｃの車室内）が撮像された画像Ｐｉｃ１と、音響コンテンツ３２の提供要求とを取得する場合がある。

　かかる場合、音響処理装置１は、居場所の画像Ｐｉｃ１から居場所の音響特性を予測し、音響コンテンツ３２の音響特性を予測した音響特性に変換してユーザ端末１１によって音場再生させる。例えば、音響処理装置１の処理部４２は、画像Ｐｉｃ１を画像認識することによって、ユーザＵの居場所を車両Ｃの車室内の空間と判定する。

　その後、処理部４２は、画像Ｐｉｃ１から車室内の前後方向の長さＬ、横方向の長さＷ、および高さ方向の長さＨを推定して車室内の空間の広さを予測し、車室内の空間の広さに基づいて、車室内の空間の反響特性および残響特性等の音響特性を予測する。

　続いて、処理部４２は、音響コンテンツ３２の音響特性を予測した音響特性に変換し、例えば、車室内の前方中央位置に仮想スピーカＳｐＣを配置し、中央から左右にそれぞれ３０°離れた位置に仮想スピーカＳｐＬ，ＳｐＲを配置する。

　そして、処理部４２は、３つの仮想スピーカＰｃＣ，ＳｐＬ，ＳｐＲから出音されているように聞こえるように、音響コンテンツ３２の音響特性を変換して、提供部４３へ出力し、提供部４３によってユーザ端末１１へ音響コンテンツ３２を送信させる。

　これにより、音響処理装置１は、例えば、ユーザＵがイヤホンで音響コンテンツ３２を聴く場合に、高音質なカーオーディオで音響コンテンツ３２を聴いているかのような、臨場感をユーザＵに与えることができる。

　また、図８に示すように、取得部４１は、ユーザＵが自宅のリビングルームにいるときに、ユーザＵによって居場所が撮像された画像Ｐｉｃ２と、映像コンテンツ３１および音響コンテンツ３２の提供要求とを取得する場合がある。

　また、このとき、取得部４１は、例えば、ユーザＵによって、画像Ｐｉｃ２からユーザＵの視野中心を含む所定領域Ａ（ここでは、テレビＴｖを囲む領域）が選択されたことを示す情報を取得する場合がある。

　かかる場合、処理部４２は、所定領域Ａを囲むように、音響コンテンツ３２の出音位置となる仮想スピーカＳｐ１，Ｓｐ２，Ｓｐ３，Ｓｐ４，Ｓｐ５，Ｓｐ６を配置する。そして、処理部４２は、仮想スピーカＳｐ１，Ｓｐ２，Ｓｐ３，Ｓｐ４，Ｓｐ５，Ｓｐ６から出音されているように聞こえるように、音響コンテンツ３２の音響特性を変換して、提供部４３へ出力する。

　提供部４３は、ユーザＵによって提供要求された映像コンテンツ３１と、処理部４２によって音響特性が変換された音響コンテンツ３２とをユーザ端末１１へ送信し、映像コンテンツ３１の表示および音響コンテンツ３２の音場再生を行わせる。

　これにより、音響処理装置１は、ユーザＵがイヤホンで音響コンテンツ３２を聴く場合に、テレビＴｖで映像コンテンツ３１を表示中に、高音質なオーディオ装置で音響コンテンツ３２を聴いているかのような、臨場感をユーザＵに与えることができる。

　また、このとき、例えば、図９に示すように、ユーザＵがテレビＴｖでアニメーションの作品Ｖｄを視聴している場合がある。かかる場合、音響処理装置１は、作品Ｖｄに登場するキャラクタの拡張現実（ＡＲ：Augmented　Reality）画像Ｃａ，Ｃｃ，ＣｄをヘッドマウントディスプレイＣｂによって、ユーザの周囲に表示させることもできる。これにより、音響処理装置１は、ユーザＵに与える臨場感をさらに向上させることができる。

　なお、ここでは、ユーザＵによって撮像された画像からユーザの居場所を予測したが、これは一例である。取得部４１は、例えば、ユーザ端末１１が備えるＧＰＳ（Global　Positioning　System）によって測位されるユーザＵの位置情報を取得することもできる。

　この場合、処理部４２は、取得部によって取得されるユーザの位置情報からユーザの居場所を予測し、音響コンテンツ３２の音響特性を予測した居場所の音響特性に変換して音場再生させる。これにより、処理部４２は、音響コンテンツ３２の音響特性を、ＧＰＳによって測位されたユーザＵの正確な居場所に応じた音響特性に変換することができる。

　また、取得部４１は、ユーザ端末１１からユーザＵによって過去に撮像された画像から選択された画像、または通信ネットワークＮを介してユーザＵによって閲覧された画像を取得することもできる。

　この場合、処理部４２は、取得部４１によって取得された画像に写る場所の音響特性を予測し、音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる。これにより、音響処理装置１は、例えば、ユーザＵが過去に訪れた思い出の場所や、過去に閲覧した画像に写るお気に入りの場所で音響コンテンツ３２を聴いているかのような臨場感をユーザＵに与えることができる。

　また、処理部４２は、画像から予測するユーザＵが居る場所の空間の広さに応じて、音響コンテンツ３２の出音位置となる仮想スピーカを配置する数、および仮想スピーカの出音特性を変更する。例えば、処理部４２は、予測する空間の広さが広くなるほど、配置する仮想スピーカの数を増加させる。

　また、処理部４２は、予測する空間の広さがさらに広くなる場合には、例えば、サラウンドスピーカのように、３６０°の方向から音響コンテンツ３２が聴こえるような出音特性の仮想スピーカを配置する。これにより、音響処理装置１は、ユーザ端末１１によってユーザＵの居場所の広さに応じた最適な音場再生を行わせることができる。

　また、取得部４１は、例えば、音響コンテンツ３２を作成したクリエータから音響コンテンツ３２の音響情報３４、および音響コンテンツ３２が音場再生される場所のＶＲ全天球映像の提供要求を取得する場合がある。

　かかる場合、図１０に示すように、音響処理装置１の処理部４２は、提供部４３によってクリエータ端末１０１へ提供要求された音響コンテンツ３２、音響情報３４、およびＶＲ映像情報３３をクリエータＣＲが使用するクリエータ端末１０１へ送信させる。

　これにより、クリエータＣＲは、例えば、ＶＲ映像情報３３に含まれる映画館のＶＲ全天球映像Ｖｒを見ながら、自身の作成意図に基づいて音響情報３４を変更することができる。例えば、クリエータＣＲは、現状では、映画館のスクリーンの両脇に仮想スピーカＳｐが配置されているように聞こえる音響情報３４を、スクリーンの両脇から更に離れた位置に仮想スピーカＳｐが配置されているように聞こえる音響情報３４に変更することができる。

　さらに、クリエータＣＲは、例えば、スクリーンの上に新たな仮想スピーカＳｐＵが配置され、スクリーンの下に新たな仮想スピーカＳｐＤが配置されているように聞こえる音響情報３４に変更することができる。このとき、クリエータＣＲは、自身のＨＲＴＦを適用した音響コンテンツ３２を聴いて音響情報３４を変更する。

　そして、クリエータＣＲは、変更した音響情報３４ａと、音響コンテンツ３２ａと、ＶＲ映像情報３３とをクリエータ端末１０１から音響処理装置１へ送信する。音響処理装置１は、クリエータ端末１０１から受信する音響情報３４ａと、音響コンテンツ３２ａと、ＶＲ映像情報３３とを記憶部３に記憶させる。

　これにより、音響処理装置１は、次回、音響コンテンツ３２ａをユーザＵへ提供する場合に、クリエータＣＲの作成意図が反映された音響特性で音響コンテンツ３２ａを音場再生させることができる。このとき、音響処理装置１は、ユーザＵのＨＲＴＦを適用した音響コンテンツ３２ａをユーザＵへ提供することによって、ユーザＵにとって最適な音響特性の音響コンテンツ３２ａを音場再生させることができる。

（４．音響処理装置が実行する処理）
　次に、図１１～図１３を参照し、音響処理装置１の制御部４が実行する処理の一例について説明する。図１１～図１３は、本開示に係る音響処理装置１の制御部４が実行する処理の一例を示すフローチャートである。

　音響処理装置１の制御部４は、ユーザ端末１１のユーザＵから音響および映像を含むコンテンツの提供要求を取得した場合に、図１１に示す処理を実行する。具体的には、制御部４は、ユーザＵからコンテンツの提供要求を取得すると、まず、ユーザＵからユーザＵが所望するコンテンツおよび場所情報を取得する（ステップＳ１０１）。

　続いて、制御部４は、ユーザが所望するコンテンツに対応する音響コンテンツの音響特性を場所情報に対応する音響特性に応じた音響特性に変換する（ステップＳ１０２）。その後、制御部４は、ユーザＵへ映像コンテンツと、音響特性を変換した音響コンテンツと、音響コンテンツおよび映像コンテンツが再生されるときにユーザＵに視認させるＶＲ全天球映像を提供して音場再生させ（ステップＳ１０３）、処理を終了する。

　また、制御部４は、ユーザから音響コンテンツの提供要求と、ユーザによって撮像さえたユーザの居場所が写った画像とを取得した場合に、図１２に示す処理を実行する。具体的には、制御部４は、ユーザＵからコンテンツの提供要求と撮像画像とを取得すると、まず、撮像画像に写る空間の音響特性を予測する（ステップＳ２０１）。

　続いて、制御部４は、ユーザＵが所望するコンテンツに対応する音響コンテンツの音響特性をステップＳ２０１で予測した空間の音響特性に変換する（ステップＳ２０２）。その後、制御部４は、ユーザＵへ音響特性を変換した音響コンテンツを提供して音場再生させ（ステップＳ２０３）、処理を終了する。

　また、制御部４は、ユーザによって撮像画像における所定領域Ａが選択されている場合には、所定領域Ａを囲むように音響コンテンツの出音位置を配置する処理を行って、ユーザＵへ音響コンテンツを提供する。

　このとき、制御部４は、ユーザによって選択される所定領域Ａの広さに応じて、配置する音響コンテンツの出音位置の数および出音特性を変更して、ユーザＵへ音響コンテンツを提供する。

　なお、制御部４は、ユーザＵから音響および映像を含むコンテンツの提供要求と、ユーザの居場所が写った撮像画像を取得した場合にも、撮像画像に写る空間の音響特性を予測し、予測した音響特性に変換した音響コンテンツをユーザＵへ提供することができる。

　また、制御部４は、例えば、音響コンテンツのクリエータＣＲから音響コンテンツの音響情報と、音響コンテンツを音場再生する場所の提供要求を取得した場合に、図１３に示す処理を実行する。

　具体的には、制御部４は、クリエータＣＲから音響情報と場所の提供要求を取得した場合に、まず、クリエータＣＲへ音響情報と、音響情報に対応する音響コンテンツが音場再生される場所のＶＲ全天球映像を提供する（ステップＳ３０１）。

　続いて、制御部４は、クリエータＣＲから変更された音響情報を取得したか否かを判定する（ステップＳ３０２）。そして、制御部４は、クリエータＣＲから音響情報を取得していないと判定した場合（ステップＳ３０２，Ｎｏ）、音響情報を取得するまでステップＳ３０２の判定処理を繰り返す。

　そして、制御部４は、クリエータＣＲから音響情報を取得したと判定した場合（ステップＳ３０２，Ｙｅｓ）、取得した音響特性と、クリエータＣＲへ提供したＶＲ全天球映像とを対応付けて記憶し（ステップＳ３０３）、処理を終了する。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
　前記場所における音響に関する音響情報を記憶する記憶部と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
　を有する音響処理装置。
（２）
　前記記憶部は、
　前記場所の仮想現実全天球映像を記憶し、
　前記処理部は、
　前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
　前記（１）に記載の音響処理装置。
（３）
　前記記憶部は、
　前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
　前記処理部は、
　前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
　前記（２）に記載の音響処理装置。
（４）
　前記記憶部は、
　前記場所において前記音響コンテンツに対応する映像コンテンツが表示される４面のスクリーンを含む前記仮想現実全天球映像を記憶し、
　前記処理部は、
　前記仮想現実全天球映像中の前記４面のスクリーンのうちの１面のスクリーンに前記映像コンテンツを表示させ、他の３面のスクリーンに前記場所の周囲環境の画像を表示させる
　前記（２）に記載の音響処理装置。
（５）
　前記取得部は、
　前記ユーザによって撮像された居場所の画像を取得し、
　前記処理部は、
　前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
　前記（１）に記載の音響処理装置。
（６）
　前記処理部は、
　前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
　前記（５）に記載の音響処理装置。
（７）
　前記処理部は、
　前記空間における残響特性および反響特性を予測する
　前記（６）に記載の音響処理装置。
（８）
　前記処理部は、
　前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
　前記（６）に記載の音響処理装置。
（９）
　前記処理部は、
　前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
　前記（５）～（８）のいずれかに記載の音響処理装置。
（１０）
　前記取得部は、
　前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
　前記処理部は、
　前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
　前記（１）に記載の音響処理装置。
（１１）
　前記取得部は、
　ＧＰＳ（Global　Positioning　System）によって測位される前記ユーザの位置情報を取得し、
　前記処理部は、
　前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
　前記（１）に記載の音響処理装置。
（１２）
　前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
　をさらに備え、
　前記取得部は、
　前記クリエータによって変更された前記音響情報を取得し、
　前記記憶部は、
　前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応つけて記憶する
　前記（２）に記載の音響処理装置。
（１３）
　前記記憶部は、
　前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
　前記（１）～（１２）のいずれかに記載の音響処理装置。
（１４）
　前記記憶部は、
　前記ユーザの頭部伝達関数を記憶し、
　前記処理部は、
　前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
　前記（１）～（１３）のいずれかに記載の音響処理装置。
（１５）
　前記記憶部は、
　前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
　前記（１４）に記載の音響処理装置。
（１６）
　前記記憶部は、
　前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
　前記（１４）に記載の音響処理装置。
（１７）
　前記記憶部は、
　前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
　前記（１４）に記載の音響処理装置。
（１８）
　コンピュータが実行する音響処理方法であって、
　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
　前記場所における音響に関する音響情報を記憶する記憶工程と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
　を含む音響処理方法。
（１９）
　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
　前記場所における音響に関する音響情報を記憶する記憶手順と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
　をコンピュータに実行させる音響処理プログラム。

　１　音響処理装置
　２　通信部
　３　記憶部
　３１　映像コンテンツ
　３２　音響コンテンツ
　３３　ＶＲ映像情報
　３４　音響情報
　４　制御部
　４１　取得部
　４２　処理部
　４３　提供部

Claims

　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
　前記場所における音響に関する音響情報を記憶する記憶部と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
　を有する音響処理装置。
　前記記憶部は、
　前記場所の仮想現実全天球映像を記憶し、
　前記処理部は、
　前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
　請求項１に記載の音響処理装置。
　前記記憶部は、
　前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
　前記処理部は、
　前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
　請求項２に記載の音響処理装置。
　前記記憶部は、
　前記場所において前記音響コンテンツに対応する映像コンテンツが表示される４面のスクリーンを含む前記仮想現実全天球映像を記憶し、
　前記処理部は、
　前記仮想現実全天球映像中の前記４面のスクリーンのうちの１面のスクリーンに前記映像コンテンツを表示させ、他の３面のスクリーンに前記場所の周囲環境の画像を表示させる
　請求項２に記載の音響処理装置。
　前記取得部は、
　前記ユーザによって撮像された居場所の画像を取得し、
　前記処理部は、
　前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
　請求項１に記載の音響処理装置。
　前記処理部は、
　前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
　請求項５に記載の音響処理装置。
　前記処理部は、
　前記空間における残響特性および反響特性を予測する
　請求項６に記載の音響処理装置。
　前記処理部は、
　前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
　請求項６に記載の音響処理装置。
　前記処理部は、
　前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
　請求項５に記載の音響処理装置。
　前記取得部は、
　前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
　前記処理部は、
　前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
　請求項１に記載の音響処理装置。
　前記取得部は、
　ＧＰＳ（Global　Positioning　System）によって測位される前記ユーザの位置情報を取得し、
　前記処理部は、
　前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
　請求項１に記載の音響処理装置。
　前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
　をさらに備え、
　前記取得部は、
　前記クリエータによって変更された前記音響情報を取得し、
　前記記憶部は、
　前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応付けて記憶する
　請求項２に記載の音響処理装置。
　前記記憶部は、
　前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
　請求項１に記載の音響処理装置。
　前記記憶部は、
　前記ユーザの頭部伝達関数を記憶し、
　前記処理部は、
　前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
　請求項１に記載の音響処理装置。
　前記記憶部は、
　前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
　請求項１４に記載の音響処理装置。
　前記記憶部は、
　前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
　請求項１４に記載の音響処理装置。
　前記記憶部は、
　前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
　請求項１４に記載の音響処理装置。
　コンピュータが実行する音響処理方法であって、
　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
　前記場所における音響に関する音響情報を記憶する記憶工程と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
　を含む音響処理方法。
　音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
　前記場所における音響に関する音響情報を記憶する記憶手順と、
　前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
　をコンピュータに実行させる音響処理プログラム。