WO2022163308A1

WO2022163308A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2022163308A1
Application number: PCT/JP2022/000011
Authority: WO
Inventors: 亨中川; 真志藤原; 彬人中井
Original assignee: ソニーグループ株式会社
Priority date: 2021-01-29
Filing date: 2022-01-04
Publication date: 2022-08-04
Also published as: DE112022000838T5; JPWO2022163308A1

Abstract

本技術は、個人化された伝達関数をユーザが調整することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の情報処理装置は、測定環境における音の伝達特性であり、ユーザに個人化された伝達特性である個人化伝達特性を、ユーザの操作に応じて調整する調整部を備える。本技術の情報処理装置は、個人化伝達特性の調整時に参照されるリファレンス情報の内容を、個人化伝達特性とともにユーザに提示する提示部をさらに備える。本技術は、例えば、映画などのコンテンツのオーディオのミキシングを行うシステムに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、個人化された伝達関数をユーザが調整することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　個人化された頭部伝達関数（HRTF(Head Related Transfer Function)）は、例えば、スピーカから耳までのHRTFに対して、ヘッドホンから耳までのHRTFの逆特性を畳み込むことによって取得される。

　個人化されたHRTFを用いた演算を行うことにより、音像を所定の位置に精度よく定位させ、ヘッドホンから聞こえる音を立体的に再生することが可能となる。ヘッドホンから聞こえる音は、HRTFの測定環境における音源からの音を再現したものとなる。

特開２００９－２６０５７４号公報

　個人化されたHRTFは、ユーザに固有のものであり、通常は固定値として演算に用いられる。したがって、ユーザは、個人化されたHRTF自体を調整して音場や音質を調整することができない。

　本技術はこのような状況に鑑みてなされたものであり、個人化された伝達関数をユーザが調整することができるようにするものである。

　本技術の一側面の情報処理装置は、測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する調整部を備える。

　本技術の一側面においては、測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性が、前記ユーザの操作に応じて調整される。

本技術の一実施の形態に係る音響制作システムの構成例を示す図である。測定環境における測定の流れを示す図である。測定環境における調整の流れを示す図である。測定環境における調整の例を示す図である。再生環境における再生の流れを示す図である。情報処理装置の機能構成例を示すブロック図である。ファイル生成部の構成例を示すブロック図である。音場調整用のリファレンス情報の例を示す図である。調整値記録部の構成例を示すブロック図である。個人化HRTFファイルに記録される情報の例を示す図である。測定環境において情報処理装置が行う個人化HRTFファイル生成処理について説明するフローチャートである。測定環境において情報処理装置が行う個人化HRTF調整処理について説明するフローチャートである。ファイル情報表示処理について説明するフローチャートである。属性情報の表示例を示す図である。音質調整処理について説明するフローチャートである。音質調整画面の表示例を示す図である。音質調整画面の各情報の内容を示す図である。音場調整処理について説明するフローチャートである。音場調整画面の表示例を示す図である。音場調整画面の各情報の内容を示す図である。再生機器の機能構成例を示すブロック図である。再生環境において再生機器が行う再生処理について説明するフローチャートである。コンピュータのハードウェアの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．音響制作システムの構成
　２．音響制作システムにおける作業の全体の流れ
　３．情報処理装置の構成と動作
　４．再生機器の構成と動作
　５．変形例

＜＜１．音響制作システムの構成＞＞
　図１は、本技術の一実施の形態に係る音響制作システムの構成例を示す図である。

　図１の音響制作システムは、測定環境側の機器と再生環境側の機器により構成される。図１の音響制作システムは、例えば、映画の音声の制作に用いられるシステムである。

　映画の音声には、出演者の台詞やナレーションなどの人物の音声だけでなく、効果音、環境音、BGMなどの各種の音が含まれる。以下、適宜、それぞれの音の種類を区別する必要がない場合、まとめて音声として説明するが、実際には、映画の音には音声以外の種類の音も含まれる。

　図１の左側に示すように、測定環境は、ダビングステージなどと呼ばれ、音響制作に用いられる映画館である。映画館には、スクリーンとともに複数のスピーカが設けられる。また、映画館には、測定環境の音の伝達特性を表すHRTF(Head-Related Transfer Function)の測定結果を取得し、HRTFファイルなどの情報を生成する情報処理装置１が設けられる。情報処理装置１は例えばPCにより構成される。

　図１の音響制作システムの測定環境においては、映画の音声の制作者に個人化されたHRTFである個人化HRTFが測定される。また、測定環境の音質と同じ音質を再現するとともに、測定環境の音場と同じ音場を再現することができるように、個人化HRTFの調整が行われる。個人化HRTFの調整は、例えば、再生環境において編集を行う制作者自身により、個人化HRTFを用いた再生音を聴きながら行われる。

　個人化HRTFの調整値を個人化HRTFデータとともに記録することによって、個人化HRTFファイルが情報処理装置１により生成される。

　図１の矢印の先に示すように、個人化HRTFの測定結果を表す個人化HRTFデータと調整値などが記録された個人化HRTFファイルは、再生環境に設けられた再生機器３１に提供される。再生機器３１に対する個人化HRTFファイルの提供が、インターネットなどのネットワークを介して行われるようにしてもよいし、フラッシュメモリなどの記録媒体を用いて行われるようにしてもよい。

　再生環境は、スタジオ、制作者の自宅などの、映画館とは異なる場所にある環境である。再生環境が測定環境と同じ場所に用意されるようにしてもよい。

　再生環境には、映画の音声の編集に用いられる機器である再生機器３１が設けられる。再生機器３１も例えばPCにより構成される。制作者は、自宅などの再生環境においてヘッドホン３２を使用して、映画の音声の編集を行う。ヘッドホン３２は、再生環境に用意された出力機器である。

　再生機器３１においては、個人化HRTFを用いて音声信号の再生が行われる。個人化HRTFを用いた再生が行われることにより、個人化HRTFの測定に用いられた映画館のスピーカから出力された音声が再現される。

　音声信号の再生時、再生機器３１においては、音声信号の再生に用いられる個人化HRTFに対して、調整値に基づく調整が行われる。音声信号の再生が調整後の個人化HRTFを用いて行われることにより、ヘッドホン３２から聞こえる音声の音質は、測定環境における音質と同じ音質になる。また、ヘッドホン３２から聞こえる音の音場は、測定環境における音場と同じ音場になる。

　このように、図１の音響制作システムにおいては、個人化HRTF自体を調整することが可能とされる。通常、個人化HRTFを用いて再生された音声は、個人化されていないHRTF（多くの人に共通に用いられるHRTF）を用いて再生された音声と比べて測定環境における音声をより忠実に再現したものとなるが、測定環境の音響特性や再生時に用いるヘッドホンのデバイス特性などによっては、個人化HRTFを用いて再生された音声と測定環境における音声との差が感じられることがある。

　個人化HRTF自体を調整することにより、音質と音場が調整された測定環境の音声が再現される。制作者は、自分の感じ方を基準にして調整した音声を聴きながら、編集を行うことができる。

　これにより、制作者は、ヘッドホン３２を使用して、映画館と同じ音響環境下で編集を行うことが可能となる。すなわち、映画館と同じ音響環境が再生環境に仮想的に再現される。

　通常、映画の音声の制作環境では、映画館のスピーカから出力される再生音をリファレンスとして制作が行われる。本技術の音響制作システムによれば、映画館に出向く必要がないことから、制作者は、自宅などでも編集を行うことが可能となる。

＜＜２．音響制作システムにおける作業の全体の流れ＞＞
　測定環境と再生環境のそれぞれにおいて行われる作業の流れについて説明する。測定環境においては、測定と調整の作業がそれぞれ行われる。

＜測定環境における測定の流れ＞
　図２は、測定環境における測定の流れを示す図である。

　測定環境における測定には、主に、HRTFの測定とリファレンス情報の記録が含まれる。

・HRTF測定
　図２の左側に示すように、HRTFの測定は、例えば、聴取者が映画館の所定の座席に座り、耳穴にマイク（マイクロフォン）２１を取り付けた状態で行われる。

　ここでは、映画の音声の制作者自身が聴取者となる。制作者自身が聴取者となることにより、その制作者に個人化されたHRTFが測定される。耳の形などによってHRTFが異なるため、個人化HRTFを用いることにより、音像が精度よく定位される。

　この状態で、映画館のスピーカ２３から再生音が出力され、スピーカ２３から耳（例えば耳穴位置、鼓膜位置）までの個人化HRTFが測定される。

　スピーカ２３から耳までの個人化HRTFの測定が行われた後、聴取者は、マイク２１を取り付けた耳に被せるようにして、ヘッドホン２２を装着する。ヘッドホン２２は、測定環境に用意された出力機器である。

　この状態で、ヘッドホン２２から再生音が出力され、ヘッドホン２２から耳までの個人化HRTFが測定される。ヘッドホン２２からの再生音として、例えばスピーカ２３から出力された再生音と同じ音が用いられる。

　このようにして測定されたスピーカ２３から耳までの個人化HRTFと、ヘッドホン２２から耳までの個人化HRTFが情報処理装置１により取得される。情報処理装置１は、スピーカ２３から耳までの個人化HRTFと逆補正データを含む個人化HRTFデータを生成する。

　逆補正データは、ヘッドホン２２から耳までの個人化HRTFの逆特性を表すデータである。逆補正データは、再生環境における再生時に個人化HRTFの補正に用いられる。この補正は、スピーカ２３から耳までの個人化HRTFに逆補正データを重畳するようにして、すなわち、ヘッドホン２２から耳までの個人化HRTFを打ち消すようにして行われる。

　個人化HRTFの補正が行われることにより、制作者に個人化され、かつ、ヘッドホン２２の個体差を考慮した、スピーカ２３から耳までの精度の高いHRTFを得ることが可能となる。

・リファレンス情報の記録
　図２の右側に示すように、個人化HRTFの調整時に制作者により参照される情報であるリファレンス情報が取得される。リファレンス情報は、例えば、測定環境の特性やヘッドホン２２のデバイス特性などに基づいて取得される。リファレンス情報の詳細については後述する。

　HRTF測定によって生成された個人化HRTFデータとともにリファレンス情報を記録することによって、矢印＃１の先に示すように個人化HRTFファイルが生成される。

＜測定環境における調整の流れ＞
　図３は、測定環境における調整の流れを示す図である。

　測定環境に用意された情報処理装置１においては、図３の左側に示すように、スピーカ２３から耳までの個人化HRTFと、ヘッドホン２２から耳までの個人化HRTFの逆補正データが、個人化HRTFファイルから個人化HRTFデータとして読み出される。

　情報処理装置１には、図３の右側に示すようにヘッドホン２２が接続される。ヘッドホン２２からは、個人化HRTFファイルから読み出された個人化HRTFデータを用いて再生された音声が出力される。

　制作者は、ディスプレイ１Ａの表示を見て情報処理装置１を操作し、例えば、図４に示すように、ヘッドホン２２から出力された再生音の音場と音質が、それぞれ、スピーカ２３から出力された再生音の音場と音質を再現したものとなるように調整を行う。ディスプレイ１Ａに表示される調整画面には、例えば、個人化HRTFデータとリファレンス情報に基づく情報が表示される。

　例えば、制作者は、音場の調整に用いられるリファレンス情報を参照して、ヘッドホン２２から出力される再生音に含まれる残響成分を調整する。情報処理装置１においては、スピーカ２３から耳までの個人化HRTFの調整に用いる調整値が制作者の操作に応じて生成される。

　また、制作者は、音質の調整に用いられるリファレンス情報を参照して、ヘッドホン２２の特性を加味した音質を調整する。情報処理装置１においては、ヘッドホン２２から耳までの個人化HRTFの逆補正データの調整に用いる調整値が制作者の操作に応じて生成される。

　このようにして生成された個人化HRTFデータの調整値が、図３の矢印＃２の先に示すように、個人化HRTFデータおよびリファレンス情報とともに個人化HRTFファイルに記録される。

＜再生環境における再生の流れ＞
　図５は、再生環境における再生の流れを示す図である。

　再生環境に用意された再生機器３１にはヘッドホン３２が接続される。ヘッドホン３２は、例えば、測定環境において用いられたヘッドホン２２と同じメーカーが製造する、同じ型番のヘッドホン（同じ仕様のヘッドホン）である。制作者が自宅に持ち帰ったヘッドホン２２がヘッドホン３２として使用されるようにしてもよい。

　再生機器３１においては、個人化HRTFファイルに記録された個人化HRTFデータが調整値に基づいて調整される。調整された個人化HRTFデータを用いて、オブジェクトオーディオやチャネルオーディオなどの、編集対象となる映画の音声信号の再生が行われる。映画の音声を構成するオーディオデータには、オブジェクトオーディオやチャネルオーディオのデータが含まれる。

　制作者は、映画の音声の制作環境としての映画館を再現するようにして出力された再生音を聞きながら、映画の音声の編集作業を行うことができる。

　このように、個人化HRTFデータを調整することにより、映画の音声や音楽の制作において求められる音場と音質を再現することが可能となる。

　例えば、スピーカ２３から耳までの個人化HRTFの調整が行われることにより、制作者は、音がボケていないように音場が調整された状態で音声の編集を行うことができる。また、ヘッドホン２２から耳までの個人化HRTFの逆補正データの調整が行われることにより、制作者は、測定環境に設置されたサブウーファから出力される低域の音の音質の再現度を向上させることができる。

＜＜３．情報処理装置の構成と動作＞＞
＜情報処理装置の構成＞
　図６は、情報処理装置１の機能構成例を示すブロック図である。

　情報処理装置１においては、情報処理装置１を構成するPCのCPUにより所定のプログラムが実行されることによって情報処理部１０１が実現される。

　情報処理部１０１は、ファイル生成部１１１と調整値記録部１１２から構成される。情報処理部１０１の構成のうちの少なくとも一部の構成が、測定環境に用意されたアンプなどの他の機器により実現されるようにしてもよい。

　ファイル生成部１１１は、個人化HRTFの測定を行い、個人化HRTFファイルを生成する。ファイル生成部１１１により生成された個人化HRTFファイルは、調整値記録部１１２に供給される。

　調整値記録部１１２は、個人化HRTFデータを制作者の操作に応じて調整し、調整値を個人化HRTFファイルに記録する。

・ファイル生成部の構成
　図７は、ファイル生成部１１１の構成例を示すブロック図である。

　ファイル生成部１１１は、再生処理部１２１、出力制御部１２２、HRTF取得部１２３、HRTFデータ生成部１２４、リファレンス情報取得部１２５、およびHRTFファイル生成部１２６から構成される。

　再生処理部１２１は、ヘッドホン２２とスピーカ２３から出力させる音の再生を制御する。規定信号のデータなどのオーディオデータを再生して得られた音声信号は出力制御部１２２に供給される。

　出力制御部１２２は、再生処理部１２１から供給された音声信号に応じた再生音を、ヘッドホン２２とスピーカ２３から出力させる。

　HRTF取得部１２３は、マイク２１による集音結果に基づいて、ヘッドホン２２から耳までの個人化HRTFと、スピーカ２３から耳までの個人化HRTFを取得する。HRTF取得部１２３により取得された個人化HRTFを表す情報はHRTFデータ生成部１２４に供給される。

　HRTFデータ生成部１２４は、逆補正データと、スピーカ２３から耳までの個人化HRTFとを含む個人化HRTFデータを生成する。HRTFデータ生成部１２４により生成された個人化HRTFデータはHRTFファイル生成部１２６に供給される。

　リファレンス情報取得部１２５は、測定環境の特性とヘッドホン２２のデバイス特性に基づいてリファレンス情報を取得する。

　具体的には、リファレンス情報取得部１２５は、ヘッドホン２２の特性に基づいて、音質調整用のリファレンス情報を取得する。音質調整用のリファレンス情報は、個人性ばらつき、リニアリティ、THD(Total Harmonic Distortion)などのデバイス特性に基づいて取得される。

　例えば、各電圧の信号を用いた場合の音圧分布レベル（SPL(Sound Pressure Level)）とTHDに基づいて音質調整用のリファレンス情報が取得される。

　また、リファレンス情報取得部１２５は、測定環境の残響特性に基づいて、音場調整用のリファレンス情報を取得する。例えば、スピーカ２３から耳までの個人化HRTFに基づいて、音場調整用のリファレンス情報が取得される。

　図８は、音場調整用のリファレンス情報の例を示す図である。

　図８のＡは、「Room A」、「Room B」、および「Room C」の３つの空間における残響成分の減衰特性を表す。図８のＢは、「Room A」の空間における残響成分を、「Room B」と「Room C」のそれぞれの空間における残響成分に変換するための情報を表す。「Room A」は広い部屋を表し、例えば測定環境である映画館に相当する。「Room B」は中程度の広さの部屋を表し、「Room C」は狭い部屋を表す。

　このように、リファレンス情報取得部１２５は、測定環境における残響成分の情報とともに、測定環境における残響成分を規定の空間における残響成分に変換するための情報を、リファレンス情報として取得する。

　以上のような測定環境の特性やヘッドホン２２のデバイス特性を表す情報は、例えば、個人化HRTFの測定前に図７のリファレンス情報取得部１２５に入力される。リファレンス情報取得部１２５により取得されたリファレンス情報は、HRTFファイル生成部１２６に供給される。

　HRTFファイル生成部１２６は、HRTFデータ生成部１２４から供給された個人化HRTFデータに対して、リファレンス情報取得部１２５から供給されたリファレンス情報を含むヘッダ部を付加することによって個人化HRTFファイルを生成する。ヘッダ部には、リファレンス情報とともに、測定場所、ユーザ名、ヘッドホン２２の機種名を表す情報が属性情報として含まれる。

・調整値記録部の構成
　図９は、調整値記録部１１２の構成例を示すブロック図である。

　調整値記録部１１２は、個人化HRTFファイル取得部１４１、再生処理部１４２、出力制御部１４３、調整部１４４、および記録部１４５から構成される。

　個人化HRTFファイル取得部１４１は、ファイル生成部１１１から供給された個人化HRTFファイルを取得する。個人化HRTFファイル取得部１４１により取得された個人化HRTFファイルは、再生処理部１４２、調整部１４４、および記録部１４５に供給される。

　再生処理部１４２は、個人化HRTFの調整において用いる音声信号を取得する。例えば、個人化HRTFの測定において使用された規定信号と同じ音声信号が取得される。

　再生処理部１４２は、個人化HRTFファイル取得部１４１から供給された個人化HRTFファイルから個人化HRTFデータを読み出し、個人化HRTFの畳み込みを含むバイノーラル処理を音声信号に対して行うことによって再生信号を生成する。

また、再生処理部１４２は、適宜、調整部１４４から供給された調整値に基づいて個人化HRTFを調整し、調整後の個人化HRTFを用いたバイノーラル処理を行う。再生処理部１４２により生成された再生信号は、出力制御部１４３に供給される。

　出力制御部１４３は、再生処理部１４２から供給された信号に応じた再生音をヘッドホン２２から出力させる。

　調整部１４４は、ファイル情報表示部１７１、音質調整部１７２、および音場調整部１７３により構成される。

　ファイル情報表示部１７１は、個人化HRTFファイル取得部１４１から供給された個人化HRTFファイルのヘッダ部に含まれる属性情報の内容などを調整画面に表示させる。個人化HRTFデータの調整時、ディスプレイ１Ａには、個人化HRTFデータの調整に用いられるGUI(Graphical User Interface)となる調整画面が表示される。

　音質調整部１７２は、音質の調整時、逆補正データを表す情報などを調整画面に表示させる。逆補正データは、個人化HRTFファイル取得部１４１から供給された個人化HRTFファイルの個人化HRTFデータに含まれる。また、音質調整部１７２は、個人化HRTFファイルのヘッダ部に含まれるリファレンス情報の内容を調整画面に表示させる。

　音質調整部１７２は、制作者の操作に応じて、逆補正データの調整値を音質調整値として取得する。

　音場調整部１７３は、音場の調整時、スピーカ２３から耳までの個人化HRTFに基づく残響成分を表す情報などを調整画面に表示させる。スピーカ２３から耳までの個人化HRTFは、個人化HRTFファイル取得部１４１から供給された個人化HRTFファイルの個人化HRTFデータに含まれる。また、音場調整部１７３は、個人化HRTFファイルのヘッダ部に含まれるリファレンス情報の内容を調整画面に表示させる。

　音場調整部１７３は、制作者の操作に応じて、スピーカ２３から耳までの個人化HRTFの調整値を音場調整値として取得する。

　このように、調整部１４４は、属性情報の内容、リファレンス情報の内容、個人化HRTFデータなどを調整画面に表示させ、制作者（ユーザ）に提示する提示部として機能する。調整部１４４により取得された音質調整値と音場調整値は、再生処理部１４２と記録部１４５に供給される。

　記録部１４５は、個人化HRTFファイル取得部１４１から供給された個人化HRTFファイルのヘッダ部に、調整部１４４から供給された調整値を記録する。

　図１０は、個人化HRTFファイルに記録される情報の例を示す図である。

　個人化HRTFファイルには、個人化HRTFデータが記録されるとともに、ヘッダ情報がヘッダ部に記録される。吹き出しに示すように、ヘッダ情報には、属性情報、リファレンス情報、および調整値が含まれる。

　属性情報には、測定場所を表す情報、ユーザ名を表す情報、測定に使用されたヘッドホンの機種名を表す情報が含まれる。

　測定場所を表す情報は、測定環境の場所を表す情報である。上述した例の場合、測定環境として使用された映画館の情報が、測定場所を表す情報として記録される。例えば、個人化HRTFの調整を行う制作者は、測定場所を表す情報に基づいて測定環境を特定することが可能となる。

　ユーザ名を表す情報は、個人化HRTFを使用して編集を行う制作者を表す情報である。

　測定に使用したヘッドホンの機種名を表す情報には、ヘッドホン２２のメーカーを表す情報、型名などの識別情報が含まれる。

　リファレンス情報には、音質調整用のリファレンス情報と音場調整用のリファレンス情報が含まれる。

　音質調整用のリファレンス情報には、例えば、Split Freq、Limit Gainが含まれる。

　Split Freqは、一定の補正値を適用する境界となる周波数を表す。Split Freq以上の帯域に対しては一定の補正値を用いた補正が行われる。Limit Gainは補正値となるゲインの最大値を表す。

　音場調整用のリファレンス情報には、例えば、Gain、Start Point、Lengthが含まれる。

　Gainは残響成分の補正値として用いられるゲインを表す。Start Pointは減衰の開始位置を表す。Lengthは一定の減衰率の適用範囲を表す。

　以上のような各情報が、音質調整値と音場調整値からなる調整値とともにヘッダ情報として記録され、個人化HRTFファイルが構成される。調整値の情報がヘッダ部に記録された個人化HRTFファイルが再生機器３１に提供される。

＜情報処理装置の動作＞
　ここで、以上のような構成を有する情報処理装置１の処理について説明する。

・個人化HRTFファイル生成処理
　図１１のフローチャートを参照して、測定環境において情報処理装置１が行う個人化HRTFファイル生成処理について説明する。

　ここでは、図１１の全てのステップの処理が情報処理装置１により行われる処理であるとして説明するが、適宜、測定環境に用意された他の機器により行われる。上述したように、個人化HRTFの測定は、聴取者としての制作者が映画館の所定の座席に座り、耳穴にマイク２１を取り付けた状態で行われる。

　ステップＳ１において、出力制御部１２２は、映画館のスピーカ２３から再生音を出力させる。

　ステップＳ２において、HRTF取得部１２３は、マイク２１による集音結果に基づいて、スピーカ２３から耳までの個人化HRTFを測定する。スピーカ２３から耳までの個人化HRTFの測定が行われた後、制作者は、マイク２１を取り付けた耳に被せるようにして、ヘッドホン２２を装着する。

　ステップＳ３において、出力制御部１２２は、制作者が装着したヘッドホン２２から再生音を出力させる。

　ステップＳ４において、HRTF取得部１２３は、マイク２１による集音結果に基づいて、ヘッドホン２２から耳までの個人化HRTFを測定する。

　ステップＳ５において、HRTFデータ生成部１２４は、ヘッドホン２２から耳までの個人化HRTFと、スピーカ２３から耳までの個人化HRTFの逆補正データとを含む個人化HRTFデータを生成する。

　ステップＳ６において、リファレンス情報取得部１２５は、ヘッドホン２２や測定環境の特性に基づいてリファレンス情報を取得する。

　ステップＳ７において、HRTFファイル生成部１２６は、リファレンス情報を含むヘッダ情報と個人化HRTFデータを記録した個人化HRTFファイルを生成する。

　以上においては、マイク２１を用いて個人化HRTFの測定が行われるものとしたが、制作者の耳を撮影して得られた耳画像に基づいて、スピーカ２３から耳までの個人化HRTFが取得されるようにしてもよい。この場合、機械学習などによってあらかじめ生成された個人化HRTF推論用の推論モデルが用いられる。個人化HRTF推論用の推論モデルは、耳画像を入力とし、個人化HRTFを出力とする推論モデルである。

・個人化HRTF調整処理
　次に、図１２のフローチャートを参照して、測定環境において情報処理装置１が行う個人化HRTF調整処理について説明する。

　ステップＳ２１において、ファイル情報表示部１７１は、ファイル情報表示処理を行う。ファイル情報表示処理により、個人化HRTFファイルが読み込まれ、属性情報の内容などが表示される。ファイル情報表示処理については、図１３のフローチャートを参照して後述する。

　ステップＳ２２において、音質調整部１７２は、音質調整処理を行う。音質調整処理により、逆補正データが調整され、音質調整値が個人化HRTFファイルに記録される。音質調整処理については、図１５のフローチャートを参照して後述する。

　ステップＳ２３において、音場調整部１７３は、音場調整処理を行う。音場調整処理により、スピーカ２３から耳までの個人化HRTFデータが調整され、音場調整値が個人化HRTFファイルに記録される。音場調整処理については、図１８を参照して後述する。

・ファイル情報表示処理
　図１３のフローチャートを参照して、図１２のステップＳ２１において行われるファイル情報表示処理について説明する。

　ステップＳ３１において、調整部１４４は、個人化HRTFファイルを読み込む。個人化HRTFファイルが読み込まれることにより、スピーカから耳までの個人化HRTFデータと逆補正データが取得される。また、属性情報とリファレンス情報が取得される。

　ステップＳ３２において、ファイル情報表示部１７１は、属性情報に基づいて測定場所を表す情報を表示させる。

　ステップＳ３３において、ファイル情報表示部１７１は、属性情報に基づいてユーザ名を表す情報を表示させる。

　ステップＳ３４において、ファイル情報表示部１７１は、属性情報に基づいて、測定に使用されたヘッドホン２２の機種名を表す情報を表示させる。

　図１４は、属性情報の表示例を示す図である。

　図１４に示す画面は、個人化HRTFデータの調整に用いられる調整画面のメイン画面として表示される。画面上方の項目２０１は、調整対象の個人化HRTFファイルを表す。図１４の例においては、「/No Name/profiles/Username」が調整対象の個人化HRTFファイルとして表示されている。

　項目２０１の下に、測定場所を表す画像である画像Ｐ１が表示される。画像Ｐ１の右側には、属性情報の表示領域である領域Ａ１が形成される。領域Ａ１には項目２０２乃至２０４の３種類の情報が表示される。

　項目２０２は測定場所の名前を表す。図１４の例においては、「Room A」が測定場所の名前として表示されている。

　項目２０３はユーザ名を表す。図１４の例においては、「Username」がユーザ名として表示されている。

　項目２０４は、測定に使用されたヘッドホンの機種名を表す。図１４の例においては、「Headphones」がヘッドホンの機種名として表示されている。

　制作者は、項目２０１乃至２０４の表示を見て、調整対象の個人化HRTFファイルを確認したり、測定環境の情報を確認したりすることができる。

　このように、属性情報が表示された後、図１２のステップＳ２１に戻り、それ以降の処理が行われる。

・音質調整処理
　図１５のフローチャートを参照して、図１２のステップＳ２２において行われる音質調整処理について説明する。

　音質調整処理は、例えば、図１４のメイン画面において音質調整を行うことが指示された場合に開始される。上述したように、音質調整は、ヘッドホン２２から耳までの個人化HRTFの逆特性を表す逆補正データを調整するようにして行われる。

　ステップＳ４１において、音質調整部１７２は、逆補正データを表す情報を表示させる。

　ステップＳ４２において、音質調整部１７２は、リファレンス情報に基づいて、ヘッドホン２２のデバイス特性を考慮した最大補正量のリファレンス線を表示させる。

　図１６は、音質調整画面の表示例を示す図である。

　図１６に示すように、音質調整画面の上方には、音質調整用のリファレンス情報の内容が表示される。

　項目２１１は、一定の補正を適用する境界となる周波数を表す「Split Freq」である。図１６の例においては、「11700」Hzが、境界となる周波数として表示されている。

　項目２１２は、補正値となるゲインの最大値を表す「Limit Gain」である。図１６の例においては、「16.0」（dB）が11700Hz以下の周波数のゲインの最大値として表示され、「-2.0」（dB）が11700Hz以上の周波数のゲインの最大値として表示されている。

　画面の下方には、逆補正データを表す波形２１４とともに、リファレンス線２１３が表示される。波形２１４は、Ｌチャネル用の逆補正データとＲチャネル用の逆補正データを表す。リファレンス線２１３は、ヘッドホン２２のデバイス特性を考慮した最大補正量を表す。各情報の内容を図１７に示す。

　制作者は、リファレンス線２１３を見て、ゲインをどの程度の値にする必要があるのかを確認することができる。制作者は、波形２１４上の表示を動かすなどして、「Split Freq」と「Limit Gain」により表される音質調整用のリファレンス情報を調整する。

　図１５の説明に戻り、ステップＳ４３において、音質調整部１７２は、制作者の操作に応じて、逆補正データを調整する。音質調整部１７２により、逆補正データの調整値である音質調整値が、制作者の操作に応じて設定される。音質調整値を用いた調整後の逆補正データを用いた再生が、適宜、再生処理部１４２により行われる。

　ステップＳ４４において、記録部１４５は、音質調整値を個人化HRTFファイルのヘッダ部に記録する。

　音質調整値が記録された後、図１２のステップＳ２２に戻り、それ以降の処理が行われる。

・音場調整処理
　図１８のフローチャートを参照して、図１２のステップＳ２３において行われる音場調整処理について説明する。

　音場調整処理は、例えば、図１４のメイン画面において音場調整を行うことが指示された場合に開始される。

　ステップＳ６１において、音場調整部１７３は、スピーカ２３から耳までの個人化HRTFに基づく部屋Ａにおける残響成分を表す情報を表示させる。部屋Ａは例えば、測定環境である映画館である。

　ステップＳ６２において、音場調整部１７３は、リファレンス情報に基づいて、部屋Ａにおける残響成分を部屋Ｂにおける残響成分に変換するためのリファレンス線を表示させる。

　ステップＳ６３において、音場調整部１７３は、リファレンス情報に基づいて、部屋Ａにおける残響成分を部屋Ｃにおける残響成分に変換するためのリファレンス線を表示させる。

　図１９は、音場調整画面の表示例を示す図である。

　図１９に示すように、音場調整画面の上方には、音場調整用のリファレンス情報の内容が表示される。各情報の内容を図２０に示す。

　項目２２１は、残響成分の補正値として用いられるゲインを表す「Gain」である。図１９の例においては、「-29」dBがゲインとして表示されている。

　項目２２２は、減衰の開始位置を表す「Start Point」である。図１９の例においては、「256」の値が減衰の開始位置として表示されている。

　項目２２３は、一定の減衰率の適用範囲を表す「Length」である。図１９の例においては、「２」ｋが減衰率の適用範囲として表示されている。

　画面の下方には、残響成分を表す波形２２４とともに、リファレンス線２２５乃至２２７が表示される。リファレンス線２２５は、測定環境における残響成分の減衰特性を表す。リファレンス線２２５により、測定環境における残響成分の開始位置、終了位置、ゲインが表される。

　リファレンス線２２６は、測定環境における残響成分を「Room B」における残響成分に変換するためのリファレンス線であり、「Room B」の減衰特性を表す。リファレンス線２２７は、測定環境における残響成分を「Room C」における残響成分に変換するためのリファレンス線であり、「Room C」の減衰特性を表す。

　制作者は、リファレンス線２２６とリファレンス線２２７を見て、残響成分をどの程度補正する必要があるのかを確認することができる。制作者は、項目２２１乃至２２３の欄に数値を入力したり、項目２２１乃至２２３の隣に表示されたスライドバーを動かしたりして、「Gain」、「Start Point」、「Length」により表される音場調整用のリファレンス情報を調整する。

　図１８の説明に戻り、ステップＳ６４において、音場調整部１７３は、制作者の操作に応じて、スピーカ２３から耳までの個人化HRTFを調整する。音場調整部１７３により、スピーカ２３から耳までの個人化HRTFの調整値である音場調整値が、制作者の操作に応じて設定される。音場調整値を用いた調整後の個人化HRTFを用いた再生が、適宜、再生処理部１４２により行われる。

　ステップＳ６５において、記録部１４５は、音場調整値を個人化HRTFファイルのヘッダ部に記録する。

　音場調整値が記録された後、図１２のステップＳ２３に戻り、それ以降の処理が行われる。以上の一連の処理によって生成された個人化HRTFファイルが再生機器３１に提供される。

＜＜４．再生機器の構成と動作＞＞
＜再生機器の構成＞
　図２１は、再生機器３１の機能構成例を示すブロック図である。

　再生機器３１においては、再生機器３１を構成するPCのCPUにより所定のプログラムが実行されることによって再生処理部２５１が実現される。

　再生処理部２５１は、音声信号取得部２６１、個人化HRTFファイル取得部２６２、音声信号処理部２６３、および出力制御部２６４から構成される。再生処理部２５１の構成のうちの少なくとも一部の構成が、再生環境に用意された他の機器において実現されるようにしてもよい。

　音声信号取得部２６１は、例えば、編集対象となる映画の音声の音声信号を取得し、音声信号処理部２６３に出力する。

　個人化HRTFファイル取得部２６２は、情報処理装置１から提供された個人化HRTFファイルを取得し、音声信号処理部２６３に出力する。

　音声信号処理部２６３は、個人化HRTFファイル取得部２６２から供給された個人化HRTFファイルから個人化HRTFデータを読み出し、音声信号取得部２６１から供給された音声信号に対してバイノーラル処理を行うことによって再生信号を生成する。

　また、音声信号処理部２６３は、適宜、個人化HRTFファイルのヘッダ部に含まれる調整値に基づいて個人化HRTFデータを調整し、調整後の個人化HRTFを用いたバイノーラル処理を行う。音声信号処理部２６３により生成された再生信号は出力制御部２６４に供給される。

　出力制御部２６４は、音声信号処理部２６３から供給された再生信号に応じた再生音をヘッドホン３２から出力させる。

＜再生機器の動作＞
　図２２のフローチャートを参照して、再生環境において再生機器３１が行う再生処理について説明する。

　ステップＳ８１において、音声信号取得部２６１は、映画の音声の音声信号を取得する。

　ステップＳ８２において、個人化HRTFファイル取得部２６２は、情報処理装置１から提供された個人化HRTFファイルを取得する。

　ステップＳ８３において、音声信号処理部２６３は、スピーカ２３から耳までの個人化HRTFを、音場調整値を用いて調整する。スピーカ２３から耳までの個人化HRTFは、個人化HRTFファイルの個人化HRTFデータから取得され、音場調整値は、個人化HRTFファイルのヘッダ部から取得される。

　ステップＳ８４において、音声信号処理部２６３は、ヘッドホン２２から耳までの特性の逆補正データを、音質調整値を用いて調整する。逆補正データは、個人化HRTFファイルの個人化HRTFデータから取得され、音質調整値は、個人化HRTFファイルのヘッダ部から取得される。

　ステップＳ８５において、音声信号処理部２６３は、調整後の逆補正データを用いて、調整後のスピーカ２３から耳までの個人化HRTFを補正する。具体的には、調整後のヘッドホン２２から耳までの個人化HRTFの逆特性を、調整後のスピーカ２３から耳までの個人化HRTFに重畳するようにして補正が行われる。

　ステップＳ８６において、音声信号処理部２６３は、補正後の個人化HRTFを用いて、映画の音声の音声信号に対してバイノーラル処理を行う。バイノーラル処理により再生信号が生成される。

　ステップＳ８７において、出力制御部２６４は、再生信号に応じた再生音をヘッドホン３２から出力させる。

　以上のように、映画の音声の制作者は、自身に個人化されたHRTFを調整することができる。個人化HRTF自体を調整することができるようにすることにより、映画の音声や音楽の制作において求められる音質と音場を再現することが可能となる。

＜＜５．変形例＞＞
　音声の出力機器としてオーバーヘッド型のヘッドホンが用いられるものとしたが、インナーイヤー型のヘッドホン（イヤホン）が用いられるようにしてもよい。また、ヘッドホンではなく、スピーカが音声の出力機器として用いられるようにしてもよい。

　測定環境において個人化HRTFの調整が行われるものとしたが、測定環境と異なる環境において個人化HRTFの調整が行われるようにしてもよい。この場合、制作者は、測定環境から持ち帰ったヘッドホン２２を使用して個人化HRTFデータの調整を行う。

　図１の音響制作システムが映画の音声の制作に用いられるものとしたが、音楽の制作に用いられるシステム、テレビジョン番組の音声の制作に用いられるシステムなどの、各種の音の制作に用いられるシステムに図１の音響制作システムは適用可能である。

　コンテンツの音声の制作時ではなく、コンシューマ機器で音声を再生する場合に、上述したようにして個人化HRTFデータの調整が行われるようにしてもよい。

　音の伝達特性を表す頭部伝達関数として、周波数領域の情報であるHRTFの形式で記録された情報が用いられるものとしたが、時間領域の情報であるHRIR(Head Related Impulse Response)の形式で記録された情報が用いられるようにしてもよい。

・コンピュータの構成例
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図２３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。情報処理装置１と再生機器３１は、図２３に示す構成と同じ構成を有するPCにより構成される。

　CPU(Central Processing Unit)５０１、ROM(Read Only Memory)５０２、RAM(Random Access Memory)５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続される。入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７が接続される。また、入出力インタフェース５０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５０８、ネットワークインタフェースなどよりなる通信部５０９、リムーバブルメディア５１１を駆動するドライブ５１０が接続される。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを入出力インタフェース５０５及びバス５０４を介してRAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU５０１が実行するプログラムは、例えばリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５０８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
（１）
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する調整部を備える
　情報処理装置。
（２）
　前記個人化伝達特性の調整時に参照されるリファレンス情報の内容を、前記個人化伝達特性とともに前記ユーザに提示する提示部をさらに備える
　前記（１）に記載の情報処理装置。
（３）
　前記調整部は、前記ユーザが装着する出力機器から出力された再生音に基づいて測定された前記個人化伝達特性を調整する
　前記（２）に記載の情報処理装置。
（４）
　前記提示部は、前記出力機器のデバイス特性に基づいて取得された前記リファレンス情報の内容を提示する
　前記（３）に記載の情報処理装置。
（５）
　前記調整部は、前記測定環境に設置されたスピーカから出力された再生音に基づいて測定された前記個人化伝達特性を調整する
　前記（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記提示部は、前記測定環境における音の残響特性に基づいて取得された前記リファレンス情報の内容を提示する
　前記（５）に記載の情報処理装置。
（７）
　前記提示部は、前記測定環境とは異なる規定の空間における音の残響特性を表す前記リファレンス情報の内容を提示する
　前記（６）に記載の情報処理装置。
（８）
　前記リファレンス情報は、前記個人化伝達特性のデータが記録されたファイルのヘッダ部に記録される
　前記（２）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記ユーザの操作に応じた調整値を、前記ヘッダ部に記録する記録部をさらに備える
　前記（８）に記載の情報処理装置。
（１０）
　前記提示部は、前記測定環境の場所を表す情報、前記個人化伝達特性を再生環境において使用する前記ユーザを表す情報、および、前記ユーザが装着する出力機器を表す情報を含む属性情報の内容を提示する
　前記（８）または（９）に記載の情報処理装置。
（１１）
　前記属性情報は、前記ヘッダ部に記録される
　前記（１０）に記載の情報処理装置。
（１２）
　情報処理装置が、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する
　情報処理方法。
（１３）
　コンピュータに、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する
　処理を実行させるためのプログラム。
（１４）
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザによる調整によって設定された調整値に基づいて調整し、調整後の前記個人化伝達特性を用いて音声信号を再生する再生部を備える
　再生機器。
（１５）
　前記再生部は、前記測定環境に設置されたスピーカから出力された再生音に基づいて測定された第１の個人化伝達特性と、前記ユーザが装着する出力機器から出力された再生音に基づいて測定された第２の個人化伝達特性とをそれぞれ調整する
　前記（１４）に記載の再生機器。
（１６）
　前記再生部は、調整後の前記第２の個人化伝達特性の逆特性を、調整後の前記第１の個人化伝達特性に重畳することによって前記第１の個人化伝達特性を補正し、補正後の前記第１の個人化伝達特性を用いて音声信号を再生する
　前記（１５）に記載の再生機器。
（１７）
　再生機器が、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザによる調整によって設定された調整値に基づいて調整し、
　調整後の前記個人化伝達特性を用いて音声信号を再生する
　再生方法。
（１８）
　コンピュータに、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザによる調整によって設定された調整値に基づいて調整し、
　調整後の前記個人化伝達特性を用いて音声信号を再生する
　処理を実行させるためのプログラム。

　１　情報処理装置，　１Ａ　ディスプレイ，　２１　マイク，　２２　ヘッドホン，　３１　再生機器，　３１Ａ　ディスプレイ，　３２　ヘッドホン，　１０１　情報処理部，　１１１　ファイル生成部，　１１２　調整値記録部，　１２１　再生処理部，　１２２　出力制御部，　１２３　HRTF取得部，　１２４　HRTFデータ生成部，　１２５　リファレンス情報取得部，　１２６　HRTFファイル生成部，　１４１　個人化HRTFファイル取得部，　１４２　再生処理部，　１４３　出力制御部，　１４４　調整部，　１４５　記録部，　１７１　ファイル情報表示部，　１７２　音質調整部，　１７３　音場調整部，　２５１　再生処理部，　２６１　音声信号取得部，　２６２　個人化HRTFファイル取得部，　２６３　音声信号処理部，　２６４　出力制御部

Claims

　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する調整部を備える
　情報処理装置。
　前記個人化伝達特性の調整時に参照されるリファレンス情報の内容を、前記個人化伝達特性とともに前記ユーザに提示する提示部をさらに備える
　請求項１に記載の情報処理装置。
　前記調整部は、前記ユーザが装着する出力機器から出力された再生音に基づいて測定された前記個人化伝達特性を調整する
　請求項２に記載の情報処理装置。
　前記提示部は、前記出力機器のデバイス特性に基づいて取得された前記リファレンス情報の内容を提示する
　請求項３に記載の情報処理装置。
　前記調整部は、前記測定環境に設置されたスピーカから出力された再生音に基づいて測定された前記個人化伝達特性を調整する
　請求項２に記載の情報処理装置。
　前記提示部は、前記測定環境における音の残響特性に基づいて取得された前記リファレンス情報の内容を提示する
　請求項５に記載の情報処理装置。
　前記提示部は、前記測定環境とは異なる規定の空間における音の残響特性を表す前記リファレンス情報の内容を提示する
　請求項６に記載の情報処理装置。
　前記リファレンス情報は、前記個人化伝達特性のデータが記録されたファイルのヘッダ部に記録される
　請求項２に記載の情報処理装置。
　前記ユーザの操作に応じた調整値を、前記ヘッダ部に記録する記録部をさらに備える
　請求項８に記載の情報処理装置。
　前記提示部は、前記測定環境の場所を表す情報、前記個人化伝達特性を再生環境において使用する前記ユーザを表す情報、および、前記ユーザが装着する出力機器を表す情報を含む属性情報の内容を提示する
　請求項８に記載の情報処理装置。
　前記属性情報は、前記ヘッダ部に記録される
　請求項１０に記載の情報処理装置。
　情報処理装置が、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する
　情報処理方法。
　コンピュータに、
　測定環境における音の伝達特性であり、ユーザに個人化された前記伝達特性である個人化伝達特性を、前記ユーザの操作に応じて調整する
　処理を実行させるためのプログラム。