WO2023218917A1

WO2023218917A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2023218917A1
Application number: PCT/JP2023/016040
Authority: WO
Inventors: 亨中川; 哲曲谷地
Original assignee: ソニーグループ株式会社
Priority date: 2022-05-11
Filing date: 2023-04-24
Publication date: 2023-11-16

Abstract

本技術は、音響空間における再生音を精度よく再現することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の情報処理装置は、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成する高調波信号生成部と、第１の信号と、音響空間における高調波歪を除いた音の伝達特性が入力信号に畳み込まれた第２の信号とを合成する合成部とを備える。高調波信号生成部は、次数ごとの高調波歪の伝達特性を、高調波歪の次数に対応してそれぞれ処理された入力信号に畳み込む。本技術は、例えば、映画などのコンテンツのオーディオのミキシングを行うシステムに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、音響空間における再生音を精度よく再現することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　映画館やスタジオなどの音響空間における音の伝達特性を示す頭部伝達関数（HRTF:Head Related Transfer Function）を音声信号に畳み込むことにより、音像を所定の位置に定位させ、ヘッドホンから聞こえる音を立体的に再生することが可能となる。例えば、特許文献１には、個人ごとのHRTFを形成し、個人ごとのHRTFを用いて、ある位置の音源からの音圧を実際通りに再現することが記載されている。

　ヘッドホンから聞こえる音は、映画館やスタジオにおけるスピーカなどの音源からの音を再現したものとなる。

特開２０１５－１９３６０号公報

　実際の映画館やスタジオでは壁による反響やスピーカの特性に起因して高調波歪が発生する。しかしながら、HRTFを用いた再生音で、映画館やスタジオにおける高調波歪を再現することができなかった。

　本技術はこのような状況に鑑みてなされたものであり、音響空間における再生音を精度よく再現することができるようにするものである。

　本技術の一側面の情報処理装置は、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成する高調波信号生成部と、前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する合成部とを備える。

　本技術の一側面の情報処理方法は、情報処理装置が、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する。

　本技術の一側面のプログラムは、コンピュータに、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する処理を実行させる。

　本技術の一側面においては、音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号が生成され、前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とが合成される。

HRIRの例を示す図である。 HRTFの測定環境において測定可能な音の伝達特性の例を示す図である。本技術の一実施形態に係る音響制作システムの構成例を示す図である。 TSP信号を用いたHRTFの測定方法について説明する図である。 Log-TSP信号を用いたHRTFの測定方法について説明する図である。測定装置により測定されるインパルス応答の例を示す図である。従来の情報処理装置の構成例を示すブロック図である。従来の情報処理装置が行う再生処理について説明するフローチャートである。本技術の情報処理装置の構成例を示すブロック図である。本技術の情報処理装置が行う再生処理について説明するフローチャートである。情報処理装置の他の構成例を示すブロック図である。設定画面の表示例を示す図である。情報処理装置が行う再生処理について説明するフローチャートである。コンピュータのハードウェアの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．音響制作システムの構成
　２．情報処理装置の構成と動作
　３．変形例

＜１．音響制作システムの構成＞
・概要
　ある音響空間における音源から両耳までの音の伝達特性を示す頭部伝達関数（HRTF:Head Related Transfer Function）を用いて、ヘッドホンで音像を立体的に再生することができる。

　周波数領域の情報であるHRTFは、例えば、図１に示すように、音響空間における音源からユーザの両耳までのインパルス応答を示す時間領域の情報であるHRIR(Head Related Impulse Response)の形式で測定される。

　図２は、HRTFの測定環境において測定可能な音の伝達特性の例を示す図である。

　HRTFの測定環境としてのスタジオＲＭ１には、音源としてのスピーカ１が配置されている。スピーカ１から所定の測定信号に基づく再生音が出力され、スタジオＲＭ１の所定の位置に配置されたマイクロフォン２により再生音が集音されることで、スタジオＲＭ１の音場の特性が測定される。この音場の特性には、図２の吹き出し＃１に示すように、スピーカ１の特性とスタジオＲＭ１の響きが含まれる。

　HRTFの測定位置にいるユーザＵ１の両耳には、マイクロフォンが装着される。この状態で、スピーカ１から所定の測定信号に基づく再生音が出力され、ユーザＵ１の両耳に装着されたマイクロフォンで再生音が集音されることで、吹き出し＃２に示すように、スタジオＲＭ１におけるスピーカ１からユーザの両耳までのHRTFが測定される。

　ユーザＵ１が実際にスタジオＲＭ１に行ってHRTFを測定することにより、測定されたHRTFはユーザＵ１に個人化されたものとなる。なお、ユーザＵ１に個人化されたHRTFの取得方法は、ユーザＵ１が実際に測定環境に行って測定する方法に限られず、例えば、ユーザＵ１の耳を撮影した画像に基づいて、ユーザＵ１に個人化されたHRTFが取得されるようにしてもよい。

　スピーカ１から出力された音は、スタジオＲＭ１において、スピーカ１の特性、スタジオＲＭ１の響き、ユーザＵ１の胴体、頭部、耳介部、および鼓膜の順に音響的な影響を受けて、ユーザＵ１の鼓膜に届く。したがって、スピーカ１から両耳までのHRTFには、スピーカ１の特性、スタジオＲＭ１の響き、および、ユーザＵ１の胴体や、頭部、耳介部、鼓膜の影響が含まれる。

　例えばスタジオＲＭ１が広い場合やスピーカ１が大きい場合、スタジオＲＭ１の壁による反響やスピーカ１の特性に起因して高調波歪が生じると考えられる。

　従来の音響制作システムは、スピーカ１からユーザＵ１の両耳までのHRTFを音声信号に畳み込むことによって、スタジオＲＭ１におけるスピーカ１からの音を再現した再生音を、ユーザＵ１が使用するヘッドホンから出力させる。具体的には、スピーカ１から両耳までのHRTF(SP HRTF)に対してヘッドホンから両耳までのHRTFの逆関数を畳み込むことによって生成される再生フィルタが、音声信号に畳み込まれる。従来の音響制作システムにおける再生フィルタを音声信号に畳み込むアルゴリズムは、線形システムである。

　一方、音響空間において再生音がユーザＵ１の両耳に届くまでの実際の系は、非線形システムであるため、線形システムである従来の音響制作システムにおけるアルゴリズム（単純な畳み込み処理）では、高調波歪を再現することができなかった。

　本技術の一実施形態では、上記の点に着目して発想されたものであり、音響空間における高調波歪を含む音の高精度な伝達特性を取得し、当該伝達特性を音声信号に畳み込むことで、音響空間におけるスピーカのダイナミックな挙動を再現することが可能な技術を提案する。以下、本実施形態について詳細に説明する。

・音響制作システムの構成
　図３は、本技術の一実施形態に係る音響制作システムの構成例を示す図である。図３の音響制作システムは、映画などのコンテンツのオーディオのミキシングを行うシステムである。ユーザは、音響制作システムを用いて、例えば映画の音声の制作を行う。

　映画の音声には、出演者の台詞やナレーションなどの人物の音声だけでなく、効果音、環境音、BGMなどの各種の音が含まれる。以下、適宜、それぞれの音の種類を区別する必要がない場合、まとめて音声として説明するが、実際には、映画の音には音声以外の種類の音も含まれる。

　図３の左側に示すように、測定環境は、ダビングステージなどと呼ばれ、音響制作に用いられる映画館である。映画館には、スクリーンとともに複数のスピーカが設けられる。また、映画館には、測定環境における音の伝達特性の測定結果を取得し、HRTFファイルを生成する測定装置１１が設けられる。測定装置１１は例えばPCにより構成される。

　図３の音響制作システムの測定環境においては、映画の音声の制作者に個人化されたHRTFである個人化HRTFが測定される。個人化HRTFとしては、映画館における高調波歪を除いた音声のHRTF、および、映画館における次数ごとの高調波歪のHRTFがそれぞれ測定される。

　図３の矢印の先に示すように、個人化HRTFの測定結果を示すデータが記録された個人化HRTFファイルは、再生環境に設けられた情報処理装置２１に提供される。情報処理装置２１に対する個人化HRTFファイルの提供が、インターネットなどのネットワークを介して行われるようにしてもよいし、フラッシュメモリなどの記録媒体を用いて行われるようにしてもよい。

　再生環境は、スタジオ、制作者の自宅などの、映画館とは異なる場所にある環境である。再生環境が測定環境と同じ場所に用意されるようにしてもよい。

　再生環境には、映画の音声の編集に用いられる機器である情報処理装置２１が設けられる。情報処理装置２１も例えばPCにより構成される。制作者は、自宅などの再生環境においてヘッドホン２２を使用して、映画の音声の編集を行う。ヘッドホン２２は、再生環境に用意された出力機器である。

　情報処理装置２１においては、個人化HRTFを用いて音声信号の再生が行われる。個人化HRTFを用いた再生が行われることにより、個人化HRTFの測定に用いられた映画館のスピーカから出力された再生音が再現される。

　これにより、制作者は、ヘッドホン２２を使用して、映画館と同じ音響環境下で編集を行うことが可能となる。すなわち、映画館と同じ音響環境が再生環境に仮想的に再現される。通常、映画の音声の制作環境では、映画館のスピーカから出力される再生音をリファレンスとして制作が行われる。本技術の音響制作システムによれば、映画館に出向く必要がないことから、制作者は、自宅などでも編集を行うことが可能となる。

・HRTFの測定方法
　次に、図４と図５を参照して、測定装置１１によるHRTFの測定方法について説明する。従来のインパルス応答測定システムにおいては、高調波歪のHRTFと高調波歪以外の音声のHRTFが１つのHRTFの中に包含されており、高調波歪のHRTFを分離することができなかった。

　高調波歪のHRTFを分けて測定するために、SS(Swept Sine)信号を用いて、次数ごとの高調波歪や高調波歪以外の音声のインパルス応答を抽出する手法が知られている。SS信号は、時間とともに周波数が上昇または下降する正弦波信号である。SS信号の一種として、TSP(Time Stretched Pulse)信号やLog-TSP(Logarithmic Time Stretched Pulse)信号が知られている。

　TSP信号は、時間に比例して周波数が上昇または下降する信号である。図４の左側には、TSP信号の音響空間における応答の時間周波数特性の例が示されている。時間周波数特性では、横軸が時間を示し、縦軸が周波数を示す。図４の例では、SP1が主信号（高調波歪以外の信号）応答を示す。また、図４の例では、SP2が２次高調波歪の応答を示し、SP3が３次高調波歪の応答を示す。

　図４の左側に示すように、TSP信号の応答もTSP信号と同様に、時間に比例して周波数が上昇または下降する。

　SP1乃至SP3に対して主信号の逆特性を乗じる変換を行うと、図４の中央に示すように、SP1の全ての周波数成分が同じ時刻に集約され、主信号のインパルス応答が得られる。しかしながら、SP2とSP3の周波数成分は同じ時刻に集約されない。このため、TSP信号を用いたインパルス応答の測定結果として、図４の右側に示すように、主信号応答の時刻よりも前の時間に、２次高調波歪と３次高調波歪が混ざった高調波歪の応答が得られる。

　一方、Log-TSP信号は、周波数が時間の指数関数として上昇する信号である。図５の左側には、Log-TSP信号の応答の時間周波数特性の例が示されている。図５の例でも、SP1が主信号応答を示す。また、図５の例では、SP2が２次高調波歪の応答を示し、SP3が３次高調波歪の応答を示す。

　図５の左側に示すように、Log-TSP信号の応答もLog-TSP信号と同様に、周波数が時間の指数関数として上昇する。ここで、Log-TSP信号における基本波（主信号）は下式（１）で示され、１次高調波は、下式（２）で示される。

　式（２）で示すように、Log-TSP信号においては、１次高調波と基本波は全ての周波数で時間間隔が等しい。また、Log-TSP信号においては、１次高調波以外の他の高調波と基本波も、高調波の次数ごとに全ての周波数で時間間隔が等しい。

　したがって、SP1乃至SP3に対して主信号の逆特性を乗じる変換を行うと、図５の中央に示すように、SP1乃至SP3の全ての周波数成分がそれぞれ１つの時刻に集約される。これにより、Log-TSP信号に対するインパルス応答の測定結果として、図５の右側に示すように、主信号のインパルス応答、２次高調波歪のインパルス応答、および３次高調波歪のインパルス応答が分かれて得られる。

　測定装置１１は、上述したLog-TSP信号を用いて、次数ごとの高調波歪のHRTFと高調波歪以外の音声のHRTFとを測定する。

　図６は、測定装置１１により測定されるインパルス応答の例を示す図である。

　測定装置１１は、例えば、期間Ｐ１におけるインパルス応答を、主信号のインパルス応答（高調波歪以外の音声のHRTF）として測定する。また、測定装置１１は、期間Ｐ１よりも前の期間Ｐ２におけるインパルス応答を、１次高調波歪のインパルス応答（１次高調波歪のHRTF）として測定し、期間Ｐ２よりも前の期間Ｐ３におけるインパルス応答を、２次高調波歪のインパルス応答（２次高調波歪のHRTF）として測定する。

　このように、測定装置１１は、Log-TSP信号を用いて、高調波歪を次数ごとに分けて測定することができる。なお、図６において測定装置１１により測定される高調波歪の次数は一例であり、測定装置１１は任意の次数までの高調波歪のHRTFを測定することが可能である。

＜２．情報処理装置の構成と動作＞
・従来の情報処理装置の構成と動作
　図７は、従来の情報処理装置２１Ａの構成例を示すブロック図である。

　図７に示すように、従来の情報処理装置２１Ａは、入力信号取得部３１Ａ、HRTF取得部３２Ａ、畳み込み部３３Ａ、および再生制御部３４Ａにより構成される。

　入力信号取得部３１Ａは、例えば編集対象となる映画の音声の音声信号を入力信号ｘとして取得し、畳み込み部３３Ａに供給する。

　HRTF取得部３２Ａは、HRTFを測定する装置から提供された個人化HRTFファイルを取得し、個人化HRTFファイルを参照して個人化HRTFを読み出し、畳み込み部３３Ａに供給する。

　畳み込み部３３Ａは、HRTF取得部３２Ａから供給された個人化HRTFをFIRフィルタ(Finite Impulse Response)のFIR係数としてメモリにロードする。畳み込み部３３Ａは、入力信号取得部３１Ａから供給された入力信号ｘに対してFIRフィルタの畳み込みを行うことで再生信号を生成し、再生制御部３４Ａに供給する。

　再生制御部３４Ａは、畳み込み部３３Ａから供給された再生信号に基づく再生音をヘッドホンから出力させる。

　図８のフローチャートを参照して、従来の情報処理装置２１Ａが行う再生処理について説明する。例えば、図８の再生処理の開始時、個人化HRTFがFIR係数として畳み込み部３３Ａのメモリにロードされる。

　ステップＳ１において、入力信号取得部３１Ａは、入力信号を取得する。

　ステップＳ２において、畳み込み部３３Ａは、入力信号に対してFIRフィルタの畳み込み処理を行い、再生信号を生成する。

　ステップＳ３において、再生制御部３４Ａは、再生信号に基づく再生音をヘッドホンから出力させる。

・本技術の情報処理装置の構成と動作
　図９は、本技術の情報処理装置２１の構成例を示すブロック図である。

　図７に示した従来の情報処理装置２１Ａにおいては、１つの個人化HRTFが入力信号に対して畳み込まれていたが、図９に示す本技術の情報処理装置２１においては、高調波歪の個人化HRTFが高調波歪の次数ごとにFIR係数としてメモリにロードされ、それぞれの個人化HRTFが入力信号に対して畳み込まれる。

　図９に示すように、本技術の情報処理装置２１は、入力信号取得部４１、HRTF取得部４２、高調波信号生成部４３、畳み込み部４４、加算部４５、および再生制御部４６により構成される。

　入力信号取得部４１は、例えば編集対象となる映画の音声の音声信号を入力信号ｘとして取得し、高調波信号生成部４３と畳み込み部４４に供給する。

　HRTF取得部４２は、測定装置１１から提供された個人化HRTFファイルを取得し、個人化HRTFファイルを参照して高調波歪以外の音声の個人化HRTFであるHRTF_SP1を読み出し、畳み込み部４４に供給する。また、HRTF取得部４２は、個人化HRTFファイルを参照して次数ごとの高調波歪の個人化HRTFであるHRTF_SP2乃至HRTF_SP5を読み出し、高調波信号生成部４３に供給する。

　高調波信号生成部４３は、乗算部５１－１乃至５１－４と畳み込み部５２－１乃至５２－４を備える。

　乗算部５１－１は、入力信号ｘと入力信号ｘを乗算して２次高調波歪に対応する高調波信号ｘ^２を生成し、乗算部５１－２と畳み込み部５２－１に供給する。

　乗算部５１－２は、入力信号ｘと高調波信号ｘ^２を乗算して３次高調波歪に対応する高調波信号ｘ^３を生成し、乗算部５１－３と畳み込み部５２－２に供給する。

　乗算部５１－３は、入力信号ｘと高調波信号ｘ^３を乗算して４次高調波歪に対応する高調波信号ｘ^４を生成し、乗算部５１－４と畳み込み部５２－３に供給する。

　乗算部５１－４は、入力信号ｘと高調波信号ｘ^４を乗算して５次高調波歪に対応する高調波信号ｘ^５を生成し、畳み込み部５２－４に供給する。

　畳み込み部５２－１乃至５２－４は、高調波歪の次数と同じ数だけ入力信号が乗算されて生成された高調波信号に対して高調波歪のHRTFを畳み込む。

　具体的には、畳み込み部５２－１は、２次高調波歪のHRTFであるHRTF_SP2をFIR係数としてメモリにロードする。畳み込み部５２－１は、高調波信号ｘ^２に対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部４５に供給する。

　畳み込み部５２－２は、３次高調波歪のHRTFであるHRTF_SP3をFIR係数としてメモリにロードする。畳み込み部５２－２は、高調波信号ｘ^３に対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部４５に供給する。

　畳み込み部５２－３は、４次高調波歪のHRTFであるHRTF_SP4をFIR係数としてメモリにロードする。畳み込み部５２－３は、高調波信号ｘ^４に対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部４５に供給する。

　畳み込み部５２－４は、５次高調波歪のHRTFであるHRTF_SP5をFIR係数としてメモリにロードする。畳み込み部５２－４は、高調波信号ｘ^５に対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部４５に供給する。

　畳み込み部４４は、HRTF取得部３２Ａから供給されたHRTF_SP1をFIR係数としてメモリにロードする。畳み込み部４４は、入力信号取得部４１から供給された入力信号ｘに対してFIRフィルタの畳み込みを行うことで畳み込み信号を生成し、加算部４５に供給する。

　なお、畳み込み部４４と畳み込み部５２－１乃至５２－４においては、個人化HRTFとともに、ヘッドホン２２からユーザの両耳までのHRTFの逆関数も、入力信号や高調波信号に対して畳み込まれる。

　加算部４５は、畳み込み部４４と畳み込み部５２－１乃至５２－４からそれぞれ供給された畳み込み信号を加算して合成する合成部として機能する。加算部４５は、畳み込み信号を合成して再生信号を生成し、再生制御部４６に供給する。

　再生制御部４６は、加算部４５から供給された再生信号に基づく再生音をヘッドホン２２から出力させる。

　次に、図１０のフローチャートを参照して、以上のような構成を有する本技術の情報処理装置２１が行う再生処理について説明する。例えば、図１０の再生処理の開始時、個人化HRTFがFIR係数として畳み込み部４４と畳み込み部５２－１乃至５２－４のそれぞれのメモリにロードされる。

　ステップＳ２１において、入力信号取得部４１は、入力信号を取得する。乗算部５１－１乃至５１－４は、高調波歪の次数にそれぞれ対応する高調波信号を生成する。

　ステップＳ２２において、畳み込み部４４は、入力信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。

　ステップＳ２３において、畳み込み部５２－１乃至５２－４は、高調波歪の次数にそれぞれ対応する高調波信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。

　ステップＳ２４において、加算部４５は、ステップＳ２２とステップＳ２３において生成された畳み込み信号を合成して再生信号を生成する。

　ステップＳ２５において、再生制御部４６は、再生信号に基づく再生音をヘッドホンから出力させる。

　以上のように、情報処理装置２１においては、高調波歪のHRTFが入力信号に畳み込まれた畳み込み信号と、高調波歪を除いたHRTFが入力信号に畳み込まれた畳み込み信号とが合成されて、再生信号が生成される。２次高調波歪のHRTFは高調波信号ｘ^２に畳み込まれ、３次高調波歪のHRTFは高調波信号ｘ^３に畳み込まれるといったように、次数ごとの高調波歪のHRTFは、高調波歪の次数に対応してそれぞれ処理された入力信号に畳み込まれる。

　このようにして生成された再生信号に基づく再生音をヘッドホン２２などの出力機器から出力させることで、音響制作システムは、高調波歪を含む音響空間における再生音を精度よく再現することが可能となる。

＜３．変形例＞
・音圧に応じてFIR係数を調整する例
　測定環境ではスピーカから出力される再生音の音圧に応じて高調波歪の挙動が変わる。再生環境におけるヘッドホン２２から出力される再生音の音圧に応じて、FIR係数が調整されるようにしてもよい。

　図１１は、情報処理装置２１の他の構成例を示すブロック図である。図１１において、図９を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図１１に示す情報処理装置２１の構成は、表示制御部１０１、操作入力部１０２、およびアンプ（増幅器）１０３が設けられる点で、図９の情報処理装置２１の構成と異なる。

　表示制御部１０１は、再生環境において情報処理装置２１に接続されたディスプレイなどの表示機器に、ターゲット音圧や音量などを設定する操作の入力を受け付けるGUI(Graphical User Interface)となる設定画面を表示させる。

　図１２は、設定画面の表示例を示す図である。

　図１２に示すように、設定画面の左上側には、ターゲット音圧を入力するためのフォームＦ１が表示される。ユーザは、複数の選択肢の中から所望のターゲット音圧を選択するなどして、再生音の音圧（音圧レベル）を設定する。図１２の例では、85dBSPLがターゲット音圧として入力されている。

　フォームＦ１の下側には、入力信号の再生に用いられる個人化HRTFファイル（FIRファイル）のファイル名を入力するためのフォームＦ２が表示される。例えば、ユーザは、情報処理装置２１が読み出すことが可能な個人化HRTFファイルの中から所望のファイルを選択する。

　設定画面の左下側には、音量を調整するためのバーＢ１が表示される。また、設定画面の右下側には、再生音を出力させるためのボタンＢ１１と再生音の出力を停止させるためのボタンＢ１２が表示される。ユーザは、これらの表示を操作するなどして、情報処理装置２１による入力信号の再生を制御する。

　図１１に戻り、操作入力部１０２は、設定画面に対するユーザによる操作の入力を受け付ける。操作入力部１０２は、ユーザによる操作内容を示す情報を、HRTF取得部４２、畳み込み部４４、畳み込み部５２－１乃至５２－４、およびアンプ１０３に供給する。なお、設定画面に対する操作以外の方法でターゲット音圧や音量が設定されるようにしてもよい。

　HRTF取得部４２は、ユーザにより設定された個人化HRTFファイルを参照して、個人化HRTFを読み出す。個人化HRTFファイルには、HRTF_SP1乃至HRTF_SP5のセットが再生音の音圧ごとに記録されている。

　畳み込み部４４と畳み込み部５２－１乃至５２－４は、ユーザにより設定された音圧に応じた個人化HRTFをFIR係数としてメモリにロードする。具体的には、畳み込み部４４と畳み込み部５２－１乃至５２－４は、ユーザにより設定された音圧に応じて、個人化HRTFファイルから読み出された個人化HRTFをそのまま用いたり、個人化HRTFファイルから読み出された個人化HRTFをゲインなどで調整したりする。

　なお、HRTF_SP2乃至HRTF_SP5を０に調整することで、情報処理装置２１は、高調波歪を含まない音響空間における再生音を再現することもできる。

　アンプ１０３は、加算部４５から供給された再生信号を、ユーザにより設定された音量に応じて調整し、調整済みの再生信号を再生制御部４６に供給する。

　再生制御部４６は、再生制御部４６から供給された調整済みの再生信号に基づく再生音をヘッドホン２２から出力させる。

　次に、図１３のフローチャートを参照して、以上のような構成を有する情報処理装置２１が行う再生処理について説明する。例えば、図１３の再生処理の開始時、ユーザによる個人化HRTFファイルのファイル名の入力が受け付けられ、ユーザにより設定された個人化HRTFファイルから個人化HRTFがFIR係数としてメモリにロードされる。

　ステップＳ４１において、入力信号取得部４１は、入力信号を取得する。乗算部５１－１乃至５１－４は、高調波歪の次数にそれぞれ対応する高調波信号を生成する。

　ステップＳ４２において、操作入力部１０２は、ユーザによる再生音の音圧を設定する操作の入力を受け付け、再生音の音圧を取得する。畳み込み部４４と畳み込み部５２－１乃至５２－４は、ユーザにより設定された音圧に応じた個人化HRTFをFIR係数としてメモリにロードする。

　ステップＳ４３において、畳み込み部４４は、入力信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。

　ステップＳ４４において、畳み込み部５２－１乃至５２－４は、高調波歪の次数にそれぞれ対応する高調波信号に対してFIRフィルタの畳み込み処理を行い、畳み込み信号を生成する。

　ステップＳ４５において、加算部４５は、ステップＳ４３とステップＳ４４において生成された畳み込み信号を合成して再生信号を生成する。アンプ１０３は、ユーザにより設定された音量に応じて再生信号を調整する。

　ステップＳ４６において、再生制御部４６は、再生信号に基づく再生音をヘッドホンから出力させる。

　以上のように、音響制作システムは、測定環境における再生音の音圧に応じた高調波歪の挙動の違いを再現し、高調波歪を含む音響空間における再生音を精度よく再現することが可能となる。

・その他
　以上では、高調波歪のHRTFと高調波歪以外の音声のHRTFが、測定環境となる音響空間において測定される例について説明したが、これらのHRTFが、音響シミュレーションなどの測定以外の方法を用いて取得されるようにしてもよい。

・コンピュータについて
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。測定装置１１や情報処理装置２１は、例えば、図１４に示す構成と同様の構成を有するPCにより構成される。

　CPU(Central Processing Unit)５０１、ROM(Read Only Memory)５０２、RAM(Random Access Memory)５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続される。入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７が接続される。また、入出力インタフェース５０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５０８、ネットワークインタフェースなどよりなる通信部５０９、リムーバブルメディア５１１を駆動するドライブ５１０が接続される。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを入出力インタフェース５０５及びバス５０４を介してRAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU５０１が実行するプログラムは、例えばリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５０８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成する高調波信号生成部と、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する合成部と
　を備える情報処理装置。
（２）
　前記高調波信号生成部は、次数ごとの前記高調波歪の伝達特性を、前記高調波歪の次数に対応してそれぞれ処理された前記入力信号に畳み込む
　前記（１）に記載の情報処理装置。
（３）
　前記高調波信号生成部は、前記高調波歪の次数と同じ数だけ乗算された前記入力信号に、前記高調波歪の伝達特性を畳み込む
　前記（２）に記載の情報処理装置。
（４）
　前記高調波歪は、前記音響空間におけるスピーカ特性に起因する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記高調波歪は、前記音響空間での反響に起因する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記高調波信号生成部は、前記音響空間において測定された前記高調波歪の伝達特性を前記入力信号に畳み込む
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記高調波歪の伝達特性は、Log-TSP信号を用いて測定される
　前記（６）に記載の情報処理装置。
（８）
　前記高調波信号生成部は、前記第１の信号と前記第２の信号が合成された再生信号に基づく再生音の音圧に応じた前記高調波歪の伝達特性を前記入力信号に畳み込む
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記高調波信号生成部は、前記音圧ごとに前記高調波歪の伝達特性が記録されたファイルを参照して、前記音圧に応じた前記高調波歪の伝達特性を取得する
　前記（８）に記載の情報処理装置。
（１０）
　ユーザによる前記音圧を設定する操作の入力を受け付ける表示を行う表示制御部をさらに備える
　前記（８）または（９）に記載の情報処理装置。
（１１）
　ユーザに個人化された、前記高調波歪を除いた音の伝達特性が、前記入力信号に畳み込まれる
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記高調波信号生成部は、ユーザに個人化された前記高調波歪の伝達特性を前記入力信号に畳み込む
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　情報処理装置が、
　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する
　情報処理方法。
（１４）
　コンピュータに、
　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する
　処理を実行させるためのプログラム。

　１　スピーカ，　１１　測定装置，　２１　情報処理装置，　２２　ヘッドホン，　４１　入力信号取得部，　４２　HRTF取得部，　４３　高調波信号生成部，　４４　畳み込み部，　４５　加算部，　４６　再生制御部，　５１－１乃至５１－４　乗算部，　５２－１乃至５２－４　畳み込み部，　１０１　表示制御部，　１０２　操作入力部，　１０３　アンプ

Claims

　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成する高調波信号生成部と、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する合成部と
　を備える情報処理装置。
　前記高調波信号生成部は、次数ごとの前記高調波歪の伝達特性を、前記高調波歪の次数に対応してそれぞれ処理された前記入力信号に畳み込む
　請求項１に記載の情報処理装置。
　前記高調波信号生成部は、前記高調波歪の次数と同じ数だけ乗算された前記入力信号に、前記高調波歪の伝達特性を畳み込む
　請求項２に記載の情報処理装置。
　前記高調波歪は、前記音響空間におけるスピーカ特性に起因する
　請求項１に記載の情報処理装置。
　前記高調波歪は、前記音響空間での反響に起因する
　請求項１に記載の情報処理装置。
　前記高調波信号生成部は、前記音響空間において測定された前記高調波歪の伝達特性を前記入力信号に畳み込む
　請求項１に記載の情報処理装置。
　前記高調波歪の伝達特性は、Log-TSP信号を用いて測定される
　請求項６に記載の情報処理装置。
　前記高調波信号生成部は、前記第１の信号と前記第２の信号が合成された再生信号に基づく再生音の音圧に応じた前記高調波歪の伝達特性を前記入力信号に畳み込む
　請求項１に記載の情報処理装置。
　前記高調波信号生成部は、前記音圧ごとに前記高調波歪の伝達特性が記録されたファイルを参照して、前記音圧に応じた前記高調波歪の伝達特性を取得する
　請求項８に記載の情報処理装置。
　ユーザによる前記音圧を設定する操作の入力を受け付ける表示を行う表示制御部をさらに備える
　請求項８に記載の情報処理装置。
　ユーザに個人化された、前記高調波歪を除いた音の伝達特性が、前記入力信号に畳み込まれる
　請求項１に記載の情報処理装置。
　前記高調波信号生成部は、ユーザに個人化された前記高調波歪の伝達特性を前記入力信号に畳み込む
　請求項１に記載の情報処理装置。
　情報処理装置が、
　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する
　情報処理方法。
　コンピュータに、
　音響空間における高調波歪の伝達特性を入力信号に畳み込むことで第１の信号を生成し、
　前記第１の信号と、前記音響空間における前記高調波歪を除いた音の伝達特性が前記入力信号に畳み込まれた第２の信号とを合成する
　処理を実行させるためのプログラム。