WO2023199746A1

WO2023199746A1 - 音響再生方法、コンピュータプログラム及び音響再生装置

Info

Publication number: WO2023199746A1
Application number: PCT/JP2023/012612
Authority: WO
Inventors: 陽宇佐見; 智一石川; 成悟榎本; 摩里子山田; 康太中橋
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-04-14
Filing date: 2023-03-28
Publication date: 2023-10-19

Abstract

音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、音が含む雑音の抑制処理を音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する処理決定ステップと、決定された処理内容に基づいて、抑制処理を行う抑制処理ステップと、抑制処理が行われた音信号を出力する出力ステップとを含む。

Description

音響再生方法、コンピュータプログラム及び音響再生装置

　本開示は、音響再生方法などに関する。

　特許文献１では、音信号を取得して当該音信号についての残響を生成することで、臨場感がある音を出力することができる音響再生装置が開示されている。

国際公開第２００６／９２９９５号

　より臨場感がある音を出力することが求められている。

　そこで、本開示は、より臨場感がある音を出力することができる音響再生方法などを提供することを目的とする。

　本開示の一態様に係る音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、前記抑制処理が行われた前記音信号を出力する出力ステップとを含む。

　本開示の一態様に係るプログラムは、上記の音響再生方法をコンピュータに実行させる。

　本開示の一態様に係る音響再生装置は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、前記抑制処理が行われた前記音信号を出力する出力部とを備える。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る音響再生方法によれば、より臨場感がある音を出力することができる。

図１は、実施の形態１に係る音響再生装置の機能構成を示すブロック図である。図２は、実施の形態１に係る音響再生装置の動作例１のフローチャートである。図３は、実施の形態１に係る抑制処理が行われた音信号の時間及び振幅の関係を示す図である。図４は、図３が示す音信号のパワースペクトルを示す図である。図５は、実施の形態１に係る合成音信号の時間及び振幅の関係を示す図である。図６は、図５が示す合成音信号のパワースペクトルを示す図である。図７は、実施の形態１に係る音響再生装置の動作例２のフローチャートである。図８は、実施の形態１に係る２つの音再生空間と２つの音源の位置とを示す図である。図９は、実施の形態１に係る２つの音再生空間と２つの音源の位置とを示す他の図である。図１０は、実施の形態２に係る音響再生装置の機能構成を示すブロック図である。図１１は、実施の形態２に係る音響再生装置の動作例３のフローチャートである。図１２は、実施の形態２に係る閾値とノイズフロアレベルとを示す図である。

　（本開示の基礎となった知見）
　従来、臨場感がある音を出力する音響再生方法が知られている。

　例えば、特許文献１では、音信号を取得して当該音信号についての残響を生成することで、臨場感がある音を出力することができる音響再生技術の一例として、音響再生装置が開示されている。

　ところで、特許文献１が開示する音響再生装置が取得する音信号が示す音には、受聴者が聞くための目的音と、目的音以外の雑音とが含まれている場合がある。この場合、引用文献１が開示する音響再生装置は、雑音が含まれる音を示す音信号に基づいて残響を示す残響信号を生成し、当該音信号と生成された残響信号とが合成された音信号（合成音信号）を、受聴者に出力する。この合成音信号は雑音を含む音と残響とが合成された音を示す信号であり、受聴者は雑音を含む音と残響とが合成された音を聞くこととなる。

　上記の通り、残響信号は、雑音が含まれる音が示す音信号に基づいて生成されており、より具体的には、残響信号が示す残響は、雑音が含まれる音に基づいて生成されている。このため、受聴者がこのような残響を受聴すると、受聴者に違和感を覚えさせることとなり、受聴者は十分に臨場感がある音を受聴することができない。つまり、特許文献１が開示する音響再生技術は、取得される音信号が示す音に雑音が含まれている場合には、十分に臨場感がある音を出力することが困難である。そのため、より臨場感がある音を出力することができる音響再生方法などが求められている。

　そこで、本開示の第１態様に係る音響再生方法は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、前記抑制処理が行われた前記音信号を出力する出力ステップとを含む。

　これにより、取得ステップにおいて処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理ステップにおいて音信号が示す音に含まれる雑音が抑制される。例えば、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され、当該音信号と当該残響信号とが合成された合成音信号（合成音信号）が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。

　また、例えば、本開示の第２態様に係る音響再生方法では、第１態様において、前記取得ステップでは、前記音再生空間の形状及び音響特性を示す空間情報と、前記音再生空間における前記受聴者の位置を示す位置情報とを取得し、前記抑制処理ステップでは、取得された空間情報と、取得された位置情報とに基づいて、前記抑制処理を行うか否かを決定する。

　これにより、受聴者が居る音再生空間の形状及び音響特性に応じて、抑制処理を行うか否かが決定される。例えば、抑制処理が行われない場合には、音響再生方法の処理負荷を軽減することができる。

　また、例えば、本開示の第３態様に係る音響再生方法では、第２態様において、前記抑制処理ステップでは、前記受聴者の位置が、残響が発生しない前記音再生空間内に含まれる場合に、前記抑制処理を行わないことを決定する。

　これにより、受聴者の位置が、残響が発生しない音再生空間内に含まれる場合には、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。

　また、例えば、本開示の第４態様に係る音響再生方法では、第１～第３態様のいずれか１の態様において、前記取得ステップでは、前記処理内容を示す処理内容情報を取得し、前記抑制処理ステップでは、取得された前記処理内容情報が示す前記処理内容を行う。

　これにより、処理内容情報が示す処理内容に従って、抑制処理が行われることができる。

　また、例えば、本開示の第５態様に係る音響再生方法では、第２又は第３態様において、前記抑制処理が行われた前記音信号と取得された前記空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含み、出力ステップでは、前記抑制処理が行われた前記音信号と、生成された前記残響信号とが合成された合成音信号を出力する。

　これにより、残響を示す残響信号は、雑音が抑制された音が示す音信号に基づいて生成される。従って、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。

　また、例えば、本開示の第６態様に係る音響再生方法では、第５態様において、前記取得ステップでは、閾値を示す閾値データを取得し、前記音響再生方法は、前記合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された前記閾値データが示す前記閾値とを比較する比較ステップを含み、前記処理決定ステップでは、前記比較ステップでの比較結果に基づいて、前記抑制処理の前記処理内容を更新する。

　これにより、閾値とノイズフロアレベルとが比較された比較結果に基づいて、抑制処理の処理内容が更新されるため、音響再生方法は、より臨場感がある音を出力することができる。

　また、例えば、本開示の第７態様に係る音響再生方法では、第６態様において、前記閾値は、前記ノイズフロアレベルの目標値であり、前記処理決定ステップでは、前記ノイズフロアレベルが前記閾値よりも高い場合に、前記雑音をより強く抑制する前記抑制処理となるように前記処理内容を更新する。

　これにより、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制することができるため、音響再生方法は、より臨場感がある音を出力することができる。

　また、本開示の第８態様に係るコンピュータプログラムは、第１～第７態様のいずれか１つの態様の音響再生方法をコンピュータに実行させる。

　これにより、コンピュータが、プログラムに従って、上記の音響再生方法を実行することができる。

　また、本開示の第９態様に係る音響再生装置は、音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、前記抑制処理が行われた前記音信号を出力する出力部とを備える。

　これにより、取得部において処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理部において音信号が示す音に含まれる雑音が抑制される。例えば、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され、当該音信号と当該残響信号とが合成された合成音信号（合成音信号）が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生装置が実現される。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。

　また、以下の説明において、第１及び第２等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。

　本明細書において、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

　（実施の形態１）
　［構成］
　まず、実施の形態１に係る音響再生装置１００の構成について説明する。図１は、本実施の形態に係る音響再生装置１００の機能構成を示すブロック図である。

　本実施の形態に係る音響再生装置１００は、音再生空間において受聴者に到達する音を示す音信号に処理を施し、受聴者が装着するヘッドフォン２００に出力することで、受聴者に音を受聴させるための装置である。より具体的には、音響再生装置１００は、受聴者に立体音響を受聴させるための立体音響再生装置である。本実施の形態に係る音響再生装置１００は、一例として仮想現実又は拡張現実（ＶＲ／ＡＲ）などの様々なアプリケーションに応用される装置である。なお、本実施の形態においては、音再生空間とは、仮想現実又は拡張現実などの様々なアプリケーションで用いられる仮想現実空間又は拡張現実空間を意味する。

　次に、ヘッドフォン２００について説明する。

　図１が示すように、ヘッドフォン２００は、頭部センサ部２０１と、第２出力部２０２とを備える音声出力装置である。

　頭部センサ部２０１は、受聴者の頭部が向いている方向と、水平面の座標及び垂直方向の高さで定められる受聴者の位置とをセンシングして、受聴者の頭部が向いている方向と、水平面の座標及び垂直方向の高さで定められる受聴者の位置とを示す検知情報を音響再生装置１００に出力する。なお、受聴者の頭部が向いている方向とは、受聴者の顔が向いている方向でもある。

　頭部センサ部２０１は、受聴者の頭部の６ＤｏＦ（Ｄｅｇｒｅｅｓ　ｏｆ　Ｆｒｅｅｄｏｍ）の情報をセンシングするとよい。例えば、頭部センサ部２０１は、慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。また、検知情報には、頭部センサ部２０１によってセンシングされた回転量又は変位量等も含まれている。

　また、以下では簡単のため、受聴者の頭部が向いている方向を、受聴者の向き、と記載する場合がある。

　第２出力部２０２は、音再生空間において受聴者に到達する音を再生する装置である。より具体的には、第２出力部２０２は、音響再生装置１００によって処理されかつ音響再生装置１００から出力された上記音を示す音信号に基づいて、上記音を再生する。

　続いて、図１が示す音響再生装置１００について説明する。

　図１が示すように、音響再生装置１００は、抽出部１１０と、取得部１２０と、処理決定部１３０と、抑制処理部１４０と、残響生成部１５０と、第１出力部１６０と、記憶部１７０とを備える。

　抽出部１１０は、オーディオコンテンツ情報を取得して、取得されたオーディオコンテンツ情報が含む所定の情報及び信号を抽出する。抽出部１１０は、例えば音響再生装置１００外の記憶装置（不図示）から、オーディオコンテンツ情報を取得する。なお、抽出部１１０は、音響再生装置１００が備える記憶部１７０に記憶されているオーディオコンテンツ情報を取得してもよい。

　抽出部１１０は、取得されたオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を抽出する。

　音信号は、音再生空間において受聴者に到達する音を示す信号である。受聴者に到達する音は、受聴者が聞くための目的音と目的音以外の雑音とを含み、より具体的には目的音と雑音とで構成されている。目的音とは例えば人から発せられた音声及び音楽などであり、雑音とは例えば、目的音の収音時に意図せず混入する騒音又は収音環境による残響などである。音信号は、受聴者に到達する音を示す信号であり、ＷＡＶＥ、ＭＰ３又はＷＭＡなどの形式で示されるデジタルデータある。

　処理可否情報は、受聴者に到達する音が含む雑音の抑制処理を、上記の音信号に行うか否か示す情報である。処理可否情報には、抑制処理を行うこと、又は、抑制処理を行わないことが示されている。例えば、処理可否情報が抑制処理を行うことを示す場合にはフラグとして「１」が示され、処理可否情報が抑制処理を行わないことを示す場合にはフラグとして「０」が示される。

　空間情報は、音再生空間の形状及び音響特性を示す情報である。空間情報が示す音再生空間は、仮想現実又は拡張現実などのアプリケーションにおいては、受聴者が居る空間であってもよく、受聴者が居ない空間であってもよい。空間情報は、音再生空間の形状を示す情報であり、より具体的には、当該音再生空間における設置物（壁、ドア、床、天井、什器など）の設置位置及び形状を示す情報である。また、空間情報は、当該設置物が音を反射又は吸収する際に、どの周波数をどの程度反射又は吸収するかを示す音響特性を示す情報である。また、空間情報は、当該音再生空間に設置される音源の位置を示す。当該音源とは、当該音再生空間において、受聴者に到達する音を発する音源である。

　位置情報は、音再生空間における受聴者の位置を示す情報である。より具体的には、複数の音再生空間が設けられている場合に、位置情報は複数の音再生空間のうち受聴者が居る音再生空間を示し、かつ、受聴者が居る当該音再生空間のうち受聴者が居る位置を示す情報である。

　処理内容情報は、取得された処理可否情報が抑制処理を行うことを示す場合に、受聴者に到達する音が含む雑音の抑制処理の処理内容を示す情報である。雑音の抑制処理には、例えば、音声強調法が用いられるとよいが、これに限られず公知の方法が用いられれてもよい。処理内容情報には、雑音の抑制処理に用いられる方法が音声強調法であること、及び、音声強調法が用いられるために必要な情報が示されている。また処理内容情報に、複数の雑音の抑制処理の方法のうち、いずれの方法を用いられるかを示す情報が含まれていてもよい。

　このように、本実施の形態においては、オーディオコンテンツ情報は、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を含んでいる。

　また、オーディオコンテンツ情報は、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）（以下、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏと記載）などの符号化処理が施されているとよい。つまり、抽出部１１０は、符号化されたビットストリームであるオーディオコンテンツ情報を取得する。抽出部１１０は、オーディオコンテンツ情報を取得して復号する。抽出部１１０は、上記のＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏなどに基づいて復号処理を施す。つまり例えば、抽出部１１０は、デコーダとして機能する。抽出部１１０は、符号化されたオーディオコンテンツ情報を復号し、復号した音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得部１２０に与える。

　取得部１２０は、抽出部１１０によって抽出された音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得する。取得部１２０は、取得した情報を処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０にそれぞれ与える。ここで、取得部１２０は、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０などの複数の処理部にそれぞれ情報を与えるのではなく、処理部ごとに、対応する当該処理部で必要な情報を与えてもよい。なお、本実施の形態においては、抽出部１１０がオーディオコンテンツ情報から音信号などを抽出し、取得部１２０が抽出された音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得するがこれに限られない。例えば、取得部１２０は、例えば音響再生装置１００外の記憶装置（不図示）又は記憶部１７０から、音信号、処理可否情報、空間情報、位置情報、及び、処理内容情報を取得してもよい。また、取得部１２０は、ヘッドフォン２００（より具体的には、頭部センサ部２０１）で検知された回転量又は変位量等と受聴者の位置及び向きとを含む検知情報を更に取得する。取得部１２０は、取得した検知情報に基づいて、音再生空間における受聴者の位置及び向きを決定する。つまりここでは、取得部１２０は、取得した検知情報が示す受聴者の位置及び向きが、音再生空間における受聴者の位置及び向きであることを決定する。つまりここでは、取得部１２０は、取得した検知情報が示す受聴者の位置及び向きが、音再生空間における受聴者の位置及び向きであることを決定する。受聴者の位置は水平面の座標及び垂直方向の高さで表されてもよい。そして、取得部１２０は、決定した受聴者の位置及び向きに応じて、位置情報を更新する。したがって、取得部１２０が各処理部に与える位置情報は、更新された位置情報を含む情報である。

　処理決定部１３０は、取得部１２０によって取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する。より具体的には、処理決定部１３０は、処理可否情報が抑制処理を行うことを示す場合に、取得部１２０によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。

　抑制処理部１４０は、処理決定部１３０によって決定された処理内容に基づいて、受聴者に到達する音を示す音信号に、当該音が含む雑音の抑制処理を行う。抑制処理が行われた音信号は、雑音が抑制された音を示す信号である。なお、取得部１２０によって取得された処理可否情報が抑制処理を行わないことを示す場合には、処理決定部１３０は抑制処理の処理内容を決定せず、抑制処理部１４０は抑制処理を行わない。

　残響生成部１５０は、抑制処理部１４０によって抑制処理が行われた音信号と、取得部１２０によって取得された空間情報とに基づいて、残響を示す残響信号を生成する。残響生成部１５０は、当該音信号に、公知の残響生成方法を適用して、残響を生成するとよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響生成部１５０は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響生成部１５０は、残響を示す残響信号を生成することができる。また、本実施の形態においては、残響生成部１５０によって生成された残響信号は、雑音が抑制された音に基づく残響を示す信号であり、つまりは、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。なお、ここでは残響とは後期残響であるが、残響が初期反射と後期残響とを含んでもよい。さらに、残響生成部１５０は、空間情報を用いて音信号に音響処理を行うことで、後期残響以外の仮想的な音響効果を生成してもよい。例えば、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報が空間情報とともに取得部１２０によって取得されてもよい。

　第１出力部１６０は、出力部の一例であり、抑制処理部１４０によって抑制処理が行われた音信号を出力する。より具体的には、第１出力部１６０は、抑制処理部１４０によって抑制処理が行われた音信号と、残響生成部１５０によって生成された残響信号とが合成された合成音信号を、ヘッドフォン２００に出力する。合成音信号は合成音を示し、合成音は雑音が抑制された音と雑音が抑制された音に基づく残響とを含む音である。ここでは、第１出力部１６０は、音量制御部１６１と、方向制御部１６２とを含む。

　音量制御部１６１は、抑制処理部１４０によって抑制処理が行われた音信号が示す雑音が抑制された音の音量と、残響生成部１５０によって生成された残響信号が示す残響の音量とを決定する。音量制御部１６１は、音量情報に基づいて、雑音が抑制された音の音量と、残響の音量とを決定するとよい。音量情報は、抑制処理が行われた音信号が示す雑音が抑制された音の音量、及び、残響信号が示す残響の音量の比率を示す情報である。音量制御部１６１は、第１出力部１６０から出力される雑音が抑制された音及び残響のそれぞれの音量の比率が、音量情報が示す比率となるように、雑音が抑制された音の音量と残響の音量とを決定する。

　なお、音量情報は、オーディオコンテンツ情報から抽出部１１０によって抽出され、取得部１２０によって取得されているとよい。音量制御部１６１は、取得部１２０によって取得された音量情報を取得する。

　方向制御部１６２は、取得部１２０によって取得された空間情報と位置情報と検知情報とに基づいて、抑制処理が行われた音信号、及び、生成された残響信号に、畳み込み処理を施す。

　上記の通り、空間情報は音再生空間の形状及び音響特性と音再生空間における音源の位置とを示し、位置情報は受聴者がいる再生空間と当該再生空間における受聴者の位置とを示し、検知情報は受聴者の向きと、水平面の座標及び垂直方向の高さの値で表される受聴者の位置とを示す。方向制御部１６２は、記憶部１７０に記憶されている頭部伝達関数を参照して、音信号及び残響信号に処理を施す。

　より具体的には、方向制御部１６２は、空間情報が示す音源の位置から位置情報が示す受聴者の位置に音信号が示す音が到達するように、頭部伝達関数を音信号に畳み込む処理を施す。このとき、方向制御部１６２は、検知情報が示す受聴者の向きを考慮して当該頭部伝達関数を決定し、決定された当該頭部伝達関数を音信号に畳み込む処理を施すとよい。また、方向制御部１６２は、再生空間において、検知情報が示す方向を向く受聴者が居る位置に、残響信号が示す残響が到達するように、頭部伝達関数を残響信号に畳み込む処理を施す。

　方向制御部１６２は、それぞれ頭部伝達関数を畳み込む処理が施された音信号及び残響信号が合成された合成音信号を生成し、生成された合成音信号をヘッドフォン２００に出力する。なお、方向制御部１６２が合成音信号を生成する際には、音信号が示す音及び残響信号が示す残響のそれぞれが、音量制御部１６１によって決定された音の音量及び残響の音量のそれぞれとなるように処理を行う。

　さらに、ヘッドフォン２００の第２出力部２０２は、第１出力部１６０によって出力された合成音信号に基づいて、合成音信号が示す雑音が抑制された音の音量及び残響を再生する。

　このように、取得部１２０、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０は、抽出部１１０によって抽出された情報及び信号に基づいて、ヘッドフォン２００で再生可能な合成音信号を出力する。つまり例えば、取得部１２０、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０は、レンダラとして機能する。

　なお、本実施の形態においては、音響再生装置１００は残響生成部１５０を備えるが、他の例では、音響再生装置１００は残響生成部１５０を備えなくてもよい。この場合、第１出力部１６０は、抑制処理部１４０によって抑制処理が行われた音信号を出力する。

　記憶部１７０は、抽出部１１０、取得部１２０、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０のそれぞれが行う情報処理に必要な情報が記憶される記憶装置である。記憶部１７０に記憶される情報には、抽出部１１０、取得部１２０、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０のそれぞれが実行するコンピュータプログラムが含まれる。

　［動作例１］
　以下、音響再生装置１００が実行する音響再生方法の動作例１について説明する。図２は、本実施の形態に係る音響再生装置１００の動作例１のフローチャートである。

　はじめに、抽出部１１０は、オーディオコンテンツ情報を取得する（Ｓ１０）。

　抽出部１１０は、取得したオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報を抽出する（Ｓ２０）。

　取得部１２０は、抽出部１１０によって抽出された音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報と、ヘッドフォン２００によって出力された検知情報とを取得する（Ｓ３０）。このステップＳ３０が取得ステップに相当する。

　処理決定部１３０は、取得部１２０によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する（Ｓ４０）。例えば、処理決定部１３０は、処理可否情報においてフラグとして「１」が示される場合には、処理可否情報が抑制処理を行うことを示すと判断する。また例えば、処理決定部１３０は、処理可否情報においてフラグとして「０」が示される場合には、処理可否情報が抑制処理を行わないことを示すと判断する。

　ここで、処理決定部１３０によって、処理可否情報が抑制処理を行うことを示すと判断された場合に（Ｓ４０でＹｅｓ）、処理決定部１３０は、抑制処理の処理内容を決定する（Ｓ５０）。より具体的には、処理決定部１３０は、取得部１２０によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。このステップＳ５０が処理決定ステップに相当する。

　続いて、抑制処理部１４０は、処理決定部１３０によって決定された処理内容に基づいて、取得部１２０によって取得された音信号に、抑制処理を行う（ステップＳ６０）。抑制処理が行われた音信号は、雑音が抑制された音を示す信号である。このステップＳ６０が抑制処理ステップに相当する。

　残響生成部１５０は、ステップＳ６０で抑制処理部１４０によって抑制処理が行われた音信号と、取得部１２０によって取得された空間情報とに基づいて、残響を示す残響信号を生成する（Ｓ７０）。残響生成部１５０によって生成された残響信号は、雑音が抑制された音に基づく残響を示す信号である。このステップＳ７０が残響生成ステップに相当する。

　第１出力部１６０は、ステップＳ６０で抑制処理部１４０によって抑制処理が行われた音信号と、残響生成部１５０によって生成された残響信号とが合成された合成音信号を、ヘッドフォン２００に出力する（Ｓ８０）。このステップＳ８０が出力ステップに相当する。より具体的には、第１出力部１６０が含む音量制御部１６１及び方向制御部１６２が、取得部１２０によって取得された音量情報と空間情報と位置情報と検知情報とに基づいて、合成音信号を生成し、ヘッドフォン２００に出力する。

　ここで、図３～図６を用いて、抑制処理が行われた音信号及び合成音信号について説明する。

　図３は、本実施の形態に係る抑制処理が行われた音信号の時間及び振幅の関係を示す図である。図４は、図３が示す音信号のパワースペクトルを示す図である。図５は、本実施の形態に係る合成音信号の時間及び振幅の関係を示す図である。図６は、図５が示す合成音信号のパワースペクトルを示す図である。

　図４が示すパワースペクトルは図３が示す音信号に高速フーリエ変換処理が施されたスペクトルであり、図６が示すパワースペクトルは図５が示す合成音信号に高速フーリエ変換処理が施されたスペクトルである。

　図５及び図６が示す合成音信号は、図３及び図４が示す音信号と、当該音信号に基づいて生成された残響信号とが合成された信号である。つまり図５が示す合成音信号から図３が示す音信号を差し引いた信号が、残響信号に相当する。

　ここで、図４及び図６を比較する。図４及び図６のそれぞれの一点鎖線の矩形で囲まれた領域が示すように、周波数が７００Ｈｚ以下の領域におけるノイズフロアレベルは、図６の方がより高い。つまり残響信号を含む合成音信号では、当該領域におけるノイズフロアレベルがより高くなっている。

　ここで、ノイズフロアレベルについて、簡単に説明する。ノイズフロアレベルとは、音信号に含まれる雑音のレベルを示す。ノイズフロアレベルは、レベルの凹凸が観測される図４のスペクトルパワーの凹み部分の大きさで表される。ノイズフロアレベルは、例えば、所定の周波数区間の凹み部分のレベルの平均値によって簡易的に計算されることがある。

　ステップＳ８０では、このような合成音信号がヘッドフォン２００に出力され、ヘッドフォン２００の第２出力部２０２は、第１出力部１６０によって出力された合成音信号に基づいて、合成音信号が示す雑音が抑制された音及び残響を再生する。

　なお、仮に音響再生装置１００が残響生成部１５０を備えない場合には、ステップＳ７０は行われず、第１出力部１６０は、抑制処理部１４０によって抑制処理が行われた音信号を出力する。

　また、処理決定部１３０によって、処理可否情報が抑制処理を行わないことを示すと判断された場合に（Ｓ４０でＮｏ）、処理決定部１３０は抑制処理の処理内容を決定せず、抑制処理部１４０は抑制処理を行わない（Ｓ９０）。

　第１出力部１６０は、抑制処理部１４０によって抑制処理が行われていない音信号をヘッドフォン２００に出力する（Ｓ１００）。

　このように、動作例１においては、音響再生方法は、取得ステップと、処理決定ステップと、抑制処理ステップと、出力ステップとを含む。取得ステップでは、音再生空間において受聴者に到達する音を示す音信号、及び、音が含む雑音の抑制処理を音信号に行うか否か示す処理可否情報を取得する。処理決定ステップでは、取得された処理可否情報が抑制処理を行うことを示す場合に、抑制処理の処理内容を決定する。抑制処理ステップでは、決定された処理内容に基づいて、抑制処理を行う。出力ステップでは、抑制処理が行われた音信号を出力する。

　これにより取得ステップにおいて処理可否情報が取得されるため、この処理可否情報が示す雑音の抑制処理の可否に従って、抑制処理ステップにおいて音信号が示す音に含まれる雑音が抑制される。動作例１では、このような処理が行われた音信号に基づいて残響を示す残響信号が生成され（ステップＳ７０）、当該音信号と当該残響信号とが合成された合成音信号（合成音信号）が受聴者に出力される場合がある。この場合、受聴者が受聴する残響は、雑音が抑制された音に基づく音である。受聴者は、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。

　また、動作例１においては、取得ステップでは、処理内容を示す処理内容情報を取得する。抑制処理ステップでは、取得された処理内容情報が示す処理内容を行う。

　また、動作例１においては、抽出部１１０によってオーディオコンテンツ情報から音信号に対する処理可否情報が抽出されているが、入力される時系列音信号が分析されて処理可否情報が設定されてもよい。時系列音信号の分析としては、例えば自己相関値又は周波数成分の時間遷移などの観測により雑音の大きさが推定される手法などが知られており、推定される雑音の大きさを、所定の閾値で判定することで処理可否情報が設定されてもよい。

　さらに、入力される時系列音信号は、オーディオコンテンツ情報と紐づけられて入力される、抽出部１１０で抽出される音信号の代わりに、マイクなどの入力デバイスで収音される音信号としてもよい。この場合は、音信号に紐づけられるオーディオコンテンツ情報を、収音する環境にもとづいて設定される情報としてもよい。これにより、音信号に含まれる収音環境の雑音を抑圧して、所定の仮想空間の再現をすることができる。

　また、動作例１においては、音響再生方法は、抑制処理が行われた音信号と取得された空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含む。出力ステップでは、抑制処理が行われた音信号と、生成された残響信号とが合成された合成音信号を出力する。

　また、本実施の形態においては、コンピュータプログラムは、上記の音響再生方法をコンピュータに実行させる。

　［動作例２］
　動作例２では、２つの音再生空間が設けられ、当該２つの音再生空間のそれぞれに音源が設けられる例について説明する。図７は、本実施の形態に係る音響再生装置１００の動作例２のフローチャートである。図８及び図９のそれぞれは、本実施の形態に係る２つの音再生空間Ａ及びＢと２つの音源Ａ１及びＢ１の位置とを示す図である。

　２つの音再生空間Ａ及びＢのそれぞれは上記の音再生空間の一例であり、２つの音源Ａ１及びＢ１から出力される音のそれぞれは上記の受聴者Ｌに到達する音の一例である。なお識別のために、以下では、音源Ａ１が出力する音を第１音とし、第１音は受聴者が聞くための目的音と目的音以外の雑音とを含む。第１音を示す第１音信号は、上記の音信号の一例である。第１音信号に抑制処理を行うか否か示す第１処理可否情報は、上記の処理可否情報の一例である。音再生空間Ａに係る第１空間情報は、上記の空間情報の一例であり、音再生空間Ａの形状及び音響特性などを示す。また、音源Ｂ１が出力する音を第２音とし、第２音は受聴者が聞くための目的音と目的音以外の雑音とを含む。第２音を示す第２音信号は、上記の音信号の一例である。第２音信号に抑制処理を行うか否か示す第２処理可否情報は、上記の処理可否情報の一例である。音再生空間Ｂに係る第２空間情報は、上記の空間情報の一例であり、音再生空間Ｂの形状及び音響特性などを示す。

　音再生空間Ａと音再生空間Ｂとは隣接する空間である。音再生空間Ａは残響が発生する空間である。従って、音再生空間Ａの形状及び音響特性を示す第１空間情報には、音再生空間Ａは残響が発生する空間であることが示されている。

　音再生空間Ｂは残響が発生しない空間である。従って、音再生空間Ｂの形状及び音響特性を示す第２空間情報には、音再生空間Ｂは残響が発生しない空間であることが示されている。

　まずは、図８が示すように、受聴者Ｌの位置が音再生空間Ａ内に居る場合の動作例２について説明する。この動作例２においては、位置情報は、受聴者が音再生空間Ａに居ることと、音再生空間Ａのうち受聴者Ｌが居る位置とを示す。

　図７が示すように、はじめに、抽出部１１０は、オーディオコンテンツ情報を取得する（Ｓ１０）。

　抽出部１１０は、取得したオーディオコンテンツ情報から、音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報を抽出する（Ｓ２１）。より具体的には、抽出部１１０は、オーディオコンテンツ情報から、第１音信号、第２音信号、第１処理可否情報、第２処理可否情報、第１空間情報、第２空間情報、位置情報、処理内容情報及び音量情報を抽出する。

　取得部１２０は、抽出部１１０によって抽出された音信号、処理可否情報、空間情報、位置情報、処理内容情報及び音量情報と、ヘッドフォン２００によって出力された検知情報とを取得する（Ｓ３１）。より具体的には、取得部１２０は、第１音信号、第２音信号、第１処理可否情報、第２処理可否情報、第１空間情報、第２空間情報、位置情報、処理内容情報及び音量情報と、検知情報とを取得する。

　処理決定部１３０は、取得部１２０によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する（Ｓ４１）。ステップＳ４１を含む以下の処理では、第１音についての処理と、第２音についての処理とが別個で行われる。

　まず、第１音についての処理を説明する。

　ステップＳ４１で、処理決定部１３０は、取得部１２０によって取得された第１処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第１処理可否情報は、抑制処理を行うことを示す。

　従って、処理決定部１３０は、第１処理可否情報が抑制処理を行うことを示すと判断し（Ｓ４１でＹｅｓ）、処理決定部１３０は、抑制処理の処理内容を決定する（Ｓ５１）。より具体的には、処理決定部１３０は、取得部１２０によって取得された処理内容情報が示す処理内容を、抑制処理の処理内容として決定する。

　さらに、抑制処理部１４０は、取得部１２０によって取得された空間情報（第１空間情報）と、取得部１２０によって取得された位置情報とに基づいて、受聴者Ｌの位置が、残響が発生する音再生空間内に含まれるか否かを判断する（Ｓ５２）。ここでは、位置情報は、受聴者が音再生空間Ａに居ることを示す。また、第１空間情報は、音再生空間Ａは残響が発生する空間であることを示す。従って、抑制処理部１４０は、受聴者Ｌの位置が、残響が発生する音再生空間Ａ内に含まれる（ステップＳ５２でＹｅｓ）と判断する。

　この場合、抑制処理部１４０は、処理決定部１３０によって決定された処理内容に基づいて、取得部１２０によって取得された音信号（第１音信号）に、抑制処理を行う（ステップＳ６１）。抑制処理が行われた第１音信号は、雑音が抑制された第１音を示す信号である。

　残響生成部１５０は、ステップＳ６１で抑制処理部１４０によって抑制処理が行われた音信号（第１音信号）と、取得部１２０によって取得された空間情報（第１空間情報）とに基づいて、残響を示す残響信号を生成する（Ｓ７１）。ステップＳ７１で残響生成部１５０によって生成された残響信号は、雑音が抑制された第１音に基づく残響を示す信号である。

　第１出力部１６０は、ステップＳ６１で抑制処理部１４０によって抑制処理が行われた音信号（第１音信号）と、残響生成部１５０によって生成された残響信号とが合成された合成音信号を、ヘッドフォン２００に出力する（Ｓ８１）。より具体的には、第１出力部１６０が含む音量制御部１６１及び方向制御部１６２が、取得部１２０によって取得された音量情報と第１空間情報と位置情報と検知情報とに基づいて、合成音信号を生成し、ヘッドフォン２００に出力する。

　ここで、ステップＳ４１に戻って、第２音についての処理を説明する。

　ステップＳ４１で、処理決定部１３０は、取得部１２０によって取得された第２処理可否情報が抑制処理を行うことを示すか否かを判断する。ここでは、第２処理可否情報は、抑制処理を行わないことを示す。

　従って、処理決定部１３０は、第２処理可否情報が抑制処理を行わないことを示すと判断し（Ｓ４１でＮｏ）、処理決定部１３０は抑制処理の処理内容を決定せず、抑制処理部１４０は抑制処理を行わない（Ｓ９１）。

　第１出力部１６０は、抑制処理部１４０によって抑制処理が行われていない音信号（第２音信号）をヘッドフォン２００に出力する（Ｓ１０１）。

　以上より、動作例２の図８が示す例においては、ヘッドフォン２００の第２出力部２０２は、以下の処理を行う。つまり、第２出力部２０２は、第１出力部１６０によって出力された合成音信号が示す雑音が抑制された第１音及び残響を再生し、第１出力部１６０によって出力された第２音信号が示す第２音を再生する。

　さらに、以下では、動作例２において図９が示すように、受聴者Ｌの位置が音再生空間Ｂ内に居る場合について説明する。この動作例２においては、位置情報は、受聴者が音再生空間Ｂに居ることと、音再生空間Ｂのうち受聴者Ｌが居る位置とを示す。

　上記説明したように、ステップＳ１０～Ｓ３１が行われる。

　続いて、処理決定部１３０は、取得部１２０によって取得された処理可否情報が抑制処理を行うことを示すか否かを判断する（Ｓ４１）。受聴者Ｌの位置が音再生空間Ｂ内に居る場合においても、ステップＳ４１を含む以下の処理では、第１音についての処理と、第２音についての処理とが別個で行われる。

　まず、第１音についての処理を説明する。

　さらに、抑制処理部１４０は、取得部１２０によって取得された空間情報（第２空間情報）と、取得部１２０によって取得された位置情報とに基づいて、受聴者Ｌの位置が、残響が発生する音再生空間内に含まれるか否かを判断する（Ｓ５２）。ここでは、位置情報は、受聴者が音再生空間Ｂに居ることを示す。また、第２空間情報は、音再生空間Ｂは残響が発生しない空間であることを示す。従って、抑制処理部１４０は、受聴者Ｌの位置が、残響が発生しない音再生空間Ｂ内に含まれる（ステップＳ５２でＮｏ）と判断する。

　この場合、処理決定部１３０は抑制処理の処理内容を決定せず、抑制処理部１４０は抑制処理を行わない（Ｓ９１）。ステップＳ９１について、より詳細に説明すると以下の通りである。図９が示す例においては受聴者Ｌは残響が発生しない音再生空間Ｂ内に受聴者Ｌが居るため、残響生成部１５０は、雑音が含まれる音（第１音）が示す音信号（第１音信号）に基づく残響信号を生成しない。よって、抑制処理部１４０が抑制処理を行わなくても、受聴者が雑音が含まれる音に基づく残響を受聴することはない。つまりより正確には、抑制処理部１４０は、抑制処理を行う必要がないため、抑制処理を行わない。この結果、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。

　さらに、第１出力部１６０は、抑制処理部１４０によって抑制処理が行われていない音信号（第１音信号）をヘッドフォン２００に出力する（Ｓ１０１）。

　従って、動作例２においては、ヘッドフォン２００の第２出力部２０２は、第１出力部１６０によって出力された合成音信号に基づいて合成音信号が示す雑音が抑制された第１音及び残響を再生し、第１出力部１６０によって出力された第２音信号が示す第２音を再生する。

　以上より、動作例２の図９が示す例においては、ヘッドフォン２００の第２出力部２０２は、以下の処理を行う。つまり、第２出力部２０２は、第１出力部１６０によって出力された抑制処理が行われていない第１音信号が示す第１音を再生し、第１出力部１６０によって出力された抑制処理が行われていない第２音信号が示す第２音を再生する。

　このように、動作例２においては、抑制処理ステップでは、受聴者Ｌの位置が、残響が発生しない音再生空間内（例えば音再生空間Ｂ内）に含まれる場合に、抑制処理を行わないことを決定する。

　これにより、受聴者Ｌの位置が、残響が発生しない音再生空間内（例えば音再生空間Ｂ内）に含まれる場合には、抑制処理が行われないため、音響再生方法の処理負荷を軽減することができる。

　また、動作例２においては、取得ステップでは、処理内容を示す処理内容情報を取得し、抑制処理ステップでは、取得された処理内容情報が示す処理内容を行う。

　（実施の形態２）
　実施の形態２においては、比較部１８０が設けられている例について説明する。

　［構成］
　実施の形態２に係る音響再生装置１００ａの構成について説明する。

　図１０は、本実施の形態に係る音響再生装置１００ａの機能構成を示すブロック図である。

　本実施の形態に係る音響再生装置１００ａは、主に、比較部１８０を備える点を除いて、音響再生装置１００と同じ構成を有する。

　つまり、音響再生装置１００ａは、抽出部１１０と、取得部１２０と、処理決定部１３０と、抑制処理部１４０と、残響生成部１５０と、第１出力部１６０と、記憶部１７０と、比較部１８０とを備える。

　本実施の形態においては、取得部１２０は、閾値を示す閾値データを取得する。閾値データが示す閾値は、比較部１８０によって用いられる値であり、詳細は後述される。

　例えば、閾値データは記憶部１７０に記憶されており、取得部１２０は、記憶部１７０に記憶されている閾値データを取得する。また例えば、閾値データは抽出部１１０によってオーディオコンテンツ情報から抽出されるデータであって、取得部１２０は、抽出部１１０によって抽出された閾値データを取得してもよい。

　続いて、比較部１８０が行う処理について説明する。本実施の形態においては、図２が示す実施の形態１の動作例１のステップＳ１０、Ｓ２０、Ｓ３０、Ｓ４０、Ｓ５０、Ｓ６０、及びＳ７０の処理が行われた後、比較部１８０は、合成音信号を生成する。

　比較部１８０は、実施の形態１で示した第１出力部１６０と同様の処理によって、合成音信号を生成する。つまり、比較部１８０は、第１出力部１６０が含む音量制御部１６１及び方向制御部１６２が行う処理と同様の処理を行うことで、合成音信号を生成することができる。

　比較部１８０は、生成された合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された閾値データが示す閾値とを比較する。比較部１８０は、生成された合成音信号を示すパワースペクトル（例えば図６が示すパワースペクトル）における所定の周波数範囲のノイズフロアレベルと、閾値データが示す閾値とを比較し、比較結果を処理決定部１３０に出力する。

　処理決定部１３０は、比較部１８０から出力された比較結果に基づいて、抑制処理の処理内容を更新（再度決定）する。より具体的には、処理決定部１３０は、取得部１２０によって取得された処理内容情報が示す処理内容と、出力された比較結果とに基づいて、抑制処理の処理内容を更新（再度決定）する。

　このように、本実施の形態においては、ステップＳ５０で処理決定部１３０が処理内容を一度決定し、その後さらに、比較部１８０が比較結果を出力し、処理決定部１３０が比較結果に基づいて抑制処理の処理内容を再度決定する。つまりは、ステップＳ５０で一度決定された処理内容が、比較結果に基づいて決定された処理内容に更新される。ステップＳ５０で一度決定された処理内容に比べ、比較結果に基づいて決定された処理内容は、一例として、雑音をより強く抑制する抑制処理となるような処理内容である。

　また、閾値データが示す閾値は、上記のノイズフロアレベルの目標値であるとよい。閾値は、１つの値であってもよい。本実施の形態においては、閾値は、下限値以上かつ上限値以下の値（つまりは所定の幅をもつ値）である。

　処理決定部１３０は、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制する抑制処理となるように処理内容を更新する。ノイズフロアレベルが閾値よりも高い場合とは、十分に雑音が抑制できていない場合である。もし仮に、十分に雑音が抑制できていない音に基づいて残響が生成され、受聴者Ｌがこのような残響を受聴すると、受聴者Ｌに違和感を覚えさせることとなり、受聴者Ｌは十分に臨場感がある音を受聴することができない。

　ノイズフロアレベルが閾値よりも高い場合に、処理決定部１３０が雑音をより強く抑制する抑制処理となるように処理内容を更新することで、残響生成部１５０によって生成された残響信号は、雑音がより強く抑制された音に基づく残響を示す信号とすることができる。さらに、第１出力部１６０が、雑音をより強く抑制する抑制処理が行われた音信号と、当該残響信号とが合成された合成音信号を、ヘッドフォン２００に出力する。

　これにより、受聴者Ｌが受聴する残響は、雑音がより強く抑制された音に基づく音である。受聴者Ｌは、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。

　［動作例３］
　以下、音響再生装置１００ａが実行する音響再生方法の動作例３について説明する。図１１は、本実施の形態に係る音響再生装置１００ａの動作例３のフローチャートである。

　動作例３においても、実施の形態１の動作例１で示したステップＳ１０～Ｓ４０の処理が行われている。また動作例３においては、ステップＳ１０において、取得部１２０が閾値データを取得している。動作例３では、ステップＳ４０でＹｅｓの場合の例について説明する。

　ステップＳ４０でＹｅｓの場合、ステップＳ５０にて、処理決定部１３０は、処理内容を一度決定する。さらに、ステップＳ６０及びＳ７０の処理が行われる。

　次に、比較部１８０は、取得部１２０によって取得された音量情報と空間情報と位置情報と検知情報とに基づいて、合成音信号を生成する（Ｓ１１０）。比較部１８０は、実施の形態１で示した第１出力部１６０と同様の処理によって、合成音信号を生成する。

　さらに、比較部１８０は、生成された合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、閾値データが示す閾値とを比較する（Ｓ１２０）。

　ここで、閾値とノイズフロアレベルとについて図１２を用いて説明する。

　図１２は、本実施の形態に係る閾値とノイズフロアレベルとを示す図である。図１２の（ａ）は目標とする合成音信号を示すパワースペクトルと閾値とを示す図である。図１２の（ｂ）は比較部１８０によって生成された合成音信号を示すパワースペクトルと当該パワースペクトルにおける所定の周波数範囲のノイズフロアレベルとを示す図である。なお、以下では、簡単のため、図１２の（ａ）が示すノイズフロアレベルを目標値に係るノイズフロアレベルと記載する場合があり、図１２の（ｂ）が示すノイズフロアレベルを合成音信号に係るノイズフロアレベルと記載する場合がある。

　図１２の（ａ）が示すパワースペクトルは、比較部１８０によって生成された合成音信号を示すパワースペクトルの目標のパワースペクトルである。閾値は、上記の通りノイズフロアレベルの目標値である。閾値は、一例として、図１２の（ａ）が示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベル（目標値に係るノイズフロアレベル）を含む値である。また、図１２の（ａ）が示す閾値の上限値をＵＬとし、図１２の（ａ）が示す閾値の下限値をＬＬとし、図１２の（ａ）が示す目標値に係るノイズフロアレベルをＮＬＶとした場合に、ＵＬは式１を満たし、ＬＬは式２を満たす。

　ＵＬ　＝　ＮＬＶ　×　１．１　（式１）

　ＬＬ　＝　ＮＬＶ　×　０．９　（式２）

　つまり、閾値の上限値（ＵＬ）及び閾値の下限値（ＬＬ）は、目標値に係るノイズフロアレベル（ＮＬＶ）のプラスマイナス１０％であるが、これに限られず、目標値に係るノイズフロアレベル（ＮＬＶ）のプラスマイナス５％、２０％又は３０％であってもよい。

　なお、図１２の（ａ）が示すパワースペクトルにおける所定の周波数範囲、及び、図１２の（ｂ）が示すパワースペクトルにおける所定の周波数範囲は、同じ範囲であり、例えば、１００Ｈｚ以上７００Ｈｚ以下である。なお例えば、図１２の（ａ）及び図１２の（ｂ）のそれぞれが示すパワースペクトルにおける所定の周波数範囲は、１００Ｈｚ以上７００Ｈｚ以下に限られず、他の周波数であってもよい。

　ステップＳ１２０において、比較部１８０は、合成音信号に係るノイズフロアレベルと閾値とを比較する。

　比較部１８０は、合成音信号に係るノイズフロアレベルが閾値の下限値以上かつ閾値の上限値以下であれば、合成音信号に係るノイズフロアレベルと閾値とが同じであると判断する。

　比較部１８０は、合成音信号に係るノイズフロアレベルが閾値の下限値未満であれば、合成音信号に係るノイズフロアレベルが閾値より低いと判断する。

　比較部１８０は、合成音信号に係るノイズフロアレベルが閾値の上限値より高ければ、合成音信号に係るノイズフロアレベルが閾値より高いと判断する。

　合成音信号に係るノイズフロアレベルが閾値より高い又は低い場合には、比較部１８０は、その比較結果を処理決定部１３０に出力する。この場合、再度ステップＳ５０の処理が行われ、つまりは、処理決定部１３０は、抑制処理の処理内容を更新（再度決定）する。

　例えば、合成音信号に係るノイズフロアレベルが閾値より高い場合には、雑音をより強く抑制する抑制処理となるように、処理内容を再度決定する。また、例えば、合成音信号に係るノイズフロアレベルが閾値より低い場合には、雑音をより弱く抑制する抑制処理となるように、処理内容を再度決定する。

　続いて、再度ステップＳ６０の処理が行われ、つまりは、抑制処理部１４０は、処理決定部１３０によって再度決定された処理内容に基づいて、取得部１２０によって取得された音信号に、抑制処理を行う。この抑制処理とは、雑音をより弱く抑制する抑制処理である。

　さらに、再度ステップＳ７０の処理が行われ、つまりは、残響生成部１５０は、ステップＳ６０で抑制処理部１４０によって抑制処理が行われた音信号と、取得部１２０によって取得された空間情報とに基づいて、残響を示す残響信号を生成する。この残響信号は、残響信号は、雑音がより強く抑制された音に基づく残響を示す信号である。

　さらに、再度ステップＳ１１０及びＳ１２０の処理が行われる。

　このように、合成音信号に係るノイズフロアレベルが閾値より高い又は低い場合には、再度ステップＳ５０～Ｓ７０、Ｓ１１０及びＳ１２０の処理が行われる。

　また、合成音信号に係るノイズフロアレベルが同じ場合には、比較部１８０は、その比較結果を第１出力部１６０に出力する。この場合、ステップＳ８０の処理が行われる。

　ステップＳ８０では、例えば、第１出力部１６０が、雑音をより強く抑制する抑制処理が行われた音信号と、雑音がより強く抑制された音に基づく残響を示す残響信号とが合成された合成音信号を、ヘッドフォン２００に出力する。これにより、受聴者Ｌが受聴する残響は、雑音がより強く抑制された音に基づく音である。受聴者Ｌは、このような残響を受聴しても違和感を覚えにくく、臨場感がある音を受聴することができる。つまりは、このような場合には、取得される音信号が示す音に雑音が含まれたとしても、より臨場感がある音を出力することができる音響再生方法が実現される。

　このように、動作例３においては、取得ステップでは、閾値を示す閾値データを取得する。音響再生方法は、合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された閾値データが示す閾値とを比較する比較ステップを含む。処理決定ステップでは、比較ステップでの比較結果に基づいて、抑制処理の処理内容を更新する。

　また、動作例３においては、閾値は、ノイズフロアレベルの目標値である。処理決定ステップでは、ノイズフロアレベルが閾値よりも高い場合に、雑音をより強く抑制する抑制処理となるように処理内容を更新する。

　（その他の実施の形態）
　以上、本開示の態様に係る音響再生方法及び音響再生装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

　また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

　（１）上記の音響再生装置を構成する構成要素の一部は、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の音響再生装置及び音響再生方法を構成する構成要素の一部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の音響再生装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）また、上記の音響再生装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

　また、上記の音響再生装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

　（５）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　（６）また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　（７）また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　（８）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

　また、ヘッドフォン２００から出力される音と連動させた映像が受聴者Ｌに提示されてもよい。この場合、図１などには示されていないが、例えば、受聴者Ｌの周囲に液晶パネル又は有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどの表示装置が設けられていてもよく、当該表示装置に当該映像が提示される。また、受聴者Ｌがヘッドマウントディスプレイなどを装着することで、当該映像が提示されてもよい。

　なお、本開示におけるオーディオコンテンツ情報は、音信号（音情報）及びメタデータを含むビットストリームと言い換えることができる。本開示におけるオーディオコンテンツ情報は、処理可否情報、空間情報、位置情報、及び、処理内容情報はいずれもビットストリームにおけるメタデータを構成する情報だといえる。例えばＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームとしてオーディオコンテンツ情報が音響再生装置１００に取得されてもよい。一例として、符号化された音信号は、音響再生装置１００によって再生される目的音についての情報を含む。ここでいう目的音は、音再生空間に存在する音源オブジェクトが発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、音再生空間に音源オブジェクトが複数存在する場合、音響再生装置１００は、複数の音源オブジェクトにそれぞれ対応する複数の音信号を取得することになる。

　メタデータとは、例えば、音響再生装置１００において音情報に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間（音再生空間）で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音響再生装置１００でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音響再生装置１００は、ビットストリームに含まれるメタデータ、及び追加で取得されるインタラクティブな受聴者Ｌの位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、主に後期残響音の生成について説明したが、メタデータを用いて他の音響処理を行ってもよい。例えば、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報がメタデータとして付加されてもよい。

　なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。

　また、映像を制御するメタデータが音響再生装置１００で取得されるビットストリームに含まれる場合は、音響再生装置１００は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む音再生空間に関する情報と、当該音の音像を音再生空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音が受聴者Ｌへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、受聴者Ｌが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音再生空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。

　メタデータを構成する空間情報として、音再生空間の形状だけでなく、音再生空間に存在する障害物オブジェクトの形状及び位置と、音再生空間に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。音再生空間は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の音再生空間において音を反射し得る構造物の反射率、及び音再生空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、音再生空間が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。

　上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、受聴者Ｌの位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。受聴者Ｌの位置とオブジェクトの位置との相対的な関係で定められる場合、受聴者Ｌがオブジェクトを見ている面を基準とし、受聴者Ｌから見てオブジェクトの右側からは音Ｘ、左側からは音Ｙが発せられているように受聴者Ｌに知覚させることができる。オブジェクトを基準として定められる場合、受聴者Ｌの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているように受聴者Ｌに知覚させることができる。この場合、受聴者Ｌがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているように受聴者Ｌに知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみを受聴者Ｌに知覚させることができる。

　ところで、受聴者Ｌの位置及び向きを示す情報がメタデータとしてビットストリームに含まれていると説明したが、インタラクティブに変化する受聴者Ｌの位置及び向きを示す情報は、ビットストリームに含まれていなくてもよい。その場合、受聴者Ｌの位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、ＶＲ空間における受聴者Ｌの位置情報であれば、ＶＲコンテンツを提供するアプリから取得されてもよいし、ＡＲとして音を提示するための受聴者Ｌの位置情報であれば、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。なお、音情報とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　音情報とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音情報とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。

　ここで、関連するビットストリーム又はファイルとはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音情報とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音情報とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音情報とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音情報とメタデータとを格納していなくてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）、又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）等である。この場合、取得部１２０は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音情報とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音情報とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。

　抽出部１１０は、符号化されたメタデータを復号し、復号したメタデータを取得部１２０に与える。取得部１２０は、取得したメタデータを処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０にそれぞれ与える。ここで、取得部１２０は、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０などの複数の処理部にそれぞれ同じメタデータを与えるのではなく、処理部ごとに、対応する当該処理部で必要なメタデータを与えてもよい。

　また、取得部１２０は、頭部センサ部２０１で検知された回転量又は変位量等と受聴者Ｌの位置及び向きとを含む検知情報を更に取得する。取得部１２０は、取得した検知情報に基づいて、音再生空間における受聴者Ｌの位置及び向きを決定する。より具体的には、取得部１２０は、取得した検知情報が示す受聴者Ｌの位置及び向きが、音再生空間における受聴者Ｌの位置及び向きであることを決定する。そして、取得部１２０は、決定した受聴者Ｌの位置及び向きに応じて、メタデータに含まれる位置情報を更新する。したがって、取得部１２０が各処理部に与えるメタデータは、更新された位置情報を含むメタデータである。

　本実施形態では音響再生装置１００は、音響効果を付加した音信号を生成するレンダラとしての機能を有するが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、抽出部１１０、取得部１２０、処理決定部１３０、抑制処理部１４０、残響生成部１５０及び第１出力部１６０の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内で生成された音信号又は合成した音信号は、図示しない通信モジュールを通じて音響再生装置１００で受信され、ヘッドフォン２００で再生される。

　本開示は、音響再生方法及び音響再生装置に利用可能であり、特に、立体音響再生システムなどに適用可能である。

１００、１００ａ　音響再生装置
１１０　抽出部
１２０　取得部
１３０　処理決定部
１４０　抑制処理部
１５０　残響生成部
１６０　第１出力部
１６１　音量制御部
１６２　方向制御部
１７０　記憶部
１８０　比較部
２００　　ヘッドフォン
２０１　　頭部センサ部
２０２　　第２出力部
Ａ、Ｂ　音再生空間
Ａ１、Ｂ１　音源
Ｌ　　受聴者

Claims

　音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得ステップと、
　取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定ステップと、
　決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理ステップと、
　前記抑制処理が行われた前記音信号を出力する出力ステップとを含む
　音響再生方法。
　前記取得ステップでは、前記音再生空間の形状及び音響特性を示す空間情報と、前記音再生空間における前記受聴者の位置を示す位置情報とを取得し、
　前記抑制処理ステップでは、取得された空間情報と、取得された位置情報とに基づいて、前記抑制処理を行うか否かを決定する
　請求項１に記載の音響再生方法。
　前記抑制処理ステップでは、前記受聴者の位置が、残響が発生しない前記音再生空間内に含まれる場合に、前記抑制処理を行わないことを決定する
　請求項２に記載の音響再生方法。
　前記取得ステップでは、前記処理内容を示す処理内容情報を取得し、
　前記抑制処理ステップでは、取得された前記処理内容情報が示す前記処理内容を行う
　請求項１記載の音響再生方法。
　前記抑制処理が行われた前記音信号と取得された前記空間情報とに基づいて、残響を示す残響信号を生成する残響生成ステップを含み、
　出力ステップでは、前記抑制処理が行われた前記音信号と、生成された前記残響信号とが合成された合成音信号を出力する
　請求項２に記載の音響再生方法。
　前記取得ステップでは、閾値を示す閾値データを取得し、
　前記音響再生方法は、前記合成音信号を示すパワースペクトルにおける所定の周波数範囲のノイズフロアレベルと、取得された前記閾値データが示す前記閾値とを比較する比較ステップを含み、
　前記処理決定ステップでは、前記比較ステップでの比較結果に基づいて、前記抑制処理の前記処理内容を更新する
　請求項５に記載の音響再生方法。
　前記閾値は、前記ノイズフロアレベルの目標値であり、
　前記処理決定ステップでは、前記ノイズフロアレベルが前記閾値よりも高い場合に、前記雑音をより強く抑制する前記抑制処理となるように前記処理内容を更新する
　請求項６に記載の音響再生方法。
　請求項１～７のいずれか１項に記載の音響再生方法をコンピュータに実行させるためのコンピュータプログラム。
　音再生空間において受聴者に到達する音を示す音信号、及び、前記音が含む雑音の抑制処理を前記音信号に行うか否か示す処理可否情報を取得する取得部と、
　取得された処理可否情報が前記抑制処理を行うことを示す場合に、前記抑制処理の処理内容を決定する処理決定部と、
　決定された前記処理内容に基づいて、前記抑制処理を行う抑制処理部と、
　前記抑制処理が行われた前記音信号を出力する出力部とを備える
　音響再生装置。