WO2024070127A1

WO2024070127A1 - 音場再現装置、音場再現方法及び音場再現システム

Info

Publication number: WO2024070127A1
Application number: PCT/JP2023/025364
Authority: WO
Inventors: 宏正大橋
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-09-28
Filing date: 2023-07-07
Publication date: 2024-04-04
Also published as: JP2024048967A

Abstract

音場再現装置は、収録空間内の音源抽出方向の指定を受ける制御部と、収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に遅延処理を施す遅延部と、遅延処理後の低次基底音響信号から音源抽出方向の参照信号の減算処理を行う減算部と、減算処理後の低次基底音響信号と収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置とに基づいて、スピーカごとの駆動信号を生成する生成部と、複数のスピーカのそれぞれから、スピーカごとの駆動信号を出力する再生部と、を備える。

Description

音場再現装置、音場再現方法及び音場再現システム

　本開示は、音場再現装置、音場再現方法及び音場再現システムに関する。

　昨今、リアルタイムに音場再現を行うためにシーンベース立体音響再生技術が注目されている。シーンベース立体音響再生技術とは、複数の指向性マイク素子を剛球上又は中空球面上に配置されているアンビソニックスマイクを用いて収録（収音）した多チャンネル信号に対して信号処理を施すことにより、視聴環境（空間）を取り囲むように配置されたスピーカを用いてあたかもリスナー（聴取者）がアンビソニックスマイクの設置箇所（収録空間内）に存在しているかのような立体的な音場をリアルタイムに再現する方式である。

　音場再現に関する先行技術として、例えば特許文献１が知られている。特許文献１は、収音対象空間において一体となって設置された複数の収音部であって、音源の位置と当該音源から発せられる音を反射する物体の位置とに応じた複数の異なる向きで設置された複数の収音部による収音に基づく複数の収音信号を取得し、この取得された複数の収音信号に基づいて、収音対象空間内の指定された聴取点に対応する音響信号を生成する、信号処理装置を開示している。

日本国特開２０１９－１９２９７５号公報

　特許文献１の構成では、複数の収音部が配置されている収音対象空間内に聴取点が存在していることが前提となっている。このため、特許文献１を用いてシーンベース立体音響のシステムを構築しようとしても、収音部が配置されている収音対象空間内にリスナーが存在しなければならない。つまり、リスナーが収音対象空間とは異なる空間に存在する場合には、収音対象空間内で収音された音響信号をその収音対象空間内で聴取可能となるように音場再現することは困難であるという課題がある。

　また、パブリックビューイング等のイベントでのリアルタイムによる音源（例えばライブ演奏）を収録する際、収録した音響信号の中に音場収録空間内のノイズ或いは不要な音が混入することによりリスナー（聴取者）にクリアで臨場感かつ没入感のある音を出力することが困難である。ここでいう不要な音とは、例えば音場収録空間内で流れているアナウンス等の音声であって、リスナー（聴取者）が臨場感かつ没入感を得るためには必ずしも必要とされない種別の音源である。

　本開示は、上述した従来の状況に鑑みて案出され、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧し、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現する音場再現装置、音場再現方法及び音場再現システムを提供することを目的とする。

　本開示は、収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、音場再現装置を提供する。

　また、本開示は、収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受けるステップと、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施すステップと、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行うステップと、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するステップと、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力するステップと、を有する、音場再現方法を提供する。

　また、本開示は、音場収録空間内の音源を収録可能な収録デバイスを有する音場収録装置と、前記収録デバイスにより収録された音響信号を、前記音場収録空間とは異なる音場再現空間内で再現する音場再現装置と、を備え、前記音場再現装置は、前記収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、音場再現システムを提供する。

　なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧でき、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現できる。

アンビソニックスマイクを用いたシーンベース立体音響再生技術における音場収録から音場再現までの概念を模式的に示す図次数ｎ及び度数ｍに対する球面調和関数展開に基づくアンビソニックス成分の基底の一例を示す図実施の形態１に係る音場再現システムのシステム構成例を示すブロック図実施の形態１の音場収録から音場再現までの動作概要例を示す図実施の形態１に係る音場再現装置による音場再現の動作手順例を時系列に示すフローチャート実施の形態２に係る音場再現システムのシステム構成例を示すブロック図実施の形態２の音場収録から音場再現までの動作概要例を示す図実施の形態２に係る音場再現装置による音場再現の動作手順例を時系列に示すフローチャート実施の形態３に係る音場再現システムのシステム構成例を示すブロック図実施の形態３の音場収録から音場再現までの動作概要例を示す図実施の形態３に係る音場再現装置による音場再現の動作手順例を時系列に示すフローチャート実施の形態４に係る音場再現システムのシステム構成例を示すブロック図実施の形態４の音場収録から音場再現までの動作概要例を示す図実施の形態４に係る音場再現装置による音場再現の動作手順例を時系列に示すフローチャート

　以下、図面を適宜参照して、本開示に係る音場再現装置、音場再現方法及び音場再現システムを具体的に開示した実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。

　以下の各実施の形態では、音場収録空間（例えばライブ会場）内の音、音楽、人の声等の音源信号を収録する収録デバイスとしてアンビソニックスマイクを用いたシーンベース立体音響再生技術を例示して説明する。アンビソニックスマイクを用いたシーンベース立体音響再生技術では、アンビソニックスマイクを構成する複数のマイク素子で収録した信号（収録信号）或いは点音源を、球面調和関数を用いた中間表現ＩＴＭＲ１（図１参照）或いはＢフォーマット信号として表現する（エンコードする）ことにより、全方位から到来する音場をアンビソニックス信号領域（後述参照）において統一的に取り扱う。更に、この中間表現をデコード（復号化）することによりスピーカ駆動信号を生成し、音場再現空間（例えばサテライト会場）内での所望の音場再現を実現する。

（実施の形態１）
　まず、図１を参照して、シーンベース立体音響再生技術の概念について説明する。図１は、アンビソニックスマイク１１を用いたシーンベース立体音響再生技術における音場収録から音場再現までの概念を模式的に示す図である。アンビソニックスマイク１１は、ライブ会場ＬＶ１等の音場収録空間内に配置される。ライブ会場ＬＶ１では、複数の音源（例えば複数人によるバンド演奏であればボーカル、ベース、ギター、ドラム等の各種の音源）による演奏等が行われ、その演奏等の音がアンビソニックスマイク１１により収録される。

　収録デバイスの一例としてのアンビソニックスマイク１１は、４つのマイク素子Ｍｃ１、Ｍｃ２、Ｍｃ３、Ｍｃ４を備える。マイク素子Ｍｃ１～Ｍｃ４のそれぞれは、方向Ｄｒ１を正面方向とした場合に、図１中の立方体ＣＢ１の中心から４つの頂点を向くように中空配置され、各頂点方向に対する単一指向性を有している。マイク素子Ｍｃ１は、アンビソニックスマイク１１の前方左上（ＦＬＵ：Ｆｒｏｎｔ　Ｌｅｆｔ　Ｕｐ）を向き、その前方左上（ＦＬＵ）の方向の音を収録する。マイク素子Ｍｃ２は、アンビソニックスマイク１１の前方右下（ＦＲＤ：Ｆｒｏｎｔ　Ｒｉｇｈｔ　Ｄｏｗｎ）を向き、その前方右下（ＦＲＤ）の方向の音を収録する。マイク素子Ｍｃ３は、アンビソニックスマイク１１の後方左下（ＢＬＤ：Ｂａｃｋ　Ｌｅｆｔ　Ｄｏｗｎ）を向き、その後方左下の方向の音を収録する。マイク素子Ｍｃ４は、アンビソニックスマイク１１の後方右上（ＢＲＵ：Ｂａｃｋ　Ｒｉｇｈｔ　Ｕｐ）を向き、その後方右上の方向の音を収録する。

　これらの４方向（つまり、ＦＬＵ、ＦＲＤ、ＢＬＤ、ＢＲＵ）の音の収録信号は、Ａフォーマット信号と呼ばれる。Ａフォーマット信号は、そのままでは使用できず、指向特性（指向性）を有する中間表現ＩＴＭＲ１としてのＢフォーマット信号に変換される。Ｂフォーマット信号は、例えば、全方向（全方位）の音のＢフォーマット信号Ｗ、前後方向の音のＢフォーマット信号Ｘ、左右方向の音のＢフォーマット信号Ｙ、上下方向の音のＢフォーマット信号Ｚを有する。Ａフォーマット信号は、次に示す変換式により、Ｂフォーマット信号に変換される。

　　Ｗ＝ＦＬＵ＋ＦＲＤ＋ＢＬＤ＋ＢＲＵ
　　Ｘ＝ＦＬＵ＋ＦＲＤ－ＢＬＤ－ＢＲＵ
　　Ｙ＝ＦＬＵ－ＦＲＤ＋ＢＬＤ－ＢＲＵ
　　Ｚ＝ＦＬＵ－ＦＲＤ－ＢＬＤ＋ＢＲＵ

　Ｂフォーマット信号Ｗ、Ｘ、Ｙ、Ｚを合成することにより、前後、左右、上下の全方位の音の信号が得られる。そして、Ｂフォーマット信号Ｗ、Ｘ、Ｙ、Ｚのそれぞれの信号レベルを変更させて合成することにより、前後、左右、上下の全方位のうち任意の指向特性を有する音の信号を生成することができる。例えば図１に示すように、立方体でモデル化される音場再現空間（例えばサテライト会場ＳＴＬ１）内の各頂点部分に、合計８つのスピーカＳＰｋ１、ＳＰｋ２、ＳＰｋ３、ＳＰｋ４、ＳＰｋ５、ＳＰｋ６、ＳＰｋ７、ＳＰｋ８が配置され、音場収録空間（例えばライブ会場ＬＶ１）と同様（つまり、前後、左右、上下の方向が平行或いは同方向）の３次元座標系を考える。

　なお、スピーカＳＰｋ１～ＳＰｋ８のそれぞれの位置は、音場再現空間（例えばサテライト会場ＳＴＬ１）の基準位置（例えば中心位置ＬＳＰ１）からの既定距離と角度（方位角θ_ｉ及び仰角φ_ｉ）とにより特定可能である。ｉは音場再現空間（例えばサテライト会場ＳＴＬ１）内に配置されているスピーカを示す変数であり、図１の例では１から８までのいずれかの整数をとる。

　音場再現空間（例えばサテライト会場ＳＴＬ１）の中心位置ＬＳＰ１にユーザであるリスナー（聴取者）が存在し、正面方向（Ｆｒｏｎｔ）を向いているとする。このような状況下において、音場収録空間（例えばライブ会場ＬＶ１）内で収録されたＡフォーマット信号に基づく符号化処理により得られたＢフォーマット信号Ｗ、Ｘ、Ｙ、Ｚのデータと音場再現空間（例えばサテライト会場ＳＴＬ１）内のスピーカＳＰｋ１～ＳＰｋ８のそれぞれの方向とに基づいて、音場収録空間（例えばライブ会場ＬＶ１）内の音場を音場再現空間（例えばサテライト会場ＳＴＬ１）内で自由に再現することができる。つまり、音場再現空間（例えばサテライト会場ＳＴＬ１）にユーザであるリスナー（聴取者）が存在する場合に、リスナーの正面方向を基準方向とし、その基準方向から任意の３次元方向（例えば後述する音源提示方向θ_{ｔａｒｇｅｔ}）の音を再現出力することが可能となる。

　次に、図２を参照して、次数ｎ及び度数ｍに対する球面調和関数展開に基づくアンビソニックス成分の基底について説明する。図２は、次数ｎ及び度数ｍに対する球面調和関数展開に基づくアンビソニックス成分の基底の一例を示す図である。

　図２の横軸（ｍ）は度数（ｄｅｇｒｅｅ）を示し、図２の縦軸（ｎ）は次数（ｏｒｄｅｒ）を示す。度数ｍは、－ｎから＋ｎまでの値をとる。ｎ＝Ｎ次までの球面調和関数は合計（Ｎ＋１）^２個の基底を含む。例えば、ｎ＝Ｎ＝０である場合、１個の基底（つまり、全方位のＢフォーマット信号Ｗ）が得られる。また例えば、ｎ＝Ｎ＝１である場合、４個の基底（つまり、（ｎ、ｍ）＝（０、０）に対応する全方位のＢフォーマット信号Ｗ、（ｎ、ｍ）＝（１、－１）に対応する前後方向のＢフォーマット信号Ｘ、（ｎ、ｍ）＝（１、０）に対応する上下方向のＢフォーマット信号Ｚ、（ｎ、ｍ）＝（１、１）に対応する左右方向のＢフォーマット信号Ｙ）が得られる。なお、ｎ＝Ｎ＝２以降も同様であるため、説明を省略する。

　球面調和関数はｎとｍの増加に対して空間的な周期性が増す性質を有することが知られている。このため、ｎとｍの組み合わせによって異なる方向パターン（指向特性）のＢフォーマット信号を表現することが可能となる。次数ｎ及び度数ｍに対する次元をアンビソニックスチャネルナンバリング（ＡＣＮ：Ａｍｂｉｓｏｎｉｃｓ　Ｃｈａｎｎｅｌ　Ｎｕｍｂｅｒｉｎｇ）に基づいてＫ＝ｎ（ｎ＋１）＋ｍと定義すると、球面調和関数を式（１）のようにベクトル形式で表現可能である。式（１）において、上添字のＴは転置を示す。

　次に、図３及び図４を参照して、実施の形態１に係る音場再現システム１００のシステム構成並びに動作概要について説明する。図３は、実施の形態１に係る音場再現システム１００のシステム構成例を示すブロック図である。図４は、実施の形態１の音場収録から音場再現までの動作概要例を示す図である。

　音場再現システム１００は、音場収録装置１と、音場再現装置２とを含む。音場収録装置１と音場再現装置２とはネットワークＮＷ１を介して互いにデータ通信が可能に接続されている。ネットワークＮＷ１は、有線ネットワークでもよいし、無線ネットワークでもよい。有線ネットワークは、例えば有線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、有線ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、電力線通信（ＰＬＣ：Ｐｏｗｅｒ　Ｌｉｎｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ）のうち少なくとも１つが該当し、他の有線通信可能なネットワーク構成でもよい。一方、無線ネットワークは、Ｗｉ－Ｆｉ（登録商標）等の無線ＬＡＮ、無線ＷＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信、４Ｇ或いは５Ｇ等の移動体携帯通信網のうち少なくとも１つが該当し、他の無線通信可能なネットワーク構成でもよい。

　音場収録装置１は、例えば音場収録空間（例えばライブ会場ＬＶ１）に配置され、アンビソニックスマイク１１と、Ａ／Ｄ変換部１２と、符号化部１３と、マイク素子方向指定部１４とを含む。なお、音場収録装置１は、少なくともアンビソニックスマイク１１を有していればよく、Ａ／Ｄ変換部１２、符号化部１３及びマイク素子方向指定部１４は音場再現装置２に設けられてもよい。言い換えると、アンビソニックスマイク１１は、音場再現装置２の外部に設けられても構わない。

　アンビソニックスマイク１１は、４つのマイク素子Ｍｃ１、Ｍｃ２、Ｍｃ３、Ｍｃ４を備え、マイク素子Ｍｃ１において前方左上方向（図１参照）の音を収録し、マイク素子Ｍｃ２において前方右下方向（図１参照）の音を収録し、マイク素子Ｍｃ３において後方左下方向（図１参照）の音を収録し、後方右上方向（図１参照）の音を収録する。なお、アンビソニックスマイク１１は、中空配置された４つのマイク素子Ｍｃ１、Ｍｃ２、Ｍｃ３、Ｍｃ４よりも多くの単一指向性を有するマイク素子を備えていてもよく、また、剛球上に配置された無指向性を有するマイク素子を備えていても良い。多数のマイク素子を備えたアンビソニックスマイクを用いることにより、符号化部１３において、２次以上オーダーのアンビソニックス信号を合成することが可能となる。アンビソニックスマイク１１を構成する各マイク素子により収録された信号（収録信号）は、Ａ／Ｄ変換部１２に入力される。

　Ａ／Ｄ変換部１２、符号化部１３及びマイク素子方向指定部１４は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の電子デバイスのうち少なくとも１つが実装された半導体チップ若しくは専用のハードウェアにより構成される。

　Ａ／Ｄ変換部１２は、アンビソニックスマイク１１を構成する各マイク素子からのアナログ形式の収録信号をディジタル形式の収録信号に変換して符号化部１３に送る。

　ここで、符号化部１３による符号化処理の詳細について説明する。

　一般的に、球面上の任意の角度（θ、φ）に対し半径ｒの位置で観測（収録）される音圧ｐは波動方程式の球面調和関数領域における内部問題の解として、波数ｋに対し式（２）の球面調和関数を基底として式（４）と展開されることが知られている。式（４）において、Ａ^ｍ _ｎは展開係数であり、Ｒ_ｎ（ｋｒ）は動径関数項である。また、次数ｎに関する無限和は有限次数Ｎで打ち切ることで近似され、この打ち切り次数Ｎに応じて音場再現の精度が変化する。以下、打ち切り次数をＮとして表現する。

　式（６）において、ｉは虚数単位であり、ｊ_ｎ（ｋｒ）はｎ次の球ベッセル関数、ｊ^’ _ｎ（ｋｒ）はその導関数である。本開示においては、この平面波に対する展開係数ベクトルγ^ｍ _ｎを、符号化部１３による符号化処理の出力であるＢフォーマット信号（中間表現）として取り扱う。以下、この展開係数ベクトルをアンビソニックス領域信号又は単にアンビソニックス信号と称する場合がある。

　より具体的には、符号化部１３による符号化処理では、Ａ／Ｄ変換部１２による変換後の時間領域信号である収録信号をアンビソニックス信号（例えば１次オーダーアンビソニックス信号）へと変換し、このアンビソニックス信号（例えば１次オーダーアンビソニックス信号）は音場再現装置２の第１復号化部２５及び第２復号化部２６のそれぞれによりデコード処理されてスピーカ駆動信号に変換される。

　音場再現装置２は、例えば音場再現空間（例えばサテライト会場ＳＴＬ１）に配置され、音源抽出方向制御部２１と、音源提示方向制御部２２と、再符号化部２３と、スピーカ方向指定部２４と、第１復号化部２５と、第２復号化部２６と、信号混合部２７と、音場再生部２８と、スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８とを含む。なお、以下の説明において、スピーカの配置数は一例として８としているが、２以上の整数であれば８に限定されないことは言うまでもない。

　音源抽出方向制御部２１、音源提示方向制御部２２、再符号化部２３、スピーカ方向指定部２４、第１復号化部２５、第２復号化部２６、信号混合部２７及び音場再生部２８は、例えばＣＰＵ、ＤＳＰ、ＧＰＵ、ＦＰＧＡ等の電子デバイスのうち少なくとも１つが実装された半導体チップ若しくは専用のハードウェアにより構成される。

　信号混合部２７は、第１復号化部２５からの高次基底音響信号に対応するスピーカ駆動信号と、第２復号化部２６からの低次基底音響信号に対応するスピーカ駆動信号とを、スピーカごとに対応するように混合して音場再生部２８に送る。なお、信号混合部２７の構成は音場再現装置２から省略されてもよく、この場合には第１復号化部２５による高次基底音響信号のみが音場再生部２８を介して各スピーカＳＰｋ１～ＳＰｋ８のそれぞれから出力される。

　音場再生部２８は、信号混合部２７による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力（再生）する。

　スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８のそれぞれは、立方体でモデル化される音場再現空間（例えばサテライト会場ＳＴＬ１）の各頂点部分に配置され、音場再生部２８からのスピーカ駆動信号に基づいて音場を再生（再現）する。なお、スピーカ設置数は再現したい音場によって変化させてよく、特定の方位に対する再現を行わない場合や、トランスオーラルシステムやＶＢＡＰ（Ｖｅｃｔｏｒ　Ｂａｓｅｄ　Ａｍｐｌｉｔｕｄｅ　Ｐａｎｎｉｎｇ）法など一般的に知られた仮想音像生成方式を組み合わせることにより８個よりも少ないスピーカを用いて音場再現を行っても良い。逆に、８個よりも多くのスピーカを用いた音場再現を行っても良い。また、スピーカ設置位置はサテライト会場ＳＴＬ１の基準位置（例えば中心位置ＬＳＰ１）を取り囲むように設置されていれば音場再現空間（例えばサテライト会場ＳＴＬ１）の各頂点部分以外であっても良い。音場再生部２８はスピーカの代わりに聴取者（ユーザ）が装着しているヘッドホンやイヤホンなどの両耳への再生装置に信号を出力しても良い。また、音場再生部２８は、聴取者（ユーザ）の両耳への再生装置（例えば、上述したヘッドホンやイヤホン）に信号を供給する際は後述するデコード処理によって方位角＋－９０°に対応した再生信号を生成しても良いし、頭部を包囲する複数の方向に対して仮想音像を生成し、それら複数の角度に対応したＨＲＴＦ（Ｈｅａｄ　Ｒｅｌａｔｅｄ　Ｔｒａｎｓｆｅｒ　Ｆｕｎｃｔｉｏｎ）などの立体音像をユーザに知覚させるための伝達特性を対応した方向の仮想音像に対して周波数領域で乗算又は時間領域で畳み込むことで再生信号を生成しても良い。これにより、サテライト会場ＳＴＬ１に配置されたスピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８のそれぞれからに限った音場再現となるのではなく、サテライト会場ＳＴＬ１に配置された聴取者（ユーザ）が装着している再生装置（例えば、上述したヘッドホンやイヤホン）への音場再現も可能となる。

　ここで、再符号化部２３による再符号化処理、第１復号化部２５及び第２復号化部２６による処理の詳細について説明する。

　次に、図５を参照して、音場再現装置２による音場再現の動作手順について説明する。図５は、実施の形態１に係る音場再現装置２による音場再現の動作手順例を時系列に示すフローチャートである。なお、以下の説明ではステップＳｔ１及びステップＳｔ２の各処理は音場収録装置１内で実行されるとして説明するが、ステップＳｔ２の処理は音場収録装置１のアンビソニックスマイク１１以外の構成が音場再現装置２内に設けられる場合には音場再現装置２により実行されてよい。

　音場再現装置２は、ステップＳｔ２の処理を受けて、ステップＳｔ３～ステップＳｔ６の一連の処理（つまり、高次基底音響信号を生成するための再符号化処理）とステップＳｔ７の処理（つまり、低次基底音響信号を生成するための復号化処理）とを並行して実行する。

　音場再現装置２の信号混合部２７は、ステップＳｔ６での第１復号化部２５からの高次基底音響信号に対応するスピーカ駆動信号（第１復号化処理の出力の一例）と、ステップＳｔ７での第２復号化部２６からの低次基底音響信号に対応するスピーカ駆動信号（第２復号化処理の出力の一例）とを、スピーカごとに対応するように混合する（ステップＳｔ８）。音場再現装置２の音場再生部２８は、ステップＳｔ８での信号混合部２７による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカＳＰｋ１～ＳＰｋ８のそれぞれから出力（再生）する（ステップＳｔ９）。

　また、収録デバイスは、複数のマイク素子Ｍｃ１～Ｍｃ４のそれぞれが異なる方向を向くように立体的に配置されたアンビソニックスマイク１１により構成される。これにより、音場収録装置１は、音場収録空間（ライブ会場ＬＶ１）内の複数の音源による演奏等の雰囲気の音を立体的に収録することができる。

　まず、図６及び図７を参照して、実施の形態２に係る音場再現システム１００Ａのシステム構成並びに動作概要について説明する。図６は、実施の形態２に係る音場再現システム１００Ａのシステム構成例を示すブロック図である。図７は、実施の形態２の音場収録から音場再現までの動作概要例を示す図である。図６及び図７の説明において、対応する図３及び図４の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。

　音場再現システム１００Ａは、音場収録装置１と、音場再現装置２Ａとを含む。音場収録装置１の構成は実施の形態１と同一であるため、説明を省略する。

　音場再現装置２Ａは、例えば音場再現空間（例えばサテライト会場ＳＴＬ１）に配置され、音源抽出方向制御部２１と、音源提示方向制御部２２と、再符号化部２３と、スピーカ方向指定部２４と、第１復号化部２５と、音源取得部２９と、第２符号化部３０と、第２信号混合部３１と、第２復号化部３２と、信号混合部２７と、音場再生部２８と、スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８とを含む。

　音源抽出方向制御部２１、音源提示方向制御部２２、再符号化部２３、スピーカ方向指定部２４、第１復号化部２５、音源取得部２９、第２符号化部３０、第２信号混合部３１、第２復号化部３２、信号混合部２７及び音場再生部２８は、例えばＣＰＵ、ＤＳＰ、ＧＰＵ、ＦＰＧＡ等の電子デバイスのうち少なくとも１つが実装された半導体チップ若しくは専用のハードウェアにより構成される。

　音源取得部２９は、音場再現空間（例えばサテライト会場ＳＴＬ１）に提示したい複数の音源（例えばボーカル、ベース、ギター、ドラム等の各種の音源）の音響信号ｓ１［ｎ］、…、ｓｂ［ｎ］を取得して第２符号化部３０に送る。それぞれの音響信号ｓ１［ｎ］、…、ｓｂ［ｎ］は点音源として表現可能である。ｎは離散時刻を示し、ｂは音源の個数を示す。これらの音源は音場収録空間（ライブ会場Ｌｖ１）で個別に収録されたものであっても良いし、音場収録空間とは関係のない音源であっても良い。

　第２信号混合部３１は、第２符号化部３０による符号化処理により得られた音源ごとの高次基底音響信号（例えばＮ次オーダーアンビソニックス信号）を混合して第２復号化部３２に送る。

　次に、図８を参照して、音場再現装置２Ａによる音場再現の動作手順について説明する。図８は、実施の形態２に係る音場再現装置２Ａによる音場再現の動作手順例を時系列に示すフローチャートである。図８の説明において、図５の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。

　以上により、実施の形態２に係る音場再現装置２Ａは、音場再現空間（サテライト会場ＳＴＬ１）内に提示したい複数の音源信号（例えばボーカル、ベース、ギター、ドラム等の各種の音源からの音信号）のそれぞれを符号化処理して第２高次基底音響信号（Ｎ次オーダーアンビソニックス信号）を生成する第２符号化部３０と、音源信号ごとの第２高次基底音響信号を混合する第２信号混合部３１と、を更に備える。これにより、実施の形態２に係る音場再現装置２Ａは、音場収録空間（ライブ会場ＬＶ１）とは異なり音場再現空間（サテライト会場ＳＴＬ１）において独自に提示したい音源による雰囲気の音を高次基底によって高い方向解像度を有しながら出力することができる。

　まず、図９及び図１０を参照して、実施の形態３に係る音場再現システム１００Ｂのシステム構成並びに動作概要について説明する。図９は、実施の形態３に係る音場再現システム１００Ｂのシステム構成例を示すブロック図である。図１０は、実施の形態３の音場収録から音場再現までの動作概要例を示す図である。図６及び図７の説明において、図３及び図４の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。

　音場再現システム１００Ｂは、音場収録装置１と、音場再現装置２Ｂとを含む。音場収録装置１の構成は実施の形態１と同一であるため、説明を省略する。

　音場再現装置２Ｂは、例えば音場再現空間（例えばサテライト会場ＳＴＬ１）に配置され、音源抽出方向制御部２１Ｂと、参照信号生成部４１と、遅延量指定部４２と、遅延部４３と、適応速度制御部４４と、適応的減算部４５と、スピーカ方向指定部２４Ｂと、スピーカ駆動信号生成部４６と、音場再生部２８Ｂと、スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８とを含む。

　音源抽出方向制御部２１Ｂ、参照信号生成部４１、遅延量指定部４２、遅延部４３、適応速度制御部４４、適応的減算部４５、スピーカ方向指定部２４Ｂ、スピーカ駆動信号生成部４６及び音場再生部２８Ｂは、例えばＣＰＵ、ＤＳＰ、ＧＰＵ、ＦＰＧＡ等の電子デバイスのうち少なくとも１つが実装された半導体チップ若しくは専用のハードウェアにより構成される。

　適応速度制御部４４は、適応的減算部４５が有する適応的フィルタ（例えばＦＩＲ（Ｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）フィルタ）を構成する複数個のタップのタップインデックス（ｌ）に応じた更新速度の特性を、所定の決め方に従って決定する。適応速度制御部４４は、その決定された更新速度の特性を適応的減算部４５の適応的フィルタに設定する。ここでいう更新速度の特性とは、ステップゲイン或いはステップパラメータと呼ばれるものであり、ハイパーパラメータであって動的に変わるものではなく事前に固定しておくものである。適応的フィルタは、現在時刻から過去時刻になるほど入力される参照信号の重みを低くする特性を有する更新速度に従って、参照信号との畳み込み演算に供される。更新速度の特性とは、例えばタップインデックス（ｌ）が０から３２だと１．０の値を有し、タップインデックス（ｌ）が３３から６４だと０．５の値を有し、タップインデックス（ｌ）が６５から９６だと０．２の値を有し、タップインデックス（ｌ）が９７から１２８だと０．１の値を有する等、タップインデックス（ｌ）の増加に伴って階段状に徐々に減衰する特性を有する。つまり、上述した所定の決め方は、このようにタップインデックス（ｌ）の増加（つまり現在時刻から過去時刻に向かう）に従って指数減衰するというヒューリスティックに定めるものである。

　適応的減算部４５は、適応的フィルタ（上述参照、図示略）及び加算回路（図示略）を少なくとも有し、遅延部４３からの出力から参照信号生成部４１からの出力を減算するための減算処理を行うとともに、この減算処理結果を用いたフィードバック制御に基づいて遅延部４３からの出力と参照信号生成部４１からの出力との減算処理を適応的に行う。適応的減算部４５は、適応的な減算処理の出力をスピーカ駆動信号生成部４６に送る。適応的減算部４５による適応的な減算処理の詳細については後述する。

　音場再生部２８Ｂは、スピーカ駆動信号生成部４６によるスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力（再生）する。

　スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８のそれぞれは、立方体でモデル化される音場再現空間（例えばサテライト会場ＳＴＬ１）の各頂点部分に配置され、音場再生部２８からのスピーカ駆動信号に基づいて音場を再生（再現）する。

　ここで、参照信号生成部４１による参照信号の生成処理、適応的減算部４５による適応的な減算処理、スピーカ駆動信号生成部４６によるスピーカ駆動信号の生成処理の詳細について説明する。

　第２パターンの式（２２）で示される更新成分Δｗ［l］は、一般的なＮＬＭＳ（Ｎｏｒｍａｌｉｚｅｄ　Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕｒａｅ）アルゴリズムで使用される。第２パターンの式（２１）において、ｙ_{（ｎ、ｍ）}［ｉ］は式（１９）に示される誤差信号を示し、μ［ｌ］はタップインデックスに対応する適応速度を示し、Ｔは畳み込み演算の対象となる時間幅（区間）、つまりタップ長を示す。

　適応的減算部４５は、式（１９）の演算によって得られた誤差信号ｙ_{（ｎ、ｍ）}［ｉ］を用いたフィードバック制御（つまり、誤差信号ｙ［ｉ］を入力に用いたフィルタ係数の更新が収束するまでの回帰的演算）により、適応的な減算結果の出力信号（γ^{ａｍｂｉｅｎｔ} _{（ｎ、ｍ）}［ｉ］）としてスピーカ駆動信号生成部４６に送る。

　次に、図１１を参照して、音場再現装置２Ｂによる音場再現の動作手順について説明する。図１１は、実施の形態３に係る音場再現装置２Ｂによる音場再現の動作手順例を時系列に示すフローチャートである。図１１の説明において、図５或いは図８の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。

　図１１において、音場再現装置２Ｂは、ステップＳｔ２の処理を受けて、ステップＳｔ２１～ステップＳｔ２２の一連の処理（つまり、参照信号を生成するための処理）とステップＳｔ２３の処理（つまり、１次オーダーアンビソニックス信号への遅延処理）とを並行して実行する。

　まず、図１２及び図１３を参照して、実施の形態４に係る音場再現システム１００Ｃのシステム構成並びに動作概要について説明する。図１２は、実施の形態４に係る音場再現システム１００Ｃのシステム構成例を示すブロック図である。図１３は、実施の形態４の音場収録から音場再現までの動作概要例を示す図である。図１２及び図１３の説明において、図３、図４、図９及び図１０の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。

　音場再現システム１００Ｃは、音場収録装置１と、音場再現装置２Ｃとを含む。音場収録装置１の構成は実施の形態１と同一であるため、説明を省略する。

　音場再現装置２Ｃは、例えば音場再現空間（例えばサテライト会場ＳＴＬ１）に配置され、音源抽出方向制御部２１Ｂと、音源提示方向制御部２２Ｃと、参照信号生成部４１と、遅延量指定部４２と、遅延部４３と、適応速度制御部４４と、適応的減算部４５と、第２遅延部４７と、第３符号化部４８と、スピーカ方向指定部２４Ｂと、スピーカ駆動信号生成部４６と、スピーカ駆動信号生成部４９と、信号混合部５０と、音場再生部２８Ｃと、スピーカＳＰｋ１、ＳＰｋ２、…、ＳＰｋ８とを含む。

　音源抽出方向制御部２１Ｂ、音源提示方向制御部２２Ｃ、参照信号生成部４１、遅延量指定部４２、遅延部４３、適応速度制御部４４、適応的減算部４５、第２遅延部４７、第３符号化部４８、スピーカ方向指定部２４Ｂ、スピーカ駆動信号生成部４６、スピーカ駆動信号生成部４９、信号混合部５０及び音場再生部２８Ｃは、例えばＣＰＵ、ＤＳＰ、ＧＰＵ、ＦＰＧＡ等の電子デバイスのうち少なくとも１つが実装された半導体チップ若しくは専用のハードウェアにより構成される。

　第２遅延部４７は、参照信号生成部４１からの参照信号を入力するとともに、その入力された参照信号に、遅延量指定部４２により指定される遅延量と同一の遅延量を付与する遅延処理を施す。第２遅延部４７は、その遅延処理後の参照信号を出力として第３符号化部４８に送る。

　信号混合部５０は、スピーカ駆動信号生成部４９からの高次基底音響信号に対応するスピーカ駆動信号と、スピーカ駆動信号生成部４６からのスピーカ駆動信号とを、スピーカごとに対応するように混合して音場再生部２８Ｃに送る。

　音場再生部２８Ｃは、信号混合部５０による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力（再生）する。

　ここで、第３符号化部４８による符号化処理、スピーカ駆動信号生成部４９によるスピーカ駆動信号の生成処理の詳細について説明する。

　次に、図１４を参照して、音場再現装置２Ｃによる音場再現の動作手順について説明する。図１４は、実施の形態４に係る音場再現装置２Ｃによる音場再現の動作手順例を時系列に示すフローチャートである。図１４の説明において、図５、図８或いは図１１の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。

　以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。

　なお、本出願は、２０２２年９月２８日出願の日本特許出願（特願２０２２－１５５１６７）に基づくものであり、その内容は本出願の中に参照として援用される。

　本開示は、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧し、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現する音場再現装置、音場再現方法及び音場再現システムとして有用である。

　１　音場収録装置
　２、２Ａ、２Ｂ、２Ｃ　音場再現装置
　１１　アンビソニックスマイク
　１２　Ａ／Ｄ変換部
　１３　符号化部
　１４　マイク素子方向指定部
　２１、２１Ｂ　音源抽出方向制御部
　２２　音源提示方向制御部
　２３　再符号化部
　２４、２４Ｂ　スピーカ方向指定部
　２５　第１復号化部
　２６　第２復号化部
　２７　信号混合部
　２８、２８Ｂ　音場再生部
　２９　音源取得部
　３０　第２符号化部
　３１　第２信号混合部
　４１　参照信号生成部
　４２　遅延量指定部
　４３　遅延部
　４４　適応速度制御部
　４５　適応的減算部
　４６　スピーカ駆動信号生成部
　４７　第２遅延部
　４８　第３符号化部
　１００、１００Ａ、１００Ｂ、１００Ｃ　音場再現システム
　ＳＰｋ１、ＳＰｋ２、ＳＰｋ３、ＳＰｋ４、ＳＰｋ５、ＳＰｋ６、ＳＰｋ７、ＳＰｋ８
　スピーカ

Claims

　収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、
　前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、
　前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、
　前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、
　前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、
　音場再現装置。
　前記音源抽出方向を用いて前記低次基底音響信号を符号化処理することにより、前記音源抽出方向の前記参照信号を生成する参照信号生成部、を更に備える、
　請求項１に記載の音場再現装置。
　前記減算部は、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算結果を用いたフィードバック制御に基づいて前記減算処理を適応的に行う、
　請求項１に記載の音場再現装置。
　前記音源抽出方向は、前記音場収録空間内の基準位置からの３次元方向として指定される、
　請求項１に記載の音場再現装置。
　前記参照信号に前記所定量の遅延処理を施す第２遅延部と、
　前記音源抽出方向と同一又は異なる方向であって、前記音場再現空間内での音場再現の強調方向である音源提示方向の指定を受ける音源提示方向制御部と、
　前記音源提示方向を用いて前記所定量の遅延処理が施された参照信号を符号化することにより、前記音源提示方向に対応する高次基底音響信号を生成する符号化部と、を更に備える、
　請求項１に記載の音場再現装置。
　前記高次基底音響信号と前記複数のスピーカのそれぞれの配置情報とを用いて、前記スピーカごとの高次基底成分を有する第２スピーカ駆動信号を生成する第２スピーカ駆動信号生成部、を更に備える、
　請求項５に記載の音場再現装置。
　前記スピーカ駆動信号と前記第２スピーカ駆動信号とを前記スピーカごとに混合する信号混合部、を更に備え、
　前記音場再生部は、前記信号混合部による混合後の信号を前記スピーカごとに出力する、
　請求項６に記載の音場再現装置。
　前記音源提示方向は、前記音場収録空間内の基準位置からの３次元方向として指定される、
　請求項５に記載の音場再現装置。
　収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受けるステップと、
　前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施すステップと、
　前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行うステップと、
　前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するステップと、
　前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力するステップと、を有する、
　音場再現方法。
　音場収録空間内の音源を収録可能な収録デバイスを有する音場収録装置と、
　前記収録デバイスにより収録された音響信号を、前記音場収録空間とは異なる音場再現空間内で再現する音場再現装置と、を備え、
　前記音場再現装置は、
　前記収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、
　前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、
　前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、
　前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、
　前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、
　音場再現システム。
　前記収録デバイスは、複数のマイク素子のそれぞれが異なる方向を向くように立体的に配置されたアンビソニックスマイクにより構成される、
　請求項１０に記載の音場再現システム。