WO2019065447A1

WO2019065447A1 - 音響信号のミキシング装置及びコンピュータ可読記憶媒体

Info

Publication number: WO2019065447A1
Application number: PCT/JP2018/034801
Authority: WO
Inventors: 堀内　俊治
Original assignee: Kddi株式会社
Priority date: 2017-09-29
Filing date: 2018-09-20
Publication date: 2019-04-04
Also published as: JP6841743B2; US10951984B2; US20200162816A1; JP2019068210A

Abstract

複数のマイクロフォンで収音した音響信号をミキシングするミキシング装置は、前記複数のマイクロフォンの配置位置に基づき決定される前記複数のマイクロフォンの２つのマイクロフォンの組それぞれに対応して設けられ、対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理して第１音響信号と第２音響信号を出力する様に構成された処理部と、各組に対応する前記処理部が出力する前記第１音響信号を加算して出力する様に構成された第１加算部と、各組に対応する前記処理部が出力する前記第２音響信号を加算して出力する様に構成された第２加算部と、を備え、前記処理部は、音場の拡縮率を決定する拡縮係数と、音場のシフト量を決定するシフト係数と、マイクロフォンが出力する音響信号の減衰量を決定する減衰係数と、に基づき対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理する。

Description

音響信号のミキシング装置及びコンピュータ可読記憶媒体

　本発明は、複数のマイクロフォンで収音した音響信号のミキシング技術に関する。

　現在、ヘッドマウントディスプレイを使用したバーチャルリアリティ（ＶＲ）システムが提供されている。この様なＶＲシステムにおいては、ヘッドマウントディスプレイを装着したユーザの視野に相当する映像をディスプレイに表示する。

　これら映像と共にヘッドマウントディスプレイのスピーカから出力される音は、例えば、複数のマイクロフォン（以下、マイクと呼ぶ。）により収音される。図１は、この収音方法の一例を示す図である。図１によると、マイク５１～５８の計８個のマイクが、位置６０を中心とする所定半径の円周上に配置されている。マイク５１～マイク５８のそれぞれが収音した音響信号をそのままミキシングしてスピーカに出力すると、マイク５１～マイク５８のそれぞれが収音した音が同じレベルでスピーカから出力される。例えば、ヘッドマウントディスプレイに、図１の参照符号６１及び６２で示す範囲の映像が表示されているときにマイク５１～マイク５８のそれぞれが収音した音を同じレベルで再生すると、ユーザが見ている範囲と、音場の範囲とに乖離が生じる。

　特許文献１は、音場の伸縮率に基づき２つのマイクにより収音した音響信号を処理して右（Ｒ）チャネルと左（Ｌ）チャネルの２つの音響信号を生成し、Ｒチャネル及びＬチャネルの２つの音響信号で１組のスピーカを駆動することで、音場の範囲を調整する構成を開示している。

特許第３９０５３６４号公報

　特許文献１は、２つのマイクで収音した音響信号の音場の範囲を調整することを開示しているが、３つ以上のマイクで収音した音響信号の音場の範囲を調整することを開示してはいない。

　本発明の一態様によると、複数のマイクロフォンで収音した音響信号をミキシングするミキシング装置は、前記複数のマイクロフォンの配置位置に基づき決定される前記複数のマイクロフォンの２つのマイクロフォンの組それぞれに対応して設けられ、対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理して第１音響信号と第２音響信号を出力する様に構成された処理部と、各組に対応する前記処理部が出力する前記第１音響信号を加算して出力する様に構成された第１加算部と、各組に対応する前記処理部が出力する前記第２音響信号を加算して出力する様に構成された第２加算部と、を備え、前記処理部は、音場の拡縮率を決定する拡縮係数と、音場のシフト量を決定するシフト係数と、マイクロフォンが出力する音響信号の減衰量を決定する減衰係数と、に基づき対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理する。

収音方法の一例を示す図。一実施形態によるミキシング装置の構成図。一実施形態による音響信号処理部の構成図。一実施形態による処理部での処理の説明図。一実施形態による処理部での処理の説明図。一実施形態による処理部での処理の説明図。一実施形態による区間の説明図。一実施形態による各係数決定の説明図。一実施形態による各係数決定の説明図。

　以下、本発明の例示的な実施形態について図面を参照して説明する。なお、以下の実施形態は例示であり、本発明を実施形態の内容に限定するものではない。また、以下の各図においては、実施形態の説明に必要ではない構成要素については図から省略する。

　図２は、本実施形態によるミキシング装置１０の構成図である。ミキシング装置１０の音響信号処理部１１には、複数のマイク５０それぞれから音響信号が入力される。複数のマイク５０は、例えば、図１に示す様に、位置６０を中心とする所定半径の円周上に配置される。なお、円周上でなく、例えば、直線上や、任意の曲線状等、地理的に異なる位置に複数のマイク５０を配置する構成であっても良い。また、位置６０に複数の指向性のマイクをそれぞれ異なる方向に向けて配置して収音することもできる。音響信号処理部１１は、複数のマイク５０それぞれからの音響信号に基づき右チャネル（Ｒ）の音響信号（以下、音響信号Ｒ）と左チャネル（Ｌ）の音響信号（以下、音響信号Ｌ）の２つの音響信号を出力する。これら２つの音響信号は、１組のスピーカを駆動するために使用される。

　まず、図３を用いて、音響信号処理部１１について説明する。本実施形態において、配置位置が隣り合うマイク５０を１つの組とする。例えば、図１の配置においては、マイク５１とマイク５２が１つの組であり、マイク５２とマイク５３が１つの組である。以下、同様に、マイク５７とマイク５８が１つの組であり、マイク５８とマイク５１が１つの組である。つまり、図１の配置においては計８個の組ができる。この様に、閉じた曲線状に複数のマイクを配置する場合、Ｎ個のマイクに対してＮ個の組ができる。一方、直線状に複数のマイクを配置する等、閉じていない線状に複数のマイクを配置する場合には、Ｎ個のマイクに対して（Ｎ－１）個の組ができる。なお、閉じた曲線状に複数のマイクを配置する場合であっても、その一部の区間にマイクを配置する場合には、Ｎ個のマイクに対して（Ｎ－１）個の組を生成する構成とすることもできる。

　音響信号処理部１１には、図３に示す様に、組数に応じた処理部が設けられる。図３においては、第１処理部～第Ｎ処理部の計Ｎ個の処理部が設けられている。なお、第１処理部～第Ｎ処理部における処理は同様である。処理部は、処理対象の組の２つのマイクから入力される音響信号に基づき右チャネルの音響信号Ｒと、左チャネルの音響信号Ｌを出力する。

　以下、処理部での処理について説明する。まず、マイクＡが収音した音響信号を音響信号Ａと呼び、マイクＢが収音した音響信号を音響信号Ｂと呼び、処理部には、音響信号Ａ及び音響信号Ｂが入力されるものとする。処理部は、音響信号Ａ及び音響信号Ｂを所定の時間区間毎に離散フーリエ変換する。以下では、音響信号Ａ及び音響信号Ｂを離散フーリエ変換した周波数領域の信号を、それぞれ、信号Ａ及び信号Ｂとする。処理部は、以下の式（１）により信号Ａ及び信号Ｂから周波数領域の信号Ｒ（右チャネル）及び信号Ｌ（左チャネル）を生成する。なお、式（１）で示す処理は、信号Ａ及び信号Ｂそれぞれの各周波成分（ビン）に対して行われる。そして、処理部は、周波数領域の信号Ｒ及び信号Ｌを離散逆フーリエ変換して、音響信号Ｒと音響信号Ｌの２つの音響信号を出力する。Ｒ合成部は、第１処理部～第Ｎ処理部のそれぞれが出力する音響信号Ｒを加算して１つの音響信号Ｒを出力する。同様に、Ｌ合成部は、第１処理部～第Ｎ処理部のそれぞれが出力する音響信号Ｌを加算して１つの音響信号Ｌを出力する。Ｒ合成部及びＬ合成部が出力する音響信号Ｒ及び音響信号Ｌは、上述した様に、それぞれ、Ｒチャネルのスピーカ及びＬチャネルのスピーカを駆動するために使用される。

　式（１）において、ｆは処理対象の周波数（ビン）であり、Φは２つの音響信号Ａ及び音響信号Ｂの偏角の主値である。したがって、式（１）においてｆ及びΦは処理対象の音響信号Ａ及び音響信号Ｂに応じて決まる値である。一方、式（１）において、ｍ_１、ｍ_２、τ及びκは係数決定部が決定して処理部それぞれに通知する変数である。以下、それぞれの変数の技術的な意味について説明する。

　ｍ_１及びｍ_２は減衰係数であり０以上１以下の値である。なお、ｍ_１は信号Ａの減衰量を決定し、ｍ_２は信号Ｂの減衰量を決定する。以下では、ｍ_１をマイクＡの減衰係数と呼び、ｍ_２をマイクＢの減衰係数と呼ぶものとする。

　κはスケーリング（拡縮）係数であり、音場の範囲を決定する。なお、スケーリング係数κは、０以上２以下の値である。例えば、図４Ａに示す様に、マイクＡとマイクＢが配置されているものとする。ここで、ｍ_１及びｍ_２を１に設定し、τを０に設定するものとする。つまり、行列Ｍ及びＴについては、信号Ａ及び信号Ｂを何ら変化させない値に設定するものとする。このときに、κを１とすると、信号Ｒ＝信号Ａ及び信号Ｌ＝信号Ｂとなる。つまり、信号Ｒ及び信号Ｌは、信号Ａと信号Ｂと同じであり、よって、信号Ｒ及び信号Ｌを離散逆フーリエ変換して得られる音響信号Ｒ及び音響信号Ｌは、それぞれ、マイクＡ及びマイクＢが収音した時間領域の信号と同じである。したがって、例えば、マイクＡ及びマイクＢの位置にスピーカを置いて音響信号Ｒ及び音響信号Ｌでそれぞれを駆動すると、マイクＡ及びＢが配置されている方向における音場の範囲は図４Ａの様に、マイクＡ及びマイクＢの収音範囲と同等になる。例えば、音源Ｃ及びＤが図４Ａに示す位置あるものとする。なお、位置６３は、マイクＡとマイクＢとを結ぶ直線の中間位置である。この場合、再生される音において、音源Ｃ及び音源Ｄの音像の位置は、音源Ｃ及び音源Ｄの配置位置と同じ位置となる。

　一方、ｍ_１及びｍ_２を１に設定し、τを０に設定したときに、κを１より小さくすると、図４Ｂに示す様に、音場の範囲はκが１のときより短くなる。このとき、例えば、マイクＡ及びＢの位置にスピーカを置いて音響信号Ｒ及び音響信号Ｌで駆動すると、音源Ｃの音像の位置は、音源Ｃの配置位置と同じ中間位置６３になる。しかしながら、音源Ｄの音像の位置は、音源Ｄの配置位置より中間位置６３に近づく様になる。逆に、κを１より大きくすると、音場の範囲はκが１のときより長くなる。この様に、スケーリング係数κは音場の範囲を拡大・縮小させる係数である。

　τはシフト係数であり、－ｘ～＋ｘの範囲の値をとる。上述した様にτ＝０のとき、行列Ｔは、信号Ａ及び信号Ｂに何ら影響を与えない。一方、τ＝０以外のとき、行列Ｔは、信号Ａ及び信号Ｂにそれぞれ同じ絶対値で異なる符号の位相変化を与える。したがって、音像の位置がτの値に応じてマイクＡ又はマイクＢの方向にシフトする。なお、シフトの方向は、τの正負に応じて決定され、τの絶対値が大きくなる程、そのシフト量は大きくなる。図４Ｃは、図４Ｂに示す音場の範囲となる様なκとしたうえで、τを０以外の値に設定したときの音場の範囲を示している。音源Ｃ及びＤの音像の位置は、図４Ｂに示すときから図の左側にシフトしている。つまり、音場が左側にシフトしている。なお、図４Ａ～図４Ｃにおいては、説明のためスピーカをマイクＡ及びマイクＢの位置に置くものとしたが、ＲチャネルとＬチャネルの２つのスピーカを設置する距離は任意の距離とすることができる。この場合、音場の範囲はスピーカの配置距離に応じたものにもなる。

　上述した様に、音響処理部１１の係数決定部は、第１処理部～第Ｎ処理部それぞれの係数、つまり、ｍ_１、ｍ_２、τ及びκを決定し、第１処理部～第Ｎ処理部に通知する。以下、音響処理部１１の係数決定部が、各処理部の係数をどの様に決定するかについて説明する。係数決定部には、区間判定部１２（図２）より区間を示す区間情報が入力される。区間情報は、複数のマイクが配置された直線又は曲線に沿った区間で示される。例えば、図１に示す様に、マイク５１～５８が円周上に配置されており、その中心位置における角度とその方向をユーザ指定したものとする。つまり、線６１と線６２との間の範囲をユーザが指定したものとする。この場合、図５に示す様に、複数のマイクが配置された円周と線６１及び線６２との２つの交点の範囲である区間６４が区間情報により示されることになる。なお、図５においては、説明の簡略化のため、円周の形状を直線で示している。

　音響処理部１１の係数決定部は、複数のマイクそれぞれの配置位置を示す情報を保持しており、区間情報が示す区間６４と、マイクの配置位置に基づきマイクの組を分類する。図６Ａ及び図６Ｂは、組の分類の説明図である。図６Ａ及び図６Ｂの丸はマイクをそれぞれ示している。まず、係数決定部は、区間６４内に少なくとも１つのマイクが含まれるか否かを判定する。区間６４内に少なくとも１つのマイクが含まれる場合、係数決定部は、図６Ａに示す様に、区間６４に２つのマイクが含まれる組を第１組とし、区間６４には２つのマイクが共に含まれない組を第２組とし、区間６４に１つのマイクが含まれるが他方のマイクが区間６４に含まれない組を第３組とする。一方、区間６４内にマイクが１つも含まれない場合、係数決定部は、図６Ｂに示す様に、区間６４に最も近い２つのマイクの組を第３組とし、それ以外のマイクの組を第２組とする。

　以下、第１組から第３組それぞれについて、対応する処理部が使用する係数をどの様に決定するかについて説明する。なお、以下では、ある組の処理部が使用する係数を、単に、「組の係数」と表現する。また、第３組の２つのマイクの間における区間６４の長さを、図６Ａ及び図６Ｂに示す様にＬ１とし、この長さＬ１の区間を重複区間と呼ぶものとする。また、第３組の２つのマイクの間における区間６４以外の区間を非重複区間と呼ぶものとする。図６Ａの場合、距離Ｌ２で示す区間が非重複区間であり、図６Ｂにおいては、区間６４の両側に２つの非重複区間が存在する。

　係数決定部は、第１組については、例えば、τは０とし、κを１とし、減衰係数については２つのマイクとも１にする。つまり、音場の拡縮、シフトを行わせず、減衰量については２つのマイクが収音する音響信号共、減衰させない値とする。

　一方、係数決定部は、第３組のスケーリング係数κと、シフト係数τについては、音場の範囲が重複区間に応じたものとなる様に決定する。つまり、係数決定部は、第３組のスケーリング係数κを、重複区間の長さＬ１に基づき決定する。具体的には、例えば、第３組の２つのマイク間の距離Ｌとすると、Ｌ１／Ｌの拡縮率となる様に当該第３組に対するスケーリング係数κを決定する。したがって、係数決定部は、第３組の重複区間の長さが短くなる程、音場の範囲を短くする様に当該第３組のスケーリング係数κを決定する。また、係数決定部は、重複区間の中心位置に音場の中心位置がくるように第３組のシフト係数τを決定する。したがって、係数決定部は、２つのマイクの配置位置の中心と重複区間の中心との距離に応じて第３組のシフト係数を決定する。また、係数決定部は、第３組の２つのマイクの減衰係数をそれぞれ１に設定する。あるいは、係数決定部は、第３組のうち、区間６４に含まれるマイクの減衰係数を１、又は、第１組の２つのマイクの減衰係数と同じ値にし、区間６４に含まれないマイクの減衰係数については、区間６４に含まれるマイクの減衰量より大きい減衰量となる様に減衰係数を設定する。あるいは、係数決定部は、第３組の区間６４に含まれないマイクの減衰係数については、非重複区間の長さ、つまり、マイクの配置位置から区間６４までの最短距離Ｌ２が大きくなる程、減衰量が大きくなる様に設定することができる。

　さらに、係数決定部は、第２組については、第１組と同様に、例えば、τは０とし、κを１とする。しかしながら、２つのマイクの減衰係数については、第１組及び第３組のマイクに対して設定した減衰係数より減衰量が大きくなる値に設定する。一例として、係数決定部は、第２組の２つのマイクの減衰係数を減衰量が最大となる値、つまり、０に設定、或いは、０に近い所定の値に設定する。

　例えば、図５の区間６４の場合、マイク５１とマイク５２の組と、マイク５２とマイク５３の組は共に第３組であり、その他の組は総て第２組となる。上記の通りに各係数を決定することで、マイク５１とマイク５２の位置に音源があるとしたとき（以下、音源５１と音源５２と呼ぶ。）、音源５１の音像の位置が位置６１になり、音源５２の音像の位置が位置６５となる。同様に、マイク５３とマイク５２の位置に音源があるとしたとき（以下、音源５３と音源５２と呼ぶ）、音源５３の音像の位置が位置６２になり、音源５２の音源の位置が位置６５となる。また、第２組のマイクに対する減衰量は大きいためこれらの組からの音響信号は、音響信号処理部１１が出力する音響信号Ｒ及び音響信号Ｌには殆ど含まれなくなる。以上の構成により、音響信号処理部１１が出力する音響信号Ｒ及び音響信号Ｌでステレオスピーカを駆動すると、ユーザが指定した区間に対応する音場が再現できる。

　最後に、区間判定部１２は、ユーザ操作に基づき区間を判定する。例えば、ユーザが区間を直接指定する場合、区間判定部１２は、ユーザが区間を指定する操作を受け付ける受付部として機能する。この場合、ユーザが指定した区間を音響信号処理部１１に出力する。一方、例えば、ＶＲのヘッドマウントディスプレイでの映像の視聴や、３６０度パノラマ映像のタブレットでの視聴に適用する場合、区間判定部１２は、ユーザが見ている映像の範囲に基づき区間を計算し、計算した区間を音響信号処理部１１に出力する。

　本発明によるミキシング装置１０は、プロセッサ及び記憶部を含むコンピュータを上記ミキシング装置１０として動作させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータ可読記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。コンピュータプログラムは、記憶部に記憶され、プロセッサが当該プログラムを実行することで、図２の各部の機能が実現される。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

Claims

　複数のマイクロフォンで収音した音響信号をミキシングするミキシング装置であって、
　前記複数のマイクロフォンの配置位置に基づき決定される前記複数のマイクロフォンの２つのマイクロフォンの組それぞれに対応して設けられ、対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理して第１音響信号と第２音響信号を出力する様に構成された処理部と、
　各組に対応する前記処理部が出力する前記第１音響信号を加算して出力する様に構成された第１加算部と、
　各組に対応する前記処理部が出力する前記第２音響信号を加算して出力する様に構成された第２加算部と、
を備えており、
　前記処理部は、音場の拡縮率を決定する拡縮係数と、音場のシフト量を決定するシフト係数と、マイクロフォンが出力する音響信号の減衰量を決定する減衰係数と、に基づき対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理する、ミキシング装置。
　ユーザ操作を受け付ける様に構成された受付部と、
　前記ユーザ操作に基づき各組を分類し、各組の分類結果に基づき前記処理部それぞれが使用する前記拡縮係数、前記シフト係数及び前記減衰係数を決定する様に構成された決定部と、
をさらに備えている、請求項１に記載のミキシング装置。
　前記複数のマイクロフォンは所定の線上に沿って配置され、前記組の前記２つのマイクロフォンは、前記所定の線上において隣り合うマイクロフォンであり、
　前記ユーザ操作は、前記所定の線上における区間を指定する操作であり、
　前記決定部は、
　前記区間内に少なくとも１つのマイクロフォンが含まれる場合、前記区間内に２つのマイクロフォンが含まれる組を第１組、前記区間内に２つのマイクロフォンが含まれない組を第２組、前記区間内に１つのマイクロフォンのみが含まれる組を第３組に分類し、
　前記区間内に１つもマイクロフォンが含まれない場合、前記区間の両端それぞれに最も近い２つのマイクロフォンの組を前記第３組に分類し、それ以外の組を前記第２組に分類する様にさらに構成されている、請求項２に記載のミキシング装置。
　前記決定部は、前記第１組及び前記第２組に対応する前記処理部が使用する前記拡縮係数を音場の拡縮が無い値に決定し、前記第１組及び前記第２組に対応する前記処理部が使用するシフト係数を音場のシフトが無い値に決定する様にさらに構成されている、請求項３に記載のミキシング装置。
　前記決定部は、前記第３組に対応する前記処理部が使用する前記拡縮係数を、前記第３組の２つのマイクロフォンの間における前記区間の長さに応じて決定し、前記第３組に対応する前記処理部が使用するシフト係数を、前記第３組の２つのマイクロフォンの配置位置の中心と、前記第３組の２つのマイクロフォンの間における前記区間の中心との距離に応じて決定する様にさらに構成されている、請求項３に記載のミキシング装置。
　前記決定部は、前記第１組の２つのマイクロフォンが出力する２つの音響信号の減衰係数及び前記第３組の２つのマイクロフォンが出力する２つの音響信号の減衰係数を、前記第２組の２つのマイクロフォンが出力する２つの音響信号の減衰係数より減衰量が小さくなる値に決定する様にさらに構成されている、請求項３に記載のミキシング装置。
　前記決定部は、前記第１組の２つのマイクロフォンが出力する２つの音響信号の減衰係数を減衰量が０となる値に決定する様にさらに構成されている、請求項３に記載のミキシング装置。
　前記決定部は、前記第３組の前記区間内に含まれるマイクロフォンが出力する音響信号の減衰係数を、前記第１組の２つのマイクロフォンが出力する２つの音響信号の減衰係数と同じにする様にさらに構成されている、請求項６に記載のミキシング装置。
　前記決定部は、前記第３組の前記区間内に含まれないマイクロフォンが出力する音響信号の減衰係数を、前記第１組の２つのマイクロフォンが出力する２つの音響信号の減衰係数より減衰量が大きくなる値に決定する様にさらに構成されている、請求項６に記載のミキシング装置。
　前記決定部は、前記第３組の前記区間内に含まれないマイクロフォンが出力する音響信号の減衰係数を、前記区間との距離に応じて決定する様にさらに構成されている、請求項９に記載のミキシング装置。
　前記決定部は、前記第２組の２つのマイクロフォンが出力する２つの音響信号の減衰係数を減衰量が最大となる値に決定する様にさらに構成されている、請求項６に記載のミキシング装置。
　コンピュータプログラムを格納するコンピュータ可読記憶媒体であって、
　前記コンピュータプログラムは、１つ以上のプロセッサを有する装置の前記１つ以上のプロセッサで実行されると、前記装置に、
　複数のマイクロフォンの配置位置に基づき決定される前記複数のマイクロフォンの２つのマイクロフォンの組それぞれについて、前記組の前記２つのマイクロフォンが出力する音響信号を処理して第１音響信号と第２音響信号を出力することと、
　各組について出力された前記第１音響信号を加算して出力することと、
　各組について出力された前記第２音響信号を加算して出力することと、
を実行させる命令を含み、
　前記第１音響信号と前記第２音響信号を出力することは、音場の拡縮率を決定する拡縮係数と、音場のシフト量を決定するシフト係数と、マイクロフォンが出力する音響信号の減衰量を決定する減衰係数と、に基づき対応する前記組の前記２つのマイクロフォンが出力する音響信号を処理することを含む、コンピュータ可読記憶媒体。