JPWO2018203471A1

JPWO2018203471A1 - 符号化装置及び符号化方法

Info

Publication number: JPWO2018203471A1
Application number: JP2019515692A
Authority: JP
Inventors: 江原　宏幸; 宏幸江原; 明久川村; カイウ; スリカンスナギセティ; スアホンネオ
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-05-01
Filing date: 2018-04-17
Publication date: 2019-12-19
Anticipated expiration: 2038-04-17
Also published as: US10777209B1; US20200294512A1; JP6811312B2; WO2018203471A1

Abstract

音源推定部（１０１）は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定し、スパース音場分解部（１０２）は、空間のうちの音源が存在すると推定された第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、第１の粒度でスパース音場分解処理を行って、音響信号を音源信号と環境雑音信号とに分解する。【選択図】図２

Description

本開示は、符号化装置及び符号化方法に関する。

波面合成符号化技術として、波面合成符号化を時空間周波数領域で行う方法が提案されている（例えば、特許文献１を参照）。

また、立体音響に対して主要音源成分と環境音成分とに分離符号化する高能率符号化のモデル（例えば、特許文献２を参照）を波面合成に適用し、スパース音場分解（sparse sound field decomposition）を用いて、マイクロホンアレイで観測される音響信号を、少数の点音源（monopole source）と点音源以外の残差成分とに分離して波面合成を行う方法が提案されている（例えば、特許文献３を参照）。

米国特許第８，２１９，４０９号明細書特表２０１５−５３７２５６号公報特開２０１５−１７１１１１号公報

M. Cobos, A. Marti, and J. J. Lopez. "A modified SRP-PHAT functional for robust real-time sound source localization with scalable spatial sampling." IEEE Signal Processing Letters 18.1 (2011): 71-74 Koyama, Shoichi, et al. "Analytical approach to wave field reconstruction filtering in spatio-temporal frequency domain." IEEE Transactions on Audio, Speech, and Language Processing 21.4 (2013): 685-696

しかしながら、特許文献１では、音場情報を全て符号化するため、演算量が膨大となる。また、特許文献３では、スパース分解を用いて点音源を抽出する際に、分析対象となる空間内の点音源が存在し得る全ての位置（格子点（grig point））を用いた行列演算が必要となり、演算量が膨大となる。

本開示の一態様は、低演算量で音場のスパース分解を行うことができる符号化装置及び符号化方法の提供に資する。

本開示の一態様に係る符号化装置は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定する推定回路と、前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、を具備する構成を採る。

本開示の一態様に係る符号化方法は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定し、前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の一態様によれば、低演算量で音場のスパース分解を行うことができる。

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

実施の形態１に係る符号化装置の一部の構成例を示すブロック図実施の形態１に係る符号化装置の構成例を示すブロック図実施の形態１に係る復号装置の構成例を示すブロック図実施の形態１に係る符号化装置の処理の流れを示すフロー図実施の形態１に係る音源推定処理及びスパース音場分解処理の説明に供する図実施の形態１に係る音源推定処理の説明に供する図実施の形態１に係るスパース音場分解処理の説明に供する図音場の空間全てに対してスパース音場分解処理を行う場合の説明に供する図実施の形態２に係る符号化装置の構成例を示すブロック図実施の形態２に係る復号装置の構成例を示すブロック図実施の形態３に係る符号化装置の構成例を示すブロック図実施の形態４の方法１に係る符号化装置の構成例を示すブロック図実施の形態４の方法２に係る符号化装置の構成例を示すブロック図実施の形態４の方法２に係る復号装置の構成例を示すブロック図

以下、本開示の実施の形態について図面を参照して詳細に説明する。

なお、以下では、符号化装置において、スパース分解を用いて点音源を抽出する際の分析対象となる空間（音場）内の点音源が存在する可能性のある位置を表す格子点数を「Ｎ」個とする。

また、符号化装置は、「Ｍ」個のマイクロホンを含むマイクロホンアレイを備える（図示せず）。

また、各マイクロホンで観測される音響信号を「ｙ」（∈C^M）と表す。また、音響信号ｙに含まれる、各格子点における音源信号成分（モノポール音源成分の分布）を「ｘ」（∈C^N）と表し、音源信号成分以外の残りの成分である環境雑音信号（残差成分）を「ｈ」（∈C^M）と表す。

すなわち、次式（１）に示すように、音響信号ｙは、音源信号ｘと環境雑音信号ｈとで表される。すなわち、符号化装置は、スパース音場分解において、マイクロホンアレイで観測される音響信号ｙを、音源信号ｘと環境雑音信号ｈとに分解する。

なお、Ｄ（∈C^M×N）は、各マイクロホンアレイと各格子点との間の伝達関数（例えば、グリーン関数）を要素とするＭ×Ｎの行列（dictionary matrix）である。行列Ｄは、例えば、符号化装置において、各マイクロホンと各格子点との位置関係に基づいて、少なくともスパース音場分解の前に求められていればよい。

ここで、スパース音場分解の対象となる空間において、ほとんどの格子点における音源信号成分ｘがゼロとなり、少数の格子点の音源信号成分ｘが非ゼロとなる特性（スパース性。sparsity constraint）を仮定する。例えば、スパース音場分解では、スパース性を利用して、次式（２）で示される基準を満たす音源信号成分ｘを得る。

関数Ｊ_p,q(x)は、音源信号成分ｘのスパース性を生じさせるためのペナルティ関数を示し、λは、ペナルティと近似誤差とのバランスを取るパラメータである。

なお、本開示におけるスパース音場分解の具体的な処理については、例えば、特許文献３に示された方法を用いて行われればよい。ただし、本開示において、スパース音場分解の方法は、特許文献３に示された方法に限定されず、他の方法でもよい。

ここで、スパース音場分解アルゴリズム（例えば、Ｍ−ＦＯＣＵＳＳ／Ｇ−ＦＯＣＵＳＳ又は最小ノルム解に基づく分解など）では、分析対象となる空間内の全ての格子点を用いた行列演算（逆行列など複素行列演算）が必要となるため、点音源を抽出する場合には演算量が膨大になってしまう。特に、格子点の個数Ｎが多くなるほど、式(1)に示す音源信号成分ｘのベクトルの次元が大きくなり、演算量がより大きくなってしまう。

そこで、本開示の各実施の形態では、スパース音場分解の低演算量化を図る方法について説明する。

（実施の形態１）
［通信システムの概要］
本実施の形態に係る通信システムは、符号化装置（encoder）１００及び復号装置（decoder）２００を備える。

図１は、本開示の各実施の形態に係る符号化装置１００の一部の構成を示すブロック図である。図１に示す符号化装置１００において、音源推定部１０１は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定し、スパース音場分解部１０２は、空間のうちの音源が存在すると推定された第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、第１の粒度でスパース音場分解処理を行って、音響信号を音源信号と環境雑音信号とに分解する。

［符号化装置の構成］
図２は、本実施の形態に係る符号化装置１００の構成例を示すブロック図である。図２において、符号化装置１００は、音源推定部１０１と、スパース音場分解部１０２と、オブジェクト符号化部１０３と、空間時間フーリエ変換部１０４と、量子化器１０５と、を含む構成を採る。

図２において、符号化装置１００のマイクロホンアレイ（図示せず）から音響信号ｙが音源推定部１０１及びスパース音場分解部１０２に入力される。

音源推定部１０１は、入力される音響信号ｙを分析（音源推定）して、音場（分析対象となる空間）の中から音源の存在するエリア（音源が存在する確率の高いエリア）（格子点のセット）を推定する。例えば、音源推定部１０１は、非特許文献１に示されたビームフォーミング（ＢＦ）を用いた音源推定方法を用いてもよい。また、音源推定部１０１は、スパース音場分解の分析対象となる空間におけるＮ個の格子点よりも粗い格子点（つまり、少ない格子点）での音源推定を行い、音源の存在する確率の高い格子点（及びその周囲）を選択する。音源推定部１０１は、推定したエリア（格子点のセット）を示す情報をスパース音場分解部１０２に出力する。

スパース音場分解部１０２は、スパース音場分解の分析対象となる空間のうち、音源推定部１０１から入力される情報に示される、音源が存在すると推定されたエリア内において、入力される音響信号に対してスパース音場分解を行って、音響信号を音源信号ｘと、環境雑音信号ｈとに分解する。スパース音場分解部１０２は、音源信号成分（monopole sources(near field)）をオブジェクト符号化部１０３に出力し、環境雑音信号成分（ambience(far field)）を空間時間フーリエ変換部１０４に出力する。また、スパース音場分解部１０２は、音源信号の位置（source location）を示す格子点情報をオブジェクト符号化部１０３に出力する。

オブジェクト符号化部１０３は、スパース音場分解部１０２から入力される音源信号及び格子点情報を符号化し、符号化結果をオブジェクトデータ（object signal）とメタデータのセットとして出力する。例えば、オブジェクトデータ及びメタデータは、オブジェクト符号化ビットストリーム（object bitstream）を構成する。なお、オブジェクト符号化部１０３において、音響信号成分ｘの符号化には既存の音響符号化方法を用いればよい。また、メタデータには、例えば、音源信号に対応する格子点の位置を表す格子点情報等が含まれる。

空間時間フーリエ変換部１０４は、スパース音場分解部１０２から入力される環境雑音信号に対して空間時間フーリエ変換を行い、空間時間フーリエ変換後の環境雑音信号（空間時間フーリエ係数、二次元フーリエ係数）を量子化器１０５に出力する。例えば、空間時間フーリエ変換部１０４は、特許文献１に示された二次元フーリエ変換を用いてもよい。

量子化器１０５は、空間時間フーリエ変換部１０４から入力される空間時間フーリエ係数を量子化及び符号化して、環境雑音符号化ビットストリーム（bitstream for ambience）として出力する。例えば、量子化器１０５において、特許文献１に示された量子化符号化方法（例えば、心理音響モデル（psycho-acoustic model））を用いてもよい。

なお、空間時間フーリエ変換部１０４及び量子化器１０５は、環境雑音符号化部と呼ばれてもよい。

オブジェクト符号化ビットストリーム及び環境雑音ビットストリームは、例えば、多重されて復号装置２００へ送信される（図示せず）。

［復号装置の構成］
図３は、本実施の形態に係る復号装置２００の構成を示すブロック図である。図３において、復号装置２００は、オブジェクト復号部２０１と、波面合成部２０２と、環境雑音復号部（逆量子化器）２０３と、波面再合成フィルタ（Wavefield reconstruction filter）２０４と、逆空間時間フーリエ変換部２０５と、窓かけ部２０６と、加算部２０７と、を含む構成を採る。

図３において、復号装置２００は、複数のスピーカから構成されるスピーカアレイを備える（図示せず）。また、復号装置２００は、図２に示す符号化装置１００からの信号を受信し、受信信号をオブジェクト符号化ビットストリーム（object bitstream）と環境雑音符号化ビットストリーム（ambience bitstream）とに分離する（図示せず）。

オブジェクト復号部２０１は、入力されるオブジェクト符号化ビットストリームを復号して、オブジェクト信号（音源信号成分）とメタデータとに分離し、波面合成部２０２に出力する。なお、オブジェクト復号部２０１は、図２に示す符号化装置１００のオブジェクト符号化部１０３で用いた符号化方法の逆の処理により復号処理を行えばよい。

波面合成部２０２は、オブジェクト復号部２０１から入力されるオブジェクト信号、メタデータ、及び、別途入力又は設定されているスピーカ配置情報（loudspeaker configuration）を用いて、スピーカアレイの各スピーカからの出力信号を求め、求めた出力信号を加算器２０７に出力する。なお、波面合成部２０２における出力信号の生成方法は、例えば、特許文献３に示されている方法を用いてもよい。

環境雑音復号部２０３は、環境雑音符号化ビットストリームに含まれる二次元フーリエ係数を復号して、復号された環境雑音信号成分（ambience。例えば、二次元フーリエ係数）を波面再合成フィルタ２０４に出力する。なお、環境雑音復号部２０３は、図２に示す符号化装置１００の量子化器１０５における符号化処理と逆の処理により復号処理を行えばよい。

波面再合成フィルタ２０４は、環境雑音復号部２０３から入力される環境雑音信号成分、及び、別途入力又は設定されているスピーカ配置情報（loudspeaker configuration）を用いて、符号化装置１００のマイクロホンアレイで集音された音響信号を復号装置２００のスピーカアレイから出力するべき信号に変換し、変換された信号を逆空間時間フーリエ変換部２０５に出力する。なお、波面再合成フィルタ２０４における出力信号の生成方法は、例えば、特許文献３に示されている方法を用いてもよい。

逆空間時間フーリエ変換部２０５は、波面再合成フィルタ２０４から入力される信号に対して逆空間時間フーリエ変換（Inverse space-time Fourier transform）を行い、スピーカアレイの各スピーカから出力されるべき時間信号（環境雑音信号）に変換する。逆空間時間フーリエ変換部２０５は、時間信号を窓かけ部２０６に出力する。なお、逆空間時間フーリエ変換部２０５における変換処理は、例えば、特許文献１に示されている方法を用いてもよい。

窓かけ部２０６は、逆空間時間フーリエ変換部２０５から入力される、各スピーカから出力されるべき時間信号（環境雑音信号）に対して窓かけ処理（Tapering windowing）を施して、フレーム間の信号をスムーズに接続する。窓かけ部２０６は、窓かけ処理後の信号を加算器２０７に出力する。

加算器２０７は、波面合成部２０２から入力される音源信号と、窓かけ部２０６から入力される環境雑音信号とを加算し、加算信号を最終的な復号信号として各スピーカに出力する。

［符号化装置１００の動作］
以上の構成を有する符号化装置１００における動作について詳細に説明する。

図４は、本実施の形態に係る符号化装置１００の処理の流れを示すフロー図である。

まず、符号化装置１００において、音源推定部１０１は、例えば、非特許文献１に示されたビームフォーミングに基づく方法を用いて、音場の中の音源が存在するエリアを推定する（ＳＴ１０１）。この際、音源推定部１０１は、スパース分解の分析対象となる空間において、スパース音場分解時に音源が存在すると仮定する格子点（位置）の粒度よりも粗い粒度で、音源が存在するエリア（coarse area）を推定（特定）する。

図５は、スパース分解の分析対象となる各格子点（つまり、音源信号成分ｘに対応）からなる空間Ｓ（surveillance enclosure）（つまり、音場の観測エリア）の一例を示す。なお、図５では空間Ｓを二次元で表すが実際の空間は三次元でもよい。

スパース音場分解は、図５に示す各格子点を単位として音響信号ｙを音源信号ｘと環境雑音信号ｈとに分離する。これに対して、図５に示すように、音源推定部１０１のビームフォーミングによる音源推定の対象となるエリア（coarse area）は、スパース分解の格子点よりも粗いエリアで表される。つまり、音源推定の対象となるエリアは、スパース音場分解の複数の格子点によって表される。換言すると、音源推定部１０１は、スパース音場分解部１０２が音源信号ｘを抽出する粒度よりも粗い粒度で音源の存在する位置を推定する。

図６は、音源推定部１０１が図５に示す空間Ｓにおいて音源が存在するエリアとして特定したエリア（identified coarse areas）の一例を示す。図６では、例えば、Ｓ_２３及びＳ_３５のエリア（coarse area）のエネルギが他のエリアのエネルギよりも高くなっているとする。この場合、音源推定部１０１は、音源（source object）が存在するエリアのセットS_subとして、Ｓ_２３及びＳ_３５を特定する。

次に、スパース音場分解部１０２は、音源推定部１０１で音源が存在すると推定されたエリア内の格子点についてスパース音場分解を行う（ＳＴ１０２）。例えば、音源推定部１０１において図６に示すエリア（S_sub＝［Ｓ_２３，Ｓ_３５］）が特定された場合、スパース音場分解部１０２は、図７に示すように、特定されたエリア（S_sub＝［Ｓ_２３，Ｓ_３５］）内におけるスパース音場分解の格子点についてスパース音場分解を行う。

例えば、音場推定部１０１で特定されたエリアS_sub内の複数の格子点に対応する音源信号ｘを「ｘ_sub」と表し、行列Ｄ（Ｍ×Ｎ）のうち、S_sub内の複数の格子点と符号化装置１００の複数のマイクロホンとの関係に対応する要素からなる行列を「Ｄ_sub」と表す。
この場合、スパース音場分解部１０２は、次式（３）のように、各マイクロホンで観測された音響信号ｙを、音源信号ｘ_subと環境雑音信号ｈとに分解する。

そして、符号化装置１００（オブジェクト符号化部１０３、空間時間フーリエ変換部１０４、量子化部１０５）は、音源信号ｘ_sub及び環境雑音信号ｈを符号化し（ＳＴ１０３）、得られたビットストリーム（オブジェクト符号化ビットストリーム、環境雑音符号化ビットストリーム）を出力する（ＳＴ１０４）。これらの信号は復号装置２００側へ送信される。

このように、本実施の形態では、符号化装置１００において、音源推定部１０１は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置を示す格子点の粒度（第１の粒度）よりも粗い粒度（第２の粒度）で、音源が存在するエリアを推定する。そして、スパース音場分解部１０２は、空間のうちの音源が存在すると推定された、上記第２の粒度のエリア（coarse area）内において、マイクロホンアレイで観測される音響信号ｙに対して、上記第１の粒度でスパース音場分解処理を行って、音響信号ｙを音源信号ｘと環境雑音信号ｈとに分解する。

すなわち、符号化装置１００は、音源が存在する確率の高いエリアを予備的に探索し、スパース音場分解の分析対象を、探索されたエリアに限定する。換言すると、符号化装置１００は、スパース音場分解の適用範囲を、全ての格子点のうち、音源が存在する周辺の格子点に限定する。

上述したように、音場内に存在する音源は少数であることが仮定される。これにより、符号化装置１００では、スパース音場分解の分析対象のエリアがより狭いエリアに限定されるので、全ての格子点についてスパース音場分解処理を行う場合と比較して、スパース音場分解処理の演算量を大幅に削減することができる。

例えば、図８は、全ての格子点に対してスパース音場分解を行う場合の様子を示す。図８では、図６と同様の位置に２つの音源が存在している。図８では、例えば、特許文献３に示される方法のように、スパース音場分解において、分析対象となる空間内の全ての格子点を用いた行列演算が必要となる。これに対して、図７に示すように、本実施の形態のスパース音場分解の分析対象となるエリアがS_subに削減されている。このため、スパース音場分解部１０２において、音源信号ｘ_subのベクトルの次元が小さくなるので、行列Ｄ_subに対する行列演算量が削減される。

よって、本実施の形態によれば、低演算量で音場のスパース分解を行うことができる。

また、例えば、図７のように行列Ｄ_subの列数の削減によって劣決定系の条件（under-determined condition）が緩和されるので、スパース音場分解の性能を向上させることができる。

（実施の形態２）
［符号化装置の構成］
図９は、本実施の形態に係る符号化装置３００の構成を示すブロック図である。

なお、図９において、実施の形態１（図２）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図９に示す符号化装置３００は、実施の形態１の構成（図２）に対して、ビット配分部３０１及び切替部３０２を新たに備える。

ビット配分部３０１には、音源推定部１０１から、音場内に存在すると推定される音源の数（つまり、音源が存在すると推定されたエリア（coarse area）数）を示す情報が入力される。

ビット配分部３０１は、音源推定部１０１で推定された音源の数に基づいて、実施の形態１と同様のスパース音場分解を行うモード、及び、特許文献１に示される時空間スペクトル符号化を行うモードの何れを適用するかを決定する。例えば、ビット配分部３０１は、推定される音源数が所定数（閾値）以下の場合、スパース音場分解を行うモードに決定し、推定される音源数が所定数を超える場合に、スパース音場分解を行わずに、時空間スペクトル符号化を行うモードに決定する。

ここで、所定数としては、例えば、スパース音場分解による符号化性能が十分に得られないほどの音源数（つまり、スパース性が得られないほどの音源数）でもよい。または、所定数としては、ビットストリームのビットレートが決まっている場合には、当該ビットレートで送信可能なオブジェクトの数の上限値でもよい。

ビット配分部３０１は、決定したモードを示す切替情報（switching information）を切替部３０２、オブジェクト符号化部３０３、及び、量子化部３０５に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、復号装置４００（後述する）へ送信される（図示せず）。

なお、切替情報は、決定したモードに限らず、オブジェクト符号化ビットストリームと、環境雑音符号化ビットストリームとのビット配分を示す情報でもよい。例えば、切替情報は、スパース音場分解を適用するモードでは、オブジェクト符号化ビットストリームに割り当てられるビット数を示し、スパース音場分解を適用しないモードでは、オブジェクト符号化ビットストリームに割り当てられるビット数がゼロであることを示してもよい。または、切替情報は、環境雑音符号化ビットストリームのビット数を示してもよい。

切替部３０２は、ビット配分部３０１から入力される切替情報（モード情報又はビット配分情報）に応じて、符号化モードに応じた音響信号ｙの出力先の切り替えを行う。具体的には、切替部３０２は、実施の形態１と同様のスパース音場分解を適用するモードの場合には音響信号ｙをスパース音場分解部１０２に出力する。一方、切替部３０２は、時空間スペクトル符号化を行うモードの場合には音響信号ｙを空間時間フーリエ変換部３０４に出力する。

オブジェクト符号化部３０３は、ビット配分部３０１から入力される切替情報に応じて、スパース音場分解を行うモードの場合（例えば、推定された音源数が閾値以下の場合）には、実施の形態１と同様にして音源信号に対してオブジェクト符号化を行う。一方、オブジェクト符号化部３０３は、時空間スペクトル符号化を行うモードの場合（例えば、推定された音源数が閾値を超える場合）には符号化を行わない。

空間時間フーリエ変換部３０４は、スパース音場分解を行うモードの場合にスパース音場分解部１０２から入力される環境雑音信号ｈ、又は、時空間スペクトル符号化を行うモードの場合に切替部３０２から入力される音響信号ｙに対して、空間時間フーリエ変換を行い、空間時間フーリエ変換後の信号（二次元フーリエ係数）を量子化器３０５に出力する。

量子化器３０５は、ビット配分部３０１から入力される切替情報に応じて、スパース音場分解を行うモードの場合には、実施の形態１と同様にして二次元フーリエ係数の量子化符号化を行う。一方、量子化器３０５は、時空間スペクトル符号化を行うモードの場合には、特許文献１と同様にして二次元フーリエ係数の量子化符号化を行う。

［復号装置の構成］
図１０は、本実施の形態に係る復号装置４００の構成を示すブロック図である。

なお、図１０において、実施の形態１（図３）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図１０に示す復号装置４００は、実施の形態１の構成（図３）に対して、ビット配分部４０１及び分離部４０２を新たに備える。

復号装置４００は、図９に示す符号化装置３００からの信号を受信し、切替情報（switching information）をビット配分部４０１に出力し、その他のビットストリームを分離部４０２に出力する。

ビット配分部４０１は、入力される切替情報に基づいて、受信したビットストリームにおけるオブジェクト符号化ビットストリームと環境雑音符号化ビットストリームとのビット配分を決定し、決定したビット配分情報を分離部４０２へ出力する。具体的には、ビット配分部４０１は、符号化装置３００でスパース音場分解が行われた場合、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームにそれぞれ配分されているビット数を決定する。一方、ビット配分部４０１は、符号化装置３００で時空間スペクトル符号化が行われた場合、オブジェクト符号化ビットストリームへのビットを配分せずに、環境雑音符号化ビットストリームにビットを配分する。

分離部４０２は、ビット配分部４０１から入力されるビット配分情報に従って、入力されるビットストリームを各種パラメータのビットストリームに分離する。具体的には、分離部４０２は、符号化装置３００においてスパース音場分解が行われた場合には、実施の形態１と同様、ビットストリームを、オブジェクト符号化ビットストリームと環境雑音符号化ビットストリームとに分離し、オブジェクト復号部２０１及び環境雑音復号部２０３にそれぞれ出力する。一方、分離部４０２は、符号化装置３００において時空間スペクトル符号化が行われた場合には、入力されるビットストリームを環境雑音復号部２０３へ出力し、オブジェクト復号部２０１には何も出力しない。

このように、本実施の形態では、符号化装置３００は、音源推定部１０１において推定された音源の数に応じて、実施の形態１で説明したスパース音場分解を適用するか否かを決定する。

上述したように、スパース音場分解では、音場における音源のスパース性を仮定しているため、音源数が多い状況は、スパース音場分解の分析モデルとして最適でない場合がある。すなわち、音源の数が多くなると、音場における音源のスパース性が低下し、スパース音場分解を適用した場合には、分析モデルの表現能力又は分解性能が低下してしまう恐れがある。

これに対して、符号化装置３００は、音場の数が多くなり（スパース性が弱くなり）、スパース音場分解によって良好な符号化性能が得られない場合には、例えば、特許文献１に示すような時空間スペクトル符号化を行う。なお、音場の数が多い場合の符号化モデルは、特許文献１に示すような時空間スペクトル符号化に限定されるものではない。

このように、本実施の形態によれば、音源の数に応じて符号化モデルを柔軟に切り替えることができるので、高能率な符号化を実現することができる。

なお、ビット配分部３０１には、音源推定部１０１から、推定された音源の位置情報が入力されてもよい。例えば、ビット配分部３０１は、音源の位置情報に基づいて、音源信号成分ｘと環境雑音信号ｈとのビット配分（又は、音源数の閾値）を設定してもよい。例えば、ビット配分部３０１は、音源の位置がマイクロホンアレイに対して正面の位置に近い位置であるほど、音源信号成分ｘのビット配分をより多くしてもよい。

（実施の形態３）
本実施の形態に係る復号装置は、実施の形態２に係る復号装置４００と基本構成が共通するので、図１０を援用して説明する。

［符号化装置の構成］
図１１は、本実施の形態に係る符号化装置５００の構成を示すブロック図である。

なお、図１１において、実施の形態２（図９）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図１１に示す符号化装置５００は、実施の形態２の構成（図９）に対して、選択部５０１を新たに備える。

選択部５０１は、スパース音場分解部１０２から入力される音源信号ｘ（スパース音源）のうちの一部の主要な音源（例えば、エネルギが大きい順に所定数の音源）を選択する。そして、選択部５０１は、選択した音源信号をオブジェクト信号（monopole sources）としてオブジェクト符号化部３０３に出力し、選択されなかった残りの音源信号を環境雑音信号（ambience）として空間時間フーリエ変換部５０２に出力する。

つまり、選択部５０１は、スパース音場分解部１０２で生成（抽出）された音源信号ｘの一部を、環境雑音信号ｈとして分類し直す。

空間時間フーリエ変換部５０２は、スパース音場分解が行われた場合、スパース音場分解部１０２から入力される環境雑音信号ｈ、及び、選択部５０１から入力される環境雑音信号ｈ（分類し直された音源信号）に対して時空間スペクトル符号化を行う。

このように、本実施の形態では、符号化装置５００は、スパース音場分解部１０２で抽出された音源信号のうち、主要な成分を選択し、オブジェクト符号化することにより、オブジェクト符号化で利用可能なビット数に限りがある場合でも、より重要なオブジェクトに対するビット配分を確保することができる。これにより、スパース音場分解による全体的な符号化性能を向上させることができる。

（実施の形態４）
本実施の形態では、スパース音場分解によって得られた音源信号ｘと、環境雑音信号ｈとのビット配分を当該環境雑音信号のエネルギに応じて設定する方法について説明する。

［方法１］
本実施の形態の方法１に係る復号装置は、実施の形態２に係る復号装置４００と基本構成が共通するので、図１０を援用して説明する。

［符号化装置の構成］
図１２は、本実施の形態の方法１に係る符号化装置６００の構成を示すブロック図である。

なお、図１２において、実施の形態２（図９）又は実施の形態３（図１１）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図１２に示す符号化装置６００は、実施の形態２の構成（図９）に対して、選択部６０１及びビット配分更新部６０２を新たに備える。

選択部６０１は、実施の形態３の選択部５０１（図１１）と同様、スパース音場分解部１０２から入力される音源信号ｘのうちの一部の主要な音源（例えば、エネルギが大きい順に所定数の音源）を選択する。この際、選択部６０１は、スパース音場分解部１０２から入力される環境雑音信号ｈのエネルギを算出し、環境雑音信号のエネルギが所定の閾値以下の場合には、環境雑音信号のエネルギが所定の閾値を超える場合よりも多くの音源信号ｘを、上記主要な音源としてオブジェクト符号化部３０３に出力する。選択部６０１は、音源信号ｘの選択結果に応じて、ビット配分の増減を示す情報をビット配分更新部６０２に出力する。

ビット配分更新部６０２は、選択部６０１から入力される情報に基づいて、オブジェクト符号化部３０３で符号化される音源信号に割り当てるビット数と、量子化器３０５において量子化される環境雑音信号に割り当てるビット数との配分を決定する。すなわち、ビット配分更新部６０２は、ビット配分部３０１の切替情報（ビット配分情報）を更新する。

ビット配分更新部６０２は、更新後のビット配分を示す切替情報をオブジェクト符号化部３０３及び量子化部３０５に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、復号装置４００（図１０）へ多重して送信される（図示せず）。

オブジェクト符号化部３０３及び量子化器３０５は、ビット配分更新部６０２から入力される切替情報に示されるビット配分に従って、音源信号ｘ又は環境雑音信号ｈに対して符号化又は量子化をそれぞれ行う。

なお、エネルギが小さく、ビット配分が減らされた環境雑音信号に対しては、符号化が全く行われなくてもよく、復号側で所定の閾値レベルの環境雑音として疑似的に生成されてもよい。または、エネルギが小さい環境雑音信号に対して、エネルギ情報が符号化・伝送されてもよい。この場合、環境雑音信号に対するビット配分が必要となるが、エネルギ情報のみであれば環境雑音信号ｈを含む場合と比較して少ないビット配分で済む。

［方法２］
方法２では、上述したように環境雑音信号のエネルギ情報を符号化して伝送する構成を有する符号化装置、及び、復号装置の一例について説明する。

［符号化装置の構成］
図１３は、本実施の形態の方法２に係る符号化装置７００の構成を示すブロック図である。

なお、図１３において、実施の形態１（図２）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図１３に示す符号化装置７００は、実施の形態１（図２）の構成に対して、切替部７０１、選択部７０２、ビット配分部７０３及びエネルギ量子化符号化部７０４を新たに備える。

符号化装置７００において、スパース音場分解部１０２で得られる音源信号ｘは選択部７０２に出力され、環境雑音信号ｈは切替部７０１に出力される。

切替部７０１は、スパース音場分解部１０２から入力される環境雑音信号のエネルギを算出し、算出した環境雑音信号のエネルギが所定の閾値を超えるか否かを判断する。切替部７０１は、環境雑音信号のエネルギが所定の閾値以下の場合、環境雑音信号のエネルギを示す情報（ambience energy）をエネルギ量子化符号化部７０４に出力する。一方、切替部７０１は、環境雑音信号のエネルギが所定の閾値を超える場合、環境雑音信号を空間時間フーリエ変換部１０４に出力する。また、切替部７０１は、環境雑音信号のエネルギが所定の閾値を超えたか否かを示す情報（判断結果）を選択部７０２に出力する。

選択部７０２は、切替部７０１から入力される情報（環境雑音信号のエネルギが所定の閾値を超えたか否かを示す情報）に基づいて、スパース音源分離部１０２から入力される音源信号（スパース音源）の中から、オブジェクト符号化の対象となる音源数（選択する音源の数）を決定する。例えば、選択部７０２は、方法１に係る符号化装置６００の選択部６０１と同様、環境雑音信号のエネルギが所定の閾値以下の場合にオブジェクト符号化対象として選択する音源数を、環境雑音信号のエネルギが所定の閾値を超えた場合にオブジェクト符号化対象として選択する音源数よりも多く設定する。

そして、選択部７０２は、決定した数の音源成分を選択し、オブジェクト符号化部１０３に出力する。この際、選択部７０２は、例えば、主要な音源（例えば、エネルギが大きい順に所定数の音源）から順に選択してもよい。また、選択部７０２は、選択されなかった残りの音源信号（monopole sources(non-dominant)）を空間時間フーリエ変換部１０４に出力する。

また、選択部７０２は、決定した音源数、及び、切替部７０１から入力される情報をビット配分部７０３に出力する。

ビット配分部７０３は、選択部７０２から入力される情報に基づいて、オブジェクト符号化部１０３で符号化される音源信号に割り当てるビット数と、量子化器１０５において量子化される環境雑音信号に割り当てるビット数との配分を設定する。ビット配分部７０３は、ビット配分を示す切替情報をオブジェクト符号化部１０３及び量子化部１０５に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、後述する復号装置８００（図１４）へ多重して送信される（図示せず）。

エネルギ量子化符号化部７０４は、切替部７０１から入力される環境雑音エネルギ情報を量子化符号化して、符号化情報（ambience energy）を出力する。符号化情報は、環境雑音エネルギ符号化ビットストリームとして、オブジェクト符号化ビットストリーム、環境雑音符号化ビットストリーム及び切替情報とともに、後述する復号装置８００（図１４）へ多重して送信される（図示せず）。

なお、符号化装置７００は、環境雑音エネルギが所定の閾値以下の場合には、環境雑音信号を符号化せずに、ビットレートが許容する範囲において音源信号を追加でオブジェクト符号化してもよい。

また、方法２に係る符号化装置は、図１３に示す構成に加え、実施の形態２（図９）で説明したように音源推定部１０１で推定される音源数に応じてスパース音場分解と他の符号化モデルとを切り替える構成を備えてもよい。または、方法２に係る符号化装置は、図１３に示す音源推定部１０１の構成を含まなくてもよい。

また、符号化装置７００は、上述した環境雑音信号のエネルギとして、全てのチャネルのエネルギの平均値を算出してもよく、他の方法を用いてもよい。他の方法としては、例えば、環境雑音信号のエネルギとして、チャネル個別の情報を用いる方法、又は、全てのチャネルをサブグループに分け、各サブグループでの平均エネルギを求める方法等が挙げられる。この際、符号化装置７００は、環境雑音信号のエネルギが閾値を超えるか否かの判断を、全てのチャネルの平均値を用いて行ってもよく、他の方法を用いる場合には、チャネル又はサブグループ毎に求めた環境雑音信号のエネルギのうち最大値を用いて行ってもよい。また、符号化装置７００は、エネルギの量子化符号化として、全てのチャネルの平均エネルギを用いる場合にはスカラー量子化を適用してもよく、複数のエネルギを符号化する場合にはスカラー量子化又はベクトル量子化を適用してもよい。また、量子化・符号化効率を向上させるために、フレーム間相関を利用した予測量子化も有効である。

［復号装置の構成］
図１４は、本実施の形態の方法２に係る復号装置８００の構成を示すブロック図である。

なお、図１４において、実施の形態１（図３）又は実施の形態２（図１０）と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図１４に示す復号装置８００は、実施の形態２（図１０）の構成に対して擬似環境雑音復号部８０１を新たに備える。

疑似環境雑音復号部８０１は、分離部４０２から入力される環境雑音エネルギ符号化ビットストリーム、及び、別途復号装置８００が保持する疑似環境雑音源を用いて、疑似環境雑音信号を復号し、波面再合成フィルタ２０４に出力する。

なお、擬似環境雑音復号部８０１において、符号化装置７００のマイクロホンアレイから復号装置８００のスピーカアレイへの変換を考慮した処理を組み込んでおけば、波面再合成フィルタ２０４への出力をスキップして、逆空間時間フーリエ変換部２０５に出力するような復号処理とすることも可能である。

以上、方法１及び方法２について説明した。

このように、本実施の形態では、符号化装置６００，７００は、環境雑音信号のエネルギが小さい場合には、環境雑音信号を符号化するよりも、音源信号成分の符号化に可能な限り多くのビットを配分し直してオブジェクト符号化を行う。これにより、符号化装置６００，７００における符号化性能を向上させることができる。

また、本実施の形態によれば、符号化装置７００のスパース音場分解部１０２で抽出された環境雑音信号のエネルギの符号化情報が復号装置８００に送信される。復号装置８００は、環境雑音信号のエネルギに基づいて、擬似環境雑音信号を生成する。これにより、環境雑音信号のエネルギが小さい場合には、環境雑音信号の代わりに、少ないビット配分で済むエネルギ情報を符号化する分、音源信号に対してより多くのビットを配分できるので、音響信号を効率良く符号化することができる。

以上、本開示の各実施の形態について説明した。

なお、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるＬＳＩとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのＬＳＩ又はＬＳＩの組み合わせによって制御されてもよい。ＬＳＩは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。ＬＳＩはデータの入力と出力を備えてもよい。ＬＳＩは、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。集積回路化の手法はＬＳＩに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本開示の符号化装置は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定する推定回路と、前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、を具備する。

本開示の符号化装置において、前記分解回路は、前記推定回路で前記音源が存在すると推定されたエリアの数が第１の閾値以下の場合に前記スパース音場分解処理を行い、前記エリアの数が前記第１の閾値を超える場合に前記スパース音場分解処理を行わない。

本開示の符号化装置において、前記エリアの数が前記第１の閾値以下の場合に、前記音源信号を符号化する第１の符号化回路と、前記エリアの数が前記第１の閾値以下の場合に前記環境雑音信号を符号化し、前記エリアの数が前記第１の閾値を超える場合に前記音響信号を符号化する第２の符号化回路と、をさらに具備する。

本開示の符号化装置において、前記分解回路で生成された音源信号のうちの一部をオブジェクト信号として出力し、前記分解回路で生成された音源信号のうちの残りを前記環境雑音信号として出力する選択回路、をさらに具備する。

本開示の符号化装置において、前記分解回路で生成された前記環境雑音信号のエネルギが第２の閾値以下の場合に選択される前記一部の音源信号の数は、前記環境雑音信号のエネルギが前記第２の閾値を超える場合に選択される前記一部の音源信号の数よりも多い。

本開示の符号化装置において、前記エネルギが前記第２の閾値以下の場合に、当該エネルギを示す情報を量子化符号化する量子化符号化回路、をさらに具備する。

本開示の符号化方法は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定し、前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する。

本開示の一態様は、音声通信システムに有用である。

１００，３００，５００，６００，７００符号化装置
１０１音源推定部
１０２スパース音場分解部
１０３，３０３オブジェクト符号化部
１０４，３０４，５０２空間時間フーリエ変換部
１０５，３０５量子化器
２００，４００，８００復号装置
２０１オブジェクト復号部
２０２波面合成部
２０３環境雑音復号部
２０４波面再合成フィルタ
２０５逆空間時間フーリエ変換部
２０６窓かけ部
２０７加算器
３０１，４０１，７０３ビット配分部
３０２，７０１切替部
４０２分離部
５０１，６０１，７０２選択部
６０２ビット配分更新部
７０４エネルギ量子化符号化部
８０１擬似環境雑音復号部

Claims

スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定する推定回路と、
前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、
を具備する符号化装置。
前記分解回路は、前記推定回路で前記音源が存在すると推定されたエリアの数が第１の閾値以下の場合に前記スパース音場分解処理を行い、前記エリアの数が前記第１の閾値を超える場合に前記スパース音場分解処理を行わない、
請求項１に記載の符号化装置。
前記エリアの数が前記第１の閾値以下の場合に、前記音源信号を符号化する第１の符号化回路と、
前記エリアの数が前記第１の閾値以下の場合に前記環境雑音信号を符号化し、前記エリアの数が前記第１の閾値を超える場合に前記音響信号を符号化する第２の符号化回路と、をさらに具備する、
請求項２に記載の符号化装置。
前記分解回路で生成された音源信号のうちの一部をオブジェクト信号として出力し、前記分解回路で生成された音源信号のうちの残りを前記環境雑音信号として出力する選択回路、をさらに具備する、
請求項１に記載の符号化装置。
前記分解回路で生成された前記環境雑音信号のエネルギが第２の閾値以下の場合に選択される前記一部の音源信号の数は、前記環境雑音信号のエネルギが前記第２の閾値を超える場合に選択される前記一部の音源信号の数よりも多い、
請求項４に記載の符号化装置。
前記エネルギが前記第２の閾値以下の場合に、当該エネルギを示す情報を量子化符号化する量子化符号化回路、をさらに具備する、
請求項５に記載の符号化装置。
スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第１の粒度よりも粗い第２の粒度で、音源が存在するエリアを推定し、
前記空間のうちの前記音源が存在すると推定された前記第２の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第１の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する、
符号化方法。