JPWO2020066542A1

JPWO2020066542A1 - 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Info

Publication number: JPWO2020066542A1
Application number: JP2020548325A
Authority: JP
Inventors: ロヒスマース; スリカンスナギセティ; チョンスンリム; 江原　宏幸; 宏幸江原; 明久川村
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-09-26
Filing date: 2019-09-06
Publication date: 2021-09-16
Anticipated expiration: 2039-09-06
Also published as: EP3860148A1; US11488573B2; WO2020066542A1; EP3860148B1; EP3860148A4; JP7405758B2; US20210183356A1

Abstract

音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置。音響オブジェクト抽出装置（１００）において、ビームフォーミング処理部（１０３−１），（１０３−２）は、マイクロホンアレイ（１０１−１）に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、マイクロホンアレイ（１０１−２）に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成し、共通成分抽出部（１０６）は、第１の音響信号のスペクトルと第２の音響信号のスペクトルとの類似度に基づいて、第１の音響信号及び第２の音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。共通成分抽出部（１０６）は、第１の音響信号及び第２の音響信号のスペクトルを複数の周波数区間に分割し、周波数区間毎に類似度を算出する。

Description

本開示は、音響オブジェクト抽出装置及び音響オブジェクト抽出方法に関する。

複数の音響ビームフォーマを用いて音響オブジェクト（例えば、空間オブジェクト音と呼ぶ）を抽出する方法に、例えば、２つの音響ビームフォーマから入力される信号を、フィルタバンクを用いてスペクトル領域に変換し、スペクトル領域においてクロススペクトル密度に基づいて音響オブジェクトに対応する信号を抽出する方法が提案されている（例えば、特許文献１を参照）。

特表２０１４−５０２１０８号公報

Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Collaborative blind source separation using location informed spatial microphones." IEEE signal processing letters (2013): 83-86. Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Encoding and communicating navigable speech soundfields." Multimedia Tools and Applications 75.9 (2016): 5183-5204.

しかしながら、音響オブジェクト音を抽出する方法についての検討は十分ではない。

本開示の非限定的な実施例は、音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置及び音響オブジェクト抽出方法の提供に資する。

本開示の一実施例に係る音響オブジェクト抽出装置は、第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成するビームフォーミング処理回路と、前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第１の音響信号及び前記第２の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。

本開示の一実施例に係る音響オブジェクト抽出方法は、第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成し、前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第１の音響信号及び前記第２の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。

なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の一実施例によれば、音響オブジェクト音の抽出性能を向上することができる。

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

一実施の形態に係る音響オブジェクト抽出装置の一部の構成例を示すブロック図一実施の形態に係る音響オブジェクト抽出装置の構成例を示すブロック図マイクロホンアレイ及び音響オブジェクトの位置関係の一例を示す図一実施の形態に係る共通成分抽出部の内部構成例を示すブロック図一実施の形態に係るサブバンドの構成例を示す図一実施の形態に係る変換関数の一例を示す図

以下、本開示の実施の形態について図面を参照して詳細に説明する。

［システムの概要］
本実施の形態に係るシステム（例えば、音響ナビゲーションシステム）は、少なくとも、音響オブジェクト抽出装置１００を備える。

本実施の形態に係るシステムでは、例えば、音響オブジェクト抽出装置１００は、複数の音響ビームフォーマを用いて、ターゲットとなる音響オブジェクトの信号（例えば、空間オブジェクト音）、及び、音響オブジェクトの位置を抽出し、音響オブジェクトに関する情報（例えば、信号情報及び位置情報を含む）を、他の装置（例えば、音場再生装置）（図示せず）に出力する。例えば、音場再生装置は、音響オブジェクト抽出装置１００から出力される音響オブジェクトに関する情報を用いて、音響オブジェクトの再生（レンダリング）を行う（例えば、非特許文献１及び２を参照）。

なお、音場再生装置と音響オブジェクト抽出装置１００とが離れた場所に設けられる場合、音響オブジェクトに関する情報は、圧縮及び符号化され、伝送チャネルを通じて音場再生装置へ伝送されてもよい。

図１は、本実施の形態に係る音響オブジェクト抽出装置１００の一部の構成を示すブロック図である。図１に示す音響オブジェクト抽出装置１００において、ビームフォーミング処理部１０３−１，１０３−２は、第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１音響信号を生成し、第２のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２音響信号を生成する。共通成分抽出部１０６は、第１音響信号のスペクトルと第２音響信号のスペクトルとの類似度に基づいて、第１音響信号及び第２音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。このとき、共通成分抽出部１０６は、第１音響信号及び第２音響信号のスペクトルを複数の周波数区間（例えば、サブバンド又はセグメントと呼ぶ）に分割し、周波数区間毎に上記類似度を算出する。

［音響オブジェクト抽出装置の構成］
図２は、本実施の形態に係る音響オブジェクト抽出装置１００の構成例を示すブロック図である。図２において、音響オブジェクト抽出装置１００は、マイクロホンアレイ１０１−１，１０１−２と、到来方向推定部１０２−１，１０２−２と、ビームフォーミング処理部１０３−１，１０３−２と、相関確認部１０４と、三角測量部１０５と、共通成分抽出部１０６と、を含む。

マイクロホンアレイ１０１−１は、マルチチャネルの音響信号（又は、音声音響信号）を取得（例えば、録音）し、音響信号をデジタル信号（デジタルマルチチャネル音響信号）に変換して、到来方向推定部１０２−１及びビームフォーミング処理部１０３−１に出力する。

マイクロホンアレイ１０１−２は、マルチチャネルの音響信号を取得（例えば、録音）し、音響信号をデジタル信号（デジタルマルチチャネル音響信号）に変換して、到来方向推定部１０２−２及びビームフォーミング処理部１０３−２に出力する。

マイクロホンアレイ１０１−１及びマイクロホンアレイ１０１−２は、例えば、ＨＯＡ（High-order Ambisonics）マイク（アンビソニックスマイクロホン）である。例えば、図３に示すように、マイクロホンアレイ１０１−１の位置（図３では「M₁」と表す）と、マイクロホンアレイ１０１−２の位置（図３では「M₂」と表す）との間の距離（マイクロホンアレイ間距離）を「d」で表す。

到来方向推定部１０２−１は、マイクロホンアレイ１０１−１から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ１０１−１に対する音響オブジェクト信号の到来方向を推定（換言すると、DOA（Direction of Arrival） estimation）する。例えば、到来方向推定部１０２−１は、図３に示すように、マイクロホンアレイ１０１−１（M₁）に対するＩ個の音響オブジェクトの到来方向を示す到来方向情報（D_m1,1，…，D_m1,I）をビームフォーミング処理部１０３−１及び三角測量部１０５に出力する。

到来方向推定部１０２−２は、マイクロホンアレイ１０１−２から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ１０１−２に対する音響オブジェクト信号の到来方向を推定する。例えば、到来方向推定部１０２−２は、図３に示すように、マイクロホンアレイ１０１−２（M₂）に対するＩ個の音響オブジェクトの到来方向を示す到来方向情報（D_m2,1，…，D_m2,I）をビームフォーミング処理部１０３−２及び三角測量部１０５に出力する。

ビームフォーミング処理部１０３−１は、到来方向推定部１０２−１から入力される到来方向情報（D_m1,1，…，D_m1,I）に基づいて各到来方向へのビームを形成し、マイクロホンアレイ１０１−１から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部１０３−１は、マイクロホンアレイ１０１−１に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向（例えば、Ｉ個の方向）の第１音響信号（S'_m1,1，…，S'_m1,I）を相関確認部１０４及び共通成分抽出部１０６に出力する。

ビームフォーミング処理部１０３−２は、到来方向推定部１０２−２から入力される到来方向情報（D_m2,1，…，D_m2,I）に基づいて各到来方向へのビームを形成し、マイクロホンアレイ１０１−２から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部１０３−２は、マイクロホンアレイ１０１−２に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向（例えば、Ｉ個の方向）の第２音響信号（S'_m2,1，…，S'_m2,I）を相関確認部１０４及び共通成分抽出部１０６に出力する。

相関確認部１０４は、ビームフォーミング処理部１０３−１から入力される第１音響信号（S'_m1,1，…，S'_m1,I）と、ビームフォーミング処理部１０３−２から入力される第２音響信号（S'_m2,1，…，S'_m2,I）との間の相関を確認（換言すると、correlation test）する。相関確認部１０４は、相関の確認結果に基づいて、第１音響信号及び第２音響信号において、同一の音響オブジェクトｉ（i=1〜Iの何れか）の信号である組み合わせを特定する。相関確認部１０４は、同一の音響オブジェクトの信号である組み合わせを示す組み合わせ情報（例えば、C₁，…，C_I）を、三角測量部１０５及び共通成分抽出部１０６に出力する。

例えば、第１音響信号（S'_m1,1，…，S'_m1,I）のうち、ｉ番目（iは1〜Iの何れかの値）の音響オブジェクトに対応する音響信号を「S'_m1,ci[0]」と表す。同様に、第２音響信号（S'_m2,1，…，S'_m2,I）のうち、ｉ番目（iは1〜Iの何れかの値）の音響オブジェクトに対応する音響信号を「S'_m2,ci[1]」と表す。この場合、ｉ番目の音響オブジェクトに対応する第１音響信号及び第２音響信号の組み合わせ情報C_iは｛ci[0], ci[1]｝で構成される。

三角測量部１０５は、到来方向推定部１０２−１から入力される到来方向情報（D_m1,1，…，D_m1,I）、到来方向推定部１０２−２から入力される到来方向情報（D_m2,1，…，D_m2,I）、入力されるマイクロホンアレイ間距離情報（d）、及び、相関確認部１０４から入力される組み合わせ情報（C₁〜C_I）を用いて、音響オブジェクト（例えば、Ｉ個の音響オブジェクト）の位置を算出する。三角測量部１０５は、算出した位置を示す位置情報（例えば、p₁，…，p_I）を出力する。

例えば、図３において、第１番目（i=1）の音響オブジェクトの位置p₁は、マイクロホンアレイ間距離dと、マイクロホンアレイ１０１−１（M₁）に対する第１番目の音響オブジェクト信号の到来方向D_m1,c1[0]と、マイクロホンアレイ１０１−２（M₂）に対する第１番目の音響オブジェクト信号の到来方向D_m2,c1[1]と、を用いた三角測量（triangulation）によって算出される。他の音響オブジェクトの位置についても同様である。

共通成分抽出部１０６は、ビームフォーミング処理部１０３−１から入力される第１音響信号（S'_m1,1，…，S'_m1,I）及びビームフォーミング処理部１０３−２から入力される第２音響信号（S'_m2,1，…，S'_m2,I）のうち、相関確認部１０４から入力される組み合わせ情報（C₁〜C_I）に示される組み合わせの２つの音響信号から、当該２つの音響信号に共通する成分（換言すると、各音響オブジェクトに対応する共通成分を含む信号）を抽出する。共通成分抽出部１０６は、抽出した音響オブジェクト信号（S'₁，…，S'_I）を出力する。

例えば、図３において、マイクロホンアレイ１０１−１（M₁）から第１番目（i=1）の音響オブジェクトへの方向（実線矢印）の第１音響信号には、抽出対象である第１番目の音響オブジェクト以外に、他の音響オブジェクト（図示せず）又は雑音等が混ざっている可能性がある。同様に、図３において、マイクロホンアレイ１０１−２（M₂）から第１番目（i=1）の音響オブジェクトへの方向（破線矢印）の第２音響信号には、抽出対象である第１番目の音響オブジェクト以外に、他の音響オブジェクト（図示せず）又は雑音等が混ざっている可能性がある。なお、第１番目の音響オブジェクト以外の他の音響オブジェクトについても同様である。

共通成分抽出部１０６は、第１音響信号及び第２音響信号のスペクトル（換言すると、複数の音響ビームフォーマの出力）において共通成分を抽出し、第１番目（i=1）の音響オブジェクト信号S'₁を出力する。例えば、共通成分抽出部１０６は、後述するスペクトルゲインの乗算（換言すると、重み付け処理）によって、第１音響信号及び第２音響信号のスペクトルにおいて、抽出対象の音響オブジェクトの成分を残留させ、他の音響オブジェクト又は雑音の成分を減衰させる。

三角測量部１０５から出力される位置情報（p₁，…，p_I）、及び、共通成分抽出部１０６から出力される音響オブジェクト信号（S'₁，…，S'_I）は、例えば、音場再生装置（図示せず）に出力され、音響オブジェクトの再生（レンダリング）に用いられる。

［共通成分抽出部１０６の動作］
次に、図１に示す共通成分抽出部１０６の動作の詳細について説明する。

図４は、共通成分抽出部１０６の内部構成例を示すブロック図である。図４において、共通成分抽出部１０６は、時間−周波数変換部１６１−１，１６１−２と、分割部１６２−１，１６２−２と、類似度算出部１６３と、スペクトルゲイン算出部１６４と、乗算部１６５−１，１６５−２と、スペクトル再構成部１６６と、周波数−時間変換部１６７と、を含む構成を採る。

時間−周波数変換部１６１−１には、例えば、組み合わせ情報C_i（ｉは１〜Ｉの何れか）に示されるci[0]に対応する第１音響信号S'_m1,ci[0](t)が入力される。時間−周波数変換部１６１−１は、第１音響信号S'_m1,ci[0](t)（時間領域信号）を周波数領域の信号（スペクトル）に変換する。時間−周波数変換部１６１−１は、得られた第１音響信号のスペクトルS'_m1,ci[0](k, n)を分割部１６２−１に出力する。

なお、ｋは周波数インデックス（例えば、周波数ｂｉｎ番号）を示し、ｎは時間インデックス（例えば、音響信号を所定の時間間隔でフレーミングしたときのフレーム番号）を示す。

時間−周波数変換部１６１−２には、例えば、組み合わせ情報C_i（ｉは１〜Ｉの何れか）に示されるci[1]に対応する第２音響信号S'_m2,ci[1](t)が入力される。時間−周波数変換部１６１−２は、第２音響信号S'_m2,ci[1](t)（時間領域信号）を周波数領域の信号（スペクトル）に変換する。時間−周波数変換部１６１−２は、得られた第２音響信号のスペクトルS'_m2,ci[1](k, n)を分割部１６２−２に出力する。

なお、時間−周波数変換部１６１−１，１６１−２における時間−周波数変換処理は、例えば、フーリエ変換処理（例えば、ＳＦＦＴ（Short-time Fast Fourier Transform：短時間フーリエ変換））でもよく、修正離散コサイン変換（ＭＤＣＴ（Modified Discrete Cosine Transform））でもよい。

分割部１６２−１は、時間−周波数変換部１６１−１から入力される第１音響信号のスペクトルS'_m1,ci[0](k, n)を複数の周波数区分（以下、「サブバンド」と呼ぶ）に分割する。分割部１６２−１は、各サブバンドに含まれる第１音響信号のスペクトルS'_m1,ci[0](k, n)で構成されるサブバンドスペクトル（SB_m1,ci[0](sb, n)）を類似度算出部１６３及び乗算部１６５−１に出力する。

なお、ｓｂはサブバンド番号を示す。

分割部１６２−２は、時間−周波数変換部１６１−２から入力される第２音響信号のスペクトルS'_m2,ci[1](k, n)を複数のサブバンドに分割する。分割部１６２−２は、各サブバンドに含まれる第２音響信号のスペクトルS'_m2,ci[1](k, n)で構成されるサブバンドスペクトル（SB_m2,ci[1](sb, n)）を類似度算出部１６３及び乗算部１６５−２に出力する。

図５は、フレーム番号nのフレームにおける、第ｉ番目の音響オブジェクトに対応する第１音響信号のスペクトルS'_m1,ci[0](k, n)及び第２音響信号のスペクトルS'_m2,ci[1](k, n)を複数のサブバンドに分割する例を示す。

図５に示す各サブバンドは、４つの周波数成分（例えば、周波数ｂｉｎ）から成るSegmentで構成される。

具体的には、サブバンド番号sb=0のサブバンド（Segment 1）におけるサブバンドスペクトル（SB_m1,ci[0](0, n)、SB_m2,ci[1](0, n)）は、周波数インデックスk＝0〜3の４つのスペクトル（S'_m1,ci[0](k, n)、S'_m2,ci[1](k, n)）で構成される。同様に、サブバンド番号sb=1のサブバンド（Segment 2）におけるサブバンドスペクトル（SB_m1,ci[0](1, n)、SB_m2,ci[1](1, n)）は、周波数インデックスk=3〜6の４つのスペクトル（S'_m1,ci[0](k, n)、S'_m2,ci[1](k, n)）で構成される。また、サブバンド番号sb=2のサブバンド（Segment 3）におけるサブバンドスペクトル（SB_m1,ci[0](2, n)、SB_m2,ci[1](2, n)）は、周波数インデックスk=6〜9の４つのスペクトル（S'_m1,ci[0](k, n)、S'_m2,ci[1](k, n)）で構成される。

ここで、図５に示すように、隣接するサブバンドにそれぞれ含まれる周波数成分の一部は重複（overlap）する。例えば、サブバンド番号sb=0及びsb=1のサブバンド間では、周波数インデックスk=3のスペクトル（S'_m1,ci[0](3, n)、S'_m2,ci[1](3, n)）が重複している。また、サブバンド番号sb=1及びsb=2のサブバンド間では、周波数インデックスk=6のスペクトル（S'_m1,ci[0](6, n)、S'_m2,ci[1](6, n)）が重複している。

このように、隣接するサブバンド間において一部の周波数成分を重複させることにより、共通成分抽出部１０６は、スペクトルの合成時（再構成時）において隣接するサブバンドの両端の周波数成分を重畳加算（Overlap and Add）して、サブバンド間の接続性（連続性）を改善できる。

なお、図５に示すサブバンド構成は一例であって、サブバンド数（換言すると、分割数）、サブバンドを構成する周波数成分の数（換言すると、サブバンドサイズ）等は、図５に示す値に限定されない。また、図５では、隣接するサブバンドにおいて１つの周波数成分が重複する場合について説明したが、サブバンド間で重複する周波数成分の数は１つに限定されず、２つ以上でもよい。

また、例えば、サブバンドサイズ（又はサブバンド幅）を奇数個の周波数成分（サンプル）とし、奇数個の周波数成分のうち中心の周波数成分を1.0とする左右対称窓をサブバンドスペクトルに乗算したものを上記サブバンドと定義してもよい。

または、サブバンド幅（例えば、周波数成分の数）を２ｎ＋１とし、例えば、サブバンド内の０〜ｎ−1の周波数成分及びｎ＋１〜２ｎの周波数成分を隣接サブバンドと重複する範囲とし、隣接するサブバンドは１周波数成分ずつずらしたものとしてもよい。また、各サブバンドで算出されるゲインはｎ成分（換言すると、中心の周波数成分）のみに乗算される。すなわち、各サブバンドにおける０〜ｎ−１及びｎ＋１〜２ｎの周波数成分に対するゲインは、対応する他のサブバンド（換言すると、各周波数成分が中心に位置するサブバンド）から算出される。この場合、隣接サブバンドと重複する範囲のスペクトルはゲイン算出にのみ用いられ、スペクトルの再構成時の重畳加算は必要なくなる。

また、サブバンド間で重複する周波数成分の数は、例えば、入力信号の特徴等に応じて可変に設定されてもよい。

図４において、類似度算出部１６３は、分割部１６２−１から入力される第１音響信号のサブバンドスペクトルと、分割部１６２−２から入力される第２音響信号のサブバンドスペクトルとの類似度を算出する。類似度算出部１６３は、サブバンド毎に算出した類似度を示す類似度情報をスペクトルゲイン算出部１６４に出力する。

例えば、図５では、類似度算出部１６３は、サブバンド番号sb=0のサブバンドにおいて、サブバンドスペクトルSB_m1,ci[0](0, n)と、サブバンドスペクトルSB_m2,ci[1](0, n)との類似度を算出する。換言すると、類似度算出部１６３は、サブバンド番号sb=0のサブバンドでは、第１音響信号の４つのスペクトルS'_m1,ci[0](0, n)、S'_m1,ci[0](1, n)、S'_m1,ci[0](2, n)及びS'_m1,ci[0](3, n)によって構成されるスペクトル形状（換言すると、ベクトル成分）と、第２音響信号の４つのスペクトルS'_m2,ci[1](0, n)、S'_m2,ci[1](1, n)、S'_m2,ci[1](2, n)及びS'_m2,ci[1](3, n)によって構成されるスペクトル形状（換言すると、ベクトル成分）と、の類似度を算出する。

類似度算出部１６３は、サブバンド番号sb=1及び2のサブバンドについても同様にして類似度をそれぞれ算出する。このように、類似度算出部１６３は、第１音響信号及び第２音響信号のスペクトルを分割した複数のサブバンド毎に類似度を算出する。

類似度の一例は、第１音響信号のサブバンドスペクトルと第２音響信号のサブバンドスペクトルとのエルミート角（Hermitian Angle）である。例えば、各サブバンドにおける、第１音響信号のサブバンドスペクトル（複素スペクトル）を「s₁」と表し、第２音響信号のサブバンドスペクトル（複素スペクトル）を「s₂」と表す。この場合、エルミート角θ_Hは、次式で表される。

例えば、エルミート角θ_Hが小さいほど、サブバンドスペクトルs₁とサブバンドスペクトルs₂との類似度は高く、エルミート角θ_Hが大きいほど、サブバンドスペクトルs₁とサブバンドスペクトルs₂との類似度は低い。

また、類似度の他の例は、サブバンドスペクトルs₁及びs₂の正規化相互相関（例えば、||s₁ ^*s₂|/(||s₁||・||s₂||)|）である。例えば、正規化相互相関の値が大きいほど、サブバンドスペクトルs₁とサブバンドスペクトルs₂との類似度は高く、正規化相互相関の値が小さいほど、サブバンドスペクトルs₁とサブバンドスペクトルs₂との類似度は低い。

なお、類似度は、エルミート角及び正規化相互相関に限定されず、他のパラメータでもよい。

図４において、スペクトルゲイン算出部１６４は、例えば、重み付け関数（又は変換関数）に基づいて、類似度算出部１６３から入力される類似度情報に示される類似度（例えば、エルミート角θ_H又は正規化相互相関）をスペクトルゲイン（換言すると、重み付け係数）に変換する。スペクトルゲイン算出部１６４は、サブバンド毎に算出されるスペクトルゲインGain(sb, n)を乗算部１６５−１，１６５−２に出力する。

乗算部１６５−１は、分割部１６２−１から入力される第１音響信号のサブバンドスペクトルSB_m1,ci[0](sb, n)に、スペクトルゲイン算出部１６４から入力されるスペクトルゲインGain(sb, n)を乗算し（重み付けし）、乗算後のサブバンドスペクトルSB'_m1,ci[0](sb, n)をスペクトル再構成部１６６に出力する。

乗算部１６５−２は、分割部１６２−２から入力される第２音響信号のサブバンドスペクトルSB_m2,ci[1](sb, n)に、スペクトルゲイン算出部１６４から入力されるスペクトルゲインGain(sb, n)を乗算し（重み付けし）、乗算後のサブバンドスペクトルSB'_m2,ci[1](sb, n)をスペクトル再構成部１６６に出力する。

例えば、スペクトルゲイン算出部１６４は、変換関数f(θ_H)=cos^x(θ_H)を用いて、類似度（例えば、エルミート角）をスペクトルゲインに変換してもよい。または、スペクトルゲイン算出部１６４は、変換関数f(θ_H)=exp(-θ_H ²/2σ²)を用いて、類似度（例えば、エルミート角）をスペクトルゲインに変換してもよい。

例えば、図６に示すように、変換関数f(θ_H)=cos^x(θ_H)においてx=10（すなわち、cos¹⁰(θ_H)）の場合の特性と、変換関数f(θ_H)=exp(-θ_H ²/2σ²)においてσ＝0.3の場合の特性とはほぼ同様の特性となる。なお、変換関数f(θ_H)=cos^x(θ_H)におけるxの値は10に限定されず、他の値でもよい。また、変換関数f(θ_H)=exp(-θ_H ²/2σ²)におけるσの値は0.3に限定されず、他の値でもよい。

図６に示すように、エルミート角θ_Hが小さいほど（類似度が高いほど）、スペクトルゲイン（gain value）は高くなり（例えば、１に近づき）、エルミート角θ_Hが大きいほど（類似度が低いほど）、スペクトルゲインは低くなる（例えば、０に近づく）。

よって、共通成分抽出部１０６は、類似度が高いサブバンドほど、高い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトル成分を残留させ、類似度が低いサブバンドほど、低い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトルを減衰させる。これにより、共通成分抽出部１０６は、第１音響信号及び第２音響信号のスペクトルにおける共通成分を抽出する。

なお、変換関数f(θ_H)=cos^x(θ_H)ではxの値が大きいほど、又は、変換関数f(θ_H)=exp(-θ_H ²/2σ²)ではσの値が小さいほど、変換係数ｆ(θ_H)の勾配が急になる。換言すると、θ_Hが０から離れる距離（θ_Hの変化量）が同じであれば、xの値が大きいほど又はσの値が小さいほど、変換係数ｆ(θ_H)はより０に近くなり、サブバンドスペクトルは減衰されやすくなる。よって、xの値が大きいほど又はσの値が小さいほど、例えば、類似度が少しでも低くなると、スペクトルゲインが急速に小さくなり、対応するサブバンドの信号成分の減衰度合いがより大きくなる。

例えば、xの値が大きい場合又はσの値が小さい場合（変換関数の勾配が急になる場合）、サブバンドスペクトルにおいて少しでもターゲット以外の信号が混入していれば、類似度が低くなり、当該サブバンドスペクトルに対する減衰度合いは強くなる。よって、xの値が大きい場合又はσの値が小さい場合には、ターゲットとなる音響オブジェクト信号の抽出よりも、ターゲット以外の信号（例えば、雑音等）の減衰を優先的に行うことができる。

一方、xの値が小さい場合又はσの値が大きい場合（変換関数の勾配が緩い場合）、サブバンドスペクトルにターゲット以外の信号が混入していると、類似度は低くなるものの、当該サブバンドスペクトルに対する減衰度合いは弱くなる。よって、xの値が小さい場合又はσの値が大きい場合には、雑音等を減衰させることよりも、ターゲットとなる音響オブジェクト信号の保護を優先的に行うことができる。

このように、x又はσの値に応じて、抽出対象となる音響オブジェクトの信号成分の保護と、抽出対象以外の信号成分の低減との間にはトレードオフの関係がある。よって、共通成分抽出部１０６は、x又はσの値（換言すると変換関数の勾配を調整するパラメータ）を可変とし、適応的に制御することにより、例えば、抽出対象となる音響オブジェクト以外の信号成分の残留度合いを制御できる。

また、ここでは、類似度情報がエルミート角を示す場合について説明したが、類似度情報が正規化相互相関を示す場合についても同様に変換関数を適用してもよい。すなわち、共通成分抽出部１０６は、正規化相互相関C12＝||s₁ ^*s₂|/(||s₁||・||s₂||)|として、変換関数ｆ(C12)＝(C12)^ｘ）を用いてもよい。

図４において、スペクトル再構成部１６６は、乗算部１６５−１から入力されるサブバンドスペクトルSB'_m1,ci[0](sb, n)及び乗算部１６５−２から入力されるサブバンドスペクトルSB'_m1,ci[1](sb, n)を用いて、音響オブジェクト（ｉ番目のオブジェクト）の複素フーリエスペクトルを再構成し、得られた複素フーリエスペクトルS'_i(k, n)を周波数−時間変換部１６７に出力する。

周波数−時間変換部１６７は、スペクトル再構成部１６６から入力される音響オブジェクトの複素フーリエスペクトルS'_i(k, n)（周波数領域信号）を時間領域信号に変換する。周波数−時間変換部１６７は、得られた音響オブジェクト信号S'_i(t)を出力する。

なお、周波数−時間変換部１６７における周波数−時間変換処理は、例えば、逆フーリエ変換処理（例えば、ＩＳＦＦＴ（Inverse SFFT））でもよく、逆修正離散コサイン変換（ＩＭＤＣＴ（Inverse MDCT））でもよい。

以上、共通成分抽出部１０６における動作について説明した。

このように、音響オブジェクト抽出装置１００において、ビームフォーミング処理部１０３−１，１０３−２は、マイクロホンアレイ１０１−１に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１音響信号を生成し、マイクロホンアレイ１０１−２に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２音響信号を生成し、共通成分抽出部１０６は、第１音響信号のスペクトルと第２音響信号のスペクトルとの類似度に基づいて、第１音響信号及び第２音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。この際、共通成分抽出部１０６は、第１音響信号及び第２音響信号のスペクトルを複数のサブバンドに分割し、サブバンド毎に類似度を算出する。

これにより、音響オブジェクト抽出装置１００は、複数のビームによって得られる音響信号のスペクトルのうちのサブバンド単位のスペクトル形状に基づいて、複数のビームフォーマによって生成された音響信号から、音響オブジェクトに対応する共通成分を抽出できる。換言すると、音響オブジェクト抽出装置１００は、スペクトルの微細構造を考慮した類似度に基づいて、共通成分の抽出をできる。

例えば、本実施の形態において、上述したように、図５では類似度が算出される単位は、４個の周波数成分を含むサブバンド単位である。よって、図５では、音響オブジェクト抽出装置１００は、４個の周波数成分から構成される微小バンド内のスペクトル形状の類似度を算出し、スペクトル形状の類似度に応じてスペクトルゲインを算出する。

一方で、仮に、類似度を算出する単位が１つの周波数成分単位である場合（例えば、特許文献１を参照）、スペクトルゲインは、各周波数成分におけるスペクトルの振幅比に基づいて算出されることになる。１つの周波数成分同士での正規化相互相関は常に1.0となり、類似度を測る上では意味がない。このため、例えば、特許文献１ではクロススペクトルをビームフォーマ出力信号のパワースペクトルで正規化している。つまり、特許文献１では、２つのビームフォーマ出力信号の振幅比に相当するスペクトルゲインが算出される。

本実施の形態では、各周波数成分における振幅差（又は、振幅比）ではなく、各周波数成分におけるスペクトル形状の差（又は、類似度）に基づく抽出方法を用いる。これにより、音響オブジェクト抽出装置１００は、特定の周波数成分が同じ振幅である２つの音が入力された場合でも、スペクトル形状が似ていない場合には、ターゲットとなるオブジェクト音とは異なると判断できるので、音響オブジェクト音の抽出性能を向上することができる。

これに対して、類似度を算出する単位が１つの周波数成分単位である場合には、ターゲットとなる音響オブジェクト音と、ターゲット以外の他の音との違いに関する情報は、当該１つの周波数成分における振幅の大きさの差しか得られない。

例えば、２つのビームフォーマ出力におけるターゲットとしている音響オブジェクト音ではない互いに異なる２つの音の信号レベル比が、ターゲットの位置から到来する音の信号レベル比と同様のケースでは、これらの振幅比が同様になる。このため、ターゲットの位置から到来した音であるのか、同様の振幅比となる異なる位置から到来した音であるのか、を区別して取り扱うことができない。

この場合、仮に、類似度を算出する単位が１つの周波数成分単位である場合には、ターゲットではない音の周波数成分が、ターゲットとしている音響オブジェクト音の周波数成分として抽出されてしまい、真にターゲットとしている音響オブジェクト音の位置の周波数成分として混入してしまうことになる。

これに対して、本実施の形態では、音響オブジェクト抽出装置１００は、サブバンドを構成する複数（例えば、４つ）のスペクトル全体のスペクトル形状が一致しないと低い類似度を算出する。このため、音響オブジェクト抽出装置１００では、スペクトル形状が一致する部分と一致しない部分とで算出されるスペクトルゲインの値に差がつきやすくなり、共通する周波数成分（換言すると、類似する周波数成分）がより強調される（残る）ようになる。よって、音響オブジェクト抽出装置１００では、前述のケースにおいてもターゲットと異なる音と、ターゲットとしている音響オブジェクト音とを区別できる可能性が高くなる。

このように、本実施の形態では、音響オブジェクト抽出装置１００は、サブバンド単位、換言すると、微細スペクトル形状の単位で共通成分の抽出を行うので、特定の周波数成分においてターゲットとなる音響オブジェクト音と、ターゲットとは異なる音との区別をつけられずにターゲットではない音の周波数成分がターゲットとする音響オブジェクト音に混入してしまうことを回避できる。よって、本実施の形態によれば、音響オブジェクト音の抽出性能を向上することができる。

例えば、音響オブジェクト抽出装置１００では、入力信号のサンプリング周波数等の特徴に応じて、サブバンドのサイズ（換言すると、スペクトル形状の類似度を算出するバンド幅）を適切に設定することにより、主観品質の改善を図ることができる。

また、本実施の形態では、音響オブジェクト抽出装置１００は、類似度からスペクトルゲインを変換する変換関数として非線形関数（例えば、図６を参照）を用いる。このとき、音響オブジェクト抽出装置１００は、変換関数の勾配を調整するパラメータ（例えば、上述したｘ又はσの値）を設定することにより、変換関数の勾配（換言すると、雑音成分などの残留度合い）を制御できる。

これにより、本実施の形態では、例えば、類似度が少しでも小さくなるとスペクトルゲインが急速に小さくなるように（変換関数の勾配が急になるように）、パラメータ（例えばx又はσの値）を調整することにより、ターゲット信号以外の信号を大きく減衰できるので，ターゲット以外の信号成分をノイズとした場合のSN比を改善できる。

以上、本開示の実施の形態について説明した。

なお、上記実施の形態では、共通成分抽出部１０６において共通成分の抽出処理の対象となる第１音響信号及び第２音響信号の組み合わせについて、組み合わせ情報C_i（例えば、ci[0]及びci[1]）を用いる場合について説明した。しかし、第１音響信号及び第２音響信号において同一の音響オブジェクトに対応する信号の組み合わせ（対応付け）は、組み合わせ情報C_iを用いる方法以外の他の方法によって特定されてもよい。例えば、ビームフォーミング処理部１０３−１及びビームフォーミング処理部１０３−２の双方において、複数の音響オブジェクトのそれぞれに対応する順に音響信号がソーティングされてもよい。これにより、ビームフォーミング処理部１０３−１及びビームフォーミング処理部１０３−２からは、同一の音響オブジェクトに対応した順に、第１音響信号及び第２音響信号がそれぞれ出力される。この場合、共通成分抽出部１０６は、ビームフォーミング処理部１０３−１及びビームフォーミング処理部１０３−２から出力される音響信号の順に、共通成分の抽出処理を行えばよい。よって、この場合、組み合わせ情報C_iは不要である。

また、上記実施の形態では、音響オブジェクト抽出装置１００がマイクロホンアレイを２つ備える場合について説明したが、音響オブジェクト抽出装置１００はマイクロホンアレイを３つ以上備えてもよい。

また、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるＬＳＩとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのＬＳＩ又はＬＳＩの組み合わせによって制御されてもよい。ＬＳＩは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。ＬＳＩはデータの入力と出力を備えてもよい。ＬＳＩは、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。集積回路化の手法はＬＳＩに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム（通信装置と総称）において実施可能である。通信装置の、非限定的な例としては、電話機（携帯電話、スマートフォン等）、タブレット、パーソナル・コンピューター（ＰＣ）（ラップトップ、デスクトップ、ノートブック等）、カメラ（デジタル・スチル／ビデオ・カメラ等）、デジタル・プレーヤー（デジタル・オーディオ／ビデオ・プレーヤー等）、着用可能なデバイス（ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等）、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン（遠隔ヘルスケア・メディシン処方）デバイス、通信機能付きの乗り物又は移動輸送機関（自動車、飛行機、船等）、及び上述の各種装置の組み合わせがあげられる。

通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス（家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等）、自動販売機、その他ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）ネットワーク上に存在し得るあらゆる「モノ（Things）」をも含む。

通信には、セルラーシステム、無線ＬＡＮシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。

また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサ等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサが含まれる。

また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。

本開示の実施例に係る音響オブジェクト抽出装置は、第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成するビームフォーミング処理回路と、前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第１の音響信号及び前記第２の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。

本開示の実施例に係る音響オブジェクト抽出装置において、隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する。

本開示の実施例に係る音響オブジェクト抽出装置において、前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第１の音響信号のスペクトル及び前記第２の音響信号のスペクトルにそれぞれ乗算し、前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である。

本開示の実施例に係る音響オブジェクト抽出方法は、第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成し、前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第１の音響信号及び前記第２の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。

２０１８年９月２６日出願の特願２０１８−１８０６８８の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本開示の一実施例は、音場ナビゲーションシステムに有用である。

１００音響オブジェクト抽出装置
１０１−１，１０１−２マイクロホンアレイ
１０２−１，１０２−２到来方向推定部
１０３−１，１０３−２ビームフォーミング処理部
１０４相関確認部
１０５三角測量部
１０６共通成分抽出部
１６１−１，１６１−２時間−周波数変換部
１６２−１，１６２−２分割部
１６３類似度算出部
１６４スペクトルゲイン算出部
１６５−１，１６５−２乗算部
１６６スペクトル再構成部
１６７周波数−時間変換部

Claims

第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成するビームフォーミング処理回路と、
前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、
を具備し、
前記抽出回路は、前記第１の音響信号及び前記第２の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する、
音響オブジェクト抽出装置。
隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する、
請求項１に記載の音響オブジェクト抽出装置。
前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第１の音響信号のスペクトル及び前記第２の音響信号のスペクトルにそれぞれ乗算し、
前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である、
請求項１に記載の音響オブジェクト抽出装置。
第１のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第１の音響信号を生成し、第２のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第２の音響信号を生成し、
前記第１の音響信号のスペクトルと前記第２の音響信号のスペクトルとの類似度に基づいて、前記第１の音響信号及び前記第２の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、
前記第１の音響信号及び前記第２の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される、
音響オブジェクト抽出方法。