WO2020071351A1

WO2020071351A1 - 信号分離装置、信号分離方法、及びプログラム

Info

Publication number: WO2020071351A1
Application number: PCT/JP2019/038714
Authority: WO
Inventors: 澤田　宏
Original assignee: 日本電信電話株式会社
Priority date: 2018-10-03
Filing date: 2019-10-01
Publication date: 2020-04-09
Also published as: JP2020056939A; US11922966B2; US20220028408A1

Abstract

複数のセンサで観測された混合信号から源信号を取得するための信号分離装置において、クリーン信号の特徴情報を格納するデータベースと、時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段とを備える。

Description

信号分離装置、信号分離方法、及びプログラム

　本発明は、信号処理の技術分野に属する。特に、源信号がどのように混合したかという情報が無い状況で、複数のセンサで観測される混合信号から、目的となる源信号を精度良く取り出すブラインド信号分離の技術に関する。信号の種類は特に問わないが、例えば、音声、無線信号などである。

　まず、従来の信号分離方法について説明する。

　ｊ＝１，...，Ｊで離散時間、ｉ＝１，...，Ｉで離散周波数を表す。各時間周波数（ｉ，ｊ）毎にＭ個のセンサで観測信号ｘ_ｉｊｍ，ｍ＝１，...，Ｍを得るものとする。Ｍ個をまとめてベクトル表現ｘ_ｉｊ＝［ｘ_ｉｊ１，...，ｘ_ｉｊＭ］^Ｔする。信号分離の目的は、観測信号のみから周波数ｉ毎にＮ×Ｍの分離行列Ｗ_ｉを求め、できるだけ源信号に近い分離信号ｙ_ｉｊｎ＝［ｙ_ｉｊ］_ｎ，ｎ＝１，...，Ｎを
　　　　　　　　　ｙ_ｉｊ＝Ｗ_ｉｘ_ｉｊ　　　　　　　　（１）
により計算することである。

　分離信号ｙ_ｉｊｎが複素数の時変ガウス分布に従うと仮定すると、確率密度関数は

となり、負の対数尤度

を目的関数とし、これを最小化するものとして分離行列を求める方法が知られている。しかし、すべての時間ｊ、周波数ｉ、信号ｎについて分散ｖ_ｉｊｎをパラメータとするこの方法は自由度が高すぎて、各周波数で分離信号の順序が入れ替わる可能性がある。すなわち、いわゆるパーミュテーション問題が起こる可能性がある。

　その問題を解決する従来法として時変ガウス分布に基づく独立ベクトル分析(ＩＶＡ: Independent Vector Analysis)が知られている。ここでは、下記の式（４）に示されるように、分散パラメータｖ_ｊｎを、時間ｊと信号ｎのみに依存し、周波数ｉには依存しないものとする。

　本従来法では、周波数に関わらず同じ分散パラメータを持つため、音声など低周波数に大きな分散を持ち高周波数では小さな分散となるような特徴を正しく反映しているとは言い難い。

　そこで、下記の式（５）に示すように、この分散を低ランク行列で表現する独立低ランク行列分析（ＩＬＲＭＡ:Independent Low-Rank Matrix Analysis）が後に提案された（非特許文献１参照）。

ここで低ランク行列は信号ｎ毎に推定され、それぞれＩ×Ｊの大きさで要素Σ^Ｋ _ｋ＝１ｔ_ｉｋｎｖ_ｊｋｎを持ち、Ｋが行列のランクとなる。

Kitamura Daichi, et al. "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization." IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 24.9 (2016): 1622-1637.

　独立ベクトル分析及び独立低ランク行列分析は、十分な時間の観測信号（例えば６秒程度以上）があれば効果的であるが、観測信号の長さが短いと、源信号毎の統計的な情報を十分学習することが出来ず、効果的に動作しないことがある。

　本発明は上記の点に鑑みてなされたものであり、短い観測信号に対しても効果的に信号分離を達成する技術を提供することを目的とする。

　開示の技術によれば、複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、
　クリーン信号の特徴情報を格納するデータベースと、
　時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、
　前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段と
　を備える信号分離装置が提供される。

　開示の技術によれば、例えば０．５秒から１秒程度の短い観測信号に対しても効果的に信号分離を達成することが可能となる。

本発明の実施の形態における信号分離装置の機能構成図である。信号分離装置のハードウェア構成例を示す図である。信号分離装置の動作手順を示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施の形態に限られるわけではない。また、以下で信号分離の対象とする信号の種類には特に限定はなく、どのような信号でもよいが、例えば音声信号、無線信号などが対象とされる。

　（装置構成例）
　図１は、本発明の実施の形態における信号分離装置１００の機能構成図である。図１に示すように、本実施の形態における信号分離装置１００は、周波数領域変換部１１０、線形変換部１２０、行列最適化部１３０、分散計算部１４０、時間領域変換部１５０、及びデータベース１６０を有する。

　なお、データベース１６０とその他の機能部とが物理的に離れていて、これらがネットワークで接続される構成であってもよい。また、データベース１６０が信号分離装置１００の外部に備えられる構成であってもよい。また、線形変換部１２０、行列最適化部１３０、分散計算部１４０からなる部分を分離行列算出手段と称してもよい。各機能部の詳細動作等については後述する。

　信号分離装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、信号分離装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図２は、上記コンピュータのハードウェア構成例を示す図である。図２のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、及び入力装置１００７等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、信号分離装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられ、ネットワークを介した入力手段及び出力手段として機能する。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。表示装置１００６は出力手段の例でもある。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。

　以下、信号分離装置１００の動作等について詳細に説明する。

　（データベース１６０について）
　まず、本発明に係る技術のポイントとなるデータベース１６０について説明する。データベース１６０は、源信号の特徴を表現する大規模なデータベース装置であり、混合されていないクリーンな信号の特徴情報が格納される。例えば音声を対象とした信号分離の際には、大量のクリーン音声の特徴が予めデータベース１６０に格納される。

　実際に本発明に係る技術により信号分離を行う際に対象となる源信号がデータベース１６０に存在する必要はなく、似たような周波数特徴を持つ別の信号がデータベース１６０に存在すれば良い。

　データベース１６０が格納対象とする信号がＬ個の信号ｌ＝１，...，Ｌであるとする。それぞれを時間周波数表現に変換した結果をｓ_ｉｊｌで表現する。また、ｊ＝１，...，Ｊ_ｌで離散時間、ｉ＝１，...，Ｉで離散周波数を表す。この時間周波数表現を自乗してパワースペクトルとし、すべての周波数をまとめてベクトル表現
　　ｓ_ｊｌ＝［｜ｓ_１ｊｌ｜^２，...，｜ｓ_Ｉｊｌ｜^２］^Ｔ　　　　　　（６）
にしたものをデータベース１６０のエントリとする。このエントリがデータベース１６０にはΣ^Ｌ _ｌ＝１Ｊ_ｌ個格納されることになる。つまり、各信号の離散時間数は、Ｊ_ｌであり、そのＬ個分の合計のエントリ数になる。

　信号分離装置１００が、式（３）で表現される負の対数尤度を最小化するにあたり、分散ｖ_ｉｊｎを自由なパラメータとして設定するのではなく、データベース１６０のΣ^Ｌ _ｌ＝１Ｊ_ｌ個のエントリから適切なものを１つ選び出して設定する。すなわち、現状の分離信号のパワースペクトルｒ_ｊｎ＝［｜ｙ_１ｊｎ｜^２，...，｜ｙ_Ｉｊｎ｜^２］^Ｔになるべく近いデータベース１６０のエントリｓ_＊を特定し、そのベクトルの要素を分散パラメータに設定する。つまり、例えばｖ_ｉｊｎ＝ｓ_ｉ＊とする。

　なお、クリーンな信号の量や長さが増えるに従いデータベース１６０のエントリ数が増加することは、分散パラメータを精度良く推定できる利点があるが、なるべく近いエントリを特定するための処理時間が増大するという問題が起こる。その問題を解決するために本実施の形態では高速類似探索技術を用いる。

　（信号分離装置１００の動作）
　以下、図１に示す構成を備える信号分離装置１００の動作を、図３に示すフローチャートの手順に沿って説明する。以下で説明する"Ｓ１０１"などは、図３のフローチャートのステップを示す。以下の説明において、ｊ＝１，...，Ｊで離散時間、ｉ＝１，...，Ｉで離散周波数を表す。

　まず、Ｓ１０１において、線形変換部１２０と行列最適化部１３０が共有する行列Ｗ_ｉ，ｉ＝１，...，Ｉを、単位行列として初期化する。

　Ｍ個のセンサにおける時間領域の観測信号が信号分離装置１００に入力されると、Ｓ１０２において、周波数領域変換部１１０は、短時間フーリエ変換により観測信号を時間周波数表現ｘ_ｉｊ，ｉ＝１，...，Ｉ，ｊ＝１，...，Ｊに変換する。

　その後、下記で説明するＳ１０３～Ｓ１０５に処理を、終了条件を満足するまで（Ｓ１０６がＹｅｓとなるまで）繰り返す。終了条件は、例えば、繰り返し回数が予め定めた回数に達したこと、あるいは、Ｗ_ｉの値が収束する（例：数回に渡りＷ_ｉの変化量が微小値以下となる）ことである。なお、前述したとおり、Ｗ_ｉはＮ×Ｍの行列である。

　Ｓ１０３において、線形変換部１２０は、式（１）に従って時間周波数表現ｙ_ｉｊ，ｉ＝１，...，Ｉ，ｊ＝１，...，Ｊを計算する。

　続いて、Ｓ１０４において、分散計算部１４０が、データベース１６０に対して近傍探索を行い、目的関数（負の対数尤度）を表す式（３）で用いる分散パラメータｖ_ｉｊｎを計算する。

　Ｓ１０５において、行列最適化部１３０は、式（３）を最小化するための分離行列Ｗ_ｉ，ｉ＝１，...，Ｉを計算する。

　Ｓ１０３～Ｓ１０５が繰り返され、Ｓ１０６の判定がＹｅｓになると、Ｓ１０７において、時間領域変換部１５０は、最適化された分離行列Ｗ_ｉから得られたｙ_ｉｊに対して短時間フーリエ変換の逆変換を行うことにより、時間領域の分離信号（源信号）を出力する。なお、信号分離装置１００は、Ｓ１０６の判定がＹｅｓになるＷ_ｉで得られたｙ_ｉｊそのものを分離信号として出力することとしてもよい。

　以下、分散計算部１４０と行列最適化部１３０の詳細を説明する。

　［分散計算部１４０］
　分散計算部１４０は、信号ｎ及び時間ｊ毎に下記の処理を実行する。本実施の形態では板倉斎藤擬距離（Itakura-Saito divergence）を基準として用いて近傍探索を行う。

　２つのＩ次元ベクトルｒ＝［ｒ_１，...，ｒ_Ｉ］^Ｔとｓ＝［ｓ_１，...，ｓ_Ｉ］^Ｔの板倉斎藤擬距離を

と定義する。現状の分離信号のパワースペクトル（ベクトル）ｒ_ｊｎに対してスケールの自由度αを考慮した上で最も近傍となるデータベースのエントリのベクトルｓ_＊を
　　　ｓ_＊＝ａｒｇｍｉｎ_ｊ，ｌＤ_ＩＳ（ｒ_ｊｎ，αｓ_ｊｌ）
として探索する。なお、Ｄ_ＩＳ（ｒ，αｓ）を最小化するαは

として求まる。そして、分散ｖ_ｉｊｎを
　　　　ｖ_ｉｊｎ＝α［ｓ_＊］_ｉ
と設定する。［ｓ_＊］_ｉは、ベクトルｓ_＊の周波数ｉの要素である。

　［行列最適化部１３０］
　行列最適化部１３０は、周波数（混合系）ｉ毎に行列

を下記の手順で更新する。まず、観測信号の相関行列の重み付き平均

をすべての信号ｎ＝１，...，Ｎに関して計算する。これらＮ個の行列Ｕ_ｉｎをハイブリッド同時対角化（ＨＥＡＤ:Hybrid Exact-Approximate Joint Diagonalization）する行列としてＷ_ｉを更新する。その方法の例として、下記の式（９）、式（１０）を計算する方法がある。すなわち、

を計算し（ここでｅ_ｎはｎ番目の要素のみが１でそれ以外がすべて０であるベクトル）、スケールを

により正規化する。なお、本実施の形態に記載したＨＥＡＤを用いる方法以外にも、目的関数である式（３）のＷ_ｉに関する微分

を計算して行う勾配降下法や、式（１１）にＷ_ｉ ^ＨＷ_ｉを右からかけたものを用いる自然勾配法を用いて最適化することも可能である。また、これら以外の方法でＷ_ｉを最適化することとしてもよい。

　（実施の形態の効果）
　本実施の形態に係る技術では、目的関数において用いるパラメータｖ_ｉｊｎの取得のために離散時間毎にデータベース１６０のエントリを特定すればよいので、統計的な情報を学習する必要がない。従って、例えば０．５秒から１秒程度の短い観測信号に対しても効果的に信号分離を達成することができる。

　（実施の形態のまとめ）
　以上、説明したように、本実施の形態により、複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、クリーン信号の特徴情報を格納するデータベースと、時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段とを備える信号分離装置が提供される。

　前記データベースに格納された特徴情報は、例えば、前記クリーン信号の離散時間毎のパワースペクトルである。

　前記分離行列算出手段は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定することとしてもよい。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　信号分離装置
１１０　周波数領域変換部
１２０　線形変換部
１３０　行列最適化部
１４０　分散計算部
１５０　時間領域変換部
１６０　データベース
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インターフェース装置
１００６　表示装置
１００７　入力装置

Claims

　複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、
　クリーン信号の特徴情報を格納するデータベースと、
　時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、
　前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段と
　を備える信号分離装置。
　前記データベースに格納された特徴情報は、前記クリーン信号の離散時間毎のパワースペクトルである
　請求項１に記載の信号分離装置。
　前記分離行列算出手段は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定する
　請求項２に記載の信号分離装置。
　複数のセンサで観測された混合信号から源信号を取得するための信号分離装置が実行する信号分離方法であって、
　前記信号分離装置は、クリーン信号の特徴情報を格納するデータベースを備えており、
　時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出ステップと、
　前記分離行列算出ステップにより得られた最適化された分離行列を用いて算出された分離信号を出力する出力ステップと
　を備える信号分離方法。
　前記データベースに格納された特徴情報は、前記クリーン信号の離散時間毎のパワースペクトルである
　請求項４に記載の信号分離方法。
　前記分離行列算出ステップにおいて、前記信号分離装置は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定する
　請求項５に記載の信号分離方法。
　コンピュータを、請求項１ないし３のうちいずれか１項に記載の信号分離装置における各手段として機能させるためのプログラム。