WO2022162878A1

WO2022162878A1 - 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム

Info

Publication number: WO2022162878A1
Application number: PCT/JP2021/003278
Authority: WO
Inventors: 翼落合; マークデルクロア; 智広中谷; 林太郎池下; 慶介木下; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-08-04
Also published as: US20240129666A1; JPWO2022162878A1

Abstract

推定装置（１０）は、音響信号を処理する信号処理装置であって、ニューラルネットワーク（ＮＮ）（１１）を有する深層学習モデルを用いて、入力された実マイクの観測信号から、仮想的に配置された仮想マイクの観測信号を推定する。

Description

信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム

　本発明は、信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラムに関する。

　音声強調、音源分離、音源方向推定等、様々なアプリケーションにおいて、マイクロホンアレイ（複数のマイク）を用いるアレイ信号処理技術が広く利用されている。

　アレイ信号処理の性能は，基本的にマイクの数に依存するが、実際に運用する場合、デバイスの多くには制約があり、マイクの数を増やすことが難しい場合が多い。このため、マイクの数が少ない場合におけるマイクロホンアレイ技術の性能を向上させることが望まれている。

　これに対し、従来、実際にはマイクが設定されていない位置に仮想的に配置された仮想マイクの信号を推定して、仮想的に観測マイクの数を増やすことを可能とするような方法が研究されている。例えば、物理モデルに基づき仮想マイク信号の位相成分を推定する方法がある。物理モデルは、平面波仮定、音声のスパース性、十分に間隔の狭いマイクアレイ等を仮定するモデルである。

Hiroki　Katahira,　"Nonlinear　speech　enhancement　by　virtual　increase　of　channels　and　maximum　SNR　beamformer",　［online］，［令和３年１月２５日検索］、インターネット＜ＵＲＬ：https://asp-eurasipjournals.springeropen.com/track/pdf/10.1186/s13634-015-0301-3.pdf＞

　従来の研究では、物理モデルに基づいて仮想マイクの信号の推定を行っていたが、この物理モデルが必ずしも成り立つとは限らず、仮想マイクの信号（特に位相）を推定することが難しいという問題があった。

　本発明は、上記に鑑みてなされたものであって、信号に対する明示的な仮定を置くことなく、仮想的に配置されたマイクの信号を推定することができる信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、音響信号を処理する信号処理装置であって、ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、仮想的に配置された仮想マイクの観測信号を推定する推定部を有することを特徴とする。

　また、本発明に係る学習装置は、学習データとして、実マイクの観測信号と、推定対象である、仮想的に配置された仮想マイクの位置において実際に観測された観測信号との入力を受け付ける入力部と、ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、仮想マイクの観測信号を推定する推定部と、推定部によって推定された仮想マイクの観測信号が、仮想マイクの位置において実際に観測された観測信号に近づくよう、ニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。

　本発明によれば、信号に対する明示的な仮定を置くことなく、仮想的に配置されたマイクの信号を推定することができる。

図１は、実施の形態１に係る推定装置の一例を模式的に示す図である。図２は、実施の形態１に係る推定処理の処理手順を示すフローチャートである。図３は、実施の形態２に係る学習装置一例を模式的に示す図である。図４は、実施の形態２に係る学習処理の処理手順を示すフローチャートである。図５は、実施の形態３に係る信号処理装置の一例を模式的に示す図である。図６は、CHiME-4コーパスのマイクロホンアレイ配置を示す図である。図７は、プログラムが実行されることにより、推定装置、学習装置及び信号処理装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトル、行列またはスカラーであるAに対し、“＾A”と記載する場合は「“A”の直上に“＾”が記された記号」と同等であるとする。

［実施の形態１］
　実施の形態１では、マイクロホンアレイを用いるアレイ信号処理のために、仮想的に配置した仮想マイクの信号を推定する推定装置について説明する。

　実施の形態１に係る推定装置は、信号に対する明示的な仮定を置くことなく、仮想的に配置されたマイク（仮想マイク）の信号を推定する。図１は、実施の形態１に係る推定装置の一例を模式的に示す図である。

　推定装置１０（推定部）は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、推定装置１０は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

　図１に示すように、実施の形態１に係る推定装置１０は、ＮＮ１１を有する。図１では、説明の簡略化のために、実際に観測された実マイクに対応する２つのチャネルを受信し、仮想マイクに対応する１つのチャネルを生成する例を示す。

　ＮＮ１１は、入力された実マイクで観測された観測信号から、仮想的に配置された仮想マイクの観測信号（振幅及び位相成分）を推定する。実マイクは、実際に設置されたマイク（図１では、マイク１，３）である。実マイクの観測信号rは、実マイクにおいて観測された混合音響信号（図１では、実線の丸印の１，３）である。仮想マイクは、実マイクの位置と異なる位置に仮想的に配置されたマイク（図１では、マイク２）である。ＮＮ１１は、仮想マイクの観測信号＾v（図１では、破線の丸印の２）を推定し、出力する。

　ＮＮ１１は、例えば、高い位相推定性能を有する時間領域・深層学習モデルである。ＮＮ１１は、物理仮定に基づくことなく、時間領域内で直接作動するＮＮであり、時間領域信号を正確に推定できる。推定装置１０は、ＮＮ１１を用いて、入力された実マイクの観測信号である時間領域信号から、仮想マイクの観測信号である時間領域信号を推定する。以降、本実施の形態１では、時間領域から直接仮想マイクの観測信号を推定する方法であるＮＮベースの仮想マイク信号推定（NN-VME：Neural　Network-based　Virtual　Microphone　Estimator）を提案する。なお、ＮＮ１１は、必ずしも時間領域モデルである必要はなく、周波数領域モデルによって実現してもよい。ＮＮ１１は、エンコーダ１１１、畳み込みブロック１１２及びデコーダ１１３を有する。

　エンコーダ１１１は、音響信号を所定の特徴空間にマッピング、すなわち音響信号を特徴量ベクトルに変換するニューラルネットワークである。畳み込みブロック１１２は、１次元の畳み込み等を行うための層の集合である。デコーダ１１３は、所定の特徴空間上の特徴量を音響信号の空間にマッピングする、すなわち特徴量ベクトルを音響信号に変換するニューラルネットワークである。ＮＮ１１は、デコーダ１１３によって変換された観測信号を、仮想マイクの推定信号＾vとして出力する。

　畳み込みブロック、エンコーダ及びデコーダの構成は、参考文献１（Y.　Luo　and　N.　Mesgarani,　“Conv-TasNet:　Surpassing　ideal　time-frequency　magnitude　masking　for　speech　separation”,　IEEE/ACM　Trans.　ASLP,　vol.　27,　no.　8,　pp.　1256-1266,　2019.）に記載の構成と同様であってもよい。また、時間領域の音響信号は、参考文献１に記載の方法により得られたものであってもよい。また、以降の説明における各特徴量は、ベクトルで表されるものとする。

［推定処理］
　続いて、ＮＮ１１が、１つ以上の仮想マイクを同時に推定する場合について説明する。まず、r_cは、c番目の実マイクのT長時間領域波形であり、＾v_c´は、c´番目の仮想マイクの推定信号を示す。実マイク信号r=｛r_c=1,…,r_c=Cr｝を入力とすると、NN-VMEモジュールであるＮＮ１１は、仮想マイク信号＾v=｛＾v_c´=1,…,＾v_c´=Cv｝を式（１）のように推定する。

　ここで、C_rは観測チャネル（すなわち、実マイク）の数を示し、C_vは仮想上の推定チャネル（すなわち、仮想マイク）の数を示し、NN-VME（・）はニューラルネットワークである。

［推定処理の処理手順］
　図２は、実施の形態１に係る推定処理の処理手順を示すフローチャートである。推定装置１０では、実マイクの観測信号rが入力されると、入力された実マイクの時間領域の観測信号rを特徴量に変換する（ステップＳ１）。畳み込みブロック１１２は、１次元の畳み込みを行う（ステップＳ２）。

　デコーダ１１３は、特徴量を、仮想マイクの位置での観測信号に変換する（ステップＳ３）。ＮＮ１１は、デコーダ１１３によって変換された観測信号を、仮想マイクの推定信号＾vとして出力する（ステップＳ４）。

［実施の形態１の効果］
　このように、推定装置１０は、高い位相推定性能を有する時間領域・深層学習モデルを用いて、入力された実マイクで観測された観測信号から、直接仮想マイクの観測信号を推定する。実施の形態１０では、このようなデータドブリンの枠組みにより、信号に対する明示的な仮定（例えば、物理的モデル）を置くことなく、仮想的マイクの信号（振幅及び位相成分）を直接推定することができる。そして、推定装置１０では、高い位相推定性能を有する時間領域・深層学習モデルを用いることで、仮想マイクの信号として、振幅と位相との双方の推定を実現した。

　したがって、本実施の形態１によれば、仮想的に観測マイクの数を増やすことが可能になり、マイクの数が少ない場合であっても、マイクロホンアレイ技術の性能の向上を図ることができる。

［実施の形態２］
　次に、実施の形態２について説明する。実施の形態２では、推定装置１０におけるＮＮ１１の学習を行う学習装置について説明する。ＮＮ－ＶＮＥモジュールであるＮＮ１１に仮想マイクの信号を推定させるため、学習装置２０では、教師有り学習を採用し、学習データとして、運用時に実際に配置される実マイクの観測信号に加え、仮想マイクの位置における実マイクの観測信号を使用する。

　図３は、実施の形態２に係る学習装置一例を模式的に示す図である。なお、実施の形態１と同じ構成は同じ符号を付して説明を省略する。また、図３では、説明の簡易化のため、学習装置２０は、実マイクに対応する２つのチャネルを受信し、仮想マイクに対応する１つのチャネルを生成するＮＮ１１に対する学習を実行する場合を例に説明する。

　図３に示す学習装置２０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置２０は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。学習装置２０は、ＮＮ１１、入力部２１及びパラメータ更新部２２を有する。

　入力部２１は、学習データとして、運用時に設置される実マイク（マイク１，３）の観測信号（図３では、実線の丸印の１，３）と、推定対象である、仮想的に配置された仮想マイク（マイク２）の位置において実際に観測された観測信号（図３では、実線の丸印の２）との入力を受け付ける。入力部２１は、運用時に設置される実マイクの時間領域の観測信号r（図３では、実線の丸印の１，３）をＮＮに入力する。入力部２１は、仮想マイクの位置において実際に観測された観測信号t（図１では、実線の丸印の２）をパラメータ更新部２２に入力する。

　ＮＮ１１（推定部）は、入力された実マイク（マイク１，３）で観測された観測信号rから、仮想的に配置された仮想マイク（マイク２）の観測信号＾v（図３では、破線の丸印の２）を推定する。

　パラメータ更新部２２は、ＮＮ１１によって推定された仮想マイクの観測信号＾vが、前記仮想マイクの位置において実際に観測された観測信号tに近づくよう、ＮＮ１１のパラメータを更新する。

［学習処理］
　続いて、学習処理について説明する。学習装置２０は、NN-VMEモジュールであるＮＮ１１に仮想マイク信号を推定させるため、教師あり学習を採用する。このため、学習時には、学習対象として、実マイクの観測信号とともに、仮想マイクの位置における実マイクの観測信号を使用する。

　そこで、入力信号及びターゲット信号｛r,t｝のセットが利用可能であると仮定する。ここで、t=｛t_c´=1,...,t_c´=Cv｝であり、t_c´はc´番目の仮想マイクに対するターゲット信号を示す。図３では、マイクロホンのサブセット（たとえば、チャネル１及び３）がネットワーク入力値rとして割り当てられ、別のサブセット（たとえば、チャネル２）がネットワークターゲット値tとして使用された場合を示す。

　仮想マイクの位置における推定信号と実信号との間の時間領域損失に基づいてＮＮ１１を学習させる。パラメータ更新部２２では、損失として、例えば、式（２）のようにスケール依存の信号対雑音比（SNR：signal-to-noise　ratio）を採用する。

　ここで、式（１）で説明したように、＾v=NN-VME(r)である。

［学習処理の処理手順］
　次に、実施の形態２に係る学習処理について説明する。図４は、実施の形態２に係る学習処理の処理手順を示すフローチャートである。

　図４に示すように、学習データとして、運用時に設置される実マイクの観測信号、推定対象である、仮想的に配置された仮想マイクの位置において実際に観測された観測信号との入力を受け付ける（ステップＳ１１）。入力部２１は、運用時に設置される実マイクの時間領域の観測信号rをＮＮ１１に入力する（ステップＳ１２）。

　ＮＮ１１は、図２に示すステップＳ１～ステップＳ４と同じ処理を行うことによって、入力された実マイクで観測された観測信号rから、仮想的に配置された仮想マイクの観測信号＾vを推定する（ステップＳ１３～ステップＳ１６）。

　パラメータ更新部２２は、ＮＮ１１によって推定された仮想マイクの観測信号＾vが、仮想マイクの位置において実際に観測された観測信号tに近づくよう、ＮＮ１１のパラメータを更新する（ステップＳ１７）。パラメータ更新部２２は、式（２）により計算される損失が最適化されるようにＮＮ１１のパラメータを更新する。

　そして、パラメータ更新部２２は、終了条件に達したか否かを判定する（ステップＳ１８）。終了条件に達した場合（ステップＳ１８：Ｙｅｓ）、学習装置２０は、処理を終了し、終了条件に達していない場合（ステップＳ１８：Ｎｏ）、ステップＳ１２に戻る。終了条件は、例えば、ＮＮ１１に対するパラメータ更新が所定の回数に到達したことや、パラメータ更新に使用する損失の値が所定の閾値以下となったこと、パラメータの更新量（損失関数値の微分値等）が所定の閾値以下となったこと等である。

［実施の形態２の効果］
　このように、実施の形態２に係る学習装置２０では、音声強調法の学習とは異なり、ペアとなったノイズの多い信号とクリーン信号とを必要とすることなく、複数の実マイクの観測信号のみを学習データとして必要とする。言い換えると、学習装置２０では、学習データとして、マルチチャネルのノイズを含む観測信号（混合音響信号）のみがあればよいため、デバイスの形に制限がなく、多数のチャネルの混合音響信号を学習データとして使用することができる。すなわち、学習装置２０は、シミュレーション録音ではなく、多数のマイクで録音した現実の録音を、そのまま、学習データとして使用することができる。

　このため、学習装置２０では、学習データの準備が容易で低コストである。そして、学習装置２０は、大量の学習データを利用することにより、強力なＮＮ１１を構築することができ、このＮＮ１１によって現実の録音の精細なモデル化が可能となる。

［実施の形態３］
　推定装置１０によって、仮想マイク信号の生成が可能となるため、各種アレイ処理に使用することができる。そこで、本実施の形態３では、推定装置１０を周波数領域ビームフォーマと組み合わせた構成を例として説明する。

［信号処理装置］
　図５は、実施の形態３に係る信号処理装置の一例を模式的に示す図である。図５に示す信号処理装置１００は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、信号処理装置１００は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。信号処理装置１００は、推定装置１０、マイク信号処理部３０及びアプリケーション部４０（信号処理部）を有する。

　マイク信号処理部３０は、実マイクの観測信号と、推定装置１０によって推定された仮想マイクの観測信号とを基に、雑音成分が取り除かれた音声強調信号を生成する。なお，マイク信号処理部３０には，音源分離処理や音源定位処理などが入る場合もある。

　アプリケーション部４０は、音声強調信号を用いた別のタスク依存の処理を行う。アプリケーション部４０は、例えば，音声認識処理を行う。なお、信号処理装置１００の処理順は一例であり、音源分離処理後に音声認識処理が行われる場合や、音源定位処理後に音声強調処理や音源分離処理が行われる場合もある。

［音声強調部の処理］
［基本手順］
　まず、推定装置１０を用いて、式（１）で説明したように実マイク信号r∈R^T×Crとして、仮想マイク信号＾v∈R^T×Cvを推定し、拡張マイク信号y=[r,＾v]∈R^T×C（C=C_r+C_v）を求める。次に、マイク信号処理部３０は、周波数領域表現（すなわち、短時間フーリエ変換（STFT：Short-Time　Fourier　Transform）における拡張マイク信号に加えて周波数領域ビームフォーマを使用して強調音声信号を取得する。最後に、逆STFTを用いて強調時間領域波形を復元する。

　STFT領域＾X_t,f∈Cにおける強調音声信号は、＾X_t,f=w^H _fY_t,fとして求められる。ここで、Y_t,f∈C^Cは、時間周波数ビン（t,f）における拡張マイクロホン号のCチャネルSTFT係数を含むベクトルであり、w_f∈C^Cは、ビームフォーミングフィルタ係数を含むベクトルであり、^Hは共役転置を表す。

［MVDR形式化］
　マイク信号処理部３０は、例えば、最小分散無歪応答法（MVDR：Minimum　Variance　Distortionless　Response）ビームフォーミング（参考文献２：Mehrez　Souden,　Jacob　Benesty,　and　Sofiene　Affes,　“On　optimal　frequency-domain　multichannel　linear　filtering　for　noise　reduction”,IEEE　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　18,　no.　2,　pp.　260－276,　2009.）を使用し、時不変フィルタ係数w_fを式（３）のように算出する。

　ここで、Φ^S _f∈C^C×C及びΦ^N _f∈C^C×Cは、それぞれ音声信号及びノイズ信号の空間共分散（SC）行列である。u∈R^Cは、参照マイクロホンを表すone-hotベクトルである。

　そして、時間周波数マスクを用いて、SC行列を式（４）のように推定する（参考文献３：Jahn　Heymann,　Lukas　Drude,　and　Reinhold　Haeb-Umbach,　“Neural　network　based　spectral　mask　estimation　for　acoustic　beamforming”,in　IEEE　International　Conference　on　Acoustics,　Speech　and　Signal　Processing　(ICASSP),　2016,　pp.　196－200.）。

　ここで、ν∈｛S,N｝である。m^S _t,f∈[0,1]及びm^N _t,f∈[0,1]は、それぞれ音声及びノイズの時間周波数マスクである。

［仮想マイクロホン・ローディング］
　後述する実験では、ビームフォーミングにおける仮想マイクの使用は、信号対歪み比（SDR：Signal-to-Distortion　Ratios）を高めるには効果的であるものの、必ずしも自動音声認識（ASR：Automatic　Speech　Recognition）性能を上げることはないということが明らかになった。これは、仮想マイク推定によって処理アーティファクトが混入するためである。

　このアーティファクトの影響を減らすため、式（５）に示す仮想マイクロホン・ローディング項Z∈R^Cを、SC行列Φ^N _fに加えた。すなわち、マイク信号処理部３０では、音声信号及びノイズ信号の空間共分散行列に、仮想マイクのチャネルの重みを低減するローディング項を加える。

　ここで、Z=｛z_c,c´｝^C,C _c=1,c´=1は、仮想マイクに対応する対角線要素以外はゼロの行列である。すなわち、z_cv,cv=1であり、c_vは、仮想マイクに対応するチャネル指数を示し、εはビームフォーマを形成する際の仮想マイクの貢献度を制御するローディング・ハイパーパラメータである。たとえば、εに大きい値を設定すると、他のマイクと相関しない大きなノイズが仮想マイクに混入していることを意味する。したがって、推定ビームフォーマは、仮想マイクのチャネルの重みを減らすことで、ASRの性能向上を見込むことができる。

［実施の形態３の効果］
　NN-VMEモジュールを有する推定装置１０によって推定された仮想マイクの信号によって、NN-VMEによって拡張された音声強調及び信号処理の性能の向上も見込むことができる。

［実験］
　NN-VMEを評価するため、以下の２つの評価を行った。NN-VMEによる仮想マイク推定性能に対する評価実験１、及び、推定仮想マイクを用いたビームフォーマによる強調性能に対する評価実験２である。なお、実験では、１つの仮想マイクを推定する結果を報告したが、当然のこととして複数の仮想マイクを推定するよう拡張することもできる。

　図６は、CHiME-4コーパスのマイクロホンアレイ配置を示す図である。図６のマイク２以外のすべてのマイクは正面を向いている。

［実験条件］
　NN-VMEをCHiME-4コーパス（参考文献４：Jon　Barker,　Ricard　Marxer,　Emmanuel　Vincent,　and　Shinji　Watanabe,　“The　third　CHiMEspeech　separation　and　recognition　challenge:　Dataset,　task　and　baselines”,in　IEEE　Automatic　Speech　Recognition　and　Understanding　Workshop(ASRU),　2015,　pp.　504－511.）上で評価した。CHiME-4コーパスは、図６に示すように、６チャネル長方形マイクロホンアレイを備えたタブレットデバイスを用いて録音された音声を含む。このコーパスは、模擬データだけでなく騒がしい公共環境での現実の録音も含む。

　訓練セットは、4名の発話者が発する3時間の実音声データと、83名の発話者が発する15時間の模擬音声データから構成される。評価セットは、4名の発話者が発するそれぞれ実音声データとノイズを含む模擬音声データの1320の発話を含む。これらの発話のうち、マイク不具合に伴う発話を取り除いた1149の発話で構成された評価セットを用いた。

　評価指標としてはBSSEval（参考文献５：Emmanuel　Vincent,　Remi　Gribonval,　and　Cedric　Fevotte,　“Performance　measurement　in　blind　audio　source　separation”,IEEE　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　14,　no.　4,　pp.　1462－1469,　2006.）のSDR及び単語誤り率（WER：Word　Error　Rate）を使用した。仮想マイク推定性能を評価するため、仮想マイクに対応するチャネルでの推定仮想マイク信号と、観測した実マイク信号との間のSDRを算出した。

　ビームフォーマの強調性能を評価するため、参照信号として４番目のチャネルにおけるクリーンな残響信号を使用した。クリーン信号へのアクセスが必要であるため、この評価は模擬データに対してのみ実施される。

　ASR性能を評価する際にはKaldiのCHiME-4レシピ（参考文献６：Daniel　Povey,　Arnab　Ghoshal,　Gilles　Boulianne,　Lukas　Burget,Ondrej　Glembek,　Nagendra　Goel,　Mirko　Hannemann,　PetrMotlicek,　Yanmin　Qian,　Petr　Schwarz,　Jan　Silovsky,　GeorgStemmer,　and　Karel　Vesely,　“The　Kaldi　speech　recognition　toolkit”,in　IEEE　Automatic　Speech　Recognition　and　Understanding　Workshop　(ASRU),　2011.，参考文献７：［online］，［令和３年１月２５日検索］、インターネット＜https://github.com/kaldi-asr/kaldi/tree/master/egs/chime4/s5_6ch＞）を用いた。これは、lattice-free最大相互情報量基準（参考文献８：Daniel　Povey,　Vijayaditya　Peddinti,　Daniel　Galvez,　Pegah　Ghahremani,　Vimal　Manohar,　Xingyu　Na,　Yiming　Wang,　and　Sanjeev　Khudanpur,　“Purely　sequence-trained　neural　networks　for　ASR　based　on　lattice-free　MMI”,in　Interspeech,　2016,　pp.2751－2755.）で訓練されたディープニューラルネットワーク隠れマルコフモデルハイブリッド音響モデル（参考文献９：Herve　Bourlard　and　Nelson　Morgan,　Connectionist　speech　recognition:　A　hybrid　approach,1994，参考文献１０：Geoffrey　Hinton,　Li　Deng,　Dong　Yu,　George　E　Dahl,　Abdelrahman　Mohamed,　Navdeep　Jaitly,　Andrew　Senior,　Vincent　Vanhoucke,　Patrick　Nguyen,　Tara　N　Sainath,　and　Brian　Kings　bury,　“Deep　neural　networks　for　acoustic　modeling　in　speech　recognition:　The　shared　views　of　four　research　groups”,IEEE　Signal　Processing　Magazine,　vol.　29,　no.　6,　pp.　8297,　2012.）から構成される。デコードにはトライグラム言語モデルを使用した。

［実験構成］
　NN-VMEのネットワーク構成には、Conv-TasNetベースのネットワークアーキテクチャを採用した。参考文献１の記載に従い、ハイパーパラメータを、N=256，L=20，B=256，H=512，P=3，X=8及びR=4と設定した。

　勾配クリッピングを伴うAdamアルゴリズム（参考文献１１：Diederik　P　Kingma　and　Jimmy　Ba,　“Adam:　A　method　for　stochastic　optimization”,in　International　Conference　on　Learning　Representations　(ICLR),　2015.）を採用することによってNN-VMEを訓練した。この際、初期学習率は、0.0001と設定した。そして、200エポック後に訓練を終了した。

　MVDRビームフォーマには、KaldiのCHiME-4レシピで使用されたGitHubレポジトリ（参考文献１２：［online］，［令和３年１月２５日検索］、インターネット＜ＵＲＬ：https://github.com/fgnt/nn-gev,＞）で提供される訓練済みマスク推定モデル（参考文献３参照）を使用した。STFT算出には、長さ及びシフトのセットがそれぞれ64ms及び16msのブラックマンウィンドウを使用した。ASR実験では、式（５）のローディング・ハイパーパラメータεを0.05に設定した。

［実験結果］
［仮想マイク推定性能の評価］
　表１は、ノイズを含む観測信号を参照信号として使用した、仮想マイク推定のSDR[dB]である。

　表１において、RMは実マイクを表し、VMはNN-VME（ＮＮ１１）によって推定される仮想マイクを表す。ここで、SDRを計算するための参照信号は、クリーン信号ではなく、仮想マイクに対応するチャネルのノイズを含む観測信号である。このため、仮想マイク推定性能は、現実の録音についても評価できる。

　表１において、１列目の「eval　ch」は、SDRの算出において推定信号として使用される仮想マイク信号又は実マイク信号のチャネル指数を示す。２列目の「ref　ch」は、参照信号として使用される実マイク信号のチャネル指数を示す。ここで、「5(4,6)」という表示は、チャネル5における仮想マイク信号が、チャネル4及び6における実マイク信号を用いて推定されたことを示す。基準として、スコアを最も近い（すなわち、SDRが最も高い）実マイクで得たSDRと比較する。これらの結果は表１の１行目（eval　ch4，ref　ch5）及び４行目（eval　ch5，ref　ch6）に示されている。

　表1は、NN-VMEモジュール（たとえば、「5(4,6)」）によって推定された信号が、近くのマイク（たとえば、「4」）で録音された観測信号よりもSDRスコアが高いことを示している。これらの結果は、現実の録音でも、NN-VME（ＮＮ１１）が、観測された少ない実マイク信号から推測される空間情報を利用して、マイクで実際に観測されていない仮想マイク信号を推定できることを示している。

　表１は、補間（すなわち、実マイク間に位置する仮想のマイク）（たとえば、「5(4,6)」）及び横方向における外挿（たとえば、「6(4,5)」）の結果を示している。いずれの場合においても、NN-VME（ＮＮ１１）は、SDRが約12dB以上の時間波形の歪みが小さい仮想マイク信号を予測することができる。

［ビームフォーマ強調性能の評価］
　表２は、クリーン信号を参照信号として使用するビームフォーマのSDR[dB]を示す。なお、SDRは、値が高いほどよく、WER[%]は、値が低い方がよい性能であることを示す。

　表２のVM　BFは、推定仮想マイク（ＮＮ１１の出力）によるビームフォーマを示し、RM　BFは実マイクのみによるビームフォーマを示す。表２において、「used　ch（使用チャネル）」の列「real（現実）」及び「virtual（仮想）」はそれぞれ、ビームフォーマを形成するために使用された実マイク及び仮想マイクに対応するチャネル指数を示す。例えば、行(4)の「VM　BF」は、２つの実マイク信号（すなわち、チャネル4及び6）及び１つの仮想マイク信号（すなわち、チャネル5）を使用して形成される。

　表２は、実施の形態１において提案したVM　BF（たとえば、行(4)）が、同じ実マイク信号によって形成されたRM　BF（たとえば、行(2)）と比べてSDRスコアが高くなったことを示している。ここで、別のRM　BF（たとえば、行(3)）は、VM　BFの上限性能に対応する。

　ビームフォーマの性能を現実の録音上で評価するため、上記のSDRベースの評価に加えてASR評価を行った。表２はさらに、実データで評価したRM　BF及びVM　BFのWERも示す。

　現実の録音においても、実施の形態１において提案したVM　BF（たとえば、行(4)）が対応するRM　BF（たとえば、行(2)）と比べて、WERが0.9％も減少したことが表から確認された。さらに多くのマイクを使用した場合（行(5)～(7)）にも同様の傾向が観測された。

　これらの結果により、推定仮想マイク信号は、ビームフォーマと組み合わせた場合に強調性能を向上させることが実証された。

　さらに、表２は、仮想マイクロホン・ローディングを使用したVM　BFの結果を示す。ローディングなしのVM　BFのWERスコアは、行(4)と同じ条件であった場合、15.1％であり、行(7)と同じ条件であった場合、13.4％である。これは、VM　BFのASR性能を上げるにあたって仮想マイクロホン・ローディングが効果的であることを示している。

　このように、NN-VME（ＮＮ１１）によって推定された仮想マイクの信号によって、NN-VMEによって拡張された音声強調及び信号処理の性能の向上があることが示された。　

［実施の形態のシステム構成について］
　推定装置１０、学習装置２０及び信号処理装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、推定装置１０、学習装置２０及び信号処理装置１００の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、推定装置１０、学習装置２０及び信号処理装置１００においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、推定装置１０、学習装置２０及び信号処理装置１００においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図７は、プログラムが実行されることにより、推定装置１０、学習装置２０及び信号処理装置１００が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、推定装置１０、学習装置２０及び信号処理装置１００の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、推定装置１０、学習装置２０及び信号処理装置１００における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　推定装置
　１１　ニューラルネットワーク（ＮＮ）
　１１１　エンコーダ
　１１２　畳み込みブロック
　１１３　デコーダ
　２０　学習装置
　２１　入力部
　２２　パラメータ更新部
　３０　マイク信号処理部
　４０　アプリケーション部
　１００　信号処理部

Claims

　音響信号を処理する信号処理装置であって、
　ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、仮想的に配置された仮想マイクの観測信号を推定する推定部
　を有することを特徴とする信号処理装置。
　前記推定部は、前記深層学習モデルを用いて、入力された前記実マイクの観測信号である時間領域信号から、前記仮想マイクの観測信号である時間領域信号を推定することを特徴とする請求項１に記載の信号処理装置。
　前記実マイクの観測信号と、前記推定部によって推定された前記仮想マイクの観測信号とを基に、雑音信号が取り除かれた音声強調信号を生成するマイク信号処理部と、
　前記音声強調信号を用いた信号処理を行うアプリケーション部と、
　を有し、
　前記マイク信号処理部は、音声信号及びノイズ信号の空間共分散行列に、前記仮想マイクのチャネルの重みを低減するローディング項を加えることを特徴とする請求項１または２に記載の信号処理装置。
　信号処理装置が実行する信号処理方法であって、
　ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、仮想的に配置された仮想マイクの観測信号を推定する工程
　を含んだことを特徴とする信号処理方法。
　コンピュータを、請求項１～３のいずれか一つに記載の信号処理装置として機能させるための信号処理プログラム。
　学習データとして、実マイクの観測信号と、推定対象である、仮想的に配置された仮想マイクの位置において実際に観測された観測信号との入力を受け付ける入力部と、
　ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、前記仮想マイクの観測信号を推定する推定部と、
　前記推定部によって推定された前記仮想マイクの観測信号が、前記仮想マイクの位置において実際に観測された観測信号に近づくよう、前記ニューラルネットワークのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　学習装置が実行する学習方法であって、
　学習データとして、実マイクの観測信号と、推定対象である、仮想的に配置された仮想マイクの位置において実際に観測された観測信号との入力を受け付ける入力工程と、
　ニューラルネットワークを有する深層学習モデルを用いて、入力された実マイクの観測信号から、前記仮想マイクの観測信号を推定する推定工程と、
　前記推定工程において推定された前記仮想マイクの観測信号が、前記仮想マイクの位置において実際に観測された観測信号に近づくよう、前記ニューラルネットワークのパラメータを更新する更新工程と、
　を含んだことを特徴とする学習方法。
　コンピュータを、請求項６に記載の学習装置として機能させるための学習プログラム。