WO2019026973A1

WO2019026973A1 - ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム

Info

Publication number: WO2019026973A1
Application number: PCT/JP2018/028910
Authority: WO
Inventors: 慶介木下; 中谷　智広; マークデルクロア
Original assignee: 日本電信電話株式会社
Priority date: 2017-08-04
Filing date: 2018-08-01
Publication date: 2019-02-07
Also published as: CN110998723B; JP6748304B2; CN110998723A; US20210400383A1; JPWO2019026973A1; US11304000B2

Abstract

信号処理装置（１０）は、１以上のマイクで観測された残響を含む観測信号から残響を低減した信号を推定する信号処理装置であって、残響を含む信号の特徴量を入力とし、当該信号中の残響を低減した信号のパワーに対応する特徴量の推定値を出力するよう学習されたニューラルネットワークに、観測信号に対応する観測特徴量を入力することで、観測信号に対応する残響を低減した信号のパワーに対応する特徴量の推定値を推定するパワー推定部（１２）と、パワー推定部（１２）の推定結果であるパワーに対応する特徴量の推定値を用いて、観測信号を生成する自己回帰過程の回帰係数を推定する回帰係数推定部（１３）と、を有する。

Description

ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム

　本発明は、ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラムに関する。

　実環境でマイクロホンを用いて音声を収音すると、一般的に、目的音声信号だけでなく、種々の音響歪み（雑音や残響）が目的音声に重畳した信号が観測される。これらの雑音や残響は目的音声の明瞭度や聞き取りやすさを大きく低下させてしまう要因である。また、収録音にこれらの音響歪みが含まれていると音声認識精度が大きく低下することも知られている。

　そこで、観測音声信号からこれらの音響歪みを除去する技術がある。この観測音声信号からこれらの音響歪みを除去する技術は、様々な音響信号処理システムの要素技術として用いることが可能である。例えば、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴システム或いは音編集システムなどに利用することができる。また、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音声を精度良く認識する音声認識システムに利用することもできる。

　近年、観測信号に含まれるクリーン音声に関して、平均０、分散λ（ｎ，ｋ）のガウス分布（ｎ：フレームインデックス、ｋ：周波数インデックス）を仮定し、また、観測信号の生成過程は自己回帰過程に従うものとして、その自己回帰過程の回帰係数を繰り返し推定することによって、残響除去のための逆フィルタを推定する方法が提案されている（例えば、非特許文献１参照）。

T.　Nakatani,　T.　Yoshioka,　K.　Kinoshita,　M.　Miyoshi　and　B.-H.　Juang,　"Speech　Dereverberation　Based　on　Variance-Normalized　Delayed　Linear　Prediction",　IEEE　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　18(7),　pp.　1717－1731,　2010.

　ここで、従来の信号処理装置について説明する。図６は、従来の信号処理装置の構成の一例を示す図である。図６に示すように、従来の信号処理装置１０Ｐは、観測特徴量計算部１１Ｐ、パワースペクトル推定部１２Ｐ、回帰係数推定部１３Ｐ、逆フィルタ処理部１４Ｐ及び繰り返し制御部１５Ｐと、を有する。

　観測特徴量計算部１１Ｐは、入力を受け付けた観測信号から観測信号特徴量を計算する。パワー推定部１２Ｐは、繰り返し計算の前は観測特徴量計算部１１Ｐが変換した観測特徴量、繰り返しループに入った際は逆フィルタ処理部１４Ｐの処理結果を入力として、所望信号のパワースペクトルを計算する。回帰係数推定部１３Ｐは、所望信号のパワースペクトルの推定結果を用いて回帰係数を推定する。逆フィルタ処理部１４Ｐは、推定した回帰係数を用いて逆フィルタ処理を行う。

　繰り返し制御部１５Ｐは、繰り返し計算が終了していない場合、逆フィルタ処理部１４Ｐによる逆フィルタ処理の結果を再度パワースペクトル推定部１２Ｐに入力する。以降、所望信号のパワースペクトルの再推定、これに基づく回帰係数推定、逆フィルタ処理が必要な回数繰り返される。

　しかしながら、従来の信号処理装置１０Ｐでは、直接音と初期反射音とを含む音声信号の分散値の初期値を、観測信号のパワースペクトルで代用して残響除去を行うため、観測信号が短くなると精度が低下するという問題があった。

　本発明は、上記に鑑みてなされたものであって、観測信号が短い場合でも残響除去を精度よく行うことができるニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、１以上のマイクで観測された残響を含む観測信号から残響を低減した信号を推定する信号処理装置であって、残響を含む信号の特徴量を入力とし、当該信号中の残響を低減した信号のパワーに対応する特徴量の推定値を出力するよう学習されたニューラルネットワークに、観測信号に対応する観測特徴量を入力することで、観測信号に対応する残響を低減した信号のパワーに対応する特徴量の推定値を推定する第１の推定部と、第１推定部の推定結果であるパワーに対応する特徴量の推定値を用いて、観測信号を生成する自己回帰過程の回帰係数を推定する第２の推定部と、を有することを特徴とする。

　本発明によれば、観測信号が短い場合でも残響除去を精度よく行うことができる。

図１は、実施の形態に係る信号処理装置の機能構成の一例を説明する図である。図２は、図１に示す信号処理装置の要部構成を示す図である。図３は、実施の形態に係る信号処理装置の機能構成の一例を説明する図である。図４は、実施の形態に係る残響除去処理の処理手順を示すフローチャートである。図５は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。図６は、従来の信号処理装置の構成の一例を示す図である。

　以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
　以下、本願が開示するニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施の形態およびその他の実施の形態は、矛盾しない範囲で適宜組み合わせてもよい。

［実施の形態に係る信号処理装置］
　まず、本実施の形態に係る信号処理装置の構成について説明する。本実施の形態に係る信号処理装置は、スペクトル推定を精度よく行うことができるニューラルネットワークを用いて、所望信号のパワーに対応する特徴量の推定処理を行っている。

　図１は、実施の形態に係る信号処理装置の機能構成の一例を説明する図である。図１に示すように、実施の形態に係る信号処理装置１０は、観測特徴量計算部１１、パワー推定部１２（第１の推定部）、回帰係数推定部１３（第２の推定部）、逆フィルタ処理部１４及び繰り返し制御部１５を有する。なお、信号処理装置１０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。

　観測特徴量計算部１１は、入力信号である観測信号を観測特徴量に変換する。具体的には観測特徴量計算部１１は、１以上のマイクで観測された、残響を含む観測信号をそれぞれ観測特徴量に変換する。観測特徴量計算部１１は、時間領域の信号を入力とし、この入力された信号から観測特徴量を計算し、その観測特徴量を出力する。観測特徴量計算部１１は、観測特徴量を、パワー推定部１２、回帰係数推定部１３、逆フィルタ処理部１４に出力する。本実施の形態では、観測信号の総称をｘ_ｍ（ｔ）とし、観測特徴量の総称をｘ（ｎ）とする。ｔは時間のインデックス、ｍはマイクのインデックス、ｎは短時間時間フレームのインデックスである。ここで、観測信号には、１人以上の話者の音声と、音声以外の音響歪み（雑音や残響等）が含まれるものとする。

　パワー推定部１２は、観測特徴量を基に、学習済みのニューラルネットワークを用いて、所望信号の時刻ごとのパワーに対応する特徴量を推定する。パワー推定部１２は、学習済みのニューラルネットワークを用いて、観測特徴量計算部１１で得られた１以上の観測特徴量を基に、残響を抑圧した信号である所望信号のパワーに対応する特徴量を計算する。ここで、パワーに対応する特徴量とは、例えばパワースペクトルや、時間領域の観測特徴量のフレームごとのパワーの平均値などである。

　すなわち、パワー推定部１２は、学習済みのニューラルネットワークを用いて、観測特徴量ｘ（ｎ）を基に、該観測特徴量ｘ（ｎ）に対応する直接音と初期反射音とを含む音声のパワーに対応する特徴量（例えば、パワースペクトル）、すなわち、所望信号のパワーに対応する特徴量を推定する。もしくは、パワー推定部１２は、学習済みのニューラルネットワークを用いて、直接音と初期反射音を含む音声のマイク間相関も考慮した空間相関行列（詳細は、参考文献１の５章参照。）を推定する。このほかにも、所定時間区間の時間領域の観測特徴量のパワーの平均値からなる系列をパワーに対応する特徴量として用いてもよい。

　また、ここでは、所望信号を、直接音と初期反射音とを含む音声の信号であると仮定して説明したが、これに限定されるものではない。要するに、観測信号よりも残響を抑圧した信号を所望信号とすればよい。

　本実施の形態では、パワーに対応する特徴量としてパワースペクトルを用いた場合を例に説明することとし、この所望信号のパワースペクトルの総称をλ（ｎ）とする。また、ニューラルネットワークをＦ［・］とする。

　パワー推定部１２は、例えば、Long　Short-Term　Memory（ＬＳＴＭ）再帰型ニューラルネットワークを用いる。もちろん、パワー推定部１２が用いるニューラルネットワークの形状は、全結合型、再帰型、双方向再帰型ニューラルネットワークなど如何なるものでもよい。

　回帰係数推定部１３は、所望信号のパワーに対応する特徴量の推定値を用いて線形予測フィルタを推定する。回帰係数推定部１３は、所望信号のパワースペクトルλ（ｎ）を用いて、線形予測フィルタを推定する。具体的には、回帰係数推定部１３は、所望信号のパワースペクトルを用いて、予測残差が、平均は０、分散は所望信号のパワースペクトルとなる時変ガウス分布に従うように線形予測フィルタを推定する。この線形予測フィルタのフィルタ係数が「回帰係数」である。具体的には、回帰係数推定部１３は、推定された所望信号のパワースペクトルλ（ｎ）及び観測特徴量ｘ（ｎ）を基に、回帰係数を推定する。本実施の形態では、回帰係数の総称をｇ（ｋ）とする（回帰係数推定部に関する詳細は、参考文献１（T.　Yoshioka,　T.　Nakatani,　“Generalization　of　Multi-Channel　Linear　Prediction　Methods　for　Blind　MIMO　Impulse　Response　Shortening”,　IEEE　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　20(10),　pp.　2707-2720,　2012.）参照）。

　逆フィルタ処理部１４は、回帰係数推定部１３が推定した線形予測フィルタを用いて逆フィルタ処理を行う。逆フィルタ処理部１４は、回帰係数ｇ（ｋ）及び観測特徴量ｘ（ｎ）を用いて、観測特徴量に対して逆フィルタ処理を行い、残響除去信号ｄを求める。本実施の形態では、残響除去信号ｄの総称をｄ（ｎ）とする。

　繰り返し制御部１５は、パワー推定部１２による所望信号のパワーを推定する処理、回帰係数推定部１３による線形予測フィルタを推定する処理、及び、逆フィルタ処理部１４による逆フィルタ処理を、所定の終了条件に応じて繰り返す制御を行う。すなわち、繰り返し制御部１５は、パワースペクトル推定部１２による所望信号のパワースペクトルを計算する処理、回帰係数推定部１３による所望信号のパワーに対応する特徴量を用いた線形予測フィルタを計算する処理、及び、逆フィルタ処理部１４による観測特徴量に対する逆フィルタ処理を、所定の終了条件を満たすのに必要な回数だけ繰り返す制御を行う。所定の終了条件を満たすのに必要な回数は、例えば、予め設定された所定の回数や、使用されるパラメータのうち少なくともいずれかが所定の閾値に達するまでに要する回数である。

　繰り返し制御部１５は、所定の条件に達していない場合、あるいは、繰り返し回数が所定回数未満である場合、逆フィルタ処理部１４による逆フィルタ処理の結果（残響除去信号ｄ（ｎ））を再度パワースペクトル推定部１２に入力する。

　すなわち、繰り返しループの際には、パワー推定部１２は、繰り返し制御部１５の制御によって、残響除去信号ｄ（ｎ）を入力として、学習済みのニューラルネットワークＦ［・］を用いて、該残響除去信号ｄ（ｎ）に対応する所望信号のパワーに対応する特徴量の推定値（例えば、パワースペクトルλ（ｎ））を推定する。その後、回帰係数推定部１３は、残響除去信号ｄ（ｎ）に対応する所望信号のパワースペクトルλ（ｎ）及び観測特徴量ｘ（ｎ）を基に、回帰係数ｇ（ｋ）を推定する。続いて、逆フィルタ処理部１４は、回帰係数推定部１３が推定した回帰係数ｇ（ｋ）を用いて、逆フィルタ処理を行い、新たに残響除去信号ｄ（ｎ）を出力する。

　これに対し、繰り返し制御部１５は、所定の終了条件を満たした場合、あるいは、繰り返し回数が所定回数に達した場合、逆フィルタ処理部１４による逆フィルタ処理の結果を、残響除去信号ｄ（ｎ）として出力する。このように、本実施の形態では、繰り返し制御部１５は、所望信号のパワーに対応する特徴量の再推定を実行させ、それを基に回帰係数推定、逆フィルタ処理を行うことを繰り返す制御を行う。

［本実施の形態における数理的背景］
　まず、本実施の形態における数理的背景について述べる。本実施の形態に係る信号処理方法は、観測信号に含まれるクリーン音声に関して、平均０、分散λ（ｎ，ｋ）のガウス分布（ｎ：フレームインデックス、ｋ：周波数インデックス）を仮定し、また、観測信号の生成過程は自己回帰過程に従うものとして、その自己回帰過程の回帰係数を繰り返し推定することによって、残響除去のための逆フィルタを推定する方法である。

　はじめに、観測信号ｘ_ｍ（ｔ）を入力信号として説明する。この観測信号ｘ_ｍ（ｔ）は、観測特徴量計算部１１によって、観測特徴量ｘ_ｍ（ｎ，ｋ）に変換される。この観測特徴量ｘ_ｍ（ｎ，ｋ）は、以下の（１）式のように、クリーン音声信号ｓ（ｎ，ｋ）と音源とｍ番目のマイク間のインパルス応答ｈ_ｍ（ｌ，ｋ）の畳み込みで表されるものと仮定する。

　（１）式において、「＊」は、変数の複素共役を表す。この観測過程は、以下の（２）式のように、最適な回帰係数ｇ_ｍ（ｌ，ｋ）を用いた自己回帰過程として等価的に表すことができる。

　（２）式の第二項は、観測信号中の後部残響部分を表し、第一項は、それ以外の部分、つまり直接音と初期反射音とを含む信号として表される。また、（２）式は以下の（３）式に示すように、行列形式で表すことができる。なお、以降の式では、英文字の小文字の太字（例えば（３）式における太字の「ｇ」，「ｘ」）は行列を表す。また、Ｈは共役転置を表す。Ｔは、転置を示す。また、（３）式の各変数は以下の（４）～（７）式のように表される。

　（３）式は、仮に最適な回帰係数を求めることができれば、以下の（８）式のように残響除去を行い、直接音と初期反射音とを含む信号を取り出すことができることを意味している。

　そして、残響除去信号ｄ（ｎ，ｋ）は、以下の（９）式のように、平均０、分散λ(ｎ，ｋ)のガウス分布に従うものと仮定している。

　この確率モデルを用いれば、各周波数ｋについて、１～Ｎまでの観測に関して、以下の（１０），（１１）式に示すような尤度関数を定義することができる。

　最終的に、この尤度関数を最大化する最適なｇ（ｋ）とλ（ｋ）は、以下の（１２）式を最小化するものとして得られる。

　具体的な計算手順としては、回帰係数推定部１３は、以下の（１３）～（１５）式を用いる演算処理Ａを行うことによって、回帰係数ｇ（ｋ）を求める。そして、逆フィルタ処理部１４は、上述した（４）式を用いる演算処理Ｂを行うことによって、残響除去信号ｄ（ｎ，ｋ）を求める。なお、Ｒは、重み付き共分散行列であり、ｒは、重み付き相関ベクトルである。

　ここで、本実施の形態では、（１４），（１５）式に適用すべき所望信号のパワースペクトル（λ（ｎ，ｋ））を、パワー推定部１２が、学習済みのニューラルネットワークＦ［・］を用いて推定する。

　このパワー推定部１２が用いるニューラルネットワークＦ［・］の入出力関係の概要を以下の（１６）～（１８）式に示した。Ｆ［・］の入力は、残響を含む音声の観測特徴量ｘ（ｎ）である。そして、Ｆ［・］の出力は、直接音と初期反射音とを含む音声のパワースペクトル、すなわち、所望信号のパワースペクトルλ（ｎ）である。

　本実施の形態では、パワー推定部１２は、観測特徴量ｘ（ｎ）を入力として、（１６）～（１８）式で示すニューラルネットワークＦ［・］から出力された所望信号のパワースペクトルλ（ｎ）を、回帰係数推定部１３に入力する。または、パワー推定部１２は、繰り返しループの処理の際には、逆フィルタ処理部１４の結果である残響除去信号ｄ（ｎ）を入力として、（１６）～（１８）式で示すニューラルネットワークＦ［・］から出力された所望信号のパワースペクトルλ（ｎ）を、回帰係数推定部１３に入力する。

　回帰係数推定部１３は、ニューラルネットワークＦ［・］から出力された所望信号のパワースペクトルλ（ｎ）を、（１４），（１５）式に代入し、（１３）式を用いて回帰係数ｇ（ｋ）を推定する。続いて、本実施の形態では、推定された回帰係数ｇ（ｋ）を用いて、逆フィルタ処理部１４が、（４）式を適用して線形の逆フィルタによる残響除去を行い、残響除去信号ｄ（ｎ，ｋ）を得る。

　したがって、最適な回帰係数ｇ（ｋ）及び最適な残響除去信号ｄ（ｎ，ｋ）は、（１６）～（１８）式で示すニューラルネットワークＦ［・］の所望信号のパワースペクトル推定処理、回帰係数ｇ（ｋ）を推定する（１３）～（１５）式を用いた演算処理Ａ、及び、残響除去信号ｄ（ｎ，ｋ）を得るための（４）式を用いた演算処理Ｂを繰り返すことによって求めることができる。

　このように、本実施の形態では、ニューラルネットワークを用いて所望信号のパワーに対応する特徴量（例えばパワースペクトル）を推定することによって、精度のよいパワースペクトル推定を行うことが可能である。したがって、本実施の形態では、観測信号長が短い場合、すなわち、Ｎの値が小さい場合であっても、（１４），（１５）式を用いて理想値に近いＲ及びｒを計算することができる。

　ここで、一般的には、ニューラルネットワークＦ［・］から出力される残響除去音を用いても音声認識性能を改善することができないことが知られている。これに対し、本実施の形態では、ニューラルネットワークＦ［・］による残響除去と、それを基にして逆フィルタを設計し、逆フィルタによる残響除去を行っている。このように、本実施の形態では、ニューラルネットワークＦ［・］による出力を基にして線形逆フィルタを推定し、線形の残響除去を行うことで、音声認識性能を改善している。

［残響除去処理］
　この信号処理装置１０は、入力された観測信号から残響を高精度で除去し、観測信号に含まれる集音目的の音声をクリーン化し、出力する。図１を参照して、信号処理装置１０による残響除去処理（テスト処理）の流れについて説明する。

　まず、テスト処理では、観測特徴量計算部１１は、時間領域の信号（観測信号）が入力されると、（１）式のように、観測特徴量を計算し、その特徴量を出力する。例えば、観測特徴量計算部１１は、入力の時間領域の信号を３０ｍｓ程度の短時間フレームに分割し、分割した各短時間フレームのデータを短時間フーリエ変換し、複素スペクトルｘ（ｎ，ｋ）を出力する。

　次に、パワー推定部１２は、観測特徴量計算部１１が計算した観測特徴量を入力とし、（１６）～（１８）式で示す、学習済みのニューラルネットワークＦ［・］を用いて、観測信号から残響を低減した信号（例えば、直接音と初期反射音とを含む音声信号）のパワーに対応する特徴量（例えば、パワースペクトルλ（ｎ））を推定する。ニューラルネットワークの入力が複素スペクトルｘ（ｎ，ｋ）である場合、例えば、ニューラルネットワークの入力層では、入力の値の絶対値の二乗を取り実数値に変換する処理を明示的に入れる。これによって、パワー推定部１２では、ニューラルネットワークの入力が複素数であっても、実数値であるパワーに対応する特徴量を出力させることができる。

　その後、パワー推定部１２からの出力であるパワーに対応する特徴量（この例ではパワースペクトルλ（ｎ））は、回帰係数推定部１３に入力される。回帰係数推定部１３は、入力されたパワースペクトルλ（ｎ）を、（１４），（１５）式に代入し、（１３）式を用いて回帰係数ｇ（ｋ）を推定し、回帰係数ｇ（ｋ）を出力する。

　逆フィルタ処理部１４は、この回帰係数ｇ（ｋ）を入力として、（４）式を用いて線形の逆フィルタによる残響除去を行い、残響除去信号ｄ（ｎ，ｋ）を出力する。

　その後、繰り返し制御部１５は、所定の終了条件を満たさない場合、あるいは、繰り返し回数が所定回数未満である場合には、残響除去信号ｄ（ｎ，ｋ）をパワー推定部１２に入力し、所望信号パワーに対応する特徴量の推定精度を改善する。そして、改善された所望信号パワーに対応する特徴量を用いて、再度、回帰係数推定部１３による回帰係数推定処理、逆フィルタ処理部１４による逆フィルタ処理を行う。すなわち、図１の矢印Ｙ１に示す繰り返しループに相当する処理を繰り返す。

　一方、繰り返し制御部１５は、所定の終了条件を満たした場合、あるいは、繰り返し回数が所定回数に達した場合には、十分に残響除去を行ったとして、図１の矢印Ｙ２のように、残響除去信号ｄ（ｎ，ｋ）を出力する。

［ニューラルネットワークの学習処理］
　信号処理装置１０では、テスト前の事前学習時には、残響を含む音声の特徴量と、これに対応する直接音と初期反射音を含む音声の特徴量（正解信号）との対を用いて、ニューラルネットワークＦ［・］のパラメータを最適化する。学習用の観測信号（残響を含む音声）とそれに対応する直接音と初期反射音を含む音声（正解信号）の対の集合からなる学習用データが予め用意されており、これを用いて学習を行う。

　そこで、信号処理装置１０による学習処理の流れについて説明する。図２は、図１に示す信号処理装置１０の要部構成を示す図である。説明のため、図２は、信号処理装置１０の要部を示す。

　図２に示すように、パワー推定部１２に対する入力は、学習用データ中の学習用観測信号（残響を含む音声）に対し観測特徴量計算部１１が計算した観測特徴量である。残響を含む音声とは、例えば、クリーン音声と残響とを含む音声である。

　そして、パワースペクトル推定部１２におけるニューラルネットワークの出力と比較するための教師信号は、入力された残響を含む観測信号から残響を低減した信号のパワーに対応する特徴量である。例えば、入力された残響を含む音声に対応する直接音と初期反射音とを含む音声のパワースペクトルデータである。これは、学習用データ中で正解信号として予め与えられる。

　学習時には、パワー推定部１２におけるニューラルネットワークに、学習用観測信号から求めた上記の残響を含む音声の観測特徴量を入力し、出力を得る。そして、この出力と、教師信号（学習用データ中の正解信号）との間の二乗誤差が最小となるように、ニューラルネットワークのパラメータを更新する。要するに、ニューラルネットワークの出力と正解信号が近づくように、ニューラルネットワークのパラメータを更新すればよく、二乗誤差以外の距離を基準として用いてもよい。

　具体的には、教師信号をｓ、ニューラルネットワークをＦ［・;θ］、ニューラルネットワークのパラメータをθ、ニューラルネットワークの入力をｘとした場合、学習時には、|ｓ－Ｆ［ｘ;θ］|^２の値が最も小さくなるように、θを更新する。

　また、図３は、実施の形態に係る信号処理装置の機能構成の一例を説明する図である。図３に示す信号処理装置１０Ａでは、ニューラルネットワーク最適化基準であるコストを計算するコスト計算部２０がさらに設けられている。

　図３に示す信号処理装置１０Ａでは、ニューラルネットワークからの出力は回帰係数推定部１３に渡され、回帰係数が計算される。そして、信号処理装置１０Ａでは、回帰係数に基づき観測特徴量に対して逆フィルタ処理が逆フィルタ処理部１４において行われ、そして、逆フィルタ計算の結果がコスト計算部２０に入力される。

　コスト計算部２０は、逆フィルタ処理後の信号と、学習用データとして与えられる正解信号を基に、ニューラルネットワーク最適化基準のコストを計算する。

　そして、信号処理装置１０Ａでは、ニューラルネットワーク内のパラメータは、パラメータ更新前よりもそのコストが小さくなるように、誤差逆伝搬法を用いて更新される。

　図２では、正解信号はパワー推定部の出力値の正解であったが、この例での正解信号は、最終的な目的（パワー推定部の出力を用いて何を計算するか）に応じて異なる。コスト計算部２０内で計算されるコストと正解信号の例を以下にいくつか示す。

　例えば、コスト計算部２０がニューラルネットワークで表わすことのできる音声認識システムであり、正解信号が音素ラベルであるとする。

　この場合、コスト計算部２０（つまり、音声認識システム）にて推定される音素ラベルが正解の音素ラベルに近くなるように、パワー推定部１２が学習（つまり更新）される。

　また、コスト計算部２０がニューラルネットワークで表わすことのできる雑音抑圧システムであり、正解信号が雑音や残響を含まないクリーン音声信号の特徴量であるとする。

　この場合には、雑音抑圧の結果が正解信号であるクリーン音声信号の特徴にできるだけ近くなるように、パワー推定部１２が学習（つまり更新）される。

　このような構成とすることで、最終的な目的に応じてより適切なパワースペクトル推定値が出力できるように、ニューラルネットワークのパラメータを学習させることができる。

［残響除去処理の処理手順］
　次に、信号処理装置１０が行う残響除去処理の処理手順について説明する。図４は、実施の形態に係る残響除去処理の処理手順を示すフローチャートである。ここでは、所定の終了条件が「所定の繰り返し回数に達したこと」である場合を例に、具体処理を説明する。

　図４に示すように、まず、観測信号が入力されると（ステップＳ１）、観測特徴量計算部１１は、観測信号の観測特徴量を、（１）式のように計算する観測特徴量計算処理を行う（ステップＳ２）。

　そして、繰り返し制御部１５は、繰り返し回数ｎを初期化し、ｎ＝１とする（ステップＳ３）。パワー推定部１２は、観測特徴量を入力とし、（１６）～（１８）式で示す、学習済みのニューラルネットワークＦ［・］を用いて、所望信号のパワースペクトルλ（ｎ）を推定するパワー推定処理を行う（ステップＳ４）。

　続いて、回帰係数推定部１３は、所望信号のパワースペクトルλ（ｎ）を用いて、線形予測フィルタを推定する回帰係数推定処理を行う（ステップＳ５）。この場合、回帰係数推定部１３は、（１３）～（１５）式を用いて、回帰係数ｇ（ｋ）を推定する。そして、逆フィルタ処理部１４は、回帰係数推定部１３が推定した線形予測フィルタを用いて逆フィルタ処理を行う（ステップＳ６）。この場合、逆フィルタ処理部１４は、回帰係数ｇ（ｋ）を基に（４）式を用いて逆フィルタ処理を行い、残響除去信号ｄ（ｎ）を求める。

　繰り返し制御部１５は、繰り返し回数ｎが所定回数Ｎに達したか否か、すなわち、ｎ＝Ｎであるか否かを判定する（ステップＳ７）。繰り返し制御部１５は、ｎ＝Ｎでないと判定した場合（ステップＳ７：Ｎｏ）、ｎ＝ｎ＋１とし（ステップＳ８）、ステップＳ４に戻る。すなわち、繰り返し制御部１５は、逆フィルタ処理部１４の出力である残響除去信号ｄ（ｎ）を、パワー推定部１２に入力し、ステップＳ４～ステップＳ６の繰り返しループ処理を実行する。

　繰り返し制御部１５は、ｎ＝Ｎであると判定した場合（ステップＳ７：Ｙｅｓ）、逆フィルタ処理部１４による逆フィルタ処理の結果を、残響除去信号ｄ（ｎ）として出力する（ステップＳ９）。

［従来技術の数理的背景］
　ここで、従来技術の数理的背景について説明する。従来の信号処理装置１０Ｐ（図６参照）は、観測特徴量計算部１１Ｐが、入力を受け付けた観測信号から（１）式のように観測信号特徴量を計算する。パワースペクトル推定部１２Ｐは、繰り返し計算の前は観測特徴量計算部１１Ｐが変換した観測特徴量を入力とし、繰り返しループに入った際は逆フィルタ処理部１４Ｐの処理結果を入力として、所望信号のパワースペクトルを計算する。繰り返しループに入った際は、従来のパワースペクトル推定部１２Ｐは、以下の（１９）式を用いて、所望信号のパワースペクトルを求めていた。また、繰り返し計算の前は、所望信号のパワースペクトルを観測信号のパワースペクトル、すなわち｜ｘ_ｍ（ｎ，ｋ）｜^２としていた。

　そして、従来の信号処理装置１０Ｐは、回帰係数推定部１３Ｐが、所望信号のパワースペクトルの推定結果を基に、（１３）～（１５）式を用いて、回帰係数を推定し、推定した回帰係数を基に、逆フィルタ処理部１４Ｐが（４）式を用いて逆フィルタ処理を行う。

　この従来の信号処理装置１０Ｐでは、観測サンプル数Ｎが大きい場合は効果的に動作する一方、一般的に、観測信号長が短くなると精度が低下することが知られている。すなわち、従来の信号処理装置１０Ｐでは、Ｎが小さくなると精度が低下することが知られている。これは、上でも示したように、従来の信号処理装置１０Ｐが、直接音と初期反射音とを含む音声信号の分散値λ（ｎ，ｋ）の初期値を、観測信号のパワースペクトル、すなわち｜ｘ_ｍ（ｎ，ｋ）｜^２で代用していることに起因する。

　理想的には、分散値λ（ｎ，ｋ）は、直接音と初期反射音とを含む音声信号のパワースペクトルと一致していなければならない。これに対し、従来の信号処理装置１０Ｐは、このパワースペクトルを求めることが困難であるため、初期値としては、近似精度の悪い観測信号のパワースペクトルを代用している。

　従来の信号処理装置１０Ｐは、この精度の低い初期値による影響をできる限り排除するため、（１４），（１５）式のＲやｒの計算のための平均化の回数（Ｎに相当）を多くし、理想値に近いＲやｒを得ている。そして、信号処理装置１０Ｐは、この結果として（１３）式を用い、ある程度の精度を維持した回帰係数ｇ（ｋ）を推定する。

　しかしながら、従来の信号処理装置１０Ｐでは、平均化回数が少ない場合（Ｎの値が小さい場合）、λ（ｎ，ｋ）に含まれる誤差の影響が（１４），（１５）式のＲやｒの計算に直接的に影響し、精度の良い回帰係数ｇ（ｋ）を求めることができない。従来の信号処理装置１０Ｐは、精度の悪い回帰係数ｇ（ｋ）しか求められない場合、回帰係数を推定する処理や逆フィルタ処理を繰り返しても、最終的に精度のよいλ（ｎ，ｋ）を得ることはできず、精度の良い残響抑圧を行うことはできないという問題があった。

　これに対し、本発明では、観測信号のパワーに対応する特徴量をニューラルネットワークにより推定することで、従来よりも精度の高いパワーに対応する特徴量の初期値を得ることができる。これにより、少ない平均化回数でも、精度の高い回帰係数ｇ（ｋ）を推定することができる。

［評価実験］
　この実施の形態に係る音声強調処理の性能を評価する目的で評価実験を行った。本評価実験には、残響下音声コーパスREVERBを用いた。REVERBには種々の残響を含んだ学習データが用意されているため、この全データについて観測信号特徴量と、それに対応する所望信号（直接音と初期反射音とが含まれる音声）の特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。

　また、ニューラルネットワークの形状は全結合型、再帰型、双方向再帰型ニューラルネットワークなど如何なるものでも構わないが、ここではLong　Short-Term　Memory（ＬＳＴＭ）再帰型ニューラルネットワークを用いた。学習データを用いてパラメータを最適化した後は、REVERBのテストデータ（学習データとは異なる残響、発話者を含む）を用いて手法の評価を行った。テストデータは、REVERBの開発セット、評価セットとした。

　また、観測信号長（（１４），（１５）式におけるＮの値）によって、どのように性能が変化するかを評価するため、Offline処理とOnline処理の二つを検討した。Offline処理では、一発話すべてのデータを処理に用いることができることを仮定しており、Ｎの値は一発話の発話長に相当する。

　一方、Online処理では、一発話すべてのデータを処理に用いることはできない。具体的には、Online処理では、発話の冒頭部から２秒ずつデータを読み込んでいき、２秒ごとに残響除去処理を行う。そのため、（１４），（１５）式におけるＮは、一発話の発話長よりも短い２秒となる。この結果、Online処理の場合は、（１４），（１５）式で用いることのできる平均化回数が減ってしまい、従来の信号処理装置では性能が低下してしまうことが予想される。

　実際に、本実施の形態に係る信号処理装置１０と従来の信号処理装置１０Ｐとのそれぞれを用いて残響除去を行い、残響除去後の音声を音声認識した場合の単語誤り率を以下の表１に示す。

　この結果、表１に示すように、本実施の形態に係る信号処理装置１０は、Offline、Onlineの両ケースにて、従来の信号処理装置１０Ｐよりも低い単語誤り率を達成していることが分かる。

［実施の形態の効果］
　上記評価実験の結果でも示したように、本実施の形態に係る信号処理装置１０によれば、スペクトル推定を精度よく行うことができるニューラルネットワークを用いて、所望信号のパワースペクトルを推定するため、観測信号が短い場合でも残響除去を精度よく行うことができる。

　なお、本実施の形態では、バッチ処理の例を説明したが、これに限らない。例えば、従来実施されているように、所定時間（例えば、１０ｍｓｅｃ）のフレームごとに、本実施の形態で説明した信号処理を適用することも可能である。

　また、フーリエ変換した領域でない領域（例えば、サブバンド領域等）でも本実施の形態で説明した信号処理を実行することができる。

［実施の形態のシステム構成について］
　図１に示した信号処理装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置１０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、信号処理装置１０において行われる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置１０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図５は、プログラムが実行されることにより、信号処理装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０，１０Ａ，１０Ｐ　信号処理装置
　１１，１１Ｐ　観測特徴量計算部
　１２　パワー推定部
　１２Ｐ　パワースペクトル推定部
　１３，１３Ｐ　回帰係数推定部
　１４，１４Ｐ　逆フィルタ処理部
　１５，１５Ｐ　繰り返し制御部
　２０　コスト計算部

Claims

　１以上のマイクで観測された残響を含む観測信号から残響を低減した信号を推定する信号処理装置であって、
　残響を含む信号の特徴量を入力とし、当該信号中の残響を低減した信号のパワーに対応する特徴量の推定値を出力するよう学習されたニューラルネットワークに、前記観測信号に対応する観測特徴量を入力することで、前記観測信号に対応する前記残響を低減した信号のパワーに対応する特徴量の推定値を推定する第１の推定部と、
　前記第１の推定部の推定結果であるパワーに対応する特徴量の推定値を用いて、前記観測信号を生成する自己回帰過程の回帰係数を推定する第２の推定部と、
　を有することを特徴とするニューラルネットワークを用いた信号処理装置。
　前記第２の推定部は、予測残差が、平均は０、分散は所望信号のパワーとなる時変の確率分布に従うような線形予測フィルタのフィルタ係数を前記回帰係数として推定することを特徴とする請求項１に記載のニューラルネットワークを用いた信号処理装置。
　前記第２の推定部は、予測残差が、平均は０、分散は所望信号のパワーとなるガウス分布に従うような線形予測フィルタのフィルタ係数を前記回帰係数として推定することを特徴とする請求項１に記載のニューラルネットワークを用いた信号処理装置。
　前記線形予測フィルタを用いて観測特徴量に対して逆フィルタ処理を行う逆フィルタ処理部をさらに有することを特徴とする請求項２または３に記載のニューラルネットワークを用いた信号処理装置。
　前記第１の推定部による所望信号のパワーを推定する処理、前記第２の推定部による線形予測フィルタを推定する処理、及び、前記逆フィルタ処理部による逆フィルタ処理を、必要回数繰り返す制御を行う繰り返し制御部をさらに有することを特徴とする請求項４に記載のニューラルネットワークを用いた信号処理装置。
　前記第１の推定部における前記ニューラルネットワークは、再帰型ニューラルネットワークであって、
　前記ニューラルネットワークの入力の値の絶対値の二乗を取ることで実数値に変換する層を含む
　ことを特徴とする請求項１～５のいずれか一つに記載のニューラルネットワークを用いた信号処理装置。
　１以上のマイクで観測された残響を含む観測信号から残響を低減した信号を推定する信号処理装置が実行する信号処理方法であって、
　残響を含む信号の特徴量を入力とし、当該信号中の残響を低減した信号のパワーに対応する特徴量の推定値を出力するよう学習されたニューラルネットワークに、前記観測信号に対応する観測特徴量を入力することで、前記観測信号に対応する前記残響を低減した信号のパワーに対応する特徴量の推定値を推定する第１の推定工程と、
　前記第１の推定工程の推定結果であるパワーに対応する特徴量の推定値を用いて、前記観測信号を生成する自己回帰過程の回帰係数を推定する第２の推定工程と、
　を含んだことを特徴とするニューラルネットワークを用いた信号処理方法。
　コンピュータを、請求項１～６のいずれか一つに記載のニューラルネットワークを用いた信号処理装置として機能させるための信号処理プログラム。