WO2023152915A1

WO2023152915A1 - 信号処理装置、信号処理方法、および、信号処理プログラム

Info

Publication number: WO2023152915A1
Application number: PCT/JP2022/005475
Authority: WO
Inventors: 直之加茂; 林太郎池下; 慶介木下; 智広中谷
Original assignee: 日本電信電話株式会社
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-08-17

Abstract

信号処理装置は、残響除去の学習用データセットを用い、SwitchingWPEにより残響成分が除去された信号が、ユーザにより指定された評価基準で最適化されるようなSwitchを推定するモデル（DNN）の学習を行う。その後、信号処理装置は、観測信号に対し、学習済みのモデルにより推定されたSwitch（最適化されたSwitch）をSwitchingWPEに設定する。そして、信号処理装置は、設定されたSwitchに対しWPEフィルタの最適化を行う。その後、信号処理装置は、最適化されたSwitchおよびWPEフィルタを備えるSwitchingWPEに用いて、観測信号の残響成分を除去する。

Description

信号処理装置、信号処理方法、および、信号処理プログラム

　本発明は、信号処理装置、信号処理方法、および、信号処理プログラムに関する。

　従来、遠隔マイクで録音された音声や音楽の信号から、残響成分を除去する技術がある。残響とは、例えば、元の信号が壁・床・天井等に反射することで、元の信号から遅れてマイクに到達する信号成分のことである。

　残響を含む信号は、音声認識、信号処理による雑音除去、音源分離等において性能劣化につながるため、事前に信号から残響を除去することで、性能劣化を回避できる。なお、上記の残響成分の除去は、例えば、補聴器の性能向上や自動譜面作成等にも適用することができる。

　残響成分を除去する技術として、WPE（Weighted　Prediction　Error）がある。WPEは、残響の自己回帰モデルを仮定し、過去の観測信号から現在の残響成分を予測する。そして、WPEは、予測した残響成分を打ち消す逆フィルタを推定し、その推定した逆フィルタにより残響除去を行う。WPEによれば、残響を除去することができるが、音源数≧マイク数の場合、MINT定理により、因果的な逆フィルタ（過去の信号だけを使う逆フィルタ）が存在できないことが分かっている。

　上記の問題を部分的に解決する技術として、SwitchingWPE（非特許文献１参照）がある。SwitchingWPEは、WPEを改良した技術で、信号の時間周波数ビンごとに複数のWPEフィルタを切り替えることで、残響除去を実現する。ここで、WPEフィルタを適用する時間周波数ビンを選択するためのパラメータをSwitchと呼ぶ。

Rintaro　Ikeshita,et　al.,　"Blind　Signal　Dereverberation　Based　on　Mixture　of　Weighted　Prediction　Error　Models",　IEEE　SIGNAL　PROCESSING　LETTERS,　VOL.　28,　2021,　399.

　SwitchingWPEでは、Switchを重み付きパワー最小化基準（最尤基準）で最適化するため、最適化されたSwitchは、必ずしも他の評価基準（例えば、音声認識率、信号歪み尺度等）で最適なSwitchとは限らない。例えば、SwitchingWPEで最適化されたSwitchは、音声認識に対し最適なSwitchとは限らない。そのため、SwitchingWPEによる残響除去後の信号に対する音声認識率が高くならない可能性がある。

　そこで、本発明は、前記した問題を解決し、SwitchingWPEにおいて目的に応じた残響成分の除去の性能向上を実現することを課題とする。

　前記した課題を解決するため、本発明は、観測された信号の残響成分を除去する複数のWPEフィルタ、および、観測された信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEと、前記SwitchingWPEによる残響成分の除去後の信号の評価基準の入力を受け付ける受付部と、信号の残響成分の除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるような前記Switchの推定結果を出力するモデルの学習を行う学習部と、観測された信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定するSwitch設定部と、設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定するフィルタ設定部とを備え、前記SwitchingWPEは、設定された前記Switchおよび設定された前記WPEフィルタを用いて、入力された信号の残響成分を除去することを特徴とする。

　本発明によれば、SwitchingWPEにおいて目的に応じた残響成分除去の性能向上を行うことができる。

図１は、SwitchingWPEの概要を説明する図である。図２は、信号処理装置の概要を説明する図である。図３は、評価基準がSDRである場合における、信号処理装置の概要を説明する図である。図４は、信号処理装置の構成例を示す図である。図５は、信号処理装置の処理手順の例を示す図である。図６は、信号処理装置による残響成分の除去性能の評価結果を示す図である。図７は、信号処理プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［SwitchingWPE］
　まず、図１を用いて、本実施形態の信号処理装置が用いる基本技術である、SwitchingWPEの概要を説明する。SwitchingWPEは、観測信号（例えば、音声信号）の時間周波数をクラスタリングし、Switchにより時間周波数ごとに複数のWPEフィルタを切り替えることで、観測信号の残響除去を実現する。WPEフィルタは、Switchごとに計算される。このSwitchingWPEのSwitchとWPEフィルタは、重み付きパワー最小化基準（最尤基準）で交互に最適化される。

［概要］
　次に、図２を用いて、本実施形態の信号処理装置の概要を説明する。信号処理装置は、DNN（Deep　Neural　Network）等のモデルにより、観測信号から、SwitchingWPEで残響除去を行う際に最適なSwitchを推定する。そして、信号処理装置は、推定したSwitchを用いたSwitchingWPEにより、観測信号の残響除去を行う。

　例えば、信号処理装置は、残響除去の学習用データセットを用い、観測信号の入力を受け付けると、その観測信号に対し最適なSwitchの推定結果を出力するSwitch推定モデルの学習を行う。なお、この学習用データセットは、入力信号とその入力信号から残響成分を除去した信号（残響除去の正解信号）とを示したデータセットである。

　ここで、信号処理装置は、上記のSwitch推定モデルの学習前に、SwitchingWPEによる残響除去後の信号の評価基準（例えば、SDR（信号対歪み比）、Scale　invariant　SDR（スケール不変の信号対歪み比）、STOI(Short-Time　Objective　Intelligibility　measure)等の明瞭度、Cepstral　distance（ケプストラル距離）、ASR（自動音声認識）におけるWER（単語誤り率）等）の入力を受け付けておく。

　そして、信号処理装置は、残響除去の学習用データセットを用い、SwitchingWPEによる残響成分の除去後の信号（残響除去信号）が上記の評価基準で最適化されるようなSwitchを推定するSwitch推定モデルの学習を行う。

　例えば、上記の残響除去信号の評価基準がSDRであり、Switch推定モデルがDNNにより実現される場合を考える。この場合、信号処理装置は、学習データセットに含まれる入力信号に対しSwitchingWPEが出力する残響除去信号と、学習データセットに含まれる当該入力信号の残響除去の正解信号との間のSDRを最大化するように、DNNの最適化を行う（図３参照）。

　その後、信号処理装置は、最適化されたDNNに観測信号を入力し、観測信号に対し最適化されたSwitchの推定結果を得る。そして、信号処理装置は、推定されたSwitchを用いて、SwitchingWPEにより観測信号の残響除去を行う。このようにすることで、信号処理装置は、SwitchingWPEにおいて目的（評価基準）に応じた残響成分の除去の性能向上を実現することができる。

［構成例］
　次に、図４を用いて、信号処理装置１０の構成例を説明する。信号処理装置１０は、入出力部１１、記憶部１２、制御部１３を備える。

　入出力部１１は、各種情報の入出力を司るインタフェースである。例えば、入出力部１１は、残響除去の対象とする観測信号や、残響除去信号の評価基準等の入力を受け付ける。また、例えば、入出力部１１は、残響除去信号を出力する。

　記憶部１２は、制御部１３が各種処理を実行する際に参照するデータを記憶する。例えば、記憶部１２は、残響除去信号の評価基準や、残響除去の学習用データセット、最適なSwitchの推定を行うためのSwitch推定モデル（Switch推定モデルのパラメータ）等を記憶する。

　上記のSwitch推定モデルは、SwitchingWPE１３１への観測信号を入力とし、SwitchingWPE１３１における最適なSwitchの推定結果を出力するモデルである。このSwitch推定モデルは、例えば、DNNにより実現される。Switch推定モデルは、学習部１３３により学習される。

　制御部１３は、信号処理装置１０全体の制御を司る。制御部１３は、SwitchingWPE１３１と、受付部１３２と、学習部１３３と、Switch設定部１３４と、フィルタ設定部１３５とを備える。

　SwitchingWPE１３１は、Switchおよび複数のWPEフィルタを用いて、観測された信号の残響除去を行う。Switchは、観測信号の時間周波数ごとに複数のWPEフィルタの切り替えを行うためのパラメータである。WPEフィルタは、観測信号の残響成分を除去する。

　受付部１３２は、残響除去信号の評価基準の入力を受け付ける。評価基準は、例えば、SDR、Scale　invariant　SDR、STOI等の明瞭度、Cepstram　distance、ASRにおけるWER等である。なお、受付部１３２が受け付ける残響除去信号の評価基準は、上記のいずれかの評価基準でもよいし、複数の評価基準の組み合わせであってもよい。

　学習部１３３は、残響除去の学習用データセットを用い、観測信号を入力とし、SwitchingWPE１３１により残響成分が除去された信号が、受付部１３２で入力された評価基準で最適化されるようなSwitchの推定結果を出力するSwitch推定モデルの学習を行う。

　例えば、学習部１３３は、評価基準が、SDR、Scale　invariant　SDR、STOI、Cepstral　distanceである場合、学習用データセットの入力信号に対する残響除去信号（正解信号）を正解データとする。そして、学習部１３３は、上記の正解データを用いて、学習用データセットの入力信号に対し、SwitchingWPE１３１が出力する残響信号に対し上記の評価基準で評価した結果が最適化されるような、SwitchingWPE１３１のSwitchを推定するSwitch推定モデルの学習を行う。

　なお、評価基準が、ASRである場合、学習部１３３は、上記の正解信号の代わりに正解テキスト（入力音声に対する書き起こしの文章）を正解データとして用いる。この場合、学習部１３３は、SwitchingWPE１３１が出力する残響除去信号を、ASRに入力し、ASRによる認識結果が、正解テキストになるべく一致するように（ASR正解率が改善するように）、Switch推定モデルの学習を行う。例えば、学習部１３３は、ASRによる認識結果のWERができるだけ小さくなるよう、Switch推定モデルの学習を行う。

　Switch設定部１３４は、観測信号に対し、学習後のSwitch推定モデルにより出力されたSwitchをSwitchingWPE１３１に設定する。また、フィルタ設定部１３５は、Switch設定部１３４により設定されたSwitchに対し最適なWPEフィルタを計算し、SwitchingWPE１３１に設定する。ここでの最適なWPEフィルタの計算方法は、例えば、従来のSwitchingWPEにおけるWPEフィルタの計算方法と同様の方法でよい。

　その後、SwitchingWPE１３１は、Switch設定部１３４により設定されたSwitchおよびフィルタ設定部１３５により設定されたWPEフィルタを用いて、入力された観測信号の残響成分を除去する。

　このようにすることで、信号処理装置１０は、SwitchingWPE１３１に対し、目的に応じた残響成分の除去の性能向上を実現することができる。

［処理手順の例］
　次に、図５を用いて信号処理装置１０の処理手順の例を説明する。まず、信号処理装置１０の受付部１３２は、SwitchingWPE１３１による残響成分の除去後の信号の評価基準の入力を受け付ける（Ｓ１）。

　次に、学習部１３３は、残響除去の学習用データセットを用い、信号を入力とし、SwitchingWPE１３１により残響成分が除去された信号が、Ｓ１で受け付けた評価基準で最適化されるようなSwitchの推定結果を出力するSwitch推定モデルの学習を行う（Ｓ２：モデルの学習）。

　Ｓ２の後、信号処理装置１０は、観測信号の入力を受け付ける（Ｓ３）。そして、Switch設定部１３４は、Ｓ３で入力された観測信号に対し、Ｓ２で学習されたSwitch推定モデルにより推定されたSwitchをSwitchingWPE１３１に設定する（Ｓ４：Switchの設定）。そして、フィルタ設定部１３５は、設定されたSwitchに対し最適なWPEフィルタを計算し、SwitchingWPE１３１に設定する（Ｓ５：WPEフィルタの設定）。

　その後、SwitchingWPE１３１は、Switch設定部１３４により設定されたSwitchおよびフィルタ設定部１３５により設定されたWPEフィルタを用いて、入力された観測信号の残響成分を除去する（Ｓ６）。

［評価結果］
　次に、図６を用いて、信号処理装置１０による残響成分の除去性能の評価結果を説明する。ここでは、信号処理装置１０が、シミュレーションにより作成された残響成分を含む音声データに対する残響成分の除去の評価を行った。

　なお、信号処理装置１０は、残響除去の学習用データセットを用い、SwitchingWPE１３１により残響成分が除去された信号が、SDRを評価基準とし最適化されるSwitchを推定するDNNの学習を行った。評価対象の音声データは、マイク数＝１で収録された音声データである。また、SwitchingWPE１３１が用いるSwitchの数＝３とした。比較対象は、観測信号（処理なし）、WPE、SwitchingWPEである。

　図６に示すように、信号処理装置１０が、上記のDNNにより推定されたSwitchを用いたSwitchingWPEにより残響除去を行った音声データは、WPE、SwitchingWPEに比べてSDRが高いことが確認できた。また、信号処理装置１０により残響除去を行った音声データは、WPE、SwitchingWPEに比べて単語認識誤り率が低いことも確認できた。

　このことから信号処理装置１０は、SwitchingWPE１３１に対し、目的に応じた残響成分の除去の性能向上を実現できることが確認できた。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した信号処理装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム（信号処理プログラム）を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置１０として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　図７は、信号処理プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の信号処理装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０　信号処理装置
１１　入出力部
１２　記憶部
１３　制御部
１３１　SwitchingWPE
１３２　受付部
１３３　学習部
１３４　Switch設定部
１３５　フィルタ設定部

Claims

　観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEと、
　前記SwitchingWPEによる残響成分の除去後の信号の評価基準の入力を受け付ける受付部と、
　残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が前記評価基準で最適化されるような前記Switchを推定するモデルの学習を行う学習部と、
　観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定するSwitch設定部と、
　設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定するフィルタ設定部とを備え、
　前記SwitchingWPEは、
　設定された前記Switchおよび設定された前記WPEフィルタを用いて、前記観測信号の残響成分を除去する
　ことを特徴とする信号処理装置。
　前記評価基準は、
　信号対歪み比、スケール不変の信号対歪み比、明瞭度、ケプストラル距離、および、自動音声認識における文字認識率の少なくともいずれかである
　ことを特徴とする請求項１に記載の信号処理装置。
　前記残響除去の学習用データセットは、入力信号と、前記入力信号の正解データである前記入力信号から残響成分を除去した信号とを含み、
　前記学習部は、
　前記入力信号に対し、前記SwitchingWPEが出力する残響成分の除去後の信号と、前記正解データとを用いた、前記残響成分の除去後の信号に対する前記評価基準での評価結果が最適化されるよう、前記モデルの学習を行う
　ことを特徴とする請求項１に記載の信号処理装置。
　前記モデルは、
　DNN（Deep　Neural　Network）により前記Switchを推定するモデルである
　ことを特徴とする請求項１に記載の信号処理装置。
　信号処理装置により実行される信号処理方法であって、
　観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEによる、残響成分の除去後の信号の評価基準の入力を受け付ける工程と、
　残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるようなSwitchの推定結果を出力するモデルの学習を行う工程と、
　観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定する工程と、
　設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定する工程と、
　前記Switchおよび前記WPEフィルタが設定された前記SwitchingWPEを用いて、前記観測信号の残響成分を除去する工程と
　を有することを特徴とする信号処理方法。
　観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEによる、残響成分の除去後の信号の評価基準の入力を受け付ける工程と、
　残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるようなSwitchの推定結果を出力するモデルの学習を行う工程と、
　観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定する工程と、
　設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定する工程と、
　前記Switchおよび前記WPEフィルタが設定された前記SwitchingWPEを用いて、前記観測信号の残響成分を除去する工程と
　をコンピュータに実行させるための信号処理プログラム。