WO2023127057A1

WO2023127057A1 - 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Info

Publication number: WO2023127057A1
Application number: PCT/JP2021/048688
Authority: WO
Inventors: 康智大石; マークデルクロア; 翼落合; 章子荒木; 大起竹内; 大輔仁泉; 昭悟木村; 邦夫柏野; 登原田
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2023-07-06

Abstract

信号フィルタリング装置は、目的信号の関連情報の特徴情報を生成する情報生成部と、目的信号を含む混合信号から、マスク情報を特徴情報に基づいて抽出する抽出部と、マスク情報を用いて、目的信号を混合信号から推定するマスク処理部とを備える。情報生成部は、関連情報を多次元ベクトルに符号化し、多次元ベクトルの線形変換結果を、特徴情報として生成してもよい。情報生成部は、関連情報を第１多次元ベクトルに符号化し、混合信号を第２多次元ベクトルに符号化し、第１多次元ベクトルと第２多次元ベクトルとの時系列の類似度を導出し、時系列の類似度と混合信号との加重和の結果を、特徴情報として生成してもよい。

Description

信号フィルタリング装置、信号フィルタリング方法及びプログラム

　本発明は、信号フィルタリング装置、信号フィルタリング方法及びプログラムに関する。

　複数の話者が話をすることによって、それらの話者の音声が混合されることがある。混合された音声から選択された話者の音声を聴くことができるという効果は、カクテルパーティ効果として知られている。このカクテルパーティ効果を信号フィルタリング装置によって実現することが研究されている。

　以下では、音声信号は、音声言語に応じた信号でもよいし、楽器等の音響に応じた信号（音響信号）でもよい。信号フィルタリング装置は、音声信号に対するフィルタリング処理によって、信号フィルタリング装置に入力された音声信号における特定の部分若しくは要素を、その音声信号から抽出又は除去する。すなわち、信号フィルタリング装置は、抽出の目的とされた音声信号（以下「目的音声信号」という。）を、混合された音声信号から抽出又は除去する。

　非特許文献１に開示された信号フィルタリング装置は、目的音声信号の物理的特性に基づいて、フィルタリング処理を実行する。物理的特性とは、音源の方向と、音声の周波数成分の調波構造と、音声信号の統計的な独立性と、目標話者の音色近接性又は整合性とである。

K. Zmolikova, M. Delcroix, K. Kinoshita, T. Ochiai, T. Nakatani, L. Burget, and J. Cernocky, "SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures", IEEE Journal of Selected Topics in Signal Processing, vol.13, no.4, pp.800-814, 2019.

　しかしながら、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることができないという問題がある。

　上記事情に鑑み、本発明は、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることが可能である信号フィルタリング装置、信号フィルタリング方法及びプログラムを提供することを目的としている。

　本発明の一態様は、目的信号の関連情報の特徴情報を生成する情報生成部と、
　前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出する抽出部と、前記マスク情報を用いて、前記目的信号を前記混合信号から推定するマスク処理部とを備える信号フィルタリング装置である。

　本発明の一態様は、信号フィルタリング装置が実行する信号フィルタリング方法であって、目的信号の関連情報の特徴情報を生成するステップと、前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出するステップと、前記マスク情報を用いて、前記目的信号を前記混合信号から推定するステップとを含む信号フィルタリング方法である。

　本発明の一態様は、上記の信号フィルタリング装置としてコンピュータを機能させるためのプログラムである。

　本発明により、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることが可能である。

第１実施形態における、信号フィルタリング装置の構成例を示す図である。第１実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。第２実施形態における、信号フィルタリング装置の構成例を示す図である。第２実施形態における、類似度外形の例を示す図である。第２実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。第３実施形態における、信号フィルタリング装置の構成例を示す図である。第３実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。第１実施形態及び第２実施形態における、目的音声信号について平均化された信号対歪み比スコアの例を示す。第２実施形態における、目的音声信号の抽出例を示す。第２実施形態及び第３実施形態における、重複率ごとの信号対歪み比スコアの例を示す。各実施形態における、信号フィルタリング装置のハードウェア構成例を示す図である。

　（概要）
　以下、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号を、「混合音声信号」という。以下、所定の方法で指定された概念（Concept）に基づいて目的音声信号を混合音声信号から抽出する機能を、「コンセプトビーム」（ConceptBeam）という。所定の方法とは、特定の方法に限定されないが、例えば、音声信号、静止画信号、動画信号（映像信号）又はテキスト信号（説明文信号）を用いて指定する方法である。また、目的音声信号は、混合音声信号における特定の部分又は要素である。

　例えば、異なる話題について話をしている複数の話者による混合音声信号が、信号フィルタリング装置に入力される。また、抽出の目的とされた概念を指定するための信号（以下「概念指定信号」という。）が、信号フィルタリング装置に入力される。

　信号フィルタリング装置は、多次元ベクトル形式の意味情報、すなわち、多次元ベクトル形式の概念情報（以下「概念埋め込みベクトル」という。）を、概念指定信号から抽出する。この概念指定信号を用いて指定された概念（潜在的意味情報）に関連する音声言語が、混合音声信号に含まれている場合がある。例えば、概念指定信号としての静止画のフレーム内の自転車画像に関連する単語「自転車」の波形データ（音声言語）が、混合音声信号に含まれている場合がある。

　信号フィルタリング装置は、抽出の目的とされた概念について話をしている話者による目的音声信号を、混合音声信号から抽出する。例えば、自転車の画像信号が信号フィルタリング装置に入力された場合、信号フィルタリング装置は、抽出の目的とされた概念「自転車」について話をしている話者による目的音声信号を、混合音声信号から抽出する。

　以下において説明される第１実施形態及び第２実施形態では、信号フィルタリング装置は、クロスモーダルの表現の学習（参考文献１：D. Harwath, A. Recasens, D. Suris, G. Chuang, A. Torralba, and J. Glass, “Jointly discovering visual objects and spoken words from raw sensory input,” International Journal of Computer Vision, 2019.）を応用する。これによって、信号フィルタリング装置は、概念指定信号を用いて指定された概念を、概念埋め込みベクトル（概念ベクトル）を用いて表現する。

　以下において説明される第１実施形態及び第２実施形態では、信号フィルタリング装置は、目的の話者を抽出する手法（参考文献２：M. Delcroix, K. Zmolikova, T. Ochiai, K. Kinoshita, and T. Nakatani, “Speaker activity driven neural speech extraction,” in Proc. ICASSP, 2021.）を応用する。これによって、信号フィルタリング装置は、概念埋め込みベクトルを用いて表現された概念に基づいて、目的音声信号を混合音声信号から抽出する。

　以下において説明される第３実施形態では、信号フィルタリング装置は、音源を分離する手法（参考文献３：M. Kolbak, D. Yu, Z.-H. Tan, and J. Jensen, “Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 25, no. 10, pp. 1901-1913, 2017.）を応用する。これによって、信号フィルタリング装置は、目的音声信号を混合音声信号から抽出する。

　本発明の実施形態について、図面を参照して詳細に説明する。
　以下では、数式において文字の上に付されている記号は、その文字の直前に記載される。例えば、数式において文字「Ｘ」の上に付されている記号「＾」は、「＾Ｘ」のように文字「Ｘ」の直前に記載される。例えば、数式において文字「Ｉ」の上に付されている記号「－」は、「（－）Ｉ」のように文字「Ｉ」の直前に記載される。

　（第１実施形態）
　図１は、第１実施形態における、信号フィルタリング装置１ａの構成例を示す図である。信号フィルタリング装置１ａは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置１ａは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。第１実施形態では、信号フィルタリング装置１ａは、一例として、視聴覚（画像及び音声）の埋め込みネットワーク（ニューラルネットワーク）を用いて得られた概念埋め込みベクトル（画像の埋め込みベクトル）を、目的音声信号を混合音声信号から抽出するための手がかりとして利用する。

　信号フィルタリング装置１ａは、取得部１１と、情報生成部１２ａと、抽出部１３と、マスク処理部１４とを備える。情報生成部１２ａは、符号化部１２１ａと、線形変換部１２２とを有する。抽出部１３は、第１抽出層１３１と、結合処理部１３２と、第２抽出層１３３ａとを有する。

　＜学習段階＞
　画像の埋め込みベクトルと、音声の埋め込みベクトルとが、画像とその画像の内容を説明する音声との大量のペアデータに基づいて得られる。推定段階の前における学習段階において、符号化部１２１ａは、画像の埋め込みベクトルと音声の埋め込みベクトルとが潜在空間（視聴覚の埋め込み空間）において互いに近くに配置されるように、深層距離学習を実行する。

　抽出の目的とされた概念（概念指定信号としての静止画の内容）について話をしている話者の音声に応じた目的音声信号が混合音声信号から抽出されるという処理は、式（１）のように定式化される。

　ここで、「Ｙ∈Ｃ^Ｔ×Ｆ」は、短時間フーリエ変換領域における、混合音声信号（入力信号）を表す。「Ｔ」は、混合音声信号における、時間当たりのフレームの枚数を表す。「Ｆ」は、混合音声信号の周波数ビン数を表す。「＾Ｘ_ｋ∈Ｃ^Ｔ×Ｆ」は、k番目の話者の目的音声信号を表す。「ｆ（・）」は、概念に基づいて目的音声信号「＾Ｘ_ｋ」を混合音声信号「Ｙ」から抽出する処理（ConceptBeam）を表す関数である。

　符号化部１２１ａのパラメータと抽出部１３のパラメータとは、同時に学習されてもよいが、安定するように独立に学習される。情報生成部１２ａ及び抽出部１３が深層学習を実行するためには、短時間フーリエ変換領域における、混合音声信号と参照音声信号とを含む集合「｛Ｙ，Ｘ_ｋ，Ｃ_ｋ｝^Ｋ _ｋ＝１」が必要とされる。ここで、「Ｘ_ｋ」は、k番目の話者の目的音声信号に対応付けられた参照音声信号を表す。「Ｃ_ｋ」は、概念指定信号（例えば、静止画）を表す。「Ｋ」は、混合音声信号に対応付けられた話者の総数を表す。

　情報生成部１２ａは、視聴覚の埋め込みネットワーク（例えば、参考文献１参照）を有する。情報生成部１２ａは、視聴覚の埋め込みネットワークに入力された概念指定信号（静止画）に基づいて、画像特徴ベクトル（画像特徴情報）を生成する。情報生成部１２ａは、画像特徴ベクトルに基づいて、概念埋め込みベクトルを生成する。

　符号化部１２１ａは、視聴覚の埋め込みネットワークを用いて、画像のフレーム内のオブジェクトを表す名称又は様子（抽出の目的とされた概念）が音声言語で説明されている音声信号の時間区間（セグメント）と、そのオブジェクトとを、教師なし学習で対応付ける。

　第１実施形態では、符号化部１２１ａにおいて画像「Ｃ_ｋ」を符号化する画像エンコーダから得られた視覚情報としてのグローバルプーリングされた画像特徴ベクトル「（－）Ｉ」が、概念埋め込みベクトル「ｅ」として使用される。ここで、線形変換部１２２は、グローバルプーリングされた画像特徴ベクトル「（－）Ｉ」に対して、線形変換を実行する。線形変換部１２２は、線形変換によって得られたｄ’次元ベクトルを、概念埋め込みベクトル「ｅ」として生成する。

　なお、情報生成部１２ａは、画像（視覚）と音声（聴覚）との両方のモダリティを横断する概念を、概念埋め込みベクトルを用いて表現してもよい。すなわち、クロスモーダルの埋め込みベクトルが、概念埋め込みベクトルとして使用されてもよい。クロスモーダルの埋め込みベクトルは、例えば、画像及び音声の埋め込みベクトルでもよい。

　取得部１１は、混合音声信号（入力信号）を取得する。抽出部１３は、混合音声信号と概念埋め込みベクトルとに基づいて、マスク情報を生成する。マスク処理部１４は、混合音声信号とマスク情報とに基づいて、目的音声信号「＾Ｘ_ｋ」を推定する。深層距離学習における損失関数は、推定された目的音声信号「＾Ｘ_ｋ」と参照音声信号「Ｘ_ｋ」との間の平均二乗誤差を損失として表す関数である。

　＜推定段階＞
　学習段階において学習された情報生成部１２ａ（視聴覚の埋め込みネットワーク）のパラメータは、推定段階において固定される。また、学習段階において学習された抽出部１３（各抽出層）のパラメータは、推定段階において固定される。

　取得部１１は、混合音声信号（入力信号）を取得する。符号化部１２１ａは、概念指定信号を取得する。符号化部１２１ａは、視聴覚の埋め込みネットワーク（例えば、参考文献１参照）を用いて、画像特徴ベクトルを概念指定信号から生成する。

　符号化部１２１ａは、異なるモダリティ（画像及び音声）の情報を、異なるモダリティの特徴を表現することが可能な埋め込み空間（以下「共有埋め込み空間」という。）のベクトルに変換してもよい。例えば、符号化部１２１ａは、概念指定信号が静止画又は動画である場合、入力された概念指定信号を、画像特徴ベクトルに符号化する。例えば、符号化部１２１ａは、概念指定信号が音声である場合、入力された概念指定信号を、音声特徴ベクトル（音声特徴情報）に符号化する。

　「Ｉ∈Ｒ^{Ｈ×Ｗ×ｄ}」は、符号化部１２１ａの画像エンコーダから出力された画像特徴マップを表す。「Ａ∈Ｒ^Ｔ’×ｄ」は、符号化部１２１ａの音声エンコーダから出力された音声特徴マップを表す。概念指定信号が静止画である場合、式（２）に示された「（－）Ｉ」は、空間方向にグローバルプーリングされた画像特徴ベクトルを表す。なお、概念指定信号が動画である場合、「（－）Ｉ」は、空間方向又は時間方向にグローバルプーリングされた画像特徴ベクトルを表す。

　ここで、「Ｉ_{ｈ，ｗ，：}」は、画像特徴マップにおける座標（ｈ，ｗ）を示すｄ次元ベクトル（画像特徴ベクトル）を表す。「Ｈ」は、画像エンコーダによってダウンサンプリングされた画像の高さを表す。「Ｗ」は、画像エンコーダによってダウンサンプリングされた画像の幅を表す。式（３）に示された「（－）Ａ」は、時間方向にグローバルプーリングされた音声特徴ベクトルを表す。

　ここで、「Ａ_ｔ’，：」は、音声特徴マップにおけるｔ’番目のフレームを示すｄ次元ベクトル（音声特徴ベクトル）を表す。「Ｔ’」は、音声エンコーダによってダウンサンプリングされた音声信号の時間フレームの数を表す。

　抽出部１３は、共有埋め込み空間における、これらの特徴ベクトルに基づいて導出された概念埋め込みベクトルを、混合音声信号に対するフィルタリング処理に使用する。

　抽出部１３は、概念指定信号（目的概念指定子）に応じて生成された概念埋め込みベクトルに基づいて、所望の要素又は領域を混合音声信号から抽出する。抽出部１３は、抽出ネットワーク（抽出用のニューラルネットワーク）を有する。抽出部１３は、抽出ネットワークに入力された混合音声信号「Ｙ」と概念埋め込みベクトル「ｅ」とに基づいて、所望の要素又は領域を表す「時間－周波数マスク」を、マスク情報「Ｍ_ｋ∈Ｒ^Ｔ×Ｆ」として生成する。

　マスク情報の形成は、例えば、「Ｍ_ｋ＝ｇ（Ｙ，ｅ）」である。ここで、「ｇ（・）」は、抽出ネットワークを表す。第１抽出層１３１は、抽出ネットワークの最初の双方向長期短期記憶（BLSTM : Bidirectional Long Short-Term Memory）層（隠れ層）である。結合処理部１３２は、第１抽出層１３１の出力と概念埋め込みベクトル「ｅ」とを、要素ごとに乗算する。これによって、第１抽出層１３１による抽出結果と概念埋め込みベクトル「ｅ」とが、乗算結合（参考文献２参照）される。第２抽出層１３３ａは、結合処理部１３２による乗算結合の結果から、マスク情報を抽出する。

　マスク処理部１４は、第２抽出層１３３ａによって抽出されたマスク情報「Ｍ_ｋ」と混合音声信号「Ｙ」との乗算を、要素ごとに実行する。これによって、マスク処理部１４は、目的音声信号「＾Ｘ_ｋ」を推定する。

　次に、信号フィルタリング装置１ａの動作例を説明する。
　図２は、第１実施形態における、信号フィルタリング装置１ａの動作例を示すフローチャートである。符号化部１２１ａは、概念指定信号を画像特徴ベクトル（ｄ次元ベクトル）に符号化する（ステップＳ１０１）。線形変換部１２２は、画像特徴ベクトルの線形変換結果を、概念埋め込みベクトルとして生成する（ステップＳ１０２）。抽出部１３は、目的音声信号を含む混合音声信号から、マスク情報を概念埋め込みベクトルに基づいて抽出する（ステップＳ１０３）。マスク処理部１４は、マスク情報を用いて、目的音声信号を混合音声信号から推定する（ステップＳ１０４）。

　以上のように、情報生成部１２ａは、目的音声信号（目的信号）の概念指定信号（関連情報）の概念埋め込みベクトル（特徴情報）を生成する。抽出部１３は、目的音声信号を含む混合音声信号（混合信号）から、マスク情報を概念埋め込みベクトルに基づいて抽出する。マスク処理部１４は、マスク情報を用いて、目的音声信号を混合音声信号から推定する。

　ここで、情報生成部１２ａは、概念指定信号（関連情報）をｄ次元ベクトル（多次元ベクトル）に符号化する。情報生成部１２ａは、ｄ次元ベクトルの線形変換結果を、概念埋め込みベクトル（特徴情報）として生成する。

　これによって、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号（混合音声信号）から目的音声信号を抽出する精度を向上させることが可能である。

　（第２実施形態）
　第２実施形態では、概念活動（Concept activity）情報を用いてマスク情報が混合音声信号から抽出される点が、第１実施形態との差分である。第２実施形態では第１実施形態との差分を中心に説明する。

　図３は、第２実施形態における、信号フィルタリング装置１ｂの構成例を示す図である。信号フィルタリング装置１ｂは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置１ｂは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。

　信号フィルタリング装置１ｂは、取得部１１と、情報生成部１２ｂと、抽出部１３と、マスク処理部１４とを備える。情報生成部１２ｂは、符号化部１２１ｂと、類似度導出部１２３と、補助部１２４と、加重和部１２５とを有する。抽出部１３は、第１抽出層１３１と、結合処理部１３２と、第２抽出層１３３ｂを有する。

　情報生成部１２ｂは、概念指定信号について、類似度外形（Similarity profile）を生成する。類似度外形は、視聴覚の対応関係を表す情報である。例えば、類似度外形は、画像特徴と音声特徴との類似度を時系列で表す情報である。類似度外形は、式（４）のように、画像特徴ベクトル「Ｉ」と音声特徴ベクトル「Ａ」との内積として表される。

　情報生成部１２ｂは、類似度外形に基づいて、概念活動情報を生成する。概念活動情報は、類似度外形に基づいて生成されるので、抽出の目的とされた概念が混合音声信号に発現した時間区間を表す。例えば、概念活動情報は、混合音声信号において、抽出の目的とされた概念「自転車」について発話された音声言語「自転車」を含む時間区間を表す情報である。

　情報生成部１２ｂは、概念活動情報に基づいて、概念埋め込みベクトルを生成する。抽出部１３は、概念埋め込みベクトルに基づいて、マスク情報を混合音声信号から抽出する。

　＜学習段階＞
　混合音声信号が学習に用いられる代わりに、例えば、オラクル概念活動（Oracle concept activity）情報が学習に用いられる。オラクル概念活動情報は、目的音声信号の参照音声信号が視聴覚の埋め込みネットワーク（例えば、参考文献１参照）に入力されることによって、視聴覚の埋め込みネットワークの出力として得られる情報である。

　オラクル概念活動情報（時系列データ）が概念埋め込みベクトルの生成に用いられることによって、目的音声信号における特定の概念の特徴を抽出部１３が精度よく抽出することが期待される。目的音声信号を混合音声信号から抽出するという教師付き学習では、目的音声信号の話者を示すベクトルに近い概念埋め込みベクトルが生成される。

　＜推定段階＞
　図４は、第２実施形態における、類似度外形の例を示す図である。概念埋め込みベクトルの生成に、視聴覚の対応関係が用いられる。類似度外形「ｓ_ｔ’」が利用されることによって、画像中に表現された概念に関連する単語が発話されている音声信号の領域（セグメント）が特定される（参考文献１参照）。

　類似度外形は、例えば、概念指定信号１００（静止画）について話者が話をしている場合、概念指定信号１００の内容と話者の音声の内容との類似度を表す。図４に例示された概念指定信号１００には、例えば、自転車の画像が含まれている。このため、話者の音声に例えば「自転車」という単語が含まれている時間区間の類似度外形は、「自転車」という単語が含まれていない時間区間の類似度外形と比較して、相対的に高くなっている。

　以下では、混合音声信号における各話者の音声区間の一部が重複していることが想定される。情報生成部１２ｂは、概念指定信号１００と混合音声信号とに基づいて、類似度外形を導出する。例えば、符号化部１２１ｂは、概念指定信号１００の画像特徴マップを生成する。符号化部１２１ｂは、概念指定信号１００の画像特徴マップにおける画像特徴ベクトルを生成してもよい。符号化部１２１ｂは、混合音声信号の音声特徴マップにおける音声特徴ベクトルを生成してもよい。

　類似度導出部１２３は、画像特徴マップにおける画像特徴ベクトルと音声特徴マップにおける音声特徴ベクトルとの類似度外形を、式（４）のように導出する。また、類似度導出部１２３は、式（５）のようにシグモイド関数を用いて、０から１までの間で変化する値に類似度外形をスケール変換する。

　ここで、「ｂ」は、学習可能な所定パラメータである。式（５）に例示された「ｐ_ｔ’」の時系列が、概念活動情報である。すなわち、０から１までの間で変化する値にスケール変換された類似度外形が、概念活動情報である。

　補助部１２４は、補助ネットワークを有する。補助部１２４は、混合音声信号「ｙ_ｔ」を取得部１１から取得する。加重和部１２５は、補助部１２４の出力「ｈ（ｙ_ｔ）」と概念活動情報との加重和（重み付けの結果）を、概念埋め込みベクトルとして導出する。概念埋め込みベクトルは、式（６）のように表される。

　ここで、「ｈ（・）」は、補助ネットワーク（Auxiliary network）を表す。概念埋め込みベクトルが混合音声信号から導出されるようにするため、補助ネットワークは、概念活動情報を混合音声信号に同期させる。「ｙ_ｔ」は、混合音声信号「Ｙ」におけるｔ番目のフレームを表す。概念活動情報「ｐ_ｔ’」の系列の長さ「Ｔ’」と、ｔ番目のフレーム「ｙ_ｔ」の系列の長さ「Ｔ」とには、「Ｔ’＜Ｔ」の関係が成り立つ。補助部１２４が、概念活動情報「ｐ_ｔ’」を線形補間する。加重和部１２５は、線形補間された概念活動情報に基づいて、長さ「Ｔ」の系列の概念活動情報「ｐ_ｔ」を導出する。加重和部１２５は、活動駆動型の抽出ネットワーク（ADEnet）に関連する（参考文献２参照）。この活動駆動型の抽出ネットワークは、目的音声信号を抽出するために話者が発話した時間区間を表す情報を利用する。

　なお、加重和部１２５は、式（４）に例示された概念活動情報の時系列データを用いる代わりに、式（４）に例示された類似度外形を用いて、式（６）に例示された概念埋込みベクトルを導出してもよい。

　次に、信号フィルタリング装置１ｂの動作例を説明する。
　図５は、第２実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。符号化部１２１ｂは、概念指定信号を画像特徴ベクトルに符号化する（ステップＳ２０１）。符号化部１２１ｂは、混合音声信号を音声特徴ベクトルに符号化する（ステップＳ２０２）。類似度導出部１２３は、画像特徴ベクトルと音声特徴ベクトルとの類似度外形を導出する（ステップＳ２０３）。

　補助部１２４は、混合音声信号を加重和部１２５に出力する（ステップＳ２０４）。加重和部１２５は、類似度外形と混合音声信号との加重和の結果を、概念埋め込みベクトルとして生成する（ステップＳ２０５）。抽出部１３は、目的音声信号を含む混合音声信号から、マスク情報を概念埋め込みベクトルに基づいて抽出する（ステップＳ２０６）。マスク処理部１４は、マスク情報を用いて、目的音声信号を混合音声信号から推定する（ステップＳ２０７）。

　以上のように、情報生成部１２ｂは、目的音声信号（目的信号）の概念指定信号（関連情報）の概念埋め込みベクトル（特徴情報）を生成する。抽出部１３は、目的音声信号を含む混合音声信号（混合信号）から、マスク情報を概念埋め込みベクトルに基づいて抽出する。マスク処理部１４は、マスク情報を用いて、目的音声信号を混合音声信号から推定する。

　ここで、情報生成部１２ｂは、概念指定信号（関連情報）を、画像特徴ベクトル（第１多次元ベクトル）に符号化する。情報生成部１２ｂは、混合音声信号（混合信号）を、音声特徴ベクトル（第２多次元ベクトル）に符号化する。情報生成部１２ｂは、画像特徴ベクトルと音声特徴ベクトルとの類似度外形（時系列の類似度）を導出する。情報生成部１２ｂは、類似度外形と混合音声信号（混合信号）との加重和の結果を、概念埋め込みベクトルとして生成する。

　（第３実施形態）
　第３実施形態では、混合音声信号における音声信号が話者（音源）ごとに分離される点が、第１実施形態及び第２実施形態との差分である。第３実施形態では第１実施形態及び第２実施形態との差分を中心に説明する。

　図６は、第３実施形態における、信号フィルタリング装置１ｃの構成例を示す図である。信号フィルタリング装置１ｃは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置１ｃは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。

　信号フィルタリング装置１ｃは、分離部１５と、符号化部１２１ｃと、選択部１２６とを備える。分離部１５は、第１抽出層１３１と、第２抽出層１３３ｃとを有する。符号化部１２１ｃ又は選択部１２６は、視聴覚の埋め込みネットワーク（例えば、参考文献１参照）を有する。

　分離部１５に備えられた分離ネットワークのアーキテクチャは、抽出部１３に備えられた抽出ネットワークと同様である。混合音声信号における音声信号の話者の人数（音源の個数）が既知である場合、話者（音源）ごとに、音声信号は分離可能である。第３実施形態では、音源の個数はＬ個である。混合音声信号におけるＬ個の音声信号は、｛（～）Ｘ_１，…，（～）Ｘ_Ｌ｝と表記される。

　第２抽出層１３３ｃ（出力層）は、混合音声信号における音声信号を、話者の音声信号「（～）Ｘ_ｌ」ごとに分離する。第２抽出層１３３ｃは、例えば、ＰＩＴ（Permutation Invariant Training）等の手法を用いて、混合音声信号における音声信号を話者ごとに分離する。第２抽出層１３３ｃは、各話者の音声信号を符号化部１２１ｃに出力する。

　符号化部１２１ｃには、概念指定信号としての静止画「Ｃ_ｋ」が入力される。符号化部１２１ｃには、各話者の音声信号が、第２抽出層１３３ｃから入力される。符号化部１２１ｃは、視聴覚の埋め込みネットワークを用いて、静止画「Ｃ_ｋ」の画像特徴ベクトル「（－）Ｉ_ｋ」を導出する。符号化部１２１ｃは、視聴覚の埋め込みネットワークを用いて、各話者の音声信号の音声特徴ベクトル「（－）Ａ_ｌ」を導出する。

　符号化部１２１ｃは、グローバルプーリングされた画像特徴ベクトル「（－）Ｉ_ｋ」と、各話者の音声信号のグローバルプーリングされた音声特徴ベクトル「（－）Ａ」と、各話者の音声信号「（～）Ｘ_ｌ」とを、選択部１２６に出力する。

　選択部１２６は、概念指定信号「Ｃ_ｋ」に基づくグローバルプーリングされた画像特徴ベクトル「（－）Ｉ_ｋ」と、各話者の音声信号のグローバルプーリングされた音声特徴ベクトル「（－）Ａ_ｌ」との類似度「（－）Ｉ_ｋ・（－）Ａ_ｌ」を導出する。選択部１２６には、各話者の音声信号「（～）Ｘ_ｌ」が、分離部１５又は符号化部１２１ｃから入力される。選択部１２６は、各話者の音声信号「（～）Ｘ_ｌ」のうちから、類似度が最も高い音声信号「（～）Ｘ_ｌ」を、目的音声信号「＾Ｘ_ｋ」として式（７）のように選択する。

　次に、信号フィルタリング装置１ｃの動作例を説明する。
　図７は、第３実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。分離部１５は、目的音声信号のＬ個の候補を、混合音声信号から分離する（ステップＳ３０１）。符号化部１２１ｃは、概念指定信号を画像特徴ベクトルに符号化する（ステップＳ３０２）。符号化部１２１ｃは、目的音声信号のＬ個の候補を、Ｌ個の音声特徴ベクトルに符号化する（ステップＳ３０３）。

　選択部１２６は、グローバルプーリングされた画像特徴ベクトルとグローバルプーリングされた音声特徴ベクトルとの類似度（内積）を、目的音声信号の候補ごとに導出する（ステップＳ３０４）。選択部１２６は、目的音声信号のＬ個の候補のうちから、最も高い類似度の目的音声信号を選択する（ステップＳ３０５）。

　以上のように、分離部１５は、目的音声信号のＬ個（所定個数）の候補（候補信号）を、選択される目的音声信号の候補として混合音声信号（混合信号）から分離する。目的音声信号のＬ個の候補は、予め定められたＬ個の音源（例えば、話者）に対応付けられた音声信号である。分離部１５は、ＰＩＴ等の手法を用いて、混合音声信号における目的音声信号の候補を音源ごとに分離する。

　符号化部１２１ｃは、目的音声信号に関連する概念指定信号（関連情報）を、画像特徴ベクトル（第１特徴ベクトル）に符号化する。符号化部１２１ｃは、目的音声信号のＬ個の候補（候補信号）を、Ｌ個の音声特徴ベクトル（第２特徴ベクトル）に符号化する。

　選択部１２６は、グローバルプーリングされた画像特徴ベクトルとグローバルプーリングされた音声特徴ベクトルとの類似度を、目的音声信号の候補（候補信号）ごとに導出する。選択部１２６は、画像特徴ベクトルと音声特徴ベクトルとの内積を、類似度として導出する。選択部１２６は、目的音声信号のＬ個の候補のうちから、最も高い類似度の目的音声信号（候補信号）を、最終的な目的音声信号（目的信号）として選択する。

　（効果の例）
　上記の信号フィルタリング装置が目的音声信号を抽出する性能について、評価結果の例を以下に説明する。

　撮影された様々なシーン及び場所の画像群を含む画像データセットに音声キャプションが付与されたデータセット（Places spoken caption dataset）が学習データとして利用され、２名の話者の混合音声信号が作成された。この音声キャプションデータセットは、画像データセットと、英語及び日本語の音声キャプションとで構成されている。画像データセットの画像群は、２０５種類の異なるシーンクラスに分類されている。また、画像と音声キャプションとのペア（９７，５５５組）が、各言語のデータセットから抜粋された。日本語の音声キャプションのみ、話者の性別がラベル付けされている。

　両言語における信号フィルタリング装置の有効性を評価するため、言語ごとに９０，０００ペアの学習セット、４，０００ペアの検証セット、３，５５５ペアの評価セットに分割された。その後、学習セットを利用して、視聴覚の埋め込みネットワークの事前学習（深層距離学習）が実行された。

　異なる画像クラスに属する「画像－音声キャプションのペア」が選択され、０から５ｄＢまでの信号対雑音比で音声キャプションが混合されることによって、２名の話者の混合音声信号が作成された。その結果、学習セットは、９０，０００本の混合音声信号を有する。検証セットは、４，０００本の混合音声信号を有する。評価セットは、３，５５５本の混合音声信号を有する。音声キャプションの周波数が８ｋＨｚにダウンサンプリングされることによって、計算コストとメモリコストが削減された。

　複素スペクトルの実部及び虚部が結合された２５８次元のベクトルが、入力される音声の特徴として用いられた。この複素スペクトルは、３２ｍｓの窓長と８ｍｓの窓シフト長とによる短時間フーリエ変換から得られた。

　画像の前処理として、画像の最小寸法が２５６ピクセルとなるように、画像の寸法がリサイズされた。リサイズされた画像には、２２４×２２４の中央トリミングが実行された。中央トリミングが実行された画像のピクセルは、グローバルピクセル平均及び分散に従って正規化された。

　視聴覚の埋め込みネットワークとして、「ＲｅｓＮｅｔ－ＲｅｓＤＡＶＥｎｅｔ」（参考文献１参照）が採用された。画像エンコーダは、「ＲｅｓＮｅｔ　５０」である。画像エンコーダは、「２２４×２２４×３」の画像が入力された場合、「７×７×１，０２４」の画像特徴マップを出力する。ここで、画像特徴マップの高さ「Ｈ」と幅「Ｗ」は、いずれも７である。

　音声エンコーダは、「ＲｅｓＤＡＶＥｎｅｔ」である。音声エンコーダは、４０次元対数メル・フィルタバンク・スペクトログラムが入力された場合、「Ｔ’×１，０２４」の音声特徴マップを出力する。このフィルタバンク・スペクトログラムは、入力された音声特徴から計算された。次元「ｄ」は、１，０２４である。時間分解能「Ｔ’」は、最終的には「Ｔ／１６」となる。

　図１に例示された線形変換部１２２は、８９６ユニット（ｄ’＝８９６）を有する全結合層（Fully Connected Layer）を有する。図３に例示された補助部１２４（補助ネットワーク）は、２個の全結合層を有する。これら２個の全結合層は、２００個の隠れユニットと、８９６個の隠れユニットと、ＲｅＬＵ（Rectified Linear Unit）活性化関数とを有する。このため、概念埋め込みベクトルの次元は、８９６である。

　抽出部１３の抽出ネットワークと、分離部１５の分離ネットワークとは、８９６ユニットから成る４個の双方向長期短期記憶層を、それぞれ有する。抽出部１３の抽出ネットワークと、分離部１５の分離ネットワークとは、各双方向長期短期記憶層の後に、８９６ユニットの線形写像層を有する。この線形写像層は、ＬＳＴＭ（Long Short Term Memory）の順方向の出力と、ＬＳＴＭの逆方向の出力とを結合する。

　抽出部１３がマスク情報（時間－周波数マスク）を推定するために、１層の全結合層とＲｅＬＵ活性化関数とが用いられた。結合処理部１３２は、抽出部１３（抽出ネットワーク）における最初の双方向長期短期記憶層の出力と、概念埋め込みベクトルとを結合した。

　分離部１５の分離ネットワークの学習では、音源の個数「Ｌ」は、２である。また、話者の総数「Ｋ」は、２である。初期学習率は、０．０００１である。学習の最適化手法として「Ａｄａｍ」が用いられ、勾配クリッピングが実行された。
信号フィルタリング装置によって抽出された目的音声信号は、信号対歪み比（ＳＤＲ）を用いて評価された。信号対歪み比は、各話者の目的音声信号を混合音声信号から抽出する性能を表す。信号対歪み比（ＳＤＲ）のスコアは、全ての実験結果において平均化された。

　図８は、第１実施形態及び第２実施形態における、目的音声信号について平均化された信号対歪み比（ＳＤＲ）スコア（ｄＢ）の例を示す。項目「異性の混合音声」の列の値は、異性の混合音声信号に関する信号対歪み比スコアを示す。項目「同性の混合音声」の列の値は、同性の混合音声信号に関する信号対歪み比スコアを示す。項目「異性及び同性の混合音声」の列の値は、異性及び同性の混合音声信号に関する信号対歪み比スコアを示す。

　項目「画像特徴ベクトル」は、第１実施形態の信号フィルタリング装置１ａにおける、信号対歪み比スコアを示す。項目「類似度外形」は、第２実施形態の信号フィルタリング装置１ｂの類似度導出部１２３が類似度外形を加重和部１２５に出力した場合における、信号対歪み比スコアを示す。項目「概念活動情報」は、第２実施形態の信号フィルタリング装置１ｂの類似度導出部１２３が概念活動情報を加重和部１２５に出力した場合における、信号対歪み比スコアを示す。

　概念埋め込みベクトルを生成するための構成として、画像特徴ベクトルと類似度外形と概念活動情報とのうちのいずれが最良であるかを確認する目的で、時間区間に重複のない２名の話者の混合音声が、信号フィルタリング装置１ａと信号フィルタリング装置１ｂとの各評価に利用された。

　各評価の結果、概念活動情報を利用して生成された概念埋め込みベクトルが抽出に利用された場合、目的音声信号の抽出の性能が最も高くなった。以下では、目的音声信号の抽出方式において、概念埋め込みベクトルは、概念活動情報を利用して生成される。

　図９は、第２実施形態（抽出方式）における、目的音声信号の抽出例を示す。
概念指定信号１０１は、メガネをかけた男性が書店内でギターを演奏している風景の画像である。概念指定信号１０２は、青い柱とローラーコースタの夜景の画像である。第１の話者（不図示）は、概念指定信号１０１を話題として話をしている。第１の目的音声信号は、第１の話者の音声信号である。第２の話者（不図示）は、概念指定信号１０２を話題として話をしている。第２の目的音声信号は、第２の話者の音声信号である。

　混合音声信号において第１の話者の音声と第２の話者の音声とが重複している時間区間でも、第１の目的音声信号と第２の目的音声信号とを信号フィルタリング装置１ｂが抽出することが可能である。特に、「概念活動情報」の値が１となった各時刻は、例えば概念指定信号１０１の画像において顕著な対象物（例えば、メガネをかけた男性）に対応付けられた概念（例えば、音声言語「ｇｌａｓｓｅｓ」、及び、音声言語「ｍａｎ」等）に対応している。概念指定信号１０２の画像についても同様である。概念指定信号において概念が発現した各時刻が手がかりとなり、概念埋め込みベクトルが導出される。概念埋め込みベクトルは、目的音声信号を混合音声信号から抽出するためのマスク情報の生成に用いられる。

　第１の目的音声信号の抽出性能（ＳＤＲスコア）は、１７．７ｄＢである。第２の目的音声信号の抽出性能（ＳＤＲスコア）は、１７．０ｄＢである。これらのように、２名の話者による音声を混合音声から良好に抽出することが可能である。

　図１０は、第２実施形態（抽出方式）及び第３実施形態（分離方式）における、重複率ごとの信号対歪み比スコアの例を示す。２名の話者の混合音声信号を使用して、信号フィルタリング装置１ｂ（概念活動情報を用いる抽出方式）の抽出性能と信号フィルタリング装置１ｃ（分離方式）の抽出性能とが比較される。話者の混合音声信号は、５種類の異なる重複率で日本語の音声キャプションを混合して得られた。

　信号フィルタリング装置１ｂの抽出性能と信号フィルタリング装置１ｃの抽出性能とは、重複率が低いほど同程度となり易い。信号フィルタリング装置１ｂの抽出性能と信号フィルタリング装置１ｃの抽出性能とは、重複率が高いほど、それぞれ低下する。

　信号フィルタリング装置１ｃの抽出性能は、重複率が１００％であっても、１０ｄＢ以上である。ただし、混合音声信号に含まれている目的音声信号の話者の人数（音源の個数）を表す情報を、信号フィルタリング装置１ｃは予め取得する必要がある。話者の人数が既知であるか否かと目的音声信号同士の重複率とに応じて、信号フィルタリング装置１ｂと信号フィルタリング装置１ｃとが使い分けらえることが有効である。

　次に、想定される各利用シーンの例について説明する。
　第１の利用シーンとして、学会又は展示会等のポスター会場のブースで、ポスターの内容（抽出の目的とされた概念）を発表者が説明しているという状況が、想定される。関係のない音声と雑音とによって、目的の発表者の声（目的音声信号）は聞きづらい状況となる。が、上記の各実施形態の信号フィルタリング装置は、ポスター（画像）の内容を概念指定信号（補助情報）として活用する。上記の各実施形態の信号フィルタリング装置は、様々な音が混合された音声から、発表者の音声を抽出する。これによって、発表者の音声を聞きやすくすることが可能になる。

　第２の利用シーンとして、目的の動画コンテンツ（抽出の目的とされた概念）をテレビ放送及び動画配信等における大量の動画コンテンツから探索するという状況が想定される。上記の各実施形態の信号フィルタリング装置は、探索対象とされた概念（抽出の目的とされた概念）を表す画像を含む静止画及び動画を、概念指定信号（補助情報）として活用する。例えば、信号フィルタリング装置は、探索対象とされた自転車を表す画像を含む静止画及び動画を、概念指定信号として活用する。信号フィルタリング装置は、探索対象とされた概念を説明する目的音声信号を、大量の動画コンテンツに対応付けられた混合音声信号から抽出する。例えば、信号フィルタリング装置は、自転車を説明する目的音声信号「自転車」を、自転車の動画を含む大量の動画コンテンツに対応付けられた混合音声信号から抽出する。これによって、抽出された混合音声信号に対応付けられた目的の動画コンテンツ（例えば、自転車の動画）を探索することが可能である。

　第３の利用シーンとして、目的音声に対する音声認識が実行されて、テレビ放送及び動画配信におけるインストラクションコンテンツに字幕が付与されるという状況が想定される。インストラクションコンテンツは、抽出の目的とされた概念を静止画及び動画を使って説明するコンテンツであり、例えば、料理を説明する動画、工作方法を説明する動画、教材の動画である。インストラクションコンテンツでは、背景音及び雑音に目的音声が埋もれてしまうことによって、目的音声に対する音声認識の実行が難しいことが多い。上記の各実施形態の信号フィルタリング装置は、説明対象とされた概念を説明する静止画及び動画を、概念指定信号（補助情報）として活用する。話者の目的音声信号が抽出されることによって、音声認識の性能が向上する。

　第４の利用シーンとして、音楽に活用される状況が想定される。以下、混合音声信号であって、抽出の目的とされた音響信号以外の音響信号と、抽出の目的とされた音響信号とが混合された音響信号を、「混合音響信号」という。例えば、複数種類の楽器の音が混合された音響信号が、上記の各実施形態の混合音声信号として、信号フィルタリング装置に入力されてもよい。信号フィルタリング装置は、目的の楽器の画像を含む静止画又は動画を、概念指定信号（補助情報）として活用する。目的の楽器の音として抽出された音響信号は、聴こえ易くなる。

　第５の利用シーンとして、抽出の目的とされた概念に対応付けられた音響信号が混合音響信号から探索されるという状況が想定される。混合音響信号は、例えば、屋外に設置されたマイク（例えば、監視用マイク）によって収録された音響信号である。混合音響信号には、例えば、車の音等の環境音が含まれている。抽出の目的とされた概念に対応付けられた静止画及び動画は、概念指定信号（補助情報）として使用される。

　第６の利用シーンとして、概念指定信号（補助情報）が画像信号である代わりに、概念指定信号は音声信号でもよい。概念指定信号が音声信号である場合、信号フィルタリング装置は、話題の内容（概念）に近い内容について話をしている話者の目的音声信号を、混合音声信号から抽出してもよい。英語を話す第１の話者と日本語を話す第２の話者とが、同じ概念（例えば、同じ画像の内容）について話をしている場合、信号フィルタリング装置は、目的音声信号で用いられている言語を概念指定信号として利用することで、第１の話者の英語音声信号と第２の話者の日本語音声信号とのうちの一方を、混合音声信号から抽出してもよい。信号フィルタリング装置は、目的音声信号で用いられている言語又は目的音声信号で用いられていない言語を概念指定信号として利用することで、第１の話者の英語音声信号と第２の話者の日本語音声信号とのうちの一方を、混合音声信号から除去してもよい。

　（ハードウェア構成例）
　図１１は、各実施形態における、信号フィルタリング装置１のハードウェア構成例を示す図である。信号フィルタリング装置１は、信号フィルタリング装置１ａと、信号フィルタリング装置１ｂと、信号フィルタリング装置１ｃとのそれぞれに相当する。信号フィルタリング装置１の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ１１１が、不揮発性の記録媒体（非一時的記録媒体）を有する記憶装置１１２とメモリ１１３とに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な非一時的記録媒体に記録されてもよい。コンピュータ読み取り可能な非一時的記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的記録媒体である。通信部１１４は、所定の通信処理を実行する。通信部１１４は、データとプログラムとを取得してもよい。

　信号フィルタリング装置１の各機能部の一部又は全部は、例えば、ＬＳＩ（Large Scale Integrated circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、信号をフィルタリングするシステムに適用可能である。

１，１ａ，１ｂ，１ｃ…信号フィルタリング装置、１１…取得部、１２ａ，１２ｂ…情報生成部、１３…抽出部、１４…マスク処理部、１５…分離部、１００…概念指定信号、１０１…概念指定信号、１０２…概念指定信号、１１１…プロセッサ、１１２…記憶装置、１１３…メモリ、１１４…通信部、１２１ａ，１２１ｂ…符号化部、１２３…類似度導出部、１２４…補助部、１２５…加重和部、１２６…選択部、１３１…第１抽出層、１３２…結合処理部、１３３ａ，１３３ｂ，１３３ｃ…第２抽出層

Claims

　目的信号の関連情報の特徴情報を生成する情報生成部と、
　前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出する抽出部と、
　前記マスク情報を用いて、前記目的信号を前記混合信号から推定するマスク処理部と
　を備える信号フィルタリング装置。
　前記情報生成部は、前記関連情報を多次元ベクトルに符号化し、前記多次元ベクトルの線形変換結果を、前記特徴情報として生成する、
　請求項１に記載の信号フィルタリング装置。
　前記情報生成部は、前記関連情報を第１多次元ベクトルに符号化し、前記混合信号を第２多次元ベクトルに符号化し、前記第１多次元ベクトルと前記第２多次元ベクトルとの時系列の類似度を導出し、前記時系列の類似度と前記混合信号との加重和の結果を、前記特徴情報として生成する、
　請求項１に記載の信号フィルタリング装置。
　信号フィルタリング装置が実行する信号フィルタリング方法であって、
　目的信号の関連情報の特徴情報を生成するステップと、
　前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出するステップと、
　前記マスク情報を用いて、前記目的信号を前記混合信号から推定するステップと
　を含む信号フィルタリング方法。
　請求項１から請求項３のいずれか一項に記載の信号フィルタリング装置としてコンピュータを機能させるためのプログラム。