WO2023152915A1 - 信号処理装置、信号処理方法、および、信号処理プログラム - Google Patents

信号処理装置、信号処理方法、および、信号処理プログラム Download PDF

Info

Publication number
WO2023152915A1
WO2023152915A1 PCT/JP2022/005475 JP2022005475W WO2023152915A1 WO 2023152915 A1 WO2023152915 A1 WO 2023152915A1 JP 2022005475 W JP2022005475 W JP 2022005475W WO 2023152915 A1 WO2023152915 A1 WO 2023152915A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
switch
wpe
switchingwpe
signal processing
Prior art date
Application number
PCT/JP2022/005475
Other languages
English (en)
French (fr)
Inventor
直之 加茂
林太郎 池下
慶介 木下
智広 中谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/005475 priority Critical patent/WO2023152915A1/ja
Publication of WO2023152915A1 publication Critical patent/WO2023152915A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Definitions

  • the present invention relates to a signal processing device, a signal processing method, and a signal processing program.
  • Reverberation is, for example, a signal component that reaches the microphone with a delay from the original signal due to reflection of the original signal from walls, floors, ceilings, and the like.
  • WPE Weighted Prediction Error
  • WPE Weighted Prediction Error
  • SwitchingWPE (see Non-Patent Document 1) is a technology that partially solves the above problem.
  • SwitchingWPE is an improved version of WPE that achieves dereverberation by switching multiple WPE filters for each time-frequency bin of the signal.
  • the parameter for selecting the time-frequency bin to which the WPE filter is applied is called Switch.
  • Rintaro Ikeshita et al., "Blind Signal Dereverberation Based on Mixture of Weighted Prediction Error Models", IEEE SIGNAL PROCESSING LETTERS, VOL. 28, 2021, 399.
  • SwitchingWPE the Switch is optimized with a weighted power minimization criterion (maximum likelihood criterion), so the optimized Switch is not necessarily the optimal Switch with other evaluation criteria (e.g. speech recognition rate, signal distortion measure, etc.). Not necessarily.
  • a Switch optimized by SwitchingWPE is not necessarily the best Switch for speech recognition. Therefore, the speech recognition rate for signals after dereverberation by SwitchingWPE may not be high.
  • the object of the present invention is to solve the above-described problems and to improve the performance of removing reverberation components according to the purpose in SwitchingWPE.
  • the present invention provides a plurality of WPE filters for removing reverberation components of an observed signal, and a switch for switching between the plurality of WPE filters for each time frequency of the observed signal.
  • a switchingWPE having a reverberation component removed by the SwitchingWPE, a reception unit that receives an input of evaluation criteria for a signal after the reverberation component has been removed by the SwitchingWPE, and a signal from which the reverberation component has been removed by the SwitchingWPE using a learning data set for removing the reverberation component of the signal is a learning unit that learns a model that outputs the estimation result of the Switch that is optimized by the evaluation criteria, and the Switch estimated by the model after learning for the observed signal is sent to the SwitchingWPE a Switch setting unit for setting; and a filter setting unit for calculating an optimum WPE filter for the set Switch and setting it to the SwitchingWPE, wherein the SwitchingWPE calculates the Switch and
  • FIG. 1 is a diagram illustrating an overview of SwitchingWPE.
  • FIG. 2 is a diagram for explaining the outline of the signal processing device.
  • FIG. 3 is a diagram for explaining the outline of the signal processing device when the evaluation criterion is SDR.
  • FIG. 4 is a diagram illustrating a configuration example of a signal processing device.
  • FIG. 5 is a diagram illustrating an example of a processing procedure of the signal processing device;
  • FIG. 6 is a diagram showing evaluation results of reverberation component removal performance by the signal processing apparatus.
  • FIG. 7 is a diagram showing a configuration example of a computer that executes a signal processing program.
  • SwitchingWPE performs dereverberation of observed signals by clustering the time-frequency of observed signals (for example, speech signals) and switching multiple WPE filters for each time-frequency using Switch. WPE filters are calculated per Switch.
  • the Switch and WPE filters of this SwitchingWPE are alternately optimized with a weighted power minimization criterion (maximum likelihood criterion).
  • the signal processing device uses a model such as a DNN (Deep Neural Network) to estimate the optimum Switch for dereverberation by SwitchingWPE from the observed signal. Then, the signal processing device dereverberates the observation signal by SwitchingWPE using the estimated Switch.
  • a model such as a DNN (Deep Neural Network) to estimate the optimum Switch for dereverberation by SwitchingWPE from the observed signal. Then, the signal processing device dereverberates the observation signal by SwitchingWPE using the estimated Switch.
  • DNN Deep Neural Network
  • the signal processing device uses a training data set for dereverberation, and upon receiving an observation signal input, learns a Switch estimation model that outputs an optimum Switch estimation result for that observation signal.
  • this learning data set is a data set showing an input signal and a signal obtained by removing the reverberation component from the input signal (correct signal for dereverberation).
  • the signal processing device evaluates the signal after dereverberation by SwitchingWPE (for example, SDR (signal-to-distortion ratio), Scale invariant SDR (scale-invariant signal-to-distortion ratio ), Clarity such as STOI (Short-Time Objective Intelligibility measure), Cepstral distance, WER (word error rate) in ASR (Automatic Speech Recognition), etc.).
  • SwitchingWPE for example, SDR (signal-to-distortion ratio), Scale invariant SDR (scale-invariant signal-to-distortion ratio ), Clarity such as STOI (Short-Time Objective Intelligibility measure), Cepstral distance, WER (word error rate) in ASR (Automatic Speech Recognition), etc.
  • the signal processing device uses the dereverberation learning data set to estimate the switch such that the signal after the reverberation component has been removed by SwitchingWPE (dereverberation signal) is optimized according to the above evaluation criteria Switch estimation model study.
  • the evaluation criterion for the dereverberated signal is SDR and the Switch estimation model is realized by DNN.
  • the signal processing device maximizes the SDR between the dereverberation signal output by SwitchingWPE for the input signal included in the learning data set and the correct dereverberation signal for the input signal included in the learning data set.
  • the DNN is optimized so that (see FIG. 3).
  • the signal processing device inputs the observed signal to the optimized DNN and obtains the optimized Switch estimation result for the observed signal. Then, the signal processing device dereverberates the observed signal by SwitchingWPE using the estimated Switch. By doing so, the signal processing apparatus can improve the performance of removing reverberation components according to the purpose (evaluation criteria) in SwitchingWPE.
  • the signal processing device 10 includes an input/output unit 11 , a storage unit 12 and a control unit 13 .
  • the input/output unit 11 is an interface that controls input/output of various information.
  • the input/output unit 11 receives inputs such as observation signals to be dereverberated and evaluation criteria for dereverberated signals. Also, for example, the input/output unit 11 outputs a dereverberation signal.
  • the storage unit 12 stores data that the control unit 13 refers to when executing various processes.
  • the storage unit 12 stores evaluation criteria for dereverberated signals, data sets for dereverberation learning, and a Switch estimation model for estimating the optimum Switch (parameters of the Switch estimation model).
  • the above Switch estimation model is a model that takes an observation signal to the SwitchingWPE 131 as input and outputs the optimal Switch estimation result in the SwitchingWPE 131 .
  • This Switch estimation model is realized by DNN, for example.
  • the Switch estimation model is learned by the learning unit 133 .
  • the control unit 13 controls the entire signal processing device 10 .
  • the control unit 13 includes a switching WPE 131 , a reception unit 132 , a learning unit 133 , a switch setting unit 134 and a filter setting unit 135 .
  • the SwitchingWPE 131 dereverberates the observed signal using Switch and multiple WPE filters.
  • Switch is a parameter for switching between multiple WPE filters for each time frequency of the observed signal.
  • a WPE filter removes the reverberation component of the observed signal.
  • the reception unit 132 receives input of evaluation criteria for the dereverberation signal.
  • Evaluation criteria are, for example, SDR, Scale invariant SDR, STOI clarity, Cepstrum distance, WER in ASR, and the like.
  • the evaluation criteria for the dereverberated signal received by the receiving unit 132 may be any one of the above evaluation criteria, or may be a combination of a plurality of evaluation criteria.
  • the learning unit 133 uses a learning data set for dereverberation, receives an observation signal as an input, and performs switching such that the signal from which the reverberation component has been removed by the switching WPE 131 is optimized according to the evaluation criteria input by the reception unit 132. Train a Switch estimation model that outputs estimation results.
  • the learning unit 133 uses the dereverberation signal (correct signal) for the input signal of the learning data set as correct data. Then, using the above correct data, the learning unit 133 selects the switching WPE 131 such that the result of evaluating the reverberation signal output by the switching WPE 131 with respect to the input signal of the learning data set is optimized according to the above evaluation criteria. Train a Switch estimation model that estimates the Switch of .
  • the learning unit 133 uses the correct text (transcription of the input speech) as correct data instead of the above correct signal.
  • the learning unit 133 inputs the dereverberation signal output by the SwitchingWPE 131 to the ASR, and the Switch estimation model study. For example, the learning unit 133 learns the Switch estimation model so that the WER of the recognition result by ASR becomes as small as possible.
  • the Switch setting unit 134 sets the Switch output by the learned Switch estimation model to the SwitchingWPE 131 for the observed signal.
  • the filter setting unit 135 also calculates an optimum WPE filter for the Switch set by the Switch setting unit 134 and sets it in the SwitchingWPE 131 .
  • the optimum WPE filter calculation method here may be, for example, the same method as the WPE filter calculation method in the conventional Switching WPE.
  • the SwitchingWPE 131 uses the Switch set by the Switch setting section 134 and the WPE filter set by the filter setting section 135 to remove the reverberation component of the input observation signal.
  • the signal processing device 10 can improve the reverberation component removal performance of the Switching WPE 131 according to the purpose.
  • the reception unit 132 of the signal processing device 10 receives an input of evaluation criteria for the signal after the reverberation component has been removed by the SwitchingWPE 131 (S1).
  • the learning unit 133 uses the dereverberation learning data set, receives the signal as an input, and estimates Switch such that the signal from which the reverberation component has been removed by the SwitchingWPE 131 is optimized according to the evaluation criteria received in S1.
  • the Switch estimation model that outputs the results is learned (S2: model learning).
  • the signal processing device 10 accepts input of observation signals (S3). Then, the Switch setting unit 134 sets the Switch estimated by the Switch estimation model learned in S2 to the Switching WPE 131 for the observed signal input in S3 (S4: Switch setting). Then, the filter setting unit 135 calculates an optimum WPE filter for the set Switch, and sets it in the SwitchingWPE 131 (S5: WPE filter setting).
  • the SwitchingWPE 131 removes the reverberation component of the input observation signal using the Switch set by the Switch setting section 134 and the WPE filter set by the filter setting section 135 (S6).
  • the signal processing device 10 can improve the reverberation component removal performance of the Switching WPE 131 according to the purpose.
  • evaluation results of the reverberation component removal performance of the signal processing device 10 will be described with reference to FIG.
  • the signal processing device 10 evaluated removal of reverberation components for speech data containing reverberation components created by simulation.
  • the signal processing device 10 used the dereverberation training data set to perform DNN training for estimating the switch in which the signal from which the reverberation component has been removed by the SwitchingWPE 131 is optimized using the SDR as the evaluation criterion.
  • the number of Switches used by the SwitchingWPE 131 is set to 3.
  • the objects of comparison are the observed signal (unprocessed), WPE, and SwitchingWPE.
  • the signal processing device 10 dereverberated the audio data by SwitchingWPE using the Switch estimated by the above DNN, and the SDR was higher than that of WPE and SwitchingWPE. It was also confirmed that speech data dereverberated by the signal processing device 10 has a lower word recognition error rate than WPE and SwitchingWPE.
  • the signal processing device 10 can improve the performance of removing reverberation components according to the purpose for the switching WPE 131 .
  • each constituent element of each part shown in the figure is functionally conceptual, and does not necessarily need to be physically configured as shown in the figure.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • all or any part of each processing function performed by each device can be implemented by a CPU and a program executed by the CPU, or implemented as hardware based on wired logic.
  • the signal processing apparatus 10 described above can be implemented by installing a program (signal processing program) as package software or online software in a desired computer.
  • the information processing device can function as the signal processing device 10 by causing the information processing device to execute the above program.
  • the information processing apparatus referred to here includes mobile communication terminals such as smart phones, cellular phones, PHS (Personal Handyphone System), and terminals such as PDA (Personal Digital Assistant).
  • FIG. 7 is a diagram showing an example of a computer that executes a signal processing program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process executed by the signal processing apparatus 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the signal processing device 10 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processes of the above-described embodiments are stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

信号処理装置は、残響除去の学習用データセットを用い、SwitchingWPEにより残響成分が除去された信号が、ユーザにより指定された評価基準で最適化されるようなSwitchを推定するモデル(DNN)の学習を行う。その後、信号処理装置は、観測信号に対し、学習済みのモデルにより推定されたSwitch(最適化されたSwitch)をSwitchingWPEに設定する。そして、信号処理装置は、設定されたSwitchに対しWPEフィルタの最適化を行う。その後、信号処理装置は、最適化されたSwitchおよびWPEフィルタを備えるSwitchingWPEに用いて、観測信号の残響成分を除去する。

Description

信号処理装置、信号処理方法、および、信号処理プログラム
 本発明は、信号処理装置、信号処理方法、および、信号処理プログラムに関する。
 従来、遠隔マイクで録音された音声や音楽の信号から、残響成分を除去する技術がある。残響とは、例えば、元の信号が壁・床・天井等に反射することで、元の信号から遅れてマイクに到達する信号成分のことである。
 残響を含む信号は、音声認識、信号処理による雑音除去、音源分離等において性能劣化につながるため、事前に信号から残響を除去することで、性能劣化を回避できる。なお、上記の残響成分の除去は、例えば、補聴器の性能向上や自動譜面作成等にも適用することができる。
 残響成分を除去する技術として、WPE(Weighted Prediction Error)がある。WPEは、残響の自己回帰モデルを仮定し、過去の観測信号から現在の残響成分を予測する。そして、WPEは、予測した残響成分を打ち消す逆フィルタを推定し、その推定した逆フィルタにより残響除去を行う。WPEによれば、残響を除去することができるが、音源数≧マイク数の場合、MINT定理により、因果的な逆フィルタ(過去の信号だけを使う逆フィルタ)が存在できないことが分かっている。
 上記の問題を部分的に解決する技術として、SwitchingWPE(非特許文献1参照)がある。SwitchingWPEは、WPEを改良した技術で、信号の時間周波数ビンごとに複数のWPEフィルタを切り替えることで、残響除去を実現する。ここで、WPEフィルタを適用する時間周波数ビンを選択するためのパラメータをSwitchと呼ぶ。
Rintaro Ikeshita,et al., "Blind Signal Dereverberation Based on Mixture of Weighted Prediction Error Models", IEEE SIGNAL PROCESSING LETTERS, VOL. 28, 2021, 399.
 SwitchingWPEでは、Switchを重み付きパワー最小化基準(最尤基準)で最適化するため、最適化されたSwitchは、必ずしも他の評価基準(例えば、音声認識率、信号歪み尺度等)で最適なSwitchとは限らない。例えば、SwitchingWPEで最適化されたSwitchは、音声認識に対し最適なSwitchとは限らない。そのため、SwitchingWPEによる残響除去後の信号に対する音声認識率が高くならない可能性がある。
 そこで、本発明は、前記した問題を解決し、SwitchingWPEにおいて目的に応じた残響成分の除去の性能向上を実現することを課題とする。
 前記した課題を解決するため、本発明は、観測された信号の残響成分を除去する複数のWPEフィルタ、および、観測された信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEと、前記SwitchingWPEによる残響成分の除去後の信号の評価基準の入力を受け付ける受付部と、信号の残響成分の除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるような前記Switchの推定結果を出力するモデルの学習を行う学習部と、観測された信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定するSwitch設定部と、設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定するフィルタ設定部とを備え、前記SwitchingWPEは、設定された前記Switchおよび設定された前記WPEフィルタを用いて、入力された信号の残響成分を除去することを特徴とする。
 本発明によれば、SwitchingWPEにおいて目的に応じた残響成分除去の性能向上を行うことができる。
図1は、SwitchingWPEの概要を説明する図である。 図2は、信号処理装置の概要を説明する図である。 図3は、評価基準がSDRである場合における、信号処理装置の概要を説明する図である。 図4は、信号処理装置の構成例を示す図である。 図5は、信号処理装置の処理手順の例を示す図である。 図6は、信号処理装置による残響成分の除去性能の評価結果を示す図である。 図7は、信号処理プログラムを実行するコンピュータの構成例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[SwitchingWPE]
 まず、図1を用いて、本実施形態の信号処理装置が用いる基本技術である、SwitchingWPEの概要を説明する。SwitchingWPEは、観測信号(例えば、音声信号)の時間周波数をクラスタリングし、Switchにより時間周波数ごとに複数のWPEフィルタを切り替えることで、観測信号の残響除去を実現する。WPEフィルタは、Switchごとに計算される。このSwitchingWPEのSwitchとWPEフィルタは、重み付きパワー最小化基準(最尤基準)で交互に最適化される。
[概要]
 次に、図2を用いて、本実施形態の信号処理装置の概要を説明する。信号処理装置は、DNN(Deep Neural Network)等のモデルにより、観測信号から、SwitchingWPEで残響除去を行う際に最適なSwitchを推定する。そして、信号処理装置は、推定したSwitchを用いたSwitchingWPEにより、観測信号の残響除去を行う。
 例えば、信号処理装置は、残響除去の学習用データセットを用い、観測信号の入力を受け付けると、その観測信号に対し最適なSwitchの推定結果を出力するSwitch推定モデルの学習を行う。なお、この学習用データセットは、入力信号とその入力信号から残響成分を除去した信号(残響除去の正解信号)とを示したデータセットである。
 ここで、信号処理装置は、上記のSwitch推定モデルの学習前に、SwitchingWPEによる残響除去後の信号の評価基準(例えば、SDR(信号対歪み比)、Scale invariant SDR(スケール不変の信号対歪み比)、STOI(Short-Time Objective Intelligibility measure)等の明瞭度、Cepstral distance(ケプストラル距離)、ASR(自動音声認識)におけるWER(単語誤り率)等)の入力を受け付けておく。
 そして、信号処理装置は、残響除去の学習用データセットを用い、SwitchingWPEによる残響成分の除去後の信号(残響除去信号)が上記の評価基準で最適化されるようなSwitchを推定するSwitch推定モデルの学習を行う。
 例えば、上記の残響除去信号の評価基準がSDRであり、Switch推定モデルがDNNにより実現される場合を考える。この場合、信号処理装置は、学習データセットに含まれる入力信号に対しSwitchingWPEが出力する残響除去信号と、学習データセットに含まれる当該入力信号の残響除去の正解信号との間のSDRを最大化するように、DNNの最適化を行う(図3参照)。
 その後、信号処理装置は、最適化されたDNNに観測信号を入力し、観測信号に対し最適化されたSwitchの推定結果を得る。そして、信号処理装置は、推定されたSwitchを用いて、SwitchingWPEにより観測信号の残響除去を行う。このようにすることで、信号処理装置は、SwitchingWPEにおいて目的(評価基準)に応じた残響成分の除去の性能向上を実現することができる。
[構成例]
 次に、図4を用いて、信号処理装置10の構成例を説明する。信号処理装置10は、入出力部11、記憶部12、制御部13を備える。
 入出力部11は、各種情報の入出力を司るインタフェースである。例えば、入出力部11は、残響除去の対象とする観測信号や、残響除去信号の評価基準等の入力を受け付ける。また、例えば、入出力部11は、残響除去信号を出力する。
 記憶部12は、制御部13が各種処理を実行する際に参照するデータを記憶する。例えば、記憶部12は、残響除去信号の評価基準や、残響除去の学習用データセット、最適なSwitchの推定を行うためのSwitch推定モデル(Switch推定モデルのパラメータ)等を記憶する。
 上記のSwitch推定モデルは、SwitchingWPE131への観測信号を入力とし、SwitchingWPE131における最適なSwitchの推定結果を出力するモデルである。このSwitch推定モデルは、例えば、DNNにより実現される。Switch推定モデルは、学習部133により学習される。
 制御部13は、信号処理装置10全体の制御を司る。制御部13は、SwitchingWPE131と、受付部132と、学習部133と、Switch設定部134と、フィルタ設定部135とを備える。
 SwitchingWPE131は、Switchおよび複数のWPEフィルタを用いて、観測された信号の残響除去を行う。Switchは、観測信号の時間周波数ごとに複数のWPEフィルタの切り替えを行うためのパラメータである。WPEフィルタは、観測信号の残響成分を除去する。
 受付部132は、残響除去信号の評価基準の入力を受け付ける。評価基準は、例えば、SDR、Scale invariant SDR、STOI等の明瞭度、Cepstram distance、ASRにおけるWER等である。なお、受付部132が受け付ける残響除去信号の評価基準は、上記のいずれかの評価基準でもよいし、複数の評価基準の組み合わせであってもよい。
 学習部133は、残響除去の学習用データセットを用い、観測信号を入力とし、SwitchingWPE131により残響成分が除去された信号が、受付部132で入力された評価基準で最適化されるようなSwitchの推定結果を出力するSwitch推定モデルの学習を行う。
 例えば、学習部133は、評価基準が、SDR、Scale invariant SDR、STOI、Cepstral distanceである場合、学習用データセットの入力信号に対する残響除去信号(正解信号)を正解データとする。そして、学習部133は、上記の正解データを用いて、学習用データセットの入力信号に対し、SwitchingWPE131が出力する残響信号に対し上記の評価基準で評価した結果が最適化されるような、SwitchingWPE131のSwitchを推定するSwitch推定モデルの学習を行う。
 なお、評価基準が、ASRである場合、学習部133は、上記の正解信号の代わりに正解テキスト(入力音声に対する書き起こしの文章)を正解データとして用いる。この場合、学習部133は、SwitchingWPE131が出力する残響除去信号を、ASRに入力し、ASRによる認識結果が、正解テキストになるべく一致するように(ASR正解率が改善するように)、Switch推定モデルの学習を行う。例えば、学習部133は、ASRによる認識結果のWERができるだけ小さくなるよう、Switch推定モデルの学習を行う。
 Switch設定部134は、観測信号に対し、学習後のSwitch推定モデルにより出力されたSwitchをSwitchingWPE131に設定する。また、フィルタ設定部135は、Switch設定部134により設定されたSwitchに対し最適なWPEフィルタを計算し、SwitchingWPE131に設定する。ここでの最適なWPEフィルタの計算方法は、例えば、従来のSwitchingWPEにおけるWPEフィルタの計算方法と同様の方法でよい。
 その後、SwitchingWPE131は、Switch設定部134により設定されたSwitchおよびフィルタ設定部135により設定されたWPEフィルタを用いて、入力された観測信号の残響成分を除去する。
 このようにすることで、信号処理装置10は、SwitchingWPE131に対し、目的に応じた残響成分の除去の性能向上を実現することができる。
[処理手順の例]
 次に、図5を用いて信号処理装置10の処理手順の例を説明する。まず、信号処理装置10の受付部132は、SwitchingWPE131による残響成分の除去後の信号の評価基準の入力を受け付ける(S1)。
 次に、学習部133は、残響除去の学習用データセットを用い、信号を入力とし、SwitchingWPE131により残響成分が除去された信号が、S1で受け付けた評価基準で最適化されるようなSwitchの推定結果を出力するSwitch推定モデルの学習を行う(S2:モデルの学習)。
 S2の後、信号処理装置10は、観測信号の入力を受け付ける(S3)。そして、Switch設定部134は、S3で入力された観測信号に対し、S2で学習されたSwitch推定モデルにより推定されたSwitchをSwitchingWPE131に設定する(S4:Switchの設定)。そして、フィルタ設定部135は、設定されたSwitchに対し最適なWPEフィルタを計算し、SwitchingWPE131に設定する(S5:WPEフィルタの設定)。
 その後、SwitchingWPE131は、Switch設定部134により設定されたSwitchおよびフィルタ設定部135により設定されたWPEフィルタを用いて、入力された観測信号の残響成分を除去する(S6)。
 このようにすることで、信号処理装置10は、SwitchingWPE131に対し、目的に応じた残響成分の除去の性能向上を実現することができる。
[評価結果]
 次に、図6を用いて、信号処理装置10による残響成分の除去性能の評価結果を説明する。ここでは、信号処理装置10が、シミュレーションにより作成された残響成分を含む音声データに対する残響成分の除去の評価を行った。
 なお、信号処理装置10は、残響除去の学習用データセットを用い、SwitchingWPE131により残響成分が除去された信号が、SDRを評価基準とし最適化されるSwitchを推定するDNNの学習を行った。評価対象の音声データは、マイク数=1で収録された音声データである。また、SwitchingWPE131が用いるSwitchの数=3とした。比較対象は、観測信号(処理なし)、WPE、SwitchingWPEである。
 図6に示すように、信号処理装置10が、上記のDNNにより推定されたSwitchを用いたSwitchingWPEにより残響除去を行った音声データは、WPE、SwitchingWPEに比べてSDRが高いことが確認できた。また、信号処理装置10により残響除去を行った音声データは、WPE、SwitchingWPEに比べて単語認識誤り率が低いことも確認できた。
 このことから信号処理装置10は、SwitchingWPE131に対し、目的に応じた残響成分の除去の性能向上を実現できることが確認できた。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した信号処理装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム(信号処理プログラム)を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置10として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 図7は、信号処理プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の信号処理装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 信号処理装置
11 入出力部
12 記憶部
13 制御部
131 SwitchingWPE
132 受付部
133 学習部
134 Switch設定部
135 フィルタ設定部

Claims (6)

  1.  観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEと、
     前記SwitchingWPEによる残響成分の除去後の信号の評価基準の入力を受け付ける受付部と、
     残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が前記評価基準で最適化されるような前記Switchを推定するモデルの学習を行う学習部と、
     観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定するSwitch設定部と、
     設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定するフィルタ設定部とを備え、
     前記SwitchingWPEは、
     設定された前記Switchおよび設定された前記WPEフィルタを用いて、前記観測信号の残響成分を除去する
     ことを特徴とする信号処理装置。
  2.  前記評価基準は、
     信号対歪み比、スケール不変の信号対歪み比、明瞭度、ケプストラル距離、および、自動音声認識における文字認識率の少なくともいずれかである
     ことを特徴とする請求項1に記載の信号処理装置。
  3.  前記残響除去の学習用データセットは、入力信号と、前記入力信号の正解データである前記入力信号から残響成分を除去した信号とを含み、
     前記学習部は、
     前記入力信号に対し、前記SwitchingWPEが出力する残響成分の除去後の信号と、前記正解データとを用いた、前記残響成分の除去後の信号に対する前記評価基準での評価結果が最適化されるよう、前記モデルの学習を行う
     ことを特徴とする請求項1に記載の信号処理装置。
  4.  前記モデルは、
     DNN(Deep Neural Network)により前記Switchを推定するモデルである
     ことを特徴とする請求項1に記載の信号処理装置。
  5.  信号処理装置により実行される信号処理方法であって、
     観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEによる、残響成分の除去後の信号の評価基準の入力を受け付ける工程と、
     残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるようなSwitchの推定結果を出力するモデルの学習を行う工程と、
     観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定する工程と、
     設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定する工程と、
     前記Switchおよび前記WPEフィルタが設定された前記SwitchingWPEを用いて、前記観測信号の残響成分を除去する工程と
     を有することを特徴とする信号処理方法。
  6.  観測信号の残響成分を除去する複数のWPEフィルタ、および、観測信号の時間周波数ごとに前記複数のWPEフィルタの切り替えを行うためのSwitchを有するSwitchingWPEによる、残響成分の除去後の信号の評価基準の入力を受け付ける工程と、
     残響除去の学習用データセットを用い、前記SwitchingWPEにより残響成分が除去された信号が、前記評価基準で最適化されるようなSwitchの推定結果を出力するモデルの学習を行う工程と、
     観測信号に対し、学習後の前記モデルにより推定されたSwitchを前記SwitchingWPEに設定する工程と、
     設定された前記Switchに対し最適なWPEフィルタを計算し、前記SwitchingWPEに設定する工程と、
     前記Switchおよび前記WPEフィルタが設定された前記SwitchingWPEを用いて、前記観測信号の残響成分を除去する工程と
     をコンピュータに実行させるための信号処理プログラム。
PCT/JP2022/005475 2022-02-10 2022-02-10 信号処理装置、信号処理方法、および、信号処理プログラム WO2023152915A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005475 WO2023152915A1 (ja) 2022-02-10 2022-02-10 信号処理装置、信号処理方法、および、信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/005475 WO2023152915A1 (ja) 2022-02-10 2022-02-10 信号処理装置、信号処理方法、および、信号処理プログラム

Publications (1)

Publication Number Publication Date
WO2023152915A1 true WO2023152915A1 (ja) 2023-08-17

Family

ID=87563925

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005475 WO2023152915A1 (ja) 2022-02-10 2022-02-10 信号処理装置、信号処理方法、および、信号処理プログラム

Country Status (1)

Country Link
WO (1) WO2023152915A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210153919A (ko) * 2020-06-11 2021-12-20 한양대학교 산학협력단 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210153919A (ko) * 2020-06-11 2021-12-20 한양대학교 산학협력단 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IKESHITA RINTARO; KAMO NAOYUKI; NAKATANI TOMOHIRO: "Blind Signal Dereverberation Based on Mixture of Weighted Prediction Error Models", IEEE SIGNAL PROCESSING LETTERS, IEEE, USA, vol. 28, 2 February 2021 (2021-02-02), USA, pages 399 - 403, XP011842612, ISSN: 1070-9908, DOI: 10.1109/LSP.2021.3056279 *

Similar Documents

Publication Publication Date Title
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6486381B2 (ja) 混合音声認識
EP3301675B1 (en) Parameter prediction device and parameter prediction method for acoustic signal processing
US11798574B2 (en) Voice separation device, voice separation method, voice separation program, and voice separation system
JPH096386A (ja) 状態遷移モデルの設計方法及び該状態遷移モデルを用いた音声認識装置
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
WO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
JP2016045221A (ja) 信号解析装置、方法、及びプログラム
JP2019020598A (ja) ニューラルネットワークの学習方法
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
Lee et al. NAS-TasNet: Neural architecture search for time-domain speech separation
JP6843701B2 (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
WO2023152915A1 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
JP2018128500A (ja) 形成装置、形成方法および形成プログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP2021167850A (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
KR20210145733A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
CN113393858B (zh) 语音分离方法和系统、电子设备及可读存储介质
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925936

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023579992

Country of ref document: JP