WO2023132018A1

WO2023132018A1 - 学習装置、信号処理装置、学習方法及び学習プログラム

Info

Publication number: WO2023132018A1
Application number: PCT/JP2022/000149
Authority: WO
Inventors: 翼落合; マークデルクロア; 林太郎池下; 宏佐藤; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-07-13

Abstract

学習装置（１０）は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部（１１）と、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、モデルのパラメータを更新する更新部（１２）と、を有する。

Description

学習装置、信号処理装置、学習方法及び学習プログラム

　本発明は、学習装置、信号処理装置、学習方法及び学習プログラムに関する。

　背景雑音や残響などの音響干渉に対して頑健な音声認識システムを構築することは音声処理において課題となっている。ここで、複数のマイクを使用するマルチチャネルでの音声強調技術（ビームフォーマー）が音声認識性能を大きく向上させることが確認されている。

Szu-Jui　Chen,　Aswin　Shanmugam　Subramanian,　Hainan　Xu,　and　Shinji　Watanabe,　"Building　state-of-the-art　distant　speech　recognition　using　the　chime-4　challenge　with　a　setup　of　speech　enhancement　baseline",　in　Interspeech,　2018,　pp.　1571-1575.

　一方、単一のマイクを使用するシングルチャネルでの音声強調技術は、雑音を除去した強調信号を用いても、雑音あり観測信号よりもむしろ音声認識性能が劣化する場合もあり、音声認識性能向上への効果は限定的であった。

　実際には、単一のマイクロホンしか備えていないデバイスも多い。したがって、頑強な音声認識システムを実現するためには、マルチチャネルでの音声強調技術とともに、シングルチャネルに対しても音声強調技術を開発することが重要である。

　本発明は、上記に鑑みてなされたものであって、音声強調による音声認識性能の向上を可能とする学習装置、信号処理装置、学習方法及び学習プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、モデルのパラメータを更新する更新部と、を有することを特徴とする。

　上述した課題を解決し、話者の音声を強調した強調信号を生成するモデルを用いて、入力された観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、強調信号に対して、音声認識を行う音声認識部と、を有し、モデルは、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、パラメータが更新されたモデルであることを特徴とする。

　本発明によれば、音声強調による音声認識性能の向上を可能とする。

図１は、直交投影による強調信号の信号分解を説明する図である。図２は、評価強調信号に対する単語誤り率（Word　Error　Rate：WER）を示す図である。図３は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。図４は、実施の形態に係る学習方法の処理手順を示すフローチャートである。図５は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。図６は、変実施の形態に係る信号処理方法の処理手順を示すフローチャートである。図７は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルまたは行列であるAに対し、“＾A”と記載する場合は「“A”の直上に“＾”が記された記号」と同じであるとする。

［実施の形態］
　本実施の形態では、一例として、シングルチャネル音声強調（Speech　Enhancement：SE）による強調信号が、音声認識性能を劣化される要因を分析した分析結果を基に、音声認識性能を向上させることが可能であるモデルの学習を実行する学習方法と、そのモデルを用いる信号処理方法を提案する。なお、本実施の形態では、単一のマイクロホン（シングルチャネル）で録音された音声信号（観測信号）に対する信号処理方法について説明するが、シングルチャネルに限らず、複数のマイクロホン（マルチチャネル）で録音された音声信号にも適用可能である。

［強調信号の分析］
　まず、シングルチャネルSEによる強調信号に対して、音声認識性能を劣化させる要因を分析した。

　通常、シングルチャネルSEによって生じる処理歪みが音声認識性能低下の原因であると想定されることが多い。しかしながら、こうした歪み、特に、音声認識への影響について系統的な詳しい分析や解明はこれまでされてこなかった。音声認識に対するシングルチャネルSE推定誤差の影響について解明していくことがSEフロントエンド設計を改良する上で欠かせないと考える。

　ここで、シングルチャネルSEタスクに焦点を当てる。y∈R^Tは、観測信号のT長時間領域波形を示す。観測信号yは、式（１）としてモデル化される。s∈R^Tは、音源信号を示す。n∈R^Tは、背景の雑音信号を示す。

　SEは、観測信号yから雑音信号nを減らすことを目的とする。観測信号yが入力された場合、強調信号＾s∈R^Tは、＾s=SE（y）と推定される。SE（・）は、例えば、ニューラルネットワークによって行われるSE処理を示す。

　続いて、SE推定誤差が音声認識性能に与える影響を分析するため、直交投影を用いてSE推定誤差分解を検討した。図１は、直交投影による強調信号の信号分解を説明する図である。

　強調信号＾sは、推定処理を行うことで取得されるものであるため、推定誤差を含むことは避けられない。強調信号＾sを式（２）のように直交投影を用いて分解する。

　式（２）において、s_targetは、推定目標目的音源信号（以降、目的音源信号とする。）を示し、e_noise∈R^Tは、雑音誤差を示し、e_artif∈R^Tは、アーティファクト誤差を示す（図１参照）。

　具体的には、直交投影による誤差分解により、SEにおける推定誤差を雑音誤差e_noiseとアーティファクト誤差e_artifとに分解する。この２つの要素は、SE誤差を、音声／雑音信号に張る音声／雑音部分空間、及び、音声／雑音部分空間に直交する部分空間に射影することにより得られる。Ps∈R^T×Tは、音源信号（式（３））が張る部分空間上の直交投影行列を示す。同様にP_s,n∈R^T×Tは、音源信号と雑音信号（式（４））が張る部分空間上の直交投影行列を示す。なお、L－1は、許容最大遅延の数である。これらの行列は、式（５）、式（６）によって求められる。

　式（２）の分解項は、式（７）、式（８）、式（９）の投影行列を用いて求められる。

　雑音誤差e_noiseは、音声信号と雑音信号との線形結合で構成されるため、実世界の信号として観測可能な信号であると期待される。これらを自然信号と呼ぶ。訓練サンプルには類似する雑音誤差e_noiseが自然に現れるため、この自然信号が音声認識性能に与える影響は限定的である可能性がある。

　一方、アーティファクト誤差e_artifは、音声信号と雑音信号との線形結合では表すことのできない信号で構成され（図１参照）、人工的／不自然な信号である。この不自然な信号は、非常に多様であり、訓練サンプルに現れることはほとんどない可能性がある。したがって、音声認識は、雑音誤差e_noiseよりもアーティファクト誤差e_artifに対して感度が高いという仮説を立てる。

　SE評価指標として、信号対歪比（Signal　to　Distortion　Ratio：SDR）（式（１０））、信号対雑音比（Signal　to　Noise　Ratio：SNR）（式（１１））、信号対アーティファクト比（Signal　to　Artifact　Ratio：SAR）（式（１２））を使用する。SDRは、式（２）を適用することで、式（１０）のように導出される。

　次に、アーティファクト誤差e_artifの音声認識性能への誤差要素の影響を調べる実験を行った。実験では、アーティファクト誤差e_artif及び雑音誤差e_noiseの音声認識性能への影響を測定するため、誤差要素の大きさを変えることにより強調信号を変更し、変更強調信号を入力として音声認識を行った。

　具体的には、直交投影を用いて強調信号＾sを分解した後、アーティファクト誤差e_artif及び雑音誤差e_noiseを、式（１３）のように増減することにより、強調信号＾s_ω∈R^Tを合成した。

　ω_noiseは、雑音誤差e_noiseの量を制御するパラメータであり、ω_nartifは、アーティファクト誤差e_artifの量を制御するパラメータである。今回の実験では、雑音誤差e_noiseやアーティファクト誤差e_artifの割合が異なる多様な強調信号＾s_ωを得るため、ω_noiseとω_artifとの値を変更した。これにより、SNRとSARの値を制御しつつ同じ目的音源信号s_targetを保持することができる。このような変更済みの強調信号を評価強調信号として音声認識システムに入力することにより、各誤差要素が音声認識性能に与える影響を直接測定した。

　図２は、評価強調信号に対するWERを示す図である。図２の（ａ）は、雑音誤差e_noise／アーティファクト誤差e_artifの比率を変更された評価強調信号に対する音声認識結果を示す３Ｄプロットである。図２の（ｂ）は、ω_noiseとω_artifの重みのうち１つのみを変更することによって得られる対応する２Ｄプロットである。図２の（ｂ）のbaseline（obs.）は、観測信号の基準WERスコアを表し、四角記号は、変更なしの元の強調信号のWERスコアを表す。

　図２に示すように、元の強調信号は、観測信号と比して、音声認識性能を実際には低下させるということが確認できる。図２に示すように、アーティファクト誤差e_artifを減らすことによって、音声認識性能の大幅な向上が可能であることが観測された。一方、音声認識性能は、雑音誤差e_noiseを増減してもそれほど影響を受けなかった。これらの結果により、雑音誤差e_noiseとアーティファクト誤差e_artifとのうち、アーティファクト誤差e_artifの方が音声認識性能の低下に大きな影響を及ぼすということが確認できた。

　そこで、この知見に基づいて、本実施の形態では、音声認識性能を向上させる学習方法及び信号処理方法を提案する。本実施の形態では、アーティファクト誤差e_artifの影響を減らすアプローチとして、音声認識システムに入力される強調信号＾sに含まれるアーティファクト誤差e_artifを減らす方法を検討した。

　実施の形態では、観測信号yから強調信号＾sを生成する際に、強調信号＾sに含まれるアーティファクト誤差e_artifの大きさをより重点的に小さくした強調信号を生成できるように、音声強調部の学習を実行する。

　具体的には、本実施の形態では、強調信号＾sと参照信号sとの類似度を取得する損失関数として、強調信号＾sに含まれる雑音誤差e_noiseと不自然な信号であるアーティファクト誤差e_artifとのうち、アーティファクト誤差e_artifを優先的に小さくするよう定義された損失関数を用いて、音声強調部におけるモデルを訓練する。

　例えば、実施の形態では、式（１４）に定義する損失関数L₁を用いて、音声強調部におけるモデルを訓練する。損失関数L₁は、損失関数L_noise（第１の損失関数）と、損失関数L_artif（第２の損失関数）とを含み、損失関数L_artifが重み付けされる関数である。

　式（１４）の損失関数L_noiseは、雑音誤差を小さくするように定義された損失関数である。例えば、損失関数L_noiseとして、SDR（式（１５）参照）、Classical_SNR（式（１６）参照）、SNR（式（１１）参照）を用いることができる。

　また、損失関数L_artifは、アーティファクト誤差e_artifを小さくするよう定義された損失関数である。例えば、損失関数L_artifとして、SAR（式（１１）参照）を用いることができる。αは、損失関数L_artifに付加する重み、すなわち、アーティファクト誤差e_artifの優先度を決める重み係数（ハイパーパラメータ）であり、ネットワークの構成や、観測信号等のデータに合わせて、適宜変更すればよい。

　なお、損失関数として、損失関数L_noiseに付加する重みと、損失関数L_artifに付加する重みβとの和が1となる損失関数L₁´（式（１７）参照）を用いてもよい。この場合、アーティファクト誤差e_artifの優先度を決める重み係数であるβは、0～1の値となる。

　また、実施の形態では、式（１８）に定義する損失関数L_２を用いて、音声強調部におけるモデルを訓練する。損失関数L_２は、目的音源信号s_targetを、雑音誤差e_noiseと、重みγで重み付けしたアーティファクト誤差e_artifとの和で除した値を真数とする対数関数で表現される。重みγは、アーティファクト誤差e_artifの優先度を決める重み係数（ハイパーパラメータ）である。

［学習装置］
　次に、実施の形態に係る学習装置について説明する。図３は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。

　実施の形態に係る学習装置１０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

　図３に示すように、学習装置１０は、音声強調部１１及び更新部１２を有する。学習装置１０には、シングルチャネルで録音された学習用観測信号y_tが入力される。学習装置１０は、学習用観測信号y_tの目的音源信号に対応する参照信号sを用いて、音声強調部１１が使用するモデルの訓練を行う。

　音声強調部１１は、シングルチャネルで録音された学習用観測信号y_tの入力を受け付ける。音声強調部１１は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号y_tから、話者の音声を強調した強調信号＾sを生成する。モデルは、例えば、ニューラルネットワークによって構成される。

　更新部１２は、参照信号sと、モデルが学習用観測信号から生成した強調信号＾sと、の類似度を算出する損失関数として、前述した損失関数L₁、損失関数L₁´または損失関数L₂に基づいて、モデルのパラメータを更新する。

［学習処理］
　次に、学習装置１０が実行する学習方法処理手順について説明する。図４は、実施の形態に係る学習方法の処理手順を示すフローチャートである。

　図４に示すように、学習装置１０は、学習用観測信号y_tの入力を受け付けると、音声強調部１１が、入力された学習用観測信号y_tから、話者の音声を強調した強調信号＾sを生成する音声強調処理を行う（ステップＳ１１）。

　そして、更新部１２は、損失関数L₁、損失関数L₁´または損失関数L₂に基づいて、モデルのパラメータを更新する（ステップＳ１２）。学習装置１０は、所定の終了条件を満たすか否かを判定する（ステップＳ１３）。終了条件は、例えば、損失が所定の閾値以下となった場合、パラメータの更新回数が所定の回数に到達した場合、パラメータ更新量が所定の閾値以下となった場合などである。

　所定の終了条件を満たしていない場合（ステップＳ１３：Ｎｏ）、学習装置１０は、ステップＳ１１に戻る。学習装置１０は、音声強調処理とパラメータの更新処理とを所定の終了条件を満たすまで繰り返す。所定の終了条件を満たした場合（ステップＳ１３：Ｙｅｓ）、学習装置１０は、学習処理を終了する。学習装置１０は、音声強調部１１のモデル（モデルパラメータを含む）を、信号処理装置２０（後述）に出力する。

［信号処理装置］
　次に、実施の形態に係る信号処理装置について説明する。図５は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。

　実施の形態に係る信号処理装置２０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、信号処理装置２０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。図５に示すように、信号処理装置２０は、音声強調部２１及び音声認識部２２を有する。信号処理装置２０には、シングルチャネルで録音された観測信号yが入力され、例えば、音信信号をテキストに変換した音声認識結果を出力する。

　音声強調部２１は、シングルチャネルで録音され観測信号yの入力を受け付ける。音声強調部２１は、観測信号yから、話者の音声を強調した強調信号＾sを生成する。音声強調部２１は、学習装置１０が訓練したモデルを用いて、音声強調処理を行う。モデルは、前述した損失関数L₁、損失関数L₁´または損失関数L₂に基づい得て、パラメータが更新されたモデルである。

　音声認識部２２は、強調信号＾sに対して、音声認識を行う。音声認識部２２は、例えば、音信信号をテキストに変換した音声認識結果を出力する。音声認識部２２は、例えば、学習済みの深層学習モデルを用いて、音声認識処理を行う。

［信号処理方法］
　次に、信号処理装置２０が実行する信号処理方法について説明する。図６は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。

　図６に示すように、信号処理装置２０は、観測信号yの入力を受け付けると、音声強調部２１が、学習装置１０が訓練したモデルを用いて、観測信号yから、話者の音声を強調した強調信号＾sを生成する音声強調処理を行う（ステップＳ２１）。音声認識部２２は、強調信号＾sに対して、音声認識処理を行い（ステップＳ２２）、音声認識結果を出力する。

［実施の形態の効果］
　従来の音声強調部の学習では、強調音声における推定誤差が、アーティファクト誤差e_artifと雑音誤差e_noiseとを含むことを考慮することなく、推定誤差全体を小さくするような損失関数を用いていた。すなわち、従来の音声強調部の学習では、アーティファクト誤差e_artifと雑音誤差e_noiseとを等しく小さするように定義された損失関数を用いていた。

　例えば、従来の音声強調部の学習では、アーティファクト誤差e_artifと雑音誤差e_noiseとの違いを考慮せず、アーティファクト誤差e_artifと雑音誤差e_noiseとに対して等しく重み付けをした損失関数（例えば、式（１１）、式（１５）、式（１６）参照）を用いていた。

　これに対し、本実施の形態では、強調信号＾sと参照信号sとの類似度を取得する損失関数として、強調信号＾sに含まれる雑音誤差e_noiseとアーティファクト誤差e_artifとのうち、アーティファクト誤差e_artifを優先的に小さくするよう定義された損失関数L₁、損失関数L₁´または損失関数L₂に基づい得て、音声強調部におけるモデルを訓練する。

　この損失関数L₁、損失関数L₁´または損失関数L₂は、アーティファクト誤差e_artifを重み付けすることで、雑音誤差e_noiseとアーティファクト誤差e_artifとのうち、アーティファクト誤差e_artifを優先的に小さくするように学習を誘導する。

　実際に、信号処理装置２０の音声認識精度を評価した。音声強調部２１として、ニューラルネットワーク基盤の時間領域雑音除去ネットワーク（Denoising－TasNet）を採用した。音声認識部２２として、Kaldiの標準的なレシピに基づくディープニューラルネットワーク隠れマルコフモデル（DNN-HMM）ハイブリッドASR（Automatic　Speech　Recognition）システムを採用した。

　音声音源のWall　Street　Journal（WSJ0）コーパスと雑音音源のCHiME-3コーパスから残響雑音下音声信号のデータセットを生成し、訓練セット、開発セット及び評価セットとした。音声強調部２１が使用するモデルは、学習装置１０において、損失関数L₂を用いて訓練されたものである。

　表１は、音声強調部２１が生成した強調信号＾sに対するSAR及びWERを示す表である。

　表１では、損失関数L₂を用いて訓練したモデルを用いて強調信号＾sを生成した場合（本実施の形態）におけるSAR及びWERを示す。表１では、γが2.0及び3.0の場合について示す。なお、表１には、比較のため、γを1.0として訓練したモデル、すなわち、アーティファクト誤差e_artifを重み付けせず訓練した従来手法に関するモデルを用いて強調信号を生成した場合におけるSAR及びWERを示す。

　表１に示すように、γを2.0及び3.0として、損失関数L₂のアーティファクト誤差e_artifを重み付けし、モデルを訓練することで、従来手法と比して、SAR値を上げることができた。したがって、実施の形態におけるモデルを用いることで、従来手法で訓練されたモデルと比して、強調信号＾sに含まれるアーティファクト誤差e_artifの比率を小さくすることができる。

　表１に示すように、γを2.0及び3.0として、損失関数L₂のアーティファクト誤差e_artifを重み付けし、モデルを訓練することで、従来手法で訓練されたモデルと比して、WERを向上させることができた。このように、実施の形態に係る学習装置１０において訓練されたモデルを用いることで、従来手法で訓練されたモデルと比して、音声認識性能が向上することが実証された。

　このように、実施の形態では、損失関数L₁、損失関数L₁´または損失関数L₂を採用して、音声強調部１１，２１のモデルを訓練することによって、アーティファクト誤差e_artifの大きさをより重点的に小さくした強調信号を生成することができる。このため、実施の形態によれば、音声認識システムに入力される強調信号＾sに含まれるアーティファクト誤差e_artifを減らすことを可能とし、音声強調による音声認識性能の向上を図ることができる。

［実施の形態のシステム構成について］
　学習装置１０及び信号処理装置２０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置１０及び信号処理装置２０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、学習装置１０及び信号処理装置２０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、学習装置１０及び信号処理装置２０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図７は、プログラムが実行されることにより、学習装置１０及び信号処理装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０及び信号処理装置２０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０及び信号処理装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　学習装置
　１１，２１　音声強調部
　１２　更新部
　２０　信号処理装置
　２２　音声認識部

Claims

　話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
　前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　前記更新部は、前記損失関数として、前記雑音誤差を小さくするよう定義された第１の損失関数と、前記アーティファクト誤差を小さくするよう定義された第２の損失関数とを含み、前記第２の損失関数が重み付けされた損失関数を用いることを特徴とする請求項１に記載の学習装置。
　前記更新部は、前記損失関数として、前記推定目標目的音源信号を、前記雑音誤差と、重み付けした前記アーティファクト誤差との和で除した値を真数とする対数関数で表現された損失関数を用いることを特徴とする請求項１に記載の学習装置。
　前記学習用観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項１に記載の学習装置。
　話者の音声を強調した強調信号を生成するモデルを用いて、入力された観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
　前記強調信号に対して、音声認識を行う音声認識部と、
　を有し、
　前記モデルは、学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、パラメータが更新されたモデルであることを特徴とする信号処理装置。
　前記観測信号及び前記学習用観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項５に記載の信号処理装置。
　学習装置が実行する学習方法であって、
　話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する工程と、
　前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新する工程と、
　を含んだことを特徴とする学習方法。
　話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成するステップと、
　前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新するステップと、
　をコンピュータに実行させるための学習プログラム。