WO2023223529A1

WO2023223529A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2023223529A1
Application number: PCT/JP2022/020921
Authority: WO
Inventors: 龍相原
Original assignee: 三菱電機株式会社
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-11-23
Also published as: JPWO2023223529A1

Abstract

音声強調装置（１３０）は、混合音声データから音響成分を算出する音響成分算出部（１３８）と、音響成分を特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部（１３９）と、ノイズデータからノイズ成分を算出するノイズ成分算出部（１４０）と、ノイズ成分をノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部（１４１）と、音響特徴量及びノイズ特徴量を相関推定モデルに入力することで、音響特徴量と、ノイズ特徴量との相関を推定する相関推定部（１４２）と、音響特徴量に、推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部（１４３）と、統合特徴量を音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部（１４４）と、音響成分及び目的音声マスクから、目的音声を強調した音声を復元する音声復元部（１４５）とを備える。

Description

情報処理装置、プログラム及び情報処理方法

　本開示は、情報処理装置、プログラム及び情報処理方法に関する。

　従来から、音声を認識する音声認識処理が行われている。通常、音声認識処理は、目的音声以外のノイズの影響を受けるため、ノイズが含まれていると、音声認識の精度が大きく低下する。そこで、ノイズが混合されている音声から目的音声を抽出することが必要になる。

　例えば、非特許文献１は、ニューラルネットワーク（ＮＮ）を用いて、混合音声と目的音声とのペアデータを学習し、混合音声から目的音声を抽出する手法を提案している。

Ｆｅｌｉｘ　Ｗｅｎｉｇｅｒ、外１名、"Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｙ　ｔｒａｉｎｅｄ　ｒｅｃｕｒｒｅｎｔ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｓｉｎｇｌｅ－ｃｈａｎｎｅｌ　ｓｐｅｅｃｈ　ｓｅｐａｒａｔｉｏｎ"、ＩＥＥＥ　Ｇｌｏｂａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｉｇｎａｌ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　（ＧｌｏｂａｌＳＩＰ）、Ｆｅｂｒｕａｒｙ　２０１５

　しかしながら、従来の、音声と非音声が混合した音を学習する手法では、未学習の非音声に対して音声強調性能が低下するという課題がある。

　そこで、本開示の一又は複数の態様は、学習データに含まれていない未知のノイズであっても、音声強調を実施できるようにすることを目的とする。

　本開示の一態様に係る情報処理装置は、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部と、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部と、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部と、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部と、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部と、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部と、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部と、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部と、を備えることを特徴とする。

　本開示の一態様に係るプログラムは、コンピュータを、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部、として機能させることを特徴とする。

　本開示の一態様に係る情報処理方法は、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出し、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定し、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出し、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定し、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定し、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出し、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定し、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元することを特徴とする。

　本開示の一又は複数の態様によれば、学習データに含まれていない未知のノイズであっても、音声強調を実施することができる。

実施の形態１～４に係る音声強調システムの構成を概略的に示すブロック図である。実施の形態１における学習装置の構成を概略的に示すブロック図である。（Ａ）及び（Ｂ）は、ハードウェア構成例を示すブロック図である。実施の形態１における音声強調装置の構成を概略的に示すブロック図である。実施の形態１における学習装置の動作を示すフローチャートである。実施の形態１における音声強調装置の動作を示すフローチャートである。実施の形態２における音声強調装置の構成を概略的に示すブロック図である。実施の形態２における音声強調装置の動作を示すフローチャートである。実施の形態３における学習装置の構成を概略的に示すブロック図である。実施の形態３における音声強調装置の構成を概略的に示すブロック図である。実施の形態１における学習装置の動作を示すフローチャートである。実施の形態３における音声強調装置の動作を示すフローチャートである。実施の形態４における音声強調装置の構成を概略的に示すブロック図である。実施の形態４における音声強調装置の動作を示すフローチャートである。

実施の形態１．
　図１は、実施の形態１に係る音声強調システム１００の構成を概略的に示すブロック図である。
　音声強調システム１００は、学習装置１１０と、情報処理装置としての音声強調装置１３０とを備える。

　学習装置１１０は、音声及びノイズの音響的な特徴量を推定するための特徴推定モデルである特徴推定ＮＮ、ノイズの音響的な特徴量を推定するためのノイズ推定モデルであるノイズ推定ＮＮ、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するための相関推定モデルである相関推定ＮＮ及び音声を強調するためのマスクを推定するための音声強調モデルである音声強調ＮＮとして機能する学習モデルを学習する。

　音声強調装置１３０は、学習装置１１０から学習済みの、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを取得して、これらの学習モデルを用いて、混合音声から目的音声を音声強調する。

　なお、学習フェーズは、音声強調装置１３０が用いる学習モデルを、学習装置１１０が学習するフェーズである。
　推論フェーズは、学習装置が学習した学習モデルを用いて、音声強調装置１３０が混合音声から目的音声を音声強調するフェーズである。

　図２は、実施の形態１における学習装置１１０の構成を概略的に示すブロック図である。
　学習装置１１０は、音声データ記憶部１１１と、ノイズデータ記憶部１１２と、音声混合部１１３と、成分算出部１１４と、教師マスク推定部１１５と、モデル学習部１１６と、モデル記憶部１１７と、通信部１１８とを備える。

　音声データ記憶部１１１は、学習用の目的音声である学習用目的音声を示す学習用音声データを記憶する。
　ノイズデータ記憶部１１２は、学習用のノイズである学習用ノイズを示す学習用ノイズデータを記憶する。

　音声混合部１１３は、音声データ記憶部１１１から学習用音声データを、ノイズデータ記憶部１１２から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、学習用ノイズデータで示される学習用ノイズとを選択し、これらを重畳することで混合音声を生成し、目的音声と、混合音声とを成分算出部１１４に与える。

　成分算出部１１４は、音声混合部１１３からの目的音声の成分である目的音声成分を算出し、音声混合部１１３からの混合音声の成分である混合音声成分を算出する。例えば、成分算出部１１４は、音声信号から短時間フーリエ変換（ＳＴＦＴ）によって算出されたパワースペクトルの時系列を、音声成分とする。目的音声成分及び混合音声成分は、教師マスク推定部１１５に与えられる。

　教師マスク推定部１１５は、成分算出部１１４からの目的音声成分及び混合音声成分から教師マスクを生成する。例えば、教師マスクは、目的音声成分及び混合音声成分のそれぞれから、目的音声と、混合音声とのパワースペクトルを推定し、その混合音声に対する目的音声のパワースペクトルの比を教師マスクとする。教師マスクは、モデル学習部１１６に与えられる。

　モデル学習部１１６は、音声混合部１１３から混合音声を、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部１１５から教師マスクを受け取り、ＮＮを学習する。ＮＮの学習は、ＮＮのパラメータである入力重み係数を決定する処理である。学習の際には、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを結合し、例えば、下記の文献に示されるロス関数に入力し、学習用目的音声に基づいて誤差が計算される。そして、例えば、Ａｄａｍ（Ａｄａｐｔｉｖｅ　Ｍｏｍｅｎｔ　Ｅｓｔｉｍａｔｉｏｎ）等の最適化手法を使って、例えば、逆誤差伝播方に基づいて、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮの各層の入力重み係数を学習すればよい。なお、生成された特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮは、モデル記憶部１１７に記憶される。
　文献：Ｒ．　Ａｉｈａｒａ　ｅｔ　ａｌ．、　“Ｄｅｅｐ　ｃｌｕｓｔｅｒｉｎｇ－ｂａｓｅｄ　ｓｉｎｇｌｅ－ｃｈａｎｎｅｌ　ｓｐｅｅｃｈ　ｓｅｐａｒａｔｉｏｎ　ａｎｄ　ｒｅｃｅｎｔ　ａｄｖａｎｃｅｓ”、　Ａｃｏｕｓｔ．　Ｓｃｉ．　＆　Ｔｅｃｈ．　４１．　２、２０２０年

　モデル記憶部１１７は、モデル学習部１１６で学習された特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを記憶する。

　通信部１１８は、モデル記憶部１１７に記憶されている特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを音声強調装置１３０に送信する送信部として機能する。

　以上に記載された音声混合部１１３、成分算出部１１４、教師マスク推定部１１５及びモデル学習部１１６の一部又は全部は、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサ１１とにより構成することができる。言い換えると、学習装置は、いわゆるコンピュータにより実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、音声混合部１１３、成分算出部１１４、教師マスク推定部１１５及びモデル学習部１１６の一部又は全部は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の処理回路１２で構成することもできる。
　以上のように、音声混合部１１３、成分算出部１１４、教師マスク推定部１１５及びモデル学習部１１６は、処理回路網により実現することができる。

　なお、音声データ記憶部１１１、ノイズデータ記憶部１１２及びモデル記憶部１１７はＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）又は不揮発性メモリ等の記憶装置（図示せず）により実現することができる。
　また、通信部１１８は、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信インタフェースにより実現することができる。

　図４は、実施の形態１における音声強調装置１３０の構成を概略的に示すブロック図である。
　音声強調装置１３０は、通信部１３１と、特徴推定ＮＮ記憶部１３２と、ノイズ推定ＮＮ記憶部１３３と、相関推定ＮＮ記憶部１３４と、音声強調ＮＮ記憶部１３５と、ノイズ混合音声取得部１３６と、ノイズ取得部１３７と、音響成分算出部１３８と、音響特徴量推定部１３９と、ノイズ成分算出部１４０と、ノイズ特徴量推定部１４１と、相関推定部１４２と、特徴量統合部１４３と、マスク推定部１４４と、音声復元部１４５とを備える。

　通信部１３１は、学習装置１１０からの特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを受信する受信部として機能する。
　特徴推定ＮＮ記憶部１３２は、通信部１３１で受信された特徴推定ＮＮを記憶する。
　ノイズ推定ＮＮ記憶部１３３は、通信部１３１で受信されたノイズ推定ＮＮを記憶する。
　相関推定ＮＮ記憶部１３４は、通信部１３１で受信された相関推定ＮＮを記憶する。
　音声強調ＮＮ記憶部１３５は、通信部１３１で受信された音声強調ＮＮを記憶する。

　ノイズ混合音声取得部１３６は、集音部として機能するマイクロフォン（図示せず）で収録された、目的音声と、ノイズとを含む混合音声を示す混合音声データを取得する。混合音声データに含まれているノイズを混合ノイズともいう。例えば、ノイズ混合音声取得部１３６は、通信部１３１を介して、混合音声データを取得してもよく、また、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等の接続インタフェースに接続されたマイクロフォンから、混合音声データを取得してもよい。ここでの混合音声データを推論用混合音声データともいい、推論用混合音声データで示される混合音声を推論用混合音声ともいう。なお、通信部１３１又は接続インタフェースは、データの入力を受け付けるインタフェース（入力インタフェース）又はインタフェース部（入力インタフェース部）として機能する。

　ノイズ取得部１３７は、マイクロフォンで収録された、目的音声を含まない、ノイズを示すノイズデータを取得する。例えば、ノイズ混合音声取得部１３６は、通信部１３１を介して、ノイズデータを取得してもよく、また、接続インタフェースに接続されたマイクロフォンから、ノイズデータを取得してもよい。ここで、ノイズとしては、例えば、マイクロフォンに、目的音声及びノイズを含む混合音声が入力される一定時間前後の音を用いることができる。なお、ここでのノイズデータを推論用ノイズデータともいい、推論用ノイズデータで示されるノイズを推論用ノイズともいう。

　音響成分算出部１３８は、強調する対象となる目的音声及び目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、音響成分を算出する。
　例えば、音響成分算出部１３８は、ノイズ混合音声取得部１３６から推論用混合音声データを受け取り、推論用混合音声データで示される混合音声から、音響成分を算出する。音響成分は、例えば、音声信号から短時間フーリエ変換（ＳＴＦＴ）によって算出されたパワースペクトルの時系列である。音響成分は、音響特徴量推定部１３９及び音声復元部１４５に与えられる。

　音響特徴量推定部１３９は、音響成分算出部１３８からの音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルである特徴推定ＮＮに入力することで、音響特徴量を推定する。
　例えば、音響特徴量推定部１３９は、音響成分算出部１３８から受け取った音響成分を、特徴推定ＮＮ記憶部１３２に記憶されている特徴推定ＮＮに入力し、音響特徴量を推定する。特徴推定ＮＮは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）に類する手法又は１次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。音響特徴量は、相関推定部１４２及び特徴量統合部１４３に与えられる。

　ノイズ成分算出部１４０は、目的音声を含まないで、ノイズを含むノイズデータから、予め定められた関数を用いて、ノイズ成分を算出する。
　例えば、ノイズ成分算出部１４０は、ノイズ取得部１３７から推論用ノイズデータを受け取り、推論用ノイズデータで示されるノイズからノイズ成分を算出する。ノイズ成分は、例えば、音声信号から短時間フーリエ変換（ＳＴＦＴ）によって算出されたパワースペクトルの時系列である。ノイズ成分は、ノイズ特徴量推定部１４１に与えられる。

　ノイズ特徴量推定部１４１は、ノイズ成分算出部１４０からのノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルであるノイズ推定ＮＮに入力することで、ノイズ特徴量を推定する。
　例えば、ノイズ特徴量推定部１４１は、ノイズ成分算出部１４０からのノイズ成分を、ノイズ推定ＮＮ記憶部１３３に記憶されているノイズ推定ＮＮに入力し、ノイズ特徴量を推定する。ここで、ノイズ推定ＮＮは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、ＬＳＴＭに類する手法又は１次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。

　相関推定部１４２は、音響特徴量及びノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルである相関推定ＮＮに入力することで、音響特徴量と、ノイズ特徴量との相関を推定する。
　例えば、相関推定部１４２は、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部１４１が推定したノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。相関は、特徴量統合部１４３に与えられる。

　ここで相関推定ＮＮは、例えば、下記の文献に示すようなＡｔｔｅｎｔｉｏｎ　ＮＮを用いればよい。
　文献：Ａ．　Ｖａｓｗａｎｉ　ｅｔ　ａｌ．、　“Ａｔｔｅｎｔｉｏｎ　Ｉｓ　Ａｌｌ　Ｙｏｕ　Ｎｅｅｄ”、　ｉｎ　Ｐｒｏｃ．　ＮＩＰＳ、　２０１７年

　特徴量統合部１４３は、音響特徴量に、推定された相関で重み付けを行うことで、統合特徴量を算出する。
　例えば、特徴量統合部１４３は、音響特徴量推定部１３９からの音響特徴量と、相関推定部１４２からの相関とを統合する。統合は、これらの二つの行列表現を、一つの行列表現に変換することを意味する。例えば、音響特徴量が、Ｎ×時間の時間周波数表現で、相関がＭ×時間の時間周波数表現であった場合、これらを時間とは異なる周波数軸で連結して（Ｎ＋Ｍ）×時間の時間周波数表現としてもよいし、何らかの次元変換によって、音響特徴量と、相関との周波数軸の次元数を統一し、２つの行列の要素積としてもよい。

　マスク推定部１４４は、統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルである音声強調ＮＮに入力することで、目的音声マスクを推定する。
　例えば、マスク推定部１４４は、特徴量統合部１４３からの統合特徴量を入力として、音声強調ＮＮ記憶部１３５に記憶されている音声強調ＮＮを用いてマスクを推定する。音声強調ＮＮは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、ＬＳＴＭに類する手法又は１次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。

　ここでマスクとは、音響成分がＮ×時間の時間周波数表現であった場合、同じ大きさの時間周波数表現である。マスク推定部１４４は、混合音声から目的音声を強調する目的音声マスクのみを推定してもよいし、例えば、混合音声から逆にノイズを強調するノイズマスクも併せて推定してもよい。ここで推定された、目的音声を強調するマスクである目的音声マスクは、音声復元部１４５に与えられる。

　音声復元部１４５は、音響成分及び目的音声マスクから、目的音声を強調した音声を復元する。
　例えば、音声復元部１４５は、音響成分算出部１３８からの音響成分に対して、マスク推定部１４４からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換（ｉＳＴＦＴ）を用いて、音声信号を復元する。

　以上に記載されたノイズ混合音声取得部１３６、ノイズ取得部１３７、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、ノイズ特徴量推定部１４１、相関推定部１４２、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５の一部又は全部は、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ等のプロセッサ１１とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、ノイズ混合音声取得部１３６、ノイズ取得部１３７、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、ノイズ特徴量推定部１４１、相関推定部１４２、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５の一部又は全部は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ又はＦＰＧＡ等の処理回路１２で構成することもできる。
　以上のように、ノイズ混合音声取得部１３６、ノイズ取得部１３７、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、ノイズ特徴量推定部１４１、相関推定部１４２、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５は、処理回路網により実現することができる。

　なお、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４及び音声強調ＮＮ記憶部１３５はＨＤＤ、ＳＳＤ又は不揮発性メモリ等の記憶装置（図示せず）により実現することができる。
　また、通信部１３１は、ＮＩＣ等の通信インタフェースにより実現することができる。

　図５は、実施の形態１における学習装置１１０の動作を示すフローチャートである。
　まず、音声混合部１１３は、音声データ記憶部１１１から学習用音声データを、ノイズデータ記憶部１１２から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、ノイズデータからノイズとを重畳することで混合音声を生成する（Ｓ１０）。

　次に、成分算出部１１４は、音声混合部１１３からの目的音声及び混合音声から、それぞれ、目的音声成分及び混合音声成分を算出する（Ｓ１１）。

　次に、教師マスク推定部１１５は、成分算出部１１４からの目的音声成分及び混合音声成分から教師マスクを生成する（Ｓ１２）。

　次に、モデル学習部１１６は、音声混合部１１３から混合音声を、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部１１５から教師マスクを受け取り、ＮＮを学習することで、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを生成する（Ｓ１３）。ＮＮを学習することで生成された特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮは、モデル記憶部１１７に記憶され、音声強調装置１３０に送られる。

　図６は、実施の形態１における音声強調装置１３０の動作を示すフローチャートである。
　まず、音響成分算出部１３８は、ノイズ混合音声取得部１３６から推論用混合音声データを受け取り、推論用混合音声データで示される混合音声から、音響成分を算出する（Ｓ２０）。

　次に、音響特徴量推定部１３９は、音響成分算出部１３８から受け取った音響成分を、特徴推定ＮＮ記憶部１３２に記憶されている特徴推定ＮＮに入力し、音響特徴量を推定する（Ｓ２１）。

　また、ノイズ成分算出部１４０は、ノイズ取得部１３７から推論用ノイズデータを受け取り、推論用ノイズデータからノイズ成分を算出する（Ｓ２２）。

　次に、ノイズ特徴量推定部１４１は、ノイズ成分算出部１４０からのノイズ成分を、ノイズ推定ＮＮ記憶部１３３に記憶されているノイズ推定ＮＮに入力し、ノイズ特徴量を推定する（Ｓ２３）。

　次に、相関推定部１４２は、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部１４１が推定したノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する（Ｓ２４）。

　次に、特徴量統合部１４３は、音響特徴量推定部１３９からの音響特徴量と、相関推定部１４２からの相関とを統合する（Ｓ２５）。これにより、統合特徴量が生成される。

　マスク推定部１４４は、特徴量統合部１４３からの統合特徴量を入力として、音声強調ＮＮ記憶部１３５に記憶されている音声強調ＮＮを用いてマスクを推定する（Ｓ２６）。

　次に、音声復元部１４５は、音響成分算出部１３８からの音響成分に対して、マスク推定部１４４からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換（ｉＳＴＦＴ）を用いて、目的音声を強調した音声信号を復元する（Ｓ２７）。

　以上のように、実施の形態１によれば、目的音声とノイズを含むノイズ混合音声のデータだけでなく、混合しているノイズと類似していると考えられる、目的音声を含まないノイズも用いて、これらから抽出した特徴量の相関を推定し学習済みモデルに入力することで、学習データに含まれていない未知のノイズであっても、音声強調を実施することができる。

　言い換えると、実施の形態１によれば、ノイズから特徴量を抽出し、ノイズから抽出された特徴量と、ノイズ重畳音声から抽出された特徴量との相関をＮＮによって推定するため、未知のノイズに対しても頑健に音声強調が可能になる。

実施の形態２．
　実施の形態２では、音声区間を検出することで、混合音声と、ノイズとを区別できるようにする。
　図１に示されているように、実施の形態２に係る音声強調システム２００は、学習装置１１０と、音声強調装置２３０とを備える。

　実施の形態２に係る音声強調システム２００の学習装置１１０は、実施の形態１に係る音声強調システム１００の学習装置１１０と同様である。

　図７は、実施の形態２における音声強調装置２３０の構成を概略的に示すブロック図である。
　音声強調装置２３０は、通信部１３１と、特徴推定ＮＮ記憶部１３２と、ノイズ推定ＮＮ記憶部１３３と、相関推定ＮＮ記憶部１３４と、音声強調ＮＮ記憶部１３５と、音響成分算出部１３８と、音響特徴量推定部１３９と、ノイズ成分算出部１４０と、ノイズ特徴量推定部１４１と、相関推定部１４２と、特徴量統合部１４３と、マスク推定部１４４と、音声復元部１４５と、音声区間検出部２４６とを備える。

　実施の形態２における音声強調装置２３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、ノイズ特徴量推定部１４１、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５は、実施の形態１における音声強調装置１３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、ノイズ特徴量推定部１４１、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５と同様である。
　但し、音響成分算出部１３８は、音声区間検出部２４６からの音声区間データを推論用混合音声データとして、その推論用混合音声データから音響成分を算出し、ノイズ成分算出部１４０は、音声区間検出部２４６からの非音声区間データを推論用ノイズデータとして、その推論用ノイズデータからノイズ成分を算出する。

　音声区間検出部２４６は、目的音声が含まれている区間及びその目的音声が含まれていない区間を有する音響データから目的音声が含まれている区間のデータにより混合音声データを生成し、音響データから目的音声が含まれていない区間のデータによりノイズデータを生成する。
　例えば、音声区間検出部２４６は、集音部として機能するマイクロフォン（図示せず）で収録された音響データで示される音響から、音声が含まれている音声区間と、音声が含まれていない非音声区間とを検出する。そして、音声区間検出部２４６は、音響データの内、音声区間のデータである音声区間データを音響成分算出部１３８に、非音声区間のデータである非音声区間データをノイズ成分算出部１４０に与える。

　ここで、音声区間の検出は、例えば、国際公開第２０１６／１４３１２５号公報に開示されている音声区間検出手法等の公知の技術が使用されればよい。また、音声区間は、マイクロフォンに入力された音響信号のパワーに基づいて閾値で判定されてもよい。

　以上に記載された音声区間検出部２４６も、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ等のプロセッサ１１とにより構成することができる。
　また、音声区間検出部２４６は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ又はＦＰＧＡ等の処理回路１２で構成することもできる。
　以上のように、音声区間検出部２４６は、処理回路網により実現することができる。

　図８は、実施の形態２における音声強調装置２３０の動作を示すフローチャートである。
　なお、図８において、図６に示されているフローチャートに含まれているステップと同様の処理を行うステップについては、図６と同じ符号が付されている。

　まず、音声区間検出部２４６は、マイクロフォンで収録された音響データから、音声区間データ及び非音声区間データを生成し、音声区間データを音響成分算出部１３８に与え、非音声区間データをノイズ成分算出部１４０に与える（Ｓ３０）。そして、処理はステップＳ２０及びＳ２２に進む。

　図８におけるステップＳ２０～Ｓ２７の処理は、図６におけるステップＳ２０～Ｓ２７の処理と同様である。但し、音声区間データが推論用混合音声データとして扱われ、非音声区間データが推論用ノイズデータとして扱われる。

　以上のように、実施の形態２によれば、マイクロフォンで収録された音響データから音声区間データと非音声区間データとを生成し、それぞれ、推論用混合音声データ及び推論用ノイズデータとして扱うことができる。

　言い換えると、実施の形態２によれば、音声区間を検出することで、ノイズ混合音声からノイズのみの区間とそれ以外を検出することが可能になり、手動でノイズを与えなくても、未知のノイズに対しても頑健に音声強調が可能になる。

実施の形態３．
　実施の形態３では、推論用の混合音声をブロック毎に分割して処理するとともに、ノイズを復元できるようにしている。

　図１に示されているように、実施の形態３に係る音声強調システム３００は、学習装置３１０と、音声強調装置３３０とを備える。

　図９は、実施の形態３における学習装置３１０の構成を概略的に示すブロック図である。
　学習装置３１０は、音声データ記憶部１１１と、ノイズデータ記憶部１１２と、音声混合部１１３と、成分算出部１１４と、教師マスク推定部３１５と、モデル学習部３１６と、モデル記憶部１１７と、通信部１１８と、ブロック分割部３１９とを備える。

　実施の形態３における学習装置３１０の音声データ記憶部１１１、ノイズデータ記憶部１１２、音声混合部１１３、成分算出部１１４、モデル学習部１１６、モデル記憶部１１７及び通信部１１８は、実施の形態１における学習装置１１０の音声データ記憶部１１１、ノイズデータ記憶部１１２、音声混合部１１３、成分算出部１１４、モデル学習部１１６、モデル記憶部１１７及び通信部１１８と同様である。
　但し、音声混合部１１３は、目的音声と、混合音声とをブロック分割部３１９に与える。
　また、成分算出部１１４は、ブロック分割部３１９から与えられるブロック毎に、音響成分を算出する。

　ブロック分割部３１９は、音声混合部１１３からの目的音声及び混合音声のそれぞれを、一定時間長の複数のブロックに分割し、分割された複数のブロックの各々を成分算出部１１４及びモデル学習部１１６に与える。

　教師マスク推定部３１５は、実施の形態１の教師マスク推定部１１５と同様の処理を行う他、ブロック分割部３１９からのブロックからノイズを強調するノイズマスクも教師マスクとして推定し、モデル学習部３１６に与える。

　モデル学習部３１６は、ブロック分割部２１９からブロックを、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部３１５から教師マスクを受け取り、音声強調ＮＮを学習する。実施の形態３では、モデル学習部３１６は、教師マスク推定部３１５からのノイズマスクにより、ブロックからノイズを復元しながら、音声強調ＮＮを学習する。

　また、モデル学習部３１６は、ブロック分割部３１９からブロックを、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部３１５から教師マスクを受け取り、音声強調ＮＮを再学習する。ここでも、モデル学習部３１６は、教師マスク推定部３１５からのノイズマスクにより、ブロックからノイズを復元しながら、音声強調ＮＮを再学習する。

　以上に記載されたブロック分割部３１９も、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ等のプロセッサ１１とにより構成することができる。

　また、ブロック分割部３１９は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ又はＦＰＧＡ等の処理回路１２で構成することもできる。
　以上のように、ブロック分割部３１９は、処理回路網により実現することができる。

　図１０は、実施の形態３における音声強調装置３３０の構成を概略的に示すブロック図である。
　音声強調装置３３０は、通信部１３１と、特徴推定ＮＮ記憶部１３２と、ノイズ推定ＮＮ記憶部１３３と、相関推定ＮＮ記憶部１３４と、音声強調ＮＮ記憶部１３５と、音響成分算出部１３８と、音響特徴量推定部１３９と、ノイズ成分算出部１４０と、ノイズ特徴量推定部３４１と、相関推定部３４２と、特徴量統合部１４３と、マスク推定部１４４と、音声復元部１４５と、ブロック分割部３４７と、ノイズ復元部３４８とを備える。

　実施の形態３における音声強調装置３３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５は、実施の形態１における音声強調装置１３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５と同様である。
　但し、音響成分算出部１３８は、ブロック分割部３４７によりブロック毎に分割された推論用混合音声データから音響成分を算出する。
　また、マスク推定部１４４は、推定されたマスクをノイズ復元部３４８にも与える。ここでは、ノイズを強調するためのマスクであるノイズマスクが与えられればよいが、マスク推定部１４４がノイズマスクを推定しない場合には、マスク推定部１４４は、目的音声マスクに基づいてノイズを強調するマスクを生成し、生成したノイズマスクをノイズ復元部３４８に与える。なお、例えば、教師マスクが混合音声のパワースペクトルに対する目的音声のパワースペクトルの比で表現される場合、混合音声から目的音声を強調するマスクの各要素を１から引くことで、ノイズマスクを求めることができる。

　ブロック分割部３４７は、混合音声データを複数のブロックに分割する。
　例えば、ブロック分割部３４７は、ノイズ混合音声取得部１３６からの推論用混合音声データを、一定時間長のブロックに分割し、そのブロックを音響成分算出部１３８に与える。実施の形態３における音響成分算出部１３８は、その複数のブロックの各々で、音響成分を算出する。
　ブロックは、例えば、上記の文献“Ｄｅｅｐ　ｃｌｕｓｔｅｒｉｎｇ－ｂａｓｅｄ　ｓｉｎｇｌｅ－ｃｈａｎｎｅｌ　ｓｐｅｅｃｈ　ｓｅｐａｒａｔｉｏｎ　ａｎｄ　ｒｅｃｅｎｔ　ａｄｖａｎｃｅｓ”に示すような、重畳が含まれるように分割されることが望ましい。

　ノイズ復元部３４８は、音響成分及びノイズマスクから、ノイズを強調することで、復元ノイズ成分を算出する。
　例えば、ノイズ復元部３４８は、音響成分算出部１３８からの音響成分に対して、マスク推定部１４４が出力するノイズマスクを適用して、復元ノイズ成分を算出する。復元ノイズ成分は、ノイズ特徴量推定部３４１に与えられる。

　ノイズ特徴量推定部３４１は、実施の形態１におけるノイズ特徴量推定部１４１での処理に加え、ノイズ復元部３４８が出力する復元ノイズ成分をノイズ推定ＮＮに入力し、復元ノイズ特徴量を推定する。復元ノイズ特徴量は、すでに推定されたノイズ特徴量と時間方向に結合し、これを結合ノイズ特徴量として相関推定部３４２に出力する。

　相関推定部３４２は、結合ノイズ特徴量が生成された場合には、音響特徴量及び結合ノイズ特徴量から、相関を推定する。
　例えば、相関推定部３４２は、実施の形態１における相関推定部１４２での処理に加え、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部３４１が推定した結合ノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。相関は、特徴量統合部１４３に与えられる。

　実施の形態３では、ノイズ特徴量推定部３４１は、復元ノイズ成分が算出されたブロックの次のブロックにおいて推定されたノイズ特徴量に、復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成するため、相関推定部３４２も、復元ノイズ成分が算出されたブロックの次のブロックにおいて、音響特徴量及び結合ノイズ特徴量から、相関を推定する。

　以上に記載されたブロック分割部３４７及びノイズ復元部３４８の一部又は全部も、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ等のプロセッサ１１とにより構成することができる。
　また、ブロック分割部３４７及びノイズ復元部３４８の一部又は全部は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ又はＦＰＧＡ等の処理回路１２で構成することもできる。
　以上のように、ブロック分割部３４７及びノイズ復元部３４８の一部又は全部は、処理回路網により実現することができる。

　図１１は、実施の形態１における学習装置１１０の動作を示すフローチャートである。
　まず、音声混合部１１３は、音声データ記憶部１１１から学習用音声データを、ノイズデータ記憶部１１２から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、学習用ノイズデータで示されるノイズとを重畳することで混合音声を生成する（Ｓ４０）。

　次に、ブロック分割部３１９は、音声混合部１１３からの目的音声及び混合音声を、それぞれブロックに分割する（Ｓ４１）。

　次に、成分算出部１１４は、ブロック分割部３１９からの目的音声及び混合音声のブロックのそれぞれから、目的音声成分及び混合音声成分を算出する（Ｓ４２）。

　次に、教師マスク推定部１１５は、成分算出部１１４からの目的音声成分及び混合音声成分から目的音声を強調するための目的音声マスクと、ノイズを強調するためのノイズマスクとを教師マスクとして生成する（Ｓ４３）。

　次に、モデル学習部３１６は、音声混合部１１３から混合音声を、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部１１５から教師マスクを受け取り、ＮＮを学習することで、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを生成する（Ｓ４４）。ＮＮを学習することで生成された特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮは、モデル記憶部１１７に記憶される。

　また、モデル学習部３１６は、音声混合部１１３から混合音声を、ノイズデータ記憶部１１２から学習用ノイズデータを、教師マスク推定部１１５から教師マスクを受け取り、音声強調ＮＮを再学習することで、特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮを生成する（Ｓ４５）。音声強調ＮＮを再学習することで生成された特徴推定ＮＮ、ノイズ推定ＮＮ、相関推定ＮＮ及び音声強調ＮＮは、モデル記憶部１１７に記憶され、音声強調装置１３０に送られる。

　図１２は、実施の形態３における音声強調装置３３０の動作を示すフローチャートである。
　まず、ブロック分割部３４７は、ノイズ混合音声取得部１３６から推論用混合音声データを受け取り、推論用混合音声データを、一定時間長のブロックに分割する（Ｓ５０）。そして、ブロック分割部３４７は、分割されたブロックを時間の早いものから順に一つずつ、音響成分算出部１３８に与える。

　次に、音響成分算出部１３８は、ブロック分割部３４７からブロックを受け取り、そのブロックで示される混合音声から、音響成分を算出する（Ｓ５１）。

　次に、音響特徴量推定部１３９は、音響成分算出部１３８から受け取った音響成分を、特徴推定ＮＮ記憶部１３２に記憶されている特徴推定ＮＮに入力し、音響特徴量を推定する（Ｓ５２）。

　また、ノイズ成分算出部１４０は、ノイズ取得部１３７から推論用ノイズデータを受け取り、推論用ノイズデータからノイズ成分を算出する（Ｓ５３）。

　次に、ノイズ特徴量推定部３４１は、ノイズ成分算出部１４０からのノイズ成分を、ノイズ推定ＮＮ記憶部１３３に記憶されているノイズ推定ＮＮに入力し、ノイズ特徴量を推定する（Ｓ５４）。

　次に、相関推定部３４２は、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部１４１が推定したノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する（Ｓ５５）。

　次に、特徴量統合部１４３は、音響特徴量推定部１３９からの音響特徴量と、相関推定部３４２からの相関とを統合する（Ｓ５６）。

　マスク推定部１４４は、特徴量統合部１４３からの統合特徴量を入力として、音声強調ＮＮ記憶部１３５に記憶されている音声強調ＮＮを用いてマスクを推定する（Ｓ５７）。

　次に、音声復元部１４５は、音響成分算出部１３８からの音響成分に対して、マスク推定部１４４からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換（ｉＳＴＦＴ）を用いて、目的音声を強調した音声信号を復元する（Ｓ５８）。

　また、ノイズ復元部３４８は、音響成分算出部１３８からの音響成分に対して、マスク推定部１４４が出力するノイズマスクを適用して、復元ノイズ成分を算出する。

　そして、ブロック分割部３４７は、音響成分算出部１３８に与えていないブロックが残っているか否かを判断する（Ｓ６０）。そのようなブロックが残っている場合（Ｓ６０でＹｅｓ）には、処理はステップＳ５１及びステップＳ５４に戻り、そのようなブロックが残っていない場合（Ｓ６０でＮｏ）には、処理は終了する。

　なお、ステップＳ６０からステップＳ５４に戻った場合には、ノイズ特徴量推定部３４１は、ノイズ復元部３４８で復元された復元ノイズ成分を、ノイズ推定ＮＮ記憶部１３３に記憶されているノイズ推定ＮＮに入力し、復元ノイズ特徴量を推定する。
　そして、ステップＳ５５では、相関推定部３４２は、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部１４１が推定した復元ノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。

　以上のように、実施の形態３によれば、ブロック処理で音声強調を行うことにより、音声強調の処理遅延を低下させることができ、さらに現在音声強調しているブロックの一つ前のブロックから推定されたノイズを用いることにより、未知のノイズに対する頑健性を向上させることが可能になる。加えて、学習時には、教師マスク推定部で推定された真のマスクを用いて一つ前のブロックから抽出したノイズを用いて学習した後、推論時と同様に一つ前のブロックから推定したマスクを用いて抽出したノイズを用いて学習することにより、効率的にモデルを学習できる。

実施の形態４．
　実施の形態４では、復元されたノイズ成分の尤度を算出して、復元されたノイズ成分を使用するか否かを判断する。

　図１に示されているように、実施の形態４に係る音声強調システム４００は、学習装置３１０と、音声強調装置４３０とを備える。
　実施の形態４に係る音声強調システム４００の学習装置３１０は、実施の形態３に係る音声強調システム３００の学習装置３１０と同様である。

　図１３は、実施の形態４における音声強調装置４３０の構成を概略的に示すブロック図である。
　音声強調装置４３０は、通信部１３１と、特徴推定ＮＮ記憶部１３２と、ノイズ推定ＮＮ記憶部１３３と、相関推定ＮＮ記憶部１３４と、音声強調ＮＮ記憶部１３５と、音響成分算出部１３８と、音響特徴量推定部１３９と、ノイズ成分算出部１４０と、ノイズ特徴量推定部４４１と、相関推定部１４２と、特徴量統合部１４３と、マスク推定部１４４と、音声復元部１４５と、ブロック分割部３４７と、ノイズ復元部３４８と、ノイズ尤度判断部４４９とを備える。

　実施の形態４における音声強調装置４３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５は、実施の形態１における音声強調装置１３０の通信部１３１、特徴推定ＮＮ記憶部１３２、ノイズ推定ＮＮ記憶部１３３、相関推定ＮＮ記憶部１３４、音声強調ＮＮ記憶部１３５、音響成分算出部１３８、音響特徴量推定部１３９、ノイズ成分算出部１４０、特徴量統合部１４３、マスク推定部１４４及び音声復元部１４５と同様である。
　但し、音響成分算出部１３８は、ブロック分割部３４７によりブロック毎に分割された推論用混合音声データから音響成分を算出する。
　また、マスク推定部１４４は、推定されたマスクをノイズ復元部３４８にも与える。ここでは、ノイズマスクが与えられればよいが、マスク推定部１４４がノイズマスクを推定しない場合には、マスク推定部１４４は、目的音声マスクに基づいてノイズを強調するマスクを生成し、生成したノイズマスクをノイズ復元部３４８に与える。なお、例えば、教師マスクが混合音声のパワースペクトルに対する目的音声のパワースペクトルの比で表現される場合、混合音声から目的音声を強調するマスクの各要素を１から引くことで、ノイズマスクを求めることができる。

　また、実施の形態４における音声強調装置４３０のブロック分割部３４７及びノイズ復元部３４８は、実施の形態３における音声強調装置３３０のブロック分割部３４７及びノイズ復元部３４８と同様である。
　但し、実施の形態４におけるノイズ復元部３４８は、復元ノイズ成分をノイズ尤度判断部４４９に与える。

　ノイズ尤度判断部４４９は、復元ノイズ成分の尤度であるノイズ尤度を算出し、そのノイズ尤度が予め定められた閾値以上となっているか否かを判断する。
　例えば、ノイズ尤度判断部４４９は、ノイズ復元部３４８から復元ノイズ成分を受け取り、ノイズ尤度を算出する。そして、ノイズ尤度判断部４４９は、閾値の以上のノイズ尤度となっているブロックに対応する復元ノイズ成分をノイズ特徴量推定部４４１に与える。

　ここで、復元ノイズ成分がＮ×時間の時間周波数表現であるとき、ノイズ尤度は、時間フレームに対応するブロック毎に算出される。ノイズ尤度は、例えば、非特許文献１のように、ＮＮを用いて算出することができる。閾値は、例えば実験的に求めたものを用いることができる。

　ノイズ特徴量推定部４４１は、ノイズ尤度判断部４４９から受け取った復元ノイズ成分に対応するブロックの次のブロックにおいては、ノイズ尤度判断部４４９が出力する復元ノイズ成分をノイズ推定ＮＮに入力して、復元ノイズ特徴量を推定し、その復元ノイズ特徴量を、ノイズ成分算出部１４０から受け取ったノイズ成分から推定されたノイズ特徴量と時間方向に結合することで、結合ノイズ特徴量を算出する。
　一方、ノイズ特徴量推定部４４１は、ノイズ尤度判断部４４９から復元ノイズ成分を受け取っていないブロックの次のブロックにおいては、ノイズ成分算出部１４０から受け取ったノイズ成分からノイズ特徴量を推定する。
　そして、ノイズ特徴量推定部４４１は、ノイズ尤度判断部４４９から受け取った復元ノイズ成分に対応するブロックの次のブロックにおいては、結合ノイズ特徴量を相関推定部３４２に与え、それ以外のブロックにおいては、ノイズ特徴量を相関推定部３４２に与える。
　言い換えると、ノイズ特徴量推定部４４１は、ノイズ尤度が閾値以上となっている場合に、結合ノイズ特徴量を生成する。

　相関推定部４４２は、ノイズ特徴量推定部４４１からノイズ特徴量を受け取ったブロックについては、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部３４１が推定したノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。

　一方、相関推定部４４２は、ノイズ特徴量推定部４４１から結合ノイズ特徴量を受け取ったブロックについては、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部３４１が推定した結合ノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。相関は、特徴量統合部１４３に与えられる。

　以上に記載されたノイズ尤度判断部４４９も、例えば、図３（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ等のプロセッサ１１とにより構成することができる。
　また、ノイズ尤度判断部４４９は、例えば、図３（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ又はＦＰＧＡ等の処理回路１２で構成することもできる。
　以上のように、ノイズ尤度判断部４４９は、処理回路網により実現することができる。

　図１４は、実施の形態４における音声強調装置４３０の動作を示すフローチャートである。
　なお、図１４において、図１２に示されているフローチャートに含まれているステップと同様の処理を行うステップについては、図１２と同じ符号が付されている。

　図１４のステップＳ５０～Ｓ５３での処理については、図１２のステップＳ５０～Ｓ５３での処理と同様である。但し、図１４においては、ステップＳ５３の処理の後に、処理はステップＳ７０に進む。

　ステップＳ７０では、ノイズ特徴量推定部４４１は、ノイズ成分算出部１４０から受け取ったノイズ成分からノイズ特徴量を推定する。そして、処理はステップＳ５５に進む。

　図１４のステップＳ５５～Ｓ５９での処理については、図１２のステップＳ５５～Ｓ５９での処理と同様である。但し、図１４においては、ステップＳ５９の処理の後に，処理はステップＳ７１に進む。

　ステップＳ７１では、ノイズ尤度判断部４４９は、ノイズ復元部３４８から復元ノイズ成分を受け取り、ノイズ尤度を算出する。そして、ノイズ尤度判断部４４９は、算出されたノイズ尤度が閾値の以上となっている場合には、その復元ノイズ成分をノイズ特徴量推定部４４１に与える。そして、処理はステップＳ６０に進む。

　ステップＳ６０では、ブロック分割部３４７は、音響成分算出部１３８に与えていないブロックが残っているか否かを判断する。そのようなブロックが残っている場合（Ｓ６０でＹｅｓ）には、処理はステップＳ５１及びステップＳ７０に戻り、そのようなブロックが残っていない場合（Ｓ６０でＮｏ）には、処理は終了する。

　なお、ステップＳ６０からステップＳ７０に戻った場合であって、ノイズ尤度判断部４４９から復元ノイズ成分を受け取ったときには、ノイズ特徴量推定部４４１は、ノイズ復元部３４８で復元された復元ノイズ成分を、ノイズ推定ＮＮ記憶部１３３に記憶されているノイズ推定ＮＮに入力し、復元ノイズ特徴量を推定し、その復元ノイズ特徴量を、ノイズ成分算出部１４０から受け取ったノイズ成分から推定されたノイズ特徴量と時間方向に結合することで、結合ノイズ特徴量を算出する。
　この場合、ステップＳ５５において、相関推定部３４２は、音響特徴量推定部１３９が推定した音響特徴量と、ノイズ特徴量推定部１４１が推定した復元ノイズ特徴量とを、相関推定ＮＮ記憶部１３４に記憶されている相関推定ＮＮに入力し、２つの特徴量の相関を推定する。

　以上のように、実施の形態４によれば、一つ前のブロックから推定されたノイズのうち、ノイズ尤度が高い部分のみを用いることで、推定誤りを含むノイズを学習することを防ぐことが可能になる。

　１００，２００，３００，４００　音声強調システム、　１１０，３１０　学習装置、　１１１　音声データ記憶部、　１１２　ノイズデータ記憶部、　１１３　音声混合部、　１１４　成分算出部、　１１５，３１５　教師マスク推定部、　１１６，３１６　モデル学習部、　１１７　モデル記憶部、　１１８　通信部、　３１９　ブロック分割部、　１３０，２３０，３３０，４３０　音声強調装置、　１３１　通信部、　１３２　特徴推定ＮＮ記憶部、　１３３　ノイズ推定ＮＮ記憶部、　１３４　相関推定ＮＮ記憶部、　１３５　音声強調ＮＮ記憶部、　１３６　ノイズ混合音声取得部、　１３７　ノイズ取得部、　１３８　音響成分算出部、　１３９　音響特徴量推定部、　１４０　ノイズ成分算出部、　１４１，３４１，４４１　ノイズ特徴量推定部、　１４２，３４２，４４２　相関推定部、　１４３　特徴量統合部、　１４４　マスク推定部、　１４５　音声復元部、　２４６　音声区間検出部、　３４７　ブロック分割部、　３４８　ノイズ復元部、　４４９　ノイズ尤度判断部。

Claims

　強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部と、
　前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部と、
　前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部と、
　前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部と、
　前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部と、
　前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部と、
　前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部と、
　前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部と、を備えること
　を特徴とする情報処理装置。
　データの入力を受け付けるインタフェース部と、
　前記インタフェース部を介して、前記混合音声データを取得するノイズ混合音声取得部と、
　前記インタフェース部を介して、前記ノイズデータを取得するノイズ取得部と、をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　データの入力を受け付けるインタフェース部と、
　前記インタフェース部を介して、前記目的音声が含まれている区間及び前記目的音声が含まれていない区間を有する音響データを取得して、前記音響データから前記目的音声が含まれている区間のデータにより前記混合音声データを生成し、前記音響データから前記目的音声が含まれていない区間のデータにより前記ノイズデータを生成する音声区間検出部と、をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記混合音声データを複数のブロックに分割するブロック分割部をさらに備え、
　前記音響成分算出部は、前記複数のブロックの各々で、前記音響成分を算出すること
　を特徴とする請求項１から３の何れか一項に記載の情報処理装置。
　前記マスク推定部は、ノイズを強調するためのノイズマスクをさらに推定し、
　前記音響成分及び前記ノイズマスクから、ノイズを強調することで、復元ノイズ成分を算出するノイズ復元部をさらに備え、
　前記ノイズ特徴量推定部は、前記復元ノイズ成分を、前記ノイズ推定モデルに入力することで、復元ノイズ特徴量を推定し、前記ノイズ特徴量に、前記復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成し、
　前記相関推定部は、前記結合ノイズ特徴量が生成された場合には、前記音響特徴量及び前記結合ノイズ特徴量から、前記相関を推定すること
　を特徴とする請求項４に記載の情報処理装置。
　前記ノイズ特徴量推定部は、前記復元ノイズ成分が算出されたブロックの次のブロックにおいて推定された前記ノイズ特徴量に、前記復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成すること
　を特徴とする請求項５に記載の情報処理装置。
　前記復元ノイズ成分の尤度であるノイズ尤度を算出し、前記ノイズ尤度が予め定められた閾値以上となっているか否かを判断するノイズ尤度判断部をさらに備え、
　前記ノイズ特徴量推定部は、前記ノイズ尤度が前記閾値以上となっている場合に、前記結合ノイズ特徴量を生成すること
　を特徴とする請求項５に記載の情報処理装置。
　コンピュータを、
　強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部、
　前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部、
　前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部、
　前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部、
　前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部、
　前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部、
　前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部、
　前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部、として機能させること
　を特徴とするプログラム。
　強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出し、
　前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定し、
　前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出し、
　前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定し、
　前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定し、
　前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出し、
　前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定し、
　前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元すること
　を特徴とする情報処理方法。