WO2022215199A1

WO2022215199A1 - 情報処理装置、出力方法、及び出力プログラム

Info

Publication number: WO2022215199A1
Application number: PCT/JP2021/014790
Authority: WO
Inventors: 龍相原
Original assignee: 三菱電機株式会社
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-10-13
Also published as: JP7270869B2; US20230419980A1; JPWO2022215199A1; CN116997961A; DE112021007013T5

Abstract

情報処理装置（１００）は、音源位置情報（１１１）、混合音信号、及び学習済モデル（１１２）を取得する取得部（１２０）と、混合音信号に基づいて、複数の音特徴量を抽出する音特徴量抽出部（１３０）と、音源位置情報（１１１）に基づいて、複数の音特徴量のうち、目的音方向の音特徴量を強調する強調部（１４０）と、複数の音特徴量と音源位置情報（１１１）とに基づいて、目的音方向を推定する推定部（１５０）と、推定された目的音方向と複数の音特徴量とに基づいて、マスク特徴量を抽出するマスク特徴量抽出部（１６０）と、強調された音特徴量に基づいて、目的音方向強調音信号を生成し、マスク特徴量に基づいて、目的音方向マスキング音信号を生成する生成部（１７０）と、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル（１１２）を用いて、目的音信号を出力する目的音信号出力部（１８０）と、を有する。

Description

情報処理装置、出力方法、及び出力プログラム

　本開示は、情報処理装置、出力方法、及び出力プログラムに関する。

　複数の話者が同時に話すことで、音声は混合する。混合された音声の中から目的話者の音声を抽出したい場合がある。例えば、目的話者の音声を抽出する場合、雑音を抑制する方法が考えられる。ここで、雑音を抑制する方法が提案されている（特許文献１を参照）。

特開２０１０－２３９４２４号公報国際公開第２０１６／１４３１２５号

Ｙｉ　Ｌｕｏ、Ｎｉｍａ　Ｍｅｓｇａｒａｎｉ，"Ｃｏｎｖ－ＴａｓＮｅｔ：Ｓｕｒｐａｓｓｉｎｇ　Ｉｄｅａｌ　Ｔｉｍｅ－Ｆｒｅｑｕｅｎｃｙ　Ｍａｇｎｉｔｕｄｅ　Ｍａｓｋｉｎｇ　ｆｏｒ　Ｓｐｅｅｃｈ　Ｓｅｐａｒａｔｉｏｎ",２０１９年Ａｓｈｉｓｈ　Ｖａｓｗａｎｉ　ｅｔ　ａｌ．,"Ａｔｔｅｎｔｉｏｎ　Ｉｓ　Ａｌｌ　Ｙｏｕ　Ｎｅｅｄ"，ｉｎ　Ｐｒｏｃ．ＮＩＰＳ，２０１７年

　ところで、目的音（例えば、目的話者の音声）がマイクロフォンに入射する方向と、妨害音（例えば、妨害話者の音声）が当該マイクロフォンに入射する方向との間の角度が小さい場合、装置は、上記の技術を用いても、目的音を示す信号である目的音信号を出力することが困難である場合がある。

　本開示の目的は、目的音信号を出力することである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、目的音の音源の位置情報である音源位置情報、前記目的音と妨害音とを含む混合音を示す信号である混合音信号、及び学習済モデルを取得する取得部と、前記混合音信号に基づいて、複数の音特徴量を抽出する音特徴量抽出部と、前記音源位置情報に基づいて、前記複数の音特徴量のうち、前記目的音の方向である目的音方向の音特徴量を強調する強調部と、前記複数の音特徴量と前記音源位置情報とに基づいて、前記目的音方向を推定する推定部と、推定された前記目的音方向と前記複数の音特徴量とに基づいて、前記目的音方向の特徴量がマスクされた状態の特徴量であるマスク特徴量を抽出するマスク特徴量抽出部と、強調された音特徴量に基づいて、前記目的音方向が強調された音信号である目的音方向強調音信号を生成し、前記マスク特徴量に基づいて、前記目的音方向がマスキングされた音信号である目的音方向マスキング音信号を生成する生成部と、前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音を示す信号である目的音信号を出力する目的音信号出力部と、を有する。

　本開示によれば、目的音信号を出力することができる。

実施の形態１の目的音信号出力システムの例を示す図である。実施の形態１の情報処理装置が有するハードウェアを示す図である。実施の形態１の情報処理装置の機能を示すブロック図である。実施の形態１の学習済モデルの構成例を示す図である。実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態１の学習装置の機能を示すブロック図である。実施の形態１の学習装置が実行する処理の例を示すフローチャートである。実施の形態２の情報処理装置の機能を示すブロック図である。実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態３の情報処理装置の機能を示すブロック図である。実施の形態３の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態４の情報処理装置の機能を示すブロック図である。実施の形態４の情報処理装置が実行する処理の例を示すフローチャートである。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１の目的音信号出力システムの例を示す図である。目的音信号出力システムは、情報処理装置１００と学習装置２００とを含む。情報処理装置１００は、出力方法を実行する装置である。情報処理装置１００は、学習済モデルを用いて、目的音信号を出力する。学習済モデルは、学習装置２００によって生成される。

　情報処理装置１００については、活用フェーズで説明する。学習装置２００については、学習フェーズで説明する。まず、活用フェーズを説明する。
＜活用フェーズ＞

　図２は、実施の形態１の情報処理装置が有するハードウェアを示す図である。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、情報処理装置１００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。
　また、揮発性記憶装置１０２又は不揮発性記憶装置１０３によって確保された記憶領域は、記憶部と呼ぶ。

　次に、情報処理装置１００が有する機能を説明する。
　図３は、実施の形態１の情報処理装置の機能を示すブロック図である。情報処理装置１００は、取得部１２０、音特徴量抽出部１３０、強調部１４０、推定部１５０、マスク特徴量抽出部１６０、生成部１７０、及び目的音信号出力部１８０を有する。

　取得部１２０、音特徴量抽出部１３０、強調部１４０、推定部１５０、マスク特徴量抽出部１６０、生成部１７０、及び目的音信号出力部１８０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、音特徴量抽出部１３０、強調部１４０、推定部１５０、マスク特徴量抽出部１６０、生成部１７０、及び目的音信号出力部１８０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、出力プログラムとも言う。例えば、出力プログラムは、記録媒体に記録されている。

　記憶部は、音源位置情報１１１と学習済モデル１１２とを記憶してもよい。音源位置情報１１１とは、目的音の音源の位置情報である。例えば、目的音が、目的音話者が発する音声である場合、音源位置情報１１１は、目的音話者の位置情報である。

　取得部１２０は、音源位置情報１１１を取得する。例えば、取得部１２０は、音源位置情報１１１を記憶部から取得する。ここで、音源位置情報１１１は、外部装置（例えば、クラウドサーバ）に格納されてもよい。音源位置情報１１１が外部装置に格納されている場合、取得部１２０は、音源位置情報１１１を外部装置から取得する。

　取得部１２０は、学習済モデル１１２を取得する。例えば、取得部１２０は、学習済モデル１１２を記憶部から取得する。また、例えば、取得部１２０は、学習済モデル１１２を学習装置２００から取得する。

　取得部１２０は、混合音信号を取得する。例えば、取得部１２０は、Ｎ（Ｎは、２以上の整数）個のマイクロフォンを備えるマイクロフォンアレイから混合音信号を取得する。混合音信号は、目的音と妨害音とを含む混合音を示す信号である。混合音信号は、Ｎ個の音信号と表現してもよい。なお、例えば、目的音は、目的音話者が発する音声、動物が発する音などである。妨害音は、目的音を妨害する音である。また、混合音には、ノイズが含まれてもよい。以下の説明では、混合音には、目的音と妨害音とノイズとが含まれるものとする。

　音特徴量抽出部１３０は、混合音信号に基づいて、複数の音特徴量を抽出する。例えば、音特徴量抽出部１３０は、混合音信号に対して短時間フーリエ変換（ＳＴＦＴ：ｓｈｏｒｔ－ｔｉｍｅ　Ｆｏｕｒｉｅｒ　ｔｒａｎｓｆｏｒｍ）を行うことで得られたパワースペクトルの時系列を、複数の音特徴量として、抽出する。なお、抽出された複数の音特徴量は、Ｎ個の音特徴量と表現してもよい。

　強調部１４０は、音源位置情報１１１に基づいて、複数の音特徴量のうち、目的音方向の音特徴量を強調する。例えば、強調部１４０は、複数の音特徴量と音源位置情報１１１とＭＶＤＲ（Ｍｉｎｉｍｕｍ　Ｖａｒｉａｎｃｅ　Ｄｉｓｔｏｒｔｉｏｎｌｅｓｓ　Ｒｅｓｐｏｎｓｅ）ビームフォーマとを用いて、目的音方向の音特徴量を強調する。

　推定部１５０は、複数の音特徴量と音源位置情報１１１とに基づいて、目的音方向を推定する。詳細には、推定部１５０は、式（１）を用いて、目的音方向を推定する。
　ｌは、時間を示す。ｋは、周波数を示す。ｘ_ｌｋは、音源位置情報１１１に基づいて特定される目的音の音源位置に最も近いマイクロフォンから得られる音信号に対応する音特徴量を示している。ｘ_ｌｋは、ＳＴＦＴスペクトルと考えてもよい。ａ_θ，ｋは、ある角度方向θのステアリングベクトルを示している。Ｈは、共役転置である。

　マスク特徴量抽出部１６０は、推定された目的音方向と複数の音特徴量とに基づいて、マスク特徴量を抽出する。マスク特徴量は、目的音方向の特徴量がマスクされた状態の特徴量である。詳細に、マスク特徴量の抽出処理を説明する。マスク特徴量抽出部１６０は、目的音方向に基づいて、方向マスクを作成する。方向マスクは、目的音方向が強調された音を抽出するマスクである。当該マスクは、音特徴量と同じサイズの行列である。目的音方向の角度範囲がθである場合、方向マスクＭ_ｌｋは、式（２）で表させる。

　マスク特徴量抽出部１６０は、マスク行列の要素積を複数の音特徴量に乗算することにより、マスク特徴量を抽出する。

　生成部１７０は、強調部１４０によって強調された音特徴量に基づいて、目的音方向が強調された音信号（以下、目的音方向強調音信号と呼ぶ）を生成する。例えば、生成部１７０は、強調部１４０によって強調された音特徴量と逆短時間フーリエ変換（ＩＳＴＦＴ：Ｉｎｖｅｒｓｅ　ｓｈｏｒｔ－ｔｉｍｅ　Ｆｏｕｒｉｅｒ　ｔｒａｎｓｆｏｒｍ）を用いて、目的音方向強調音信号を生成する。

　生成部１７０は、マスク特徴量に基づいて、目的音方向がマスキングされた音信号（以下、目的音方向マスキング音信号と呼ぶ）を生成する。例えば、生成部１７０は、マスク特徴量と逆短時間フーリエ変換とを用いて、目的音方向マスキング音信号を生成する。
　目的音方向強調音信号と目的音方向マスキング音信号とは、学習信号として、学習装置２００に入力されてもよい。

　目的音信号出力部１８０は、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。ここで、学習済モデル１１２の構成例を説明する。

　図４は、実施の形態１の学習済モデルの構成例を示す図である。学習済モデル１１２は、Ｅｎｃｏｄｅｒ１１２ａ、Ｓｅｐａｒａｔｏｒ１１２ｂ、及びＤｅｃｏｄｅｒ１１２ｃを含む。

　Ｅｎｃｏｄｅｒ１１２ａは、目的音方向強調音信号に基づいて、“Ｍ次元×時間”の目的音方向強調時間周波数表現を推定する。また、Ｅｎｃｏｄｅｒ１１２ａは、目的音方向マスキング音信号に基づいて、“Ｍ次元×時間”の目的音方向マスキング時間周波数表現を推定する。例えば、Ｅｎｃｏｄｅｒ１１２ａは、ＳＴＦＴによって推定されるパワースペクトルを、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現として、推定してもよい。また、例えば、Ｅｎｃｏｄｅｒ１１２ａは、１次元畳み込み演算を用いて、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現を推定してもよい。当該推定が行われる場合、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現は、同じ時間周波数表現空間に射影されてもよいし、異なる時間周波数表現空間に射影されてもよい。なお、例えば、当該推定は、非特許文献１に記載されている。

　Ｓｅｐａｒａｔｏｒ１１２ｂは、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現に基づいて、“Ｍ次元×時間”のマスク行列を推定する。また、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現が、Ｓｅｐａｒａｔｏｒ１１２ｂに入力される際、目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現が周波数軸方向に連結されてもよい。これにより、“２Ｍ次元×時間”の表現に変換される。目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現は、時間軸と周波数軸と異なる軸に連結されてもよい。これにより、“Ｍ次元×時間×２”の表現に変換される。目的音方向強調時間周波数表現及び目的音方向マスキング時間周波数表現には、重みを重み付けしてもよい。重み付けられた目的音方向強調時間周波数表現及び重み付けられた目的音方向マスキング時間周波数表現は、足し合わされてもよい。重みは、学習済モデル１１２で推定されてもよい。

　なお、Ｓｅｐａｒａｔｏｒ１１２ｂは、入力層、中間層、及び出力層で構成されるニューラルネットワークである。例えば、層と層との間における伝播は、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）に類する手法と１次元畳み込み演算を組み合わせた手法を用いてもよい。

　Ｄｅｃｏｄｅｒ１１２ｃは、“Ｍ次元×時間”の目的音方向強調時間周波数表現と“Ｍ次元×時間”のマスク行列とを乗算する。Ｄｅｃｏｄｅｒ１１２ｃは、乗算することにより得られた情報と、Ｅｎｃｏｄｅｒ１１２ａで用いられた方法に対応する方法とを用いて、目的音信号を出力する。例えば、Ｅｎｃｏｄｅｒ１１２ａで用いられた方法がＳＴＦＴである場合、Ｄｅｃｏｄｅｒ１１２ｃは、乗算することにより得られた情報と、ＩＳＴＦＴとを用いて、目的音信号を出力する。また、例えば、Ｅｎｃｏｄｅｒ１１２ａで用いられた方法が１次元畳み込み演算である場合、Ｄｅｃｏｄｅｒ１１２ｃは、乗算することにより得られた情報と、逆１次元畳み込み演算とを用いて、目的音信号を出力する。

　目的音信号出力部１８０は、目的音信号をスピーカに出力してもよい。これにより、目的音がスピーカから出力される。なお、スピーカの図は、省略されている。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて、説明する。
　図５は、実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ１１）取得部１２０は、混合音信号を取得する。
　（ステップＳ１２）音特徴量抽出部１３０は、混合音信号に基づいて、複数の音特徴量を抽出する。
　（ステップＳ１３）強調部１４０は、音源位置情報１１１に基づいて、目的音方向の音特徴量を強調する。

　（ステップＳ１４）推定部１５０は、複数の音特徴量と音源位置情報１１１とに基づいて、目的音方向を推定する。
　（ステップＳ１５）マスク特徴量抽出部１６０は、推定された目的音方向と複数の音特徴量とに基づいて、マスク特徴量を抽出する。
　（ステップＳ１６）生成部１７０は、強調部１４０によって強調された音特徴量に基づいて、目的音方向強調音信号を生成する。また、生成部１７０は、マスク特徴量に基づいて、目的音方向マスキング音信号を生成する。
　（ステップＳ１７）目的音信号出力部１８０は、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　なお、ステップＳ１４，Ｓ１５は、ステップＳ１３と並行に実行されてもよい。また、ステップＳ１４，Ｓ１５は、ステップＳ１３の前に実行されてもよい。

　次に、学習フェーズを説明する。
＜学習フェーズ＞
　学習フェーズでは、学習済モデル１１２の生成の一例を説明する。
　図６は、実施の形態１の学習装置の機能を示すブロック図である。学習装置２００は、音データ記憶部２１１、インパルス応答記憶部２１２、ノイズ記憶部２１３、インパルス応答適用部２２０、混合部２３０、処理実行部２４０、及び学習部２５０を有する。

　また、音データ記憶部２１１、インパルス応答記憶部２１２、ノイズ記憶部２１３は、学習装置２００が有する揮発性記憶装置又は不揮発性記憶装置によって確保された記憶領域として実現してもよい。

　インパルス応答適用部２２０、混合部２３０、処理実行部２４０、及び学習部２５０の一部又は全部は、学習装置２００が有する処理回路によって実現してもよい。また、インパルス応答適用部２２０、混合部２３０、処理実行部２４０、及び学習部２５０の一部又は全部は、学習装置２００が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。

　音データ記憶部２１１は、目的音信号と妨害音信号とを記憶する。なお、妨害音信号は、妨害音を示す信号である。インパルス応答記憶部２１２は、インパルス応答データを記憶する。ノイズ記憶部２１３は、ノイズ信号を記憶する。なお、ノイズ信号は、ノイズを示す信号である。

　インパルス応答適用部２２０は、音データ記憶部２１１に格納されている１つの目的音信号と、音データ記憶部２１１に格納されている任意の数の妨害音信号とに、目的音の位置と妨害音の位置とに対応するインパルス応答データを畳み込む。

　混合部２３０は、インパルス応答適用部２２０が出力した音信号と、ノイズ記憶部２１３に格納されているノイズ信号とに基づいて、混合音信号を生成する。また、インパルス応答適用部２２０が出力した音信号が、混合音信号として、扱われてもよい。学習装置２００は、情報処理装置１００に混合音信号を送信してもよい。

　処理実行部２４０は、ステップＳ１１～Ｓ１６を実行することにより、目的音方向強調音信号と目的音方向マスキング音信号とを生成する。すなわち、処理実行部２４０は、学習信号を生成する。

　学習部２５０は、学習信号を用いて、学習する。すなわち、学習部２５０は、目的音方向強調音信号と目的音方向マスキング音信号とを用いて、目的音信号を出力するための学習を行う。なお、学習では、ニューラルネットワークのパラメータである入力重み係数が決定される。学習では、非特許文献１に示されるロス関数が用いられてもよい。また、学習では、インパルス応答適用部２２０が出力した音信号とロス関数とを用いて、誤差が算出されてもよい。そして、例えば、学習では、Ａｄａｍなどの最適化手法が用いられ、逆誤差伝播方に基づいて、ニューラルネットワークの各階層の入力重み係数が決定される。
　なお、学習信号は、処理実行部２４０が生成した学習信号でもよいし、情報処理装置１００が生成した学習信号でもよい。

　次に、学習装置２００が実行する処理を、フローチャートを用いて、説明する。
　図７は、実施の形態１の学習装置が実行する処理の例を示すフローチャートである。
　（ステップＳ２１）インパルス応答適用部２２０は、目的音信号と妨害音信号とに、インパルス応答データを畳み込む。
　（ステップＳ２２）混合部２３０は、インパルス応答適用部２２０が出力した音信号と、ノイズ信号とに基づいて、混合音信号を生成する。

　（ステップＳ２３）処理実行部２４０は、ステップＳ１１～Ｓ１６を実行することにより、学習信号を生成する。
　（ステップＳ２４）学習部２５０は、学習信号を用いて、学習する。
　そして、学習装置２００が学習を繰り返すことにより、学習済モデル１１２が、生成される。

　実施の形態１によれば、情報処理装置１００は、学習済モデル１１２を用いることで、目的音信号を出力する。学習済モデル１１２は、目的音方向強調音信号と目的音方向マスキング音信号とに基づいて、目的音信号を出力するための学習により、生成された学習済モデルである。詳細には、学習済モデル１１２は、強調又はマスキングされた目的音成分と、強調又はマスキングされていない目的音成分とを識別することにより、目的音方向と妨害音方向との間の角度が小さい場合でも、目的音信号を出力する。よって、目的音方向と妨害音方向との間の角度が小さい場合でも、情報処理装置１００は、学習済モデル１１２を用いることで、目的音信号を出力することができる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。

　図８は、実施の形態２の情報処理装置の機能を示すブロック図である。情報処理装置１００は、さらに、選択部１９０を有する。
　選択部１９０の一部又は全部は、処理回路によって実現してもよい。また、選択部１９０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。

　選択部１９０は、混合音信号と音源位置情報１１１を用いて、目的音方向のチャネルの音信号を選択する。言い換えれば、選択部１９０は、音源位置情報１１１に基づいて、Ｎ個の音信号の中から目的音方向のチャネルの音信号を選択する。
　ここで、選択された音信号と目的音方向強調音信号と目的音方向マスキング音信号とは、学習信号として、学習装置２００に入力されてもよい。

　目的音信号出力部１８０は、選択された音信号、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　次に、学習済モデル１１２に含まれるＥｎｃｏｄｅｒ１１２ａ、Ｓｅｐａｒａｔｏｒ１１２ｂ、及びＤｅｃｏｄｅｒ１１２ｃの処理を説明する。

　Ｅｎｃｏｄｅｒ１１２ａは、目的音方向強調音信号に基づいて、“Ｍ次元×時間”の目的音方向強調時間周波数表現を推定する。また、Ｅｎｃｏｄｅｒ１１２ａは、目的音方向マスキング音信号に基づいて、“Ｍ次元×時間”の目的音方向マスキング時間周波数表現を推定する。さらに、Ｅｎｃｏｄｅｒ１１２ａは、選択された音信号に基づいて、“Ｍ次元×時間”の混合音時間周波数表現を推定する。例えば、Ｅｎｃｏｄｅｒ１１２ａは、ＳＴＦＴによって推定されるパワースペクトルを、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現として、推定してもよい。また、例えば、Ｅｎｃｏｄｅｒ１１２ａは、１次元畳み込み演算を用いて、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現を推定してもよい。当該推定が行われる場合、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現は、同じ時間周波数表現空間に射影されてもよいし、異なる時間周波数表現空間に射影されてもよい。なお、例えば、当該推定は、非特許文献１に記載されている。

　Ｓｅｐａｒａｔｏｒ１１２ｂは、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現に基づいて、“Ｍ次元×時間”のマスク行列を推定する。また、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現が、Ｓｅｐａｒａｔｏｒ１１２ｂに入力される際、目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現が周波数軸方向に連結されてもよい。これにより、“３Ｍ次元×時間”の表現に変換される。目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現は、時間軸と周波数軸と異なる軸に連結されてもよい。これにより、“Ｍ次元×時間×３”の表現に変換される。目的音方向強調時間周波数表現、目的音方向マスキング時間周波数表現、及び混合音時間周波数表現には、重みを重み付けしてもよい。重み付けられた目的音方向強調時間周波数表現、重み付けられた目的音方向マスキング時間周波数表現、及び重み付けられた混合音時間周波数表現は、足し合わされてもよい。重みは、学習済モデル１１２で推定されてもよい。

　Ｄｅｃｏｄｅｒ１１２ｃの処理は、実施の形態１と同じである。
　このように、目的音信号出力部１８０は、選択された音信号、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図９は、実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。図９の処理は、ステップＳ１１ａ，１７ａが実行される点が図５の処理と異なる。そのため、図９では、ステップＳ１１ａ，１７ａを説明する。そして、ステップＳ１１ａ，１７ａ以外の処理の説明は、省略する。

　（ステップＳ１１ａ）選択部１９０は、混合音信号と音源位置情報１１１を用いて、目的音方向のチャネルの音信号を選択する。
　（ステップＳ１７ａ）目的音信号出力部１８０は、選択された音信号、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。
　なお、ステップＳ１１ａは、ステップＳ１７ａが実行される前に実行されるのであれば、どのタイミングで実行されてもよい。

　ここで、学習済モデル１１２の生成を説明する。学習装置２００は、目的音方向のチャネルの音信号（すなわち、目的音方向の混合音信号）を含む学習信号を用いて、学習する。例えば、当該学習信号は、処理実行部２４０が生成してもよい。

　学習装置２００は、目的音方向強調音信号と目的音方向の混合音信号との差分を学習する。また、学習装置２００は、目的音方向マスキング音信号と、目的音方向の混合音信号との差分を学習する。学習装置２００は、差分が大きい箇所の信号を目的音信号であるということを学習する。このように、学習装置２００が学習することにより、学習済モデル１１２が、生成される。

　実施の形態２によれば、情報処理装置１００は、学習により得られた学習済モデル１１２を用いることで、目的音信号を出力することができる。

実施の形態３．
　次に、実施の形態３を説明する。実施の形態３では、実施の形態１と相違する事項を主に説明する。そして、実施の形態３では、実施の形態１と共通する事項の説明を省略する。
　図１０は、実施の形態３の情報処理装置の機能を示すブロック図である。情報処理装置１００は、さらに、信頼度算出部１９１を有する。
　信頼度算出部１９１の一部又は全部は、処理回路によって実現してもよい。また、信頼度算出部１９１の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。

　信頼度算出部１９１は、予め設定された方法で、マスク特徴量の信頼度Ｆ_ｉを算出する。マスク特徴量の信頼度Ｆ_ｉは、方向マスクの信頼度Ｆ_ｉと呼んでもよい。予め設定された方法は、次の式（３）で表される。ωは、目的音方向の角度範囲を示す。θは、音が発生する方向の角度範囲を示す。

　信頼度Ｆ_ｉは、方向マスクと同じサイズの行列である。なお、信頼度Ｆ_ｉは、学習装置２００に入力されてもよい。
　目的音信号出力部１８０は、信頼度Ｆ_ｉ、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　次に、学習済モデル１１２に含まれるＥｎｃｏｄｅｒ１１２ａ、Ｓｅｐａｒａｔｏｒ１１２ｂ、及びＤｅｃｏｄｅｒ１１２ｃの処理を説明する。
　Ｅｎｃｏｄｅｒ１１２ａは、実施の形態１の処理に加えて、次の処理を行う。Ｅｎｃｏｄｅｒ１１２ａは、信頼度Ｆ_ｉの周波数ビン数Ｆとフレーム数Ｔとを乗算することにより、時間周波数表現ＦＴを算出する。なお、周波数ビン数Ｆは、時間周波数表現の周波数軸方向の要素の数である。フレーム数Ｔは、混合音信号を予め設定された時間で分割することにより得られる数である。

　目的音方向強調時間周波数表現と時間周波数表現ＦＴとが一致する場合、以降の処理では、時間周波数表現ＦＴが、実施の形態２の混合音時間周波数表現として、扱われる。目的音方向強調時間周波数表現と時間周波数表現ＦＴとが一致しない場合、Ｅｎｃｏｄｅｒ１１２ａは、変換行列・変換処理を行う。具体的には、Ｅｎｃｏｄｅｒ１１２ａは、信頼度Ｆ_ｉの周波数軸方向の要素数を、目的音方向強調時間周波数表現の周波数軸方向の要素数に変換する。

　Ｓｅｐａｒａｔｏｒ１１２ｂは、目的音方向強調時間周波数表現と時間周波数表現ＦＴとが一致する場合、実施の形態２のＳｅｐａｒａｔｏｒ１１２ｂと同じ処理を実行する。
　Ｓｅｐａｒａｔｏｒ１１２ｂは、目的音方向強調時間周波数表現と時間周波数表現ＦＴとが一致しない場合、周波数軸方向の要素数が変換された信頼度Ｆ_ｉと目的音方向強調時間周波数表現とを統合する。例えば、Ｓｅｐａｒａｔｏｒ１１２ｂは、非特許文献３が示すＡｔｔｅｎｔｉｏｎ法を用いて、統合を行う。Ｓｅｐａｒａｔｏｒ１１２ｂは、統合することにより得られた目的音方向強調時間周波数表現と目的音方向マスキング時間周波数表現とに基づいて、“Ｍ次元×時間”のマスク行列を推定する。

　Ｄｅｃｏｄｅｒ１１２ｃの処理は、実施の形態１と同じである。
　このように、目的音信号出力部１８０は、信頼度Ｆ_ｉ、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図１１は、実施の形態３の情報処理装置が実行する処理の例を示すフローチャートである。図１１の処理は、ステップＳ１５ｂ，１７ｂが実行される点が図５の処理と異なる。そのため、図１１では、ステップＳ１５ｂ，１７ｂを説明する。そして、ステップＳ１５ｂ，１７ｂ以外の処理の説明は、省略する。

　（ステップＳ１５ｂ）信頼度算出部１９１は、マスク特徴量の信頼度Ｆ_ｉを算出する。
　（ステップＳ１７ｂ）目的音信号出力部１８０は、信頼度Ｆ_ｉ、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　ここで、学習済モデル１１２の生成を説明する。学習装置２００は、学習を行う場合、信頼度Ｆ_ｉを用いて学習する。学習装置２００は、情報処理装置１００から取得した信頼度Ｆ_ｉを用いて学習してもよい。学習装置２００は、学習装置２００が有する揮発性記憶装置又は不揮発性記憶装置に格納されている信頼度Ｆ_ｉを用いて学習してもよい。学習装置２００は、信頼度Ｆ_ｉを用いて、目的音方向マスキング音信号をどのくらい考慮するかを決定する。学習装置２００が当該決定を行うための学習を行うことにより、学習済モデル１１２が、生成される。

　実施の形態３によれば、学習済モデル１１２には、目的音方向強調音信号と目的音方向マスキング音信号が入力される。目的音方向マスキング音信号は、マスク特徴量に基づいて、生成される。学習済モデル１１２は、マスク特徴量の信頼度Ｆ_ｉを用いて、目的音方向マスキング音信号をどのくらい考慮するかを決定する。学習済モデル１１２は、当該決定に基づいて、目的音信号を出力する。このように、情報処理装置１００は、信頼度Ｆ_ｉを学習済モデル１１２に入力することで、より適切な目的音信号を出力できる。

実施の形態４．
　次に、実施の形態４を説明する。実施の形態４では、実施の形態１と相違する事項を主に説明する。そして、実施の形態４では、実施の形態１と共通する事項の説明を省略する。
　図１２は、実施の形態４の情報処理装置の機能を示すブロック図である。情報処理装置１００は、さらに、ノイズ区間検出部１９２を有する。

　ノイズ区間検出部１９２の一部又は全部は、処理回路によって実現してもよい。また、ノイズ区間検出部１９２の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。

　ノイズ区間検出部１９２は、目的音方向強調音信号に基づいて、ノイズ区間を検出する。例えば、ノイズ区間検出部１９２は、ノイズ区間を検出する場合、特許文献２に記載の方法を用いる。例えば、ノイズ区間検出部１９２は、目的音方向強調音信号に基づいて音声区間を検出した後、音声区間の始端時刻、及び音声区間の終端時刻を補正することで、音声区間を特定する。ノイズ区間検出部１９２は、目的音方向強調音信号を示す区間の中から、特定された音声区間を除くことにより、ノイズ区間を検出する。ここで、検出されたノイズ区間は、学習装置２００に入力されてもよい。

　目的音信号出力部１８０は、検出されたノイズ区間、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　Ｅｎｃｏｄｅｒ１１２ａは、実施の形態１の処理に加えて、次の処理を行う。Ｅｎｃｏｄｅｒ１１２ａは、目的音方向強調音信号のノイズ区間に対応する信号に基づいて、“Ｍ次元×時間”の非目的音時間周波数表現を推定する。例えば、Ｅｎｃｏｄｅｒ１１２ａは、ＳＴＦＴによって推定されるパワースペクトルを、非目的音時間周波数表現として、推定してもよい。また、例えば、Ｅｎｃｏｄｅｒ１１２ａは、１次元畳み込み演算を用いて、非目的音時間周波数表現を推定してもよい。当該推定が行われる場合、非目的音時間周波数表現は、同じ時間周波数表現空間に射影されてもよいし、異なる時間周波数表現空間に射影されてもよい。なお、例えば、当該推定は、非特許文献１に記載されている。

　Ｓｅｐａｒａｔｏｒ１１２ｂは、非目的音時間周波数表現と目的音方向強調時間周波数表現とを統合する。例えば、Ｓｅｐａｒａｔｏｒ１１２ｂは、非特許文献３が示すＡｔｔｅｎｔｉｏｎ法を用いて、統合を行う。Ｓｅｐａｒａｔｏｒ１１２ｂは、統合することにより得られた目的音方向強調時間周波数表現と目的音方向マスキング時間周波数表現とに基づいて、“Ｍ次元×時間”のマスク行列を推定する。

　なお、例えば、Ｓｅｐａｒａｔｏｒ１１２ｂは、非目的音時間周波数表現に基づいて、ノイズの傾向を推定することができる。
　Ｄｅｃｏｄｅｒ１１２ｃの処理は、実施の形態１と同じである。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図１３は、実施の形態４の情報処理装置が実行する処理の例を示すフローチャートである。図１３の処理は、ステップＳ１６ｃ，１７ｃが実行される点が図５の処理と異なる。そのため、図１３では、ステップＳ１６ｃ，１７ｃを説明する。そして、ステップＳ１６ｃ，１７ｃ以外の処理の説明は、省略する。

　（ステップＳ１６ｃ）ノイズ区間検出部１９２は、目的音方向強調音信号に基づいて、ノイズを示す区間であるノイズ区間を検出する。
　（ステップＳ１７ｃ）目的音信号出力部１８０は、ノイズ区間、目的音方向強調音信号、目的音方向マスキング音信号、及び学習済モデル１１２を用いて、目的音信号を出力する。

　ここで、学習済モデル１１２の生成を説明する。学習装置２００は、学習を行う場合、ノイズ区間を用いて学習する。学習装置２００は、情報処理装置１００から取得したノイズ区間を用いて学習してもよい。学習装置２００は、処理実行部２４０が検出したノイズ区間を用いて学習してもよい。学習装置２００は、ノイズ区間に基づいて、ノイズの傾向を学習する。学習装置２００は、ノイズの傾向を考慮して、目的音方向強調音信号と目的音方向マスキング音信号に基づいて、目的音信号を出力するための学習を行う。このように、学習装置２００が学習を行うことで、学習済モデル１１２が、生成される。

　実施の形態４によれば、学習済モデル１１２には、ノイズ区間が入力される。学習済モデル１１２は、ノイズ区間に基づいて、目的音方向強調音信号と目的音方向マスキング音信号とに含まれているノイズの傾向を推定する。学習済モデル１１２は、ノイズの傾向を考慮して、目的音方向強調音信号と目的音方向マスキング音信号に基づいて、目的音信号を出力する。よって、情報処理装置１００は、ノイズの傾向を考慮して目的音信号を出力するので、より適切な目的音信号を出力できる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１００　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１１　音源位置情報、　１１２　学習済モデル、　１２０　取得部、　１３０　音特徴量抽出部、　１４０　強調部、　１５０　推定部、　１６０　マスク特徴量抽出部、　１７０　生成部、　１８０　目的音信号出力部、　１９０　選択部、　１９１　信頼度算出部、　１９２　ノイズ区間検出部、　２００　学習装置、　２１１　音データ記憶部、　２１２　インパルス応答記憶部、　２１３　ノイズ記憶部、　２２０　インパルス応答適用部、　２３０　混合部、　２４０　処理実行部、　２５０　学習部。

Claims

　目的音の音源の位置情報である音源位置情報、前記目的音と妨害音とを含む混合音を示す信号である混合音信号、及び学習済モデルを取得する取得部と、
　前記混合音信号に基づいて、複数の音特徴量を抽出する音特徴量抽出部と、
　前記音源位置情報に基づいて、前記複数の音特徴量のうち、前記目的音の方向である目的音方向の音特徴量を強調する強調部と、
　前記複数の音特徴量と前記音源位置情報とに基づいて、前記目的音方向を推定する推定部と、
　推定された前記目的音方向と前記複数の音特徴量とに基づいて、前記目的音方向の特徴量がマスクされた状態の特徴量であるマスク特徴量を抽出するマスク特徴量抽出部と、
　強調された音特徴量に基づいて、前記目的音方向が強調された音信号である目的音方向強調音信号を生成し、前記マスク特徴量に基づいて、前記目的音方向がマスキングされた音信号である目的音方向マスキング音信号を生成する生成部と、
　前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音を示す信号である目的音信号を出力する目的音信号出力部と、
　を有する情報処理装置。
　前記混合音信号と前記音源位置情報を用いて、前記目的音方向のチャネルの音信号を選択する選択部をさらに有し、
　前記目的音信号出力部は、選択された音信号、前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音信号を出力する、
　請求項１に記載の情報処理装置。
　予め設定された方法で、前記マスク特徴量の信頼度を算出する信頼度算出部をさらに有し、
　前記目的音信号出力部は、前記信頼度、前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音信号を出力する、
　請求項１又は２に記載の情報処理装置。
　前記混合音は、ノイズを含む、
　請求項１から３のいずれか１項に記載の情報処理装置。
　前記目的音方向強調音信号に基づいて、前記ノイズを示す区間であるノイズ区間を検出するノイズ区間検出部をさらに有し、
　前記目的音信号出力部は、前記ノイズ区間、前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音信号を出力する、
　請求項４に記載の情報処理装置。
　情報処理装置が、
　目的音の音源の位置情報である音源位置情報、前記目的音と妨害音とを含む混合音を示す信号である混合音信号、及び学習済モデルを取得し、
　前記混合音信号に基づいて、複数の音特徴量を抽出し、
　前記音源位置情報に基づいて、前記複数の音特徴量のうち、前記目的音の方向である目的音方向の音特徴量を強調し、
　前記複数の音特徴量と前記音源位置情報とに基づいて、前記目的音方向を推定し、
　推定された前記目的音方向と前記複数の音特徴量とに基づいて、前記目的音方向の特徴量がマスクされた状態の特徴量であるマスク特徴量を抽出し、
　強調された音特徴量に基づいて、前記目的音方向が強調された音信号である目的音方向強調音信号を生成し、前記マスク特徴量に基づいて、前記目的音方向がマスキングされた音信号である目的音方向マスキング音信号を生成し、
　前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音を示す信号である目的音信号を出力する、
　出力方法。
　情報処理装置に、
　目的音の音源の位置情報である音源位置情報、前記目的音と妨害音とを含む混合音を示す信号である混合音信号、及び学習済モデルを取得し、
　前記混合音信号に基づいて、複数の音特徴量を抽出し、
　前記音源位置情報に基づいて、前記複数の音特徴量のうち、前記目的音の方向である目的音方向の音特徴量を強調し、
　前記複数の音特徴量と前記音源位置情報とに基づいて、前記目的音方向を推定し、
　推定された前記目的音方向と前記複数の音特徴量とに基づいて、前記目的音方向の特徴量がマスクされた状態の特徴量であるマスク特徴量を抽出し、
　強調された音特徴量に基づいて、前記目的音方向が強調された音信号である目的音方向強調音信号を生成し、前記マスク特徴量に基づいて、前記目的音方向がマスキングされた音信号である目的音方向マスキング音信号を生成し、
　前記目的音方向強調音信号、前記目的音方向マスキング音信号、及び前記学習済モデルを用いて、前記目的音を示す信号である目的音信号を出力する、
　処理を実行させる出力プログラム。