WO2016185757A1

WO2016185757A1 - オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム

Info

Publication number: WO2016185757A1
Application number: PCT/JP2016/056204
Authority: WO
Inventors: 真音菅野
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2015-05-18
Filing date: 2016-03-01
Publication date: 2016-11-24
Also published as: US20180075833A1; US10388264B2; JP6447357B2; JP2016218160A

Abstract

周波数領域変換部（１１）は、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号Ｘ（ｆ,τ）を生成する。ノイズ推定信号生成部（１２）は、第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号Ｙ（ｆ,τ）を生成する。ピーク範囲検出部（１５）は、信号Ｘ（ｆ,τ）のピーク範囲を求める。記憶部（１３）は信号Ｙ（ｆ,τ）を記憶する。信号比較部（１４）は、記憶部（１３）に記憶されている信号Ｙ（ｆ,τ）に基づいて、第二の周波数分割単位毎に代表値を算出し、代表値と信号Ｙ（ｆ,τ）とを第二の周波数分割単位毎に比較する。マスク生成部（１６）は、ピーク範囲と、信号比較部（１４）による比較結果とに基づいて、第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクＭ（ｆ，τ）を生成する。マスク適用部（１７）は、信号Ｘ（ｆ,τ）にマスクＭ（ｆ，τ）を乗算する。

Description

オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム

　本開示は、ノイズを抑圧するオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムに関する。

　オーディオ信号の伝送品質や認識精度の向上を目的として、オーディオ信号に混入したノイズ信号を抑圧する様々な技術が提案されている。従前のノイズ抑圧技術の一例としては、スペクトルサブトラクション（ＳＳ）法やコムフィルタ（櫛形フィルタ）法が挙げられる。

　しかし、スペクトルサブトラクション法では、音声情報を用いずにノイズ情報のみでノイズを抑圧するため、音声信号の劣化や、ミュージカルノイズと呼ばれるトーン性ノイズが生じる問題があった。また、コムフィルタ法では、ピッチ周波数に誤差が生じると、音声信号が抑圧されたり、ノイズ信号が強調されたりする問題があった。

　特許文献１には、スペクトルサブトラクション法やコムフィルタ法の課題を解決する音声処理装置が記載されている。

　まず、特許文献１に記載の音声処理装置は、入力信号をフレーム毎に周波数分割してスペクトルを算出し、複数フレームのスペクトルに基づいて、ノイズスペクトルを推定する。そして、特許文献１に記載の音声処理装置は、推定したノイズスペクトルと、入力信号のスペクトルとに基づいて、入力信号の周波数分割単位毎に、音声成分であるか、またはノイズ成分であるかを識別する。

　次に、特許文献１に記載の音声処理装置は、音声成分であると識別された周波数分割単位を強調する係数と、ノイズ成分であると識別された周波数分割単位を抑圧する係数とをそれぞれ生成する。そして、特許文献１に記載の音声処理装置は、これらの周波数分割単位毎の係数を入力信号に乗算し、ノイズ抑圧効果を得る。

特開２００６－１２６８５９号公報

　しかしながら、特許文献１に記載の音声処理装置は、ノイズスペクトル推定精度、または、音声成分とノイズ成分との識別精度のいずれかにおいて、十分な精度が得られない場合があった。なぜならば、ノイズスペクトル推定と、周波数分割単位毎の音声成分とノイズ成分との識別とを、同じ周波数分割幅のスペクトルに基づいて行うためである。

　ノイズスペクトル推定は、突発的なノイズ成分の影響を抑えるため、一定程度の周波数分割幅（例えば数百～数千Ｈｚ程度）のスペクトルに基づいて行うことが望ましい。一方、音声成分とノイズ成分との識別は、正確な音声ピッチ検出を要することから、ノイズスペクトル推定よりも狭い周波数分割幅（例えば数十Ｈｚ程度）のスペクトルに基づいて行うことが望ましい。

　従って、特許文献１に記載の音声処理装置においては、音声が劣化することがあり、また、ノイズ抑圧が不十分であった。

　実施形態は、音声の劣化が少なく、かつ、ノイズを十分に抑圧できるオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムを提供することを目的とする。

　実施の形態の第１の態様によれば、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換部と、前前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成部と、前記第一の信号のピーク範囲を求めるピーク範囲検出部と、前記第二の信号を記憶する記憶部と、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較部と、前記ピーク範囲と、前記信号比較部による比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成部と、前記第一の信号に、前記マスク生成部によって生成されたマスクを乗算するマスク適用部とを備えるオーディオ信号処理装置が提供される。

　実施の形態の第２の態様によれば、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成し、前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成し、前記第一の信号のピーク範囲を求め、前記第二の信号を記憶部に記憶し、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較し、前記ピーク範囲と、前記代表値と前記第二の信号との比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成し、前記第一の信号に、生成されたマスクを乗算するオーディオ信号処理方法が提供される。

　実施の形態の第２の態様によれば、コンピュータに、入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、前記第二の信号を記憶部に記憶させる記憶ステップと、前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、前記ピーク範囲と、前記信号比較ステップで得られた比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップとを実行させるオーディオ信号処理プログラムが提供される。

　実施形態のオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムによれば、音声の劣化が少なく、かつ、ノイズを十分に抑圧できる。

図１は、実施の形態１のオーディオ信号処理装置を示すブロック図である。図２は、周波数領域の信号Ｘ（ｆ,τ）とノイズ推定信号Ｙ（ｆ,τ）との関係を示す模式図である。図３は、周波数領域の信号Ｘ（ｆ,τ）のスペクトルを模式的に示す周波数分布図である。図４は、実施の形態１のオーディオ信号処理装置における処理を示し、オーディオ信号処理方法、及びオーディオ信号処理プログラムがコンピュータに実行させる手順を示すフローチャートである。図５は、実施の形態２のオーディオ信号処理装置を示すブロック図である。図６は、マスク平滑化のための二次元フィルタの一例を示す図である。

＜実施の形態１＞
　以下、図面を参照して実施の形態１について説明する。図１に実施の形態１のオーディオ信号処理装置１のブロック図を示す。実施の形態１のオーディオ信号処理装置１は、信号入力部１０、周波数領域変換部１１、ノイズ推定信号生成部１２、記憶部１３、信号比較部１４、ピーク範囲検出部１５、マスク生成部１６、マスク適用部１７を有する。

　信号入力部１０、記憶部１３はハードウェアにより構成される。また、周波数領域変換部１１、ノイズ推定信号生成部１２、信号比較部１４、ピーク範囲検出部１５、マスク生成部１６、マスク適用部１７は、ＣＰＵやＤＳＰ等の演算部により実行されるオーディオ信号処理プログラムにより実現される。この場合、オーディオ信号処理プログラムは、様々なコンピュータ可読媒体に格納され、コンピュータに供給される。プログラムにより実現される各構成要素はハードウェアによって構成されてもよい。

　信号入力部１０は、図示しない音声取得部からオーディオ入力信号を取得する。そして、信号入力部１０は、入力されたオーディオ入力信号をデジタル信号ｘ（ｔ）に変換する。ｔは時刻を示す。なお、入力されるオーディオ入力信号が既にデジタル値となっている場合、デジタル信号に変換するための構成は必要ない。

　周波数領域変換部１１は、信号入力部１０から入力された信号ｘ（ｔ）を周波数領域の信号Ｘ（ｆ,τ）に変換する。ｆは周波数、τはフレーム番号を示す。信号Ｘ（ｆ,τ）は第一の信号である。周波数領域変換部１１は、予め定めたフレーム長の窓関数により信号ｘ（ｔ）を分割し、分割したフレーム毎にＦＦＴ等の周波数領域への変換処理を施して周波数領域の信号Ｘ（ｆ,τ）を生成する。周波数領域変換部１１は、生成した信号Ｘ（ｆ,τ）を、ノイズ推定信号生成部１２、ピーク範囲検出部１５、及びマスク適用部１７へ供給する。

　ノイズ推定信号生成部１２は、周波数領域変換部１１で生成した信号Ｘ（ｆ,τ）を所定の周波数分割単位毎にグループ化することによって、信号Ｘ（ｆ,τ）の周波数分割単位よりも広い周波数分割幅で分割したノイズ推定信号Ｙ（ｆ,τ）を生成する。具体的には、ノイズ推定信号生成部１２は、信号Ｘ（ｆ,τ）から振幅値ａ（ｆ，τ）またはパワー値Ｓ（ｆ，τ）を算出し、所定の周波数範囲の信号毎に、これらの値の和や平均値を求める。ノイズ推定信号Ｙ（ｆ,τ）は第二の信号である。

　図２は、Ｘ（ｆ,τ）とＹ（ｆ,τ）との関係を模式的に示している。各ブロックは周波数分割単位毎の信号成分を示している。ｎはＸ（ｆ,τ）の周波数分割数、ｍはＹ（ｆ,τ）の周波数分割数である。

　図２に示すＹ（ｆ,τ）の周波数分割単位ｆ’１は、図２に示すＸ（ｆ,τ）の周波数分割単位ｆ１～ｆ４に基づいて生成したものである。同様にして、周波数分割単位ｆ’２、ｆ’３、…ｆ’ｍ－１、ｆ’ｍはそれぞれ周波数分割単位ｆ５～ｆ８、ｆ９～ｆ１２、…ｆｎ－１５～ｆｎ－８、ｆｎ－７～ｆｎに基づいて生成したものである。後述するように、周波数分割幅は、周波数帯域によって異なるようにしてもよい。図２において、例えば、周波数分割単位ｆ’１と周波数分割単位ｆ’ｍとは異なる周波数分割幅としている。

　ノイズ推定信号生成部１２は、生成したノイズ推定信号Ｙ（ｆ,τ）を、記憶部１３及び信号比較部１４へ供給する。周波数領域変換部１１が、信号ｘ（ｔ）からノイズ推定信号Ｙ（ｆ,τ）を直接生成してもよい。この場合、周波数領域変換部１１がノイズ推定信号生成部としても動作し、周波数領域変換部１１とは別体のノイズ推定信号生成部１２は不要となる。

　ここで、ノイズ推定信号生成部１２が、Ｘ（ｆ,τ）よりも広い周波数分割幅でノイズ推定信号Ｙ（ｆ,τ）を生成する理由について説明する。突発的なノイズ信号、特にトーン性のノイズ信号が、信号入力部１０へ入力された場合、数十Ｈｚ程度の周波数分割幅では、数百～数千Ｈｚ程度の周波数分割幅と比較して、周波数分割単位におけるノイズ信号成分が占める割合が大きくなる。そうすると、後述する信号比較部１４の判定処理において、ノイズと判定すべきところを音声と誤判定する確率が高くなる。

　一方、後述するピーク範囲検出部１５では、音声を構成する各周波数成分が正確にピークとして表れるようにする必要がある。従って、周波数領域変換部１１は、数十Ｈｚ程度の周波数分割幅で信号Ｘ（ｆ,τ）を生成するのが望ましい。

　このように、信号比較部１４における処理と、ピーク範囲検出部１５における処理とは、望ましい周波数分割幅が異なる。従って、周波数領域変換部１１が信号Ｘ（ｆ,τ）を生成する際と比較して広い周波数分割幅で、ノイズ推定信号生成部１２はノイズ推定信号Ｙ（ｆ,τ）を生成する。

　ノイズ推定信号生成部１２は、各周波数帯域において以下の周波数分割幅でノイズ推定信号Ｙ（ｆ,τ）を生成することが望ましい。１ｋＨｚ未満程度の周波数領域では１００Ｈｚ～３００Ｈｚ程度、１ｋＨｚ以上２ｋＨｚ未満程度の周波数領域では３００Ｈｚ～５００Ｈｚ程度、２ｋＨｚ以上の周波数領域では１ｋＨｚ～２ｋＨｚ程度の各周波数分割幅である。

　記憶部１３は、ノイズ推定信号生成部１２で生成したノイズ推定信号Ｙ（ｆ,τ）を記憶する。具体的には、記憶部１３は、後述する信号比較部１４の判定において所定の条件を満たさずノイズと判定した周波数分割単位を記憶する。一方、記憶部１３は、所定の条件を満たし、音声と判定した周波数分割単位は記憶しない。記憶部１３が記憶する信号の時間長は、５０～２００ｍｓ程度であることが望ましい。

　なお、記憶部１３は、全ての周波数分割単位と、信号比較部１４の判定結果とを記憶し、信号比較部１４は、ノイズと判定した周波数分割単位に基づいて、後述する代表値Ｖ（ｆ）を算出してもよい。

　信号比較部１４は、記憶部１３に記憶されているノイズ推定信号に基づいて、周波数分割単位毎に、平均値や中央値、最頻値等の代表値Ｖ（ｆ）を算出する。ノイズ推定信号Ｙ（ｆ,τ）は、最新のフレームのノイズ推定信号を示す。同様にして、Ｙ（ｆ,τ－１）は、最新のフレームより１フレーム過去のフレームのノイズ推定信号を示し、Ｙ（ｆ,τ－２）は、最新のフレームより２フレーム過去のフレームのノイズ推定信号を示す。信号比較部１４は、例えば以下の式（１）を用いて、３フレームを用いた平均値を算出する。
　Ｖ（ｆ）＝（Ｙ（ｆ,τ）＋Ｙ（ｆ,τ－１）＋Ｙ（ｆ,τ－２））／３　…（１）

　信号比較部１４は、式（１）のように、各フレームの信号を等価に扱う単純平均を代表値Ｖ（ｆ）として算出してもよい。また、信号比較部１４は、以下の式（２）のように、現在に近いフレームを重視した重み付けをして代表値Ｖ（ｆ）を算出してもよい。
　Ｖ（ｆ）＝０．５×Ｙ（ｆ,τ）＋０．３×Ｙ（ｆ,τ－１）＋０．２×Ｙ（ｆ,τ－２）　…（２）

　ここで、記憶部１３は、過去のノイズ推定信号を記憶するのではなく、信号比較部１４が算出した代表値Ｖ（ｆ）を記憶してもよい。この場合、信号比較部１４は、式（３）を用いて新たな代表値Ｖ（ｆ）を算出し、記憶部１３に記憶する。ここでαは、０＜α＜１を満たす値である。
　Ｖ（ｆ）＝α×Ｖ（ｆ）＋（１－α）×Ｙ（ｆ,τ）　…（３）

　次に、信号比較部１４は、算出した代表値Ｖ（ｆ）とノイズ推定信号Ｙ（ｆ,τ）とを比較し、所定の条件を満たしているか否かを判定する。具体的には、信号比較部１４は、代表値Ｖ（ｆ）とノイズ推定信号Ｙ（ｆ,τ）との差や比などの比較値を求め、比較値が所定の範囲に属するか否かを判定する。

　上記の通り、信号比較部１４は、過去のノイズ推定信号Ｙ（ｆ,τ）のうちノイズと判定した周波数分割単位に基づいて、代表値Ｖ（ｆ）を算出する。従って、代表値Ｖ（ｆ）との比較により突出した値を示すノイズ推定信号Ｙ（ｆ,τ）には、音声信号の周波数成分が含まれている確率が高い。

　ここで、低周波数領域と高周波数領域とでは、ノイズの振幅値が異なるため、代表値Ｖ（ｆ）とノイズ推定信号Ｙ（ｆ,τ）との比較に用いる所定の条件は、周波数帯域毎に設定することが望ましい。従って、Ｙ（ｆ,τ）／Ｖ（ｆ）の比を用いて比較する場合、１ｋＨｚ未満の周波数帯域では２～３倍以上となる範囲が、１ｋＨｚ以上の周波数帯域では１～２倍以上となる範囲が、それぞれ望ましい所定の条件となる。

　比較判定処理終了後、ピーク範囲検出部１５は、信号Ｘ（ｆ,τ）のスペクトルを用いてピーク周波数範囲を求める。

　図３（ａ）は、音声を含む信号Ｘ（ｆ,τ）のスペクトルを模式的に示す周波数分布図である。音声信号の周波数成分の振幅値は、その他の周波数成分よりも大きな振幅値を示す。従って、信号Ｘ（ｆ,τ）のピーク周波数範囲を検出することで、音声信号の周波数成分が求められる。図３（ｂ）の矢印区間の周波数範囲は、ピーク周波数範囲を示す。

　次に、ピーク範囲検出部１５が、ピーク周波数範囲を検出する具体例を示す。まず、ピーク範囲検出部１５は、周波数領域変換部１１で生成した周波数領域の信号Ｘ（ｆ,τ）について、周波数軸方向における微分値を算出する。微分値が所定の傾きを示す範囲を算出することで、上に凸となる範囲であるピーク周波数範囲が求められる。

　また、ピーク範囲検出部１５は、スペクトルにローパスフィルタを適用して平滑化し、元のスペクトルと平滑化したスペクトルとの差または比が所定の範囲内となる周波数範囲を算出して、ピーク周波数範囲を求めてもよい。図３（ｃ）に示す周波数分布図において、破線は信号Ｘ（ｆ,τ）の元のスペクトルを模式的に示し、実線は平滑化したスペクトルを模式的に示している。この例では、実線と破線とが交わる点を境界とし、破線の値が実線の値より大きい範囲をピーク周波数として求めることができる。

　ここで、低周波数領域と高周波数領域とでは、ピークの尖度が異なるため、ピーク範囲検出部１５は、一定の周波数領域毎に判定方法を変更してもよい。例えば、微分値を用いる場合は、周波数領域毎に、傾きの範囲を変更すればよい。また、平滑化スペクトルと比較する場合は、周波数領域毎に平滑化の度合いを変更したり、平滑化スペクトルを並行移動したりすればよい。このように、ピーク周波数範囲の算出は、上記の方法に限らず、他の方法を採用してもよい。

　マスク生成部１６は、信号比較部１４による判定結果（比較結果）と、ピーク範囲検出部１５で検出したピーク周波数範囲とに基づいて、信号Ｘ（ｆ,τ）の各周波数成分を抑圧または強調するマスクＭ（ｆ，τ）を生成する。

　具体的には、マスク生成部１６は、信号比較部１４において音声と判定し、かつ、ピーク範囲検出部１５においてピーク範囲として検出した周波数成分を強調する周波数成分とし、他の周波数成分は抑圧する周波数成分とするマスクＭ（ｆ，τ）を生成する。

　ここで、各周波数成分における強調と抑圧の度合いは、代表値Ｖ（ｆ）から動的に決定する方法と、代表値Ｖ（ｆ）に応じた強調と抑圧の値を事前に決めておく方法とがある。前者の場合、マスク生成部１６は、ノイズがない状態のスペクトルと、代表値Ｖ（ｆ）とを比較して、ノイズがない状態のスペクトル相当に抑圧する抑圧係数を算出すればよい。後者の場合、マスク生成部１６は、抑圧係数のテーブルを事前に定めておき、代表値Ｖ（ｆ）に応じた抑圧係数をテーブルから選択すればよい。

　マスク適用部１７は、マスク生成部１６で生成したマスクＭ（ｆ，τ）を、信号Ｘ（ｆ,τ）に乗算する。マスクＭ（ｆ，τ）を信号Ｘ（ｆ,τ）に乗算することで、信号Ｘ（ｆ,τ）に含まれていたノイズの周波数成分は抑圧され、音声の周波数成分は強調される。マスク適用部１７は、抑圧または強調をした信号Ｘ（ｆ,τ）を出力する。

　次に、図４を用いて実施の形態１のオーディオ信号処理装置１の動作について説明する。以下に説明する動作は、オーディオ信号処理方法やオーディオ信号処理プログラムで実行される手順についても同様である。

　オーディオ信号の処理が開始されると、周波数領域変換部１１は、ステップＳ１０にて、信号入力部１０から入力される信号ｘ（ｔ）を予め定めたフレーム長の窓関数により分割する。

　次に周波数領域変換部１１は、ステップＳ１１にて、分割したフレーム毎にＦＦＴ等の周波数領域への変換処理を施して周波数領域の信号Ｘ（ｆ,τ）を生成する。周波数領域変換部１１は、生成した信号Ｘ（ｆ,τ）をノイズ推定信号生成部１２、ピーク範囲検出部１５、及びマスク適用部１７へ供給する。

　ノイズ推定信号生成部１２は、ステップＳ１２にて、信号Ｘ（ｆ,τ）からノイズ推定信号Ｙ（ｆ,τ）を生成する。

　信号比較部１４は、ステップＳ１３にて、記憶部１３に記憶されているノイズ推定信号に基づいて、周波数分割単位毎に代表値Ｖ（ｆ）を算出する。

　信号比較部１４は、ステップＳ１４にて、所定の周波数範囲の全ての周波数分割単位について、ステップＳ１５からステップＳ１７までの各処理を完了したか否か判定する。完了した場合（ステップＳ１４：ＹＥＳ）、信号比較部１４は、処理をステップＳ１８に移行させる。完了していない場合（ステップＳ１４：ＮＯ）、信号比較部１４は、処理をステップＳ１５に移行させる。

　信号比較部１４は、ステップＳ１５にて、代表値Ｖ（ｆ）とノイズ推定信号Ｙ（ｆ,τ）との差や比などの比較値を算出する。

　信号比較部１４は、ステップＳ１６にて、比較値が所定の条件を満たしているか否かを判定する。比較値が所定の条件を満たしている場合（ステップＳ１６：ＹＥＳ）、信号比較部１４は、処理をステップＳ１４に戻す。比較値が所定の条件を満たしていない場合（ステップＳ１６：ＮＯ）、信号比較部１４は、処理をステップＳ１７に移行させる。

　記憶部１３は、ステップＳ１７にて、ノイズ推定信号Ｙ（ｆ,τ）を記憶する。

　ピーク範囲検出部１５は、ステップＳ１８にて、信号Ｘ（ｆ,τ）のスペクトルを用いてピーク周波数範囲を求める。

　マスク生成部１６は、ステップＳ１９にて、信号比較部１４の結果と、ピーク範囲検出部１５で検出したピーク周波数範囲とに基づいて、信号Ｘ（ｆ,τ）の各周波数成分を抑圧または強調するマスクＭ（ｆ，τ）を生成する。

　マスク適用部１７は、ステップＳ２０にて、マスク生成部１６で生成したマスクＭ（ｆ，τ）を、信号Ｘ（ｆ,τ）に乗算する。以上でオーディオ信号の処理が終了する。

　以上の処理により、各周波数成分における音声またはノイズの判定を精度良く行うことができるため、音声の劣化が少なく、かつ、ノイズを十分に抑圧できる。

＜実施の形態２＞
　以下、図面を参照して実施の形態２について説明する。図５に実施の形態２のオーディオ信号処理装置２のブロック図を示す。実施の形態２のオーディオ信号処理装置２は、実施の形態１のオーディオ信号処理装置１の構成に加えて、マスク記憶部２０及びマスク平滑化部２１を有する。従って、共通する構成については説明を省略する。

　マスク記憶部２０は、マスク生成部１６で生成したマスクＭ（ｆ，τ）を所定のフレーム数だけ記憶する。実施の形態２においては、マスク記憶部２０は、１００ｍｓ程度のフレーム数のマスクを記憶しておくことが望ましい。マスク記憶部２０は、所定フレーム数を超えた過去のマスクは破棄し、順次新たなマスクを記憶する。

　マスク平滑化部２１は、マスク記憶部２０に記憶されたマスクを用いて、マスクＭ（ｆ，τ）の平滑化処理を行う。具体的には、マスク平滑化部２１は、二次元ガウシアンフィルタ等の平滑化フィルタを、時系列に並べたマスクに畳み込むことでマスクＭ（ｆ，τ）を平滑化して平滑化マスクを生成する。マスク適用部１７は、信号Ｘ（ｆ,τ）に平滑化マスクを乗算する。

　図６に、平滑化フィルタの一例を示す。図６に示す平滑化フィルタは、過去のフレームほど係数が小さく、かつ、平滑化する周波数成分に近接する周波数成分ほど係数が大きくなるような構成としている。

　また、リアルタイム処理において、時系列で現在より後となる係数を畳み込むことはできないため、図６に示す平滑化フィルタは、現在のフレームより後のフレームにおける係数は全て０としている。

　以上の処理により、時間軸方向及び周波数軸方向において滑らかに連続した係数のマスクを用いて強調または抑圧をするため、ノイズ抑圧と自然な音声とを両立する処理が実現できる。

　本発明のオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラムは、音声成分を含むオーディオ信号を取り扱う任意の電子機器に利用できる。

Claims

　入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換部と、
　前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成部と、
　前記第一の信号のピーク範囲を求めるピーク範囲検出部と、
　前記第二の信号を記憶する記憶部と、
　前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較部と、
　前記ピーク範囲と、前記信号比較部による比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成部と、
　前記第一の信号に、前記マスク生成部によって生成されたマスクを乗算するマスク適用部と、
　を備えるオーディオ信号処理装置。
　前記ノイズ推定信号生成部は、前記第一の信号を所定の周波数分割単位毎にグループ化し、前記第二の信号を生成する請求項１に記載のオーディオ信号処理装置。
　前記マスクを記憶するマスク記憶部と、
　前記マスク記憶部に記憶された複数のマスクに基づいて、予め定めた平滑化フィルタを用いて平滑化マスクを生成するマスク平滑化部と、
　をさらに備え、
　前記マスク適用部は、前記第一の信号に、前記マスクとして前記平滑化マスクを乗算する請求項１または２に記載のオーディオ信号処理装置。
　入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成し、
　前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成し、
　前記第一の信号のピーク範囲を求め、
　前記第二の信号を記憶部に記憶し、
　前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較し、
　前記ピーク範囲と、前記代表値と前記第二の信号との比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成し、
　前記第一の信号に、生成されたマスクを乗算する、
　オーディオ信号処理方法。
　コンピュータに、
　入力信号を所定のフレーム毎に分割し、第一の周波数分割単位毎の信号である第一の信号を生成する周波数領域変換ステップと、
　前記第一の周波数分割単位よりも広い第二の周波数分割単位毎の信号である第二の信号を生成するノイズ推定信号生成ステップと、
　前記第一の信号のピーク範囲を求めるピーク範囲検出ステップと、
　前記第二の信号を記憶部に記憶させる記憶ステップと、
　前記記憶部に記憶されている第二の信号に基づいて、前記第二の周波数分割単位毎に代表値を算出し、前記代表値と前記第二の信号とを前記第二の周波数分割単位毎に比較する信号比較ステップと、
　前記ピーク範囲と、前記信号比較ステップで得られた比較結果とに基づいて、前記第一の周波数分割単位毎に抑圧または強調の度合いを決定するマスクを生成するマスク生成ステップと、
　前記第一の信号に、前記マスク生成ステップにおいて生成されたマスクを乗算するマスク適用ステップと、
　を実行させるオーディオ信号処理プログラム。