WO2013021960A1

WO2013021960A1 - 信号処理装置、信号処理方法、および信号処理プログラム

Info

Publication number: WO2013021960A1
Application number: PCT/JP2012/069935
Authority: WO
Inventors: 良次宮原
Original assignee: 日本電気株式会社
Priority date: 2011-08-11
Filing date: 2012-07-31
Publication date: 2013-02-14
Also published as: JP6119604B2; JPWO2013021960A1

Abstract

高品質な強調信号を得る。　信号処理装置は、変換部、推定部、検出部、及び、置換部を含む。変換部は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。推定部は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。検出部は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。置換部は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。

Description

信号処理装置、信号処理方法、および信号処理プログラム

　本発明は、信号の位相成分を制御する信号処理技術に関する。

　信号の位相成分を制御して信号処理を行なう技術の一例として、位相スペクトルに着目した雑音抑圧の技術について、特許文献１や非特許文献１に開示がある。特許文献１や非特許文献１に記載の技術は、雑音に関係する振幅スペクトルを抑圧すると同時に、位相スペクトルをπ／４までのランダム値だけシフトさせる。特許文献１や非特許文献１に記載の技術は、位相スペクトルをランダムにシフトさせることで、雑音スペクトルの減衰だけでは抑圧できない雑音の抑圧を実現する。

国際公開公報ＷＯ２００７／０２９５３６

Ａｋｉｈｉｋｏ　Ｓｕｇｉｙａｍａ，″Ｓｉｎｇｌｅ−Ｃｈａｎｎｅｌ　Ｉｍｐａｃｔ−Ｎｏｉｓｅ　Ｓｕｐｐｒｅｓｓｉｏｎ　ｗｉｔｈ　ＮｏＡｕｘｉｌｉａｒｙ　Ｉｎｆｏｒｍａｔｉｏｎ　ｆｏｒ　Ｉｔｓ　Ｄｅｔｅｃｔｉｏｎ，″Ｐｒｏｃ．ＩＥＥＥ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ａｐｐｌ．ｏｆ　Ｓｉｇ．Ｐｒｏｃ．ｔｏ　Ａｕｄｉｏ　ａｎｄ　Ａｃｏｕｓｔｉｃｓ（ＷＡＳＰＡＡ），ｐｐ．１２７−１３０，Ｏｃｔ．２００７．

　しかしながら、特許文献１や非特許文献１に記載の技術のように、位相スペクトルをランダムにシフトさせると、隣接するフレーム間で位相スペクトルの不一致が生じ、フレーム合成時に信号レベルが低下する。その結果、雑音抑圧区間と雑音非抑圧区間で出力信号レベルに差が生じ、出力信号の品質が低下する。特に、目的音と環境音とをバランス良く効果的に強調することができなかった。
　本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。

　本発明の一態様における信号処理装置は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する変換手段と、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する推定手段と、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する検出手段と、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する置換手段と、を含む。
　本発明の一態様における信号処理方法は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する。
　本発明の一態様におけるコンピュータが読み取り可能な記録媒体に格納される信号処理プログラムは、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、処理をコンピュータに実行させる。

　本発明によれば、目的音と環境音を効果的に強調する信号処理技術を提供することができる。

本発明の第１実施形態としての信号処理装置の概略構成を示すブロック図である。本発明の第２実施形態としての雑音抑圧装置の概略構成を示すブロック図である。本発明の第２実施形態に含まれる変換部の構成を示すブロック図である。本発明の第２実施形態に含まれる逆変換部の構成を示すブロック図である。本発明の第２実施形態に係る雑音抑圧部の構成を示すブロック図である。本発明の第２実施形態に係る非目的音検出部における非目的音帯域の検出方法を説明する図である。本発明の第２実施形態に含まれる雑音抑圧部の構成を示すブロック図である。本発明の第２実施形態において周波数領域で位相回転を行わない場合の信号の流れを示す図である。本発明の第２実施形態において周波数領域で位相回転を行う場合の信号の流れを示す図である。本発明の第２実施形態において周波数領域で位相回転を行わない場合のフレームのオーバーラップ加算を示す図である。本発明の第２実施形態において周波数領域で位相回転を行う場合のフレームのオーバーラップ加算を示す図である。本発明の第２実施形態において周波数領域で位相回転を行う場合の周波数領域信号をベクトルで示す図である。本発明の第２実施形態において周波数領域で位相回転を行わない場合の周波数領域信号をベクトルで示す図である。本発明の第３実施形態に係る位相制御部の構成を示すブロック図である。本発明の第４実施形態としての雑音抑圧装置の概略構成を示すブロック図である。本発明の第４実施形態に係る位相制御部と振幅制御部の構成を示すブロック図である。本発明の第５実施形態としての雑音抑圧装置の概略構成を示すブロック図である。本発明の他の実施形態としての雑音抑圧装置の概略構成を示すブロック図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
　（第１実施形態）
　図１は、本発明の第１実施形態に係る信号処理装置１００の概略構成を示す図である。
　図１において、信号処理装置１００は、変換部１０１と検出部１０２と推定部１０３と置換部１０４を備える。変換部１０１は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。また、推定部１０２は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。さらに、検出部１０３は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。一方、置換部１０４は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。
　以上の構成により、第１実施形態に係る信号処理装置１００は、目的音と環境音を効果的に強調することができる。
　（第２実施形態）
　《全体構成》
　本発明の第２実施形態としての雑音抑圧装置２００について図２乃至図１３を用いて説明する。図２は、雑音抑圧装置２００の全体構成を示すブロック図である。本実施形態の雑音抑圧装置２００は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではない。雑音抑圧装置２００は、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
　入力端子２０６には、劣化信号（所望信号と雑音の混在する信号）が、サンプル値系列として供給される。入力端子２０６に劣化信号が供給されると、変換部２０１は、供給された劣化信号にフーリエ変換などの変換を施して、複数の周波数成分に分割する。変換部２０１は、複数の周波数成分を各周波数で独立に処理する。ここでは、特定の周波数成分に注目して説明を続ける。変換部２０１は、複数の周波数成分のうち振幅スペクトル（振幅成分）２３０を雑音抑圧部２０５に供給する。変換部２０１は、複数の周波数成分のうち位相スペクトル（位相成分）２２０を位相制御部（第１制御部）２０２に供給する。なお、ここでは、変換部２０１は、雑音抑圧部２０５に劣化信号振幅スペクトル２３０を供給しているが、本発明はこれに限定されるものではない。変換部２０１は、劣化信号振幅スペクトル２３０の二乗に相当するパワースペクトルを雑音抑圧部２０５に供給してもよい。
　雑音抑圧部２０５は、変換部２０１から供給される劣化信号振幅スペクトル２３０を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部２０５は、変換部２０１から供給された劣化信号振幅スペクトル２３０と、生成した推定雑音スペクトルとを用いて雑音を抑圧する。雑音抑圧部２０５は、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部（第２制御部）２０３に伝達する。位相制御部２０２は、変換部２０１から供給された劣化信号位相スペクトル２２０を回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部（合成部）２０４へ供給する。また、位相制御部２０２は、位相の回転量（シフト量）を、振幅制御部２０３へ伝達する。振幅制御部２０３は、位相制御部２０２から位相の回転量（シフト量）を受け取って振幅補正量を算出する。振幅制御部２０３は、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル２５０を生成する。振幅制御部２０３は、補正振幅スペクトル２５０を逆変換部２０４へ供給する。逆変換部２０４は、位相制御部２０２から供給された強調信号位相スペクトル２４０と、振幅制御部２０３から供給された補正振幅スペクトル２５０とを合成して逆変換を行い、強調信号として、出力端子２０７に供給する。
　《変換部２０１の構成》
　図３は、変換部２０１の構成を示すブロック図である。図３に示すように、変換部２０１はフレーム分割部３０１、窓がけ処理部（ｗｉｎｄｏｗｉｎｇ　ｕｎｉｔ）３０２、およびフーリエ変換部３０３を含む。劣化信号サンプルは、フレーム分割部３０１に供給され、Ｋ／２サンプル毎のフレームに分割される。ここで、Ｋは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部３０２に供給され、窓関数（ｗｉｎｄｏｗ　ｆｕｎｃｔｉｏｎ）であるｗ（ｔ）との乗算が行なわれる。第ｎフレームの入力信号ｙｎ（ｔ）（ｔ＝０，１，．．．，Ｋ／２−１）に対するｗ（ｔ）で窓がけ（ｗｉｎｄｏｗｉｎｇ）された信号は、次式（１）で与えられる。

　また、窓がけ処理部３０２は、連続する２フレームの一部を重ね合わせ（オーバーラップ）して窓がけしてもよい。オーバーラップ長としてフレーム長の５０％を仮定すれば、ｔ＝０，１，．．．，Ｋ／２−１に対して、以下の式（２）で得られる左辺が、窓がけ処理部３０２の出力となる。

　窓がけ処理部３０２は、実数信号に対しては、左右対称窓関数を用いても良い。また、窓関数は、ＭＭＳＥ　ＳＴＳＡ（Ｍｉｎｉｍｕｍ　Ｍｅａｎ−Ｓｑｕａｒｅ　Ｅｒｒｏｒ　Ｓｈｏｒｔ−Ｔｉｍｅ　Ｓｐｅｃｔｒａｌ　Ａｍｐｌｉｔｕｄｅ　Ｅｓｔｉｍａｔｏｒ：最小二乗平均誤差短時間振幅スペクトル推定）法における抑圧係数を１に設定したとき、またはＳＳ（Ｓｐｅｃｔｒｕｍ　Ｓｕｂｔｒａｃｔｉｏｎ：スペクトル減算）法においてゼロを減算したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、ｗ（ｔ）＋ｗ（ｔ＋Ｋ／２）＝１となることを意味する。
　以後、連続する２フレームの５０％をオーバーラップして窓がけする場合を例として説明を続ける。窓がけ処理部３０２は、ｗ（ｔ）として、たとえば、次式（３）に示すハニング窓を用いても良い。

　このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部３０３に供給され、劣化信号スペクトルＹｎ（ｋ）に変換される。劣化信号スペクトルＹｎ（ｋ）は位相と振幅に分離され、劣化信号位相スペクトル２２０（ａｒｇ　Ｙｎ（ｋ））は、位相制御部２０２に、劣化信号振幅スペクトル２３０（｜Ｙｎ（ｋ）｜）は、雑音抑圧部２０５に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルが利用されても良い。
　《逆変換部２０４の構成》
　図４は、逆変換部２０４の構成を示すブロック図である。図４に示すように、逆変換部２０４は逆フーリエ変換部４０１、窓がけ処理部４０２およびフレーム合成部４０３を含む。逆フーリエ変換部４０１は、振幅制御部２０３から供給された補正振幅スペクトル２５０と位相制御部２０２から供給された強調信号位相スペクトル２４０（ａｒｇ　Ｙｎ（ｋ））とを乗算して、強調信号（以下の式（４）の左辺）を求める。

　逆フーリエ変換部４０１は、得られた強調信号に逆フーリエ変換を施す。逆フーリエ変換された強調信号は、１フレームがＫサンプルを含む時間領域サンプル値系列ｘｎ（ｔ）（ｔ＝０，１，．．．，Ｋ−１）として、窓がけ処理部４０２に供給され、窓関数ｗ（ｔ）との乗算が行なわれる。第ｎフレームの入力信号ｘｎ（ｔ）（ｔ＝０，１，．．．，Ｋ／２−１）に対してｗ（ｔ）で窓がけされた信号は、次式（５）の左辺で与えられる。

　また、窓がけ処理部３０２は、連続する２フレームの一部を重ね合わせ（オーバーラップ）して窓がけしてもよい。フレーム長の５０％をオーバーラップ長として仮定すれば、ｔ＝０，１，．．．，Ｋ／２−１に対して、以下の式の左辺が、窓がけ処理部４０２の出力となり、フレーム合成部４０３に伝達される。

　フレーム合成部４０３は、窓がけ処理部４０２からの隣接する２フレームの出力を、Ｋ／２サンプルずつ取り出して重ね合わせ、以下の式（７）によって、ｔ＝０，１，．．．，Ｋ−１における出力信号（式（７）の左辺）を得る。得られた出力信号は、フレーム合成部４０３から出力端子２０７に伝達される。

　なお、図３と図４において変換部２０１と逆変換部２０４における変換をフーリエ変換として説明したが、変換部２０１、逆変換部２０４は、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いても良い。変換部２０１、逆変換部２０４がハール変換を用いた場合には、乗算が不要となり、ＬＳＩ化したときの面積を小さくすることができる。変換部２０１、逆変換部２０４がウェーブレット変換を用いた場合には、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
　また、変換部２０１において得られる周波数成分を複数統合してから、雑音抑圧部２０５で実際の抑圧を行っても良い。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合して、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
　《雑音抑圧部２０５の構成》
　図５は、本実施形態に係る雑音抑圧部２０５の内部構成を示すブロック図である。本実施形態では、図５に示すように、雑音抑圧部２０５が非目的音検出部５５２、環境音推定部５５３および振幅置換部５５１を含む。
　非目的音検出部５５２は、劣化信号振幅スペクトル２３０を用いて、目的音の存在しない非目的音帯域５５４を検出し、振幅置換部５５１に供給する。
　環境音推定部５５３は、劣化信号振幅スペクトル２３０を用いて、推定環境音振幅スペクトルを生成し、振幅置換部５５１に供給する。
　振幅置換部５５１は、非目的音検出部５５２より供給される非目的音帯域５５４において、劣化信号振幅スペクトル２３０を、環境音推定部５５３より供給される推定環境音振幅スペクトルに置換し、振幅制御部２０３へ供給する。
　《非目的音検出部５５２の詳細》
　図６に、あるフレームにおける劣化信号振幅スペクトル２３０を示す。図６を参照しながら、非目的音検出部５５２における非目的音帯域５５４の検出方法を説明する。
　まず、非目的音検出部５５２は、劣化信号振幅スペクトル２３０のピーク位置を検出する。ピーク位置は、ある周波数における劣化信号振幅スペクトル２３０の振幅値が、隣接する周波数の振幅値より大きい位置として、検出される。ピーク位置は、劣化信号振幅スペクトル２３０の頂点にあたる。図６では、実線の下向き矢印でピーク位置が示されている。
　次に、非目的音検出部５５２は、振幅値検索範囲を設定する。非目的音検出部５５２は、ピーク位置を中心にした、左右一定の幅を、振幅値検索範囲に設定する。検索範囲の幅は、サンプリング周波数などに依存するパラメータである。なお、左右の幅は不等でもよい。図６では、横実線で振幅値検索範囲が示されている。
　さらに、非目的音検出部５５２は、目的音判定閾値を設定する。目的音判定閾値は、ピーク位置の振幅値に係数を乗じた値である。係数は０以上１以下の値であり、その大きさは目的音の検出しやすさを調整するパラメータである。なお、非目的音検出部５５２は、目的音判定閾値を、乗算ではなく、減算で求めてもよい。減算する値は、ピーク位置振幅値に係数を乗じた値もしくは定数とする。図６では、横破線で目的音判定閾値が示されている。
　非目的音検出部５５２は、以上の設定値に基づき、目的音帯域を検出する。目的音帯域は、劣化信号振幅スペクトル２３０が、振幅値検索範囲内で、ピーク位置を含み目的音判定閾値より大きい、連続した帯域である。ただし、振幅値検索範囲内において、劣化信号振幅スペクトル２３０が、目的音判定閾値をピーク位置両側で下回った場合だけ、目的音帯域は有効である。図６では、目的音帯域が斜線塗りで示されている。
　例えば、ピーク位置（２）~（４）では、振幅値検索範囲内において、劣化信号振幅スペクトル２３０がピーク位置両側で目的音判定閾値よりも低下していない。よって、ピーク位置（２）~（４）においては、目的音帯域が検出されない。ピーク位置（１）および（５）では、振幅値検索範囲内において、劣化信号振幅スペクトル２３０がピーク位置両側で目的音判定閾値より低下している。よって、振幅値検索範囲内において、ピーク位置を含む目的音判定閾値より振幅値が大きい連続した帯域が目的音帯域と判定される。
　最後に、前述の目的音帯域以外の帯域が非目的音帯域５５４として検出される。
　《環境音推定部５５３の構成》
　環境音推定部５５３は、劣化信号振幅スペクトル２３０を用いて、推定環境音振幅スペクトルを生成し、振幅置換部５５１に供給する。環境音の推定には、Ｍ．Ｋａｔｏ，Ａ．Ｓｕｇｉｙａｍａ，ａｎｄ　Ｍ．Ｓｅｒｉｚａｗａ，″Ｎｏｉｓｅ　ｓｕｐｐｒｅｓｓｉｏｎ　ｗｉｔｈ　ｈｉｇｈ　ｓｐｅｅｃｈ　ｑｕａｌｉｔｙ　ｂａｓｅｄ　ｏｎ　ｗｅｉｇｈｔｅｄ　ｎｏｉｓｅ　ｅｓｔｉｍａｔｉｏｎ　ａｎｄ　ＭＭＳＥ　ＳＴＳＡ，″ＩＥＩＣＥ　Ｔｒａｎｓ．Ｆｕｎｄａｍｅｎｔａｌｓ（Ｊａｐａｎｅｓｅ　Ｅｄｉｔｉｏｎ），ｖｏｌ．Ｊ８７−Ａ，ｎｏ．７，ｐｐ．８５１−８６０，Ｊｕｌｙ　２００４．（文献１）やＲ．Ｍａｒｔｉｎ，″Ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｍｉｎｉｍｕｍ　ｓｔａｔｉｓｔｉｃｓ，″ＥＵＳＰＩＣＯ−９４，ｐｐ．１１８２−１１８５，Ｓｅｐｔ．１９９４（文献２）に示されるように、様々な推定方法が利用できる。
　たとえば、推定環境音振幅スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトル２３０の平均値とする方法（文献１）がある。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
　理想的な動作状態として、強調信号は環境音以外の目的音となっている。また、目的音や環境音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、１フレーム過去の強調信号レベルが環境音区間判定の指標とされる。１フレーム過去の強調信号パワーが一定値以下の時には、現フレームが環境音区間と判定される。環境音振幅スペクトルは、環境音区間と判定されたフレームの劣化信号振幅スペクトル２３０を平均化することで推定される。
　また、推定環境音振幅スペクトルを、劣化信号振幅スペクトル２３０が供給され始めた推定初期の平均値とする方法（文献１）もある。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトル２３０が推定環境音振幅スペクトルとされる。
　さらに、推定環境音振幅スペクトルを、統計的な劣化信号振幅スペクトル２３０の最小値から求める方法（文献２）もある。この方法では、統計的に一定時間における劣化信号振幅スペクトル２３０の最小値を保持し、その最小値から環境音振幅スペクトルを推定する。劣化信号振幅スペクトル２３０の最小値は、環境音振幅スペクトルのスペクトル形状と似ているため、環境音振幅スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の環境音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定環境音振幅スペクトルとして用いる。
　加えて、環境音推定部５５３は、非目的音検出部５５２より得られる非目的音帯域５５４だけで、環境音を推定してもよい。非目的音帯域だけで推定すると、目的音の影響が軽減され、環境音の推定精度が向上する。
　《振幅置換部５５１の構成》
　振幅置換部５５１は、非目的音検出部５５２より供給される非目的音帯域５５４において、劣化信号振幅スペクトル２３０を、環境音推定部５５３より供給される推定環境音振幅スペクトルに置換し、振幅制御部２０３へ供給する。
　振幅置換部５５１は、推定環境音振幅スペクトルへの置換を、抑圧係数を用いて実現してもよい。この場合、振幅置換部５５１は、推定環境音振幅スペクトルを劣化信号振幅スペクトル２３０で除した値を抑圧係数とし、この抑圧係数を劣化信号振幅スペクトル２３０に乗じることで、置換と等価の処理を実現する。
　《位相制御部２０２および振幅制御部２０３の構成》
　図７は位相制御部２０２および振幅制御部２０３の構成を示すブロック図である。図７に示すように、位相制御部２０２は位相回転部７０１と回転量生成部７０２とを含む。振幅制御部２０３は、補正量算出部７０３と振幅補正部７０４とを含む。
　回転量生成部７０２は、劣化信号位相スペクトル２２０の回転量を生成し、位相回転部７０１と補正量算出部７０３に供給する。位相回転部７０１は、変換部２０１から劣化信号位相スペクトル２２０が供給され、回転量生成部７０２から回転量が供給される。位相回転部７０１は、劣化信号位相スペクトル２２０を供給された回転量だけ回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。補正量算出部７０３は、回転量生成部７０２から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部７０４に供給する。回転量生成部７０２は、たとえば乱数によって回転量を生成する。位相回転部７０１は、回転量生成部７０２が乱数により生成した回転量を用いて劣化信号位相スペクトル２２０を各周波数で回転させる。位相回転部７０１が行う回転により、劣化信号位相スペクトル２２０の形状が変化する。この形状の変化により、雑音の特徴を弱めることができる。
　乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがある。ここでは一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生する。ここでは、線形合同法での一様乱数を例に挙げ、説明を続ける。線形合同法で発生させた一様乱数は、０~（２＾Ｍ）−１の範囲に一様に分布する。
　ここで、Ｍは任意の整数であり、＾はべき乗を表している。位相の回転量φは、０~２πの範囲に分布させる必要がある。そこで、発生させた一様乱数は、０~２πの範囲に分布されるように変換される。変換は、以下の式（８）で行う。ここで、Ｒは一様乱数であり、Ｒｍａｘはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Ｒｍａｘ＝（２＾Ｍ）−１となる。

　計算の簡単化のために、Ｒの値は、そのまま回転量とされても良い。回転量であるので２πはちょうど一回転を表す。位相を２π回転させた場合は回転させていない場合と同一である。よって、２π＋αという回転量は、回転量がαの場合と同じになる。ここでは、線形合同法により一様乱数を発生させた場合を説明したが、それ以外の方法で一様乱数を発生させた場合でも、式（８）により回転量φを求めればよい。
　位相回転部７０１は、回転量生成部７０２から回転量を受け取り、劣化信号位相スペクトル２２０を回転させる。もし、劣化信号位相スペクトル２２０が角度で表現されている場合には、位相回転部７０１は、その角度に回転量φの値を加算することで回転させる。劣化信号位相スペクトル２２０が複素数の正規ベクトルで表現されている場合には、位相回転部７０１は、回転量φの正規ベクトルを求め、劣化信号位相スペクトル２２０に乗算することで回転させる。
　回転量φの正規ベクトルは、式（９）で求められる。ここで、Φは回転ベクトルである。ｊはｓｑｒｔ（−１）を示す。なお、ｓｑｒｔは二乗根を表している。

　補正量算出部７０３による、補正係数算出方法について説明する。まず、位相の回転により出力レベルの低下が生じることを、図８および図９を用いて説明する。
　図８および図９は、劣化信号が図２に示すブロック図で処理された場合の信号を示している。図８と図９の違いは位相回転の有無である。図８は位相回転を行わない場合の信号を、図９は位相回転をフレーム３から行った場合の信号を示している。
　まず、位相を回転しない場合の信号について図８を用いて説明する。図８の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部３０１においてフレーム分割される。点線で区切られた、上から２番目の信号が、フレーム分割後の信号である。図８では、連続した４フレーム分の信号を図示した。また、フレームのオーバーラップ率は５０％としている。
　窓掛け処理部３０２は、フレームに分割された信号に窓掛けを行う。点線で区切られた、上から３番目の信号が窓掛け処理後の信号である。図８では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
　次に、フーリエ変換部３０３によって、周波数領域の信号に変換されるが、図８では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部２０４の逆フーリエ変換部４０１により、時間領域へ変換された信号を図示している。点線で区切られた、上から４番目の信号が位相回転後の信号である。ただし、図８では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
　逆変換部２０４の逆フーリエ変換部４０１から出力された強調信号は、窓掛け処理を再度実施される。図８では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部４０３において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバーラップ率が５０％であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図８のように入力信号と出力信号は一致する。
　一方、位相を回転する場合の信号について図９を用いて説明する。図９に示したのは位相回転をフレーム３から実施した場合の信号である。最上部に描かれているのは、図８と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図８と同様である。
　図９では、フレーム３から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム３および４の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理が行われ、フレーム合成される。このとき、フレーム２とフレーム３が重なるｉｉの区間で、フレーム２とフレーム３の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがｉｉの区間において小さくなる。つまり、位相の回転を実施する場合、図９のｉｉの区間で出力信号レベルが低下する。
　この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
　図１０に、フレーム分割および窓掛け処理後の連続した２フレームの劣化信号を、ｘ１［ｎ］およびｘ２［ｍ］として示す。なお、オーバーラップ率は５０％としている。ここで、ｎはｘ１の離散時間を表す。ｍはｘ２の離散時間を表す。オーバーラップ率が５０％の場合には、以下の式（１０）が成立する。

　また、ｘ１とｘ２の関係は、以下の式（１１）のようになる。

　まず、時間領域信号から周波数領域信号への変換および逆変換の式を示す。周波数領域信号Ｘ［ｋ］は、時間領域信号ｘ［ｎ］のフーリエ変換によって、以下の式（１２）のように表現される。ここで、ｋは離散周波数を表し、Ｌはフレーム長である。

　また、周波数領域信号Ｘ［ｋ］を逆変換により、時間領域信号ｘ［ｎ］に戻すと、以下の式（１３）のように表現される。

　これに基づいて、時間領域信号ｘ１［ｎ］，ｘ２［ｍ］を、周波数領域信号Ｘ１［ｋ］，Ｘ２［ｋ］に変換すると、以下の式（１４）、式（１５）のように表現される。

　周波数領域信号Ｘ１［ｋ］，Ｘ２［ｋ］を、逆変換によってそれぞれ時間領域信号ｘ１［ｎ］，ｘ２［ｍ］に戻すと、式（１３）より、以下の式（１６）、式（１７）のように表現される。

　逆変換部は、逆フーリエ変換により周波数領域信号を時間領域信号に変換する。その後、フレーム合成部により、前フレームと現フレームの強調音声をオーバーラップ加算する。
　たとえば、図示した例のオーバーラップ率５０％では、フレーム合成部４０３は、離散時間ｍ＝Ｌ／２~Ｌ−１の区間で隣接フレームの加算を行う。この加算区間ｍ＝Ｌ／２~Ｌ−１を考える。時間領域の加算に、式（１６）および式（１７）を代入すると、以下の式（１８）のように表現される。

　さらに、式（１８）中の周波数領域信号Ｘ１［ｋ］，Ｘ２［ｋ］に式（１４），式（１５）を代入すると、以下の式（１９）のように表現される。

　さらに、式（１９）を展開すると、以下の式（２０）のように表現される。

　ここで、式（２０）の各項に含まれる総和演算を考える。任意の整数ｇを導入し、以下の式（２１）が成立する。

　デルタ関数δ［ｇ］のフーリエ逆変換式は、式（２２）で示される。

　ここで、デルタ関数δ［ｇ］は、以下の式（２３）で示される。

　式（２２）より、式（２１）は、以下の式（２４）に変形できる。

　式（２４）の関係から、式（２０）は、以下の式（２５）で表わされる。

　よって、式（２０）は、以下の式（２６）となる。

　さて、ここで周波数領域信号Ｘ２［ｋ］に対し、位相回転を行った場合を考える。このときの時間領域信号は、図１１のようになる。
　Ｘ２［ｋ］の位相スペクトルを、φ［ｋ］回転させたとき、その逆変換は以下の式（２７）となる。

　これを、式（１８）に代入すると、以下の式（２８）が成立する。

　これを展開すると、以下の式（２９）が成立する。

　ここで、オーバーラップ率５０％と仮定し、オーバーラップ区間のｎ＝Ｌ／２~Ｌ−１について考える。オーバーラップ区間では、式（１１）より、以下の式（３０）のように展開できる。

　ここで、それぞれの項にある括弧内の項（式（３１）に示す）は、ベクトル合成であるから、特定の周波数ｋに注目すると、図１２のように描ける。

　もし、位相回転が行われていないとき、つまりφ［ｋ］＝０の場合は、図１３のようになる。
　式（３１）の絶対値を求めると、以下の式（３２）となる。

　よって、式（３１）の絶対値が最大になる条件は、φ［ｋ］＝０の場合であり、その値は２である。つまり、位相回転が行われると、出力信号の大きさが小さくなることがわかる。
　この出力信号レベルの低下量（変化量）を補正するように、補正量算出部７０３は、強調信号振幅スペクトルの振幅補正量を決定する。
　ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動（変化量）に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
　まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図１３に示されるベクトルＳのようになり、そのベクトルの大きさ｜Ｓ｜は、以下の式（３３）で表わされる。

　一方、一様乱数により位相回転を行う場合、連続するフレーム間位相差φは、−πから＋πまでの範囲に一様に分布する。この連続するフレーム間で位相が異なる場合の合成ベクトルは、図１２に示されるベクトルＳ′のようになる。そのベクトルの大きさ｜Ｓ′｜は、以下の式（３４）で表わされる。

　さて、ここで、期待値Ｅ（｜Ｓ′｜＾２）を求めると、以下の式（３５）のようになる。

　ここで、φが−πから＋πまで一様分布することから、以下の式（３６）のようになる。

　このため、｜Ｓ′｜＾２の期待値は、以下の式（３７）で表わされる。

　さて、位相の回転をしない場合の、期待値Ｅ（｜Ｓ｜＾２）は、式（３３）より以下の式（３８）で表わされる。

　式（３７）と式（３８）の比を取ると、以下の式（３９）が成立する。

　つまり、位相を一様乱数で回転させる場合、出力信号のパワー平均値は入力と比較して、１／２だけ小さくなる。振幅補正部７０４は振幅値に対し補正を行う。そのため、補正量算出部７０３は補正係数をｓｑｒｔ（２）とし、振幅補正部７０４に伝達する。
　ここでは、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数は一意に定められる。正規乱数を使う場合の補正係数の導出を以下に説明する。
　正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けが行われる必要がある。
　具体的には、φの発生確率に基づいた、重み関数ｆ（φ）を導入する。その重み関数ｆ（φ）により、ｃｏｓ（φ）は、重みづけされる。さらに、重み付け関数ｆ（φ）の積分値で正規化することにより、パワー期待値を求めることができる。
　正規乱数による位相回転を行った場合の出力パワー期待値Ｅ（Ｓ′′＾２）は、一様乱数の出力パワー期待値である式（３５）に、重み付け関数ｆ（φ）およびその積分値を導入し、以下の式（４０）のように表現できる。

　重み関数ｆ（φ）は、正規分布により表現できるので、以下の式（４１）が成立する。

　ここで、σは分散をμは平均を表している。
　たとえば、平均値μ＝０，分散σ＝１の標準正規分布では、以下の式（４２）となるので、これを式（４０）に代入すると、式（４３）のようになる。

　ここで、式（４３）の右辺、第２項を数値計算すると、式（４４）が成立するので、位相の回転をしない場合の、Ｅ（｜Ｓ＾２｜）との比は、式（４５）で表わされる。

　補正量算出部７０３は、位相を標準正規分布の正規乱数で回転させる場合、振幅補正部７０４に補正係数をｓｑｒｔ（１／０．８０５）として、伝達する。位相制御部２０２は、位相回転をすべての周波数に対して行っても良いし、一部の周波数に対して行っても良い。振幅制御部２０３は、振幅補正を、位相回転が行われた周波数に対してのみ行う。よって、位相回転を行わない周波数の補正係数は、１．０とする。位相回転を行った周波数の補正係数のみ導出した値とする。
　《振幅補正部５０４の説明》
　振幅制御部２０３では、位相制御部２０２から伝達された位相の回転量を用いて振幅補正係数を算出する。振幅制御部２０３は、算出した振幅補正係数を雑音抑圧部２０５から供給された強調信号振幅スペクトルに乗じ、逆変換部２０４に供給する。強調信号振幅スペクトルに振幅補正係数を乗じることにより、雑音抑圧装置２００は、劣化信号位相スペクトル２２０を回転させ、強調信号位相スペクトル２４０を得た場合の出力レベル低下を解消することができる。
　以上のように、本実施形態に係る雑音抑圧装置２００は、位相スペクトルを回転操作することによる出力信号レベルへの影響を振幅制御部２０３により取り除くことができる。そのため、雑音抑圧装置２００は、目的音と環境音とを効果的に強調した強調信号を得ることができる。
　（第３実施形態）
　本発明の第３実施形態について、図１４を用いて説明する。図１４は、本実施形態に係る位相制御部１４０２の構成を示すブロック図である。
　本実施形態では、図１４に示すように、回転量生成部１４２１において、非目的音検出部５５２より供給される非目的音帯域５５４を用いる点で、第２実施形態と異なる。それ以外の構成および動作については第２実施形態と同様であるためここでは詳しい説明を省略する。
　回転量生成部１４２１は、非目的音検出部５５２より供給される非目的音帯域５５４だけで回転量を生成し、位相回転部７０１と振幅制御部２０３に供給する。
　位相回転部７０１は、回転量生成部１４２１から回転量が供給される。位相回転部７０１は、変換部２０１から供給される劣化信号位相スペクトル２２０を、供給された回転量だけ回転（シフト）もしくは回転量に置換し、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。
　以上、非目的音帯域５５４だけで回転量を生成する方式を説明したが、全周波数で回転量を生成し、非目的音帯域５５４だけで位相回転しても同様の効果が得られる。この方式は、以下の処理によって実現される。
　非目的音検出部５５２より検出される非目的音帯域５５４は、位相回転部７０１および振幅制御部２０３に供給される。位相回転部７０１は、非目的音帯域５５４だけで劣化信号位相スペクトル２２０を回転させ、強調信号位相スペクトル２４０を得る。振幅制御部２０３は、非目的音帯域５５４だけで振幅制御する。
　《回転量生成部１４２１の構成》
　回転量生成部１４２１は、非目的音検出部５５２から供給される非目的音帯域５５４において、劣化信号位相スペクトル２２０の回転量を生成し、位相回転部７０１と振幅制御部２０３に供給する。回転量生成部１４２１は、回転量の生成に、第２実施形態における回転量生成手法を用いる。
　以上の実施形態によれば、第２実施形態の効果に加えて、非目的音帯域５５４だけで位相を回転（シフト）するため、目的音の劣化を軽減することができる。
　（第４実施形態）
　本発明の第４実施形態について、図１５および図１６を用いて説明する。図１５は、本実施形態に係る雑音抑圧装置１５００の構成を示す図である。本実施形態に係る雑音抑圧装置１５００は、第２実施形態の図２の構成に加え、振幅成分遅延部１５１１、位相成分遅延部１５１２および逆変換部１５１３を含む。また、振幅制御部１５０３の内部構成にも差異がある。本実施形態において、振幅成分遅延部１５１１、位相成分遅延部１５１２および振幅制御部１５０３以外の動作については、第３実施形態と同様であるためここではその説明を省略する。
　入力端子２０６に供給された劣化信号は、変換部２０１と振幅制御部１５０３に供給される。変換部２０１は、劣化信号振幅スペクトル２３０を振幅成分遅延部１５１１および逆変換部１５１３に供給する。また、変換部２０１は、劣化信号位相スペクトル２２０を位相制御部２０２に供給する。位相制御部２０２は、変換部２０１から供給された劣化信号位相スペクトル２２０を回転させ、強調信号位相スペクトルとして逆変換部１５１３および位相成分遅延部１５１２へ供給する。また、位相制御部２０２は、各周波数における位相回転の有無を、振幅制御部１５０３へ伝達する。
　逆変換部１５１３は、変換部２０１から供給された劣化信号振幅スペクトル２３０と位相制御部２０２から供給される強調信号位相スペクトルを用いて、位相回転によるレベル低下の生じた信号を振幅制御部１５０３に伝達する。
　振幅成分遅延部１５１１は、変換部２０１からの劣化信号振幅スペクトル２３０を遅延させ、雑音抑圧部２０５に供給する。
　位相成分遅延部１５１２は、位相制御部２０２からの強調信号位相スペクトルを遅延させ、逆変換部２０４に供給する。雑音抑圧部２０５は、振幅成分遅延部１５１１から供給される劣化信号振幅スペクトルを用いて、雑音を推定し、推定雑音スペクトルを生成する。
　逆変換部２０４は、位相制御部２０２から位相成分遅延部１５１２を介して供給された、強調信号位相スペクトル２４０と、振幅制御部１５０３から供給された補正振幅スペクトル２５０とを合成して逆変換を行い、強調信号として、出力端子２０７に供給する。
　劣化信号位相スペクトル２２０は、位相制御部２０２で制御され、逆変換部１５１３において時間領域の信号に変換される。振幅制御部１５０３は、その信号と劣化信号２１０とを用いて、位相回転によるレベルの変動量（変化量）を求める。
　この変動量は位相回転部７０１による回転処理のみの変動である。そのため、振幅制御部１５０３は、位相の回転によるレベル変動を正確に捉えることができる。振幅制御部１５０３は、このレベル比を用いて振幅補正を行うが、求まるレベル比は１フレーム前のものである。
　そこで、振幅成分遅延部１５１１と位相成分遅延部１５１２を導入し、１フレーム前の周波数成分に対して、振幅制御部１５０３において振幅補正を行う。
　図１６は、本実施形態に係る位相制御部２０２および振幅制御部１５０３の内部構成を説明するためのブロック図である。入出力比算出部１６３１は、入力端子２０６から供給される劣化信号と逆変換部１５１３から供給される、位相回転によるレベル低下分を含んだ信号から、レベル比を算出し、補正量算出部１２３３に供給する。
　補正量算出部１２３３は、位相制御部２０２から各周波数における位相回転の有無の情報を受け取り、振幅補正量を算出する。振幅補正部７０４は、その振幅補正量に基づいて、強調信号振幅スペクトルを各周波数で補正し、逆変換部２０４へ供給する。なお、振幅成分遅延部１５１１は、雑音抑圧部２０５と振幅制御部１５０３の間に導入しても構わない。
　本実施形態に係る雑音抑圧装置１５００は、第３実施形態の効果に加え、入出力比の遅延を回避でき、より正確な出力レベルの補正を実現できる。
　（第５実施形態）
　本発明の第５実施形態について、図１７を用いて説明する。図１７に示すように、本実施形態に係る雑音抑圧装置１７００は、第２実施形態の構成に加え、フレームオーバーラップ制御部１７０８を含む。フレームオーバーラップ制御部１７０８は、変換部２０１および逆変換部２０４において、フレームが分割、合成されるときのオーバーラップ率の制御を行う。フレームオーバーラップ制御部１７０８は、そのオーバーラップ率を振幅制御部２０３に供給する。既に説明したとおり、位相回転によるレベル低下はオーバーラップによって生じる。このレベル低下量はオーバーラップ率により変化し、オーバーラップ率が大きくなるほど、低下量も大きくなる。よって、オーバーラップ率が変化した場合には、振幅補正量を制御する必要がある。
　具体的には、オーバーラップ率５０％の場合の振幅補正量Ｇを基準に補正量を求める。オーバーラップ率が０％のとき振幅補正は必要無い。また、オーバーラップ率５０％のとき振幅補正量はＧである。そこで、振幅補正量は、フレーム長Ｌとオーバーラップ長Ｑの比を用いて、以下の式（４６）で表される。ここで、Ｇ′はオーバーラップ率による補正を行った振幅補正量である。

　たとえば、オーバーラップ率５０％の場合は、Ｑ＝Ｌ／２であるので、以下の式（４７）が成立し、オーバーラップ率２５％の場合には、Ｑ＝Ｌ／４より以下の式（４８）が成立する。

　振幅制御部２０３は、式（４６）に基づき、位相制御部２０２から伝達された補正係数を補正し、強調信号振幅スペクトルを補正する。本実施形態において、フレームオーバーラップ制御部１７０８以外の構成および動作については、第２実施形態と同様であるためここではその説明を省略する。
　本実施形態に係る雑音抑圧装置１７００は、第２実施形態の効果に加えて、フレームのオーバーラップ率を自由に設定できる。
　（他の実施形態）
　以上説明してきた第１乃至第５実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
　また、本発明は、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷサーバも、本発明の範疇に含まれる。
　図１８は、第１実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ１８００の構成図である。コンピュータ１８００は、入力部１８０１と、ＣＰＵ１８０２と、出力部１８０３と、メモリ１８０４とを含む。
　ＣＰＵ１８０２は、信号処理プログラムを読み込むことにより、コンピュータ１８００の動作を制御する。すなわち、ＣＰＵ１８０２は、メモリ１８０４に格納された信号処理プログラムを実行し、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する（Ｓ１８１１）。次に、ＣＰＵ１８０２は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する（Ｓ１８１２）。
　さらに、ＣＰＵ１８０２は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する（Ｓ１８１３）。ＣＰＵ１８０２は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する（Ｓ１８１４）。
　ＣＰＵ１８０２は、必要に応じてメモリ１８０３を利用してデータの一時的な保存および処理を行なう。以上の構成および動作により、第１実施形態と同様の効果を得ることができる。
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　この出願は、２０１１年８月１１日に出願された日本出願特願２０１１−１７６１２１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する変換手段と、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する推定手段と、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する検出手段と、
　前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する置換手段と、
　を含む信号処理装置。
　前記周波数領域信号の所定周波数の前記位相成分を回転させる第１制御手段と、
　前記第１制御手段が施した回転による前記振幅成分またはパワー成分の変化量に応じて、前記置換された前記周波数領域信号の前記所定周波数の前記振幅成分またはパワー成分を補正する第２制御手段と、
　前記第１制御手段により回転された位相成分と、前記第２制御手段により補正された振幅成分またはパワー成分と、を合成する合成手段と、
　をさらに含む
　請求項１に記載の信号処理装置。
　前記第１制御手段は、前記目的音の存在しない周波数の前記位相成分を回転させる
　請求項２に記載の信号処理装置。
　前記第１制御手段は、前記位相成分の回転量を生成する回転量生成手段を含み、
　前記第２制御手段は、前記回転量生成手段から提供された前記回転量に基づいて前記変化量を算出し、算出した前記変化量に応じて前記振幅成分またはパワー成分を補正する
　請求項２または３に記載の信号処理装置。
　前記周波数領域信号の振幅成分またはパワー成分を遅延させる振幅成分遅延手段、をさらに含み、
　前記第２制御手段は、前記第１制御手段により回転された位相成分と前記周波数領域信号の振幅成分またはパワー成分とを合成した信号と、前記入力信号と、を比較することにより前記変化量を算出し、算出した前記変化量に応じて、前記振幅成分遅延手段により遅延した前記振幅成分またはパワー成分を補正する
　請求項２または３に記載の信号処理装置。
　前記変換手段は、前記入力信号を、互いに一部オーバーラップした複数フレームに分割する分割手段を含み、
　前記第２制御手段は、さらに、フレームのオーバーラップ率に応じて、前記所定周波数の前記振幅成分またはパワー成分を補正する
　請求項１乃至５のいずれかに記載の信号処理装置。
　入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
　前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する
　信号処理方法。
　入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
　前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
　前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、
　処理をコンピュータに実行させる信号処理プログラムを格納する、コンピュータが読み取り可能な記録媒体。