WO2014136628A1

WO2014136628A1 - 信号処理装置、信号処理方法および信号処理プログラム

Info

Publication number: WO2014136628A1
Application number: PCT/JP2014/054633
Authority: WO
Inventors: 昭彦杉山; 光樹朴; 良次宮原
Original assignee: 日本電気株式会社; ルネサスエレクトロニクス株式会社
Priority date: 2013-03-05
Filing date: 2014-02-26
Publication date: 2014-09-12
Also published as: US20160019913A1; US9858946B2; JPWO2014136628A1

Abstract

周波数領域における位相成分信号が、どの程度、直線的に変化しているかに応じて、入力信号の急変を精度良く検出するため、入力信号を処理する信号処理装置であって、入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、を備えた。

Description

信号処理装置、信号処理方法および信号処理プログラム

　本発明は、信号の変化を検出する技術に関する。

　上記技術分野において、特許文献１には、位相成分の時間方向の連続性を評価し、周波数毎の振幅成分を平滑化する技術が開示されている（段落０１３５～０１３８）。特許文献２には、位相の時間方向変動量を計測することで、周波数急変を検出する記載がある。特許文献３には、段落００２４に、「パルス性ノイズが重畳されたことに伴った複素平面上におけるＩ、Ｑ信号の複素ベクトルの位相変化を常時監視することによって、強電界環境下でのパルス性ノイズを確実に検出する」と記載されている。この位相変化は、時間方向の変化である。また、特許文献４の段落００３１には、「位相直線化部２５は、直線化により、極座標変換部２４から入力された位相信号θのとびを直して、その結果の位相信号θ'を位相検出部２６へ出力する」と記載がある。また、特許文献４の段落００５１には、位相傾検出手段について記載があり、段落００４０には、「図５には、位相検出部２６の入出力信号（入力信号である位相θ'、出力信号である位相傾ｄθ'）の一例を示してある」と記載されている。特許文献５には、振幅を用いた衝撃音の検出技術が開示されている。

特開2010-237703号公報特開2011-254122号公報特開2007-251908号公報特開2011-199808号公報ＷＯ２００８／１１１４６２

M. Kato, A. Sugiyama, and M. Serizawa, "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japanese Edition), vol.J87-A, no.7, pp.851-860, July 2004. R. Martin, "Spectral subtraction based on minimum statistics," EUSPICO-94, pp.1182-1185, Sept. 1994 J. L. Flanagan et al., "Speech Coding," IEEE Transactions on Communications, Vol. 27, no. 4, April 1979. 「ディジタル記録媒体のための動画信号および付随する音響信号の1.5 Mbit/s符号化－第3部　音響」、日本工業規格 JIS X 4323、99ページ、1996年11月。

　しかしながら、上述の先行技術文献に記載の技術の中で、特許文献１および４は、入力信号の急変を検出する技術ではない。また、特許文献２は、「周波数」の急変を検出しようとするものであり、特許文献３は、ＡＭ信号の位相の時間変化を用いてパルス性ノイズを検出しようとするものである。特許文献５は、振幅のみを用いた衝撃音の検出技術であり、ロバスト性に不足があった。すなわち、これらの文献に記載の技術では、信号の急変を効果的に検出できなかった。

　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係る信号処理装置は、
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
　周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
　前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
　を備える。

　上記目的を達成するため、本発明に係る信号処理方法は、
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップを含む。

　上記目的を達成するため、本発明に係る信号処理プログラムは、
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップをコンピュータに実行させる。

　本発明によれば、信号の急変を効果的に検出できる。

本発明の第１実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る雑音抑圧装置の構成を示すブロック図である。本発明の第２実施形態に係る変換部の構成を示すブロック図である。本発明の第２実施形態に係る逆変換部の構成を示すブロック図である。本発明の第２実施形態に係る位相制御部および振幅制御部の構成を示すブロック図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る直線性計算部および急変判定部の構成を説明する図である。本発明の第２実施形態に係る直線性計算部の処理を説明する図である。本発明の第２実施形態に係る雑音抑圧装置のハードウェア構成を示すブロック図である。本発明の第２実施形態に係る雑音抑圧装置の処理の流れを説明するフローチャートである。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。

　［第１実施形態］
　本発明の第１実施形態としての信号処理装置１００について、図１を用いて説明する。信号処理装置１００は、入力信号急変を検出するための装置である。

　図１に示すように、信号処理装置１００は、変換部１０１と直線性計算部１０２と信号急変判定部１０４とを含む。変換部１０１は、入力信号１１０を、周波数領域における位相成分信号１２０および振幅成分信号１３０に変換する。直線性計算部１０２は、位相成分信号１２０の直線性１４０を計算する。また、信号急変判定部１０４は、直線性計算部１０２によって計算された直線性１４０に基づいて入力信号の急変の存在を判定する。

　以上の構成により、周波数領域における位相成分信号がどの程度直線的に変化しているかに応じて、入力信号の急変を精度良く検出することができる。

　［第２実施形態］
　《全体構成》
　本発明の第２実施形態としての雑音抑圧装置について図２乃至図１１を用いて説明する。本実施形態の雑音抑圧装置は、例えばデジタルカメラ、ノートパソコン、携帯電話、キーボード、ゲーム機のコントローラ、携帯電話の押しボタンなどの雑音抑圧に適用できる。すなわち、音声、音楽、環境音などの目的とする信号を、これらに重畳された信号（ノイズまたは妨害信号）に対して強調することができる。ただし、本発明はこれに限定されるものではなく、入力信号からの信号急変判定を要求されるあらゆる信号処理装置に適用可能である。なお、本実施形態では、信号の急変の一例として、衝撃音を検出して抑圧する雑音抑圧装置について説明する。本実施形態としての雑音抑圧装置は、例えば、マイクの近くでボタン押下などの操作がなされるような形態において、かかるボタン操作により発生する衝撃音を適切に除去する。簡単に説明すると、衝撃音を含む信号を周波数領域信号に変換し、周波数空間に対する位相成分の直線性を計算する。そして、直線性が高い（傾きが一定となる）周波数が多いときに、衝撃音検出と判定する。

　図２は、雑音抑圧装置２００の全体構成を示すブロック図である。入力端子２０６には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子２０６に供給された劣化信号は、変換部２０１においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル（振幅成分）２３０は雑音抑圧部２０５へ供給され、位相スペクトル（位相成分）２２０は位相制御部２０２および直線性計算部２０８に供給される。なお、ここでは変換部２０１が雑音抑圧部２０５に劣化信号振幅スペクトル２３０を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを雑音抑圧部２０５に供給してもよい。

　雑音抑圧部２０５は、変換部２０１から供給される劣化信号振幅スペクトル２３０を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部２０５は、変換部２０１から供給された劣化信号振幅スペクトル２３０と、生成した推定雑音スペクトルとを用いて雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部２０３に伝達する。さらに雑音抑圧部２０５は、急変判定部２０９から判定結果を入力し、信号の急変の有無に応じて、雑音抑圧を実行する。

　位相制御部２０２は、変換部２０１から供給された劣化信号位相スペクトル２２０を回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。また、位相の回転量（シフト量）を、振幅制御部２０３へ伝達する。振幅制御部２０３は、位相制御部２０２から位相の回転量（シフト量）を受け取って振幅補正量を算出し、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル２５０を逆変換部２０４へ供給する。逆変換部２０４は、位相制御部２０２から供給された強調信号位相スペクトル２４０と、振幅制御部２０３から供給された補正振幅スペクトルとを合成して逆変換を行い、強調信号として、出力端子２０７に供給する。

　直線性計算部２０８は、変換部２０１から供給された位相スペクトル２２０を用いて、その周波数領域での直線性を計算する。急変判定部２０９は、直線性計算部２０８が計算した直線性に基づいて、信号急変の有無を判定する。

　《変換部の構成》
　図３は、変換部２０１の構成を示すブロック図である。図３に示すように、変換部２０１はフレーム分割部３０１、窓がけ処理部(windowing unit)３０２、およびフーリエ変換部３０３を含む。劣化信号サンプルは、フレーム分割部３０１に供給され、Ｋ／２サンプル毎のフレームに分割される。ここで、Ｋは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部３０２に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第ｎフレームの入力信号yn(t) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式（１）で与えられる。

　また、連続する２フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の５０％を仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式（２）で得られる左辺が、窓がけ処理部３０２の出力となる。

　実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部２０１の出力を逆変換部２０４に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1 となることを意味する。

　以後、連続する２フレームの５０％をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式（３）に示すハニング窓を用いることができる。

　このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部３０３に供給され、劣化信号スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトル arg Yn(k)は、位相制御部２０２と直線性計算部２０８に、劣化信号振幅スペクトル|Yn(k)|は、雑音抑圧部２０５に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。

　《逆変換部の構成》
　図４は、逆変換部２０４の構成を示すブロック図である。図４に示すように、逆変換部２０４は逆フーリエ変換部４０１、窓がけ処理部４０２およびフレーム合成部４０３を含む。逆フーリエ変換部４０１は、振幅制御部２０３から供給された強調信号振幅スペクトル２５０と位相制御部２０２から供給された強調信号位相スペクトル２４０ arg Xn(k)とを乗算して、強調信号（以下の式（４）の左辺）を求める。

　得られた強調信号に逆フーリエ変換を施し、１フレームがＫサンプルを含む時間領域サンプル値系列xn(t) (t=0, 1, ..., K-1)として、窓がけ処理部４０２に供給され、窓関数w(t)との乗算が行なわれる。第ｎフレームの入力信号xn(t) (t=0, 1, ..., K/2-1)に対してw(t)で窓がけされた信号は、次式（５）の左辺で与えられる。

　また、連続する２フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。フレーム長の５０％をオーバラップ長として仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式の左辺が、窓がけ処理部４０２の出力となり、フレーム合成部４０３に伝達される。

　フレーム合成部４０３は、窓がけ処理部４０２からの隣接する２フレームの出力を、Ｋ／２サンプルずつ取り出して重ね合わせ、以下の式（７）によって、t=0, 1, ..., K-1における出力信号（式（７）の左辺）を得る。得られた強調信号２６０は、フレーム合成部４０３から出力端子２０７に伝達される。

　なお、図３と図４において変換部と逆変換部における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、ＬＳＩ化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。

　また、変換部２０１において得られる周波数成分を複数統合してから、雑音抑圧部２０５で実際の抑圧を行うこともできる。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合することによって、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。

　《雑音抑圧部の構成》
　雑音抑圧部２０５は、変換部２０１から供給される劣化信号振幅スペクトルを用いて雑音を推定し、推定雑音スペクトルを生成する。そして、変換部２０１からの劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて抑圧係数を求め、劣化信号振幅スペクトルに乗じ、強調信号振幅スペクトルとして、振幅制御部２０３へ供給する。また、急変判定部２０９から急変判定結果（信号の急変が存在するか否かの情報）を受けて、急変と判定されたときには、劣化信号振幅スペクトルと推定雑音スペクトルのうち小さい方を、強調信号振幅スペクトルとして、振幅制御部２０３へ供給する。

　雑音の推定には、非特許文献２に示されるように、様々な推定方法が利用できる。

　例えば、非特許文献１には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。

　理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、１フレーム過去の強調信号レベルを雑音区間判定の指標とする。１フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。

　また、非特許文献１には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。

　さらに、非特許文献２には、推定雑音スペクトルを、統計的な劣化信号振幅スペクトルの最小値から求める方法が開示されている。この方法では、統計的に一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとして用いる。

　雑音抑圧部２０５においては、様々な抑圧を行うことが可能であるが、代表的なものとして、SS(Spectrum Subtraction:スペクトル減算)法とMMSE STSA(Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator:最小二乗平均誤差短時間振幅スペクトル推定)法とが挙げられる。SS法の場合は、変換部２０１から供給された劣化信号振幅スペクトルから推定雑音スペクトルを減算する。MMSE STSA法の場合は、変換部２０１から供給された劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて、抑圧係数を計算し、この抑圧係数を劣化信号振幅スペクトルに乗算する。この抑圧係数は、強調信号の平均二乗パワーを最小化するように決定される。

　《位相制御部および振幅制御部の構成》
　図５は位相制御部２０２および振幅制御部２０３の構成を示すブロック図である。図５に示すように、位相制御部２０２は位相回転部５０１と回転量生成部５０２とを含み、振幅制御部２０３は、補正量算出部５０３と振幅補正部５０４とを含む。

　回転量生成部５０２は、急変判定部２０９から「信号の急変が存在する」と判定された周波数成分について、劣化信号位相スペクトルの回転量を生成し、位相回転部５０１と補正量算出部５０３に供給する。位相回転部５０１では、回転量生成部５０２から回転量が供給されると、変換部２０１から供給された劣化信号位相スペクトル２２０を、供給された回転量だけ回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。

　補正量算出部５０３では、回転量生成部５０２から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部５０４に供給する。

　回転量生成部５０２は、例えば乱数によって回転量を生成する。乱数により、劣化信号位相スペクトルを各周波数で回転させると、劣化信号位相スペクトル２２０の形状が変化する。この形状の変化により、衝撃音などの雑音の特徴を弱めることができる。

　乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがあるが、まず、一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生させることができる。例えば、線形合同法で発生させた一様乱数は、０～（２^Ｍ）－１の範囲に一様に分布する。ここで、Ｍは任意の整数であり、^はべき乗を表している。位相の回転量φは、０～２πの範囲に分布させる必要がある。そこで、発生させた一様乱数を変換する。変換は、以下の式（８）で行う。ここで、Ｒは一様乱数であり、Ｒmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)-1となる。

　計算の簡単化のために、Ｒの値をそのまま回転量とすることもできる。回転量であるので２πはちょうど一回転を表す。位相を２π回転させた場合は回転させていない場合と同一である。よって、２π＋αという回転量は、回転量がαの場合と同じになる。ここでは、線形合同法により一様乱数を発生させた場合を説明したが、それ以外の方法で一様乱数を発生させた場合でも、式（８）により回転量φを求めればよい。急変判定部２０９の判定結果に応じて、いつどのくらい乱数化を行なうのかを決定してもよい。

　位相回転部５０１は、回転量生成部５０２から回転量を受け取り、劣化信号位相スペクトルを回転させる。もし、劣化信号位相スペクトルが角度で表現されている場合には、その角度に回転量φの値を加算することで回転させることができる。劣化信号位相スペクトルが複素数の正規ベクトルで表現されている場合には、回転量φの正規ベクトルを求め、劣化信号位相スペクトルに乗算することで回転させることができる。

　回転量φの正規ベクトルは、式（９）で求められる。ここで、Φは回転ベクトルであり、jはsqrt(-1)を示す。なお、sqrtは二乗根を表している。

　補正量算出部５０３による、補正係数算出方法について説明する。まず、位相の回転により出力レベルの低下が生じることを、図６および図７を用いて説明する。図６および図７は、劣化信号が図２に示すブロック図で処理された場合の信号を示している。図６と図７の違いは位相回転の有無である。図６は位相回転を行わない場合の信号を、図７は位相回転をフレーム３から行った場合の信号を示している。

　まず、位相を回転しない場合の信号について図６を用いて説明する。図６の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部３０１においてフレーム分割される。点線で区切られた、上から２番目の信号が、フレーム分割後の信号である。ここでは、連続した４フレーム分の信号を図示した。また、フレームのオーバラップ率は５０％としている。

　フレームに分割された信号は窓がけ処理部３０２によって窓がけが行われる。点線で区切られた、上から３番目の信号が窓がけ処理後の信号である。図６では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。

　次に、フーリエ変換部３０３によって、周波数領域の信号に変換されるが、図６では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部２０４の逆フーリエ変換部４０１により、時間領域へ変換された信号を図示している。点線で区切られた、上から４番目の信号が位相回転後の信号である。ただし、図６では位相回転を行っていないため、窓掛け処理後の信号から変化していない。

　逆変換部２０４の逆フーリエ変換部４０１から出力された強調信号は、窓掛け処理を再度実施される。図６では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部４０３において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバラップ率が５０％であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図６のように入力信号と出力信号は一致する。

　一方、位相を回転する場合の信号について図７を用いて説明する。図７に示したのは位相回転をフレーム３から実施した場合の信号である。最上部に描かれているのは、図６と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図６と同様である。

　図７では、フレーム３から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム３および４の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理し、フレーム合成する。このとき、フレーム２とフレーム３が重なるiiの区間で、フレーム２とフレーム３の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図７のiiの区間で出力信号レベルが低下する。

　この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。

　図８に、フレーム分割および窓掛け処理後の連続した２フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバラップ率は50%としている。ここで、nはx1の離散時間を、mはx2の離散時間を表しており、オーバラップ率が50%の場合には、以下の式（１０）が成立する。

　また、x1とx2の関係は、以下の式（１１）のようになる。

　まず、時間領域信号から周波数領域信号への変換および逆変換の式を示す。周波数領域信号X[k]は、時間領域信号x[n]のフーリエ変換によって、以下の式（１２）のように表現される。ここで、ｋは離散周波数を表し、Ｌはフレーム長である。

　また、周波数領域信号X[k]を逆変換により、時間領域信号x[n]に戻すと、以下の式（１３）のように表現される。

　これに基づいて、時間領域信号x1[n],x2[m]を、周波数領域信号X1[k],X2[k] に変換すると、以下の式（１４）、式（１５）のように表現される。

　周波数領域信号X1[k],X2[k]を、逆変換によってそれぞれ時間領域信号x1[n],x2[m]に戻すと、式（１３）より、以下の式（１６）、式（１７）のように表現される。

　逆変換部は、フーリエ変換により周波数領域信号を時間領域信号に変換する。その後、フレーム合成部により、前フレームと現フレームの強調音声をオーバラップ加算する。例えば、図示した例のオーバラップ率５０％では、離散時間m=L/2～L-1の区間で隣接フレームの加算が行われる。この加算区間m=L/2～L-1を考える。

　時間領域の加算に、式（１６）および式(１７)を代入すると、以下の式（１８）のように表現される。

　さらに、式（１８）中の周波数領域信号X1[k],X2[k]に式（１４），式（１５）を代入すると、以下の式（１９）のように表現される。

　さらに、式（１９）を展開すると、以下の式（２０）のように表現される。

　ここで、式（２０）の各項に含まれる総和演算を考える。任意の整数gを導入し、以下の式（２１）が成立する。

　デルタ関数δ[g]のフーリエ逆変換式は、式（２２）で示される。

ここで、デルタ関数δ[g]は、以下の式（２３）で示される。

　式（２２）より、式（２１）は、以下の式（２４）に変形できる。

　式（２４）の関係から、式（２０）は、以下の式（２５）で表わされる。

　よって、式（２０）は、以下の式（２６）となる。

　さて、ここで周波数領域信号X2[k]に対し、位相回転を行った場合を考える。このときの時間領域信号は、図９のようになる。

　X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式（２７）となる。

　これを、式（１８）に代入すると、以下の式（２８）が成立する。

これを展開すると、以下の式（２９）が成立する。

　ここで、オーバラップ率５０％と仮定し、オーバラップ区間のn=L/2～L-1について考える。オーバラップ区間では、式（１１）より、以下の式（３０）のように展開できる。

　ここで、それぞれの項にある括弧内の

の項は、ベクトル合成であるから、特定の周波数ｋに注目すると、図１０のように描ける。もし、位相回転が行われていないとき、つまりφ[k]=0の場合は、図１１のようになる。

　式（３１）の絶対値を求めると、以下の式（３２）となる。

　よって、式（３１）の絶対値が最大になる条件は、φ[k]=０の場合であり、その値は２である。つまり、位相回転が行われると、出力信号の大きさが小さくなることがわかる。この出力信号レベルの低下量を補正するように、補正量算出部５０３において強調信号振幅スペクトルの振幅補正量を決定する。

　ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。

　まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図１１に示されるＳのようになり、そのベクトルの大きさ|Ｓ|は、以下の式（３３）で表わされる。

　一方、一様乱数により位相回転を行う場合、連続するフレーム間位相差φは、-πから+πまでの範囲に一様に分布する。この連続するフレーム間で位相が異なる場合の合成ベクトルは、図１０に示されるベクトルS′のようになる。そのベクトルの大きさ|S′|は、以下の式（３４）で表わされる。

　さて、ここで、期待値E(|S′|^2)を求めると、以下の式（３５）のようになる。

　ここで、φが-πから+πまで一様分布することから、以下の式（３６）のようになる。

　このため、|S'|^2の期待値は、以下の式（３７）で表わされる。

　さて、位相の回転をしない場合の、期待値E(|S|^2)は、式（３３）より以下の式（３８）で表わされる。

　式（３７）と式（３８）の比を取ると、以下の式（３９）が成立する。

　つまり、位相を一様乱数で回転させる場合、出力信号のパワー平均値は入力と比較して、1/2だけ小さくなる。振幅補正部５０４では振幅値に対し補正を行うので、補正量算出部５０３は補正係数をsqrt(2)とし、振幅補正部５０４に伝達する。

　以上、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数を一意に定めることができる。正規乱数を使う場合の補正係数の導出を以下に説明する。

　正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けを行う必要がある。

　具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)を重みづけする。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。

　正規乱数による位相回転を行った場合の出力パワー期待値Ｅ(S"^2)は、一様乱数の出力パワー期待値である式（３５）に、重み付け関数f(φ)およびその積分値を導入し、以下の式（４０）のように表現できる。

　重み関数f(φ)は、正規分布により表現できるので、以下の式（４１）が成立する。

　ここで、σは分散をμは平均を表している。

　例えば、平均値μ＝０，分散σ＝１の標準正規分布では、以下の式（４２）となるので、となるので、これを式（４０）に代入すると、式（４３）のようになる。

　ここで、式（４３）の右辺、第２項を数値計算すると、式（４４）が成立するので、位相の回転をしない場合の、E(|S^2|)との比は、式（４５）で表わされる。

　補正量算出部５０３は、位相を標準正規分布の正規乱数で回転させる場合、振幅補正部５０４に補正係数をsqrt(1/0.805)として、伝達する。振幅補正は位相回転を行った周波数に対して行う。よって、位相回転を行わない周波数の補正係数は、1.0とする。位相回転を行った周波数の補正係数のみ、上記で導出した値とする。

　このように振幅制御部２０３では、位相制御部２０２から伝達された位相の回転量を用いて振幅補正係数を算出し、雑音抑圧部２０５から供給された強調信号振幅スペクトルに乗じ、逆変換部２０４に供給する。これにより、劣化信号位相スペクトルを回転させ、強調信号位相スペクトルを得た場合の出力レベル低下を解消することができる。

　《直線性計算部および急変判定部の構成》
　図１２は、直線性計算部２０８および急変判定部２０９の内部構成について説明するための図である。図１２に示すように、直線性計算部２０８は、周波数方向に位相の変化量を算出する変化量算出部１２０１と、位相の変化量の平坦度を算出する平坦度算出部１２０２を含んでいる。変化量算出部１２０１は、位相成分信号２２０（p(k)(kは周波数））を入力して、隣接する周波数の位相差Δp(k)=p(k)-p(k-1)を位相の変化量１２１０（位相の傾き）として求める。

　平坦度算出部１２０２は、変化量算出部１２０１で得られた位相変化量Δp(k)=p(k)-p(k-1)の、周波数軸に沿った平坦度（バラツキ）を調べる。隣接する周波数の位相変化量の差Δ₂p(k)=Δp(k)-Δp(k-1)を平坦度１２２０とする。位相変化量が平坦であれば差分は０になる。また、位相の微分値を位相変化量としてさらにその微分値を平坦度１２２０としてもよい。その場合、位相の二次微分値が０に近ければ（所定値以下であれば）平坦と判定できる。

　ここでは変化量算出部１２０１は、隣接周波数間の位相の差分を用いて変化量を算出したが、本発明はこれに限定されるものではない。位相の周波数による微分で直線性を判定してもよい。複数の周波数における複数の微分結果のバラツキが小さいほど直線性が高い。局所的な直線性は、局所的な微分結果を用いて評価することができる。バラツキの指標として、平坦度(Flatness Measure)を用いることができる。

　急変判定部２０９は、算出された平坦度の絶対値が一定以下の場合、その平坦度に対応する周波数は衝撃音を含むと判定する。さらに、衝撃音を含むと判定された周波数の数とあらかじめ定められた閾値を比較して、衝撃音あり（１）または衝撃音無し（０）を現フレームの判定結果１２３０として出力する。

　図１３は、位相およびその変化量をグラフに示したものである。周波数領域において、周波数軸に沿って、グラフ１３０１のように位相が変化する場合、その位相変化量は、周波数領域において、周波数軸に沿って、グラフ１３０２に示すように変化する。この変化が平坦な周波数１３０３を導き出すことにより、位相の直線性を判別する。

　信号の急変部では位相が直線的に変化することが分かっているため、このように位相の直線性を求めてその平坦度を判定することにより、信号の急変の存在を判定することが可能となる。そして、衝撃音など信号の急変が存在するフレームにおいて、位相スペクトルを回転操作することにより、その急変を取り除くことができるため、高品質な強調信号を得ることができる。

　図１４は、本実施形態にかかる雑音抑圧装置２００をソフトウェアを用いて実現する場合のハードウェア構成について説明する図である。

　雑音抑圧装置２００は、プロセッサ１４１０、ＲＯＭ(Read Only Memory)１４２０、ＲＡＭ(Random Access Memory)１４４０、ストレージ１４５０、入出力インタフェース１４６０、操作部１４６１、入力部１４６２、および出力部１４６３を備えている。雑音抑圧装置２００は、カメラ１４６４を備えていてもよい。プロセッサ１４１０は中央処理部であって、様々なプログラムを実行することにより雑音抑圧装置２００全体を制御する。

　ＲＯＭ１４２０は、プロセッサ１４１０が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。ＲＡＭ１４４０は、不図示のプログラムロード領域の他に、入力信号２１０、位相成分信号２２０、振幅成分信号２３０、強調信号２６０、位相変化量１２１０、平坦度１２２０および急変判定結果１２３０等を記憶する領域を有している。また、ストレージ１４５０は、雑音抑圧プログラム１４５１を格納している。雑音抑圧プログラム１４５１は、変換モジュール、位相制御モジュール、振幅制御モジュール、逆変換モジュール、雑音抑圧モジュール、直線性計算モジュール、急変判定モジュールを含んでいる。雑音抑圧プログラム１４５１に含まれる各モジュールをプロセッサ１４１０が実行することにより、図２の変換部２０１、位相制御部２０２、振幅制御部２０３、逆変換部２０４、雑音抑圧部２０５、直線性計算部２０８、急変判定部２０９の各機能を実現できる。なお、ストレージ１４５０はノイズデータベースを格納してもよい。

　プロセッサ１４１０が実行した雑音抑圧プログラム１４５１の出力である強調音声は、入出力インタフェース１４６０を介して出力部１４６３から出力される。これにより、例えば、入力部１４６２から入力した操作部１４６１の操作音などを抑圧することができる。また、入力部１４６２から入力した入力信号に衝撃音が含まれたことを検出してカメラ１４６４による撮影を開始するなどといった適用法も可能である。

　図１５は、上記雑音抑圧プログラム１４５１による処理の流れを説明するためのフローチャートである。まず、ステップＳ１５０１において、入力部１４６２から信号を入力すると、ステップＳ１５０３に進む。ステップＳ１５０３では、変換部２０１が入力信号を周波数領域に変換して、振幅・位相に分割する。次に、ステップＳ１５０５では、離散周波数ｋを１に、カウント値Ｉを０に設定して、順次周波数空間での処理を開始する。ステップＳ１５０７に進むと、設定された周波数での位相の変化を算出する。さらにステップＳ１５０９では、位相変化の変化を算出する。位相変化の変化が一定範囲内か否かに応じて、位相の直線性を判断する。具体的には位相変化の変化が所定の閾値Ｎを越えない場合、位相は平坦に変化すると判断し、直線性が高いと判断して、ステップＳ１５１３においてＩをインクリメントする。一方、位相変化の変化が所定の閾値Ｎ以上の場合、位相変化は平坦ではないと判断し、直線性が低いと判断して、ＩをインクリメントせずにステップＳ１５１５に進む。以上のステップＳ１５０７～Ｓ１５１３を、ｋ＝Ｆ（Ｆはフレーム全体の周波数の数）になるまで繰り返す。最終的には、ステップＳ１５１７において、Ｉ（直線性の高い周波数）を所定の閾値Ｍと比較する。ＩがＭ以上の場合に衝撃音ありと判定し（Ｓ１５２１）、それ以外を衝撃音なしと判定する（Ｓ１５２３）。、判定結果を、雑音抑圧部２０５および位相制御部２０２に供給する（Ｓ１５２５）。

　以上の処理により、衝撃音をより正確に検出することができ、適宜、その衝撃音を適切に除去することが可能となる。

　［他の実施形態］
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

　なお、上記の各実施形態においては、以下に示すような信号処理装置、信号処理方法および信号処理プログラムの特徴的構成が示されている（以下のように限定されるわけではない）。
　　（付記１）
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
　周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
　前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
　を備えた信号処理装置。
　　（付記２）
　前記直線性計算手段は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて、前記直線性を計算する付記１に記載の信号処理装置。
　　（付記３）
　前記直線性計算手段は、周波数領域における前記位相成分信号の微分値の平坦度を計算し、
　前記判定手段は、前記微分値の前記平坦度が高ければ、前記入力信号の急変が存在するものと判定する付記１または２に記載の信号処理装置。
　　（付記４）
　前記直線性計算手段は、
　周波数ごとに位相成分と隣接周波数における位相成分の差として位相成分差を算出し、
　前記位相成分差の差に基づいて、前記直線性を計算する付記１、２または３に記載の信号処理装置。
　　（付記５）
　前記直線性計算手段は、
　前記位相成分差の差を、周波数ごとに第１閾値と比較し、
　閾値以下と判定された周波数成分の数をフレームごとにカウントしてカウント値を前記直線性として計算し、
　前記判定手段は、
　前記カウント値が第２閾値以上なら、前記入力信号に急変が存在すると判定する付記４に記載の信号処理装置。
　　（付記６）
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップを含む信号処理方法。
　　（付記７）
　前記直線性は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて計算される付記６に記載の信号処理方法。
　　（付記８）
　前記直線性は、周波数領域における前記位相成分信号の微分値の平坦度を計算することで計算され、
　前記入力信号の急変は、前記微分値の前記平坦度が高ければ、存在するものと判定される付記６または７に記載の信号処理方法。
　　（付記９）
　前記直線性は、
　周波数ごとに位相成分と隣接周波数における位相成分の差として算出された位相成分差の差に基づいて、計算される付記６、７または８に記載の信号処理方法。
　　（付記１０）
　前記直線性は、
　前記位相成分差の差を、周波数ごとに第１閾値と比較した結果、当該第１閾値以下と判定された周波数成分の数をフレームごとにカウントしたカウント値として計算され、
　前記入力信号の急変は、
　前記カウント値が第２閾値以上なら、存在すると判定される付記９に記載の信号処理方法。
　　（付記１１）
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップをコンピュータに実行させる信号処理プログラム。
　　（付記１２）
　前記直線性は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて計算される付記１１に記載の信号処理プログラム。
　　（付記１３）
　前記直線性は、周波数領域における前記位相成分信号の微分値の平坦度を計算することで計算され、
　前記入力信号の急変は、前記微分値の前記平坦度が高ければ、存在するものと判定される付記１１または１２に記載の信号処理プログラム。
　　（付記１４）
　前記直線性は、
　周波数ごとに位相成分と隣接周波数における位相成分の差として算出された位相成分差の差に基づいて、計算される付記１１、１２または１３に記載の信号処理プログラム。
　　（付記１５）
　前記直線性は、
　前記位相成分差の差を、周波数ごとに第１閾値と比較した結果、当該第１閾値以下と判定された周波数成分の数をフレームごとにカウントしたカウント値として計算され、
　前記入力信号の急変は、
　前記カウント値が第２閾値以上なら、存在すると判定される付記１４に記載の信号処理プログラム。
　この出願は、２０１３年３月５日に出願された日本出願特願２０１３－０４２４４７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
　周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
　前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
　を備えた信号処理装置。
　前記直線性計算手段は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて、前記直線性を計算する請求項１に記載の信号処理装置。
　前記直線性計算手段は、周波数領域における前記位相成分信号の微分値の平坦度を計算し、
　前記判定手段は、前記微分値の前記平坦度が高ければ、前記入力信号の急変が存在するものと判定する請求項１または２に記載の信号処理装置。
　前記直線性計算手段は、
　周波数ごとに位相成分と隣接周波数における位相成分の差として位相成分差を算出し、
　前記位相成分差の差に基づいて、前記直線性を計算する請求項１、２または３に記載の信号処理装置。
　前記直線性計算手段は、
　前記位相成分差の差を、周波数ごとに第１閾値と比較し、
　閾値以下と判定された周波数成分の数をフレームごとにカウントしてカウント値を前記直線性として計算し、
　前記判定手段は、
　前記カウント値が第２閾値以上なら、前記入力信号に急変が存在すると判定する請求項４に記載の信号処理装置。
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップを含む信号処理方法。
　入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
　周波数領域における前記位相成分信号の直線性を計算し、
　計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
　各ステップをコンピュータに実行させる信号処理プログラム。