WO2014168022A1

WO2014168022A1 - 信号処理装置、信号処理方法および信号処理プログラム

Info

Publication number: WO2014168022A1
Application number: PCT/JP2014/058962
Authority: WO
Inventors: 正徳加藤; 昭彦杉山
Original assignee: 日本電気株式会社
Priority date: 2013-04-11
Filing date: 2014-03-27
Publication date: 2014-10-16
Also published as: EP2985762A1; EP2985762A4; CN105103230A; CN105103230B; US20160071529A1; JP6439682B2; US10431243B2; JPWO2014168022A1

Abstract

入力音における音声判定の精度を向上させるための信号処理装置であって、入力信号を、周波数領域における振幅成分信号に変換する変換手段と、周波数方向における振幅成分信号の変化のノルムを算出する算出手段と、算出手段が算出した周波数方向における振幅成分信号の変化のノルムを積算する積算手段と、積算手段によって算出された周波数方向における振幅成分信号の変化のノルムの積算値に応じて、入力信号中の音声を解析する解析手段と、を備えた。

Description

信号処理装置、信号処理方法および信号処理プログラム

　本発明は、入力信号中において、人間の音声を検出する技術に関する。

　上記技術分野において、特許文献１には、入力音声フレームの背景雑音レベルを判定し、この雑音レベルに対応した閾値と入力音声フレームの音量を比較することにより音声の検出を行なう技術が開示されている。

特開２０１３－００５４１８号公報

「音声区間検出の基礎と最近の研究動向」藤本雅清、電子情報通信学会　IEICE Technical Report SP2010-23、2010年6月「混合分布ＨＭＭにおけるTree-basedクラスタリング」加藤恒夫、黒岩眞吾、清水徹、樋口宜男、電子情報通信学会論文誌　D-II Vol.J83-D-II No.11 pp.2128-2136 2000年11月「先読みモデル選択による性別非依存音声認識」花沢健、磯谷亮輔、日本音響学会講演論文集、P197-P198、2004年9月「Speaker Verification Using Adapted Gaussian Mixture Models」Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn, Digital Signal Processing 10, 19-41(2000)

　しかしながら、上記文献に記載の技術では、単に音量の比較で音声の有無を判断しようとしているため、雑音が大きい場合には全く音声検出ができなかった。雑音が小さい場合にも、音量だけで検出するのでは、検出精度が十分ではなかった。

　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係る信号処理装置は、
　入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
　前記算出手段が算出した前記変化のノルムを積算する積算手段と、
　前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
　を備えた。

　上記目的を達成するため、本発明に係る信号処理方法は、
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　を備えた。

　上記目的を達成するため、本発明に係る信号処理プログラムは、
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　をコンピュータに実行させる。

　本発明によれば、音判定の精度を向上できる。

本発明の第１実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第３実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第４実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第５実施形態に係る信号処理装置の構成の一例を示すブロック図である。本発明の第５実施形態に係る信号処理装置の構成の他の例を示すブロック図である。本発明の第５実施形態に係る変換部の構成を示すブロック図である。本発明の第５実施形態に係る逆変換部の構成を示すブロック図である。本発明の第５実施形態に係る音声検出部の構成の一例を示すブロック図である。本発明の第５実施形態に係る音声検出部の一例を説明する図である。本発明の第５実施形態に係る音声検出部の一例を説明する図である。本発明の第５実施形態に係る音声検出部の構成の他の例を示すブロック図である。本発明の第５実施形態に係る音声検出部の他の例を説明する図である。本発明の第５実施形態に係る信号処理装置による信号処理結果を示す図である。本発明の第６実施形態に係る置換部の構成を示すブロック図である。本発明の第７実施形態に係る置換部の構成を示すブロック図である。本発明の第８実施形態に係る置換部の構成を示すブロック図である。本発明の第９実施形態に係る置換部の構成を示すブロック図である。本発明の第１０実施形態に係る置換部の構成を示すブロック図である。本発明の実施形態に係る信号処理装置をソフトウェアで実現する場合の構成を示すブロック図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。

　［第１実施形態］
　本発明の第１実施形態としての信号処理装置１００について、図１を用いて説明する。信号処理装置１００は、入力信号における音声の存在を判定する装置である。

　図１に示すように、信号処理装置１００は、変換部１０１と周波数方向差分算出部１０２と積算部１０３と解析部１０４とを含む。変換部１０１は、入力信号１１０を、周波数領域における振幅成分信号１３０に変換する。周波数方向差分算出部１０２は、周波数方向における振幅成分信号１０２の変化のノルムを算出する。積算部１０３は、算出部１０２が算出した変化のノルムを積算する。解析部１０４は、積算部１０３によって算出された積算値１５０に応じて、入力信号１１０中の音声を解析する。

　以上の構成により、積算値を用いて、入力信号中に音声が存在している可能性またはその音声の属性について、より正確に判定することができる。

　雑音は周波数方向になめらかであるのに対し、音声は周波数方向に変化が大きいことに着目したものである。例えば、周波数方向における変化のノルムの積算値を利用して、積算値が大きいほど音声である可能性が高いと判定する。積算値を閾値と比較することによって硬判定（０／１）を行なってもよいし、積算値そのものを丸めて、軟判定（０－２５６）を行なってもよい。

　［第２実施形態］
　次に本発明の第２実施形態に係る信号処理装置について、図２を用いて説明する。図２は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。

　図２に示すように、信号処理装置２００は、変換部２０１と周波数方向差分算出部２０２と積算部２０３と解析部２０４と周波数方向平滑化部２０５とを含む。変換部２０１は、入力信号２１０を、周波数領域における振幅成分信号２３０に変換する。周波数方向平滑化部２０５は、振幅成分信号２３０を、周波数方向に平滑化する。周波数方向差分算出部２０２は、平滑化された振幅成分信号２３０の、周波数方向の変化のノルムを算出する。積算部２０３は、周波数方向差分算出部２０２が算出した変化のノルムを積算する。解析部２０４は、積算部２０３によって算出された積算値２５０に基づいて、女声または子供声の存在を判定する。なお、解析部２０４は、悲鳴の存在を判定してもよい。

　以上の構成により、入力信号２１０中に、女声または子供声が混在しているか否かまたはその可能性を判定する。対象空間に女性や子供が存在しているか否かを判定したい場合に有用である。例えば、子供の泣き声を検出してアラートをする装置に組み込むことで、誤報をなくし、より正確にアラートを行なうことができる。

　この実施形態は、女声および子供声が男声と比較して変動がゆるやかであることに着目したものである。男声は変動が密集しているため、周波数方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。これにより、女声および子供声を、正確に抽出できる。また、悲鳴は声のピッチが通常よりも高く、女声または子供声と似た特徴を有する。

　［第３実施形態］
　次に本発明の第３実施形態に係る信号処理装置について、図３を用いて説明する。図３は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。

　図３に示すように、信号処理装置３００は、変換部３０１と周波数方向差分算出部３０２と積算部３０３と解析部３０４と時間方向平滑化部３０５とを含む。変換部３０１は、入力信号３１０を、周波数領域における振幅成分信号３３０に変換する。時間方向平滑化部３０５は、振幅成分信号３３０を、時間方向に平滑化する。周波数方向差分算出部３０２は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部３０３は、周波数方向差分算出部３０２が算出した変化のノルムを積算する。解析部３０４は、積算部２０３によって算出された積算値３５０に基づいて、男声の存在を判定する。

　以上の構成により、入力信号３１０中に、男声が混在しているか否かまたはその可能性を判定する。対象空間に男性が存在しているか否かを判定したい場合に有用である。例えば、女子寮など男子禁制の場所に対する、男性の侵入を検出してアラートをする装置に組み込むことで、誤報をなくし、より正確にアラートを行なうことができる。

　この実施形態は、男声が女声および子供声と比較して変動が密集していることに着目したものである。女声および子供声は変動が緩やかであるため、時間方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。これにより、男声を、正確に抽出できる。

　［第４実施形態］
　次に本発明の第４実施形態に係る信号処理装置について、図４を用いて説明する。図４は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。

　図４に示すように、信号処理装置４００は、変換部４０１と周波数方向差分算出部４０２、４１２と積算部４０３、４１３と解析部４０４と周波数方向平滑化部４０５と時間方向平滑化部４１５とを含む。変換部４０１は、入力信号４１０を、周波数領域における振幅成分信号４３０に変換する。周波数方向平滑化部４０５は、振幅成分信号４３０を、周波数方向に平滑化する。時間方向平滑化部４１５は、振幅成分信号４３０を、時間方向に平滑化する。周波数方向差分算出部４０２、４１２は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部４０３、４１３は、周波数方向差分算出部４０２、４１２が算出した変化のノルムを積算する。解析部４０４は、積算部４０３、４１３によって算出された積算値に基づいて、男声の存在および女声および子供声の存在を判定する。

　以上の構成により、入力信号４１０中に、男声が混在しているか否か、女声および子供声が混在しているか否か、またはそれらの可能性を判定する。音声検出だけでなく、話者識別や音声認識等にも適用可能である。例えば、音声認識技術などと組み合わせて、男声用の認識辞書を用いるか、女声および子供声用の認識辞書を用いるかで切り分けることにより、認識精度を向上させることができる。

　［第５実施形態］
　次に本発明の第５実施形態に係る信号処理装置について説明する。本実施形態に係る信号処理装置は、例えば、風切り音のような非定常雑音を適切に抑圧する。簡単に説明すると、周波数領域において、入力音中の定常成分を推定して、推定された定常成分で入力音の一部または全部を置換する。ここで入力音は音声に限定されるものではない。例えば、音声以外に、環境音(街頭の雑踏の音、電車・自動車の走行音、警報・警告音、拍手の音など)、人や動物の声(小鳥のさえずり、犬・猫の鳴き声、笑い声や泣き声、歓声、など)、音楽などを入力音としてもよい。なお、本実施形態では、音声を入力音の代表例として説明する。

　図５は、信号処理装置２００の全体構成を示すブロック図である。入力端子５０６には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子５０６に供給された劣化信号は、変換部５０１においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル（振幅成分）|Ｘ(k, n)|は、定常成分推定部５０２、置換部５０３および音声検出部５０５へ供給され、位相スペクトル（位相成分）５２０は、逆変換部５０４に供給される。なお、ここでは変換部５０１が、定常成分推定部５０２、置換部５０３および音声検出部５０５に劣化信号振幅スペクトル|Ｘ(k, n)|を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを供給してもよい。

　定常成分推定部５０２は、変換部５０１から供給される劣化信号振幅スペクトル|Ｘ(k, n)|に含まれる定常成分を推定し、定常成分信号（定常成分スペクトル）Ｎ(k, n)を生成する。

　音声検出部５０５は、劣化信号振幅スペクトル|Ｘ(k, n)|において、周波数ごとに音声が含まれているか否かを判定する。そして、置換部５０３において、音声が含まれていない周波数の劣化振幅成分信号|Ｘ(k, n)|を、生成した定常成分信号Ｎ(k, n)を用いて置換する。例えば、音声検出部５０１の出力が１であれば、Ｙ(k, n)＝α(k, n)Ｎ(k, n)、音声検出部５０１の出力が０であれば、Ｙ(k, n)＝|Ｘ(k, n)|となる。そして、置換部５０３は、置換結果としての強調信号振幅スペクトルＹ(k, n)を逆変換部５０４に伝達する。

　置き換えに用いる振幅スペクトル(置換用振幅スペクトル)を求める関数としては、α(k, n)Ｎ(k, n)に代表されるようなＮ(k, n)の線形写像関数に限定されない。例えば、α(k, n)Ｎ(k, n)+Ｃ(k, n) のように一次関数を採用することも可能である。その際、Ｃ(k, n)＞0とすれば置換用振幅スペクトルのレベルを全体的に向上できるので、聞いた時の定常感が向上する。Ｃ(k, n)＜０の場合には、置換用振幅スペクトルのレベルを全体的に低減できるが、その際にはスペクトルの値が負になる帯域が出現しないようにＣ(k, n)を調整する必要がある。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルＮ(k, n)の関数を用いることも可能である。

　逆変換部５０４は、変換部５０１から供給された劣化信号位相スペクトル５２０と、置換部５０３から供給された強調信号振幅スペクトルＹ(k, n)とを合成して逆変換を行い、強調信号として、出力端子５０７に供給する。

　本実施形態によれば、音声が含まれている周波数を残して、定常成分信号Ｎ(k, n)を用いた置換を行なうので、抑圧による音声歪みなどを回避することができる。

　図６は、本実施形態に係る信号処理装置の他の例を説明するための図である。本実施形態に係る信号処理装置６００は、信号処理装置５００と比べると、音声検出部６０５が、劣化信号振幅スペクトル|Ｘ(k, n)|において、周波数ごとに音声が含まれている確率ｐ(k, n)を出力する点で異なる。ただし、ｐ(k, n)は０以上１以下の実数である。また、置換部６０３は、音声存在確率ｐ(k, n)に応じた置換処理を行う。その他の構成および動作は、図５と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。置換部６０３においては、音声存在確率ｐ(k, n)と定常成分信号Ｎ(k, n)とを用いて、劣化信号振幅スペクトル|Ｘ(k, n)|を置換する。例えば、値域が０から１であるｐ(k, n)の関数α（ｐ(k, n)）を用いて、出力信号Ｙ(k, n)＝α（ｐ(k, n)）Ｎ(k, n)＋（１－α（ｐ(k, n)））|Ｘ(k, n)|）としてもよい。

　《変換部の構成》
　図７は、変換部５０１の構成を示すブロック図である。図７に示すように、変換部５０１はフレーム分割部７１１、窓がけ処理部(windowing unit)７１２、およびフーリエ変換部７１３を含む。劣化信号サンプルは、フレーム分割部７１１に供給され、Ｋ／２サンプルごとのフレームに分割される。ここで、Ｋは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部７１２に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第ｎフレームの入力信号x(t, n) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。

　また、連続する２フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の５０％を仮定すれば、t=0, 1, ..., K-1 に対して、以下の式で得られる左辺が、窓がけ処理部７１２の出力となる。

　実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部５０１の出力を逆変換部５０４に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w²(t)+w²(t+K/2)=1 となることを意味する。

　以後、連続する２フレームの５０％をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式に示すハニング窓を用いることができる。

　このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部７１３に供給され、劣化信号スペクトル|Ｘ(k, n)|に変換される。劣化信号スペクトル|Ｘ(k, n)|は位相と振幅に分離され、劣化信号位相スペクトル arg |Ｘ(k, n)|は、逆変換部５０４に、劣化信号振幅スペクトル|Ｘ(k, n)|は、定常成分推定部５０２および置換部５０３に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。

　《逆変換部の構成》
　図８は、逆変換部５０４の構成を示すブロック図である。図８に示すように、逆変換部５０４は逆フーリエ変換部８１１、窓がけ処理部８１２およびフレーム合成部８１３を含む。逆フーリエ変換部８１１は、置換部５０３から供給された強調信号振幅スペクトル(|Y(k, n)|)（図中Ｙ）と変換部５０１から供給された劣化信号位相スペクトル５２０(arg |Ｘ(k, n)|)とを乗算して、強調信号スペクトル（以下の式の左辺）を求める。

ただし、j は虚数単位である。

　得られた強調信号スペクトルに逆フーリエ変換を施し、１フレームがＫサンプルを含む時間領域サンプル値系列 y(t, n) (t=0, 1, ..., K-1)として、窓がけ処理部２４２に供給され、窓関数w(t)との乗算が行なわれる。第ｎフレームの強調信号 y(t, n) (t=0, 1, ..., K-1)に対してw(t)で窓がけされた信号は、次式の左辺で与えられる。

　フレーム合成部８１３は、窓がけ処理部８１２からの隣接する２フレームの出力を、Ｋ／２サンプルずつ取り出して重ね合わせ、以下の式によって、t=0, 1, ..., K/2-1における出力信号（式の左辺）を得る。得られた出力信号は、フレーム合成部８１３から出力端子５０７に伝達される。

　なお、図７と図８において変換部５０１と逆変換部５０４における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、ＬＳＩ化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。

　また、変換部５０１において得られる周波数成分を複数統合してから、定常成分推定部５０２で定常成分の推定を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも小さくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して共通の定常成分スペクトルを求め、それを同一統合周波数成分に属する個別の周波数成分に対して共通に用いればよい。このように、複数の周波数成分を統合してから定常成分信号の推定を実行すると、適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。

　（定常成分スペクトルの定義）
　定常成分スペクトルとは、入力信号振幅スペクトルに含まれる定常成分のことである。定常成分は、パワーの時間変化が入力信号よりも小さいという特徴を持つ。時間変化は差分または比で算出されることが一般的である。時間変化を差分で計算する場合、あるフレーム n において入力信号振幅スペクトルと定常成分スペクトルを比較すると、次式の関係を満足する周波数 k が少なくとも１つは存在する。

　また、時間変化を比で計算する場合には、次式の関係を満足する周波数 k が少なくとも１つは存在する。

　
　つまり、全てのフレームnと周波数 k において、上式の左辺のほうが右辺よりも必ず大きい場合、Ｎ(k, n)は定常成分スペクトルでは無い、と定義できる。関数がＸとＮの指数や対数、累乗でも同様に定義できる。

　（定常成分スペクトルの導き方）
　定常成分推定部５０２における定常成分スペクトルＮ(k, n)の推定には、非特許文献１や非特許文献２に記載の方法など、様々な推定方法が利用できる。

　例えば、非特許文献１には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。

　理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、１フレーム過去の強調信号レベルを雑音区間判定の指標とする。１フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。

　また、非特許文献１には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。

　さらに、非特許文献２には、推定雑音スペクトルを、劣化信号振幅スペクトルの最小値（最小統計量）から求める方法が開示されている。この方法では、一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとする。

　その他、メジアンフィルタを用いて、推定雑音スペクトルを求めてもよい。雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるＷｉＮＥ(Weighted Noise Estimation)を用いて、推定雑音スペクトルを求めてもよい。

　そして、このように求められた推定雑音スペクトルを、定常成分スペクトルとして用いることができる。

　（音声検出部の一例の構成）
　図９は、音声検出部５０５、６０５の一例の構成を示す図である。音声検出部５０５、６０５は、周波数方向差分算出部９０２と積算部９０３と解析部９０４とを含む。周波数方向差分算出部９０２は、周波数方向における振幅成分信号の変化のノルムを算出する。周波数方向の変化とは、主に隣り合う周波数成分の差分や比のことを言う。例えば、変化を差分と定義した場合、振幅成分信号を|Ｘ(k, n)| とすると(ただし、kは周波数番号、nはフレーム番号)、周波数方向の変化のノルムＤ(k, n)を次のように計算する。Ｄ(k, n) = Lm|(Ｘ(k-1, n)| - |Ｘ(k, n)|)Ｌm(・)はLmノルムを表す。mは、１や２のほか、無限大でもよい。Ｌ1ノルムならば、Ｄ(k, n)は差分の絶対値、つまり以下のように計算できる。Ｄ(k, n) = ||Ｘ(k-1, n)|-|Ｘ(k, n)||

　また、Ｌ2ノルムならば、Ｄ(k, n)はＤ(k, n)は差分を二乗して平方根をとったもの、つまり以下のように計算できる。Ｄ(k, n) = √(|Ｘ(k-1, n)|-|Ｘ(k, n)|)²また、下記式の通り対数の差分のノルムを計算してもよい。Ｄ(k, n) = Lm(log10(|Ｘ(k-1, n)|)-log10(|Ｘ(k, n)|))

　計算量を削減する目的でkの範囲を限定してもよい。その際、音声成分は低域に集中していることから、kは小さい値、つまり低域に属する値を採用したほうがよい。また、周波数ビンの数が多いときは、k-1 とkでなく、k-1 とk+1、k-2とkの差分を計算してもよい。

　積算部９０３は、周波数方向差分算出部９０２が算出した変化のノルムを積算する。音声検出部５０５内の解析部９０４は、積算部９０３によって算出された積算値９５０をあらかじめ記憶された閾値と比較することによって、劣化振幅成分信号|Ｘ(k, n)|中の音声の有無（０／１）を判定する。一方、音声検出部６０５内の解析部９０４は、積算部９０３によって算出された積算値９５０を丸めて、劣化振幅成分信号|Ｘ(k, n)|中の音声の存在確率ｐ(k, n)を出力する。このとき、解析部９０４は、積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、特定の人物の声の存在を判定してもよい。

　（音声検出部の一例でのスペクトル形状）
　図１０、図１１は、ある時刻ｎにおける、劣化信号振幅スペクトル（入力信号スペクトル）|Ｘ(k, n)|を示す図である。図１０のように、隣り合う周波数での振幅の差分のノルムの総和が小さいとき、雑音と判定する。一方、図１１のように、隣り合う周波数での振幅の差分のノルムの総和が大きいとき、音声（所望音声、目的音）と判定する。

　（音声検出部の他の例の構成）
　図１２は、音声検出部５０５、６０５の他の例の構成を示す図である。この例での音声検出部５０５、６０５は、周波数方向差分算出部１２０２、１２１２と積算部１２０３、１２１３と解析部１２０４と周波数方向平滑化部１２０５と時間方向平滑化部１２１５とを含む。周波数方向平滑化部１２０５は、劣化振幅成分信号|Ｘ(k, n)|を、周波数方向に平滑化する。

　平滑化の代表例としては、移動平均と一次リーク積分が挙げられる。平滑化手段として移動平均を採用した場合、振幅成分信号を|Ｘ(k, n)|とすると、平滑化した振幅成分信号|Ｘ(k, n)|_barは以下のように計算される。

　また、一次リーク積分の場合、|Ｘ(k, n)|_barは以下のように計算される。|Ｘ(k, n)|_bar = 0.8|Ｘ(k-1, n)|_bar+ 0.2|Ｘ(k, n)|このほかには、ローパスフィルタやメジアンフィルタ、εフィルタで平滑化してもよい。

　時間方向平滑化部１２１５は、劣化振幅成分信号|Ｘ(k, n)|を、時間方向に平滑化する。周波数方向差分算出部１２０２、１２１２は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部１２０３、１２１３は、周波数方向差分算出部１２０２、１２１２が算出した変化のノルムを積算する。解析部１２０４は、積算部１２０３、１２１３によって算出された積算値に基づいて、男声の存在および女声および子供声の存在を判定する。すなわち音声検出部５０５内の解析部１２０４は、積算部１２０３によって算出された積算値をあらかじめ記憶された閾値と比較し、かつ、積算部１２１３によって算出された積算値をあらかじめ記憶された他の閾値と比較することによって、劣化振幅成分信号|Ｘ(k, n)|中の音声の有無（０／１）を判定する。一方、音声検出部６０５内の解析部１２０４は、積算部１２０３によって算出された積算値と積算部１２１３によって算出された積算値とを加算して丸めて、劣化振幅成分信号|Ｘ(k, n)|中の音声の存在確率ｐ(k, n)を出力する。このとき、解析部１２０４は、積算値を、あらかじめ記憶された特定の男性又は女性の声に関する積算値と比較することにより、特定の人物の声の存在を判定してもよい。

　（音声検出部の他の例でのスペクトル形状）
　図１３は、性別によるスペクトル形状の違いを説明するための図である。グラフ１３０１、１３０２を比べれば分かるように、女声および子供声は、男声と比較して変動がゆるやかである。男声は変動が密集しているため、周波数方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、周波数方向平滑化部１２０５を用いることにより、女声および子供声を、正確に抽出できる。一方、女声および子供声は変動が緩やかであるため、時間方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、時間方向平滑化部１２１５を用いることにより、男声を、正確に抽出できる。

　（スペクトル形状）
　図１４は、ｐ(k, n)の値に応じた、出力信号Ｙ(k, n)のスペクトル形状の変化を示す図である。図１４の上のグラフは、ｐ(k, n)が１(=音声)に近いときを表わしており、処理結果Ｙ(k, n)は、入力信号|Ｘ(k, n)|により近いスペクトル形状となる。一方、図１４の下のグラフは、ｐ(k, n)が０(=非音声)に近いときを表わしており、処理結果Ｙ(k, n)は、定常成分信号Ｎ(k, n)により近いスペクトル形状となる。

　（係数αについて）
　図５に示した置換部５０３で定常成分信号Ｎ(k, n)に積算する係数α(k, n)としては経験的に適切な値を決める。例えば、α(k, n)＝１なら、Ｙ(k, n)＝Ｎ(k, n)となり、定常成分信号Ｎ(k, n)がそのまま逆変換部５０４への出力信号となる。このとき、定常成分信号Ｎ(k, n)が大きいと、大きな雑音が残ってしまう。そこで、逆変換部５０４へ出力する振幅成分信号の最大値が所定値以下になるように、α(k, n)を定めてもよい。例えば、α(k, n)＝０．５ならパワー半分の定常成分信号に置き換えることになる。α(k, n)＝０．１だと、音は小さくなって形は定常成分信号Ｎ(k, n)と同じスペクトル形になる。

　例えば、ＳＮ比が高いときは静かなため、α(k, n)を小さくして、強く抑圧してもよい。逆に、ＳＮ比が高い時は、ノイズが小さいので、α(k, n)を１にして、残すことが考えられる。そのほかには、高域が強調されて耳障りになることに配慮して、α(k, n)はkがある閾値以上ならば十分小さい値となる関数や、k が大きくなるほど小さい値になる k の単調減少関数としてもよい。

　本実施形態によれば、音声の存在可能性に応じた雑音の定常化を行なうことができ、音声歪みなどを効果的に回避しつつ、風切り音のような非定常雑音を抑圧することができる。なお、置換部５０３は、周波数毎ではなく、サブバンドごとに、振幅成分を置き換えてもよい。

　［第６実施形態］
　次に本発明の第６実施形態に係る信号処理装置について、図１５を用いて説明する。図１５は、本実施形態に係る信号処理装置の置換部５０３の構成を説明するための図である。本実施形態に係る置換部５０３は、上記第５実施形態と比べると、比較部１５３１と上側置換部１５３２を有する点で異なる。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　比較部１５３１は、劣化信号振幅スペクトル|Ｘ(k, n)|と、定常成分スペクトルＮ(k, n)を第１関数としての線形写像関数で計算した第１閾値とを比較する。本実施形態では線形写像関数のなかで代表的なものである定数倍、つまりα1(k, n)倍と比較する場合について説明を行う。上側置換部１５３２は、音声検出部５０５からの音声有無信号（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2Ｎ(k, n)、そうでなければ|Ｙ(k, n)|＝|Ｘ(k, n)|とする。つまり、非音声区間の振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、定常成分信号Ｎ(k, n)のα2倍に置き換え、小さいところはそのままのスペクトル形状を置換部５０３の出力信号|Ｙ(k, n)|とする。
　劣化信号振幅スペクトル|Ｘ(k, n)|との比較に用いるスペクトルの計算方法は、定常成分スペクトルＮ(k, n)の線形写像関数を用いた方法に限定されない。例えば、α１(k, n)Ｎ(k, n)+Ｃ(k, n) のように一次関数を採用することも可能である。その際、Ｃ(k, n) ＜ 0とすれば定常成分信号に置き換えられる帯域が増えるので、耳障りな非定常雑音を多く抑圧できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルＮ(k, n)の関数を用いることも可能である。

　非音声帯域であって、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

　α2(k, n)については、各時刻について、以下の（１）→（２）の手順で求めることができる。
（１）あらかじめ入力信号の短時間移動平均X_bar(k, n)（kとnは、それぞれ周波数および時刻に対応するインデックス）を、例えば、以下のように計算しておく|X_bar(k, n)| = (|Ｘ(k, n-2)| + |Ｘ(k, n-1)| + |Ｘ(k, n)| + |Ｘ(k, n+1)| + |Ｘ(k, n+2)|)/5（２）短時間移動平均(|X_bar(k, n)|)と置き換え後の値(α2(k, n)・Ｎ(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにα2(k, n)の値を変更する。変更後の値を α2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に α2_hat(k, n) = 0.5・α2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)α2_hat(k, n) = |X_bar(k, n)|/|Ｎ(k, n)| とする (|X_bar(k, n)| と |Ｎ(k, n)|を使って計算する)。 (c)α2_hat(k, n) = 0.8・|X_bar(k, n)|/|Ｎ(k, n)| + 0.2 とする (同上)。

　しかし、α2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるα2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、α2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたα2(k, n)の値を決めてもよい。

　［第７実施形態］
　次に本発明の第７実施形態に係る信号処理装置について、図１６を用いて説明する。図１６は、本実施形態に係る信号処理装置の置換部５０３の構成を説明するための図である。本実施形態に係る置換部５０３は、上記第５実施形態と比べると、比較部１６３１と下側置換部１６３２を有する点で異なる。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　比較部１６３１は、劣化信号振幅スペクトル|Ｘ(k, n)|と、定常成分信号Ｎ(k, n)のβ1(k, n)倍とを比較する。下側置換部１６３２は、非音声区間であって、振幅（パワー）
成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のβ1(k, n)倍より小さいところのみ、定常成分信号Ｎ(k, n)のβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を置換部６０３の出力信号Ｙ(k, n)とする。つまり、下側置換部１６３２は、音声検出部５０５からの音声有無信号（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＜β1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝β2(k, n)Ｎ(k, n)、そうでなければ|Ｙ(k, n)|＝|Ｘ(k, n)|とする。

　非音声帯域であって、定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値β1(k, n)Ｎ(k, n)よりもパワーが大きい帯域における自然性を保持できるため、音質が向上する。

　β(k, n)については、各時刻について、以下の（１）→（２）の手順で求めることができる。
（１）あらかじめ入力信号の短時間移動平均X_bar(k, n)（kとnは、それぞれ周波数および時刻に対応するインデックス）を、例えば、以下のように計算しておくX_bar(k, n) = (Ｘ(k, n-2) + Ｘ(k, n-1) + Ｘ(k, n) + Ｘ(k, n+1) + Ｘ(k, n+2))/5（２）短時間移動平均(X_bar(k, n))と置き換え後の値(β2(k, n)・Ｎ(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにβ2(k, n)の値を変更する。変更後の値を β2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に β2_hat(k, n) = 0.5・β2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)β2_hat(k, n) = X_bar(k, n)/Ｎ(k, n) とする (X_bar(k, n) とＮ(k, n)を使って計算する)。 (c)β2_hat(k, n) = 0.8・X_bar(k, n)/Ｎ(k, n) + 0.2 とする (同上)。

　しかし、β2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるβ2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、β2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたβ2(k, n)の値を決めてもよい。

　条件：|Ｘ(k, n)| ＞ β1(k, n)・Ｎ(k, n) かつ β1(k, n)・Ｎ(k, n) － |X_bar(k, n)| ＞ δ
　計算式１：β2(k, n-1) = X_bar(k, n)/Ｎ(k, n)
　計算式２：β2(k, n) = X_bar(k, n)/Ｎ(k, n)
　計算式３：β2(k, n+1) = X_bar(k, n)/Ｎ(k, n)
　このように、定常成分信号Ｎ(k, n)では、短い時間での振幅成分の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。

　［第８実施形態］
　次に本発明の第８実施形態に係る信号処理装置について、図１７を用いて説明する。図１７は、本実施形態に係る信号処理装置の置換部５０３の構成を説明するための図である。本実施形態に係る置換部５０３は、上記第６実施形態と比べると、第２比較部１７３３と下側置換部１７３４を有する点で異なる。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　上側置換部１５３２は、音声検出部５０５からの音声有無信号（０／１）を入力し、非音声、かつ|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)1|＝α2Ｎ(k, n)、そうでなければ|Ｙ1(k, n)|＝|Ｘ(k, n)|とする。つまり、非音声区間で振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍より大きいところのみ、定常成分信号Ｎ(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第２比較部１７３３への出力信号Ｙ1(k, n)とする。

　一方、下側置換部１７３４は、音声検出部５０５からの音声有無信号（０／１）を入力し、非音声区間であって、上側置換部１５３２からの出力信号Ｙ1(k, n)が定常成分信号Ｎ(k, n)のβ1(k, n)倍より小さい周波数のみ、定常成分信号Ｎ(k, n)のβ2(k, n)倍に置き換える。大きいところはそのままのスペクトル形状を出力信号|Ｙ2(k, n)|とする。つまり、|Y1(k, n)|＜β1(k, n)Ｎ(k, n)ならば|Ｙ2(k, n)|=β2(k, n)Ｎ(k, n)そうでなければ、|Ｙ1(k, n)|＝|Ｙ2(k, n)|となる。

　定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)Ｎ(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、音声区間において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。

　［第９実施形態］
　次に本発明の第９実施形態に係る信号処理装置について、図１８を用いて説明する。図１８は、本実施形態に係る信号処理装置の置換部５０３の構成を説明するための図である。本実施形態に係る置換部５０３は、上記第６実施形態と比べると、上側置換部１８３２が劣化振幅信号|Ｘ(k, n)|の係数α(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　上側置換部１８３２は、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分信号|Ｘ(k, n)|のα2倍に置き換え、小さいところはそのままのスペクトル形状を置換部５０３の出力信号|Ｙ(k, n)|とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｙ(k, n)|＝α2|Ｘ(k, n)|、そうでなければ、|Ｙ(k, n)|＝|Ｘ(k, n)|となる。

　定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、風雑音を抑圧しつつ音声認識を行ないたい場合などに効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。

　［第１０実施形態］
　次に本発明の第１０実施形態に係る信号処理装置について、図１９を用いて説明する。図１９は、本実施形態に係る信号処理装置の置換部５０３の構成を説明するための図である。本実施形態に係る置換部５０３は、上記第８実施形態と比べると、上側置換部１９３２が、第９実施形態の上側置換部１８３２のように劣化振幅信号|Ｘ(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　上側置換部１９３２は、非音声区間であって、振幅（パワー）成分|Ｘ(k, n)|が定常成分信号Ｎ(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分信号|Ｘ(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部５０３の出力信号Ｙ(k, n)とする。つまり、|Ｘ(k, n)|＞α1(k, n)Ｎ(k, n)ならば|Ｘ(k, n)|＝α2|Ｘ(k, n)|、そうでなければ、|Ｘ(k, n)|＝|Ｘ(k, n)|となる。

　定常成分信号の所定係数倍の閾値α1(k, n)Ｎ(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。

　［応用分野］
　第１実施形態で説明した音声検出の応用分野については、非特許文献１の２．２節に記載されている通り、以下のものがある。
　（１）入力信号から非音声区間の信号を取り除き音声区間のみを符号化して伝送すれば、転送料の削減を実現できる。あるいは、符号化の際に、音声区間と非音声区間とでビットレートを変更すれば、より効果的かつ高品質な情報通信を行なうことができる。
　（２）非音声区間と音声区間とで雑音、残響除去、音源分離、エコーキャンセラの処理の切り分けを行なうことで、信号処理を高性能に行なうことができる。
　（３）音声認識技術を適用する際に、音声区間と非音声区間とを切り分け、音声区間のみを認識対象とすることで認識誤りを低下させることができる。

　一方、第２実施形態で説明した音声識別については、非特許文献２（4.1.3節「実験方法」の第二段落）、非特許文献３（図１）および非特許文献４（p.26、FIG. 2）などに記載されているように、以下のものがある。

　（１）音声認識性能を向上させるために用いる。男女別の認識モデル（「性別依存モデル」）を学習させる。
　（２）複数人が参加した会議の音声データを解析する際に、誰がいつ話したかを判定する。
　（３）テレビ放送や映画の字幕などの自動作成の際に、誰がいつ話したかを判定する。

　［他の実施形態］
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させる信号処理プログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

　以下、一例として、第１実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ２０００に設けられたＣＰＵ２００２で実行する処理の流れを図２０を用いて説明する。

　まず、入力信号を、周波数領域における振幅成分信号に変換する（Ｓ２００１）。周波数方向における前記振幅成分信号の変化のノルムを算出する（Ｓ２００３）。算出した変化のノルムを積算する（Ｓ２００５）。積算値に応じて、入力信号中の音声を解析する（Ｓ２００７）。

　これらの各処理を行なうプログラムモジュールがメモリ２００４に格納されており、ＣＰＵ２００２はメモリ２００４に格納されたそれらのプログラムモジュールを順次実行することにより、第１実施形態と同様の効果を得ることができる。

　同様に、第２実施形態～第１０実施形態についても、ＣＰＵ２００２がブロック図で説明した各機能構成に対応するプログラムモジュールをメモリ２００４から実行することにより、各実施形態の効果を得ることができる。

　［実施形態の他の表現］
　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
　前記算出手段が算出した前記変化のノルムを積算する積算手段と、
　前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
　を備えた信号処理装置。
（付記２）
　前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する付記１に記載の信号処理装置。
（付記３）
　前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
　前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
　前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
　前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定することを特徴とする付記１または２に記載の信号処理装置。
（付記４）
　前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
　前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
　前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
　前記解析手段は、前記積算値に基づいて、男声の存在を判定することを特徴とする付記１乃至３のいずれか１項に記載の信号処理装置。
（付記５）
　前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定することを特徴とする付記１または２に記載の信号処理装置。
（付記６）
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　を備えた信号処理方法。
（付記７）
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　をコンピュータに実行させる信号処理プログラム。

　この出願は、２０１３年４月１１日に出願された日本出願特願２０１３－８３４１２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
　前記算出手段が算出した前記変化のノルムを積算する積算手段と、
　前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
　を備えた信号処理装置。
　前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する請求項１に記載の信号処理装置。
　前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
　前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
　前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
　前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定する請求項１または２に記載の信号処理装置。
　前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
　前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
　前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
　前記解析手段は、前記積算値に基づいて、男声の存在を判定する請求項１乃至３のいずれか１項に記載の信号処理装置。
　前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定する請求項１または２に記載の信号処理装置。
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　を備えた信号処理方法。
　入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
　周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
　前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
　をコンピュータに実行させる信号処理プログラム。