JPWO2014168022A1 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents

信号処理装置、信号処理方法および信号処理プログラム Download PDF

Info

Publication number
JPWO2014168022A1
JPWO2014168022A1 JP2015511205A JP2015511205A JPWO2014168022A1 JP WO2014168022 A1 JPWO2014168022 A1 JP WO2014168022A1 JP 2015511205 A JP2015511205 A JP 2015511205A JP 2015511205 A JP2015511205 A JP 2015511205A JP WO2014168022 A1 JPWO2014168022 A1 JP WO2014168022A1
Authority
JP
Japan
Prior art keywords
signal
unit
voice
norm
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015511205A
Other languages
English (en)
Other versions
JP6439682B2 (ja
Inventor
正徳 加藤
正徳 加藤
昭彦 杉山
昭彦 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014168022A1 publication Critical patent/JPWO2014168022A1/ja
Application granted granted Critical
Publication of JP6439682B2 publication Critical patent/JP6439682B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

入力音における音声判定の精度を向上させるための信号処理装置であって、入力信号を、周波数領域における振幅成分信号に変換する変換手段と、周波数方向における振幅成分信号の変化のノルムを算出する算出手段と、算出手段が算出した周波数方向における振幅成分信号の変化のノルムを積算する積算手段と、積算手段によって算出された周波数方向における振幅成分信号の変化のノルムの積算値に応じて、入力信号中の音声を解析する解析手段と、を備えた。

Description

本発明は、入力信号中において、人間の音声を検出する技術に関する。
上記技術分野において、特許文献1には、入力音声フレームの背景雑音レベルを判定し、この雑音レベルに対応した閾値と入力音声フレームの音量を比較することにより音声の検出を行なう技術が開示されている。
特開2013−005418号公報
「音声区間検出の基礎と最近の研究動向」藤本雅清、電子情報通信学会 IEICE Technical Report SP2010-23、2010年6月 「混合分布HMMにおけるTree-basedクラスタリング」加藤恒夫、黒岩眞吾、清水徹、樋口宜男、電子情報通信学会論文誌 D-II Vol.J83-D-II No.11 pp.2128-2136 2000年11月 「先読みモデル選択による性別非依存音声認識」花沢健、磯谷亮輔、日本音響学会講演論文集、P197-P198、2004年9月 「Speaker Verification Using Adapted Gaussian Mixture Models」Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn, Digital Signal Processing 10, 19-41(2000)
しかしながら、上記文献に記載の技術では、単に音量の比較で音声の有無を判断しようとしているため、雑音が大きい場合には全く音声検出ができなかった。雑音が小さい場合にも、音量だけで検出するのでは、検出精度が十分ではなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る信号処理装置は、
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
前記算出手段が算出した前記変化のノルムを積算する積算手段と、
前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
を備えた。
上記目的を達成するため、本発明に係る信号処理方法は、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
を備えた。
上記目的を達成するため、本発明に係る信号処理プログラムは、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
をコンピュータに実行させる。
本発明によれば、音判定の精度を向上できる。
本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第3実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第4実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第5実施形態に係る信号処理装置の構成の一例を示すブロック図である。 本発明の第5実施形態に係る信号処理装置の構成の他の例を示すブロック図である。 本発明の第5実施形態に係る変換部の構成を示すブロック図である。 本発明の第5実施形態に係る逆変換部の構成を示すブロック図である。 本発明の第5実施形態に係る音声検出部の構成の一例を示すブロック図である。 本発明の第5実施形態に係る音声検出部の一例を説明する図である。 本発明の第5実施形態に係る音声検出部の一例を説明する図である。 本発明の第5実施形態に係る音声検出部の構成の他の例を示すブロック図である。 本発明の第5実施形態に係る音声検出部の他の例を説明する図である。 本発明の第5実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第6実施形態に係る置換部の構成を示すブロック図である。 本発明の第7実施形態に係る置換部の構成を示すブロック図である。 本発明の第8実施形態に係る置換部の構成を示すブロック図である。 本発明の第9実施形態に係る置換部の構成を示すブロック図である。 本発明の第10実施形態に係る置換部の構成を示すブロック図である。 本発明の実施形態に係る信号処理装置をソフトウェアで実現する場合の構成を示すブロック図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。
[第1実施形態]
本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。信号処理装置100は、入力信号における音声の存在を判定する装置である。
図1に示すように、信号処理装置100は、変換部101と周波数方向差分算出部102と積算部103と解析部104とを含む。変換部101は、入力信号110を、周波数領域における振幅成分信号130に変換する。周波数方向差分算出部102は、周波数方向における振幅成分信号102の変化のノルムを算出する。積算部103は、算出部102が算出した変化のノルムを積算する。解析部104は、積算部103によって算出された積算値150に応じて、入力信号110中の音声を解析する。
以上の構成により、積算値を用いて、入力信号中に音声が存在している可能性またはその音声の属性について、より正確に判定することができる。
雑音は周波数方向になめらかであるのに対し、音声は周波数方向に変化が大きいことに着目したものである。例えば、周波数方向における変化のノルムの積算値を利用して、積算値が大きいほど音声である可能性が高いと判定する。積算値を閾値と比較することによって硬判定(0/1)を行なってもよいし、積算値そのものを丸めて、軟判定(0−256)を行なってもよい。
[第2実施形態]
次に本発明の第2実施形態に係る信号処理装置について、図2を用いて説明する。図2は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
図2に示すように、信号処理装置200は、変換部201と周波数方向差分算出部202と積算部203と解析部204と周波数方向平滑化部205とを含む。変換部201は、入力信号210を、周波数領域における振幅成分信号230に変換する。周波数方向平滑化部205は、振幅成分信号230を、周波数方向に平滑化する。周波数方向差分算出部202は、平滑化された振幅成分信号230の、周波数方向の変化のノルムを算出する。積算部203は、周波数方向差分算出部202が算出した変化のノルムを積算する。解析部204は、積算部203によって算出された積算値250に基づいて、女声または子供声の存在を判定する。なお、解析部204は、悲鳴の存在を判定してもよい。
以上の構成により、入力信号210中に、女声または子供声が混在しているか否かまたはその可能性を判定する。対象空間に女性や子供が存在しているか否かを判定したい場合に有用である。例えば、子供の泣き声を検出してアラートをする装置に組み込むことで、誤報をなくし、より正確にアラートを行なうことができる。
この実施形態は、女声および子供声が男声と比較して変動がゆるやかであることに着目したものである。男声は変動が密集しているため、周波数方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。これにより、女声および子供声を、正確に抽出できる。また、悲鳴は声のピッチが通常よりも高く、女声または子供声と似た特徴を有する。
[第3実施形態]
次に本発明の第3実施形態に係る信号処理装置について、図3を用いて説明する。図3は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
図3に示すように、信号処理装置300は、変換部301と周波数方向差分算出部302と積算部303と解析部304と時間方向平滑化部305とを含む。変換部301は、入力信号310を、周波数領域における振幅成分信号330に変換する。時間方向平滑化部305は、振幅成分信号330を、時間方向に平滑化する。周波数方向差分算出部302は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部303は、周波数方向差分算出部302が算出した変化のノルムを積算する。解析部304は、積算部203によって算出された積算値350に基づいて、男声の存在を判定する。
以上の構成により、入力信号310中に、男声が混在しているか否かまたはその可能性を判定する。対象空間に男性が存在しているか否かを判定したい場合に有用である。例えば、女子寮など男子禁制の場所に対する、男性の侵入を検出してアラートをする装置に組み込むことで、誤報をなくし、より正確にアラートを行なうことができる。
この実施形態は、男声が女声および子供声と比較して変動が密集していることに着目したものである。女声および子供声は変動が緩やかであるため、時間方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。これにより、男声を、正確に抽出できる。
[第4実施形態]
次に本発明の第4実施形態に係る信号処理装置について、図4を用いて説明する。図4は、本実施形態に係る信号処理装置の機能的構成を説明するための図である。
図4に示すように、信号処理装置400は、変換部401と周波数方向差分算出部402、412と積算部403、413と解析部404と周波数方向平滑化部405と時間方向平滑化部415とを含む。変換部401は、入力信号410を、周波数領域における振幅成分信号430に変換する。周波数方向平滑化部405は、振幅成分信号430を、周波数方向に平滑化する。時間方向平滑化部415は、振幅成分信号430を、時間方向に平滑化する。周波数方向差分算出部402、412は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部403、413は、周波数方向差分算出部402、412が算出した変化のノルムを積算する。解析部404は、積算部403、413によって算出された積算値に基づいて、男声の存在および女声および子供声の存在を判定する。
以上の構成により、入力信号410中に、男声が混在しているか否か、女声および子供声が混在しているか否か、またはそれらの可能性を判定する。音声検出だけでなく、話者識別や音声認識等にも適用可能である。例えば、音声認識技術などと組み合わせて、男声用の認識辞書を用いるか、女声および子供声用の認識辞書を用いるかで切り分けることにより、認識精度を向上させることができる。
[第5実施形態]
次に本発明の第5実施形態に係る信号処理装置について説明する。本実施形態に係る信号処理装置は、例えば、風切り音のような非定常雑音を適切に抑圧する。簡単に説明すると、周波数領域において、入力音中の定常成分を推定して、推定された定常成分で入力音の一部または全部を置換する。ここで入力音は音声に限定されるものではない。例えば、音声以外に、環境音(街頭の雑踏の音、電車・自動車の走行音、警報・警告音、拍手の音など)、人や動物の声(小鳥のさえずり、犬・猫の鳴き声、笑い声や泣き声、歓声、など)、音楽などを入力音としてもよい。なお、本実施形態では、音声を入力音の代表例として説明する。
図5は、信号処理装置200の全体構成を示すブロック図である。入力端子506には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子506に供給された劣化信号は、変換部501においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル(振幅成分)|X(k, n)|は、定常成分推定部502、置換部503および音声検出部505へ供給され、位相スペクトル(位相成分)520は、逆変換部504に供給される。なお、ここでは変換部501が、定常成分推定部502、置換部503および音声検出部505に劣化信号振幅スペクトル|X(k, n)|を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを供給してもよい。
定常成分推定部502は、変換部501から供給される劣化信号振幅スペクトル|X(k, n)|に含まれる定常成分を推定し、定常成分信号(定常成分スペクトル)N(k, n)を生成する。
音声検出部505は、劣化信号振幅スペクトル|X(k, n)|において、周波数ごとに音声が含まれているか否かを判定する。そして、置換部503において、音声が含まれていない周波数の劣化振幅成分信号|X(k, n)|を、生成した定常成分信号N(k, n)を用いて置換する。例えば、音声検出部501の出力が1であれば、Y(k, n)=α(k, n)N(k, n)、音声検出部501の出力が0であれば、Y(k, n)=|X(k, n)|となる。そして、置換部503は、置換結果としての強調信号振幅スペクトルY(k, n)を逆変換部504に伝達する。
置き換えに用いる振幅スペクトル(置換用振幅スペクトル)を求める関数としては、α(k, n)N(k, n)に代表されるようなN(k, n)の線形写像関数に限定されない。例えば、α(k, n)N(k, n)+C(k, n) のように一次関数を採用することも可能である。その際、C(k, n)>0とすれば置換用振幅スペクトルのレベルを全体的に向上できるので、聞いた時の定常感が向上する。C(k, n)<0の場合には、置換用振幅スペクトルのレベルを全体的に低減できるが、その際にはスペクトルの値が負になる帯域が出現しないようにC(k, n)を調整する必要がある。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルN(k, n)の関数を用いることも可能である。
逆変換部504は、変換部501から供給された劣化信号位相スペクトル520と、置換部503から供給された強調信号振幅スペクトルY(k, n)とを合成して逆変換を行い、強調信号として、出力端子507に供給する。
本実施形態によれば、音声が含まれている周波数を残して、定常成分信号N(k, n)を用いた置換を行なうので、抑圧による音声歪みなどを回避することができる。
図6は、本実施形態に係る信号処理装置の他の例を説明するための図である。本実施形態に係る信号処理装置600は、信号処理装置500と比べると、音声検出部605が、劣化信号振幅スペクトル|X(k, n)|において、周波数ごとに音声が含まれている確率p(k, n)を出力する点で異なる。ただし、p(k, n)は0以上1以下の実数である。また、置換部603は、音声存在確率p(k, n)に応じた置換処理を行う。その他の構成および動作は、図5と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。置換部603においては、音声存在確率p(k, n)と定常成分信号N(k, n)とを用いて、劣化信号振幅スペクトル|X(k, n)|を置換する。例えば、値域が0から1であるp(k, n)の関数α(p(k, n))を用いて、出力信号Y(k, n)=α(p(k, n))N(k, n)+(1−α(p(k, n)))|X(k, n)|)としてもよい。
《変換部の構成》
図7は、変換部501の構成を示すブロック図である。図7に示すように、変換部501はフレーム分割部711、窓がけ処理部(windowing unit)712、およびフーリエ変換部713を含む。劣化信号サンプルは、フレーム分割部711に供給され、K/2サンプルごとのフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部712に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号x(t, n) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。
Figure 2014168022
また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0, 1, ..., K-1 に対して、以下の式で得られる左辺が、窓がけ処理部712の出力となる。
Figure 2014168022
実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部501の出力を逆変換部504に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w2(t)+w2(t+K/2)=1 となることを意味する。
以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式に示すハニング窓を用いることができる。
Figure 2014168022
このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部713に供給され、劣化信号スペクトル|X(k, n)|に変換される。劣化信号スペクトル|X(k, n)|は位相と振幅に分離され、劣化信号位相スペクトル arg |X(k, n)|は、逆変換部504に、劣化信号振幅スペクトル|X(k, n)|は、定常成分推定部502および置換部503に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。
《逆変換部の構成》
図8は、逆変換部504の構成を示すブロック図である。図8に示すように、逆変換部504は逆フーリエ変換部811、窓がけ処理部812およびフレーム合成部813を含む。逆フーリエ変換部811は、置換部503から供給された強調信号振幅スペクトル(|Y(k, n)|)(図中Y)と変換部501から供給された劣化信号位相スペクトル520(arg |X(k, n)|)とを乗算して、強調信号スペクトル(以下の式の左辺)を求める。
Figure 2014168022
ただし、j は虚数単位である。
得られた強調信号スペクトルに逆フーリエ変換を施し、1フレームがKサンプルを含む時間領域サンプル値系列 y(t, n) (t=0, 1, ..., K-1)として、窓がけ処理部242に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの強調信号 y(t, n) (t=0, 1, ..., K-1)に対してw(t)で窓がけされた信号は、次式の左辺で与えられる。
Figure 2014168022
フレーム合成部813は、窓がけ処理部812からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式によって、t=0, 1, ..., K/2-1における出力信号(式の左辺)を得る。得られた出力信号は、フレーム合成部813から出力端子507に伝達される。
Figure 2014168022
なお、図7と図8において変換部501と逆変換部504における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、LSI化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
また、変換部501において得られる周波数成分を複数統合してから、定常成分推定部502で定常成分の推定を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも小さくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して共通の定常成分スペクトルを求め、それを同一統合周波数成分に属する個別の周波数成分に対して共通に用いればよい。このように、複数の周波数成分を統合してから定常成分信号の推定を実行すると、適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
(定常成分スペクトルの定義)
定常成分スペクトルとは、入力信号振幅スペクトルに含まれる定常成分のことである。定常成分は、パワーの時間変化が入力信号よりも小さいという特徴を持つ。時間変化は差分または比で算出されることが一般的である。時間変化を差分で計算する場合、あるフレーム n において入力信号振幅スペクトルと定常成分スペクトルを比較すると、次式の関係を満足する周波数 k が少なくとも1つは存在する。
Figure 2014168022
また、時間変化を比で計算する場合には、次式の関係を満足する周波数 k が少なくとも1つは存在する。
Figure 2014168022

つまり、全てのフレームnと周波数 k において、上式の左辺のほうが右辺よりも必ず大きい場合、N(k, n)は定常成分スペクトルでは無い、と定義できる。関数がXとNの指数や対数、累乗でも同様に定義できる。
(定常成分スペクトルの導き方)
定常成分推定部502における定常成分スペクトルN(k, n)の推定には、非特許文献1や非特許文献2に記載の方法など、様々な推定方法が利用できる。
例えば、非特許文献1には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルを雑音区間判定の指標とする。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。
また、非特許文献1には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。
さらに、非特許文献2には、推定雑音スペクトルを、劣化信号振幅スペクトルの最小値(最小統計量)から求める方法が開示されている。この方法では、一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとする。
その他、メジアンフィルタを用いて、推定雑音スペクトルを求めてもよい。雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるWiNE(Weighted Noise Estimation)を用いて、推定雑音スペクトルを求めてもよい。
そして、このように求められた推定雑音スペクトルを、定常成分スペクトルとして用いることができる。
(音声検出部の一例の構成)
図9は、音声検出部505、605の一例の構成を示す図である。音声検出部505、605は、周波数方向差分算出部902と積算部903と解析部904とを含む。周波数方向差分算出部902は、周波数方向における振幅成分信号の変化のノルムを算出する。周波数方向の変化とは、主に隣り合う周波数成分の差分や比のことを言う。例えば、変化を差分と定義した場合、振幅成分信号を|X(k, n)| とすると(ただし、kは周波数番号、nはフレーム番号)、周波数方向の変化のノルムD(k, n)を次のように計算する。D(k, n) = Lm|(X(k-1, n)| - |X(k, n)|)Lm(・)はLmノルムを表す。mは、1や2のほか、無限大でもよい。L1ノルムならば、D(k, n)は差分の絶対値、つまり以下のように計算できる。D(k, n) = ||X(k-1, n)|-|X(k, n)||
また、L2ノルムならば、D(k, n)はD(k, n)は差分を二乗して平方根をとったもの、つまり以下のように計算できる。D(k, n) = √(|X(k-1, n)|-|X(k, n)|)2また、下記式の通り対数の差分のノルムを計算してもよい。D(k, n) = Lm(log10(|X(k-1, n)|)-log10(|X(k, n)|))
計算量を削減する目的でkの範囲を限定してもよい。その際、音声成分は低域に集中していることから、kは小さい値、つまり低域に属する値を採用したほうがよい。また、周波数ビンの数が多いときは、k-1 とkでなく、k-1 とk+1、k-2とkの差分を計算してもよい。
積算部903は、周波数方向差分算出部902が算出した変化のノルムを積算する。音声検出部505内の解析部904は、積算部903によって算出された積算値950をあらかじめ記憶された閾値と比較することによって、劣化振幅成分信号|X(k, n)|中の音声の有無(0/1)を判定する。一方、音声検出部605内の解析部904は、積算部903によって算出された積算値950を丸めて、劣化振幅成分信号|X(k, n)|中の音声の存在確率p(k, n)を出力する。このとき、解析部904は、積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、特定の人物の声の存在を判定してもよい。
(音声検出部の一例でのスペクトル形状)
図10、図11は、ある時刻nにおける、劣化信号振幅スペクトル(入力信号スペクトル)|X(k, n)|を示す図である。図10のように、隣り合う周波数での振幅の差分のノルムの総和が小さいとき、雑音と判定する。一方、図11のように、隣り合う周波数での振幅の差分のノルムの総和が大きいとき、音声(所望音声、目的音)と判定する。
(音声検出部の他の例の構成)
図12は、音声検出部505、605の他の例の構成を示す図である。この例での音声検出部505、605は、周波数方向差分算出部1202、1212と積算部1203、1213と解析部1204と周波数方向平滑化部1205と時間方向平滑化部1215とを含む。周波数方向平滑化部1205は、劣化振幅成分信号|X(k, n)|を、周波数方向に平滑化する。
平滑化の代表例としては、移動平均と一次リーク積分が挙げられる。平滑化手段として移動平均を採用した場合、振幅成分信号を|X(k, n)|とすると、平滑化した振幅成分信号|X(k, n)|barは以下のように計算される。
Figure 2014168022
また、一次リーク積分の場合、|X(k, n)|barは以下のように計算される。|X(k, n)|bar = 0.8|X(k-1, n)|bar + 0.2|X(k, n)|このほかには、ローパスフィルタやメジアンフィルタ、εフィルタで平滑化してもよい。
時間方向平滑化部1215は、劣化振幅成分信号|X(k, n)|を、時間方向に平滑化する。周波数方向差分算出部1202、1212は、平滑化された振幅成分信号の、周波数方向の変化のノルムを算出する。積算部1203、1213は、周波数方向差分算出部1202、1212が算出した変化のノルムを積算する。解析部1204は、積算部1203、1213によって算出された積算値に基づいて、男声の存在および女声および子供声の存在を判定する。すなわち音声検出部505内の解析部1204は、積算部1203によって算出された積算値をあらかじめ記憶された閾値と比較し、かつ、積算部1213によって算出された積算値をあらかじめ記憶された他の閾値と比較することによって、劣化振幅成分信号|X(k, n)|中の音声の有無(0/1)を判定する。一方、音声検出部605内の解析部1204は、積算部1203によって算出された積算値と積算部1213によって算出された積算値とを加算して丸めて、劣化振幅成分信号|X(k, n)|中の音声の存在確率p(k, n)を出力する。このとき、解析部1204は、積算値を、あらかじめ記憶された特定の男性又は女性の声に関する積算値と比較することにより、特定の人物の声の存在を判定してもよい。
(音声検出部の他の例でのスペクトル形状)
図13は、性別によるスペクトル形状の違いを説明するための図である。グラフ1301、1302を比べれば分かるように、女声および子供声は、男声と比較して変動がゆるやかである。男声は変動が密集しているため、周波数方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、周波数方向平滑化部1205を用いることにより、女声および子供声を、正確に抽出できる。一方、女声および子供声は変動が緩やかであるため、時間方向に平滑化すると滑らかなカーブになり、雑音に類似した波形となる。つまり、時間方向平滑化部1215を用いることにより、男声を、正確に抽出できる。
(スペクトル形状)
図14は、p(k, n)の値に応じた、出力信号Y(k, n)のスペクトル形状の変化を示す図である。図14の上のグラフは、p(k, n)が1(=音声)に近いときを表わしており、処理結果Y(k, n)は、入力信号|X(k, n)|により近いスペクトル形状となる。一方、図14の下のグラフは、p(k, n)が0(=非音声)に近いときを表わしており、処理結果Y(k, n)は、定常成分信号N(k, n)により近いスペクトル形状となる。
(係数αについて)
図5に示した置換部503で定常成分信号N(k, n)に積算する係数α(k, n)としては経験的に適切な値を決める。例えば、α(k, n)=1なら、Y(k, n)=N(k, n)となり、定常成分信号N(k, n)がそのまま逆変換部504への出力信号となる。このとき、定常成分信号N(k, n)が大きいと、大きな雑音が残ってしまう。そこで、逆変換部504へ出力する振幅成分信号の最大値が所定値以下になるように、α(k, n)を定めてもよい。例えば、α(k, n)=0.5ならパワー半分の定常成分信号に置き換えることになる。α(k, n)=0.1だと、音は小さくなって形は定常成分信号N(k, n)と同じスペクトル形になる。
例えば、SN比が高いときは静かなため、α(k, n)を小さくして、強く抑圧してもよい。逆に、SN比が高い時は、ノイズが小さいので、α(k, n)を1にして、残すことが考えられる。そのほかには、高域が強調されて耳障りになることに配慮して、α(k, n)はkがある閾値以上ならば十分小さい値となる関数や、k が大きくなるほど小さい値になる k の単調減少関数としてもよい。
本実施形態によれば、音声の存在可能性に応じた雑音の定常化を行なうことができ、音声歪みなどを効果的に回避しつつ、風切り音のような非定常雑音を抑圧することができる。なお、置換部503は、周波数毎ではなく、サブバンドごとに、振幅成分を置き換えてもよい。
[第6実施形態]
次に本発明の第6実施形態に係る信号処理装置について、図15を用いて説明する。図15は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第5実施形態と比べると、比較部1531と上側置換部1532を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
比較部1531は、劣化信号振幅スペクトル|X(k, n)|と、定常成分スペクトルN(k, n)を第1関数としての線形写像関数で計算した第1閾値とを比較する。本実施形態では線形写像関数のなかで代表的なものである定数倍、つまりα1(k, n)倍と比較する場合について説明を行う。上側置換部1532は、音声検出部505からの音声有無信号(0/1)を入力し、非音声、かつ|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2N(k, n)、そうでなければ|Y(k, n)|=|X(k, n)|とする。つまり、非音声区間の振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、定常成分信号N(k, n)のα2倍に置き換え、小さいところはそのままのスペクトル形状を置換部503の出力信号|Y(k, n)|とする。
劣化信号振幅スペクトル|X(k, n)|との比較に用いるスペクトルの計算方法は、定常成分スペクトルN(k, n)の線形写像関数を用いた方法に限定されない。例えば、α1(k, n)N(k, n)+C(k, n) のように一次関数を採用することも可能である。その際、C(k, n) < 0とすれば定常成分信号に置き換えられる帯域が増えるので、耳障りな非定常雑音を多く抑圧できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルN(k, n)の関数を用いることも可能である。
非音声帯域であって、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
α2(k, n)については、各時刻について、以下の(1)→(2)の手順で求めることができる。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておく|X_bar(k, n)| = (|X(k, n-2)| + |X(k, n-1)| + |X(k, n)| + |X(k, n+1)| + |X(k, n+2)|)/5(2)短時間移動平均(|X_bar(k, n)|)と置き換え後の値(α2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにα2(k, n)の値を変更する。変更後の値を α2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に α2_hat(k, n) = 0.5・α2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)α2_hat(k, n) = |X_bar(k, n)|/|N(k, n)| とする (|X_bar(k, n)| と |N(k, n)|を使って計算する)。 (c)α2_hat(k, n) = 0.8・|X_bar(k, n)|/|N(k, n)| + 0.2 とする (同上)。
しかし、α2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるα2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、α2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたα2(k, n)の値を決めてもよい。
例えば、以下の条件を満たすときに、計算式1〜3を用いて、時刻nの前後において係数α2(k, n)を、短時間移動平均|X_bar(k, n)|を定常成分信号|N(k, n)|で除算したものとして求め、結果として、入力信号|X(k, n)|を短時間移動平均|X_bar(k, n)|で置換してもよい。条件を満たさない場合には、α2(k, n) = α1(k, n)とすればよい。
条件:|X(k, n)| > α1(k, n)・N(k, n) かつ α1(k, n)・N(k, n) − |X_bar(k, n)| > δ
計算式1:α2(k, n-1) = |X_bar(k, n)|/N(k, n)
計算式2:α2(k, n) = |X_bar(k, n)|/N(k, n)
計算式3:α2(k, n+1) = |X_bar(k, n)|/N(k, n)
このように、定常成分信号N(k, n)では短い時間での振幅成分信号の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
[第7実施形態]
次に本発明の第7実施形態に係る信号処理装置について、図16を用いて説明する。図16は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第5実施形態と比べると、比較部1631と下側置換部1632を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
比較部1631は、劣化信号振幅スペクトル|X(k, n)|と、定常成分信号N(k, n)のβ1(k, n)倍とを比較する。下側置換部1632は、非音声区間であって、振幅(パワー)
成分|X(k, n)|が定常成分信号N(k, n)のβ1(k, n)倍より小さいところのみ、定常成分信号N(k, n)のβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を置換部603の出力信号Y(k, n)とする。つまり、下側置換部1632は、音声検出部505からの音声有無信号(0/1)を入力し、非音声、かつ|X(k, n)|<β1(k, n)N(k, n)ならば|Y(k, n)|=β2(k, n)N(k, n)、そうでなければ|Y(k, n)|=|X(k, n)|とする。
非音声帯域であって、定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが大きい帯域における自然性を保持できるため、音質が向上する。
β(k, n)については、各時刻について、以下の(1)→(2)の手順で求めることができる。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておくX_bar(k, n) = (X(k, n-2) + X(k, n-1) + X(k, n) + X(k, n+1) + X(k, n+2))/5(2)短時間移動平均(X_bar(k, n))と置き換え後の値(β2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにβ2(k, n)の値を変更する。変更後の値を β2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に β2_hat(k, n) = 0.5・β2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)β2_hat(k, n) = X_bar(k, n)/N(k, n) とする (X_bar(k, n) と N(k, n)を使って計算する)。 (c)β2_hat(k, n) = 0.8・X_bar(k, n)/N(k, n) + 0.2 とする (同上)。
しかし、β2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるβ2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、β2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたβ2(k, n)の値を決めてもよい。
例えば、以下の条件を満たすときに、計算式1〜3を用いて、時刻nの前後において係数β2(k, n)を、短時間移動平均|X_bar(k, n)|を定常成分信号N(k, n)で除算したものとして求め、結果として、入力信号|X(k, n)|を短時間移動平均|X_bar(k, n)|で置換してもよい。条件を満たさない場合には、β2(k, n) = β1(k, n)とすればよい。
条件:|X(k, n)| > β1(k, n)・N(k, n) かつ β1(k, n)・N(k, n) − |X_bar(k, n)| > δ
計算式1:β2(k, n-1) = X_bar(k, n)/N(k, n)
計算式2:β2(k, n) = X_bar(k, n)/N(k, n)
計算式3:β2(k, n+1) = X_bar(k, n)/N(k, n)
このように、定常成分信号N(k, n)では、短い時間での振幅成分の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
[第8実施形態]
次に本発明の第8実施形態に係る信号処理装置について、図17を用いて説明する。図17は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第6実施形態と比べると、第2比較部1733と下側置換部1734を有する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部1532は、音声検出部505からの音声有無信号(0/1)を入力し、非音声、かつ|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)1|=α2N(k, n)、そうでなければ|Y1(k, n)|=|X(k, n)|とする。つまり、非音声区間で振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍より大きいところのみ、定常成分信号N(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第2比較部1733への出力信号Y1(k, n)とする。
一方、下側置換部1734は、音声検出部505からの音声有無信号(0/1)を入力し、非音声区間であって、上側置換部1532からの出力信号Y1(k, n)が定常成分信号N(k, n)のβ1(k, n)倍より小さい周波数のみ、定常成分信号N(k, n)のβ2(k, n)倍に置き換える。大きいところはそのままのスペクトル形状を出力信号|Y2(k, n)|とする。つまり、|Y1(k, n)|<β1(k, n)N(k, n)ならば|Y2(k, n)|=β2(k, n)N(k, n)そうでなければ、|Y1(k, n)|=|Y2(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、音声区間において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。
[第9実施形態]
次に本発明の第9実施形態に係る信号処理装置について、図18を用いて説明する。図18は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第6実施形態と比べると、上側置換部1832が劣化振幅信号|X(k, n)|の係数α(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部1832は、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分信号|X(k, n)|のα2倍に置き換え、小さいところはそのままのスペクトル形状を置換部503の出力信号|Y(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2|X(k, n)|、そうでなければ、|Y(k, n)|=|X(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、風雑音を抑圧しつつ音声認識を行ないたい場合などに効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
[第10実施形態]
次に本発明の第10実施形態に係る信号処理装置について、図19を用いて説明する。図19は、本実施形態に係る信号処理装置の置換部503の構成を説明するための図である。本実施形態に係る置換部503は、上記第8実施形態と比べると、上側置換部1932が、第9実施形態の上側置換部1832のように劣化振幅信号|X(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部1932は、非音声区間であって、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分信号|X(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部503の出力信号Y(k, n)とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|X(k, n)|=α2|X(k, n)|、そうでなければ、|X(k, n)|=|X(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。
[応用分野]
第1実施形態で説明した音声検出の応用分野については、非特許文献1の2.2節に記載されている通り、以下のものがある。
(1)入力信号から非音声区間の信号を取り除き音声区間のみを符号化して伝送すれば、転送料の削減を実現できる。あるいは、符号化の際に、音声区間と非音声区間とでビットレートを変更すれば、より効果的かつ高品質な情報通信を行なうことができる。
(2)非音声区間と音声区間とで雑音、残響除去、音源分離、エコーキャンセラの処理の切り分けを行なうことで、信号処理を高性能に行なうことができる。
(3)音声認識技術を適用する際に、音声区間と非音声区間とを切り分け、音声区間のみを認識対象とすることで認識誤りを低下させることができる。
一方、第2実施形態で説明した音声識別については、非特許文献2(4.1.3節「実験方法」の第二段落)、非特許文献3(図1)および非特許文献4(p.26、FIG. 2)などに記載されているように、以下のものがある。
(1)音声認識性能を向上させるために用いる。男女別の認識モデル(「性別依存モデル」)を学習させる。
(2)複数人が参加した会議の音声データを解析する際に、誰がいつ話したかを判定する。
(3)テレビ放送や映画の字幕などの自動作成の際に、誰がいつ話したかを判定する。
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させる信号処理プログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
以下、一例として、第1実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ2000に設けられたCPU2002で実行する処理の流れを図20を用いて説明する。
まず、入力信号を、周波数領域における振幅成分信号に変換する(S2001)。周波数方向における前記振幅成分信号の変化のノルムを算出する(S2003)。算出した変化のノルムを積算する(S2005)。積算値に応じて、入力信号中の音声を解析する(S2007)。
これらの各処理を行なうプログラムモジュールがメモリ2004に格納されており、CPU2002はメモリ2004に格納されたそれらのプログラムモジュールを順次実行することにより、第1実施形態と同様の効果を得ることができる。
同様に、第2実施形態〜第10実施形態についても、CPU2002がブロック図で説明した各機能構成に対応するプログラムモジュールをメモリ2004から実行することにより、各実施形態の効果を得ることができる。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
前記算出手段が算出した前記変化のノルムを積算する積算手段と、
前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
を備えた信号処理装置。
(付記2)
前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する付記1に記載の信号処理装置。
(付記3)
前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定することを特徴とする付記1または2に記載の信号処理装置。
(付記4)
前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
前記解析手段は、前記積算値に基づいて、男声の存在を判定することを特徴とする付記1乃至3のいずれか1項に記載の信号処理装置。
(付記5)
前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定することを特徴とする付記1または2に記載の信号処理装置。
(付記6)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
を備えた信号処理方法。
(付記7)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
をコンピュータに実行させる信号処理プログラム。
この出願は、2013年4月11日に出願された日本出願特願2013−83412を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (7)

  1. 入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
    周波数方向における前記振幅成分信号の変化のノルムを算出する算出手段と、
    前記算出手段が算出した前記変化のノルムを積算する積算手段と、
    前記積算手段によって算出された積算値に応じて、前記入力信号中の音を解析する解析手段と、
    を備えた信号処理装置。
  2. 前記解析手段は、前記積算値に応じて、前記入力信号中における音の存在を判定する請求項1に記載の信号処理装置。
  3. 前記振幅成分信号を、周波数方向に平滑化する周波数方向平滑化手段をさらに有し、
    前記算出手段は、前記周波数方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
    前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
    前記解析手段は、前記積算値に基づいて、女声または子供声の存在を判定する請求項1または2に記載の信号処理装置。
  4. 前記振幅成分信号を、時間方向に平滑化する時間方向平滑化手段をさらに有し、
    前記算出手段は、前記時間方向平滑化手段によって平滑化された振幅成分信号の、周波数方向の変化のノルムを算出し、
    前記積算手段は、前記算出手段が算出した前記変化のノルムを積算し、
    前記解析手段は、前記積算値に基づいて、男声の存在を判定する請求項1乃至3のいずれか1項に記載の信号処理装置。
  5. 前記解析手段は、前記積算値を、あらかじめ記憶された特定の人物の声に関する積算値と比較することにより、前記特定の人物の声の存在を判定する請求項1または2に記載の信号処理装置。
  6. 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
    周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
    前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
    を備えた信号処理方法。
  7. 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
    周波数方向における前記振幅成分信号の変化のノルムを算出する算出ステップと、
    前記算出ステップにおいて算出された前記変化のノルムを積算する積算ステップと、
    をコンピュータに実行させる信号処理プログラム。
JP2015511205A 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム Active JP6439682B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013083412 2013-04-11
JP2013083412 2013-04-11
PCT/JP2014/058962 WO2014168022A1 (ja) 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2014168022A1 true JPWO2014168022A1 (ja) 2017-02-16
JP6439682B2 JP6439682B2 (ja) 2018-12-19

Family

ID=51689433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511205A Active JP6439682B2 (ja) 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム

Country Status (5)

Country Link
US (1) US10431243B2 (ja)
EP (1) EP2985762A4 (ja)
JP (1) JP6439682B2 (ja)
CN (1) CN105103230B (ja)
WO (1) WO2014168022A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
CN113986187B (zh) * 2018-12-28 2024-05-17 阿波罗智联(北京)科技有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN112152731B (zh) * 2020-09-08 2023-01-20 重庆邮电大学 一种基于分形维数的无人机探测与识别方法
CN112528853B (zh) * 2020-12-09 2021-11-02 云南电网有限责任公司昭通供电局 改进型双树复小波变换去噪方法
CN114242098B (zh) * 2021-12-13 2023-08-29 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP3454206B2 (ja) 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
EP1280137B1 (en) * 2001-07-24 2004-12-29 Sony International (Europe) GmbH Method for speaker identification
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US8959019B2 (en) * 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
WO2006046293A1 (ja) 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
CA2736133C (en) * 2008-09-05 2016-11-08 Auraya Pty Ltd Voice authentication system and methods
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
US8856001B2 (en) * 2008-11-27 2014-10-07 Nec Corporation Speech sound detection apparatus
JP5293329B2 (ja) * 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
JP5223786B2 (ja) * 2009-06-10 2013-06-26 富士通株式会社 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
GB2476043B (en) * 2009-12-08 2016-10-26 Skype Decoding speech signals
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
JP5762168B2 (ja) 2011-06-22 2015-08-12 キヤノン株式会社 撮像装置及び再生装置
CN102737480B (zh) * 2012-07-09 2014-03-05 广州市浩云安防科技股份有限公司 一种基于智能视频的异常语音监控系统及方法
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9749021B2 (en) * 2012-12-18 2017-08-29 Motorola Solutions, Inc. Method and apparatus for mitigating feedback in a digital radio receiver

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
早川 昭二: "線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識", 電子情報通信学会論文誌, vol. 第J80-A巻 第9号, JPN6018009391, JP, pages 1360 - 1367 *

Also Published As

Publication number Publication date
WO2014168022A1 (ja) 2014-10-16
CN105103230A (zh) 2015-11-25
EP2985762A4 (en) 2016-11-23
EP2985762A1 (en) 2016-02-17
CN105103230B (zh) 2020-01-03
US10431243B2 (en) 2019-10-01
US20160071529A1 (en) 2016-03-10
JP6439682B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US10504539B2 (en) Voice activity detection systems and methods
JP5127754B2 (ja) 信号処理装置
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
WO2021114733A1 (zh) 一种分频段进行处理的噪声抑制方法及其系统
US20150340027A1 (en) Voice recognition system
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
JP6544234B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2014126856A (ja) 雑音除去装置及びその制御方法
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP5443547B2 (ja) 信号処理装置
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
Saleem et al. Variance based time-frequency mask estimation for unsupervised speech enhancement
JPWO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Uhle et al. Speech enhancement of movie sound
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
JP7052008B2 (ja) 有声音声検出の複雑性低減およびピッチ推定
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Sapozhnykov Sub-band detector for wind-induced noise
TWI749547B (zh) 應用深度學習的語音增強系統
Paul et al. Effective Pitch Estimation using Canonical Correlation Analysis
US20230419980A1 (en) Information processing device, and output method
Kumar et al. Comparative Studies of Single-Channel Speech Enhancement Techniques
Jesudhas et al. A novel approach to build a low complexity smart sound recognition system for domestic environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R150 Certificate of patent or registration of utility model

Ref document number: 6439682

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150