WO2010058804A1

WO2010058804A1 - ノイズゲート、収音装置及びノイズ除去方法

Info

Publication number: WO2010058804A1
Application number: PCT/JP2009/069588
Authority: WO
Inventors: 良田中; 直人栗山
Original assignee: ヤマハ株式会社
Priority date: 2008-11-21
Filing date: 2009-11-18
Publication date: 2010-05-27
Also published as: EP2352148B1; EP2352148A1; US20110268288A1; KR101254876B1; EP2352148A4; JP2010122617A; KR20110082176A; CN102216984A; US9036830B2; CN102216984B

Abstract

　話者の発話音声を劣化させずに、定常ノイズだけを除去した音声信号を出力することができるノイズゲートを提供することにある。　収音装置１は、ＦＦＴ処理部１１、ノイズゲート１２、及びＩＦＦＴ処理部１３を備える。収音装置１は、収音した音声信号ＮＥ’ＴをＦＦＴ処理部１１にて周波数スペクトルＮＥ’Ｎに変換する。ノイズゲート１２は音声信号の周波数スペクトルＮＥ’Ｎに基づいて定常ノイズのノイズスペクトルＮ’Ｎを推定する。ノイズゲート１２は、音声信号の周波数スペクトルＮＥ’ＮとノイズスペクトルＮ’Ｎとの信号レベル比が閾値未満の場合は音声信号の信号レベル（ゲイン）を低減して出力する。収音装置１は、定常ノイズＮ’Ｎを除去した後の周波数スペクトルＣＯ’ＮをＩＦＦＴ処理部１３にて逆変換して生成した音声信号ＣＯ’Ｔを出力する。

Description

ノイズゲート、収音装置及びノイズ除去方法

　この発明は、音声信号に含まれるノイズを除去するノイズゲート、収音装置及びノイズ除去方法に関する。

　従来、収音装置では、ノイズを除去する手段としてノイズゲートを設けている（例えば、特許文献１参照）。

　例えば、特許文献１に記載のノイズゲート装置では、音声信号の増幅を行うヘッドアンプの増幅度に応じて、ノイズゲートの閾値を変更し、閾値未満の音声信号を除去している。

日本国特開２００６－５００６７号公報

　しかしながら、特許文献１に記載のノイズゲート装置では、閾値未満の音声信号を除去するため、話者の発話音声が閾値未満の音声信号に含まれている場合、信号レベルが閾値未満の発話音声が除去されてしまうといった問題が生じる。

　そこで、この発明は、音声信号を劣化させずに、定常的なノイズを簡単に除去することができるノイズゲート、収音装置及びノイズ除去方法を提供する。

　この発明のノイズゲートは、入力された音声信号の周波数スペクトルに基づいて、該音声信号に含まれる定常的なノイズ（以下、定常ノイズと称す。）のノイズスペクトルを推定する。ノイズゲートは、入力された音声信号の周波数スペクトルと、推定したノイズスペクトルと、の信号レベル比を算出する。ノイズゲートは、算出した信号レベル比が所定の閾値未満の周波数帯域の信号レベルを下げた前記音声信号の周波数スペクトルを出力する。

　これにより、ノイズゲートは、話者の発話音声を含む音声信号の周波数スペクトルを出力して、定常ノイズからなる音声信号の周波数スペクトルの信号レベルを低減するため、話者の発話音声を劣化させずに、定常ノイズだけを除去した音声信号を出力することができる。

　更に、閾値は、信号レベル比が１となる値より推定手段の推定誤差に対応する値だけ大きく設定してもよい。ノイズゲートは、閾値と比較する信号レベル比を、推定した定常ノイズを用いて算出しているため、定常ノイズの推定誤差を考慮するためである。

　これにより、ノイズゲートは、定常ノイズの信号レベルが実際より小さい値に推定された場合であっても、定常ノイズを除去することができる。

　加えて、この発明の収音装置は、上述のノイズゲートを備える。収音装置は、音声を収音して生成した音声信号を周波数領域の信号である周波数スペクトルに変換して、ノイズゲートに出力する。また、収音装置は、ノイズゲートから出力された音声信号の周波数スペクトルを時間領域の信号である音声信号に逆変換する。

　これにより、収音装置は、上述のノイズゲートを用いることで、収音した音声信号から定常ノイズを除去することができる。このため、収音装置は、収音した話者の発話音声を劣化せずに、放音することができる。

　本発明によれば、音声信号の周波数スペクトルを入力する工程と、前記入力にて入力された音声信号の周波数スペクトルに基づいて、ノイズスペクトルを推定する工程と、前記音声信号の周波数スペクトルと、前記推定工程にて推定されたノイズスペクトルと、の信号レベル比を算出する工程と、前記算出工程にて算出された信号レベル比が所定の閾値未満の周波数帯域のゲインを下げた前記音声信号の周波数スペクトルを出力する工程と、を備えたノイズ除去方法を提供する。

　また、前記閾値は、前記信号レベル比が１となる値より前記推定工程で使用される推定部の推定誤差に対応する値だけ大きく設定される。

　この発明のノイズゲートは、話者の発話音声を劣化させずに、定常ノイズだけを除去した音声信号を出力することができる。

収音装置の機能、構成を示すブロック図である。ゲインテーブルの一例を示す図である。（Ａ）～（Ｃ）は、定常ノイズ、音声信号、及びノイズ除去後の音声信号の一例を示す図である。ゲインテーブルの他の例を示す図である。

　この発明に係る収音装置１について、図１，図２を参照して説明する。図１は、収音装置の機能、構成を示すブロック図である。図２は、ゲインテーブルの一例を示す図である。収音装置１は、ノイズゲート１２（図１参照）を備える。収音装置１は、収音した音声信号ＮＥ’Ｔを周波数スペクトルＮＥ’Ｎに変換する。収音装置１は、ノイズゲート１２にて音声信号ＮＥ’Ｎに含まれる定常ノイズＮ’Ｎを除去する。この際、定常ノイズＮ’Ｎは、ノイズゲート１２により周波数スペクトルＮＥ’Ｎに基づいて推定される。収音装置１は、定常ノイズＮ’Ｎを除去した後の周波数スペクトルＣＯ’Ｎを時間軸に逆変換して生成した音声信号ＣＯ’Ｔを出力する。なお、以下の説明では、時間領域の信号は末端の記号を’Ｔで示し、周波数領域の信号は、末端の記号を’Ｎで示す。

　まず、収音装置１の機能、構成について、図１，２を参照して説明する。図１に示すように、収音装置１は、マイクＭＩＣ、ＦＦＴ処理部１１、ノイズゲート１２、及びＩＦＦＴ処理部１３を備える。

　マイクＭＩＣは、周囲の音声を収音して音声信号を生成する。マイクＭＩＣは、生成した音声信号ＮＥ’ＴをＦＦＴ処理部１１へ出力する。

　ＦＦＴ処理部１１は、高速フーリエ変換回路であり、時間領域の信号である音声信号ＮＥ’Ｔを周波数領域の信号である音声信号ＮＥ’Ｎに変換して、ノイズゲート１２の推定部１２１及びノイズ除去部１２２へ音声信号ＮＥ’Ｎを出力する。

　ノイズゲート１２は、推定部１２１及びノイズ除去部１２２を備える。

　推定部１２１は、ＦＦＴ処理部１１から入力された音声信号ＮＥ’Ｎに含まれる定常ノイズＮ’Ｎを推定する処理を行う。推定部１２１は、音声信号ＮＥ’Ｎの或るサンプルタイミングにおける周波数スペクトル（以下、音声スペクトルと称す。）Ｓ（ＮＥ’Ｎ）を順次取得するとともに、一時記憶する。推定部１２１は、この取得及び記憶した複数回の音声スペクトルＳ（ＮＥ’Ｎ）に基づいて、定常ノイズＮ’Ｎの或るサンプルタイミングにおける周波数スペクトル（以下、ノイズスペクトルと称す。）Ｓ（Ｎ’Ｎ）を推定する。そして、推定部１２１は、推定したノイズスペクトルＳ（Ｎ’Ｎ）をノイズ除去部１２２へ出力する。

　例えば、或るサンプリングタイミングＴでのノイズスペクトルをＳ（Ｎ’Ｎ（Ｔ））とし、同サンプリングタイミングＴでの音声スペクトルをＳ（ＮＥ’Ｎ（Ｔ））として、直前のサンプリングタイミングＴ－１でのノイズスペクトルをＳ（Ｎ’Ｎ（Ｔ－１））とする。また、α，βは、忘却定数であり、例えば、α＝０．９、β＝０．１となる。ノイズスペクトルＳ（Ｎ’Ｎ（Ｔ））は、次の式１で表すことができる。

　Ｓ（Ｎ’Ｎ（Ｔ））＝αＳ（Ｎ’Ｎ（Ｔ－１））＋βＳ（ＮＥ’Ｎ（Ｔ））・・・式１
　このように、音声スペクトルに基づいてノイズスペクトルＳ（Ｎ’Ｎ（Ｔ））を推定することで、暗騒音等の定常ノイズを推定することができる。なお、推定部１２１は、マイクＭＩＣが収音した音声信号のレベルが低い状態（無音状態）の場合のみ、ノイズスペクトルの推定処理を行うものとする。

　ノイズ除去部１２２は、ＦＦＴ処理部１１から入力された音声信号ＮＥ’Ｎから定常ノイズＮ’Ｎを除去して、ノイズ除去後の音声信号ＣＯ’ＮをＩＦＦＴ処理部１３へ出力する。具体的には、ノイズ除去部１２２は、音声スペクトルＳ（ＮＥ’Ｎ）と、推定部１２１から入力されたノイズスペクトルＳ（Ｎ’Ｎ）との信号レベル比を算出する。ノイズ除去部１２２は、算出した信号レベル比が閾値未満の場合、信号レベル比が閾値未満の周波数帯域における、音声スペクトルＳ（ＮＥ’Ｎ）のゲインを下げて出力する。

　例えば、ノイズ除去部１２２は、図２に示すゲインテーブルＴＢＬを備える。ゲインテーブルＴＢＬは、算出した信号レベル比に応じて、音声スペクトルＳ（ＮＥ’Ｎ）のゲインを定める。ゲインテーブルＴＢＬは、信号レベル比が閾値以上の場合、ゲインを１とし、信号レベル比が閾値未満の場合、ゲインを０にする。この場合、ノイズ除去後の音声信号ＣＯ’Ｎの或るサンプルタイミングにおける周波数スペクトルＳ（ＣＯ’Ｎ）は、次の式２で表すことができる。

　Ｓ（ＣＯ’Ｎ）＝（ＴＢＬ（Ｓ（ＮＥ’Ｎ）／Ｓ（Ｎ’Ｎ）））・Ｓ（ＮＥ’Ｎ）・・・式２
　この結果、ノイズ除去部１２２は、信号レベル比が閾値以上の周波数では、音声スペクトルＳ（ＮＥ’Ｎ）を、信号レベルを変更せずにそのまま出力する。また、ノイズ除去部１２２は、信号レベル比が閾値未満の周波数帯域では、音声スペクトルＳ（ＮＥ’Ｎ）をノイズスペクトルＳ（Ｎ’Ｎ）とみなしてその信号レベルを０として出力する。

　また、ノイズ除去部１２２は、定常ノイズＮ’Ｎの推定誤差を考慮して、閾値を信号レベル比が１となる値（１．０）より僅かに大きい値としてもよい。このようにすると、ノイズ除去部１２２は、定常ノイズＮ’Ｎの推定誤差によって定常ノイズＮ’Ｎの信号レベルが実際より小さく推定された場合であっても、定常ノイズＮ’Ｎを除去することができる。

　ＩＦＦＴ処理部１３は、逆高速フーリエ変換回路であり、周波数領域の信号である音声信号ＣＯ’Ｎを時間領域の信号である音声信号ＣＯ’Ｔに変換して出力する。

　以上より、収音装置１は、話者の発話音声が存在する周波数帯域の音声信号を減衰させずにそのまま残すことができるため、話者の発話音声を劣化せずに放音することができる。

　ノイズゲート１２の出力値であるノイズ除去後の音声信号ＣＯ’Ｎについて、図３（Ａ）から図３（Ｃ）を参照し説明する。図３（Ａ）から図３（Ｃ）は、定常ノイズ、音声信号、及びノイズ除去後の音声信号の一例を示す図である。図３（Ａ）は、定常ノイズの信号レベルを示し、図３（Ｂ）は、定常ノイズを含む音声信号の信号レベルを示し、図３（Ｃ）は、ノイズ除去後の音声信号の信号レベルを示す。

　収音装置１は、図３（Ａ）に示すような定常ノイズＮ’Ｎを推定し、図３（Ｂ）に示すような音声信号ＮＥ’Ｎを生成したとする。音声信号ＮＥ’Ｎから定常ノイズＮ’Ｎを除去するために、収音装置１は、単に、音声信号ＮＥ’ＮからノイズＮ’Ｎを差し引くと、図３（Ｃ）の破線のように、話者の発話音声が存在する周波数帯域においても音声信号ＮＥ’Ｎの信号レベルを減衰させてしまい、音質が劣化した音声を放音してしまう。また、収音装置１は、定常ノイズＮ’Ｎの推定誤差により、音声信号ＮＥ’Ｎに定常ノイズＮ’Ｎが残る場合が存在する。この場合、収音装置１は、話者の発話音声が存在しない周波数帯域において信号レベルのばらつきが顕著に生じるため、ミュージカルノイズが発生してしまう。

　一方、本実施形態では、収音装置１は、図３（Ｃ）の実線のように、話者の発話音声が存在する周波数帯域を残し、話者の発話音声が存在しない周波数帯域（ノイズのみが存在する周波数帯域）の音声信号の信号レベル（ゲイン）を下げるため、話者の発話音声の音質を劣化させずに、放音することができる。また、収音装置１は、音声信号ＮＥ’Ｎと定常ノイズＮ’Ｎとの信号レベル比に応じて出力値ＣＯ’Ｎを決定するため、話者の発話音声が存在しない周波数帯域において信号レベルのばらつきが生じにくく、ミュージカルノイズの発生を防ぐことができる。更に、収音装置１は、音声信号ＮＥ’Ｎと定常ノイズＮ’Ｎとの信号レベル比を求めるため、話者の発話音声が小さくてもノイズのみが存在する周波数帯域を検出することができる。

　なお、上述の実施形態では、収音装置１は、話者の発話音声が存在する周波数帯域の音声信号の信号レベルを維持し、話者の発話音声が存在しない周波数帯域の音声信号の信号レベル（ゲイン）を０として出力した。しかし、収音装置１は、話者の発話音声が存在する周波数帯域の音声信号の信号レベルを維持するとともに、話者の発話音声が存在しない周波数帯域の音声信号の信号レベル（ゲイン）を０よりも大きい値まで下げてもよい。図４は、ゲインテーブルの他の例を示す図である。この場合、例えば、図４に示すように、収音装置１は、話者の発話音声が存在しない周波数帯域の音声信号のゲインを０．５として、話者の発話音声が存在しない周波数帯域の音声信号の信号レベルを０．５倍して出力する。これにより、収音装置１は、話者の発話音声が存在する周波数帯域に含まれる定常ノイズが目立たないため、話者の音声を自然に放音することができる。

本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
　本発明は、２００８年１１月２１日出願の日本特許出願（特願２００８－２９８３３２）に基づくものであり、その内容はここに参照として取り込まれる。

　話者の発話音声を劣化させずに、定常ノイズだけを除去した音声信号を出力するノイズゲートを提供することができる。

　１…収音装置
　１１…ＦＦＴ処理部
　１２…ノイズゲート
　１２１…推定部
　１２２…ノイズ除去部
　１３…ＩＦＦＴ処理部
　ＭＩＣ…マイク

Claims

　音声信号の周波数スペクトルが入力される入力手段と、
　前記入力手段に入力された音声信号の周波数スペクトルに基づいて、ノイズスペクトルを推定する推定手段と、
　前記音声信号の周波数スペクトルと、前記推定手段が推定したノイズスペクトルと、の信号レベル比を算出して、該信号レベル比が所定の閾値未満の周波数帯域の信号レベルを下げた前記音声信号の周波数スペクトルを出力する出力手段と、を備えたノイズゲート。
　前記閾値は、前記信号レベル比が１となる値より前記推定手段の推定誤差に対応する値だけ大きく設定される請求項１に記載のノイズゲート。
　請求項１または請求項２のいずれかに記載のノイズゲートと、
　周囲の音声を収音して音声信号を生成する収音手段と、
　前記収音手段が生成した音声信号を周波数領域の信号である周波数スペクトルに変換する変換手段と、
　前記変換手段によって変換された周波数スペクトルを、前記ノイズゲートの入力手段に入力し、
　前記ノイズゲートの出力手段が出力した音声信号の周波数スペクトルを時間領域の信号である音声信号に逆変換する逆変換手段と、を備えた収音装置。
　音声信号の周波数スペクトルを入力する工程と、
　前記入力にて入力された音声信号の周波数スペクトルに基づいて、ノイズスペクトルを推定する工程と、
　前記音声信号の周波数スペクトルと、前記推定工程にて推定されノイズスペクトルと、の信号レベル比を算出する工程と、
　前記算出工程にて算出された信号レベル比が所定の閾値未満の周波数帯域の信号レベルを下げた前記音声信号の周波数スペクトルを出力する工程と、を備えたノイズ除去方法。
　前記閾値は、前記信号レベル比が１となる値より前記推定工程で使用される推定部の推定誤差に対応する値だけ大きく設定される請求項４に記載のノイズ除去方法。