WO2006070560A1

WO2006070560A1 - 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体

Info

Publication number: WO2006070560A1
Application number: PCT/JP2005/022095
Authority: WO
Inventors: Mitsuya Komamura
Original assignee: Pioneer Corporation
Priority date: 2004-12-28
Filing date: 2005-12-01
Publication date: 2006-07-06
Also published as: US20080010063A1; JP4568733B2; US7957964B2; JPWO2006070560A1

Abstract

　入力音声から音声スペクトルと雑音スペクトルを算出し、この音声スペクトルと雑音スペクトルに基づいてゲインを算出し、算出されたゲインを用いて前記入力音声の雑音を抑圧する雑音抑圧装置を提供する。この雑音抑圧装置は入力音声を所定のフレーム長にフレーム分割する第１フレーム分割部（１０１）と、第１フレーム分割部（１０１）のフレーム長より長いフレーム長に、入力音声をフレーム分割する第２フレーム分割部（１０４）と第２フレーム分割部（１０４）によってフレーム分割された入力音声をスペクトル変換する第２変換部（１０５）と、第２変換部（１０５）によって変換されたスペクトルを周波数方向に平滑化する平滑化部（１０６）と、平滑化部（１０６）によって平滑化されたスペクトルおよび雑音スペクトルに基づいてゲインを算出するゲイン算出部（１０７）と、を備えることを特徴とする。

Description

明細書

雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体

技術分野

[0001] この発明は、雑音が重畳した音声信号から雑音を抑圧す雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体に関する。ただし、この発明の利用は、上述の雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体に限らない。

背景技術

[0002] 雑音が重畳した音声信号から雑音を抑圧する簡便でかつ非常に有効な手法として S. F. Bollが提案したスペクトルサブトラクシヨンが知られている。このスペクトルサブトラクシヨンにより、現フレームの雑音重畳音声パワースペクトルを用いてゲインを算出している (たとえば、非特許文献 1参照。 ) o

[0003] また、時間方向平滑ィ匕雑音重畳音声パワースペクトルを用いてゲインを算出する手法がある。これによると、相互相関項の影響を低減するために、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に移動平均して平滑ィ匕を行うものがある。すなわち、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に平滑化した時間方向平滑化雑音重畳音声パワースペクトルを用いてゲインを算出している (たとえば、非特許文献 2)。

[0004] 非特許文献 1 : S 'F'ボール（S. F. Boll)、「サブレッシヨンォブアコースティックノイズインスピーチユージングスぺクトラルサブトラクシヨン（Suppression of Acoustic Noise in speech Using Spectral SuDtraction)」、 Zィ 'トリプル 'ィートラザクシヨンオンアコースティックス'スピーチ 'シグナルプロセシング（I EEE Transaction on Acoustics, ¾peecn and Signal Processingノ、 197 9年、第 ASSP— 27卷第 2号、 p. 113— 120

非特許文献 2 :北岡教英、赤堀一郎、中川聖ー、「スペクトルサブトラクシヨンと時間方向スムージングを用いた雑音環境下音声認識」、電子情報通信学会論文誌、 2 000年 2月、第 J83— D— II卷、第 2号、 p. 500— 508

発明の開示

発明が解決しょうとする課題

[0005] しかしながら、スペクトルサブトラクシヨンでは、現フレームのみの雑音重畳音声パヮ一スペクトルを用いてゲインを算出しているので、音声と雑音の相互相関項の影響が大きくなり高精度のゲインの推定が困難である。そのために、雑音抑圧後の音声にミユージカルノイズと呼ばれる特有の消し残り雑音が発生したり、音声スペクトルが歪むので音質が悪い。また、音声認識の前処理としてスペクトルサブトラクシヨンを利用する場合に認識率の改善効果が少な、と、う問題が一例として挙げられる。

[0006] また、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に平滑化して音声と雑音の相互相関項の影響を低減する場合、時間的に変動する音声スペクトルを現フレームから時間的に離れたフレームにわたって平滑ィ匕しているためにゲインの推定精度が劣るという問題が一例として挙げられる。

課題を解決するための手段

[0007] 請求項 1の発明にかかる雑音抑圧装置は、雑音が重畳した入力音声をフレーム分割する第 1フレーム分割手段と、前記第 1フレーム分割手段によりフレーム分割された入力音声をスペクトルに変換する第 1スペクトル変換手段と、前記第 1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出手段と、前記音声区間検出手段で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定手段と、前記第 1フレーム分割手段のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第 2フレーム分割手段と、前記第 2フレーム分割手段によってフレーム分割された入力音声をスペクトルに変換する第 2スペクトル変換手段と、前記第 2スぺタトル変換手段によって変換されたスペクトルを周波数方向に平滑ィ匕する平滑ィ匕手段と、前記平滑化手段によって平滑化されたスペクトルおよび前記雑音スペクトル推定手段により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出手段と、前記第 1スペクトル変換手段により求めた入力音声スペクトルに、前記ゲインを乗算することによりスぺ外ル減算を行うスぺ外ル減算手段と、を備えることを特徴とする。

[0008] また、請求項 7の発明に力かる雑音抑圧方法は、雑音が重畳した入力音声をフレーム分割する第 1フレーム分割工程と、前記第 1フレーム分割工程によりフレーム分割された入力音声をスペクトルに変換する第 1スペクトル変換工程と、前記第 1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出工程と、前記音声区間検出工程で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定工程と、前記第 1フレーム分割工程のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第 2フレーム分割工程と、前記第 2フレーム分割工程によってフレーム分割された入力音声をスペクトルに変換する第 2スペクトル変換工程と、前記第 2スぺクトル変換工程によって変換されたスペクトルを周波数方向に平滑ィ匕する平滑ィ匕工程と、前記平滑ィ匕工程によって平滑化されたスペクトルおよび前記雑音スペクトル推定工程により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出ェ程と、前記第 1スペクトル変換工程により求めた入力音声スペクトルに、前記ゲインを乗算することによりスぺ外ル減算を行うスぺ外ル減算工程と、を含むことを特徴とする。

[0009] また、請求項 8の発明に力かる雑音抑圧プログラムは、請求項 7に記載の雑音抑圧方法を、コンピュータに実行させることを特徴とする。

[0010] また、請求項 9の発明にかかるコンピュータに読み取り可能な記録媒体は、請求項

8に記載の雑音抑圧プログラムを記録したことを特徴とする。

図面の簡単な説明

[0011] [図 1]図 1は、この発明の実施の形態に力かる雑音抑圧装置の機能的構成を示すブロック図である。

[図 2]図 2は、この発明の実施の形態に力かる雑音抑圧方法の処理を示すフローチヤートである。

[図 3]図 3は、従来技術のスペクトルサブトラクシヨンを用いる雑音抑圧装置の機能的構成を示すブロック図である。

[図 4]図 4は、時間方向平滑ィ匕雑音重畳音声パワースペクトルを用いる雑音抑圧装置の機能的構成を示すブロック図である。

[図1—

〇 5]図 5は、この実施例の雑音抑圧装置の機能的構成を示すブロック図である。

1—

[図 6]図 6は、入力音声のフレーム分割を説明する説明図である。

圆 7]図 7は、周波数方向に平滑ィ匕した場合のゲイン算出を説明する説明図である。符号の説明

第 1フレーム分割部

102 第 1変換部

103 雑音スペクトル推定部

104 第 2フレーム分割部

105 第 2変換部

106 平滑化部

107 ゲイン算出部

108 スペクトル減算部

401 信号用フレーム分割部

402 スペクトル変換部

403 音声区間検出部

404 雑音スペクトル推定部

405 ゲイン算出部

406 スペクトル減算部

407 波形変換部

408 波形合成部

409 時間方向平滑化部

601 ゲイン算出用フレーム分割部

602 スペクトル変換部

603 周波数方向平滑化部

発明を実施するための最良の形態

以下に添付図面を参照して、この発明にかかる雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。

[0014] 図 1は、この発明の実施の形態に係る雑音抑圧装置の機能的構成を示すブロック図である。この実施の形態の雑音抑圧装置は、入力音声力音声スペクトルと雑音スベクトルを算出し、該音声スペクトルと該雑音スペクトルに基づいてゲインを算出し、算出されたゲインを用いて前記入力音声の雑音を抑圧する。また、この雑音抑圧装置は、第 1フレーム分割部 101、第 1変換部 102、雑音スペクトル推定部 103、第 2フレーム分割部 104、第 2変換部 105、平滑化部 106、ゲイン算出部 107、スペクトル減算部 108により構成されている。

[0015] 第 1フレーム分割部 101は所定のフレーム長に、前記入力音声をフレーム分割する。第 1変換部 102は、第 1フレーム分割部によってフレーム分割された入力音声をスベクトルに変換する。雑音スペクトル推定部 103は、第 1変換部 102によって変換されたスペクトルの内、非音声区間と判定されたフレームのスペクトルを用いて、雑音スベクトルを推定する。

[0016] 第 2フレーム分割部 104は、第 1フレーム分割部 101のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する。また、第 2フレーム分割部 104は第 1フレーム分割部 101のフレーム長の整数倍、たとえば 2倍のフレーム長に、入力音声をフレーム分割することができる。第 1フレーム分割部 101、第 2フレーム分割部 104は、分割した入力音声をそれぞれ窓掛け処理することができる。また、第 1フレーム分割部 101、第 2フレーム分割部 104は、分割した入力音声を、ハユング窓を用いて窓掛け処理することができる。

[0017] 第 2変換部 105は、第 2フレーム分割部 104によってフレーム分割された入力音声をスペクトルに変換する。平滑ィ匕部 106は、第 2変換部 105によって変換されたスぺタトルを周波数方向に平滑ィ匕する。たとえば、第 2フレーム分割部 104が、第 1フレーム分割部 101のフレーム長の 2倍のフレーム長に、入力音声をフレーム分割する場合は、平滑化部 106は、第 2変換部 105によって変換されたスペクトルの偶数番号のスペクトルを、該偶数番号のスペクトルの前後の番号のスペクトルを用いて平滑化することができる。すなわち、平滑化部 106は、第 2変換部 105によって変換された 2K 番目のスペクトルを、 2K— 1番目のスペクトル、前記 2K番目のスペクトルおよび 2K + 1番目のスペクトルを用いて平滑化する。

[0018] ゲイン算出部 107は、平滑ィ匕部 103によって平滑ィ匕されたスペクトルと、雑音スぺクトル推定部 103によって推定された雑音スペクトルに基づいてゲインを算出する。スベクトル減算部 108は、第 1変換部 102によって変換された入力音声スペクトルに、ゲイン算出部 107で算出されたゲインを乗算することにより、前記入力音声の雑音を抑圧する。スペクトル減算部 108は、ゲイン算出部 107で算出されたゲインと、第 1変換部 102で変換された入力音声スペクトルを同一のタイミングで入力することができる。

[0019] 図 2は、この発明の実施の形態に係る雑音抑圧方法の処理を示すフローチャートである。まず、第 1フレーム分割部 101は、所定のフレーム長に音声をフレーム分割する (ステップ S201)。次に、第 1変換部 102は、第 1フレーム分割部によってフレーム分割された入力音声をスペクトルに変換する (ステップ S202)。次に、雑音スぺタトル推定部 103は、第 1変換部 102によって変換されたスペクトルの内、非音声区間と判定されたフレームのスペクトルを用いて、雑音スペクトルを推定する（ステップ S203

) o

[0020] 第 2フレーム分割部 104は、第 1フレーム分割部 101のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する (ステップ S204)。次に、第 2変換部 105は、第 2フレーム分割部 104によってフレーム分割された入力音声をスペクトルに変換する (ステップ S205)。次に、平滑ィ匕部 106は、第 2変換部 105によって変換されたスベクトルを周波数方向に平滑化する (ステップ S206)。次に、ゲイン算出部 107は、平滑ィ匕部 103によって平滑ィ匕されたスペクトルと、雑音スペクトル推定部 103によつて推定された雑音スペクトルに基づいてゲインを算出する (ステップ S207)。次に、スベクトル減算部 108は、第 1変換部 102によって変換された入力音声スペクトルに、ゲイン算出部 107で算出されたゲインを乗算することにより、スペクトル減算する (ステップ S 208)。

[0021] 以上説明した実施の形態により、音声と雑音の相互相関項の影響を低減でき、高精度のゲインを推定することができる。その結果として高音質の音声が得られ、音声認識の前処理として用いた場合、雑音下での音声認識率を改善できる。実施例

[0022] ここで、従来技術であるスペクトルサブトラクシヨンにっ、て説明する。スペクトルサブトラタシヨンは雑音重畳音声をスぺ外ル領域に変換し、雑音区間で推定された推定雑音スペクトルを雑音重畳音声スペクトルから減算する手法である。雑音重畳音声スペクトルを X(k)、クリーン音声スペクトルを S (k)、雑音スペクトルを D(k)とすると、 X(k) =S(k) +D(k)と表せる。パワースペクトル領域では、下記式（1)として表せる

[0023] [数 1]

I X(k) |²=| S(k) + D(k) |² S(k) I² + 1 D(k) I² +21 S(k) || D(k) | cos 9(k)

… ）

[0024] 上式の右辺第 3項は音声と雑音の相互相関項である。ここで、音声と雑音は無相関と仮定して、下記式（2)のように近似する。

[0025] [数 2]

|X(k)|²=|S(k)|²+|D(k)|² -(2)

[0026] これより、クリーン音声パワースペクトルは雑音重畳音声パワースペクトル力推定雑音パワースペクトルを減算して、下記式（3)のように推定される。

[0027] [数 3]

|S(k)|²=|X(k)|²-|D(k)|² ー(3)

[0028] より一般的には下記式 (4)のように推定される。

[0029] 画

I s(k) \² = \^{l X(k) |2}— ^{α 1 D(k) |2}' ^if I ^x(k) I² _^α 1⁰(^k) I² > β I ^x(^k) I²

β|Χ(1ί)|², otherwise

…（

[0030] ここで、 aはサブトラクシヨン係数で、推定雑音パワースペクトルを多めに減算するために 1より大きい値に設定される。 βはフロア係数で、減算後のスペクトルが負あるいは 0に近い値になることを回避するために正の小さな値に設定される。上式はゲイン G (k)を用いて I x(k) I に対するフィルタリングとしても表現できる。

[数 5]

■(5)

[0032] 上記式（5)のようにおくと、推定クリーン音声振幅スペクトルは下記式 (6)で求められる。

[0033] [数 6]

| S(k) |= G(k) | X(k) | -(6)

[0034] さらに、推定クリーン音声スペクトルは下記式（7)で求められる。

[0035] [数 7]

S(k) = G(k)X(k) -(7)

[0036] 次に、上述のスペクトルサブトラクシヨンを用いて雑音除去する場合の構成について説明する。図 3は、従来技術のスペクトルサブトラクシヨン雑音抑圧装置の機能的構成を示すブロック図である。図 3に示す雑音抑圧装置は、信号用フレーム分割部 4 01、スペクトル変換部 402、音声区間検出部 403、雑音スペクトル推定部 404、ゲイン算出部 405、スペクトル減算部 406、波形変換部 407、波形合成部 408によって構成される。

[0037] 信号用フレーム分割部 401は、雑音重畳音声を一定数のサンプル力なるフレームに分割しスペクトル変換部 402と音声区間検出部 403に送る。スペクトル変換部 40 2は、離散フーリエ変換により雑音重畳音声スペクトル X (k)を求め、ゲイン算出部 40 5とスペクトル減算部 406へ送る。音声区間検出部 403は、音声区間 Z非音声区間を判別し、非音声区間と判定されたフレームの雑音重畳音声スペクトルを雑音スぺクトル推定部 404に送る。

[0038] 雑音スペクトル推定部 404は、非音声と判定された過去数フレームのパワースぺクトルの時間平均を計算し、推定雑音パワースペクトルを求める。ゲイン算出部 405は、雑音重畳音声パワースペクトルと推定雑音パワースペクトルを用いてゲイン G (k)を算出する。

[0039] スペクトル減算部 406は、ゲイン G (k)を雑音重畳音声スペクトル X(k)に乗算して、推定クリーン音声スペクトルを推定する。波形変換部 407は、逆離散フーリエ変換により推定クリーン音声スペクトルを時間波形に変換する。波形合成部 408は、フレーム単位の時間波形をオーバーラップ加算して連続波形を合成する。

[0040] 上述のスペクトルサブトラクシヨンでは音声と雑音は無相関と仮定して、式（1)の右辺第 3項の相互相関項を 0とお、て、式（2)のように雑音重畳音声パワースペクトルをクリーン音声パワースペクトルと雑音パワースペクトルの和で近似している。し力し、音声と雑音が無相関であっても短時間フレーム分析する場合、相互相関項は 0にならない。単に期待値力^になるだけである。そのため、式（1)の右辺第 3項を 0とおいた影響によりスペクトルサブトラクシヨン後の推定クリーン音声に雑音が残る。

[0041] 図 4は、時間方向平滑ィ匕雑音重畳音声パワースペクトルを用いる雑音抑圧装置の機能的構成を示すブロック図である。図 4の示す雑音抑圧装置は、図 3に示したゲイン算出部 405の前に時間方向平滑ィ匕部 409を備えた構成である。この雑音抑圧装置では、現フレーム時刻 tの時間方向平滑ィ匕雑音重畳音声パワースペクトルを、下記式（8)のように現フレームを含む過去 Lフレームの移動平均により求める。

[0042] [数 8]

L一 1

| X(k,t) |²= X_ai | X(k,t -l) |²

1=0

… ）

[0043] ここで、 aは平滑化の重みで、下記式（9)のようになる。

1

[数 9]

[0044] ゲイン算出部 405は、式（5)において現フレームの雑音重畳音声パワースペクトル

I x(k) 1 ²の代わりに、下記式（10)で示される時間方向平滑ィ匕雑音重畳音声パヮ一スペクトルを用いてゲイン G (k)を算出する。

[数 10]

| X(k,t) |² …( ）

[0045] 以上、従来技術のスペクトルサブトラクシヨンを用いたゲイン算出について説明した力この実施例では、上述の構成に加え、信号用フレーム分割部 401およびスぺタトル変換部 402とは別の、ゲイン算出用フレーム分割部 601およびスペクトル変換部 6 02を備え、かつ信号用フレームのサンプル数よりゲイン算出用フレームのサンプル数を多くする。それにより、周波数方向に平滑化した雑音重畳音声パワースペクトルが算出可能になり、これを用いてゲイン G (k)を算出する。

[0046] (雑音抑圧装置の機能的構成）

図 5は、この実施例の雑音抑圧装置の機能的構成を示すブロック図である。図 5に示す雑音抑圧装置は、信号用フレーム分割部 401、スペクトル変換部 402、音声区間検出部 403、雑音スペクトル推定部 404、ゲイン算出部 405、スペクトル減算部 40 6、波形変換部 407、波形合成部 408、ゲイン算出用フレーム分割部 601、スぺタトル変換部 602、周波数方向平滑ィ匕部 603によって構成される。

[0047] 実際の処理は CPU力 ROMに書き込まれたプログラムを読み出すことによって、 R AMをワークエリアとして使用することにより実行する。図 5を用いて実施例を説明する。まず、雑音重畳音声が、信号用フレーム分割部 401とゲイン算出用フレーム分割部 601へ送られる。

[0048] 信号用フレーム分割部 401は、雑音重畳音声を、 N (例えば 256)サンプルからなるフレームに分割する。このときスペクトル変換部 402における離散フーリエ変換 (DiS crete Fourier Transform : DFT)の周波数分析精度を高くするために窓掛け処理される。また、波形合成処理する場合はフレーム境界で不連続な波形になることを防止するために、フレームはオーバーラップするように分割される。

[0049] フレーム分割された雑音重畳音声信号 X (n)は、 X (n) =S (n) +d (n) , 0≤n≤

s s s s

N— 1、と表される。ここで、 S (n)はクリーン音声信号、 d (n)は雑音である。

S S

[0050] スペクトル変換部 402は、フレーム分割された雑音重畳音声信号 X (n)を、離散フ一リエ変換によりスペクトルに変換する。スペクトル X (k)は X (k) =S (k) +D (k)、 s s s s

0≤k≤N—l、と表される。ここで、 S (k)はクリーン音声スペクトルの第 k成分、 D (k

S S

)は雑音スペクトルの第 k成分である。スペクトル X (k)はスペクトル減算部 406に送ら s

れる。

[0051] 音声区間検出部 403は、並行してフレーム分割された雑音重畳音声信号 X (n)に

S

ついて、音声区間 Z非音声区間を判別し、非音声区間と判定されたフレームの雑音重畳音声信号のスペクトル X (k) =D (k)を雑音スペクトル推定部 404に送る。

S S

[0052] 雑音スペクトル推定部 404は、非音声区間と判定された過去数フレーム分のパワースペクトルの時間平均を計算し、推定雑音パワースペクトル DPを、下記式（11)で与える。

[0053] [数 11]

DP =| D_s(k) |² …(川

[0054] ゲイン算出用フレーム分割部 601は、雑音重畳音声を、 Nより多い M (たとえば 512 )サンプル力もなるフレームに分割する。このとき、ゲイン算出用フレーム分割の窓の中心を信号用フレーム分割の窓の中心と一致させる。フレーム分割された雑音重畳音声信号 X (m)は、 X (m) =S (m) + d (m)、 0≤m≤M— 1、と表される。ここで、 S g g g g

(m)はクリーン音声信号、 d (m)は雑音である。

g g

[0055] スペクトル変換部 602は、フレーム分割された雑音重畳音声信号 x (m)を離散フー g

リエ変換によりゲイン算出用スペクトルに変換する。ゲイン算出用スペクトル X (1)は、 g

X (1) =S (1) +D (1)、 0≤1≤M—1と表される。ここで、 S (1)は、クリーン音声スぺク g g g g

トルの第 1成分、 D (1)は雑音スペクトルの第 1成分である。

g

[0056] 周波数方向平滑ィ匕部 603は、ゲイン算出用スペクトル X (1)を平滑化する。ゲイン g

算出用フレーム分割のサンプル数 Mを信号用フレームのサンプル数 Nの 2倍（M = 2 N)に取った場合、後述する図 7に示すように、ゲイン算出用スペクトル X (1)と信号ス g ベクトル X (k)は、 l= 2k (k=0, 1, · ··, N— 1)のときに周波数が一致する。

S

[0057] そこで、スペクトル X (k)に対するゲイン G (k)を算出するために X (2k)を中心とす s g

る X (2k— 1)、X (2k)および X (2k+ l)を用いて、周波数方向平滑ィ匕パワースぺクトル XPは、下記式（12)のようにおく _c

[0058] [数 12]

XP=|X_e(k j²=a_,|X_g(2k-l +a₀|X_g(2k + a 2k + if， … )

0≤k≤N-1

[0059] ここで、 a 、 a、 a は平滑化の重みで、 a +a +a =1.0の関係がある。ここでは、

- 1 0 +1 -1 0 +1

a =a =a = lZ3とする。この周波数方向平滑ィ匕パワースペクトル XPは、ゲイン算

- 1 0 +1

出部 405に送られる。

[0060] ゲイン算出部 405は、雑音スペクトル推定部 404から送られた推定雑音パワースぺタトル DPと周波数方向平滑ィ匕パワースペクトル XPを用いて、ゲイン G (k)を下記式（ 13)のように算出する。

[数 13] if |X_s(k)| "|D_s(k)|²>P|X。(k)|」 otherwise

■(13)

[0061] ここで αはサブトラクシヨン係数で、推定雑音パワースペクトル DPを多めに減算するために 1より大きい値に設定される、 βはフロア係数であり、減算後のスペクトルが負あるいは 0に近い値になることを回避するために正の小さな値に設定される。算出されたゲイン G (k)はスペクトル減算部 406へ送られる。

[0062] スペクトル減算部 406は、スペクトル変換部 402で算出されたスペクトル X (k)にゲ s イン G (k)を乗算することにより、推定雑音スペクトルが減算された推定クリーン音声スベクトルを、下記式（14)のように算出する。

[数 14]

S_s(k) = G(k)X_s(k) ■(14)

[0063] 波形変換部 407は、推定クリーン音声スペクトルを逆離散フーリエ変換 (InverSe Discrete Fourier Transform :IDFT)してフレーム単位の時間波形を求める。波形合成部 408は、フレーム単位の時間波形をオーバーラップ加算して連続波形を合成し、雑音抑圧音声を出力する。

[0064] 図 6は、入力音声のフレーム分割を説明する説明図である。図 6 (a)は、信号用フレーム分割部 401において、雑音重畳音声を N (たとえば 256)サンプル力もなるフレームに分割する場合を示す。このとき、離散フーリエ変換 (Discrete Fourier Tra nSform: DFT)の周波数分析精度を高くするために窓掛け処理される。また、波形合成処理する場合はフレーム境界で不連続な波形になることを防止するために、フレームはオーバーラップするように分割される。

[0065] 図 6 (b)は、ゲイン算出用フレーム分割部 601において、雑音重畳音声を Nより多い M (たとえば 512)サンプルカゝらなるフレームに分割する場合を示す。ここでは、時間幅を図 6 (a)の場合の 2倍にとってある。このように、ゲイン算出用フレームのサンプル数を、信号用フレームのサンプル数より多くする。また、ゲイン算出用フレームの中心と信号用フレームの中心を一致させる。

[0066] 図 7は、周波数方向に平滑ィ匕した場合のゲイン算出を説明する説明図である。ダラフ 801に示すように、ゲイン算出用スペクトル X (1)は、スペクトル変換部 602によって

g

周波数に応じた 1本のスペクトルが出力される。ゲイン算出用スペクトル X (1)の周波

g

数方向平滑ィ匕は、信号スペクトル成分の周波数と一致するスペクトル成分を中心とする複数のスペクトル成分を用いる。

[0067] たとえば、ゲイン算出用フレーム分割のサンプル数 Mを、信号用フレームのサンプル数 Nの 2倍 (M = 2N)に取った場合、ゲイン算出用スペクトル X (1)と信号スぺタト

g

ル X (k)は、 l= 2k (k=0, 1, · ··, N— 1)のときに周波数が一致する。すなわち、ダラ s

フ 801は、 1=0, 1,…に対応したスペクトルを示している力このうち、太線で示した偶数番号に対応したスペクトルを、このスペクトルの前後にある細線で示したスぺタトルと組み合わせることにより周波数方向平滑ィ匕している。たとえば、 1=6のスペクトルに対し、 1= 5および 1= 7のスペクトルを使用する。これに対し、 G (3)で示されるゲイン 802が算出される。ゲイン 802は、スペクトル減算部 406において、グラフ 803で示されるスペクトル X (k)と力け合わされる。 [0068] 次に、窓関数について説明する。長い信号のスペクトル変換は、上述のようにフレーム単位で分割してフーリエ変換する力離散値のデータを用いることになるので、離散フーリエ変換となる。離散フーリエ変換の場合、データの周期性が仮定されているが、切り出したデータの両端が極端な値の場合、影響が大きくなつてしまい、結果として高周波成分の歪みが発生してしまう。この対策として、信号に窓関数をかけた結果を離散フーリエ変換する。この窓関数をかけ合わせる処理のことを窓掛け処理と、

[0069] 窓関数は、メインローブ (周波数力 ^周辺の振幅スペクトルが大き、領域)の幅が狭く、サイドローブ (周波数が 0から離れた位置の振幅スペクトルが小さ、領域)の振幅が小さいことが条件となる。具体的には、方形窓、ハユング窓、ノ、ミング窓、ガウス窓などが挙げられる。

[0070] 本実施例で用いる窓関数はハユング窓である。ハユング窓の窓関数は、 0≤n≤N

1の範囲で、 h (n) =0. 5-0. 5{cos (27u nZ (N—l) ) }で与えられ、その他の範囲では h (n) =0である。この窓関数は、メインローブの周波数分解能は比較的劣るものの、サイドローブの振幅が比較的小さい。

[0071] 以上説明した実施例によれば、雑音重畳音声パワースペクトルの複数のスペクトル成分を用いて周波数方向に平滑ィヒを行って、るので、音声と雑音の相互相関項を低減でき、高精度のゲインを推定できる。さらに、ゲイン算出用フレームと信号用フレームの中心が一致しているので、信号フレームとほぼ同時刻のフレームを用いてゲインを算出できるので精度の高いゲインの推定が可能である。これによりミュージカルノィズゃ音声スペクトルの歪みの少ない高音質の音声が得られる。また、音声認識の前処理として実施例を用いた場合、雑音下での音声認識率の改善効果が大き!ヽ。

[0072] なお、本実施の形態で説明した雑音抑圧方法は、予め用意されたプログラムをパ一ソナル 'コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、 CD -ROM, MO、 DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体力読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体でもよい。

Claims

請求の範囲

[1] 雑音が重畳した入力音声をフレーム分割する第 1フレーム分割手段と、

前記第 1フレーム分割手段によりフレーム分割された入力音声をスペクトルに変換する第 1スペクトル変換手段と、

前記第 1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出手段と、

前記音声区間検出手段で非音声区間と判別された区間の前記入力音声スぺタトルを用いて、雑音スペクトルを推定する雑音スペクトル推定手段と、

前記第 1フレーム分割手段のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第 2フレーム分割手段と、

前記第 2フレーム分割手段によってフレーム分割された入力音声をスペクトルに変換する第 2スペクトル変換手段と、

前記第 2スペクトル変換手段によって変換されたスペクトルを周波数方向に平滑ィ匕する平滑化手段と、

前記平滑化手段によって平滑化されたスペクトルおよび前記雑音スペクトル推定手段により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出手段と、

前記第 1スペクトル変換手段により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算手段と、

を備えることを特徴とする雑音抑圧装置。

[2] 前記第 2フレーム分割手段は、前記入力音声を、前記第 1フレーム分割手段のフレーム長の整数倍のフレーム長にフレーム分割することを特徴とする請求項 1に記載の雑音抑圧装置。

[3] 前記第 2フレーム分割手段は、前記入力音声を、前記第 1フレーム分割手段のフレーム長の 2倍のフレーム長にフレーム分割し、前記平滑化手段は、前記第 2スぺタトル変換手段によって変換された周波数方向の順番にお、て偶数番号のスぺクトルを、該偶数番号のスペクトルの前後の番号のスペクトルを用いて平滑ィヒすることを特徴とする請求項 2に記載の雑音抑圧装置。

[4] 前記第 1フレーム分割手段および前記第 2フレーム分割手段は、分割した入力音声にそれぞれ窓関数をかけ合わせることを特徴とする請求項 1に記載の雑音抑圧装置。

[5] 前記第 1フレーム分割手段および前記第 2フレーム分割手段は、前記窓関数にハニング窓を用いることを特徴とする請求項 4に記載の雑音抑圧装置。

[6] 前記スペクトル減算手段は、前記ゲイン算出手段によって算出されたゲインを、前記第 1スペクトル変換手段により求めた入力音声スペクトルと同一のタイミングで入力することを特徴とする請求項 1〜5のいずれか一つに記載の雑音抑圧装置。

[7] 雑音が重畳した入力音声をフレーム分割する第 1フレーム分割工程と、

前記第 1フレーム分割工程によりフレーム分割された入力音声をスペクトルに変換する第 1スペクトル変換工程と、

前記第 1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出工程と、

前記音声区間検出工程で非音声区間と判別された区間の前記入力音声スぺタトルを用いて、雑音スペクトルを推定する雑音スペクトル推定工程と、

前記第 1フレーム分割工程のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第 2フレーム分割工程と、

前記第 2フレーム分割工程によってフレーム分割された入力音声をスペクトルに変換する第 2スペクトル変換工程と、

前記第 2スペクトル変換工程によって変換されたスペクトルを周波数方向に平滑ィ匕する平滑化工程と、

前記平滑ィ匕工程によって平滑化されたスペクトルおよび前記雑音スペクトル推定ェ程により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出工程と、

前記第 1スペクトル変換工程により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算工程と、

を含むことを特徴とする雑音抑圧方法。

[8] 請求項 7に記載の雑音抑圧方法をコンピュータに実行させることを特徴とする雑音抑圧プログラム。

請求項 8に記載の雑音抑圧プログラムを記録したことを特徴とするコンビュみ取り可能な記録媒体。