WO2007058121A1

WO2007058121A1 - 残響抑圧の方法、装置及び残響抑圧用プログラム

Info

Publication number: WO2007058121A1
Application number: PCT/JP2006/322444
Authority: WO
Inventors: Akihiko Sugiyama
Original assignee: Nec Corporation
Priority date: 2005-11-15
Filing date: 2006-11-10
Publication date: 2007-05-24
Also published as: JPWO2007058121A1; JP4973873B2; US20100211382A1; US8073147B2

Abstract

信号源から観測地点までのインパルス応答に関する情報を用いて、後期反射成分を推定する残響推定部と、雑音推定部及び混合部を備えていることを特徴とする。この結果、少ない演算量で、雑音がある環境でも、高品質な残響抑圧信号を得ることができる。

Description

明細書

残響抑圧の方法、装置及び残響抑圧用プログラム

技術分野

[0001] 本発明は、所望の信号に重畳されている残響を抑圧するための残響抑圧の方法、装置及び残響抑圧用プログラムに関する。

背景技術

[0002] 残響抑圧システムは、所望の音声信号に重畳されている残響を抑圧するシステムである。残響は、原信号と信号源から観測地点までのインパルス応答の畳み込み演算によって発生する。従って、一般的に、残響の重畳された信号にインパルス応答の逆特性を畳み込むことによって、残響抑圧が達成される。し力ながら、前記インパルス応答またはその逆特性が未知であるので、これをどのようにして求めるかが問題となる。前記インパルス応答の逆特性を求めて、残響を含む信号と畳み込むことによつて残響抑圧を行う一つの方法が、非特許文献 1に開示されてレ、る。

[0003] 開示されている方法では、まず、残響を含む入力音声を線形予測分析して隣接サンプノレ間の相関を除去する。次に、相関除去信号をフィルタ処理した出力の尖度 (力一トシス、 kurtosis)を最大化するように、前記フィルタの係数を最小平均二乗法 (LMS アルゴリズム)などを用いて更新する。このようにして得られたフィルタの係数を前記ィンパルス応答の逆特性として、残響を含む入力音声に畳み込むことで、残響を抑圧する。この方法は元々、複数の異なった空間的位置における入力信号に対して適用されているが、非特許文献 2では一つの入力信号に適用する例が開示されている。

[0004] 空間的に異なる複数の位置における信号を用いないために生じる性能の劣化を力バーするために、第 1段と第 2段の 2段構成で、残響を抑圧する。第 1段では、前記ィンパルス応答の逆特性を非特許文献 1の方法で求めて、残響を含む入力音声に畳み込むことによって、早期反射を抑圧する。続いて、第 2段では、雑音抑圧と同様な構成で後期反射を抑圧する。すなわち、第 1段の出力に含まれる後期反射成分を推定し、これを第 1段の出力から差し引くことで、後期反射成分を抑圧する。非特許文献 2に開示されている方法のブロック図を、図 20に示す。以下、図 20を参照して、非特許文献 2に開示された残響抑圧の方法について説明する。

[0005] 入力端子 1に供給された残響を含む信号、すなわち劣化音声は、線形予測 (LP)分析部 3に供給され、隣接サンプノレ間の相関を除去される。得られた線形予測誤差は逆フィルタ 4に伝達され、フィルタ係数との畳込み結果を求めた後、結果が係数更新部 5に供給される。係数更新部 5では、逆フィルタ 4の出力の尖度が最大化されるような係数更新成分を LMSアルゴリズムなどを用いて求める。係数更新成分は逆フィルタ 4に帰還され、これを用いて係数更新が行われる。この係数更新を反復することによつて、最終的に逆フィルタ 4の特性は、信号源から観測地点までのインパルス応答の逆特性に等しくなる。一方、逆フィルタ 4の特性は逆フィルタ 2に逐次コピーされており、入力端子 1に供給される劣化音声との畳み込み結果が、計算される。この畳み込み結果が、前記第 1段の出力となる。逆フィルタ 4の係数更新には、 LMSアルゴリズムの他にも、正規化 LMS(NLMS)アルゴリズム、 LSアルゴリズム、ァフィン射影アルゴリズムなどを用いることができる。また、逆フィルタ 4と係数更新部 5は、非特許文献 3に開示されるような、周波数領域アルゴリズム、またはサブバンドアルゴリズムを用いて構成することが可能である。

[0006] 第 2段では、フレーム分割部 6で、第 1段の逆フィルタ 2から供給された信号を特定数のサンプノレを単位としたフレームに分割し、窓掛け処理部 7へ伝達する。窓掛け処理部 7は、フレームに分割された信号と窓関数を乗算し、その結果をフーリエ変換部 8へ伝達する。窓がけ処理に用いられる窓関数は、フレーム端がフレーム中心よりも大きく抑圧され、隣接フレームへの遷移が滑らかに行うことができるような特性を有する。窓がけされた信号は、フーリエ変換部 8で複数の周波数成分に分解され、さらに振幅と位相に分離される。フーリエ変換部 8は、窓掛けされた信号にフーリエ変換を施して複数の周波数成分に分割し、振幅値を二乗してパワーを求め、残響推定部 11 1へ供給する。位相は、逆フーリエ変換部 15に供給される。残響推定部 111では、レイリー分布関数を用いて、過去の劣化音声パワーから現在の残響パワーを推定する。推定された残響パワーを減算器 141で前記窓がけされた信号のパワーから差し引くことによって、後期反射成分の除去が行われる。減算結果は、選択部 121に伝達される [0007] 一方、前記窓がけされた信号のパワーは定数乗算器 20にも供給されており、定数乗算器 20で ε倍されてから、選択部 121に供給される。選択部 121は、減算器 141の出力と定数乗算器 20の出力のうち大きいほうを選択して、無音間隙減衰部 19に伝達する。選択部 121の動作により、減算結果の最低値を前記窓がけされた信号の ε倍に制限することができ、過剰な残響抑圧を防止することができる。無音間隙減衰部 19 は、有音区間に挟まれた無音区間を検出し、パワーを予め定められた小さな値まで強制的に減衰させる。この操作によって、無音間隙が残響に坦もれることを防止する。無音間隙減衰部 19の出力は、逆フーリエ変換部 15に供給される。逆フーリエ変換部 15は、無音間隙減衰部 19から供給された残響抑圧音声パワーの平方根とフーリエ変換部 8から供給された残響音声の位相を合わせて逆フーリエ変換を行い、残響抑圧音声信号サンプルとして、フレーム合成部 17に供給する。フレーム合成部 17では、隣接フレームの残響抑圧音声サンプノレを用いて当該フレームの出力音声サンプルを合成し、出力端子 18に供給する。

[0008] 非特許文献 1 : 2001年 5月、アイ'ィ一'ィ一'ィ一'プロシーディンダス'ォブ'インターナショナノレ'カンファレンス ·オン.ァクースティタス.スピーチ ·アンド ·シグナノレ'プロセシング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.370ト 3704， MAY, 2001)、 3701〜37 04ページ

非特許文献 2 : 2005年 3月、アイ'ィ一'ィ一'ィ一'プロシーディンダス'ォブ'インターナショナノレ'カンファレンス.オン.ァクースティタス.スピーチ.アンド'シグナノレ'プロセシング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.1085-1088， MAR, 2005)、 1085〜10 88ページ

非特許文献 3 : 1992年 1月、アイ'ィ一'ィ一'ィ一'シグナル 'プロセシング 'マガジン (I

EEE SIGNAL PROCESSING MAGAZINE, PP.15-36， JAN, 1992)、 15〜36ページ発明の開示

発明が解決しょうとする課題

[0009] 残響推定部 111では、レイリー分布関数を用いて、過去の劣化音声パワーから残響パワーを推定する。すなわち、信号源力観測地点までのインパルス応答の包絡線をレイリー分布関数で近似して、この包絡線と過去の劣化音声の畳み込み演算で、後期反射成分を推定している。しかし、残響推定部 111ではその拡大縮小係数だけを最適化しているため、レイリー分布関数が前記インパルス応答の包絡線を十分な精度で近似せず、高音質な残響抑圧を行うことができなかった。

[0010] また、後期反射を抑圧するための第 2段は、雑音抑圧装置と等価な構成であるにもかかわらず、雑音抑圧機能を有さない。このため、残響と雑音が混在する環境においては、さらに後処理として独立な雑音抑圧を行わなければならず、全体としての演算量が増大するという問題があった。

[0011] そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、少ない演算量で、雑音がある環境でも、高品質な残響抑圧信号を得ることのできる残響抑圧の方法、装置及びプログラムを提供することである。

課題を解決するための手段

[0012] 上記課題を解決する第 1の発明は、入力信号を周波数領域信号に変換し、該周波数領域信号を用いて雑音を推定し、信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定し、前記推定雑音と前記推定残響を混合して混合信号を求め、該混合信号と前記周波数領域信号を用いて抑圧係数を定め、該抑圧係数で前記周波数領域信号を重みづけすることによって、残響を抑圧することを特徴とする残響抑圧の方法である。

[0013] 上記課題を解決する第 2の発明は、上記第 1の発明において、前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定することを特徴とする。

[0014] 上記課題を解決する第 3の発明は、上記第 1又は第 2の発明において、前記周波数領域信号の帯域を統合して統合周波数領域信号を求め、該統合周波数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求めることを特徴とする。

[0015] 上記課題を解決する第 4の発明は、第 1から第 3のいずれかの発明において、入力信号サンプル間の相関を除去して相関除去信号を求め、該相関除去信号を適応フィルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更新し、前記適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信号を処理して早期反響除去信号を求め、前記適応フィルタの係数を用いて前記インパルス応答を求め、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする。

[0016] 上記課題を解決する第 5の発明は、第 1から第 3のいずれかの発明において、参照信号を第一の適応フィルタで処理して擬似雑音を求め、該擬似雑音を入力信号から差し弓 [レ、て雑音消去信号を求め、該雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて、前記第一の適応フィルタの係数を更新し、前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、前記雑音除去信号を前記入力信号として用いることを特徴とする。

[0017] 上記課題を解決する第 6の発明は、第 5の発明において、前記雑音除去信号のサンプル間相関を除去して相関除去信号を求め、該相関除去信号を第二の適応フィルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係数を更新し、前記第二の適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信号を処理して早期反響除去信号を求め、前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする。

[0018] 上記課題を解決する第 7の発明は、入力信号を周波数領域信号に変換する変換部と、該周波数領域信号を用いて推定雑音を求める雑音推定部と、信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定する残響推定部と、前記推定雑音と前記推定残響を混合して混合信号を求める混合部と、該混合信号と前記周波数領域信号を用いて抑圧係数を定める抑圧係数生成部と、該抑圧係数で前記周波数領域信号を重みづけする乗算部とを有することを特徴とする残響抑圧の装置である。

[0019] 上記課題を解決する第 8の発明は、第 7の発明において、前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定する残響推定部を有することを特徴とする。 [0020] 上記課題を解決する第 9の発明は、第 7又は第 8の発明において、前記周波数領域信号の帯域を統合して統合周波数領域信号を求める帯域統合部を有し、該統合周波数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求めることを特 ί敷とする。

[0021] 上記課題を解決する第 10の発明は、第 7から第 9の発明のいずれかにおいて、入力信号サンプル間の相関を除去して相関除去信号を求める相関除去部と、該相関除去信号を処理して仮早期反響抑圧信号を求める適応フィルタと、前記適応フィルタの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める固定フィルタと、前記適応フィルタの係数を用いて前記インパルス応答を求める残響推定部とを有し、前記仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする。

[0022] 上記課題を解決する第 11の発明は、第 7から第 9の発明のいずれかにおいて、参照信号を処理して擬似雑音を求める第一の適応フィルタと、該擬似雑音を入力信号力差し引いて雑音消去信号を求める減算器と、前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部を有し、前記雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて、前記第一の適応フィルタの係数を更新し、前記雑音除去信号を前記入力信号として用いることを特徴とする。

[0023] 上記課題を解決する第 12の発明は、第 11の発明において、前記雑音除去信号のサンプル間相関を除去して相関除去信号を求める相関除去部と、該相関除去信号を処理して仮早期反響抑圧信号を求める第二の適応フィルタと、前記第二の適応フィルタの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める固定フィルタと、前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部とを有し、前記仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係数を更新し、前記早期反響抑圧信号を前記入力信号として用レ、ることを特徴とする。

[0024] 上記課題を解決する第 13の発明は、コンピュータに、入力信号を周波数領域信号に変換する処理と、該周波数領域信号を用いて雑音を推定する処理と、信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定する処理と、前記推定雑音と前記推定残響を混合して混合信号を求める処理と、該混合信号と前記周波数領域信号を用いて抑圧係数を定める処理と、該抑圧係数で前記周波数領域信号を重みづけする処理とを実行させるための残響抑圧用プログラムである。

[0025] 上記課題を解決する第 14の発明は、コンピュータに、入力信号を周波数領域信号に変換する処理と、該周波数領域信号を用いて雑音を推定する処理と、信号源から観測地点までのインパルス応答と、前記推定残響力前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定する処理と、前記推定雑音と前記推定残響を混合して混合信号を求める処理と、該混合信号と前記周波数領域信号を用いて抑圧係数を定める処理と、該抑圧係数で前記周波数領域信号を重みづけする処理とを実行させるための残響抑圧用プログラムである。

[0026] すなわち、本発明の残響抑圧の方法及び装置では、信号源から観測地点までのィンパルス応答に関する情報を用いて、推定した後期反射成分と、入力信号を用いて推定した雑音とを、適切に混合してから入力信号において抑圧することを特徴とする

[0027] より具体的には、信号源から観測地点までのインパルス応答に関する情報を用いて、後期反射成分を推定する残響推定部と、入力信号を用いて雑音を推定する雑音推定部と、推定残響と推定雑音を混合する混合部とを備えていることを特徴とする。発明の効果

[0028] 本発明では、信号源力も観測地点までのインパルス応答に関する情報を用いて、後期反射成分を推定し、入力信号を用いて雑音を推定し、これらを適切に混合して力抑圧するので、少ない演算量で高品質な残響抑圧と雑音抑圧を同時に達成すること力 Sできる。

図面の簡単な説明

[0029] [図 1]本発明の第 1の実施の形態を示すブロック図。

[図 2]本発明の第 1の実施の形態に含まれる雑音推定部の構成を示すブロック図。

[図 3]図 2に含まれる推定雑音計算部の構成を示すブロック図。

[図 4]図 3に含まれる更新判定部の構成を示すブロック図。園 5]図 2に含まれる重み付き劣化音声計算部の構成を示すブロック図。

園 6]非線形処理部における非線形関数の一例を示す図。

園 7]図 1に含まれる抑圧係数生成部の構成を示すブロック図。

園 8]図 7に含まれる推定先天的 SNR計算部の構成を示すブロック図。

園 9]図 8に含まれる多重重み付き加算部の構成を示すブロック図。

園 10]図 7に含まれる抑圧係数計算部の構成を示すブロック図。

園 11]図 7に含まれる抑圧係数補正部の構成を示すブロック図。

園 12]本発明の第 2の実施の形態を示すブロック図。

園 13]周波数サンプルの統合を説明する図。

園 14]本発明の第 3の実施の形態に含まれる残響推定部の構成を示すブロック図。園 15]本発明の第 4の実施の形態を示すブロック図。

園 16]本発明の第 4の実施の形態に含まれる残響推定部の構成を示すブロック図。園 17]本発明の第 5の実施の形態を示すブロック図。

園 18]本発明の第 6の実施の形態を示すブロック図。

園 19]本発明の第 7の実施の形態を示すブロック図。

[図 20]従来の残響抑圧装置の構成例を示すブロック図。

符号の説明

1. 25入力端子

2, 4逆フイノレタ

3 LP分析部

5係数更新部

6フレーム分割部

7, 16窓がけ処理部

8フーリエ変換部

9帯域統合部

10雑音推定部

12混合部

13抑圧係数生成部 14, 313， 1324, 1325， 1391， 1293, 1357乗算器

15逆フーリエ変換部

17フレーム合成部

18出力端子

19無音間隙減衰部

20， 1395定数乗算器

26適応フィルタ

27, 1015， 1328, 1392, 1394加算器

30, 31， 32, 40, 111残響推定部

101推定雑音計算部

102重みつき劣化音声計算部

103, 1018カウンタ

104推定雑音補正部

121選択部

131， 1022周波数別 SNR計算部

132推定先天的 SNR計算部

133, 1333抑圧係数計算部

134音声非存在確率記憶部

135抑圧係数補正部

141、 311減算器

200ノイズキャンセラ

312指数関数計算部

921瞬時推定 SNR

922過去の推定 SNR

923重み

924推定先天的 SNR

1000コンピュータ

1010更新判定部 1011レジスタ長記憶部

1012, 1021推定雑音記憶部

1013,1355スィッチ

1014シフトレジスタ

1016最小値選択部

1017除算部

1024多重非線形処理部

1101論理和計算部

1102, 1104,1354比較部

1103, 1105， 1353閾値記憶部

1106閾値計算部

1321多重値域限定処理部

1322後天的 SNR記憶部

1323抑圧係数記憶部

1326重み記憶部

1327多重重みつき加算部

1331 MMSE STSAゲイン関数値計算部

1332一般化尤度比計算部

1351最大値選択部

1352抑圧係数下限値記憶部

1356修正値記憶部

発明を実施するための最良の形態

[0031] 図 1は、本発明の最良の実施の形態を示すブロック図である。図 1は従来例である図 20における残響推定部 111、減算器 141、定数乗算器 20、選択部 121、無音間隙減衰部 19を、雑音推定部 10、残響推定部 30、混合部 12、抑圧係数生成部 13、乗算器 14で置換した構成を有する。以下、これらの相違点を中心に詳細な動作を説明する。

[0032] 推定雑音計算部 10は、フーリエ変換部 8から供給された複数の周波数成分それぞれに対して雑音を推定し、混合部 12へ伝達する。雑音推定の方式の一例としては、過去の信号対雑音比で劣化音声を重み付けて雑音成分とする方式があり、その詳細は、例えば、特許文献 1 (特開 2002— 204175号）に記載されている。

[0033] 残響推定部 30は、後期反射を表すインパルス応答末尾の特性を求め、乗算器 14から供給された過去の残響抑圧信号と畳み込むことによって、現在の残響を推定する。残響推定部 30には逆フィルタ 4からフィルタ係数に関する情報が供給されており、これを用いて後期反射成分を推定する。逆フィルタ 4から供給されるフィルタ係数を用レヽて逆フィルタ 4の逆特性を求めると、これは信号源から観測地点までのインパルス応答になる。このインパルス応答の末尾が後期反射を引き起こすので、末尾の係数値を用いて、残響成分を推定することができる。また、室内における音響空間のインノルス応答末尾が指数減衰関数で近似されることはよく知られているので、求めたィンパルス応答の係数値をそのまま用いる代わりに、末尾を近似する指数関数を求めて、そのサンプノレ値を用いることもできる。末尾の係数値が指数減衰することが保証されるので、逆フィルタ 4における演算で発生する可能性のある局所的な演算誤差を避け、正確な残響を推定することができる。末尾を近似する指数関数を求める際には、末尾のサンプノレ値の対数をとり、対数領域でこれらのサンプル値を直線近似し、得られた直線の傾きを指数として用いても良い。また、最低 2点で唯一の指数関数を決定することができるので、上記で使用する係数の数は 2以上であればレ、くつでもよレ、。さらに、逆フィルタにおける係数更新によって発生する係数値の微小な変化による影響を避けるために、逆フィルタから供給される係数を平均化してから、指数関数決定に使用することもできる。この平均化は、指数関数を用いずに係数値を直接用いて残響を推定する前記の実施例にも有効である。

[0034] このようにして推定された残響は、混合部 12へ伝達される。混合部 12は、供給された推定雑音と推定残響を混合して、抑圧係数生成部 13へ伝達する。推定雑音と推定残響の混合のうち、最も簡単な処理は、いずれか一方の選択である。推定雑音と推定残響を比較し、どちらか大きい方を混合部 12の出力として抑圧係数生成部 13に供給する。これは、残響と雑音のうち支配的な方を優先して抑圧することになり、出力信号に含まれる雑音と残響が小さぐ明瞭な音声を得ることができる。一方、推定雑音と推定残響のうち小さい方を、混合部 12の出力として抑圧係数生成部 13に供給することもできる。この場合には、大きい方を選択した場合と比較して、出力信号に残留する残響と雑音は大きくなる。しかし、反対に、音声に含まれる歪みを小さく保つことができる。これらの二つの例の中間的な処理が、推定雑音と推定残響の混合である。混合に際しては、両者をそのまま加算したり、加算した後にどちらか大きい方と同じ全帯域パワーになるように正規化したり、小さいほうと同じ全帯域パワーになるように正規化したり、両者の平均と同じ全帯域パワーになるように正規化したりすることができる。

[0035] 抑圧係数生成部 13では、入力信号に乗算することによって残響と雑音が抑圧された強調音声を求めるための、抑圧係数を複数の周波数成分それぞれに対して生成する。抑圧係数生成の一例としては、強調音声の平均二乗誤差の期待値を最小化する最小平均二乗短時間スペクトル振幅法が雑音抑圧において広く用いられており、その詳細は特許文献 1に記載されている。雑音抑圧における抑圧係数の生成は推定雑音と劣化音声に基づいて行うが、本発明では、推定残響と推定雑音の混合信号と劣化音声に基づいて抑圧係数を生成する。

[0036] 周波数別に生成した抑圧係数は、乗算器 14に供給される。乗算器 14は、フーリエ変換部 8から供給された劣化音声と抑圧係数生成部 13から供給された抑圧係数を、各周波数で独立に乗算し、その積を強調音声のパワーとして逆フーリエ変換部 15に伝達する。逆フーリエ変換部 15は、乗算器 14力供給された強調音声パワーの平方根とフーリエ変換部 3から供給された劣化音声の位相を合わせて逆フーリエ変換を行レ、、強調音声信号サンプルとして、窓がけ処理部 16に供給する。窓がけ処理部 16 は、窓がけ処理部 7と同じ動作で強調音声信号サンプルを処理し、フレーム合成部 1 7に供給する。窓がけ処理部 16は、フレーム境界における信号の連続性を改善し、滑らかな出力信号を得ることに貢献する。フレーム合成部 17では、隣接フレームの強調音声サンプルを用いて当該フレームの出力音声サンプルを合成し、出力端子 18に供給する。

[0037] 図 2は、雑音推定部 10の構成を、特許文献 1に記載された方式について表したプロック図である。便宜的に雑音を推定するものとして説明するが、実際は雑音の代わりに雑音と残響の混合信号を推定する。まず、雑音推定部 10の入力である劣化音声は、推定雑音計算部 101と重みつき劣化音声計算部 102に供給される。重みつき劣化音声計算部 102は、劣化音声パワースペクトルを用いて重みつき劣化音声パワースベクトルを計算し、推定雑音計算部 101に伝達する。推定雑音計算部 101は、劣化音声パワースペクトル、重みつき劣化音声パワースペクトル、及びカウンタ 103から供給されるカウント値を用いて雑音のパワースペクトルを推定し、推定雑音パワースぺタトルとして出力する。

[0038] 図 3は、図 2に含まれる推定雑音計算部 101の構成を示すブロック図である。推定雑音計算部 101は、更新判定部 1010、レジスタ長記憶部 1011、推定雑音記憶部 1012、スィッチ 1013、シフトレジスタ 1014、加算器 1015、最小値選択部 1016、除算部 1017、カウンタ 1018を有する。スィッチ 1013には、図 2の重みつき劣化音声計算部 102から、周波数別重みつき劣化音声パワースペクトルが供給されている。スィッチ 1013が回路を閉じたときに、周波数別重みつき劣化音声パワースペクトルは、シフトレジスタ 1014 に伝達される。シフトレジスタ 1014は、更新判定部 1010から供給される制御信号に応じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述するレジスタ長記憶部 1011に記憶されている値に等しレ、。シフトレジスタ 1014の全レジスタ出力は、加算器 1015に供給される。加算器 1015は、供給された全レジスタ出力を加算して、加算結果を除算部 1017に伝達する。

[0039] 一方、更新判定部 1010には、カウント値、周波数別劣化音声パワースペクトル及び周波数別推定雑音パワースペクトルが供給されている。更新判定部 1010は、カウント値が予め設定された値に到達するまでは常に 'τ'を、到達した後は入力された劣化音声信号が雑音であると判定されたときに 'τ'を、それ以外のときに'' 0"を出力し、力ゥンタ 1018、スィッチ 1013、及びシフトレジスタ 1014に伝達する。スィッチ 1013は、更新判定部から供給された信号が 'τ'のときに回路を閉じ、 "0"のときに開く。カウンタ 1

018は、更新判定部から供給された信号が 'Τ'のときにカウント値を増加し、 "0"のときには変更しなレ、。シフトレジスタ 1014は、更新判定部から供給された信号力 I"のときにスィッチ 1013から供給される信号サンプルを 1サンプノレ取り込むと同時に、内部レジスタの記憶値を隣接レジスタにシフトする。最小値選択部 1016には、カウンタ 101 8の出力とレジスタ長記憶部 1011の出力が供給されている。

[0040] 最小値選択部 1016は、供給されたカウント値とレジスタ長のうち、小さい方を選択して、除算部 1017に伝達する。除算部 1017は、加算器 1015から供給された周波数別劣化音声パワースペクトルの加算値をカウント値又はレジスタ長の小さい方の値で除算し、商を周波数別推定雑音パワースペクトル λ (k)として出力する。 B (k)(n=0， 1, ·· ., n n

N_l)をシフトレジスタ 1014に保存されている劣化音声パワースペクトルのサンプル値とすると、 λ (k)は、

n

[0041] [数 1コ

で与えられる。ただし、 kは周波数番号、 Nはカウント値とレジスタ長のうち、小さい方の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で除算が行なわれ、後にはレジスタ長で除算が行なわれる。レジスタ長で除算が行なわれることは、シフトレジスタに格納された値の平均値を求めることになる。最初は、シフトレジスタ 1014に十分多くの値が記憶されていないために、実際に値が記憶されてレ、るレジスタの数で除算する。実際に値が記憶されているレジスタの数は、カウント値力 Sレジスタ長より小さいときはカウント値に等しぐカウント値がレジスタ長より大きくなると、レジスタ長と等しくなる。

[0042] 図 4は、図 3に含まれる更新判定部 1010の構成を示すブロック図である。更新判定部 1010は、論理和計算部 1101、比較部 1102、 1104、閾値記憶部 1103、 1105、閾値計算部 1106を有する。図 2のカウンタ 103から供給されるカウント値は、比較部 1102に伝達される。閾値記憶部 1103の出力である閾値も、比較部 1102に伝達される。比較部 1 102は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに "1" を、カウント値が閾値より大きいときに' '0"を、論理和計算部 1101に伝達する。一方、閾値計算部 1106は、図 3の推定雑音記憶部 1012から供給される周波数別推定雑音パワースペクトルに応じた値を計算し、閾値として閾値記憶部 1105に出力する。最も簡単な閾値の計算方法は、周波数別推定雑音パワースぺ外ルの定数倍である。その他に、高次多項式や非線形関数を用いて閾値を計算することも可能である。閾値記憶部 1105は、閾値計算部 1106力出力された閾値を記憶し、 1フレーム前に記憶された閾値を比較部 1104へ出力する。比較部 1104は、閾値記憶部 1105 力も供給される閾値と図 1のフーリエ変換部 8から供給される周波数別劣化音声パヮ一スペクトルを比較し、周波数別劣化音声パワースペクトルが閾値よりも小さければ'' を、大きければ'' 0"を論理和計算部 1101に出力する。すなわち、推定雑音パワースペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。論理和計算部 1101は、比較部 1103の出力値と比較部 1104の出力値との論理和を計算し、計算結果を図 3のスィッチ 1013、シフトレジスタ 1014及びカウンタ 1018に出力する。このように、初期状態や無音区間だけでなぐ有音区間でも劣化音声パワーが小さい場合には、更新判定部 1010はを出力する。すなわち、推定雑音の更新が行われる。閾値の計算は各周波数で独立に行われるため、各周波数で独立に推定雑音の更新を行うことができる。

[0043] 図 5は、図 2の重みつき劣化音声計算部 102の構成を示すブロック図である。重みつき劣化音声計算部 102は、推定雑音記憶部 1021、周波数別 SNR計算部 1022、多重非線形処理部 1024、及び乗算器 1023を有する。推定雑音記憶部 1021は、図 2の推定雑音計算部 101から供給される推定雑音パワースペクトルを記憶し、 1フレーム前に記憶された推定雑音パワースペクトルを周波数別 SNR計算部 1022へ出力する。周波数別 SNR計算部 1022は、推定雑音記憶部 1021から供給される推定雑音パワースペクトルと劣化音声パワースペクトルを用いて SNRを各周波数帯域に対して求め、多重非線形処理部 1024に出力する。具体的には、後者を前者で除した商を各周波数帯域で求め、 SNRとする。多重非線形処理部 1024は、周波数別 SNR計算部 1022 力も供給される SNRを用いて重み係数べ外ルを計算し、重み係数べ外ルを乗算器 1023に出力する。多重非線形処理部 1024は、各周波数帯域に対応して、入力値に応じた実数値を出力する非線形関数を有する。

[0044] 図 6に、非線形関数の例を示す。 f を入力値としたとき、図 6に示される非線形関数

1

の出力値 f は、 [0045] ほ ]

で与えられる。但し、 aと bは任意の実数である。

多重非線形処理部 1024は、周波数帯域別 SNRを非線形関数によって処理して重み係数を求め、乗算器 1023に伝達する。すなわち、多重非線形処理部 1024は、 SNRに応じた 1から 0までの重み係数を各周波数帯域で計算し、重み係数ベクトルとして乗算器 1023に伝達する。 SNRが小さい時は 1を、大きい時は 0を出力する。

[0046] 乗算器 1023で劣化音声パワースペクトルと乗算される重み係数は、 SNRに応じた値になっており、 SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースぺクトルが用いられるが、推定雑音の更新に用いる劣化音声パワースペクトルに対して、 SNRに応じた重みづけを行うことで、劣化音声パワースペクトルに含まれる音声成分の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。なお、重み係数の計算に非線形関数を用いた例を示したが、非線形関数以外にも線形関数や高次多項式など、他の形で表される SNRの関数を用いる事も可能である。乗算器 1 023は、劣化音声パワースペクトルと、多重非線形処理部 1024から供給される重み係数ベクトルの積を周波数帯域毎に計算し、重みつき劣化音声パワースペクトルを図 2 の推定雑音計算部 101に出力する。

[0047] 図 7は、図 1に含まれる抑圧係数生成部 13の構成を示すブロック図である。抑圧係数生成部 13は、周波数別 SNR計算部 131、推定先天的 SNR計算部 132、雑音抑圧係数計算部 133、音声非存在確率記憶部 134、抑圧係数補正部 135を有する。周波数別 SNR計算部 6は、図 1のフーリエ変換部 8から入力された劣化音声パワースぺクトノレと図 1の混合部 12から入力された推定雑音と推定残響の混合パワースペクトルを用いて、周波数帯域別に SNRを計算し、後天的 SNRとして推定先天的 SNR計算部 132と抑圧係数計算部 133に供給する。推定先天的 SNR計算部 132は、入力された後天的 S NR、及び抑圧係数補正部 135から供給された補正抑圧係数を用いて先天的 SNRを推定し、推定先天的 SNRとして、抑圧係数計算部 133に伝達する。抑圧係数計算部 1 33は、入力として供給された後天的 SNR、推定先天的 SNR及び音声非存在確率記憶部 134から供給される音声非存在確率を用いて抑圧係数を計算し、抑圧係数補正部 135に伝達する。抑圧係数補正部 135は、入力された推定先天的 SNRと抑圧係数を用いて抑圧係数を補正し、補正抑圧係数 G (k)バーとして図 1の乗算器 14に供給する n

[0048] 図 8は、図 7に含まれる推定先天的 SNR計算部 132の構成を示すブロック図である。

推定先天的 SNR計算部 132は、多重値域限定処理部 1321、後天的 SNR記憶部 1322 、抑圧係数記憶部 1323、乗算器 1324、 1325、重み記憶部 1326、多重重みつき加算部 1327、加算器 1328を有する。図 7の周波数別 SNR計算部 131から供給される後天的 SNR y (k) (k=0, 1, . ··, M-l)は、後天的 SNR記憶部 1322と加算器 1328に伝達され n

る。後天的 SNR記憶部 1322は、第 nフレームにおける後天的 SNR y (k)を記憶すると n

共に、第 n-1フレームにおける後天的 SNR y (k)を乗算器 1325に伝達する。図 7の抑 n-1

圧係数補正部 135から供給される補正抑圧係数 G (k)バー（k=0， 1, M-l)は、抑圧 n

係数記憶部 1323に伝達される。抑圧係数記憶部 1323は、第 nフレームにおける補正抑圧係数 G (k)バーを記憶すると共に、第 n_lフレームにおける補正抑圧係数 G (k)

n n-1 バーを乗算器 1324に伝達する。乗算器 1324は、供給された G (k)バーを 2乗して G² (

n n-1 k)バーを求め、乗算器 1325に伝達する。乗算器 1325は、 G (k)バーと γ (k)を k=0,

n-1 n-1

1,...， M-lに対して乗算して G² (k)バー γ (k)を求め、結果を多重重み付き加算部

11 - 1 n-1

1327に過去の推定 SNR 922として伝達する。

[0049] 加算器 1328の他方の端子には一 1が供給されており、加算結果 γ (k)_lが多重値

11

域限定処理部 1321に伝達される。多重値域限定処理部 1321は、加算器 1328から供給された加算結果 γ (k)-lに値域限定演算子 Ρ[·]による演算を施し、結果である Ρ[

η

y (k)-l]を多重重みつき加算部 1327に瞬時推定 SNR 921として伝達する。ただし、 P[ X]は次式で定められる。

[0050] 圖

多重重みつき加算部 1327には、また、重み記憶部 1326から重み 923が供給されている。多重重みつき加算部 1327は、これらの供給された瞬時推定 SNR 921、過去の推定 SNR 922、重み 923を用いて推定先天的 SNR 924を求める。重み 923をひとし、 ξ (k)ハットを推定先天的 SNRとすると、 ξ (k)ハットは、次式によって計算される。

n n

[0051] [数 4コ

I (k) = γ_η__χ H (k) + (1 -

l] ここに、 G² (k) (k)バー =1とする。

- 1 - 1

[0052] 図 9は、図 8に含まれる重みつき加算部 1327の構成を示すブロック図である。重みつき加算部 1327は、乗算器 1391、 1393、定数乗算器 1395、加算器 1392、 1394を有する。図 8の多重値域限定処理部 1321から周波数帯域別瞬時推定 SNR921が、図 8の乗算器 1325から過去の周波数帯域別 SNR922力図 8の重み記憶部 1326から重み 92 3が、それぞれ入力として供給される。値 αを有する重み 923は、定数乗算器 1395と乗算器 1393に伝達される。定数乗算器 1395は入力信号を 1倍して得られた _αを、加算器 1394に伝達する。加算器 1394のもう一方の入力としては 1が供給されており、加算器 1394の出力は両者の和である 1― αとなる。 1 - aは乗算器 1391に供給されて、もう一方の入力である周波数帯域別瞬時推定 SNR P[ y (k)— 1]と乗算され、

n

積である (1 _α )Ρ[ γ (k)— 1]が加算器 1392に伝達される。一方、乗算器 1393では、

n

重み 923として供給された αと過去の推定 SNR 922が乗算され、積である a G² (k)バ

n-1 一 y (k)が加算器 1392に伝達される。加算器 1392は、（1 a )P[ y (k)— 1]と a G² n-1 n n-1

(k)バー γ (k)の和を、周波数帯域別推定先天的 SNR 924として、出力する。 [0053] 図 10は、図 7に含まれる抑圧係数生成部 133を示すブロック図である。抑圧係数生成部 133は、 MMSE STSAゲイン関数値計算部 1331、一般化尤度比計算部 1332、及び抑圧係数計算部 1333を有する。以下、非特許文献 4 (1984年 12月、アイ 'ィ一 'イ^ ~ .イ^ ~ .トランザクションズ.オン.ァクースティタス.スピーチ.アンド 'シグナル.プロセシング、第 32卷、第 6号 (IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AN D SIGNAL PROCESSING,VOし 32， NO.6， PP.1109- 1121, DEC, 1984)、 1109〜1121 ページ）に記載されている計算式をもとに、抑圧係数の計算方法を説明する。

[0054] フレーム番号を n、周波数番号を kとし、 γ (k)を図 7の周波数別 SNR計算部 131か

11

ら供給される周波数別後天的 SNR、 ξ (k)ハットを図 7の推定先天的 SNR計算部 132

n

から供給される周波数別推定先天的 SNR、 qを図 7の音声非存在確率記憶部 134から供給される音声非存在確率とする。

[0055] また、 η (k) = ξ (k)ハット/ (1- q)、 V (k) = ( 7] (k) γ (k))/(l+ η (k)) とする。

n n n n n n

[0056] MMSE STSAゲイン関数値計算部 1331は、図 7の周波数別 SNR計算部 131から供給される後天的 SNR y (k)、図 7の推定先天的 SNR計算部 132から供給される推定先

n

天的 SNR ξ (k)ハット及び図 7の音声非存在確率記憶部 134から供給される音声非

n

存在確率 qをもとに、各周波数帯域で独立に MMSE STSAゲイン関数値を計算し、抑圧係数計算部 1333に出力する。各周波数帯域の MMSE STSAゲイン関数値 G (k)は

[0057] ほ女 5] )

で与えられる。ここに、 I (z)は 0次変形ベッセル関数、 I (z)は 1次変形ベッセル関数

0 1

である。変形ベッセル関数については、非特許文献 5 (1985年、数学辞典、岩波書店、 374.Gページ）に記載されている。

[0058] 一般化尤度比計算部 1332は、図 7の周波数別 SNR計算部 131から供給される後天的 SNR y (k)、図 7の推定先天的 SNR計算部 132から供給される推定先天的 SNR

11

a (k)ハット及び図 7の音声非存在確率記憶部 134から供給される音声非存在確率 q n

をもとに、周波数帯域毎に一般化尤度比を計算し、抑圧係数計算部 1333に伝達する。周波数帯域毎の一般化尤度比 Λ (k)は、

[0059] ほ女 6]

で与えられる。

[0060] 抑圧係数計算部 1333は、 MMSE STSAゲイン関数値計算部 1331から供給される M MSE STSAゲイン関数値 G (k)と一般化尤度比計算部 1332から供給される一般化尤

n

度比 Λ (k)から周波数毎に抑圧係数を計算し、図 7の抑圧係数補正部 135へ出力す n

る。周波数帯域毎の抑圧係数 G (k)バーは、

[0061] [数 7]

で与えられる。

[0062] 図 11は、図 7に含まれる抑圧係数補正部 135を示すブロック図である。抑圧係数補正部 135は、最大値選択部 1351、抑圧係数下限値記憶部 1352、閾値記憶部 1353、比較部 1354、スィッチ 1355、修正値記憶部 1356及び乗算器 1357を各帯域に対して有する。比較部 1354は、閾値記憶部 1353から供給される閾値と、図 7の推定先天的 S NR計算部 132から供給される周波数帯域別推定先天的 SNRを比較し、周波数帯域別推定先天的 SNRが閾値よりも大きければ' '0"を、小さければ " をスィッチ 1355に供給する。スィッチ 1355は、図 7の抑圧係数計算部 133から供給される周波数帯域別抑圧係数を、比較部 1354の出力値が "1"のときに乗算器 1357に出力し、 "0"のときに最大値選択部 1351に出力する。すなわち、周波数帯域別推定先天的 SNRが閾値よりも小さいときに、抑圧係数の補正が行われる。乗算器 1357は、スィッチ 1355 の出力値と修正値記憶部 1356の出力値との積を計算し、最大値選択部 1351に伝達する。

[0063] 一方、抑圧係数下限値記憶部 1352は、記憶してレ、る抑圧係数の下限値を、最大値選択部 1351に供給する。最大値選択部 1351は、図 7の抑圧係数計算部 133から供給される周波数帯域別抑圧係数、又は乗算器 1357で計算された積と、抑圧係数下限値記憶部 1352から供給される抑圧係数下限値とを比較し、大きい方の値を図 1 の乗算器 14に出力する。すなわち、抑圧係数は抑圧係数下限値記憶部 1352が記憶する下限値より、必ず大きい値になる。

[0064] 図 1の構成では、残響推定部 112で信号源から観測地点までのインパルス応答を逐次求めて、後期反射によって発生する残響を推定するので、高品質な残響抑圧信号を得ることができる。また、残響推定部 112で残響を推定し、雑音推定部 10で雑音を推定し、混合部で推定残響と推定雑音の混合信号を生成し、この混合信号に基づいて抑圧係数を生成するので、少ない演算量で高品質な雑音抑圧と残響抑圧を同時に達成することができる。

[0065] 図 12は、本発明の第二の実施の形態を示すブロック図である。第一の実施の形態を示す図 1との違いは、帯域統合部 9である。帯域統合部 9は、複数の周波数成分に対応した信号サンプルを統合して総数を削減し、雑音推定部 10、抑圧係数生成部 13 、及び乗算器 14へ伝達する。統合に際しては、複数の信号サンプノレを加算し、加算したサンプル数で除することによって、平均値を求める。

[0066] 図 13は、帯域統合部 9において複数の周波数サンプルが統合される様子を説明するための図である。ここでは、 8kHzサンプリング、すなわち帯域が 4kHzである信号を、ブロック長 Lでフーリエ変換する場合を示している。本発明の第一の実施の形態では、フーリエ変換された劣化音声信号サンプルは、フーリエ変換のブロック長 Lと等しい数だけ生じる。しかし、このうち互いに独立なものは、その半分の L/2となる。本発明の第二の実施の形態では、これら L/2サンプルを部分的に統合し、独立な周波数成分の数を削減する。その際に、高周波領域でより多くのサンプルを一つのサンプルに統合する。すなわち、高域成分ほどたくさんの周波数成分を一つに統合することになり、不等分割されることになる。このような不等分割の例としては、低域側に向力つて 2のべき乗で帯域が狭くなるオクターブ分割、人間の聴覚特性に基づいて帯域分割された臨界帯域などが知られている。臨界帯域の詳細に関しては、非特許文献 6 (1992年、心理音響学、西村書店）を参照することができる。

[0067] 特に、臨界帯域に従った帯域分割は、人間の聴覚特性と整合性が高いために、広く用いられている。 4kHz帯域では、臨界帯域は全部で 18の帯域力も構成される。一方、図 13に示すように、本発明の第二の実施の形態では、特に低域で臨界帯域よりも細分化することによって、音質の劣化を防ぐ。 1156Hzより高い周波数から 4kHzまでは、臨界帯域と同じ帯域分割を採用するが、それよりも低域ではさらに帯域を細分化することに特徴がある。図 13には、 L = 256の例を示している。直流から 13番目の周波数成分までは、統合せずにそのまま独立に取り扱う。これらに続く 14成分は 2成分ずつの 7グループに統合する。さらに続く 6成分は 3成分ずつの 2グループに統合する。この後、 4成分で 1グループと統合し、それ以上は臨界帯域に一致するように成分を統合する。このように周波数成分を統合することによって、独立な周波数成分の数を、 128から 32に低減することができる。フーリエ変換後の 128周波数成分と統合後の 32 周波数成分の対応を表 1に示す。周波数成分一つあたり 4000/128=31·25Ηζとなるので、これを用いて計算した対応周波数が一番右の欄に示されている。

[0068] 帯域統合部 9の動作においては、 400Hz程度以下の周波数で周波数成分の統合を行わないことが重要である。この周波数領域で周波数成分の統合を行うと、分解能が低下し、音質の低下をもたらす。一方、 1156Hz程度以上の周波数では、臨界帯域に従って周波数成分を統合してもよい。また、入力信号の帯域が広くなつたときには、フーリエ変換のブロック長 Lを長くして、音質を保つ必要がある。これは、上記 400Hz 以下の周波数成分の統合を行わない帯域で、一つの周波数成分あたりの帯域が増加し、分解能が劣化するためである。例えば、 L = 256、帯域 4kHzを基準にすると、フ一リエ変換のブロック長 Lを L>fs/31.25で求めることによって、広帯域信号でも 4kH z帯域のときと同程度の音質を維持することができる。この法則に従って Lを 2のべき乗に選ぶと、 8kHz< fs≤16kHzで L = 512、 16kHz< fs≤32kHzで L = 1024、 32kHz < fs≤64kHzで L = 2048となる。表 1に対応した fs= 16kHzの例を表 2に示す。表 2は一例であり、帯域統合の境界が少しだけ異なるものは、同等の効果を有する。

[0069] 帯域が統合された各周波数帯域に対する統合劣化音声パワースペクトルは、雑音推定部 10、抑圧係数生成部 13、及び乗算器 14に供給される。残響推定部 30でも、図 13のパターンに統合した周波数帯域のそれぞれにおいて残響を推定し、混合部 12 に供給する。混合部 12は、統合された帯域に対する推定雑音と推定残響を混合し、その結果を抑圧係数生成部 13に供給する。抑圧係数生成部 13は、統合された帯域における残響と雑音の混合信号に対して抑圧係数を計算し、乗算器 14に供給する。乗算器 14は、入力された劣化音声スペクトルと抑圧係数を乗算し、強調音声振幅スベクトルとして逆フーリエ変換部 15へ伝達する。

[0070] 本発明の第三の実施の形態として、第二の実施の形態を表す図 12において、雑音推定部 10を雑音推定部 40で置換した構成が可能である。図 14は、本発明の第三の実施の形態に含まれる雑音推定部 40を示すブロック図である。第一及び第二の実施の形態に含まれる雑音推定部 10との違いは、推定雑音補正部 104である。推定雑音補正部 104は、推定雑音計算部 101から供給される推定雑音を補正して、これを推定雑音パワースペクトルとして図 1の混合部 12に伝達する。推定雑音補正部 104における補正の最も基本的な動作は、全周波数成分に同じ定数を乗じることである。定数を周波数毎に異なったものとすることも可能である。この特殊な場合が、特定の周波数に対する定数を 1.0に設定することであり、定数 1.0が適用された周波数におけるデ一タには補正が行われず、それ以外の周波数のデータに対して補正が行われる。すなわち、周波数に対して選択的な補正が可能となる。このほかにも、周波数毎に異なつた値を加算したり、非線形処理したりするなどの補正が可能である。このような補正を行うことによって、帯域統合によって生じた推定雑音値の真値からのずれを低減し、出力である強調音声の音質を高く保つことが可能となる。残響がゼロである場合に対しては、 8kHzサンプリングにおいて、 1000Hz相当以上の帯域の推定雑音に定数 0. 7を乗じることが適切であることが、非公式な主観評価によって明らかになつている。

[0071] [表 1] 表 1. 周波数成分統合による不等分割サブバンド生成（f s=8kHz)

2] 表 2 . 周波数成分統合による不等分割サブバンド生成（ f s= 16kHz)

図 15は、本発明の第四の実施の形態を示すブロック図である。第一の実施の形態を示す図 1との違いは、残響推定部 31である。残響推定部 31には、過去の強調音声に代えて、劣化音声と雑音推定部 10の出力である推定雑音が供給されている。残響推定部 31は、雑音推定部から供給された推定雑音を用いて劣化音声中の雑音の影響を軽減してから、残響の推定を行う。

[0073] 図 16は、残響推定部 31の実施の形態を示すブロック図である。残響推定部 31は、減算器 311、指数関数計算部 312、乗算器 313を含む。図 15の雑音推定部 10力も供給された推定雑音は、減算器 311に供給される。減算器 311は、図 15のフーリエ変換部 8から劣化音声パワースペクトルも供給されており、推定雑音パワースペクトルを差し引いた結果が乗算器 313に伝達される。一方、逆フィルタ 4から供給されたフィルタ係数は、指数関数計算部 312に供給される。指数関数計算部 312は、逆フィルタ 4から供給されたフィルタ係数に関する情報を用いて後期反射成分に対応する指数関数を推定する。指数関数計算部 312はさらに、予め定めされたサンプル数だけ、得られた指数関数をシフトして、シフトされた指数関数を乗算器 313に伝達する。乗算器 313 は、減算器 311の出力とシフトされた指数関数の積を、推定残響パワースペクトルとして求める。求めた推定残響パワースペクトルは、図 15の混合部 12に供給される。指数関数計算部 312と乗算器 313における残響の推定は、非特許文献 7 (2005年 3月、ァィ.ィ^ ィ^ ィ^ プロシーディングス.ォブ.インターナショナル.カンフアレンス.ォン ·ァクースティタス ·スピーチ ·アンド ·シグナノレ ·プロセシング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PP.173- 176， MAR, 2005)、 173〜176ページ）に詳細に示されている

[0074] 第四の実施の形態では、残響推定部 31で推定雑音の影響を排除した劣化音声パワースベクトルを用いて残響の推定を行うので、正確な残響の推定が可能となり、強調音声の品質を改善することができる。

[0075] 図 17は、本発明の第五の実施の形態を示すブロック図である。第四の実施の形態と第五の実施の形態の関係は、第一の実施の形態と第二の実施の形態の関係に等しぐ帯域統合部 9の存在が相違点となる。帯域統合部 9の動作については、第二の実施の形態の説明におレ、て説明したので、省略する。

[0076] 図 18は、本発明の第六の実施の形態を示すブロック図である。第六の実施の形態は第一の実施の形態の入力側に 2入力ノイズキャンセラ 200が縦続接続されている。 2 入力ノイズキャンセラ 200の主要構成要素である適応フィルタ 26の係数は、残響推定部 32に供給される。残響推定部 32は、このインパルス応答を用いて、残響推定部 30 と同様の手順によって、残響を推定する。 2入力ノイズキャンセラ 200は、少なくとも、適応フィルタ 26と減算器 27を含む。第二の入力端子 25には、第一の入力端子 1に供給される劣化音声に含まれる雑音成分と相関のある信号が供給される。入力端子 25 に供給された信号は、適応フィルタ 26に伝達され、適応フィルタ 26は係数と畳込み演算を行った結果を出力する。出力された畳込み結果は減算器 27に供給される。一方、減算器 27の他方の入力には前記劣化音声が供給されている。減算器 27は、前記劣化音声から適応フィルタ 26の出力を減算して、その結果を雑音消去信号として出力する。適応フィルタ 26の係数は、減算器 27の出力信号が何らかの基準で最小化されるように、減算器 27の出力を用いて更新される。前記最小化の基準として平均二乗瞬時パワーを用いるものが LMSアルゴリズムとして、累積二乗パワーを用いるものが LSアルゴリズムとして知られている。このようにして最適化した適応フィルタ 26の係数は、入力端子 25に供給される信号の観測地点から入力端子 1に供給される信号の観測地点に至るインパルス応答を近似することが知られている。従って、適応フィルタ 26の出力は入力端子 1に供給される信号に含まれる雑音成分を近似しており、減算器 27の出力には雑音の消去された信号が得られる。以上の説明から明らかなように、適応フィルタ 26の係数は本発明の残響抑圧装置が使用される環境のインパルス応答を近似しており、これらを用いて残響推定部 32において残響を推定することができる。

第一の実施の形態では、逆フィルタ 4から供給された信号源から観測地点に至るィンパルス応答の逆特性に基づいて、残響推定部 30が前記インパルス応答を求めていた。第六の実施の形態では、 2入力ノイズキャンセラ 200の主要構成要素である適応フィルタ 26から前記インパルス応答自体が直接、残響推定部 32に供給される。残響推定部 32は、このインパルス応答を用いて、残響推定部 30と同様の手順によって、残響を推定する。また、第一の実施の形態で説明したように、利用する係数の数は 2 以上であればいくつでもよ係数平均化も、有効である。なお、 2入力ノイズキャンセラ 200に代えて、音響エコーキャンセラを用いることもできる。これは、音響エコーキヤンセラ力 S、スピーカからマイクロフォンに至る音響特性を同定する適応フィルタを内部に含むからである。この適応フィルタの係数を残響推定部 32に供給することにより、 2 入力ノイズキャンセラの場合と全く同様の手順で、残響を推定することができる。同様の理由で、 2入力ノイズキャンセラ 200に代えて、マイクロフォンアレイの多入力キャンセラ部の適応フィルタ係数の一部、全部、またはこれらの平均値を用いることによって、同様の効果を得ることができる。

[0078] 第六の実施の形態では、 2入力ノイズキャンセラと第一の実施の形態の縦続接続について説明したが、 2入力ノイズキャンセラと第二から第五の実施の形態の縦続接続も、同様の効果を有する。また、 2入力ノイズキャンセラに代えて、音響エコーキャンセラゃマイクロフォンアレイを利用できることも同様である。

[0079] これまで説明した全ての実施の形態では、抑圧係数生成部 13を主な構成要素とする抑圧部として、最小平均 2乗誤差短時間スペクトル振幅法を仮定してきたが、その他の方法も適用することができる。このような方法の例として、非特許文献 8 (1979年

12月、プロシーディンダス'ォブ'ザ'アイ 'ィ一'ィ一'ィー、第 67卷、第 12号（PROC

EEDINGS OF THE IEEE, VOL.67, NO.12， PP.1586- 1604， DEC, 1979)、 1586〜16

04ページ）に開示されているウイーナーフィルタ法や、非特許文献 9 (1979年 4月、アイ.ィ一.ィー.ィ一.トランザクションズ.オン.ァクースティタス.スピーチ.アンド.シグナル.プロセシング、第 27卷、第 2号 (IEEE TRANSACTIONS ON ACOUSTICS, SPEE CH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113— 120, APR, 1979)、 113〜 120ページ）に開示されているスペクトル減算法などがある力これらの詳細な構成例については説明を省略する。

[0080] 図 19は、本発明の第七の実施の形態を示すブロック図である。本発明の第七の実施の形態は、プログラム制御により動作するコンピュータ（中央処理装置;プロセッサ；データ処理装置） 1000と、入力端子 1及び 25、及び出力端子 18とから構成されている

[0081] コンピュータ（中央処理装置；プロセッサ；データ処理装置） 1000は、雑音推定部 10 、残響推定部 30、混合部 12、抑圧係数生成部 13、乗算器 14、ノイズキャンセラ 200を含む。残響推定部 30に代えて、残響推定部 31または 32のいずれかを含んでもよいし、雑音推定部 10に代えて雑音推定部 40を含んでもよい。 [0082] 入力端子 1及び 25に供給された劣化音声は、コンピュータ 1000内のノイズキャンセラに供給され、雑音が消去される。雑音が消去された信号を用いて、含まれる残響が残響推定部 30で、消去し切れなかった雑音が雑音推定部 10で推定される。残響の推定に際しては、ノイズキャンセラ 200の内部に含まれる適応フィルタ 26の係数値を用いる。これらの推定信号は、混合部 12で混合され、抑圧係数生成部 13に供給される。抑圧係数生成部は、供給された推定雑音と推定残響の混合信号から適切な抑圧係数を生成する。生成された抑圧係数を用いて、乗算器 14は残響と前記消去し切れなかった雑音の抑圧を行レ、、出力端子 18に供給する。なお、ノイズキャンセラ 200を用いずに、入力端子 1から供給された劣化音声の線形予測残差の尖度を最大化するような逆フィルタを用いる構成も可能である。その際には、入力端子 25は不要となる。また、ノイズキャンセラ 200に代えて、エコーキャンセラやマイクロフォンアレイと組み合わせる構成も可能である。

[0083] 本発明では、残響推定に信号源から観測地点までのインパルス応答を用いるように構成されているため、正確な残響推定が可能となり、効果的な残響抑圧を行うことができる。また、残響と雑音の推定を行い、これらを適切に混合してから抑圧するように構成されているため、少ない演算量で残響と雑音の抑圧を同時に行うことができる

Claims

請求の範囲

[1] 入力信号を周波数領域信号に変換し、

該周波数領域信号を用いて雑音を推定し、

信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定し、

前記推定雑音と前記推定残響を混合して混合信号を求め、

該混合信号と前記周波数領域信号を用いて抑圧係数を定め、

該抑圧係数で前記周波数領域信号を重みづけすることによって、残響を抑圧することを特徴とする残響抑圧の方法。

[2] 前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定することを特徴とする請求項 1に記載の雑音抑圧の方法。

[3] 前記周波数領域信号の帯域を統合して統合周波数領域信号を求め、該統合周波数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求めることを特徴とする請求項 1または請求項 2に記載の雑音抑圧の方法。

[4] 入力信号サンプル間の相関を除去して相関除去信号を求め、

該相関除去信号を適応フィルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更新し、

前記適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信号を処理して早期反響除去信号を求め、

前記適応フィルタの係数を用レ、て前記インノ^レス応答を求め、

前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 1から請求項 3のいずれかに記載の雑音抑圧の方法。

[5] 参照信号を第一の適応フィルタで処理して擬似雑音を求め、

該擬似雑音を入力信号から差し引いて雑音消去信号を求め、

該雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて、前記第一の適応フィルタの係数を更新し、前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、

前記雑音除去信号を前記入力信号として用いることを特徴とする請求項 1から請求項 3のいずれかに記載の雑音抑圧の方法。

[6] 前記雑音除去信号のサンプル間相関を除去して相関除去信号を求め、

該相関除去信号を第二の適応フィルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係数を更新し、

前記第二の適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信号を処理して早期反響除去信号を求め、

前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 5に記載の雑音抑圧の方法。

[7] 入力信号を周波数領域信号に変換する変換部と、

該周波数領域信号を用いて推定雑音を求める雑音推定部と、

信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定する残響推定部と、

前記推定雑音と前記推定残響を混合して混合信号を求める混合部と、該混合信号と前記周波数領域信号を用いて抑圧係数を定める抑圧係数生成部と該抑圧係数で前記周波数領域信号を重みづけする乗算部と、

を有することを特徴とする残響抑圧の装置。

[8] 前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定する残響推定部を有することを特徴とする請求項 7に記載の雑音抑圧の装置。

[9] 前記周波数領域信号の帯域を統合して統合周波数領域信号を求める帯域統合部を有し、

該統合周波数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求めることを特徴とする請求項 7または請求項 8に記載の雑音抑圧の装置。

[10] 入力信号サンプル間の相関を除去して相関除去信号を求める相関除去部と、該相関除去信号を処理して仮早期反響抑圧信号を求める適応フィルタと、前記適応フィルタの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める固定フィルタと、

前記適応フィルタの係数を用いて前記インパルス応答を求める残響推定部とを有し、

前記仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 7 から請求項 9のいずれかに記載の雑音抑圧の装置。

[11] 参照信号を処理して擬似雑音を求める第一の適応フィルタと、

該擬似雑音を入力信号力差し引いて雑音消去信号を求める減算器と、前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部を有し、

前記雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて、前記第一の適応フィルタの係数を更新し、前記雑音除去信号を前記入力信号として用いることを特徴とする請求項 7から請求項 9のいずれかに記載の雑音抑圧の装置。

[12] 前記雑音除去信号のサンプル間相関を除去して相関除去信号を求める相関除去部と、

該相関除去信号を処理して仮早期反響抑圧信号を求める第二の適応フィルタと、前記第二の適応フィルタの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める固定フィルタと、

前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部と

を有し、

前記仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係数を更新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 11に記載の雑音抑圧の装置。

[13] コンピュータに、

入力信号を周波数領域信号に変換する処理と、

該周波数領域信号を用いて雑音を推定する処理と、

信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定する処理と、

前記推定雑音と前記推定残響を混合して混合信号を求める処理と、

該混合信号と前記周波数領域信号を用いて抑圧係数を定める処理と、該抑圧係数で前記周波数領域信号を重みづけする処理と

を実行させるための残響抑圧用プログラム。

[14] コンピュータに、

入力信号を周波数領域信号に変換する処理と、

該周波数領域信号を用いて雑音を推定する処理と、

信号源から観測地点までのインパルス応答と、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定する処理と、前記推定雑音と前記推定残響を混合して混合信号を求める処理と、

を実行させるための残響抑圧用プログラム。