JPWO2007100137A1 - 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 - Google Patents
残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 Download PDFInfo
- Publication number
- JPWO2007100137A1 JPWO2007100137A1 JP2008502883A JP2008502883A JPWO2007100137A1 JP WO2007100137 A1 JPWO2007100137 A1 JP WO2007100137A1 JP 2008502883 A JP2008502883 A JP 2008502883A JP 2008502883 A JP2008502883 A JP 2008502883A JP WO2007100137 A1 JPWO2007100137 A1 JP WO2007100137A1
- Authority
- JP
- Japan
- Prior art keywords
- linear prediction
- dereverberation
- acoustic signal
- value
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 597
- 238000001228 spectrum Methods 0.000 claims abstract description 245
- 238000006243 chemical reaction Methods 0.000 claims abstract description 78
- 230000008569 process Effects 0.000 claims description 523
- 238000004364 calculation method Methods 0.000 claims description 191
- 238000012545 processing Methods 0.000 claims description 110
- 230000002087 whitening effect Effects 0.000 claims description 97
- 238000012935 Averaging Methods 0.000 claims description 36
- 230000001131 transforming effect Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 22
- 230000003111 delayed effect Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 142
- 238000012546 transfer Methods 0.000 description 82
- 238000010586 diagram Methods 0.000 description 60
- 238000004458 analytical method Methods 0.000 description 50
- 230000014509 gene expression Effects 0.000 description 44
- 239000011159 matrix material Substances 0.000 description 38
- 230000005236 sound signal Effects 0.000 description 22
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 238000004088 simulation Methods 0.000 description 14
- 238000007781 pre-processing Methods 0.000 description 12
- 101150068243 invF gene Proteins 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 238000005314 correlation function Methods 0.000 description 6
- 238000009795 derivation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000010255 response to auditory stimulus Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
残響除去処理は、このような場合に、重畳した残響を取り除き、音響信号を本来の音質に戻すことができる技術である。これにより、例えば、音声信号の明瞭性を回復し、音声認識率等を改善することが可能となる。
この従来例では、後部残響が指数関数的に減衰すると仮定し、指数関数を用いて後部残響のエネルギーを推定し、残響除去を行う。すなわち、観測信号を周波数領域信号に変換し、各周波数において周波数領域信号が直接音と後部残響との和であると仮定し、残響エネルギーが指数関数的に減少するモデル(multi-band decay model)を用いて、そのモデルパラメータを推定し、推定された後部残響エネルギーと観測信号エネルギーとにスペクトル減算法(Spectral subtraction)を適用し、後部残響を除去している。なお、モデルパラメータの推定には、後部残響のみが観測される音声の末尾部分を用いている。
I. Tashev and D. Allred "Reverberation Reduction for Improved Speech Recognition" 2005 Joint Workshop on hands-Free Speech Communication and Microphone Arrays.
すなわち、上述の従来例の場合、用いた指数関数が観測音中の後部残響を良くモデリングできていれば、後部残響を精度良く除去できる。しかし、一般的に部屋、話者とマイク間距離により多様に変化する残響を正確に指数関数で近似することは難しい。また、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合は、この枠組みを用いることはできない。このように、上述の従来例では、後部残響を指数関数でモデル化しているため、そのモデルと観測音中の後部残響がうまく合わない場合や、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合に精度の良い残響除去を自動的に行うことはできなかった。
ここで、本発明では、マルチステップ線形予測モデルによって音響信号をモデル化するため、指数関数のみで後部残響をモデル化する場合に比べ、より正確な近似が可能である。すなわち、音響信号の後部残響成分は、過去の各時点の音響信号に起因するものであり、或る時間区間において自己相関性を持つ。そのため、各時点の時系列データを複数時点の時系列データの線形結合で表現するマルチステップ線形予測モデルは、残響信号のモデル化に適しているといえる。
また、本発明において好ましくはM≧2である。マルチチャネルマルチステップ線形予測モデルを用いることにより、室内伝達関数中の最大位相成分が多い環境であっても、精度良く後部残響除去を行うことが可能となる(詳細は後述)。
また、本発明において好ましくは、上記モデル適用過程は、各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分(short-term correlation)を抑制し、擬似白色化(pre-whitening)した離散音響信号値を生成する擬似白色化過程と、上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第1線形予測係数算出過程と、を有する。ここで、上記短時間区間は、上記長時間区間よりも短い。
このように、各チャネルで求められた自己相関関数をチャネル間で平均した平均自己相関係数を、短時間線形予測モデルの各線形予測係数の算出に用いることにより、短時間線形予測モデルの各線形予測係数の算出精度が向上し、擬似白色化した離散音響信号の生成精度が向上する。これは、後部残響除去処理の精度向上に貢献する。
また、本発明において好ましくは、各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換過程と、上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チャネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去過程と、を有する。これにより、後部残響除去信号値の振幅スペクトル予測値を算出できる。
また、本発明において好ましくは、上記マルチステップ線形予測モデルは、
xw(n)をチャネルw(w=1,...,M)に対応する離散時間nの離散音響信号値とし、xm(n)をチャネルm(m=1,...,M)に対応する離散時間nの離散音響信号値とし、ew(n)をチャネルw及び離散時間nに対応する予測誤差とし、Nを正の整数とし、[・]をガウス記号とし、αw,m(p)を、xw(n)に対応する線形予測項のチャネルmに対応するp番目の線形予測係数とし、Dをステップサイズ(遅延)を示す定数とした場合における、
〔原理1〕
まず、本発明の原理1を説明する。なお、ここでは、原則、z変換表記を用いる(後述の式(5)以外)。
原音響信号s(z)をモデル化すると、以下の式(1)のような、白色信号u(z)(予測誤差項)と短い(次数が小さな)自己回帰(AR: Auto-Regressive)モデルd(z)=1/(1-β(z))とを掛けたものとなる。すなわち、原音響信号s(z)は、d(z)に従った短期的な自己相関性を持つ。
=u(z)・d(z) …(1)
なお、β(z)は以下のようなAR多項式である。ここでqは線形予測の次数であり、b(i)はi番目の項の線形予測係数である。
x1(z)=u(z)・[d(z)・h(z)]
=u(z)・g(z) …(2)
と表される。なお、h(z)は音響信号源からセンサまでの室内伝達関数を示し、g(z)は、
g(z)=d(z)・h(z) …(3)
を満たすものとする。なお、g(z)を合成伝達関数と呼ぶ。
x1(z)≒u(z)・h(z) …(4)
すなわち、d(z)を1とみなすことができるのであれば、センサで観測される音響信号x(z)は、白色信号u(z)に、d(z)よりも長い(次数が大きな)自己回帰過程が掛かったものとしてモデル化できる。
この場合、観測される音響信号は、センサ数M=1の場合のマルチステップ線形予測モデル(長時間区間における各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散音響信号値を表現した線形予測モデル)で近似できる。すなわち、観測される音響信号は、例えば、以下の式(5)のようにモデル化できる。なお、nを離散時間とし、x1(n)を(必要に応じて短時間相関を取り除いた)離散時間nに対応する音響信号とし、α1,1(p)を線形予測係数とし、Nを線形予測係数の数とし、Dをステップサイズ(遅延)とし、e1(n)を離散時間nに対応する予測誤差とする。また、式(5)の場合、(n-N-D)以上(n-1-D)以下の時間区間がマルチステップ線形予測モデルの定義中の「長時間区間」に相当し、x1(n)が「長時間区間より所定時間後の離散音響信号値」に相当する。
g(z):=gd(z)+z-D・gr(z) …(6)
この場合、式(5)の線形予測係数α1,1(p)をz変換したα(z)は、以下の式(7)のように表せる。
しかし、原理1の方法では、精度の良い後部残響除去を行うことができない場合がある。以下にその理由を説明する。
上述した式(10)は分析フレーム長を無限長とした場合に成立する関係式である。有限長の分析フレーム単位でみた場合、式(10)は完全に成立するとは限らない。式(10)の右辺のオールパスフィルタgmax(z)/min[gmax(z)]の応答は、室内伝達関数h(z)中の最大位相成分が多くなるほど長くなる。そのため、有限長の分析フレーム単位でみた場合、室内伝達関数h(z)中の最大位相成分が多くなりオールパスフィルタgmax(z)/min[gmax(z)]の応答が長くなるほど、式(10)の左辺と右辺との乖離が大きくなる。
すなわち、信号源からセンサまでの室内伝達関数中に最大位相成分が存在する場合、1つのセンサのみで観測された単一チャネルの音響信号を用いて完全な逆フィルタを構成することはできない。ここで、逆フィルタを構成可能であることと、上記の線形予測係数を算出できることは等価である。このことは、例えば、「M. Miyoshi and Y. Kaneda, "Inverse Filtering of Room Acoustics, " IEEE Trans. on Acoustics," Speech and Signal Processing, 36(2), pp. 145-152, 1988(以下『参考文献1』という)に開示されている。一方、参考文献1には、信号源からセンサまでの室内伝達関数中に最大位相成分が存在する場合に、複数のセンサで観測された複数チャネルの音響信号を用いて逆フィルタを構成できることが開示されている。
センサm(m=1,...,M)で観測される音響信号xm(z)は、以下のようにモデル化できる。なお、gm(z)=d(z)・hm(z)を満たす合成伝達関数とし、hm(z)を音響信号源からセンサmまでの室内伝達関数とする。
=u(z)・gm(z) …(11)
これより、原音響信号s(z)のd(z)に従った短期的な自己相関性を無視できるのであれば(原音響信号s(z)を白色信号とみなすことができるのであれば)、式(11)は、以下のように近似できる。
xm(z)≒u(z)・hm(z) …(12)
すなわち、d(z)を1とみなすことができるのであれば、センサmで観測される音響信号xm(z)は、白色信号u(z)に、d(z)よりも長い(次数が大きな)自己回帰過程が掛かったものとしてモデル化できる。
一方、室内伝達関数hm(z)には、最大位相成分が存在する。前述した『参考文献1』で開示されているように、室内伝達関数hm(z)に最大位相成分が存在する場合、1つのセンサのみで観測された単一チャネルの音響信号のみを用いて逆フィルタを構成することはできず、複数チャネルの音響信号を用いた場合にのみ逆フィルタを構成できる。これを式(12)のモデルに当てはめて考えると、複数チャネルの音響信号を対象として式(12)のモデルを構成した場合にのみ、正しい線形予測係数を算出でき、正確な後部残響信号を予測し、除去することができるといえる。以上より、原理2では、マルチチャネルマルチステップ線形予測モデル(長時間区間におけるM個(M≧2)のチャネルの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間における離散音響信号値を表現した線形予測モデル)によって、式(12)のモデルを構成する。マルチチャネルマルチステップ線形予測モデルとしては、以下の式(13)を例示できる。なお、式(13)のマルチチャネルマルチステップ線形予測モデルは、時間領域のものである。
上記の原理1,2を別の観点から説明する。
[問題設定]
まず、時間領域での離散時間nに対応する原音響信号s(n)を、V次のFIRフィルタd(k)と白色信号u(n)を用いて以下のように表現する。
式(15)を行列表現によって書き換えると以下のようになる。
Xm(n)=Gm・U(n) …(17)
なお、
U(n)=[u(n),u(n-1),...,u(n-T-N+1)]T
Xm(n)=[xm(n),xm(n-1),...,xm(n-N)]T
gm=[gm(0),gm(1),...,gm(T-1)]
[M=1(原理1)の場合の後部残響の推定]
前述のように原理1では、観測される音響信号を例えば式(5)のようにモデル化する。式(5)において予測誤差成分e1(n)のエネルギーを最小にする線形予測係数α1,1(p)を求めることは、以下の正規方程式を解くことと等価である。
なお、E{・}は・の時間平均を示し、Αは式(5)の線形予測係数α1,1(p)の行列表現Α=[α1,1(1), α1,1(2),...,α1,1(N-1)]Tを示す。
よって、以下のようにΑを求めることができる。
Α=(E{x1(n-1-D)・x1 T(n-1-D)})-1・E{x1(n-1-D)・x1(n)} …(19)
式(19)の(・)-1内を展開すると以下のようになる。
E{x1(n-1-D)・x1 T(n-1-D)}=G1・E{U(n-1-D)・UT(n-1-D)}・G1 T
=σu 2・G1・G1 T …(20)
ここで、白色信号u(n)の自己相関行列は、E{U(n-1-D)・UT(n-1-D)}=σu 2・Iとなると仮定した。なお、σu 2はu(n)の分散を示し、Iは単位行列を示す。
E{x1(n-1-D)・x1(n)}=G1・E{U(n-1-D)・UT(n)}・g1 T=σu 2・G1・glate,1 T …(21)
なお、glate,1=[g(D),g(D+1),...,g(T-1),0,...,0]Tである。すなわち、glate,1はg(n)のD個目以降の要素を表し、後部残響に相当する。
式(20)(21)を用い、式(19)のΑは以下のように書き直すことができる。なお、(・)-1は・の逆行列を表す。
Α=(G1・G1 T)-1・G1・glate,1 …(22)
ここで、(5)の線形予測係数の行列表現Αを音響信号の行列表現X1(n)に掛け合わせ、その2乗の平均をとると以下のようになる。
=‖ΑT・G1・E{U(n)・UT(n)}・G1 T・Α‖
=‖σu 2・ΑT・G1・G1 T・Α‖ …(23)
=‖σu 2・glate,1 T・G1 T・(G1・G1 T)-1・G1・glate,1 T‖
≦‖σu 2・glate,1 T‖・‖G1 T・(G1・G1 T)-1・G1‖・‖glate,1 T‖ …(24)
=‖σu 2・glate,1 T‖2 …(25)
ここで‖・‖は行列・のL2ノルムを示す。また、式(23)の導出のため、白色信号u(n)の自己相関行列は、E{U(n)・UT(n)}=σu 2・Iのように展開されると仮定した。十分に長い音響信号に対してこの分解が成立する。また、式(24)の導出には、式(22)とコーシー・シュワルツの不等式を用いた。さらに、式(25)の導出には、‖G1 T・(G1・G1 T)-1・G1‖が射影行列であり、そのノルムが1になることを用いた。
[M≧2(原理2)の場合の後部残響の推定]
マルチチャネルマルチステップ線形予測モデルは、前述の式(13)で定式化できる。ここで、式(13)の[N/M]をLとすると、式(13)は以下のようになる。
(E{X(n-1-D)・XT(n-1-D)})・Αw=E{X(n-1-D)・X(n)} …(27)
なお、X(n)=[X1 T(n),X2 T(n),...,XM T(n)]Tであり、Αwは式(26)の線形予測係数αw,m(p)の行列表現でありΑw=[αw,1(1),...,αw,1(L),αw,2(1),...,αw,M(L)]Tである。
Αw=(E{X(n-1-D)・XT(n-1-D)})+・E{X(n-1-D)・X(n)} …(28)
M=1の場合と同様に式(28)を展開すると、Αwは以下のように変形できる。
Αw=(G・GT)+・G・glate,w
=(GT)+・glate,w …(29)
なお、G=[G1 T,G2 T,...,GM T]Tであり、glate,w=[gw(D),gw(D+1),...,gw(T-1),0,...,0]Tである。また、Gは列フルランクである。
XT(n)・Αw=UT(n)・GT・Αw
=UT(n)・GT・(GT)+・glate,w …(30)
=UT(n)・GT・G・(GT・G)-1・glate,w …(31)
=UT(n)・glate,w …(32)
なお、式(30)の導出には式(29)を用い、式(31)の導出にはのムーア・ペンローズ型一般化逆行列の定義を用いた。ここで、UT(n)・glate,wは音響信号の後部残響成分を意味する。よって、式(28)のベクトルの転置と式(26)の線形予測係数αw,m(p)の行列表現Αwとを掛け合わせることにより、音響信号の後部残響成分を正確に推定できることがわかる。言い換えると、マルチチャネルマルチステップ線形モデルを用いることにより、常に正確に後部残響成分を推定することができることがわかる。
次に、マルチステップ線形予測モデルのDの値と音響信号の短時間相関との関係について説明する。
原理1,2の方法は、式(4)(12)の近似が成り立つことを前提にした方法である。つまり、原理1,2の方法では、室内伝達関数hm(n)と式(15)に示される合成伝達関数gm(n)との差(‖hm(n)‖−‖gm(n)‖)(m≧1)が十分小さい場合に、正確な後部残響除去ができる。
図23Aに例示するように、室内伝達関数値hは時間の経過とともに指数減衰する。また、図23Bに例示するように、合成伝達関数値gも時間の経過とともに指数減衰する。また、図23Cに例示するように、室内伝達関数値hや合成伝達関数値gが大きな時間ではそれらのエネルギー差も大きく、室内伝達関数値hや合成伝達関数値gが小さな時間ではそれらのエネルギー差も小さい。すなわち、時間の経過とともに室内伝達関数hと合成伝達関数gとのエネルギー差も小さくなっていく。そして、「或る時間」の経過後には、当該エネルギー差は、音声信号全体のエネルギーに対して無視できるほど小さくなる(所定の閾値以下又は未満となる)。そのため、正確な後部残響除去を行うためには、式(5)(13)のマルチステップ線形予測モデルのDを当該「或る時間」以上に設定することが望ましい。しかし、室内伝達関数hと合成伝達関数gとのエネルギー比やd(z)は未知であり当該「或る時間」も不定である。従って、一般に、経験則から当該「或る時間」を推測し、その推測に基づいてマルチステップ線形予測モデルのDの値を設定することになる。そして、より望ましくは、この「或る時間」の推測が困難であることを想定し、前述の擬似白色化によってd(z)成分を抑制する。これにより、室内伝達関数hと合成伝達関数gとのエネルギー差を無視でき正確な後部残響除去が可能となる、Dの設定可能範囲が広がる。なお、一般にDの下限値は1であるが、擬似白色化によってd(z)成分を十分抑制できるならD=0であってもかまわない。
また、マルチステップ線形予測モデルのDの上限値としては、離散時刻nでのxm(n)のn+1+D時点での残響成分が所定値(例えば、離散時刻nでのxm(n)よりも60dB低い値)以上又は超える値を例示できる。
次に、本発明の第1実施形態について説明する。第1実施形態はセンサ数MがM≧2の場合の実施形態である。
図3は、本実施形態における残響除去装置10のハードウェア構成を例示したブロック図である。
図3に例示するように、この例の残響除去装置10は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、残響除去装置10としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。
なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
上述のように、プログラム領域14a,16aには、本形態の残響除去装置10の各処理を実行するための残響除去プログラムが格納される。残響除去プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
CPU11(図3)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図1に例示するように、残響除去装置10は、メモリ10aと、モデル適用部10bと、後部残響予測部10cと、周波数領域変換部10dと、後部残響除去部10eと、複素スペクトル生成部10fと、時間領域変換部10gと、遅延量算出部10hと、遅延調節部10iと、メモリ10jと、制御部10kとを有する。
ここで、メモリ10a及びメモリ10jは、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、モデル適用部10b、後部残響予測部10c、周波数領域変換部10d、後部残響除去部10e、複素スペクトル生成部10f、時間領域変換部10g、遅延量算出部10h、遅延調節部10i及び制御部10kは、CPU11に残響除去プログラムを実行させることにより構成されるものである。
次に、本形態の残響除去処理について説明する。
図4,5は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図6Aは、図4のステップS1(モデル適用過程)の詳細を説明するためのフローチャートであり、図6Bは、図6AのステップS21(擬似白色化過程)の詳細を説明するためのフローチャートである。また、図7Aは、図6BのステップS31(第2線形予測係数算出過程)の詳細を説明するためのフローチャートであり、図7Bは、図4のステップS4の詳細を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。
まず、M(M≧2)個のセンサでそれぞれ観測されたM個のチャネルw(w=1,...,M)の音響信号が所定の標本化周波数でサンプリングされ、チャネル毎の離散音響信号値x1(n)…xM(n)が生成される。なお、nは離散時間を示す。生成された各チャネルの離散音響信号値x1(n)…xM(n)は、それぞれメモリ10aに格納される。なお、本形態では、残響除去を行う全時間区間の離散音響信号値x1(n)…xM(n)を事前に取得し、メモリ10aに格納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値x1(n)…xM(n)の取得をリアルタイムで行いつつ、以下の各過程を実行してもよい。
[モデル適用過程(ステップS1)]
モデル適用過程では、モデル適用部10bが、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS1)。以下、この処理の詳細を階層的に説明する。
図6Aに例示するように、モデル適用過程では、まず、擬似白色化(Pre-whitening)部100(図2A)が、入力された離散音響信号値x1(n)…xM(n)が有する短時間区間での自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)…xM’(n)を生成して出力する(擬似白色化過程/ステップS21)。すなわち、各離散時間の上記離散音響信号値x1(n)…xM(n)から、当該離散時間n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)…xM’(n)を生成する。
次に、上述の擬似白色化された離散音響信号値x1’(n)…xM’(n)が第1線形予測係数算出部200(図2A)に入力され、第1線形予測係数算出部200は、当該擬似白色化された離散音響信号値x1’(n)…xM’(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出して出力する(第1線形予測係数算出過程/ステップS22)。なお、一例として、式(13)における遅延Dを、例えば30ms(標本化周波数12000Hzの場合、300タップに相当)とし、Nを例えば3000程度とする。また、x1’(n)…xM’(n)を用いてαw,1(p)…αw,M(p)を算出する方法としては、自己相関法(correlation method)や共分散法(covariance method)を例示できる。また、MATLAB(登録商標)等を利用してこの処理を行ってもよい。
次に、擬似白色化過程(ステップS21)の詳細を説明する。本形態では、一例として、線形予測によって擬似白色化過程を行う。まず、図6Bに例示するように、第2線形予測係数算出部110が、入力された離散音響信号値x1(n)…xM(n)を用い、短時間線形予測モデルの各線形予測係数b(1)…b(q)を算出して出力する(第2線形予測係数算出過程/ステップS31)。なお、「短時間線形予測モデル」とは、短時間区間におけるチャネルwの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、短時間区間直後の離散時間nにおける当該チャネルwの離散音響信号値を表現した線形予測モデルを意味する。ここで、「短時間区間」は、マルチステップ線形予測モデルの定義で示した「長時間区間」よりも短い。本形態では、以下の短時間線形予測モデルを用いる。
[第2線形予測係数算出過程(ステップS31)の詳細(図7A)]
次に、第2線形予測係数算出過程(ステップS31)の詳細を説明する。本形態の例では、自己相関法を用いて第2線形予測係数算出過程を実行する。しかし、共分散法などその他の公知の線形予測係数算出方法を用いて第2線形予測係数算出過程を実行してもよい。
モデル適用過程(ステップS1)の後、後部残響予測部10cに、メモリ10aから読み込まれた離散音響信号値x1(n)…xM(n)と、モデル適用過程(ステップS1)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。そして、後部残響予測部10cは、各線形予測係数αw,1(p)…αw,M(p)と離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS2)。本形態では、式(13)のマルチステップ線形予測モデルを用いているため、後部残響予測部10cは、以下の式(38)に従って後部残響予測値rw(n)を求めて出力する。
次に、周波数領域変換部10dに、メモリ10aから読み込まれた離散音響信号値x1(n)…xM(n)と、後部残響予測過程(ステップS2)で算出された後部残響予測値r1(n)…rM(n)とが入力される。周波数領域変換部10dは、入力された離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS3)。本形態では、例えば、窓長30msのハニング窓などの有限長の窓関数を用い、短時間フーリエ変換(DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部10dは、これらの処理により、周波数領域の離散音響信号値X1(f,t)…XM(f,t)の振幅スペクトル|X1(f,t)|…|XM(f,t)|と位相情報arg[X1(f,t)]…arg[XM(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。なお、arg[・]は、・の偏角を意味する。
次に、後部残響除去部10eに、周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部10eは、周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS4)。以下に、この処理の詳細を例示する。
図7Bに例示するように、まず、後部残響除去部10eが、振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とを用い、各m(m=1,...,M)に対して
|Xm(f,t)|k-|Rm(f,t)|k・const …(39)
の演算を行い、各演算結果をメモリ10jに格納する(ステップS51)。なお、constは定数を示し、kは自然数を示す。本形態では、const=1.0とし、k=2とする。
|Xm(f,t)|k-|Rm(f,t)|k・const>0 …(40)
ここで、式(40)の関係を満たすと判断された場合、制御部10kは後部残響除去部10eに命令を与え、後部残響除去部10eは、
|Sm(f,t)|=(|Xm(f,t)|k-|Rm(f,t)|k・const)1/k …(41)
によって、変数mに対応する|Sm(f,t)|を算出して出力する(ステップS54)。一方、式(40)の関係を満たさないと判断された場合、制御部10kは後部残響除去部10eに命令を与え、後部残響除去部10eは、0又は十分小さい値を変数mに対応する|Sm(f,t)|として出力する(ステップS55)。なお、ステップS53〜S55の処理は半波整流処理に相当する。ステップS53〜S55以外の方法によって半波整流を行ってもよい。
[フラグ判定過程(ステップS5,S6)]
ステップS4の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS5)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS4)で後部残響除去部10eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|を、残響除去装置10の最終的な出力情報として出力し(ステップS6)、当該分析フレームの処理を終了させる。このように出力された振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|は、例えば、残響除去装置10の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。
[複素スペクトル生成過程(ステップS7)]
複素スペクトル生成過程では、まず、複素スペクトル生成部10fに、後部残響除去部10eから出力(ステップS4)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|と、周波数領域変換部10dから出力(ステップS3)された周波数領域の離散音響信号値の位相情報arg[X1(f,t)]…arg[XM(f,t)]とが入力される。複素スペクトル生成部10fは、これらの情報を用い、以下の式(42)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を算出して出力する(ステップS7)。なお、exp(・)は、ネイピア数を底とした指数関数であり、jは虚数単位である。
[時間領域変換過程(ステップS8)]
ステップS7の後、時間領域変換部10gに、上述の後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)が入力される。そして、時間領域変換部10gは、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を時間領域に変換した後部残響除去信号推定値s1(n)…sM(n)を算出して出力する(ステップS8)。なお、時間領域への変換は、例えば、逆フーリエ変換によって行う。
ステップS8の後、遅延量算出部10hに、後部残響除去信号推定値s1(n)…sM(n)が入力される。そして、遅延量算出部10hは、後部残響除去信号推定値s1(n)…sM(n)のチャネル間相互相関を極大にする後部残響除去信号推定値の遅延量τ1…τMを、各チャネルについて決定する(ステップS9)。以下にこの具体例を示す。
[遅延量算出過程(ステップS9)の具体例]
まず、遅延量算出部10hは、入力された分析フレーム内の後部残響除去信号推定値s1(n)…sM(n)に対し、以下の式(43)のようなチャネル間相関関数Am(τ)の関数値を求める。なお、E{・}は平均演算子である。
次に、遅延量算出部10hは、各mについて、チャネル間相関関数Am(τ)を極大(例えば最大)とするτをτmとして求める。例えば、チャネル間相関関数Am(τ)を最大とするτをτmとする場合には、遅延量算出部10hは、
τm=max{ Am(τ)} …(44)
を算出して出力する。なお、max{・}は・の最大値を検出する。また、τmは、チャネルmの後部残響除去信号推定値の遅延量であり、遅延量にはτm=0も含む(遅延両算出過程(ステップS9)の具体例の説明終わり)。
ステップS9の後、各遅延量τ1…τMと、後部残響除去信号推定値s1(n)…sM(n)とが、遅延調節部10i(図1)に入力される。そして、遅延調節部10iの遅延部10ia(図2B)は、各チャネルの後部残響除去信号推定値s1(n)…sM(n)を、それぞれ遅延量τ1…τMだけ遅延させてs1(n+τ1)…sM(n+τM)を算出して出力する(ステップS10)。
次に、s1(n+τ1)…sM(n+τM)が、遅延補正部10ib((図2B))に入力され、遅延補正部10ibは、以下の式(45)に従い、s1(n+τ1)…sM(n+τM)の和を算出し(ステップS11)、この和を補正残響除去信号値s(n)として出力して(ステップS12)、当該分析フレームの処理を終了する。各チャネルの後部残響信号に含まれる誤差成分は統計的に独立であると過程した場合、この操作により誤差を抑圧できることになる。
次に、本発明の第2実施形態について説明する。第2実施形態は、第1実施形態の変形例である。
第1実施形態の[後部残響予測過程(ステップS2)]では、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化していない離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出していた。また、[後部残響除去過程(ステップS4)]では、擬似白色化していない周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|としていた。
<ハードウェア構成>
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図8は、本形態の残響除去装置310の機能構成を例示したブロック図である。また、図9は、モデル適用部310bの機能構成の詳細を例示したブロック図である。なお、図8,9において、第1実施形態と共通する部分については第1実施形態と同じ符号を用いた。
また、図9に例示するように、モデル適用部310bは、擬似白色化部100と第1線形予測係数算出部200とを有しており、擬似白色化部100は、第2線形予測係数算出部110と逆フィルタ処理部120とを有している。また、第2線形予測係数算出部110は、自己相関係数算出部111と、自己相関係数平均化部112と、方程式演算部113とを有している。モデル適用部310bと第1実施形態のモデル適用部10bとの相違点は、モデル適用部310bの逆フィルタ処理部120が、擬似白色化した離散音響信号値x1’(n)…xM’(n)を後部残響予測部310cや周波数領域変換部310dにも転送する点である。
次に、本形態の残響除去処理について説明する。
図10,11は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。
[前処理]
第1実施形態と同様である。
[モデル適用過程(ステップS101)]
モデル適用過程では、モデル適用部310bが、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS101)。この処理は、第1実施形態の[モデル適用過程(ステップS1)]と同様であり、離散音響信号値x1(n)…xM(n)を擬似白色化する過程を含む。
モデル適用過程(ステップS101)の後、後部残響予測部310cに、モデル適用過程(ステップS101)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、モデル適用過程(ステップS101)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部310cは、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化された離散音響信号値x1’(n)…xM’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS102)。式(13)のマルチステップ線形予測モデルを用いていた場合、後部残響予測部310cは、以下の式(46)に従って後部残響予測値rw(n)を求めて出力する。
次に、周波数領域変換部310dに、モデル適用過程(ステップS101)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、後部残響予測過程(ステップS102)で算出された後部残響予測値r1(n)…rM(n)とが入力される。周波数領域変換部310dは、入力された擬似白色化後の離散音響信号値x1’(n)…xM’(n)を周波数領域の離散音響信号値X1’(f,t)…XM’(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS103)。周波数領域変換部310dは、これらの処理により、周波数領域の離散音響信号値X1’(f,t)…XM’(f,t)の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と位相情報arg[X1’(f,t)]…arg[XM’(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS104)。
ステップS104の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS105)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS104)で後部残響除去部310eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|を、残響除去装置310の最終的な出力情報として出力し(ステップS106)、当該分析フレームの処理を終了させる。一方、δ=0であれば、制御部10kは、以下のステップS107以降の処理を実行させる。
複素スペクトル生成過程では、まず、複素スペクトル生成部310fに、後部残響除去部310eから出力(ステップS104)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|と、周波数領域変換部10dから出力(ステップS3)された周波数領域の離散音響信号値の位相情報arg[X1’(f,t)]…arg[XM’(f,t)]とが入力される。複素スペクトル生成部310fは、これらの情報を用い、以下の式(47)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を算出して出力する(ステップS107)。
[時間領域変換過程(ステップS108)・遅延量算出過程(ステップS109)・遅延調節過程(ステップS110,S111)]
時間領域変換過程(ステップS108)・遅延量算出過程(ステップS109)・遅延調節過程(ステップS110,S111)は、第1実施形態の時間領域変換過程(ステップS8)・遅延量算出過程(ステップS9)・遅延調節過程(ステップS10,S11)と同様である。
次に、本発明の第3実施形態について説明する。第3実施形態は、第1,2実施形態の変形例である。
第1実施形態で例示した[第2線形予測係数算出過程(ステップS31)]では、第2線形予測係数算出部110が、チャネル毎に生成した自己相関係数c1(i)…cM(i)をチャネル間で平均した平均自己相関係数c(i)を用い、短時間線形予測モデルの各線形予測係数b(1)…b(q)を算出していた。
この点が第1実施形態との相違点である。そして、この構成は第2実施形態へも適用可能である。以下では、第1,2実施形態との相違点である第2線形予測係数算出部410の構成及び[第2線形予測係数算出過程(ステップS31)]の処理のみを説明し、第1,2実施形態と共通する事項については説明を省略する。
図12Aに例示するように、本形態の第2線形予測係数算出部410は、自己相関係数算出部411と方程式演算部113とを有する。本形態の第2線形予測係数算出過程では、まず、自己相関係数算出部411(図12A)が、入力された離散音響信号値x1(n)…xM(n)を用い、M(M≧2)個のセンサのうち音響信号の音源に最も近い1つのセンサy(y=1,...,M)で観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値xy(n)の自己相関係数cy (i)(i=0,1,...,q)を算出する(ステップS141)。なお、音響信号の音源に最も近い1つのセンサyの情報は、自己相関係数算出部411が具備する固定情報であってもよいし、自己相関係数算出部411に与えられる変動情報であってもよい。
以上のように、本形態では、音響信号の音源に最も近い1つのセンサに対応する音響信号値の自己相関係数を用い、各線形予測係数b(1)…b(q)を算出する構成とした。これにより、他のセンサに対応する音響信号値の自己相関係数を用いる場合に比べて線形予測係数b(1)…b(q)の算出精度が向上し、離散音響信号値x1(n)…xM(n)が具備するd(z)に従った短期的な自己相関をより効果的に抑制することができる。前述のように、これは、後部残響除去の精度向上につながる。
次に、本発明の第4実施形態について説明する。第4実施形態は、第1,2実施形態の変形例である。
第1実施形態の[擬似白色化過程(ステップS21)]では、短時間線形予測モデルを用いて離散音響信号値の擬似白色化を行った。
これに対し、第4実施形態の[擬似白色化過程(ステップS21)]では、Cepstral Mean Subtraction(CMS)(例えば、「B. S. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Journal of Acoustical Society of America, 55(6), pp. 1304-1312, 1974.」参照)を用いて離散音響信号値の擬似白色化を行う。
図13は、本形態のモデル適用部500の機能構成を示したブロック図である。なお、図13において第1実施形態と共通する部分については、第1実施形態と同じ符号を用いた。
図14は、本形態の[擬似白色化過程(ステップS21)]を説明するためのフローチャートである。以下、この図を用いて、本形態の[擬似白色化過程(ステップS21)]を説明する。
まず、擬似白色化部510の周波数領域変換部511が、メモリ10aから音響信号1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を読み込む。そして、周波数領域変換部511は、短時間フーリエ変換等によって離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換して出力する(ステップS201)。なお、短時間フーリエ変換によってこの処理を行う場合は、例えば以下の式(48)を用いる。また、F[・]は短時間フーリエ変換関数を示し、Log[・]は対数関数を示す。
次に、時間平均化部512に周波数領域の離散音響信号値X1(f,t)…XM(f,t)が読み込まれ、時間平均化部512は、以下の式(49)によって、周波数領域の離散音響信号値X1(f,t)…XM(f,t)の時間平均Xm’(f)を求め、出力する(ステップS202)。
Xm’(f,t)=Xm(f,t) −E{Xm(f,t)} …(50)
次に、時間領域変換部514にX1’(f,t)…XM’(f,t)が読み込まれ、時間領域変換部514は、逆フーリエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値x1’(n)…xM’(n)を算出し、出力する(ステップS204)。なお、逆フーリエ変換によってこの処理を行う場合は、例えば以下の式(51)を用いる。また、invF[・]は逆フーリエ変換関数を示し、exp[・]はネイピア数を底とした指数関数を表す。
なお、上述した短時間フーリエ変換関数F[・]や逆フーリエ変換関数invF[・]において窓長25msの窓関数を用いた場合、25ms以内の初期反射成分及び短時間相関を取り除くことができる。
また、本形態を第2実施形態に適用する場合には、時間領域変換部514で生成された擬似白色化後の離散音響信号値x1’(n)…xM’(n)は、後部残響予測部310cや周波数領域変換部310d(図8)にも転送される。
次に、本発明の第5実施形態について説明する。第5実施形態は、第4実施形態の擬似白色化手法を第1実施形態に適用する際の変形例である。
第1実施形態の[周波数領域変換過程(ステップS3)]では、離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換していた。しかし、第4実施形態の擬似白色化を行う場合、その過程で(ステップS201)で周波数領域の離散音響信号値X1(f,t)…XM(f,t)が得られている。
第5実施形態では、第4実施形態の擬似白色化の過程で得られた周波数領域の離散音響信号値X1(f,t)…XM(f,t)を流用し、周波数領域変換過程の処理を簡略化する。
以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図15は、本形態の残響除去装置610の機能構成を例示したブロック図である。なお、図15において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。
<残響除去処理>
次に、本形態の残響除去処理について説明する。
図16は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。
第1実施形態と同様である。
[モデル適用過程(ステップS211)]
モデル適用過程では、モデル適用部500が、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS211)。この処理うち、擬似白色化処理は第4実施形態で説明した通りであり、その他の処理は第1実施形態と同様である。
モデル適用過程(ステップS211)の後、後部残響予測部10cに、メモリ10aから読み出された離散音響信号値x1(n)…xM(n)と、モデル適用過程(ステップS211)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部10cは、各線形予測係数αw,1(p)…αw,M(p)と離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS212)。
次に、周波数領域変換部510dに後部残響予測過程(ステップS212)で算出された後部残響予測値r1(n)…rM(n)が入力される。周波数領域変換部510dは、入力された後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS213)。周波数領域変換部510dは、この処理により、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部10eに、擬似白色化部510の周波数領域変換部511(図13)から転送された周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域変換部510dで生成された周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS214)。
本形態の[フラグ判定過程(ステップS215,S216)]は、第1実施形態の[フラグ判定過程(ステップS5,S6)]と同様である。
[その他の過程]
その他の過程は、第1実施形態と同様である。ただし、[複素スペクトル生成過程(ステップS7)]において、擬似白色化部510の周波数領域変換部511(図13)から転送された位相情報arg[X1(f,t)]…arg[XM(f,t)]を用いる点のみが第1実施形態と相違する。
次に、本発明の第6実施形態について説明する。第6実施形態は、第4実施形態の擬似白色化手法を第2実施形態に適用する際の変形例である。
第2実施形態の[周波数領域変換過程(ステップS103)]では、離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換していた。しかし、第4実施形態の擬似白色化を行う場合、その過程で(ステップS201)で周波数領域の離散音響信号値X1(f,t)…XM(f,t)が得られている。
以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。
<ハードウェア構成>
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。
図17に例示するように、残響除去装置620は、メモリ10aと、モデル適用部500と、後部残響予測部310cと、周波数領域変換部510dと、後部残響除去部310eと、複素スペクトル生成部310fと、時間領域変換部10gと、遅延量算出部10hと、遅延調節部10iと、メモリ10jと、制御部10kとを有する。
次に、本形態の残響除去処理について説明する。
図18は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。
[前処理]
第1実施形態と同様である。
[モデル適用過程(ステップS221)]
モデル適用過程では、モデル適用部310bが、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS221)。この処理うち、擬似白色化処理は第4実施形態で説明した通りであり、その他の処理は第1実施形態と同様である。
モデル適用過程(ステップS221)の後、後部残響予測部310cに、モデル適用過程(ステップS221)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、モデル適用過程(ステップS221)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部310cは、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化された離散音響信号値x1’(n)…xM’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS222)。
次に、周波数領域変換部510dに後部残響予測過程(ステップS222)で算出された後部残響予測値r1(n)…rM(n)が入力される。周波数領域変換部510dは、入力された後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS223)。周波数領域変換部510dは、この処理により、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS224)。なお、本ステップで使用される周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|は、擬似白色化部510の減算部513(図13)から転送されたものである。
本形態の[フラグ判定過程(ステップS225,S226)]は、第1実施形態の[フラグ判定過程(ステップS5,S6)]と同様である。
[その他の過程]
その他の過程は、第1実施形態と同様である。ただし、[複素スペクトル生成過程(ステップS7)]において、擬似白色化部510の減算部513(図13)から転送された位相情報arg[X1’(f,t)]…arg[XM’(f,t)]を用いる点のみが第1実施形態と相違する。
次に、本発明の第7実施形態について説明する。第7実施形態は、M=1とし、遅延量算出部10hや遅延調節部10iを不要とした第1〜6実施形態の変形例である。その代表例として、M=1とし、第2実施形態に第4実施形態の擬似白色化方法を適用し、遅延量算出部10hや遅延調節部10iが存在しない構成について説明する。しかし、その他第1〜6実施形態又はそれらの組合せにおいてM=1とし、遅延量算出部10hや遅延調節部10iが存在しない構成としてもよい。さらに、遅延量算出部10hや遅延調節部10iは存在するが、M=1の場合には、それらを機能させない構成であってもよい。
<ハードウェア構成>
第1実施形態と同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図19は、本形態の残響除去装置710の機能構成を例示したブロック図である。また、図20は、図19のモデル適用部800の機能構成の詳細を例示したブロック図である。なお、図19,図20において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。
また、モデル適用部800は、擬似白色化部810と第1線形予測係数算出部200とを有する。また、擬似白色化部810は、周波数領域変換部811と、時間平均化部812と、減算部813と、時間領域変換部814とを有する。
次に、本形態の残響除去処理について説明する。
図21は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図22Aは、図21のステップS301(モデル適用過程)の詳細を説明するためのフローチャートであり、図22Bは、図22AのステップS311(擬似白色化過程)の詳細を説明するためのフローチャートである。
以下、これらの図を用い、本形態の残響除去処理を説明する。
まず、M(M=1)個のセンサで観測された1チャネルの音響信号が所定の標本化周波数でサンプリングされ、離散音響信号値x1(n)が生成される。生成された各チャネルの離散音響信号値x1(n)は、それぞれメモリ10aに格納される。なお、本形態では、残響除去を行う全時間区間の離散音響信号値x1(n)を事前に取得し、メモリ10aに格納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値x1(n)の取得をリアルタイムで行いつつ、以下の各過程を実行してもよい。
以下、本形態の後部残響除去処理を説明する。なお、以下では、1つの分析フレームの処理過程のみを説明するが、実際は複数の分析フレームに対して同様な処理が行われる。
モデル適用過程では、モデル適用部800が、メモリ10aから読み込んだ1分析フレーム分の離散音響信号値x1(n)を用い、式(5)に示したマルチステップ線形予測モデルの各線形予測係数α1,1(p)を算出する(ステップS301)。以下、この処理の詳細を階層的に説明する。
[モデル適用過程(ステップS301)の詳細(図22A)]
図22Aに例示するように、モデル適用過程では、まず、擬似白色化(Pre-hitening)部810(図20)が、入力された離散音響信号値x1(n)が有する短時間区間での自己相関成分を抑制し、擬似白色化した離散音響信号値x1’を生成して出力する(擬似白色化過程/ステップS311)。すなわち、各離散時間の上記離散音響信号値x1(n)から、当該離散時間n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)を生成する。
次に、擬似白色化過程(ステップS311)の詳細を説明する。
本形態では、一例として、Cepstral Mean Subtraction(CMS)を用いて離散音響信号値の擬似白色化を行う。
まず、擬似白色化部810の周波数領域変換部811が、メモリ10aから音響信号1分析フレーム分の1チャネルの離散音響信号値x1(n)を読み込む。そして、周波数領域変換部811は、短時間フーリエ変換等によって離散音響信号値x1(n)を周波数領域の離散音響信号値X1(f,t)に変換して出力する(ステップS321)。なお、短時間フーリエ変換によってこの処理を行う場合は、例えば以下の式(52)を用いる。また、F[・]は短時間フーリエ変換関数を示し、Log[・]は対数関数を示す。
次に、時間平均化部812に周波数領域の離散音響信号値X1(f,t)が読み込まれ、時間平均化部812は、以下の式(53)によって、周波数領域の離散音響信号値X1(f,t)の時間平均X1’(f)を求め、出力する(ステップS322)。
X1’(f,t)=X1(f,t) −E{X1(f,t)} …(54)
次に、時間領域変換部514にX1’(f,t)が読み込まれ、時間領域変換部814は、逆フーリエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値x1’(n)を算出し、出力する(ステップS324)。なお、逆フーリエ変換によってこの処理を行う場合は、例えば以下の式(55)を用いる。また、invF[・]は逆フーリエ変換関数を示す。
なお、上述した短時間フーリエ変換関数F[・]や逆フーリエ変換関数invF[・]において窓長25msの窓関数を用いた場合、25ms以内の初期反射成分及び短時間相関を取り除くことができる。
また、本形態の例では、時間領域変換部814で生成された擬似白色化後の離散音響信号値x1’(n)は、後部残響予測部310cや周波数領域変換部310d(図19)にも転送される([モデル適用過程(ステップS301)の詳細]の説明終わり)。
モデル適用過程(ステップS301)の後、後部残響予測部310cに、時間領域変換部814で生成された擬似白色化後の離散音響信号値x1’(n)と、モデル適用過程(ステップS301)で算出された各線形予測係数α1,1(p)とが入力される。
そして、後部残響予測部310cは、前述の式(10)のように、各線形予測係数α1,1(p)と擬似白色化後の離散音響信号値x1’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値r1(n)として算出して出力する(ステップS302)。本形態では、式(5)のマルチステップ線形予測モデルを用いているため、後部残響予測部310cは、以下の式(56)に従って後部残響予測値r1(n)を求めて出力する。
次に、周波数領域変換部310dに、時間領域変換部814(図20)で生成された擬似白色化後の離散音響信号値x1’(n)と、後部残響予測過程(ステップS302)で算出された後部残響予測値r1(n)とが入力される。周波数領域変換部310dは、入力された擬似白色化後の離散音響信号値x1’(n)を周波数領域の離散音響信号値X1’(f,t)に変換し、後部残響予測値r1(n)を周波数領域の後部残響予測値R1(f,t)に変換する(ステップS303)。本形態では、例えば、窓長25msのハニング窓などの有限長の窓関数を用い、短時間フーリエ変換(DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部310dは、これらの処理により、周波数領域の離散音響信号値X1’(f,t)の振幅スペクトル|X1’(f,t)|と位相情報arg[X1’(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)の振幅スペクトル|R1(f,t)|と位相情報arg[R1(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|として出力する(ステップS304)。この処理の詳細は第1実施形態と同様である。
ステップS304の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS305)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS304)で後部残響除去部310eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|を、残響除去装置710の最終的な出力情報として出力し(ステップS306)、当該分析フレームの処理を終了させる。このように出力された振幅スペクトル予測値|S1(f,t)|は、例えば、残響除去装置710の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。
一方、δ=0であれば、制御部10kは、以下のステップS307以降の処理を実行させる。
複素スペクトル生成過程では、まず、複素スペクトル生成部310fに、後部残響除去部310eから出力(ステップS304)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|と、周波数領域変換部310dから出力(ステップS303)された周波数領域の離散音響信号値の位相情報arg[X1'(f,t)]とが入力される。複素スペクトル生成部310fは、これらの情報を用い、以下の式(57)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)を算出して出力する(ステップS307)。
S1(f,t)=|S1(f,t)|・exp(j・arg[X1(f,t)]) …(57)
ステップS307の後、時間領域変換部10gに、上述の後部残響除去信号値の複素スペクトル予測値S1(f,t)が入力される。そして、時間領域変換部10gは、後部残響除去信号値の複素スペクトル予測値S1(f,t)を時間領域に変換した後部残響除去信号推定値s1(n)を算出して出力する(ステップS308)。なお、時間領域への変換は、例えば、逆フーリエ変換によって行う。
次に、M=1の場合における本発明の効果を示すためのシミュレーション結果を示す。ここでは、第2実施形態に第4実施形態の擬似白色化方法を適用した構成でシミュレーションを行った。
このシミュレーションでは、連続発話データセットから女声と男性のそれぞれ50発話を取り出し、3000タップのインパルス応答と畳み込み残響環境をシミユレートした。また、式(5)のマルチステップ線形予測モデルのステップサイズ(遅延)Dを25msとし、線形予測係数α1,1(p)の数Nを5000とした。また、時間領域から周波数領域への変換には、窓長25msの短時間フーリエ変換を用いた。
このシミュレーションでは、クリーン音声を用いて構築された音響モデルを用いた。表1に、それぞれの認識対象の単語誤り率を示す。残響音声、残響除去音声の単語誤り率は、それぞれ「Rev.」と「Derev.」と表されている。音響モデルがクリーン音声から学習されたにもかかわらず、本発明により認識率が大幅に改善されていることがわかる。
次に、本発明の効果を示すための実験結果を示す。この実験は、後部残響除去を行わない場合(処理無)、M=1とし、第2実施形態に第4実施形態の擬似白色化方法を適用した方法(第7実施形態)、第1実施形態(M≧2)で遅延調節を行うことなく1つのチャネル(m=1)で得られた後部残響除去信号推定値を用いた場合(第1実施形態(遅延調節無))、及び、第1実施形態(M≧2)で遅延調節を行って後部残響除去を行った場合(第1実施形態(遅延調節無))について、各々の音声認識率を測定した。
図25Bに例示するように、マイクロフォン1010(m=1)と各スピーカ1020との距離が比較的近い場合には、第7実施形態(M=1)に対する第1実施形態(M≧2)(遅延調節無)及び第1実施形態(M≧2)(遅延調節有)の単語誤り率の改善量はあまり大きくない。しかし、マイクロフォン1010(m=1)と各スピーカ1020との距離が離れるにつれ、伝達関数中の最大位相成分(ゼロ点)が増えるため、第7実施形態(M=1)に対する第1実施形態(M≧2)(遅延調節無)の単語誤り率の改善量は顕著になっていく。さらに、第1実施形態(M≧2)(遅延調節有)場合には、より一層単語誤り率を改善することができる。
なお、本発明は上述の各実施形態に限定されるものではない。例えば、各実施形態では、後部残響除去部が、短時間フーリエ変換等により各データを周波数領域に変換して各処理を実行した。したし、残響除去装置の出力として要求される信号が直接音の振幅スペクトルのみであるならば、後部残響除去部が、各データをz変換し、z領域で各処理を実行してもよい。
また、各実施形態では、擬似白色化部によって離散音響信号値から短時間相関を取り除いた後、各処理を実行した。しかし、短時間相関を取り除いていない離散音響信号値を用いて各処理を実行してもよい。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、 このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
・残響環境での音声認識システム
・歌われたり、楽器で演奏されたり、スピーカで演奏された楽曲の残響を除去してメモリ格納しておき、それら楽曲を検索したり、採譜したりする音楽情報処理システム
・人が発した音に反応して機械にコマンドを渡す機械制御インターフェース、及び機械と人間との対話装置
・残響環境下で残響を除去することで聞き取り易さを向上させる補聴器
・残響除去により音声の明瞭度を向上させるTV会議システムなどの通信システム
残響除去処理は、このような場合に、重畳した残響を取り除き、音響信号を本来の音質に戻すことができる技術である。これにより、例えば、音声信号の明瞭性を回復し、音声認識率等を改善することが可能となる。
この従来例では、後部残響が指数関数的に減衰すると仮定し、指数関数を用いて後部残響のエネルギーを推定し、残響除去を行う。すなわち、観測信号を周波数領域信号に変換し、各周波数において周波数領域信号が直接音と後部残響との和であると仮定し、残響エネルギーが指数関数的に減少するモデル(multi-band decay model)を用いて、そのモデルパラメータを推定し、推定された後部残響エネルギーと観測信号エネルギーとにスペクトル減算法(Spectral subtraction)を適用し、後部残響を除去している。なお、モデルパラメータの推定には、後部残響のみが観測される音声の末尾部分を用いている。
I. Tashev and D. Allred, "Reverberation Reduction for Improved Speech Recognition" 2005 Joint Workshop on hands-Free Speech Communication and Microphone Arrays.
すなわち、上述の従来例の場合、用いた指数関数が観測音中の後部残響を良くモデリングできていれば、後部残響を精度良く除去できる。しかし、一般的に部屋、話者とマイク間距離により多様に変化する残響を正確に指数関数で近似することは難しい。また、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合は、この枠組みを用いることはできない。このように、上述の従来例では、後部残響を指数関数でモデル化しているため、そのモデルと観測音中の後部残響がうまく合わない場合や、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合に精度の良い残響除去を自動的に行うことはできなかった。
ここで、本発明では、マルチステップ線形予測モデルによって音響信号をモデル化するため、指数関数のみで後部残響をモデル化する場合に比べ、より正確な近似が可能である。すなわち、音響信号の後部残響成分は、過去の各時点の音響信号に起因するものであり、或る時間区間において自己相関性を持つ。そのため、各時点の時系列データを複数時点の時系列データの線形結合で表現するマルチステップ線形予測モデルは、残響信号のモデル化に適しているといえる。
また、本発明において好ましくはM≧2である。マルチチャネルマルチステップ線形予測モデルを用いることにより、室内伝達関数中の最大位相成分が多い環境であっても、精度良く後部残響除去を行うことが可能となる(詳細は後述)。
また、本発明において好ましくは、上記モデル適用過程は、各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分(short-term correlation)を抑制し、擬似白色化(pre-whitening)した離散音響信号値を生成する擬似白色化過程と、上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第1線形予測係数算出過程と、を有する。ここで、上記短時間区間は、上記長時間区間よりも短い。
このように、各チャネルで求められた自己相関関数をチャネル間で平均した平均自己相関係数を、短時間線形予測モデルの各線形予測係数の算出に用いることにより、短時間線形予測モデルの各線形予測係数の算出精度が向上し、擬似白色化した離散音響信号の生成精度が向上する。これは、後部残響除去処理の精度向上に貢献する。
また、本発明において好ましくは、各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換過程と、上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チャネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去過程と、を有する。これにより、後部残響除去信号値の振幅スペクトル予測値を算出できる。
また、本発明において好ましくは、上記マルチステップ線形予測モデルは、
xw(n)をチャネルw(w=1,...,M)に対応する離散時間nの離散音響信号値とし、xm(n)をチャネルm(m=1,...,M)に対応する離散時間nの離散音響信号値とし、ew(n)をチャネルw及び離散時間nに対応する予測誤差とし、Nを正の整数とし、[・]をガウス記号とし、αw,m(p)を、xw(n)に対応するp番目の線形予測係数とし、Dをステップサイズ(遅延)を示す定数とした場合における、
〔原理1〕
まず、本発明の原理1を説明する。なお、ここでは、原則、z変換表記を用いる(後述の式(5)以外)。
原音響信号s(z)をモデル化すると、以下の式(1)のような、白色信号u(z)(予測誤差項)と短い(次数が小さな)自己回帰(AR: Auto-Regressive)モデルd(z)=1/(1-β(z))とを掛けたものとなる。すなわち、原音響信号s(z)は、d(z)に従った短期的な自己相関性を持つ。
=u(z)・d(z) …(1)
なお、β(z)は以下のようなAR多項式である。ここでqは線形予測の次数であり、b(i)はi番目の項の線形予測係数である。
x1(z)=u(z)・[d(z)・h(z)]
=u(z)・g(z) …(2)
と表される。なお、h(z)は音響信号源からセンサまでの室内伝達関数を示し、g(z)は、
g(z)=d(z)・h(z) …(3)
を満たすものとする。なお、g(z)を合成伝達関数と呼ぶ。
x1(z)≒u(z)・h(z) …(4)
すなわち、d(z)を1とみなすことができるのであれば、センサで観測される音響信号x(z)は、白色信号u(z)に、d(z)よりも長い(次数が大きな)自己回帰過程が掛かったものとしてモデル化できる。
この場合、観測される音響信号は、センサ数M=1の場合のマルチステップ線形予測モデル(長時間区間における各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散音響信号値を表現した線形予測モデル)で近似できる。すなわち、観測される音響信号は、例えば、以下の式(5)のようにモデル化できる。なお、nを離散時間とし、x1(n)を(必要に応じて短時間相関を取り除いた)離散時間nに対応する音響信号とし、α1,1(p)を線形予測係数とし、Nを線形予測係数の数とし、Dをステップサイズ(遅延)とし、e1(n)を離散時間nに対応する予測誤差とする。また、式(5)の場合、(n-N-D)以上(n-1-D)以下の時間区間がマルチステップ線形予測モデルの定義中の「長時間区間」に相当し、x1(n)が「長時間区間より所定時間後の離散音響信号値」に相当する。
g(z):=gd(z)+z-D・gr(z) …(6)
この場合、式(5)の線形予測係数α1,1(p)をz変換したα(z)は、以下の式(7)のように表せる。
しかし、原理1の方法では、精度の良い後部残響除去を行うことができない場合がある。以下にその理由を説明する。
上述した式(10)は分析フレーム長を無限長とした場合に成立する関係式である。有限長の分析フレーム単位でみた場合、式(10)は完全に成立するとは限らない。式(10)の右辺のオールパスフィルタgmax(z)/min[gmax(z)]の応答は、室内伝達関数h(z)中の最大位相成分が多くなるほど長くなる。そのため、有限長の分析フレーム単位でみた場合、室内伝達関数h(z)中の最大位相成分が多くなりオールパスフィルタgmax(z)/min[gmax(z)]の応答が長くなるほど、式(10)の左辺と右辺との乖離が大きくなる。
すなわち、信号源からセンサまでの室内伝達関数中に最大位相成分が存在する場合、1つのセンサのみで観測された単一チャネルの音響信号を用いて完全な逆フィルタを構成することはできない。ここで、逆フィルタを構成可能であることと、上記の線形予測係数を算出できることは等価である。このことは、例えば、「M. Miyoshi and Y. Kaneda, "Inverse Filtering of Room Acoustics, " IEEE Trans. on Acoustics," Speech and Signal Processing, 36(2), pp. 145-152, 1988(以下『参考文献1』という)に開示されている。一方、参考文献1には、信号源からセンサまでの室内伝達関数中に最大位相成分が存在する場合に、複数のセンサで観測された複数チャネルの音響信号を用いて逆フィルタを構成できることが開示されている。
センサm(m=1,...,M)で観測される音響信号xm(z)は、以下のようにモデル化できる。なお、gm(z)=d(z)・hm(z)を満たす合成伝達関数とし、hm(z)を音響信号源からセンサmまでの室内伝達関数とする。
=u(z)・gm(z) …(11)
これより、原音響信号s(z)のd(z)に従った短期的な自己相関性を無視できるのであれば(原音響信号s(z)を白色信号とみなすことができるのであれば)、式(11)は、以下のように近似できる。
xm(z)≒u(z)・hm(z) …(12)
すなわち、d(z)を1とみなすことができるのであれば、センサmで観測される音響信号xm(z)は、白色信号u(z)に、d(z)よりも長い(次数が大きな)自己回帰過程が掛かったものとしてモデル化できる。
一方、室内伝達関数hm(z)には、最大位相成分が存在する。前述した『参考文献1』で開示されているように、室内伝達関数hm(z)に最大位相成分が存在する場合、1つのセンサのみで観測された単一チャネルの音響信号のみを用いて逆フィルタを構成することはできず、複数チャネルの音響信号を用いた場合にのみ逆フィルタを構成できる。これを式(12)のモデルに当てはめて考えると、複数チャネルの音響信号を対象として式(12)のモデルを構成した場合にのみ、正しい線形予測係数を算出でき、正確な後部残響信号を予測し、除去することができるといえる。以上より、原理2では、マルチチャネルマルチステップ線形予測モデル(長時間区間におけるM個(M≧2)のチャネルの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間における離散音響信号値を表現した線形予測モデル)によって、式(12)のモデルを構成する。マルチチャネルマルチステップ線形予測モデルとしては、以下の式(13)を例示できる。なお、式(13)のマルチチャネルマルチステップ線形予測モデルは、時間領域のものである。
上記の原理1,2を別の観点から説明する。
[問題設定]
まず、時間領域での離散時間nに対応する原音響信号s(n)を、V次のFIRフィルタd(k)と白色信号u(n)を用いて以下のように表現する。
式(15)を行列によって書き換えると以下のようになる。
Xm(n)=Gm・U(n) …(17)
なお、
U(n)=[u(n),u(n-1),...,u(n-T-N+1)]T
Xm(n)=[xm(n),xm(n-1),...,xm(n-N)]T
gm=[gm(0),gm(1),...,gm(T-1)]
[M=1(原理1)の場合の後部残響の推定]
前述のように原理1では、観測される音響信号を例えば式(5)のようにモデル化する。式(5)において予測誤差成分e1(n)のエネルギーを最小にする線形予測係数α1,1(p)を求めることは、以下の正規方程式を解くことと等価である。
なお、E{・}は・の時間平均を示し、Αは式(5)の線形予測係数α1,1(p)の行列Α=[α1,1(1), α1,1(2),...,α1,1(N-1)]Tを示す。
よって、以下のようにΑを求めることができる。
Α=(E{x1(n-1-D)・x1 T(n-1-D)})-1・E{x1(n-1-D)・x1(n)} …(19)
式(19)の(・)-1内を展開すると以下のようになる。
E{x1(n-1-D)・x1 T(n-1-D)}=G1・E{U(n-1-D)・UT(n-1-D)}・G1 T
=σu 2・G1・G1 T …(20)
ここで、白色信号u(n)の自己相関行列は、E{U(n-1-D)・UT(n-1-D)}=σu 2・Iとなると仮定した。なお、σu 2はu(n)の分散を示し、Iは単位行列を示す。
E{x1(n-1-D)・x1(n)}=G1・E{U(n-1-D)・UT(n)}・g1 T=σu 2・G1・glate,1 T …(21)
なお、glate,1=[g(D),g(D+1),...,g(T-1),0,...,0]Tである。すなわち、glate,1はg(n)のD個目以降の要素を表し、後部残響に相当する。
式(20)、(21)を用い、式(19)のΑは以下のように書き直すことができる。なお、(・)-1は・の逆行列を表す。
Α=(G1・G1 T)-1・G1・glate,1 …(22)
ここで、式(5)の線形予測係数の行列Αを音響信号の行列X 1 (n)に掛け合わせ、その2乗の平均をとると以下のようになる。
=‖ΑT・G1・E{U(n)・UT(n)}・G1 T・Α‖
=‖σu 2・ΑT・G1・G1 T・Α‖ …(23)
=‖σu 2・glate,1 T・G1 T・(G1・G1 T)-1・G1・glate,1 T‖
≦‖σu 2・glate,1 T‖・‖G1 T・(G1・G1 T)-1・G1‖・‖glate,1 T‖ …(24)
=‖σu 2・glate,1 T‖2 …(25)
ここで‖・‖は行列・のL2ノルムを示す。また、式(23)の導出のため、白色信号u(n)の自己相関行列は、E{U(n)・UT(n)}=σu 2・Iのように展開されると仮定した。十分に長い音響信号に対してこの分解が成立する。また、式(24)の導出には、式(22)とコーシー・シュワルツの不等式を用いた。さらに、式(25)の導出には、‖G1 T・(G1・G1 T)-1・G1‖が射影行列であり、そのノルムが1になることを用いた。
[M≧2(原理2)の場合の後部残響の推定]
マルチチャネルマルチステップ線形予測モデルは、前述の式(13)で定式化できる。ここで、式(13)の[N/M]をLとすると、式(13)は以下のようになる。
(E{X(n-1-D)・XT(n-1-D)})・Αw=E{X(n-1-D)・X(n)} …(27)
なお、X(n)=[X1 T(n),X2 T(n),...,XM T(n)]Tであり、Αwは式(26)の線形予測係数αw,m(p)の行列でありΑw=[αw,1(1),...,αw,1(L),αw,2(1),...,αw,M(L)]Tである。
Αw=(E{X(n-1-D)・XT(n-1-D)})+・E{X(n-1-D)・X(n)} …(28)
M=1の場合と同様に式(28)を展開すると、Αwは以下のように変形できる。
Αw=(G・GT)+・G・glate,w
=(GT)+・glate,w …(29)
なお、G=[G1 T,G2 T,...,GM T]Tであり、glate,w=[gw(D),gw(D+1),...,gw(T-1),0,...,0]Tである。また、Gは列フルランクである。
XT(n)・Αw=UT(n)・GT・Αw
=UT(n)・GT・(GT)+・glate,w …(30)
=UT(n)・GT・G・(GT・G)-1・glate,w …(31)
=UT(n)・glate,w …(32)
なお、式(30)の導出には式(29)を用い、式(31)の導出にはのムーア・ペンローズ型一般化逆行列の定義を用いた。ここで、UT(n)・glate,wは音響信号の後部残響成分を意味する。よって、式(28)のベクトルの転置と式(26)の線形予測係数αw,m(p)の行列Α w とを掛け合わせることにより、音響信号の後部残響成分を正確に推定できることがわかる。言い換えると、マルチチャネルマルチステップ線形モデルを用いることにより、常に正確に後部残響成分を推定することができることがわかる。
次に、マルチステップ線形予測モデルのDの値と音響信号の短時間相関との関係について説明する。
原理1,2の方法は、式(4)、(12)の近似が成り立つことを前提にした方法である。つまり、原理1,2の方法では、室内伝達関数hm(n)と式(15)に示される合成伝達関数gm(n)との差(‖hm(n)‖−‖gm(n)‖)(m≧1)が十分小さい場合に、正確な後部残響除去ができる。
図23Aに例示するように、室内伝達関数値hは時間の経過とともに指数減衰する。また、図23Bに例示するように、合成伝達関数値gも時間の経過とともに指数減衰する。また、図23Cに例示するように、室内伝達関数値hや合成伝達関数値gが大きな時間ではそれらのエネルギー差も大きく、室内伝達関数値hや合成伝達関数値gが小さな時間ではそれらのエネルギー差も小さい。すなわち、時間の経過とともに室内伝達関数hと合成伝達関数gとのエネルギー差も小さくなっていく。そして、「或る時間」の経過後には、当該エネルギー差は、音声信号全体のエネルギーに対して無視できるほど小さくなる(所定の閾値以下又は未満となる)。そのため、正確な後部残響除去を行うためには、式(5)、(13)のマルチステップ線形予測モデルのDを当該「或る時間」以上に設定することが望ましい。しかし、室内伝達関数hと合成伝達関数gとのエネルギー比やd(z)は未知であり当該「或る時間」も不定である。従って、一般に、経験則から当該「或る時間」を推測し、その推測に基づいてマルチステップ線形予測モデルのDの値を設定することになる。そして、より望ましくは、この「或る時間」の推測が困難であることを想定し、前述の擬似白色化によってd(z)成分を抑制する。これにより、室内伝達関数hと合成伝達関数gとのエネルギー差を無視でき正確な後部残響除去が可能となり、Dの設定可能範囲が広がる。なお、一般にDの下限値は1であるが、擬似白色化によってd(z)成分を十分抑制できるならD=0であってもかまわない。
また、マルチステップ線形予測モデルのDの上限値としては、離散時刻nでのxm(n)のn+1+D時点での残響成分が所定値(例えば、離散時刻nでのxm(n)よりも60dB低い値)以上又は超える値を例示できる。
次に、本発明の第1実施形態について説明する。第1実施形態はセンサ数MがM≧2の場合の実施形態である。
図3は、本実施形態における残響除去装置10のハードウェア構成を例示したブロック図である。
図3に例示するように、この例の残響除去装置10は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、残響除去装置10としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。
なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
上述のように、プログラム領域14a,16aには、本形態の残響除去装置10の各処理を実行するための残響除去プログラムが格納される。残響除去プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
CPU11(図3)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図1に例示するように、残響除去装置10は、メモリ10aと、モデル適用部10bと、後部残響予測部10cと、周波数領域変換部10dと、後部残響除去部10eと、複素スペクトル生成部10fと、時間領域変換部10gと、遅延量算出部10hと、遅延調節部10iと、メモリ10jと、制御部10kとを有する。
ここで、メモリ10a及びメモリ10jは、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、モデル適用部10b、後部残響予測部10c、周波数領域変換部10d、後部残響除去部10e、複素スペクトル生成部10f、時間領域変換部10g、遅延量算出部10h、遅延調節部10i及び制御部10kは、CPU11に残響除去プログラムを実行させることにより構成されるものである。
次に、本形態の残響除去処理について説明する。
図4,5は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図6Aは、図4のステップS1(モデル適用過程)の詳細を説明するためのフローチャートであり、図6Bは、図6AのステップS21(擬似白色化過程)の詳細を説明するためのフローチャートである。また、図7Aは、図6BのステップS31(第2線形予測係数算出過程)の詳細を説明するためのフローチャートであり、図7Bは、図4のステップS4の詳細を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。
まず、M(M≧2)個のセンサでそれぞれ観測されたM個のチャネルw(w=1,...,M)の音響信号が所定の標本化周波数でサンプリングされ、チャネル毎の離散音響信号値x1(n)…xM(n)が生成される。なお、nは離散時間を示す。生成された各チャネルの離散音響信号値x1(n)…xM(n)は、それぞれメモリ10aに格納される。なお、本形態では、残響除去を行う全時間区間の離散音響信号値x1(n)…xM(n)を事前に取得し、メモリ10aに格納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値x1(n)…xM(n)の取得をリアルタイムで行いつつ、以下の各過程を実行してもよい。
[モデル適用過程(ステップS1)]
モデル適用過程では、モデル適用部10bが、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS1)。以下、この処理の詳細を階層的に説明する。
図6Aに例示するように、モデル適用過程では、まず、擬似白色化(Pre-whitening)部100(図2A)が、入力された離散音響信号値x1(n)…xM(n)が有する短時間区間での自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)…xM’(n)を生成して出力する(擬似白色化過程/ステップS21)。すなわち、各離散時間の上記離散音響信号値x1(n)…xM(n)から、当該離散時間n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)…xM’(n)を生成する。
次に、上述の擬似白色化された離散音響信号値x1’(n)…xM’(n)が第1線形予測係数算出部200(図2A)に入力され、第1線形予測係数算出部200は、当該擬似白色化された離散音響信号値x1’(n)…xM’(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出して出力する(第1線形予測係数算出過程/ステップS22)。なお、一例として、式(13)における遅延Dを、例えば30ms(標本化周波数12000Hzの場合、360タップに相当)とし、Nを例えば3000程度とする。また、x1’(n)…xM’(n)を用いてαw,1(p)…αw,M(p)を算出する方法としては、自己相関法(correlation method)や共分散法(covariance method)を例示できる。また、MATLAB(登録商標)等を利用してこの処理を行ってもよい。
次に、擬似白色化過程(ステップS21)の詳細を説明する。本形態では、一例として、線形予測によって擬似白色化過程を行う。まず、図6Bに例示するように、第2線形予測係数算出部110が、入力された離散音響信号値x1(n)…xM(n)を用い、短時間線形予測モデルの各線形予測係数b(1)…b(q)を算出して出力する(第2線形予測係数算出過程/ステップS31)。なお、「短時間線形予測モデル」とは、短時間区間におけるチャネルwの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、短時間区間直後の離散時間nにおける当該チャネルwの離散音響信号値を表現した線形予測モデルを意味する。ここで、「短時間区間」は、マルチステップ線形予測モデルの定義で示した「長時間区間」よりも短い。本形態では、以下の短時間線形予測モデルを用いる。
[第2線形予測係数算出過程(ステップS31)の詳細(図7A)]
次に、第2線形予測係数算出過程(ステップS31)の詳細を説明する。本形態の例では、自己相関法を用いて第2線形予測係数算出過程を実行する。しかし、共分散法などその他の公知の線形予測係数算出方法を用いて第2線形予測係数算出過程を実行してもよい。
モデル適用過程(ステップS1)の後、後部残響予測部10cに、メモリ10aから読み込まれた離散音響信号値x1(n)…xM(n)と、モデル適用過程(ステップS1)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。そして、後部残響予測部10cは、各線形予測係数αw,1(p)…αw,M(p)と離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS2)。本形態では、式(13)のマルチステップ線形予測モデルを用いているため、後部残響予測部10cは、以下の式(38)に従って後部残響予測値rw(n)を求めて出力する。
次に、周波数領域変換部10dに、メモリ10aから読み込まれた離散音響信号値x1(n)…xM(n)と、後部残響予測過程(ステップS2)で算出された後部残響予測値r1(n)…rM(n)とが入力される。周波数領域変換部10dは、入力された離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS3)。本形態では、例えば、窓長30msのハニング窓などの有限長の窓関数を用い、短時間フーリエ変換(DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部10dは、これらの処理により、周波数領域の離散音響信号値X1(f,t)…XM(f,t)の振幅スペクトル|X1(f,t)|…|XM(f,t)|と位相情報arg[X1(f,t)]…arg[XM(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。なお、arg[・]は、・の偏角を意味する。
次に、後部残響除去部10eに、周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部10eは、周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS4)。以下に、この処理の詳細を例示する。
図7Bに例示するように、まず、後部残響除去部10eが、振幅スペクトル|X1(f,t)|…|XM(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とを用い、各m(m=1,...,M)に対して
|Xm(f,t)|k-|Rm(f,t)|k・const …(39)
の演算を行い、各演算結果をメモリ10jに格納する(ステップS51)。なお、constは定数を示し、kは自然数を示す。本形態では、const=1.0とし、k=2とする。
|Xm(f,t)|k-|Rm(f,t)|k・const>0 …(40)
ここで、式(40)の関係を満たすと判断された場合、制御部10kは後部残響除去部10eに命令を与え、後部残響除去部10eは、
|Sm(f,t)|=(|Xm(f,t)|k-|Rm(f,t)|k・const)1/k …(41)
によって、変数mに対応する|Sm(f,t)|を算出して出力する(ステップS54)。一方、式(40)の関係を満たさないと判断された場合、制御部10kは後部残響除去部10eに命令を与え、後部残響除去部10eは、0又は十分小さい値を変数mに対応する|Sm(f,t)|として出力する(ステップS55)。なお、ステップS53〜S55の処理は半波整流処理に相当する。ステップS53〜S55以外の方法によって半波整流を行ってもよい。
[フラグ判定過程(ステップS5,S6)]
ステップS4の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS5)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS4)で後部残響除去部10eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|を、残響除去装置10の最終的な出力情報として出力し(ステップS6)、当該分析フレームの処理を終了させる。このように出力された振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|は、例えば、残響除去装置10の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。
[複素スペクトル生成過程(ステップS7)]
複素スペクトル生成過程では、まず、複素スペクトル生成部10fに、後部残響除去部10eから出力(ステップS4)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|と、周波数領域変換部10dから出力(ステップS3)された周波数領域の離散音響信号値の位相情報arg[X1(f,t)]…arg[XM(f,t)]とが入力される。複素スペクトル生成部10fは、これらの情報を用い、以下の式(42)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を算出して出力する(ステップS7)。なお、exp(・)は、ネイピア数を底とした指数関数であり、jは虚数単位である。
[時間領域変換過程(ステップS8)]
ステップS7の後、時間領域変換部10gに、上述の後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)が入力される。そして、時間領域変換部10gは、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を時間領域に変換した後部残響除去信号推定値s1(n)…sM(n)を算出して出力する(ステップS8)。なお、時間領域への変換は、例えば、逆フーリエ変換によって行う。
ステップS8の後、遅延量算出部10hに、後部残響除去信号推定値s1(n)…sM(n)が入力される。そして、遅延量算出部10hは、後部残響除去信号推定値s1(n)…sM(n)のチャネル間相互相関を極大にする後部残響除去信号推定値の遅延量τ1…τMを、各チャネルについて決定する(ステップS9)。以下にこの具体例を示す。
[遅延量算出過程(ステップS9)の具体例]
まず、遅延量算出部10hは、入力された分析フレーム内の後部残響除去信号推定値s1(n)…sM(n)に対し、以下の式(43)のようなチャネル間相関関数Am(τ)の関数値を求める。なお、E{・}は平均演算子である。
次に、遅延量算出部10hは、各mについて、チャネル間相関関数Am(τ)を極大(例えば最大)とするτをτmとして求める。例えば、チャネル間相関関数Am(τ)を最大とするτをτmとする場合には、遅延量算出部10hは、
τm=max{ Am(τ)} …(44)
を算出して出力する。なお、max{・}は・の最大値を検出する。また、τmは、チャネルmの後部残響除去信号推定値の遅延量であり、遅延量にはτm=0も含む(遅延量算出過程(ステップS9)の具体例の説明終わり)。
ステップS9の後、各遅延量τ1…τMと、後部残響除去信号推定値s1(n)…sM(n)とが、遅延調節部10i(図1)に入力される。そして、遅延調節部10iの遅延部10ia(図2B)は、各チャネルの後部残響除去信号推定値s1(n)…sM(n)を、それぞれ遅延量τ1…τMだけ遅延させてs1(n+τ1)…sM(n+τM)を算出して出力する(ステップS10)。
次に、s1(n+τ1)…sM(n+τM)が、遅延補正部10ib((図2B))に入力され、遅延補正部10ibは、以下の式(45)に従い、s1(n+τ1)…sM(n+τM)の和を算出し(ステップS11)、この和を補正残響除去信号値s(n)として出力して(ステップS12)、当該分析フレームの処理を終了する。各チャネルの後部残響信号に含まれる誤差成分は統計的に独立であると過程した場合、この操作により誤差を抑圧できることになる。
次に、本発明の第2実施形態について説明する。第2実施形態は、第1実施形態の変形例である。
第1実施形態の[後部残響予測過程(ステップS2)]では、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化していない離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出していた。また、[後部残響除去過程(ステップS4)]では、擬似白色化していない周波数領域の離散音響信号値の振幅スペクトル|X1(f,t)|…|XM(f,t)|と周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|としていた。
<ハードウェア構成>
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図8は、本形態の残響除去装置310の機能構成を例示したブロック図である。また、図9は、モデル適用部310bの機能構成の詳細を例示したブロック図である。なお、図8,9において、第1実施形態と共通する部分については第1実施形態と同じ符号を用いた。
また、図9に例示するように、モデル適用部310bは、擬似白色化部100と第1線形予測係数算出部200とを有しており、擬似白色化部100は、第2線形予測係数算出部110と逆フィルタ処理部120とを有している。また、第2線形予測係数算出部110は、自己相関係数算出部111と、自己相関係数平均化部112と、方程式演算部113とを有している。モデル適用部310bと第1実施形態のモデル適用部10bとの相違点は、モデル適用部310bの逆フィルタ処理部120が、擬似白色化した離散音響信号値x1’(n)…xM’(n)を後部残響予測部310cや周波数領域変換部310dにも転送する点である。
次に、本形態の残響除去処理について説明する。
図10,11は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。
[前処理]
第1実施形態と同様である。
[モデル適用過程(ステップS101)]
モデル適用過程では、モデル適用部310bが、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS101)。この処理は、第1実施形態の[モデル適用過程(ステップS1)]と同様であり、離散音響信号値x1(n)…xM(n)を擬似白色化する過程を含む。
モデル適用過程(ステップS101)の後、後部残響予測部310cに、モデル適用過程(ステップS101)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、モデル適用過程(ステップS101)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部310cは、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化された離散音響信号値x1’(n)…xM’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS102)。式(13)のマルチステップ線形予測モデルを用いていた場合、後部残響予測部310cは、以下の式(46)に従って後部残響予測値rw(n)を求めて出力する。
次に、周波数領域変換部310dに、モデル適用過程(ステップS101)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、後部残響予測過程(ステップS102)で算出された後部残響予測値r1(n)…rM(n)とが入力される。周波数領域変換部310dは、入力された擬似白色化後の離散音響信号値x1’(n)…xM’(n)を周波数領域の離散音響信号値X1’(f,t)…XM’(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS103)。周波数領域変換部310dは、これらの処理により、周波数領域の離散音響信号値X1’(f,t)…XM’(f,t)の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と位相情報arg[X1’(f,t)]…arg[XM’(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS104)。
ステップS104の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS105)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS104)で後部残響除去部310eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|を、残響除去装置310の最終的な出力情報として出力し(ステップS106)、当該分析フレームの処理を終了させる。一方、δ=0であれば、制御部10kは、以下のステップS107以降の処理を実行させる。
複素スペクトル生成過程では、まず、複素スペクトル生成部310fに、後部残響除去部310eから出力(ステップS104)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|と、周波数領域変換部10dから出力(ステップS3)された周波数領域の離散音響信号値の位相情報arg[X1’(f,t)]…arg[XM’(f,t)]とが入力される。複素スペクトル生成部310fは、これらの情報を用い、以下の式(47)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)…SM(f,t)を算出して出力する(ステップS107)。
[時間領域変換過程(ステップS108)・遅延量算出過程(ステップS109)・遅延調節過程(ステップS110,S111)]
時間領域変換過程(ステップS108)・遅延量算出過程(ステップS109)・遅延調節過程(ステップS110,S111)は、第1実施形態の時間領域変換過程(ステップS8)・遅延量算出過程(ステップS9)・遅延調節過程(ステップS10,S11)と同様である。
次に、本発明の第3実施形態について説明する。第3実施形態は、第1,2実施形態の変形例である。
第1実施形態で例示した[第2線形予測係数算出過程(ステップS31)]では、第2線形予測係数算出部110が、チャネル毎に生成した自己相関係数c1(i)…cM(i)をチャネル間で平均した平均自己相関係数c(i)を用い、短時間線形予測モデルの各線形予測係数b(1)…b(q)を算出していた。
この点が第1実施形態との相違点である。そして、この構成は第2実施形態へも適用可能である。以下では、第1,2実施形態との相違点である第2線形予測係数算出部410の構成及び[第2線形予測係数算出過程(ステップS31)]の処理のみを説明し、第1,2実施形態と共通する事項については説明を省略する。
図12Aに例示するように、本形態の第2線形予測係数算出部410は、自己相関係数算出部411と方程式演算部113とを有する。本形態の第2線形予測係数算出過程では、まず、自己相関係数算出部411(図12A)が、入力された離散音響信号値x1(n)…xM(n)を用い、M(M≧2)個のセンサのうち音響信号の音源に最も近い1つのセンサy(y=1,...,M)で観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値xy(n)の自己相関係数cy (i)(i=0,1,...,q)を算出する(ステップS141)。なお、音響信号の音源に最も近い1つのセンサyの情報は、自己相関係数算出部411が具備する固定情報であってもよいし、自己相関係数算出部411に与えられる変動情報であってもよい。
以上のように、本形態では、音響信号の音源に最も近い1つのセンサに対応する音響信号値の自己相関係数を用い、各線形予測係数b(1)…b(q)を算出する構成とした。これにより、他のセンサに対応する音響信号値の自己相関係数を用いる場合に比べて線形予測係数b(1)…b(q)の算出精度が向上し、離散音響信号値x1(n)…xM(n)が具備するd(z)に従った短期的な自己相関をより効果的に抑制することができる。前述のように、これは、後部残響除去の精度向上につながる。
次に、本発明の第4実施形態について説明する。第4実施形態は、第1,2実施形態の変形例である。
第1実施形態の[擬似白色化過程(ステップS21)]では、短時間線形予測モデルを用いて離散音響信号値の擬似白色化を行った。
これに対し、第4実施形態の[擬似白色化過程(ステップS21)]では、Cepstral Mean Subtraction(CMS)(例えば、「B. S. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Journal of Acoustical Society of America, 55(6), pp. 1304-1312, 1974.」参照)を用いて離散音響信号値の擬似白色化を行う。
図13は、本形態のモデル適用部500の機能構成を示したブロック図である。なお、図13において第1実施形態と共通する部分については、第1実施形態と同じ符号を用いた。
図14は、本形態の[擬似白色化過程(ステップS21)]を説明するためのフローチャートである。以下、この図を用いて、本形態の[擬似白色化過程(ステップS21)]を説明する。
まず、擬似白色化部510の周波数領域変換部511が、メモリ10aから音響信号1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を読み込む。そして、周波数領域変換部511は、短時間フーリエ変換等によって離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換して出力する(ステップS201)。なお、短時間フーリエ変換によってこの処理を行う場合は、例えば以下の式(48)を用いる。また、F[・]は短時間フーリエ変換関数を示し、Log[・]は対数関数を示す。
次に、時間平均化部512に周波数領域の離散音響信号値X1(f,t)…XM(f,t)が読み込まれ、時間平均化部512は、以下の式(49)によって、周波数領域の離散音響信号値X1(f,t)…XM(f,t)の時間平均Xm’(f)を求め、出力する(ステップS202)。
Xm’(f,t)=Xm(f,t) −E{Xm(f,t)} …(50)
次に、時間領域変換部514にX1’(f,t)…XM’(f,t)が読み込まれ、時間領域変換部514は、逆フーリエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値x1’(n)…xM’(n)を算出し、出力する(ステップS204)。なお、逆フーリエ変換によってこの処理を行う場合は、例えば以下の式(51)を用いる。また、invF[・]は逆フーリエ変換関数を示し、exp[・]はネイピア数を底とした指数関数を表す。
なお、上述した短時間フーリエ変換関数F[・]や逆フーリエ変換関数invF[・]において窓長25msの窓関数を用いた場合、25ms以内の初期反射成分及び短時間相関を取り除くことができる。
また、本形態を第2実施形態に適用する場合には、時間領域変換部514で生成された擬似白色化後の離散音響信号値x1’(n)…xM’(n)は、後部残響予測部310cや周波数領域変換部310d(図8)にも転送される。
次に、本発明の第5実施形態について説明する。第5実施形態は、第4実施形態の擬似白色化手法を第1実施形態に適用する際の変形例である。
第1実施形態の[周波数領域変換過程(ステップS3)]では、離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換していた。しかし、第4実施形態の擬似白色化を行う場合、その過程で(ステップS201)で周波数領域の離散音響信号値X1(f,t)…XM(f,t)が得られている。
第5実施形態では、第4実施形態の擬似白色化の過程で得られた周波数領域の離散音響信号値X1(f,t)…XM(f,t)を流用し、周波数領域変換過程の処理を簡略化する。
以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図15は、本形態の残響除去装置610の機能構成を例示したブロック図である。なお、図15において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。
<残響除去処理>
次に、本形態の残響除去処理について説明する。
図16は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。
第1実施形態と同様である。
[モデル適用過程(ステップS211)]
モデル適用過程では、モデル適用部500が、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS211)。この処理うち、擬似白色化処理は第4実施形態で説明した通りであり、その他の処理は第1実施形態と同様である。
モデル適用過程(ステップS211)の後、後部残響予測部10cに、メモリ10aから読み出された離散音響信号値x1(n)…xM(n)と、モデル適用過程(ステップS211)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部10cは、各線形予測係数αw,1(p)…αw,M(p)と離散音響信号値x1(n)…xM(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS212)。
次に、周波数領域変換部510dに後部残響予測過程(ステップS212)で算出された後部残響予測値r1(n)…rM(n)が入力される。周波数領域変換部510dは、入力された後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS213)。周波数領域変換部510dは、この処理により、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部10eに、擬似白色化部510の周波数領域変換部511(図13)から転送された周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域変換部510dで生成された周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部10eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS214)。
本形態の[フラグ判定過程(ステップS215,S216)]は、第1実施形態の[フラグ判定過程(ステップS5,S6)]と同様である。
[その他の過程]
その他の過程は、第1実施形態と同様である。ただし、[複素スペクトル生成過程(ステップS7)]において、擬似白色化部510の周波数領域変換部511(図13)から転送された位相情報arg[X1(f,t)]…arg[XM(f,t)]を用いる点のみが第1実施形態と相違する。
次に、本発明の第6実施形態について説明する。第6実施形態は、第4実施形態の擬似白色化手法を第2実施形態に適用する際の変形例である。
第2実施形態の[周波数領域変換過程(ステップS103)]では、離散音響信号値x1(n)…xM(n)を周波数領域の離散音響信号値X1(f,t)…XM(f,t)に変換し、後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換していた。しかし、第4実施形態の擬似白色化を行う場合、その過程で(ステップS201)で周波数領域の離散音響信号値X1(f,t)…XM(f,t)が得られている。
以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。
<ハードウェア構成>
第1実施形態で説明したのと同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。
図17に例示するように、残響除去装置620は、メモリ10aと、モデル適用部500と、後部残響予測部310cと、周波数領域変換部510dと、後部残響除去部310eと、複素スペクトル生成部310fと、時間領域変換部10gと、遅延量算出部10hと、遅延調節部10iと、メモリ10jと、制御部10kとを有する。
次に、本形態の残響除去処理について説明する。
図18は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。
[前処理]
第1実施形態と同様である。
[モデル適用過程(ステップS221)]
モデル適用過程では、モデル適用部500が、メモリ10aから読み込んだ1分析フレーム分のMチャネルの離散音響信号値x1(n)…xM(n)を用い、式(13)に示したマルチステップ線形予測モデルの各線形予測係数αw,1(p)…αw,M(p)を算出する(ステップS221)。この処理うち、擬似白色化処理は第4実施形態で説明した通りであり、その他の処理は第1実施形態と同様である。
モデル適用過程(ステップS221)の後、後部残響予測部310cに、モデル適用過程(ステップS221)で擬似白色化された離散音響信号値x1’(n)…xM’(n)と、モデル適用過程(ステップS221)で算出された各線形予測係数αw,1(p)…αw,M(p)とが入力される。
そして、後部残響予測部310cは、各線形予測係数αw,1(p)…αw,M(p)と擬似白色化された離散音響信号値x1’(n)…xM’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値rw(n)(w=1,...,M)として算出して出力する(ステップS222)。
次に、周波数領域変換部510dに後部残響予測過程(ステップS222)で算出された後部残響予測値r1(n)…rM(n)が入力される。周波数領域変換部510dは、入力された後部残響予測値r1(n)…rM(n)を周波数領域の後部残響予測値R1(f,t)…RM(f,t)に変換する(ステップS223)。周波数領域変換部510dは、この処理により、周波数領域の後部残響予測値R1(f,t)…RM(f,t)の振幅スペクトル|R1(f,t)|…|RM(f,t)|と位相情報arg[R1(f,t)]…arg[RM(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|…|RM(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|…|SM(f,t)|として出力する(ステップS224)。なお、本ステップで使用される周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|…|XM’(f,t)|は、擬似白色化部510の減算部513(図13)から転送されたものである。
本形態の[フラグ判定過程(ステップS225,S226)]は、第1実施形態の[フラグ判定過程(ステップS5,S6)]と同様である。
[その他の過程]
その他の過程は、第1実施形態と同様である。ただし、[複素スペクトル生成過程(ステップS7)]において、擬似白色化部510の減算部513(図13)から転送された位相情報arg[X1’(f,t)]…arg[XM’(f,t)]を用いる点のみが第1実施形態と相違する。
次に、本発明の第7実施形態について説明する。第7実施形態は、M=1とし、遅延量算出部10hや遅延調節部10iを不要とした第1〜6実施形態の変形例である。その代表例として、M=1とし、第2実施形態に第4実施形態の擬似白色化方法を適用し、遅延量算出部10hや遅延調節部10iが存在しない構成について説明する。しかし、その他第1〜6実施形態又はそれらの組合せにおいてM=1とし、遅延量算出部10hや遅延調節部10iが存在しない構成としてもよい。さらに、遅延量算出部10hや遅延調節部10iは存在するが、M=1の場合には、それらを機能させない構成であってもよい。
<ハードウェア構成>
第1実施形態と同様である。
<ハードウェアとプログラムとの協働>
本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図19は、本形態の残響除去装置710の機能構成を例示したブロック図である。また、図20は、図19のモデル適用部800の機能構成の詳細を例示したブロック図である。なお、図19,図20において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。
また、モデル適用部800は、擬似白色化部810と第1線形予測係数算出部200とを有する。また、擬似白色化部810は、周波数領域変換部811と、時間平均化部812と、減算部813と、時間領域変換部814とを有する。
次に、本形態の残響除去処理について説明する。
図21は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図22Aは、図21のステップS301(モデル適用過程)の詳細を説明するためのフローチャートであり、図22Bは、図22AのステップS311(擬似白色化過程)の詳細を説明するためのフローチャートである。
以下、これらの図を用い、本形態の残響除去処理を説明する。
まず、M(M=1)個のセンサで観測された1チャネルの音響信号が所定の標本化周波数でサンプリングされ、離散音響信号値x1(n)が生成される。生成された各チャネルの離散音響信号値x1(n)は、それぞれメモリ10aに格納される。なお、本形態では、残響除去を行う全時間区間の離散音響信号値x1(n)を事前に取得し、メモリ10aに格納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値x1(n)の取得をリアルタイムで行いつつ、以下の各過程を実行してもよい。
以下、本形態の後部残響除去処理を説明する。なお、以下では、1つの分析フレームの処理過程のみを説明するが、実際は複数の分析フレームに対して同様な処理が行われる。
モデル適用過程では、モデル適用部800が、メモリ10aから読み込んだ1分析フレーム分の離散音響信号値x1(n)を用い、式(5)に示したマルチステップ線形予測モデルの各線形予測係数α1,1(p)を算出する(ステップS301)。以下、この処理の詳細を階層的に説明する。
[モデル適用過程(ステップS301)の詳細(図22A)]
図22Aに例示するように、モデル適用過程では、まず、擬似白色化(Pre-whitening)部810(図20)が、入力された離散音響信号値x1(n)が有する短時間区間での自己相関成分を抑制し、擬似白色化した離散音響信号値x1’を生成して出力する(擬似白色化過程/ステップS311)。すなわち、各離散時間の上記離散音響信号値x1(n)から、当該離散時間n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値x1’(n)を生成する。
次に、擬似白色化過程(ステップS311)の詳細を説明する。
本形態では、一例として、Cepstral Mean Subtraction(CMS)を用いて離散音響信号値の擬似白色化を行う。
まず、擬似白色化部810の周波数領域変換部811が、メモリ10aから音響信号1分析フレーム分の1チャネルの離散音響信号値x1(n)を読み込む。そして、周波数領域変換部811は、短時間フーリエ変換等によって離散音響信号値x1(n)を周波数領域の離散音響信号値X1(f,t)に変換して出力する(ステップS321)。なお、短時間フーリエ変換によってこの処理を行う場合は、例えば以下の式(52)を用いる。また、F[・]は短時間フーリエ変換関数を示し、Log[・]は対数関数を示す。
次に、時間平均化部812に周波数領域の離散音響信号値X1(f,t)が読み込まれ、時間平均化部812は、以下の式(53)によって、周波数領域の離散音響信号値X1(f,t)の時間平均X1’(f)を求め、出力する(ステップS322)。
X1’(f,t)=X1(f,t) −E{X1(f,t)} …(54)
次に、時間領域変換部814にX1’(f,t)が読み込まれ、時間領域変換部814は、逆フーリエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値x1’(n)を算出し、出力する(ステップS324)。なお、逆フーリエ変換によってこの処理を行う場合は、例えば以下の式(55)を用いる。また、invF[・]は逆フーリエ変換関数を示す。
なお、上述した短時間フーリエ変換関数F[・]や逆フーリエ変換関数invF[・]において窓長25msの窓関数を用いた場合、25ms以内の初期反射成分及び短時間相関を取り除くことができる。
また、本形態の例では、時間領域変換部814で生成された擬似白色化後の離散音響信号値x1’(n)は、後部残響予測部310cや周波数領域変換部310d(図19)にも転送される([モデル適用過程(ステップS301)の詳細]の説明終わり)。
モデル適用過程(ステップS301)の後、後部残響予測部310cに、時間領域変換部814で生成された擬似白色化後の離散音響信号値x1’(n)と、モデル適用過程(ステップS301)で算出された各線形予測係数α1,1(p)とが入力される。
そして、後部残響予測部310cは、前述の式(10)のように、各線形予測係数α1,1(p)と擬似白色化後の離散音響信号値x1’(n)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値r1(n)として算出して出力する(ステップS302)。本形態では、式(5)のマルチステップ線形予測モデルを用いているため、後部残響予測部310cは、以下の式(56)に従って後部残響予測値r1(n)を求めて出力する。
次に、周波数領域変換部310dに、時間領域変換部814(図20)で生成された擬似白色化後の離散音響信号値x1’(n)と、後部残響予測過程(ステップS302)で算出された後部残響予測値r1(n)とが入力される。周波数領域変換部310dは、入力された擬似白色化後の離散音響信号値x1’(n)を周波数領域の離散音響信号値X1’(f,t)に変換し、後部残響予測値r1(n)を周波数領域の後部残響予測値R1(f,t)に変換する(ステップS303)。本形態では、例えば、窓長25msのハニング窓などの有限長の窓関数を用い、短時間フーリエ変換(DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部310dは、これらの処理により、周波数領域の離散音響信号値X1’(f,t)の振幅スペクトル|X1’(f,t)|と位相情報arg[X1’(f,t)]、及び、周波数領域の後部残響予測値R1(f,t)の振幅スペクトル|R1(f,t)|と位相情報arg[R1(f,t)]とを抽出し、出力する。
次に、後部残響除去部310eに、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|とが入力される。そして、後部残響除去部310eは、周波数領域の離散音響信号値の振幅スペクトル|X1’(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル|R1(f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|として出力する(ステップS304)。この処理の詳細は第1実施形態と同様である。
ステップS304の後、制御部10kが、メモリ10jに格納されているフラグδを読み出し、そのフラグδが、振幅スペクトルのみを出力することを示すフラグであるか否か、すなわち、δ=1であるか否かを判断する(ステップS305)。ここで、δ=1であれば、制御部10kは、後部残響除去過程(ステップS304)で後部残響除去部310eが生成した後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|を、残響除去装置710の最終的な出力情報として出力し(ステップS306)、当該分析フレームの処理を終了させる。このように出力された振幅スペクトル予測値|S1(f,t)|は、例えば、残響除去装置710の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。
一方、δ=0であれば、制御部10kは、以下のステップS307以降の処理を実行させる。
複素スペクトル生成過程では、まず、複素スペクトル生成部310fに、後部残響除去部310eから出力(ステップS304)された後部残響除去信号値の振幅スペクトル予測値|S1(f,t)|と、周波数領域変換部310dから出力(ステップS303)された周波数領域の離散音響信号値の位相情報arg[X1'(f,t)]とが入力される。複素スペクトル生成部310fは、これらの情報を用い、以下の式(57)に従って、後部残響除去信号値の複素スペクトル予測値S1(f,t)を算出して出力する(ステップS307)。
S1(f,t)=|S1(f,t)|・exp(j・arg[X1(f,t)]) …(57)
ステップS307の後、時間領域変換部10gに、上述の後部残響除去信号値の複素スペクトル予測値S1(f,t)が入力される。そして、時間領域変換部10gは、後部残響除去信号値の複素スペクトル予測値S1(f,t)を時間領域に変換した後部残響除去信号推定値s1(n)を算出して出力する(ステップS308)。なお、時間領域への変換は、例えば、逆フーリエ変換によって行う。
次に、M=1の場合における本発明の効果を示すためのシミュレーション結果を示す。ここでは、第2実施形態に第4実施形態の擬似白色化方法を適用した構成でシミュレーションを行った。
このシミュレーションでは、連続発話データセットから女性と男性のそれぞれ50発話を取り出し、3000タップのインパルス応答と畳み込み残響環境をシミュレートした。また、式(5)のマルチステップ線形予測モデルのステップサイズ(遅延)Dを25msとし、線形予測係数α1,1(p)の数Nを5000とした。また、時間領域から周波数領域への変換には、窓長25msの短時間フーリエ変換を用いた。
このシミュレーションでは、クリーン音声を用いて構築された音響モデルを用いた。表1に、それぞれの認識対象の単語誤り率を示す。残響音声、残響除去音声の単語誤り率は、それぞれ「Rev.」と「Derev.」と表されている。音響モデルがクリーン音声から学習されたにもかかわらず、本発明により認識率が大幅に改善されていることがわかる。
次に、本発明の効果を示すための実験結果を示す。この実験は、後部残響除去を行わない場合(処理無)、M=1とし、第2実施形態に第4実施形態の擬似白色化方法を適用した方法(第7実施形態)、第1実施形態(M≧2)で遅延調節を行うことなく1つのチャネル(m=1)で得られた後部残響除去信号推定値を用いた場合(第1実施形態(遅延調節無))、及び、第1実施形態(M≧2)で遅延調節を行って後部残響除去を行った場合(第1実施形態(遅延調節無))について、各々の音声認識率を測定した。
図25Bに例示するように、マイクロフォン1010(m=1)と各スピーカ1020との距離が比較的近い場合には、第7実施形態(M=1)に対する第1実施形態(M≧2)(遅延調節無)及び第1実施形態(M≧2)(遅延調節有)の単語誤り率の改善量はあまり大きくない。しかし、マイクロフォン1010(m=1)と各スピーカ1020との距離が離れるにつれ、伝達関数中の最大位相成分(ゼロ点)が増えるため、第7実施形態(M=1)に対する第1実施形態(M≧2)(遅延調節無)の単語誤り率の改善量は顕著になっていく。さらに、第1実施形態(M≧2)(遅延調節有)場合には、より一層単語誤り率を改善することができる。
なお、本発明は上述の各実施形態に限定されるものではない。例えば、各実施形態では、後部残響除去部が、短時間フーリエ変換等により各データを周波数領域に変換して各処理を実行した。したし、残響除去装置の出力として要求される信号が直接音の振幅スペクトルのみであるならば、後部残響除去部が、各データをz変換し、z領域で各処理を実行してもよい。
また、各実施形態では、擬似白色化部によって離散音響信号値から短時間相関を取り除いた後、各処理を実行した。しかし、短時間相関を取り除いていない離散音響信号値を用いて各処理を実行してもよい。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、 このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
・残響環境での音声認識システム
・歌われたり、楽器で演奏されたり、スピーカで演奏された楽曲の残響を除去してメモリ格納しておき、それら楽曲を検索したり、採譜したりする音楽情報処理システム
・人が発した音に反応して機械にコマンドを渡す機械制御インターフェース、及び機械と人間との対話装置
・残響環境下で残響を除去することで聞き取り易さを向上させる補聴器
・残響除去により音声の明瞭度を向上させるTV会議システムなどの通信システム
Claims (26)
- 後部残響を伴う音響信号から後部残響を除去する残響除去装置であって、
M(M≧1)個のセンサによってそれぞれ観測されたM個のチャネルm(m=1,...,M)の上記音響信号をそれぞれ複数の時点でサンプリングして得られた離散音響信号値を記憶するメモリと、
長時間区間におけるM個のチャネルmの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間nにおけるチャネルw(w=1,...,M)の離散音響信号値を表現した線形予測モデルである、チャネルwのマルチステップ線形予測モデルの各線形予測係数を、複数の上記離散音響信号値を用いて算出するモデル適用部と、
上記チャネルwのマルチステップ線形予測モデルの各線形予測係数と複数の上記離散音響信号値とを上記チャネルwのマルチステップ線形予測モデルの上記線形予測項に代入して得た線形予測値を、離散時間nにおけるチャネルwの後部残響予測値として出力する後部残響予測部と、を有する。 - 請求項1に記載の残響除去装置であって、
上記モデル適用部は、
各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値を生成する擬似白色化部と、
上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第1線形予測係数算出部と、を有し、
上記短時間区間は、上記長時間区間よりも短い。 - 請求項2に記載の残響除去装置であって、
上記擬似白色化部は、
上記短時間区間におけるチャネルmの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、上記短時間区間直後の離散時間nにおける当該チャネルmの離散音響信号値を表現した線形予測モデルである、チャネルmの短時間線形予測モデルの各線形予測係数を、上記離散音響信号値を用いて算出する第2線形予測係数算出部と、
上記第2線形予測係数算出部で算出された上記各線形予測係数をチャネルmの上記短時間線形予測モデルに代入して得られる逆フィルタに当該チャネルmの上記離散音響信号値を代入し、それによって得られる当該短時間線形予測モデルの上記予測誤差項の値を当該チャネルmの上記擬似白色化した離散音響信号値として出力する逆フィルタ処理部と、を有する。 - 請求項3に記載の残響除去装置であって、
M≧2であり、
上記第2線形予測係数算出部は、
チャネル毎に上記離散音響信号値の自己相関係数を算出する自己相関係数算出部と、
チャネル毎に求められた上記自己相関係数をチャネル間で平均した平均自己相関係数を算出する自己相関係数平均化部と、
上記平均自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算部と、を有する。 - 請求項3に記載の残響除去装置であって、
M≧2であり、
上記第2線形予測係数算出部は、
上記M個のセンサのうち、音響信号の音源に最も近い1つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出する自己相関係数算出部と、
上記自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算部と、を有する。 - 請求項1に記載の残響除去装置であって、
各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換部と、
上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チャネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去部と、を有する。 - 請求項6に記載の残響除去装置であって、
上記後部残響予測部は、
上記モデル適用部で算出された上記各線形予測係数と複数の擬似白色化された上記離散音響信号値とを上記線形予測項に代入して得られた線形予測値を、離散時間nにおけるチャネルwの後部残響予測値として算出し、
上記周波数領域変換部は、
擬似白色化された各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換する。 - 請求項6に記載の残響除去装置であって、
チャネルwの上記後部残響除去信号値の振幅スペクトル予測値と、チャネルwの上記周波数領域の離散音響信号値の位相情報とを用い、チャネルwの後部残響除去信号値の複素スペクトル予測値を算出する複素スペクトル生成部と、
チャネルwの上記後部残響除去信号値の複素スペクトル予測値を時間領域に変換したチャネルwの後部残響除去信号推定値を算出する時間領域変換部とを、さらに有する。 - 請求項8に記載の残響除去装置であって、
M≧2であり、
上記モデル適用部は、
複数のチャネルに対してそれぞれ上記各線形予測係数を算出し、
上記後部残響予測部は、
複数のチャネルに対してそれぞれ上記後部残響予測値を算出し、
上記後部残響除去部は、
複数のチャネルに対してそれぞれ上記後部残響除去信号値の振幅スペクトル予測値を算出し、
上記複素スペクトル生成部は、
複数のチャネルに対してそれぞれ上記後部残響除去信号値の複素スペクトル予測値を算出し、
上記時間領域変換部は、
複数のチャネルに対してそれぞれ上記後部残響除去信号推定値を算出し、
当該残響除去装置は、
各チャネルの上記後部残響除去信号推定値をそれぞれ或る遅延量で遅延させた場合に、遅延後の各チャネルの上記後部残響除去信号推定値のチャネル間相互相関が極大となる、各チャネルの当該遅延量を決定する遅延量算出部を有する。 - 請求項9に記載の残響除去装置であって、
各チャネルの上記後部残響除去信号推定値を、それぞれのチャネルに対して算出された上記遅延量だけ遅延させる遅延部と、
上記遅延部で遅延させた上記後部残響除去信号推定値の和を、補正残響除去信号値として算出する遅延補正部と、を有する。 - 請求項1に記載の残響除去装置であって、
M≧2である。 - 後部残響を伴う音響信号から後部残響を除去する残響除去方法であって、
M(M≧1)個のセンサによってそれぞれ観測されたM個のチャネルm(m=1,...,M)の上記音響信号をそれぞれ複数の時点でサンプリングして得られた離散音響信号値をメモリに記憶する離散音響信号記憶過程と、
長時間区間におけるM個のチャネルmの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間nにおけるチャネルwの離散音響信号値を表現した線形予測モデルである、チャネルwのマルチステップ線形予測モデルの各線形予測係数を、複数の上記離散音響信号値を用いて算出するモデル適用過程と、
上記チャネルwのマルチステップ線形予測モデルの各線形予測係数と複数の上記離散音響信号値とを上記チャネルwのマルチステップ線形予測モデルの上記線形予測項に代入して得た線形予測値を、離散時間nにおけるチャネルwの後部残響予測値として出力する後部残響予測過程と、を有する。 - 請求項13に記載の残響除去方法であって、
上記モデル適用過程は、
各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値を生成する擬似白色化過程と、
上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第1線形予測係数算出過程と、を有し、
上記短時間区間は、上記長時間区間よりも短い。 - 請求項14に記載の残響除去方法であって、
上記擬似白色化過程は、
上記短時間区間におけるチャネルmの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、上記短時間区間直後の離散時間nにおける当該チャネルmの離散音響信号値を表現した線形予測モデルである、チャネルmの短時間線形予測モデルの各線形予測係数を、上記離散音響信号値を用いて算出する第2線形予測係数算出過程と、
上記第2線形予測係数算出過程で算出された上記各線形予測係数をチャネルmの上記短時間線形予測モデルに代入して得られる逆フィルタに当該チャネルmの上記離散音響信号値を代入し、それによって得られる当該短時間線形予測モデルの上記予測誤差項の値を当該チャネルmの上記擬似白色化した離散音響信号値として出力する逆フィルタ処理過程と、を有する。 - 請求項15に記載の残響除去方法であって、
M≧2であり、
上記第2線形予測係数算出過程は、
チャネル毎に上記離散音響信号値の自己相関係数を算出する自己相関係数算出過程と、
チャネル毎に求められた上記自己相関係数をチャネル間で平均した平均自己相関係数を算出する自己相関係数平均化過程と、
上記平均自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算過程と、を有する。 - 請求項15に記載の残響除去方法であって、
M≧2であり、
上記第2線形予測係数算出過程は、
上記M個のセンサのうち、音響信号の音源に最も近い1つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出する自己相関係数算出過程と、
上記自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算過程と、を有する。 - 請求項13に記載の残響除去方法であって、
各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換過程と、
上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チャネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去過程と、を有する。 - 請求項18に記載の残響除去方法であって、
上記後部残響予測過程は、
上記モデル適用部で算出された上記各線形予測係数と複数の擬似白色化された上記離散音響信号値とを上記線形予測項に代入して得られた線形予測値を、離散時間nにおけるチャネルwの後部残響予測値として算出する過程であり、
上記周波数領域変換部では、
擬似白色化された各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換する。 - 請求項18に記載の残響除去方法であって、
チャネルwの上記後部残響除去信号値の振幅スペクトル予測値と、チャネルwの上記周波数領域の離散音響信号値の位相情報とを用い、チャネルwの後部残響除去信号値の複素スペクトル予測値を算出する複素スペクトル生成過程と、
チャネルwの上記後部残響除去信号値の複素スペクトル予測値を時間領域に変換したチャネルwの後部残響除去信号推定値を算出する時間領域変換過程とを、さらに有する。 - 請求項20に記載の残響除去方法であって、
M≧2であり、
上記モデル適用過程は、
複数のチャネルに対してそれぞれ上記各線形予測係数を算出する過程であり、
上記後部残響予測過程は、
複数のチャネルに対してそれぞれ上記後部残響予測値を算出する過程であり、
上記後部残響除去過程は、
複数のチャネルに対してそれぞれ上記後部残響除去信号値の振幅スペクトル予測値を算出する過程であり、
上記複素スペクトル生成過程は、
複数のチャネルに対してそれぞれ上記後部残響除去信号値の複素スペクトル予測値を算出する過程であり、
上記時間領域変換過程は、
複数のチャネルに対してそれぞれ上記後部残響除去信号推定値を算出する過程であり、
当該残響除去方法は、
各チャネルの上記後部残響除去信号推定値をそれぞれ或る遅延量で遅延させた場合に、遅延後の各チャネルの上記後部残響除去信号推定値のチャネル間相互相関が極大となる、各チャネルの当該遅延量を決定する遅延量算出過程を有する。 - 請求項21に記載の残響除去方法であって、
各チャネルの上記後部残響除去信号推定値を、それぞれのチャネルに対して算出された上記遅延量だけ遅延させる遅延過程と、
上記遅延過程で遅延させた上記後部残響除去信号推定値の和を、補正残響除去信号値として算出する遅延補正過程と、を有する。 - 請求項13に記載の残響除去方法であって、
M≧2である。 - 請求項13に記載された残響除去方法の各過程をコンピュータに実行させるための残響除去プログラム。
- 請求項25に記載の残響除去プログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008502883A JP4774100B2 (ja) | 2006-03-03 | 2007-03-05 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057235 | 2006-03-03 | ||
JP2006057235 | 2006-03-03 | ||
JP2006240677 | 2006-09-05 | ||
JP2006240677 | 2006-09-05 | ||
JP2008502883A JP4774100B2 (ja) | 2006-03-03 | 2007-03-05 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
PCT/JP2007/054205 WO2007100137A1 (ja) | 2006-03-03 | 2007-03-05 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007100137A1 true JPWO2007100137A1 (ja) | 2009-07-23 |
JP4774100B2 JP4774100B2 (ja) | 2011-09-14 |
Family
ID=38459225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008502883A Active JP4774100B2 (ja) | 2006-03-03 | 2007-03-05 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8271277B2 (ja) |
EP (1) | EP1993320B1 (ja) |
JP (1) | JP4774100B2 (ja) |
CN (1) | CN101385386B (ja) |
WO (1) | WO2007100137A1 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
EP2058804B1 (en) * | 2007-10-31 | 2016-12-14 | Nuance Communications, Inc. | Method for dereverberation of an acoustic signal and system thereof |
US8848933B2 (en) * | 2008-03-06 | 2014-09-30 | Nippon Telegraph And Telephone Corporation | Signal enhancement device, method thereof, program, and recording medium |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
JP4950971B2 (ja) * | 2008-09-18 | 2012-06-13 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 |
JP5620689B2 (ja) * | 2009-02-13 | 2014-11-05 | 本田技研工業株式会社 | 残響抑圧装置及び残響抑圧方法 |
EP2237271B1 (en) | 2009-03-31 | 2021-01-20 | Cerence Operating Company | Method for determining a signal component for reducing noise in an input signal |
KR101012709B1 (ko) | 2009-05-20 | 2011-02-09 | 국방과학연구소 | 위상비교 방향탐지기의 채널위상오차 제거 시스템 및 방법 |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8761410B1 (en) * | 2010-08-12 | 2014-06-24 | Audience, Inc. | Systems and methods for multi-channel dereverberation |
EP2444967A1 (en) * | 2010-10-25 | 2012-04-25 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Echo suppression comprising modeling of late reverberation components |
JP5654955B2 (ja) * | 2011-07-01 | 2015-01-14 | クラリオン株式会社 | 直接音抽出装置および残響音抽出装置 |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
JP5634959B2 (ja) * | 2011-08-08 | 2014-12-03 | 日本電信電話株式会社 | 雑音/残響除去装置とその方法とプログラム |
JP6239521B2 (ja) * | 2011-11-03 | 2017-11-29 | ヴォイスエイジ・コーポレーション | 低レートcelpデコーダに関する非音声コンテンツの向上 |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
CN103487794B (zh) * | 2012-06-13 | 2016-01-06 | 中国科学院声学研究所 | 一种基于小波包变换的水底混响抑制方法 |
CN102750956B (zh) | 2012-06-18 | 2014-07-16 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
JP6077957B2 (ja) * | 2013-07-08 | 2017-02-08 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US10373611B2 (en) | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
JP6106618B2 (ja) * | 2014-02-21 | 2017-04-05 | 日本電信電話株式会社 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
EP2916320A1 (en) | 2014-03-07 | 2015-09-09 | Oticon A/s | Multi-microphone method for estimation of target and noise spectral variances |
EP2916321B1 (en) | 2014-03-07 | 2017-10-25 | Oticon A/s | Processing of a noisy audio signal to estimate target and noise spectral variances |
US9997170B2 (en) | 2014-10-07 | 2018-06-12 | Samsung Electronics Co., Ltd. | Electronic device and reverberation removal method therefor |
US9390723B1 (en) * | 2014-12-11 | 2016-07-12 | Amazon Technologies, Inc. | Efficient dereverberation in networked audio systems |
US9558757B1 (en) * | 2015-02-20 | 2017-01-31 | Amazon Technologies, Inc. | Selective de-reverberation using blind estimation of reverberation level |
EP3320311B1 (en) * | 2015-07-06 | 2019-10-09 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
CN105448302B (zh) * | 2015-11-10 | 2019-06-25 | 厦门快商通科技股份有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN105529034A (zh) * | 2015-12-23 | 2016-04-27 | 北京奇虎科技有限公司 | 一种基于混响的语音识别方法和装置 |
ES2937232T3 (es) * | 2016-12-16 | 2023-03-27 | Nippon Telegraph & Telephone | Dispositivo para enfatizar sonido objetivo, dispositivo de aprendizaje de parámetros de estimación de ruido, método para enfatizar sonido objetivo, método de aprendizaje de parámetros de estimación de ruido y programa |
CN106710602B (zh) * | 2016-12-29 | 2020-03-17 | 南方科技大学 | 一种声学混响时间估计方法和装置 |
US11373667B2 (en) * | 2017-04-19 | 2022-06-28 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
US10013995B1 (en) * | 2017-05-10 | 2018-07-03 | Cirrus Logic, Inc. | Combined reference signal for acoustic echo cancellation |
WO2019026973A1 (ja) * | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
US9947338B1 (en) * | 2017-09-19 | 2018-04-17 | Amazon Technologies, Inc. | Echo latency estimation |
US11823083B2 (en) * | 2019-11-08 | 2023-11-21 | International Business Machines Corporation | N-steps-ahead prediction based on discounted sum of m-th order differences |
CN111031448B (zh) * | 2019-11-12 | 2021-09-17 | 西安讯飞超脑信息科技有限公司 | 回声消除方法、装置、电子设备和存储介质 |
KR20240124316A (ko) * | 2022-01-03 | 2024-08-16 | 엘지전자 주식회사 | 오디오 장치 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3542954A (en) * | 1968-06-17 | 1970-11-24 | Bell Telephone Labor Inc | Dereverberation by spectral measurement |
US4087633A (en) * | 1977-07-18 | 1978-05-02 | Bell Telephone Laboratories, Incorporated | Dereverberation system |
US4131760A (en) * | 1977-12-07 | 1978-12-26 | Bell Telephone Laboratories, Incorporated | Multiple microphone dereverberation system |
JPH0654883B2 (ja) | 1986-02-17 | 1994-07-20 | 日本電信電話株式会社 | 多入力形制御装置 |
US4683590A (en) * | 1985-03-18 | 1987-07-28 | Nippon Telegraph And Telphone Corporation | Inverse control system |
US4658426A (en) * | 1985-10-10 | 1987-04-14 | Harold Antin | Adaptive noise suppressor |
JP3355585B2 (ja) | 1993-08-30 | 2002-12-09 | 日本電信電話株式会社 | エコーキャンセル方法 |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
JP3183104B2 (ja) | 1995-07-14 | 2001-07-03 | 松下電器産業株式会社 | ノイズ削減装置 |
DE69628618T2 (de) * | 1995-09-26 | 2004-05-13 | Nippon Telegraph And Telephone Corp. | Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos |
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
JP3649847B2 (ja) * | 1996-03-25 | 2005-05-18 | 日本電信電話株式会社 | 残響除去方法及び装置 |
JPH09261133A (ja) | 1996-03-25 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧方法および装置 |
JP3384523B2 (ja) | 1996-09-04 | 2003-03-10 | 日本電信電話株式会社 | 音響信号処理方法 |
US6363345B1 (en) * | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
GB9922654D0 (en) * | 1999-09-27 | 1999-11-24 | Jaber Marwan | Noise suppression system |
US6718036B1 (en) * | 1999-12-15 | 2004-04-06 | Nortel Networks Limited | Linear predictive coding based acoustic echo cancellation |
US6377637B1 (en) * | 2000-07-12 | 2002-04-23 | Andrea Electronics Corporation | Sub-band exponential smoothing noise canceling system |
US7054451B2 (en) | 2001-07-20 | 2006-05-30 | Koninklijke Philips Electronics N.V. | Sound reinforcement system having an echo suppressor and loudspeaker beamformer |
JP3787088B2 (ja) | 2001-12-21 | 2006-06-21 | 日本電信電話株式会社 | 音響エコー消去方法、装置及び音響エコー消去プログラム |
JP3986457B2 (ja) | 2003-03-28 | 2007-10-03 | 日本電信電話株式会社 | 入力信号推定方法、及び装置、入力信号推定プログラムならびにその記録媒体 |
JP2004325127A (ja) | 2003-04-22 | 2004-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 音源検出方法、音源分離方法、およびこれらを実施する装置 |
JP3836815B2 (ja) * | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
KR101149591B1 (ko) * | 2004-07-22 | 2012-05-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 반향 억제 |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US7844059B2 (en) * | 2005-03-16 | 2010-11-30 | Microsoft Corporation | Dereverberation of multi-channel audio streams |
ATE450983T1 (de) * | 2005-04-29 | 2009-12-15 | Harman Becker Automotive Sys | Kompensation des echos und der rückkopplung |
EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
-
2007
- 2007-03-05 US US12/280,101 patent/US8271277B2/en active Active
- 2007-03-05 CN CN2007800060354A patent/CN101385386B/zh active Active
- 2007-03-05 WO PCT/JP2007/054205 patent/WO2007100137A1/ja active Application Filing
- 2007-03-05 EP EP07737780.2A patent/EP1993320B1/en active Active
- 2007-03-05 JP JP2008502883A patent/JP4774100B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP4774100B2 (ja) | 2011-09-14 |
WO2007100137A1 (ja) | 2007-09-07 |
EP1993320A1 (en) | 2008-11-19 |
CN101385386B (zh) | 2012-05-09 |
EP1993320A4 (en) | 2010-03-10 |
CN101385386A (zh) | 2009-03-11 |
US20090248403A1 (en) | 2009-10-01 |
US8271277B2 (en) | 2012-09-18 |
EP1993320B1 (en) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
Kinoshita et al. | Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction | |
Schwartz et al. | Multi-microphone speech dereverberation and noise reduction using relative early transfer functions | |
JP5550456B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
Wang et al. | Dereverberation and denoising based on generalized spectral subtraction by multi-channel LMS algorithm using a small-scale microphone array | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
US20240055012A1 (en) | Method and System for Reverberation Modeling of Speech Signals | |
EP4260315B1 (en) | Method and system for dereverberation of speech signals | |
JP2007065204A (ja) | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
KR20110012946A (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
JP4977100B2 (ja) | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 | |
CN113160842B (zh) | 一种基于mclp的语音去混响方法及系统 | |
JP2019090930A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
Kinoshita et al. | A linear prediction-based microphone array for speech dereverberation in a realistic sound field | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
JP2006091743A (ja) | 音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4774100 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |