JPWO2016092837A1 - 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム - Google Patents
音声処理装置、雑音抑圧装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JPWO2016092837A1 JPWO2016092837A1 JP2016563514A JP2016563514A JPWO2016092837A1 JP WO2016092837 A1 JPWO2016092837 A1 JP WO2016092837A1 JP 2016563514 A JP2016563514 A JP 2016563514A JP 2016563514 A JP2016563514 A JP 2016563514A JP WO2016092837 A1 JPWO2016092837 A1 JP WO2016092837A1
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- speech
- input signal
- value
- expected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 91
- 230000001629 suppression Effects 0.000 title claims description 158
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000001228 spectrum Methods 0.000 claims abstract description 304
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
入力信号が含む音声パワーを精度よく推定する技術を提供する。音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。
Description
本発明は、音声処理装置、雑音抑圧装置、音声処理方法および記録媒体に関する。
近年、音声特徴をモデル化した音声モデルを雑音抑圧に用いるモデルベースの雑音抑圧が発展している。モデルベース雑音抑圧法は、音声モデルがもつ音声情報を参照して高精度に雑音を抑圧する方法であり、例えば、特許文献1、非特許文献1および非特許文献2に記載されるものがある。
例えば、特許文献1には、音声モデルを用いた雑音抑制システムが開示されている。特許文献1の雑音抑制システムは、入力信号と雑音の平均スペクトルとからスペクトル領域で仮推定音声を求め、標準パタンを用いて仮推定音声を補正している。そして、前記雑音抑制システムは、補正した仮推定音声と雑音平均スペクトルとから雑音低減フィルタを算出し、当該雑音低減フィルタと入力信号スペクトルとから推定音声を算出している。
Pedro J. Moreno, Bhiksha Raj and Richard M. Stern, "A Vector Taylor Series Approach for Environment Independent Speech Recognition," Proc. ICASSP1996, pp. 733-736 vol. 2, 1996.
M. Tsujikawa, T. Arakawa, and R. Isotani, "In-car speech recognition using model-based wiener filter and multi-condition training," INTERSPEECH 2008, pp. 972-975, 2008. 09.
非特許文献1に記載のモデルベース雑音抑圧法は、入力信号の音声パワーと音声モデルが持つ音声パワーの情報との間にミスマッチがある場合に、正しく雑音を抑圧できない。そのため、非特許文献1の技術では、入力信号の音声パワーの変動に対して頑健でない。
一方、特許文献1および非特許文献2に記載のモデルベース雑音抑圧法は、入力信号から音声パワーを推定する。したがって、特許文献1および非特許文献2に記載のモデルベース雑音抑圧法は、入力信号のパワーと音声モデルがもつパワー情報との間のミスマッチに対して頑健である。
この入力信号から推定した音声パワーγは、下記の式(1)に示すものとなる。
ここで、Sin(k)(k=0,...,K−1,但し、kは周波数ビン、Kはナイキスト周波数)は、入力信号スペクトルである。
しかしながら、式(1)を用いての音声パワーの推定では、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合に、入力信号が含む音声パワーを正しく推定することができない。
本発明は、上記問題に鑑みてなされたものであり、その目的は、入力信号が含む音声パワーを精度よく推定する技術を提供することにある。
本発明の一態様に係る音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。
本発明の一態様に係る雑音抑圧装置は、入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備える。
本発明の一態様に係る音声処理方法は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する。
なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
本発明によれば、入力信号が含む音声パワーを精度よく推定することができる。
<第1の実施の形態>
以下、本発明の第1の実施の形態について、図面を参照して説明する。
以下、本発明の第1の実施の形態について、図面を参照して説明する。
(音声処理装置10の構成)
図1は、本発明の第1の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。図1に示すとおり、音声処理装置10は、記憶部11、期待値算出部12および音声パワー推定部13を備えている。なお、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。以降に参照する、他のブロック図においても同様に、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
図1は、本発明の第1の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。図1に示すとおり、音声処理装置10は、記憶部11、期待値算出部12および音声パワー推定部13を備えている。なお、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。以降に参照する、他のブロック図においても同様に、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
音声処理装置10には、デジタル信号の1区間から算出されるスペクトルSin(k)(k=0,...,K−1。但し、kは周波数ビン、Kはナイキスト周波数)が入力される。以下、このスペクトルSin(k)を入力スペクトルまたは入力信号スペクトルと呼ぶ。また、音声処理装置10は、入力スペクトルが含む音声成分のパワー(音声パワー)γ(スカラ量)を出力する。
(記憶部11)
記憶部11には、音声の特徴量をモデル化した音声モデルが格納されている。具体的には、記憶部11には、混合ガウス分布モデル(Gaussian Mixture Model;GMM)が格納されている。
記憶部11には、音声の特徴量をモデル化した音声モデルが格納されている。具体的には、記憶部11には、混合ガウス分布モデル(Gaussian Mixture Model;GMM)が格納されている。
GMMは、予め収集した音声データから抽出した特徴量(本実施の形態ではM次元ベクトルとする(Mは自然数))を学習データとする。具体的には、GMMは、複数のガウス分布から構成される。各ガウス分布は、重み、平均ベクトル、および分散行列をパラメタとして有する。
以降、GMMの混合数(GMMを構成するガウス分布の数)をN、i番目のガウス分布の重みをwi、平均ベクトルをμi(∈RM、但し、RMはM次元実ベクトル空間)、分散行列をΣi(∈RM×M)(但し、i=0,...,N−1)(Nは自然数)とする。以降、i番目のガウス分布の各パラメタをまとめて、(wi,μi,Σi)と記載する。
なお、GMMを学習するために用いる音声データ(以下、学習データと記す)の特徴量は、メルスペクトルやメルケプストラムといった特徴量とするが、本実施の形態では特徴量はこれらに限定されない。また、特徴量には1次動的成分、2次動的成分等、高次の動的成分をさらに含んでもよい。
また、記憶部11に格納される音声モデルは、隠れマルコフモデル(Hidden Markov Model;HMM)であってもよい。
(期待値算出部12)
期待値算出部12は、音声処理装置10に入力される入力スペクトルSin(k)と、記憶部11に格納されたGMMとを用いて、入力スペクトルSin(k)に含まれる音声成分のスペクトルの期待値S^E(k)(以下、スペクトル期待値と記す)を算出する。ここで、ハット(^)は推定値(期待値)を示している。なお、ハット記号を、本明細書では直前文字の右に記しているが、当該ハット記号(^)は、直前の文字の上側に配置される。
期待値算出部12は、音声処理装置10に入力される入力スペクトルSin(k)と、記憶部11に格納されたGMMとを用いて、入力スペクトルSin(k)に含まれる音声成分のスペクトルの期待値S^E(k)(以下、スペクトル期待値と記す)を算出する。ここで、ハット(^)は推定値(期待値)を示している。なお、ハット記号を、本明細書では直前文字の右に記しているが、当該ハット記号(^)は、直前の文字の上側に配置される。
具体的には、期待値算出部12は、スペクトル期待値の算出のために、まず、入力スペクトルSin(k)を、特徴量ベクトルsin(∈RM)(以下、入力特徴量と記す)に変換する。この入力特徴量は、GMMの学習データの特徴量と同等のものである。また、期待値算出部12は、GMMの平均ベクトルμiを対数スペクトルSμ,i(k)(k=0,...,K−1)(以下、平均対数スペクトルと記す)に逆変換する。
そして、期待値算出部12は、算出した入力特徴量sin、平均対数スペクトルSμ,i(k)、GMMのパラメタ(wi,μi,Σi)を用いてスペクトル期待値S^E(k)を、以下の式(2)を用いて算出する。
ここで、N(x;μ,Σ)は、以下の式(3)で表すことができる。
なお、mは特徴量ベクトルの次元数である。
期待値算出部12は、算出したスペクトル期待値S^E(k)を音声パワー推定部13に供給する。
(音声パワー推定部13)
音声パワー推定部13は、音声処理装置10に入力される入力スペクトルSin(k)と、期待値算出部12から供給されるスペクトル期待値S^E(k)とに基づいて、入力スペクトルSin(k)の音声成分の音声パワーγを推定する。この音声パワーγは、音声処理装置10の出力となる。
音声パワー推定部13は、音声処理装置10に入力される入力スペクトルSin(k)と、期待値算出部12から供給されるスペクトル期待値S^E(k)とに基づいて、入力スペクトルSin(k)の音声成分の音声パワーγを推定する。この音声パワーγは、音声処理装置10の出力となる。
具体的には、音声パワー推定部13は、スペクトル期待値S^E(k)と入力スペクトルSin(k)との2乗誤差が最小になるように制御したスペクトル期待値S^E(k)のパワーを、音声パワーγとする。音声パワー推定部13は、以下の式(4)を用いて、音声パワーγを算出することにより、音声パワーγを推定する。
または、音声パワー推定部13は、式(5)を用いて、音声パワーγを算出してもよい。
式(4)および式(5)において、ηは音声パワーの倍率を規定する係数であり、実験的に求めた値を与えてもよい。また、Ωは、加算で用いる周波数ビンkの集合を示す。|Ω|は集合Ωの要素数を示す。集合Ωの導出には、以下の式(6)を用いる。
つまり、集合Ωは、スペクトル期待値S^E(k)が所定の値θ以上となる周波数ビンkの集合となる。このθの算出にはいくつかバリエーションを持たすことができ、それらを以下の式(7)〜式(9)に示す。
ここで、式(7)を用いた際の集合Ωは、スペクトル期待値S^E(k)に最大値を与える周波数ビンkの集合となる。式(8)を用いた際の集合Ωは、スペクトル期待値S^E(k)の加算平均を上回る周波数ビンの集合となる。式(9)を用いた際の集合Ωは、スペクトル期待値S^E(k)の相乗平均を上回る周波数ビンの集合となる。
ここで、式(8)および式(9)のαは、スカラ量であり、予め与えられるものである。なお、αは実験的に導出した値を与えてもよい。さらに、スペクトル期待値S^E(k)の上位P個の周波数ビンをΩとしてもよい。なお、「スペクトル期待値S^E(k)の上位P個」とは、スペクトル期待値のうち、期待値が高いものから順にP個を示す。
なお、式(6)ではスペクトル期待値S^E(k)とθとの比較により集合Ωを算出しているが、θと、スペクトル期待値S^E(k)および入力スペクトルSin(k)の線形結合との比較でもよい。
このように、音声パワー推定部13は、スペクトル期待値S^E(k)、または、スペクトル期待値S^E(k)および入力スペクトルSin(k)の値が、所定の値θ以上である周波数成分kの音声パワーγを算出する。これにより、音声パワー推定部13が所定の値θ以上の周波数成分のみを用いて音声パワーγを算出するため、本実施の形態に係る音声処理装置10は、より精度が高い音声パワーγを推定することができる。
また、音声パワー推定部13は、入力スペクトルの音声らしさの値を算出してもよい。このとき、音声パワー推定部13は、音声パワー推定部13内に、この音声らしさの値を算出する算出部をさらに備える構成であってもよい。そして、音声パワー推定部13は、上記算出部で算出される値に応じて、音声パワーの推定の方法を変更してもよい。
例えば、音声らしさに応じて、音声パワー推定部13は、式(4)または式(5)のηの値を変化させてもよい。例えば、入力スペクトルが音声らしい場合、音声パワー推定部13は、ηの値をより大きくし、音声らしくない場合はηの値を0に設定してもよい。また、音声パワー推定部13は、音声らしさに応じて、所定の値(閾値)θ、または、閾値θの値を規定する式である式(8)および式(9)のαの値を変化させてもよい。つまり、音声パワー推定部13は、スペクトル期待値S^E(k)、または、スペクトル期待値S^E(k)および入力スペクトルSin(k)の値と比較する、所定の値θを入力スペクトルの音声らしさに基づいて変化させてもよい。例えば、音声パワー推定部13は、入力スペクトルが音声らしい場合、Ωの要素数がより大きくなるように閾値θを設定し、音声らしくない場合は、Ωの要素数をより小さくするように閾値θを設定してもよい。
ここで、「音声らしさ」とは、予め用意した音声モデルと雑音モデルのパラメタと入力スペクトルとを用いることにより、算出されるものであってもよい。例えば、音声らしさの指標をLとすると、Lは、以下の式(10)を用いて算出される。
ここで、(wl,,μl,Σl)は、予め用意した音声モデルをGMMとした場合の各ガウス分布のパラメタを表し、(wj,,μj,Σj)は、予め用意した雑音モデルをGMMとした場合の各ガウス分布のパラメタを表す。なおこれらのパラメタは記憶部11に格納されるものであってもよい。また、sinは入力スペクトルの特徴量ベクトルである。
この音声らしさを示す指標Lがより大きい場合、例えば、所定の値より大きい場合、入力スペクトルが音声らしいことを示し、Lがより小さい場合、例えば、他の所定の値より小さい場合、入力スペクトルが音声らしくないことを示す。したがって、音声パワー推定部13は、入力スペクトルが音声らしい場合、つまり、Lの値がより大きい値の場合、Ωの要素数がより大きくなるように、閾値θの値をより小さい値に設定する。同様に、音声パワー推定部13は、入力スペクトルが音声らしくない場合、つまり、Lの値がより小さい値の場合、Ωの要素数がより小さくなるように、閾値θの値をより大きい値に設定する。このように、θの値を設定することにより、音声パワー推定部13は、より精度よく音声パワーγを算出することができる。
また、音声パワー推定部13は、この音声らしさの指標Lを用いて、音声パワーを以下の式(11)を用いて導出してもよい。
ここで、γ1とγ2とは、それぞれ異なるθを用いて算出した集合Ωとηの下で、式(4)または式(5)に基づいて算出されるものであってもよい。また、φ1およびφ2は、φ1>φ2となるように実験的に求めた値を用いてもよい。
また、γ1とγ2とは、夫々、所定の値(第1の音声パワーおよび第2の音声パワー)であってもよい。また、音声パワー推定部13は、γ1>γ2となるように、第1の音声パワーγ1および/または第2の音声パワーγ2とを設定してもよい。このように、音声パワー推定部13は、音声らしさを示す指標Lがより小さい場合に、音声パワーγを、より小さい値である第2の音声パワーγ2とすることにより、入力スペクトルSin(k)の音声パワーγをより精度よく推定することができる。
(音声処理装置10のハードウェア構成)
次に、図2を参照して、音声処理装置10のハードウェア構成について説明する。図2は、本実施の形態に係る音声処理装置10のハードウェア構成の一例を示す図である。図2に示すとおり、音声処理装置10は、CPU(Central Processing Unit)1、ネットワーク接続用の通信I/F(通信インターフェース)2、メモリ3、プログラムを格納するハードディスク等の記憶装置4、入力装置5および出力装置6を含み、夫々、システムバス9を介して接続している。
次に、図2を参照して、音声処理装置10のハードウェア構成について説明する。図2は、本実施の形態に係る音声処理装置10のハードウェア構成の一例を示す図である。図2に示すとおり、音声処理装置10は、CPU(Central Processing Unit)1、ネットワーク接続用の通信I/F(通信インターフェース)2、メモリ3、プログラムを格納するハードディスク等の記憶装置4、入力装置5および出力装置6を含み、夫々、システムバス9を介して接続している。
CPU1は、オペレーティングシステムを動作させて本実施の形態に係る音声処理装置10を制御する。また、CPU1は、例えば、ドライブ装置に装着された記録媒体からプログラムやデータを読み出し、メモリ3に書き込む。
また、CPU1は、例えば、本実施の形態の期待値算出部12および音声パワー推定部13の一部として機能し、例えば、メモリ3に書き込んだプログラムに基づいて各種の処理を実行する。
記憶装置4は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等である。記憶装置4の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶している。また、プログラムは通信網に接続されている図示しない外部コンピュータから、例えば通信I/F2を介してダウンロードされてもよい。記憶装置4は、例えば、本実施の形態における記憶部11として機能する。
入力装置5は、例えば、タッチセンサなどで実現され、入力操作に用いられる。また、出力装置6は、例えば、ディスプレイで実現され、出力を確認するために用いられる。
以上のように、本実施の形態に係る音声処理装置10は、図2に示されるハードウェア構成によって実現される。但し、音声処理装置10が備える各部の実現手段は特に限定されない。
(音声処理装置10の処理)
次に、図3を参照して音声処理装置10の処理の流れについて説明する。図3は、本実施の形態に係る音声処理装置10の音声パワー推定処理の流れの一例を示すフローチャートである。
次に、図3を参照して音声処理装置10の処理の流れについて説明する。図3は、本実施の形態に係る音声処理装置10の音声パワー推定処理の流れの一例を示すフローチャートである。
図3に示すとおり、まず、音声処理装置10の期待値算出部12が、入力スペクトルSin(k)と記憶部11のGMMのパラメタとを用いて、スペクトル期待値S^E(k)を算出する(ステップS31)。
次に、音声パワー推定部13が、入力スペクトルSin(k)と期待値算出部12が算出したスペクトル期待値S^E(k)とを用いて、音声パワーγを算出し(ステップS32)、処理を終了する。
(効果)
本実施の形態に係る音声処理装置10によれば、入力信号が含む音声パワーを精度よく推定することができる。
本実施の形態に係る音声処理装置10によれば、入力信号が含む音声パワーを精度よく推定することができる。
なぜならば、期待値算出部12が、入力スペクトルSin(k)と、音声の特徴量をモデル化した音声モデル(GMM)とを用いて、入力スペクトルSin(k)に含まれる音声成分のスペクトルの期待値(スペクトル期待値S^E(k))を算出するからである。そして、音声パワー推定部13が、入力スペクトルSin(k)およびスペクトル期待値S^E(k)に基づいて、入力スペクトルSin(k)の音声成分の音声パワーγを推定するからである。
このように、音声パワー推定部13が推定する音声パワーγは、音声モデルと入力スペクトルSin(k)から算出するスペクトル期待値S^E(k)を参照することにより算出される。したがって、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合であっても、高い精度の音声パワーγを算出することができる。よって、本実施の形態に係る音声処理装置10は、入力スペクトルSin(k)に含まれる音声成分の音声パワーγを精度よく算出することができる。
また、本実施の形態に係る音声処理装置10の音声パワー推定部13は、スペクトル期待値S^E(k)と入力スペクトルSin(k)との誤差が、雑音の影響が少ない所定の帯域において最小になるように制御したスペクトル期待値S^E(k)のパワーを、音声パワーγとする。これにより、スペクトル期待値S^E(k)を、入力スペクトルSin(k)が含む音声スペクトルに近づけることができる。したがって、本実施の形態に係る音声処理装置10は、入力信号が含む音声パワーをより精度よく推定することができる。
<第2の実施の形態>
以下、本発明の第2の実施の形態について、図面を参照して以下に説明する。第2の実施の形態に係る雑音抑圧装置は、非特許文献1に記載のモデルベース雑音抑圧であって、雑音抑圧ゲインに第1の実施の形態で算出した音声パワーを利用することを特徴とする。なお、説明の便宜上、前述した第1の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
以下、本発明の第2の実施の形態について、図面を参照して以下に説明する。第2の実施の形態に係る雑音抑圧装置は、非特許文献1に記載のモデルベース雑音抑圧であって、雑音抑圧ゲインに第1の実施の形態で算出した音声パワーを利用することを特徴とする。なお、説明の便宜上、前述した第1の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
(雑音抑圧装置20の構成)
図4は、本発明の第2の実施の形態に係る雑音抑圧装置20の機能構成の一例を示す機能ブロック図である。図4に示すとおり、雑音抑圧装置20は、第1の実施の形態で説明した音声処理装置10と、入力信号取得部21と、雑音推定部22と、仮雑音抑圧部23と、抑圧ゲイン算出部24と、雑音抑圧部25とを備えている。雑音抑圧装置20は、デジタル信号を入力とし、音声パワーを制御したデジタル信号を出力とする。
図4は、本発明の第2の実施の形態に係る雑音抑圧装置20の機能構成の一例を示す機能ブロック図である。図4に示すとおり、雑音抑圧装置20は、第1の実施の形態で説明した音声処理装置10と、入力信号取得部21と、雑音推定部22と、仮雑音抑圧部23と、抑圧ゲイン算出部24と、雑音抑圧部25とを備えている。雑音抑圧装置20は、デジタル信号を入力とし、音声パワーを制御したデジタル信号を出力とする。
(入力信号取得部21)
入力信号取得部21は、雑音抑圧装置20に入力されたデジタル信号を取得(受信)する。なお、このデジタル信号を入力信号とも呼ぶ。入力信号取得部21は、取得したデジタル信号を、単位時間毎にフレーム単位に切り出し、スペクトルに変換する。
入力信号取得部21は、雑音抑圧装置20に入力されたデジタル信号を取得(受信)する。なお、このデジタル信号を入力信号とも呼ぶ。入力信号取得部21は、取得したデジタル信号を、単位時間毎にフレーム単位に切り出し、スペクトルに変換する。
具体的には、入力信号取得部21は、デジタル信号のうち、t番目(tは自然数。以下、tをフレーム時間と記す)に切り出されたフレームx(t)(∈RT,Tはフレームに含まれるサンプル数)を、スペクトルX(t,k)(k=0,...,K−1)に変換する。以下、この変換したスペクトルX(t,k)を入力信号スペクトルと呼ぶ。
そして、入力信号取得部21は、変換した入力信号スペクトルX(t,k)を、雑音推定部22、仮雑音抑圧部23および雑音抑圧部25にそれぞれ供給する。
ここで、フレームに含まれるサンプル数Tについて説明する。例えば、デジタル信号がリニアPCM(Pulse Code Modulation)で変換されたサンプリング周波数8000Hzの16ビットである場合、当該デジタル信号は1秒当り8000点分の値を含む。このとき、1フレームの長さを25ミリ秒とすると、1フレームは200点分の値を含む。したがって、T=200となる。
なお、入力信号取得部21が取得するデジタル信号は、例えば、(1)マイクロフォン等からA/D変換機を通して供給されるデジタル信号、(2)ハードディスクより読み出されるデジタル信号、(3)通信パケットから得られるデジタル信号、などが挙げられる。しかし、上記デジタル信号は、本実施の形態ではこれらに限定されるものではない。また、このデジタル信号は、雑音環境下で収録された音声信号だけでなく、雑音抑圧処理が施された音声信号であってもよい。
(雑音推定部22)
雑音推定部22は、入力信号スペクトルから推定雑音を推定する手段である。雑音推定部22は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。そして、雑音推定部22は、受信した入力信号スペクトルX(t,k)に含まれる雑音成分のスペクトルN^(t,k)(但し、k=0,...,K−1)を推定(算出)する。この推定した雑音成分(推定雑音)のスペクトルN^(t,k)を、以下、推定雑音スペクトルと記す。そして、雑音推定部22は、推定した推定雑音スペクトルN^(t,k)を、仮雑音抑圧部23および抑圧ゲイン算出部24に夫々供給する。
雑音推定部22は、入力信号スペクトルから推定雑音を推定する手段である。雑音推定部22は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。そして、雑音推定部22は、受信した入力信号スペクトルX(t,k)に含まれる雑音成分のスペクトルN^(t,k)(但し、k=0,...,K−1)を推定(算出)する。この推定した雑音成分(推定雑音)のスペクトルN^(t,k)を、以下、推定雑音スペクトルと記す。そして、雑音推定部22は、推定した推定雑音スペクトルN^(t,k)を、仮雑音抑圧部23および抑圧ゲイン算出部24に夫々供給する。
なお、本実施の形態において、雑音推定部22は、推定雑音を公知技術の重み付き雑音推定法(Weighted Noise Estimation; WiNE)等を用いて算出するとするが、雑音推定部22における推定雑音の算出についてはこれに限定されるものではない。雑音推定部22は、所望の方法で推定雑音を算出してもよい。
これにより、雑音推定部22は、入力信号に含まれる雑音を推定することができる。本実施の形態では、この推定された雑音を仮の雑音とも呼ぶ。
(仮雑音抑圧部23)
仮雑音抑圧部23は、入力信号スペクトルと推定雑音スペクトルとを用いて、前記入力信号から仮の雑音を抑圧した雑音抑圧信号を生成する手段である。具体的には、仮雑音抑圧部23は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、仮雑音抑圧部23は、雑音推定部22から推定雑音スペクトルN^(t,k)を受信する。そして、仮雑音抑圧部23は、入力信号スペクトルX(t,k)から、推定雑音スペクトルN^(t,k)を除去し、仮雑音抑圧スペクトルS^(t,k)(但し、k=0,...,K−1)を算出する。この仮雑音抑圧スペクトルS^(t,k)を含む信号を、雑音抑圧信号と呼ぶ。この雑音抑圧信号は、仮の雑音を抑圧した信号であるため、仮推定音声とも呼ぶ。
仮雑音抑圧部23は、入力信号スペクトルと推定雑音スペクトルとを用いて、前記入力信号から仮の雑音を抑圧した雑音抑圧信号を生成する手段である。具体的には、仮雑音抑圧部23は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、仮雑音抑圧部23は、雑音推定部22から推定雑音スペクトルN^(t,k)を受信する。そして、仮雑音抑圧部23は、入力信号スペクトルX(t,k)から、推定雑音スペクトルN^(t,k)を除去し、仮雑音抑圧スペクトルS^(t,k)(但し、k=0,...,K−1)を算出する。この仮雑音抑圧スペクトルS^(t,k)を含む信号を、雑音抑圧信号と呼ぶ。この雑音抑圧信号は、仮の雑音を抑圧した信号であるため、仮推定音声とも呼ぶ。
そして、仮雑音抑圧部23は、算出した仮雑音抑圧スペクトルS^(t,k)を、音声処理装置10に供給する。
なお、本実施の形態において、仮雑音抑圧部23は、仮雑音抑圧スペクトルS^(t,k)を、公知技術(例えば、スペクトル減算法(Spectral Subtraction:SS)、ウィナーフィルタ法(Wiener Filter:WF)等)を用いて算出するとするが、本実施の形態はこれに限定されるものではない。仮雑音抑圧部23は、所望の方法で仮推定音声のスペクトルを算出してもよい。なお、入力信号に含まれる雑音量が少ない場合や、入力信号がすでに雑音抑圧がなされている場合、雑音抑圧装置20は、仮雑音抑圧部23の処理を省略してもよい。この場合、仮雑音抑圧スペクトルS^(t,k)は入力信号スペクトルX(t,k)となる。
このように、仮雑音抑圧部23は、音声処理装置10に仮の雑音を抑圧した仮雑音抑圧スペクトルS^(t,k)を供給することにより、音声処理装置10は、仮の雑音を抑圧した仮雑音抑圧スペクトルS^(t,k)を入力スペクトルSin(k)として用いることができる。これにより、音声処理装置10は、より精度よく音声パワーを推定することができる。
(音声処理装置10)
音声処理装置10は、仮雑音抑圧部23が供給する仮雑音抑圧スペクトルS^(t,k)から、音声パワーγ(t)を算出する。そして、音声処理装置10は、音声パワーγ(t)を抑圧ゲイン算出部24に供給する。また、音声処理装置10は、音声パワーγ(t)の算出の過程で、算出されるスペクトル期待値S^E(t,k)も、抑圧ゲイン算出部24に供給する。このスペクトル期待値S^E(t,k)は、第1の実施の形態で説明したとおり、期待値算出部12が算出するものである。
音声処理装置10は、仮雑音抑圧部23が供給する仮雑音抑圧スペクトルS^(t,k)から、音声パワーγ(t)を算出する。そして、音声処理装置10は、音声パワーγ(t)を抑圧ゲイン算出部24に供給する。また、音声処理装置10は、音声パワーγ(t)の算出の過程で、算出されるスペクトル期待値S^E(t,k)も、抑圧ゲイン算出部24に供給する。このスペクトル期待値S^E(t,k)は、第1の実施の形態で説明したとおり、期待値算出部12が算出するものである。
なお、音声処理装置10は、第1の実施の形態で説明しているため、ここでの具体的な説明は省略する。ただし、第1の実施の形態における入力スペクトルSin(k)、スペクトル期待値S^E(k)、および、音声パワーγを本実施の形態では、それぞれ、仮雑音抑圧スペクトルS^(t,k)、スペクトル期待値S^E(t,k)、および、音声パワーγ(t)に置き換えている。
(抑圧ゲイン算出部24)
抑圧ゲイン算出部24は、スペクトル期待値S^E(t,k)と、音声パワーγ(t)と、推定雑音スペクトルN^(t,k)とを用いて、抑圧ゲインを算出する手段である。
抑圧ゲイン算出部24は、スペクトル期待値S^E(t,k)と、音声パワーγ(t)と、推定雑音スペクトルN^(t,k)とを用いて、抑圧ゲインを算出する手段である。
具体的には、抑圧ゲイン算出部24は、雑音推定部22から推定雑音スペクトルN^(t,k)を受信する。また、抑圧ゲイン算出部24は、音声処理装置10から音声パワーγ(t)と、スペクトル期待値S^E(t,k)とを受信する。そして、抑圧ゲイン算出部24は、受信した、推定雑音スペクトルN^(t,k)と、音声パワーγ(t)と、スペクトル期待値S^E(t,k)とを用いて、抑圧ゲインW(t,k)(但し、k=0,...,K−1)を、以下の式(12)を用いて算出する。
式(12)に示す通り、上記式(12)の右辺の分子は、スペクトル期待値S^E(t,k)をスペクトル期待値S^E(t,k)のkにおける和で割ったスペクトル期待値と、音声パワーγ(t)と、の積である。また、式(12)の右辺の分母は、上記積と、推定雑音スペクトルN^(t,k)との和である。つまり、抑圧ゲイン算出部24は、(a)スペクトル期待値と音声パワーγ(t)との積の、(b)上記積と推定雑音スペクトルN^(t,k)との和、に対する比の値を、抑圧ゲインW(t,k)として算出する。
このように、抑圧ゲイン算出部24は、抑圧ゲインW(t,k)を算出する際に、音声処理装置10で算出したスペクトル期待値S^E(t,k)と、音声パワーγ(t)とを用いる。この音声パワーγ(t)は、音声モデルと、仮雑音抑圧スペクトルS^(t,k)から算出するスペクトル期待値S^E(t,k)を参照することにより算出される。したがって、抑圧ゲイン算出部24は、より推定精度が高い音声パワーγ(t)を用いて、抑圧ゲインW(t,k)を算出することができる。
そして、抑圧ゲイン算出部24は、算出した抑圧ゲインW(t,k)を、雑音抑圧部25に供給する。
(雑音抑圧部25)
雑音抑圧部25は、抑圧ゲインW(t,k)と入力信号スペクトルX(t,k)とを用いて入力信号の雑音を抑圧する手段である。具体的には、雑音抑圧部25は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、雑音抑圧部25は、抑圧ゲイン算出部24から抑圧ゲインW(t,k)を受信する。そして、雑音抑圧部25は、入力信号スペクトルX(t,k)と、抑圧ゲインW(t,k)とを用いて、雑音抑圧スペクトルY(t,k)(但し、k=0,...,K−1)を算出する。雑音抑圧部25は、雑音抑圧スペクトルY(t,k)を、以下の式(13)を用いて算出する。
Y(t,k)=W(t,k)X(t,k) ・・・(13)
この雑音抑圧スペクトルY(t,k)は、入力信号スペクトルX(t,k)から、該入力信号スペクトルX(t,k)に含まれる雑音を抑圧したものとなる。
雑音抑圧部25は、抑圧ゲインW(t,k)と入力信号スペクトルX(t,k)とを用いて入力信号の雑音を抑圧する手段である。具体的には、雑音抑圧部25は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、雑音抑圧部25は、抑圧ゲイン算出部24から抑圧ゲインW(t,k)を受信する。そして、雑音抑圧部25は、入力信号スペクトルX(t,k)と、抑圧ゲインW(t,k)とを用いて、雑音抑圧スペクトルY(t,k)(但し、k=0,...,K−1)を算出する。雑音抑圧部25は、雑音抑圧スペクトルY(t,k)を、以下の式(13)を用いて算出する。
Y(t,k)=W(t,k)X(t,k) ・・・(13)
この雑音抑圧スペクトルY(t,k)は、入力信号スペクトルX(t,k)から、該入力信号スペクトルX(t,k)に含まれる雑音を抑圧したものとなる。
なお、雑音抑圧部25は、算出した雑音抑圧スペクトルY(t,k)を特徴量ベクトルに変換したものを、推定音声の特徴量ベクトルとして音声認識装置に出力する。また、雑音抑圧部25は、スピーカ等の音声再生装置に出力する場合は、変換した特徴量ベクトルから得られる当該推定音声のスペクトルを逆フーリエ変換し、時間領域の信号に変換して、当該信号(デジタル信号)を出力する。以降、雑音抑圧部25が出力する特徴量ベクトルまたはデジタル信号を出力信号と呼ぶ。
なお、本実施の形態に係る雑音抑圧装置20のハードウェア構成は、図2に示す第1の実施の形態における音声処理装置10のハードウェア構成と同様であるため、ここでは説明を省略する。
(雑音抑圧装置20の処理)
次に、図5を参照して雑音抑圧装置20の処理の流れについて説明する。図5は、本実施の形態に係る雑音抑圧装置20の雑音抑圧スペクトルY(t,k)導出の流れ(雑音抑圧処理)の一例を示すフローチャートである。
次に、図5を参照して雑音抑圧装置20の処理の流れについて説明する。図5は、本実施の形態に係る雑音抑圧装置20の雑音抑圧スペクトルY(t,k)導出の流れ(雑音抑圧処理)の一例を示すフローチャートである。
図5に示すとおり、まず、雑音抑圧装置20の入力信号取得部21が、入力信号スペクトルX(t,k)を算出する(ステップS51)。
次に、雑音推定部22が入力信号に含まれる雑音を推定する。つまり、雑音推定部22は、入力信号スペクトルX(t,k)から推定雑音スペクトルN^(t,k)を推定する(ステップS52)。
そして、仮雑音抑圧部23が入力信号スペクトルX(t,k)の仮の雑音を抑圧する。つまり、仮雑音抑圧部23は、入力信号スペクトルX(t,k)から推定雑音スペクトルN^(t,k)を除去し、仮雑音抑圧スペクトルS^(t,k)を算出する(ステップS53)。なお、上述したとおり、本ステップは省略してもよい。この場合、仮雑音抑圧スペクトルS^(t,k)を入力信号スペクトルX(t,k)とする。
次に、音声処理装置10が仮雑音抑圧スペクトルS^(t,k)を入力として、スペクトル期待値S^E(t,k)を算出する(ステップS54)。そして、音声処理装置10が、音声パワーγ(t)を算出する(ステップS55)。なお、このステップS54およびステップS55は、夫々、第1の実施の形態において説明したステップS31およびステップS32と同様の処理である。
次に、抑圧ゲイン算出部24が推定雑音スペクトルN^(t,k)、スペクトル期待値S^E(t,k)、および、音声パワーγ(t)から、抑圧ゲインW(t,k)を算出する(ステップS56)。
そして、雑音抑圧部25が入力信号の雑音を抑圧する。つまり、雑音抑圧部25は、入力信号スペクトルX(t,k)に抑圧ゲインW(t,k)を乗じることにより雑音抑圧スペクトルY(t,k)を算出する(ステップS57)。
最後に、雑音抑圧装置20の入力信号取得部21は、処理すべきデジタル信号が残っているか否かを確認する(ステップS58)。そして、処理すべきデジタル信号が残っている場合(ステップS58にてYES)、処理をステップS51に戻し、そうでない場合(ステップS58にてNO)は、処理を終了する。
(効果)
本実施の形態に係る雑音抑圧装置20の音声処理装置10は、上述した第1の実施の形態に係る音声処理装置10と同様に、より高い精度で、入力信号が含む音声パワーを推定することができる。
本実施の形態に係る雑音抑圧装置20の音声処理装置10は、上述した第1の実施の形態に係る音声処理装置10と同様に、より高い精度で、入力信号が含む音声パワーを推定することができる。
また、本実施の形態に係る雑音抑圧装置20は、このような精度が高い音声パワーを用いて、入力信号に含まれる雑音を抑圧するため、より高い精度で雑音の抑圧を行うことができる。
<第3の実施の形態>
次に、本発明の第3の実施の形態について説明する。本実施の形態では、本発明の課題を解決する最小の構成について説明を行う。
次に、本発明の第3の実施の形態について説明する。本実施の形態では、本発明の課題を解決する最小の構成について説明を行う。
前述した第1および第2の実施の形態では、音声処理装置10が記憶部11を内蔵する構成について説明したが、記憶部11は、音声処理装置10とは別個の装置で実現されるものであってもよい。その構成について、図6を参照して説明する。なお、説明の便宜上、前述した各実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
また、本実施の形態に係る音声処理装置30のハードウェア構成は、図2に示す第1の実施の形態における音声処理装置10のハードウェア構成と同様であるため、ここでは説明を省略する。
図6は、本実施の形態に係る音声処理装置30の機能構成の一例を示す機能ブロック図である。図6に示す通り、音声処理装置30は、期待値算出部12と、音声パワー推定部13とを備えている。
期待値算出部12は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する。この音声モデルは、第1および第2の実施の形態において説明した記憶部11に格納されている。
期待値算出部12は、算出したスペクトル期待値を音声パワー推定部13に供給する。
音声パワー推定部13は、入力信号スペクトルおよび期待値算出部12から供給されたスペクトル期待値に基づいて、入力信号スペクトルの音声成分の音声パワーを推定する。
このように、本実施の形態に係る音声処理装置30によれば、音声パワー推定部13は、入力信号の音声成分の音声パワーを、入力信号スペクトルと音声モデルとを用いて算出したスペクトル期待値を用いて推定する。
したがって、本実施の形態に係る音声処理装置30は、入力信号に含まれる音声パワーを、より精度よく推定することができる。
なお、上述した各実施の形態は、本発明の好適な実施の形態であり、上記各実施の形態にのみ本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
例えば、上述した実施の形態における各動作は、ハードウェアまたはソフトウェア、あるいはその両方の複合構成によって実行することも可能である。
なお、ソフトウェアによる処理を実行する場合には、例えば、上記各処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。また、上記プログラムは、例えば、ハードディスクなどの記録媒体に記録しておくことが可能である。
上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。
(付記2)前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする付記1に記載の音声処理装置。
(付記3)前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記1または2に記載の音声処理装置。
(付記4)前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記3に記載の音声処理装置。
(付記5)前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記4に記載の音声処理装置。
(付記6)前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記4または5に記載の音声処理装置。
(付記7)前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記1から6の何れか1つに記載の音声処理装置。
(付記8)入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。
(付記9)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値と前記入力信号のスペクトルとの誤差が最小になるように制御した前記音声成分のスペクトルの期待値のパワーを、前記音声パワーとする、ことを特徴とする付記8に記載の雑音抑圧装置。
(付記10)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記8または9に記載の雑音抑圧装置。
(付記11)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値、と比較する前記所定の値を、前記入力信号のスペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記10に記載の雑音抑圧装置。
(付記12)前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記11に記載の雑音抑圧装置。
(付記13)前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記11または12に記載の雑音抑圧装置。
(付記14)前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記8から13の何れか1つに記載の音声処理装置。
(付記15)入力信号から推定雑音を算出する雑音推定手段と、付記1から7の何れか1つに記載の音声処理装置と、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値と、前記音声成分の音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備えることを特徴とする雑音抑圧装置。
(付記16)前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする付記8から15の何れか1つに記載の雑音抑圧装置。
(付記17)
前記抑圧ゲイン算出手段は、前記音声成分のスペクトルの期待値と前記音声パワーとの積の、前記積と前記推定雑音との和、に対する比を、前記抑圧ゲインとして算出する、ことを特徴とする、付記8から16の何れか1つに記載の雑音抑圧装置。
前記抑圧ゲイン算出手段は、前記音声成分のスペクトルの期待値と前記音声パワーとの積の、前記積と前記推定雑音との和、に対する比を、前記抑圧ゲインとして算出する、ことを特徴とする、付記8から16の何れか1つに記載の雑音抑圧装置。
(付記18)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。
(付記19)入力信号から推定雑音を算出し、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出し、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定し、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出し、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する、ことを特徴とする雑音抑圧方法。
(付記20)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記21)入力信号から推定雑音を算出する処理と、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出する処理と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定する処理と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する処理と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記22)付記20または21に記載のプログラムを記憶する、ことを特徴とするコンピュータ読み取り可能な記録媒体。
この出願は、2014年12月10日に出願された日本出願特願2014−249982を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 音声処理装置
11 記憶部
12 期待値算出部
13 音声パワー推定部
20 雑音抑圧装置
21 入力信号取得部
22 雑音推定部
23 仮雑音抑圧部
24 抑圧ゲイン算出部
25 雑音抑圧部
30 音声処理装置
1 CPU
2 通信I/F
3 メモリ
4 記憶装置
5 入力装置
6 出力装置
9 システムバス
11 記憶部
12 期待値算出部
13 音声パワー推定部
20 雑音抑圧装置
21 入力信号取得部
22 雑音推定部
23 仮雑音抑圧部
24 抑圧ゲイン算出部
25 雑音抑圧部
30 音声処理装置
1 CPU
2 通信I/F
3 メモリ
4 記憶装置
5 入力装置
6 出力装置
9 システムバス
Claims (10)
- 入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。 - 前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする請求項1に記載の音声処理装置。
- 前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする請求項1または2に記載の音声処理装置。
- 前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする請求項3に記載の音声処理装置。
- 前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする請求項4に記載の音声処理装置。
- 前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする請求項4または5に記載の音声処理装置。
- 入力信号から推定雑音を算出する雑音推定手段と、
前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、
前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、
前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、
前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、
前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。 - 前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、
前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする請求項7に記載の雑音抑圧装置。 - 入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。 - 入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラムを記憶する記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014249982 | 2014-12-10 | ||
JP2014249982 | 2014-12-10 | ||
PCT/JP2015/006120 WO2016092837A1 (ja) | 2014-12-10 | 2015-12-08 | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2016092837A1 true JPWO2016092837A1 (ja) | 2017-09-28 |
Family
ID=56107049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016563514A Pending JPWO2016092837A1 (ja) | 2014-12-10 | 2015-12-08 | 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10347273B2 (ja) |
JP (1) | JPWO2016092837A1 (ja) |
WO (1) | WO2016092837A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002241476A1 (en) * | 2000-11-22 | 2002-07-24 | Defense Group Inc. | Noise filtering utilizing non-gaussian signal statistics |
AU2211102A (en) * | 2000-11-30 | 2002-06-11 | Scient Generics Ltd | Acoustic communication system |
US20050175129A1 (en) * | 2002-07-16 | 2005-08-11 | Koninklijke Philips Electronics N.V. | Echo canceller with model mismatch compensation |
JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
JP2008216721A (ja) | 2007-03-06 | 2008-09-18 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
JP2009063928A (ja) * | 2007-09-07 | 2009-03-26 | Fujitsu Ltd | 補間方法、情報処理装置 |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
CN102804260B (zh) * | 2009-06-19 | 2014-10-08 | 富士通株式会社 | 声音信号处理装置以及声音信号处理方法 |
KR20110036175A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 멀티밴드를 이용한 잡음 제거 장치 및 방법 |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
WO2011080855A1 (ja) * | 2009-12-28 | 2011-07-07 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
US8798992B2 (en) * | 2010-05-19 | 2014-08-05 | Disney Enterprises, Inc. | Audio noise modification for event broadcasting |
WO2012070670A1 (ja) * | 2010-11-25 | 2012-05-31 | 日本電気株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
CN103229236B (zh) * | 2010-11-25 | 2016-05-18 | 日本电气株式会社 | 信号处理装置、信号处理方法 |
JP5732976B2 (ja) * | 2011-03-31 | 2015-06-10 | 沖電気工業株式会社 | 音声区間判定装置、音声区間判定方法、及びプログラム |
DE102011106033A1 (de) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels |
US8903722B2 (en) * | 2011-08-29 | 2014-12-02 | Intel Mobile Communications GmbH | Noise reduction for dual-microphone communication devices |
JP5875609B2 (ja) | 2012-02-10 | 2016-03-02 | 三菱電機株式会社 | 雑音抑圧装置 |
JP5881454B2 (ja) | 2012-02-14 | 2016-03-09 | 日本電信電話株式会社 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
US20150287406A1 (en) * | 2012-03-23 | 2015-10-08 | Google Inc. | Estimating Speech in the Presence of Noise |
US20150058002A1 (en) * | 2012-05-03 | 2015-02-26 | Telefonaktiebolaget L M Ericsson (Publ) | Detecting Wind Noise In An Audio Signal |
US9966067B2 (en) * | 2012-06-08 | 2018-05-08 | Apple Inc. | Audio noise estimation and audio noise reduction using multiple microphones |
JP5840087B2 (ja) | 2012-07-19 | 2016-01-06 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
EP2747081A1 (en) * | 2012-12-18 | 2014-06-25 | Oticon A/s | An audio processing device comprising artifact reduction |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
TWI601032B (zh) * | 2013-08-02 | 2017-10-01 | 晨星半導體股份有限公司 | 應用於聲控裝置的控制器與相關方法 |
US9767826B2 (en) * | 2013-09-27 | 2017-09-19 | Nuance Communications, Inc. | Methods and apparatus for robust speaker activity detection |
CN103632677B (zh) * | 2013-11-27 | 2016-09-28 | 腾讯科技(成都)有限公司 | 带噪语音信号处理方法、装置及服务器 |
US20150348530A1 (en) * | 2014-06-02 | 2015-12-03 | Plantronics, Inc. | Noise Masking in Headsets |
-
2015
- 2015-12-08 WO PCT/JP2015/006120 patent/WO2016092837A1/ja active Application Filing
- 2015-12-08 JP JP2016563514A patent/JPWO2016092837A1/ja active Pending
- 2015-12-08 US US15/528,848 patent/US10347273B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2016092837A1 (ja) | 2016-06-16 |
US10347273B2 (en) | 2019-07-09 |
US20170337935A1 (en) | 2017-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP4316583B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
GB2546981B (en) | Noise compensation in speaker-adaptive systems | |
JP2014219605A (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
JP5262713B2 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
WO2020045313A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6420198B2 (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
WO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、記録媒体 | |
JP2014029407A (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP2006053431A (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP2015040931A (ja) | 信号処理装置、音声処理装置、信号処理方法および音声処理方法 | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2018036406A (ja) | 信号解析装置、方法、及びプログラム | |
JP6521886B2 (ja) | 信号解析装置、方法、及びプログラム | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
JP5683446B2 (ja) | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170523 |