JPWO2013132926A1 - 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 - Google Patents

雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 Download PDF

Info

Publication number
JPWO2013132926A1
JPWO2013132926A1 JP2014503716A JP2014503716A JPWO2013132926A1 JP WO2013132926 A1 JPWO2013132926 A1 JP WO2013132926A1 JP 2014503716 A JP2014503716 A JP 2014503716A JP 2014503716 A JP2014503716 A JP 2014503716A JP WO2013132926 A1 JPWO2013132926 A1 JP WO2013132926A1
Authority
JP
Japan
Prior art keywords
speech
signal
variance
noise
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014503716A
Other languages
English (en)
Other versions
JP5842056B2 (ja
Inventor
メレツ ソウデン
メレツ ソウデン
慶介 木下
慶介 木下
中谷 智広
智広 中谷
マーク デルクロア
マーク デルクロア
拓也 吉岡
拓也 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014503716A priority Critical patent/JP5842056B2/ja
Publication of JPWO2013132926A1 publication Critical patent/JPWO2013132926A1/ja
Application granted granted Critical
Publication of JP5842056B2 publication Critical patent/JP5842056B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

時々刻々と変化する雑音成分を尤度最大化基準で推定する雑音推定装置を提供する。雑音推定装置は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。

Description

本発明は、雑音を伴って観測された音響信号(以下「観測音響信号」ともいう)に含まれる雑音成分を、その観測音響信号に含まれる情報のみを用いて推定する技術に関する。
以下の説明において、テキスト中で使用する記号「~」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。雑音のある環境で音響信号を収音すると、本来、収音しようとする音(以下「所望音」ともいう)に雑音が重畳された信号として観測される。その所望音が音声の場合、重畳した雑音の影響により、観測音響信号に含まれる音声の明瞭性は大きく低下してしまう。それにより、本来の所望音の性質を抽出することが困難となり、自動音声認識(以下、単に「音声認識」ともいう)システムの認識率も著しく低下する。これに対し、雑音推定技術を用いて雑音を推定し、推定後に雑音を何かしらの方法で除去することで、音声の明瞭性や音声認識率を改善することができる。雑音推定技術の従来技術として、非特許文献1記載のimproved minima-controlled recursive averaging(以下「IMCRA」という)が知られている。
IMCRAの説明をする前に、雑音推定技術において用いられる観測音響信号のモデルについて説明する。一般的な音声強調の問題では、時間nで観測される観測音響信号(以下、単に「観測信号」という)yは、所望音成分と雑音成分とからなる。所望音成分及び雑音成分に対応する信号をそれぞれ所望信号及び雑音信号といい、x及びvで表す。音声強調処理の目的は、観測信号yを基に所望信号xを回復することである。y、x、vの短時間フーリエ変換後の信号をそれぞれYk,t、Xk,t、Vk,tとし、kは1,2,…,Kの値をとる周波数インデックス(Kは、周波数バンドの総数)とすると、現在のフレームtでの観測信号は、以下のように表される。
Figure 2013132926
以降では、周波数帯毎での処理を仮定するため、周波数インデックスkは簡単のため省略する。また、所望信号は平均0及び分散σ 、雑音信号は平均0及び分散σ の複素ガウス分布に従うものと仮定する。
また、観測信号には、所望音が存在している区間(以下、「音声存在区間」という)と存在していない区間(以下、「音声不在区間」という)があり、それぞれの区間は、HもしくはHの2値を取る潜在変数Hを用いて、以下のようにあらわすことができる。
Figure 2013132926
以降では、上記の変数表記を用いて、従来方法を解説する。
図1を参照してIMCRAを説明する。従来技術の雑音推定装置90では、はじめに最小値追従型雑音推定部91において、観測信号のパワースペクトルのある時間区間での最小値を求めることにより、雑音信号の特性(パワースペクトル)を推定する(非特許文献2参照)。
その後、音声不在事前確率推定部92において、推定した雑音信号のパワースペクトルと観測信号のパワースペクトルとの比を求め、その比がある閾値よりも小さければ音声不在区間とする動作原理で、音声不在事前確率を求める。
次に、音声不在事後確率推定部93において、短時間フーリエ変換後の観測信号及び雑音信号の複素スペクトルは、ガウス分布に従うという仮定を用いて、音声不在事後確率p(H|Y;θ IMCRA)(1か0)を求める。さらに、音声不在事後確率推定部93において、求めた音声不在事後確率p(H|Y;θ IMCRA)と、適当に事前設定した重み係数αを用いて、修正された音声不在事後確率β0,i IMCRAを求める。
Figure 2013132926
最後に、雑音推定部94において、求めた音声不在事後確率β0,i IMCRAと、現在のフレームの観測信号のパワースペクトル|Y、現在のフレームiの直前のフレーム(i−1)の雑音信号の分散値の推定値σv,i−1 を用いて、現在のフレームiの雑音信号の分散値σv,i を推定する。
Figure 2013132926
このように雑音信号の分散値の推定値σv,i を逐次的に更新することで、時々刻々と変化する雑音の特徴変化を追従しながら推定することができる。
I. Cohen, "Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging", IEEE Trans. Speech, Audio Process., Sep. 2003, vol. 11, pp.466-475 R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics", IEEE Trans. Speech Audio Process., Jul. 2001, vol. 9, pp. 504-512,.
しかし、従来技術では、算出される音声不在事前確率、音声不在事後確率及び雑音信号の分散値の推定値は、一般的に用いられる最適化基準である尤度最大化基準などを基に算出されたものではなく、経験則に基づき調整されたパラメータの組合せで決定されている。そのため、最終的に得られる雑音信号の分散値の推定値は、常に最適なものではなく、経験則に基づく準最適なものであるという問題があった。逐次推定される雑音信号の分散値の推定値が準最適な場合、時々刻々と変化する雑音の特徴変化をうまく追従しながら推定することができない。その結果、最終的に高い雑音除去性能を得ることは困難であった。
本発明は、時々刻々と変化する雑音成分を尤度最大化基準で推定する雑音推定装置、雑音推定方法及び雑音推定プログラムを提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、雑音推定装置は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。
上記の課題を解決するために、本発明の第二の態様によれば、雑音推定方法は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。
本発明によれば、時々刻々と変化する雑音成分を尤度最大化基準で推定できる。
従来技術の雑音推定装置の機能ブロック図。 第一実施形態に係る雑音推定装置の機能ブロック図。 第一実施形態に係る雑音推定装置の処理フローを示す図。 第一実施形態に係る尤度最大化部の機能ブロック図。 第一実施形態に係る尤度最大化部の処理フローを示す図。 第一実施形態及び従来技術に係る雑音推定装置による雑音逐次推定性能を示す図。 第一実施形態及び従来技術に係る雑音推定装置により雑音推定処理を行い、推定された雑音信号の分散値を用いて、雑音除去を行った際の音声波形を示す図。 変調白色雑音環境下で、第一実施形態及び従来技術に係る雑音推定装置を比較した場合の評価結果を示す図。 バブルノイズ環境下で、第一実施形態及び従来技術に係る雑音推定装置を比較した場合の評価結果を示す図。 第一実施形態の変形例に係る雑音推定装置の機能ブロック図。 第一実施形態の変形例に係る雑音推定装置の処理フローを示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態に係る雑音推定装置10>
図2は雑音推定装置10の機能ブロック図を、図3はその処理フローを示す。雑音推定装置10は尤度最大化部110と記憶部120とを含む。
尤度最大化部110は、最初のフレームの観測信号の複素スペクトルYの受信を開始すると(s1)、各パラメータを以下のように初期化する(s2)。
Figure 2013132926
なお、λ及びκは、それぞれ0〜1の間の任意の値であり、事前に設定される。他のパラメータの詳細については後述する。
尤度最大化部110は、現在のフレームiでの観測信号の複素スペクトルYを受け取ると、現在のフレームiでの雑音信号の分散値σv,i を逐次推定するために、現在のフレームiの直前のフレーム(i−1)で推定された音声不在事後確率η0,i−1、音声存在事後確率η1,i−1、音声不在事前確率α0,i−1、音声存在事前確率α1,i−1、観測信号の分散値σy,i−1 及び雑音信号の分散値σv,i−1 を記憶部120から取り出し(s3)、これらの値から(ただし、最初のフレームの観測信号の複素スペクトルYを受け取った場合は、記憶部120からは取り出さず、上述(A)の初期値から)、現在のフレームiまでの観測信号の複素スペクトルY,Y,…,Yを用いて、各フレームt(t=0,1,…,i)のガウス分布で表される音声存在区間の観測信号のモデルの対数尤度log[αp(Y|H;θ)]と音声存在事後確率η1,t(α’,θ’)との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度log[αp(Y|H;θ)]と音声不在事後確率η0,t(α’,θ’)との乗算値との和を重み付け加算した値、つまり、
Figure 2013132926
が最大化されるように、現在のフレームiでの音声存在事前確率α1,i、音声不在事前確率α0,i、音声不在事後確率η0,i、音声存在事後確率η1,i、雑音信号の分散値σv,i 及び所望信号の分散値σx,i の分散値を求め(s4)、記憶部120に格納する(s5)。雑音推定装置10は、雑音信号の分散値σv,i を出力する。ただし、λは忘却係数であり、0<λ<1の範囲で事前に設定されるパラメータである。よって、重み係数λi-tは現在のフレームiと過去のフレームtとの差が大きいほど値が小さくなる。言い換えれば、現在のフレームに近いフレームほど大きな重みをもつように重み付け加算することを意味する。最後のフレームの観測信号までs3〜s5の処理を繰り返す(s6、s7)。以下、尤度最大化部110の詳細について詳述する。
<尤度最大化基準におけるパラメータ推定方法>
尤度最大化基準で前述のパラメータを推定するためのアルゴリズムの導出を行う。はじめに、音声存在事前確率と音声不在事前確率をそれぞれα=P(H)、α=P(H)=1−α、パラメータベクトルをθ=[σ ,σ と定義する。なお、σ ,σ 及びσ は、それぞれ観測信号、所望信号及び雑音信号の分散値を表すとともにパワースペクトルをも表している。
また、以下のように、観測信号の複素スペクトルYは、音声存在区間と音声不在区間のいずれにおいてもガウス分布に従うものと仮定する。
Figure 2013132926
上記モデルと、音声不在事前確率α及び音声存在事前確率αを用いると、時間フレームtの観測信号の尤度は以下の式で表される。
Figure 2013132926
次に、ベイズ則に従えば、音声存在事後確率η1,t(α,θ)=p(H|Y;α,θ)及び音声不在事後確率η0,t(α,θ)=p(H|Y;α,θ)は、以下のように定義することができる。
Figure 2013132926
ただし、sは、0か1の値を取る変数である。これらのモデルを用いれば、補助関数を繰り返し最大化することで、式(6)で定義される尤度を最大化するパラメータα及びθを推定することができる。つまり、補助関数Q(α,θ)=E{log[p(Y,H;α,θ)]|Y;α’,θ’}を最大化する未知のパラメータ最適値に関する推定値α’,θ’を繰り返し推定することで、パラメータの(局所)最適値(最尤推定値)を得ることができる。ここでE{・}は期待値計算関数とする。本実施形態では、時々刻々と変化する雑音信号の分散値を推定する問題を扱うため、推定したいパラメータα及びθ(期待値最大化アルゴリズムの潜在変数)は時変であることが想定される。そのために、通常の期待値最大化(EM)アルゴリズムではなく、再帰EMアルゴリズム(参考文献1参照)を用いる。
(参考文献1)L. Deng, J. Droppo, and A. Acero, “Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition”, IEEE Trans. Speech, Audio Process., Nov. 2003, vol. 11, pp. 568-580
再帰EMアルゴリズムのために、上記補助関数を変形した以下の補助関数Q(α,θ)を導入する。
Figure 2013132926
補助関数Q(α,θ)の最大化を行うことで、時間フレームiでのパラメータ最適値α0,i、α1,i、θ={σv,i ,σx,i }を求めることができる。直前のフレーム(i−1)での最適推定値が常に求まっていることを仮定すれば(つまり、α’=αs,i−1、θ’=θi−1と仮定)、関数L(α,θ)=Q(α,θ)+μ(α+α−1)をαとαに関して偏微分し、結果をゼロとすることで、パラメータ最適値α0,iを求めることができる。ここで、μはラグランジュの未定乗数を表す(拘束条件α+α=1のもとで最適化を行うために導入する)。
上記の操作を行うことで最終的に、以下の更新式を得ることができる。
Figure 2013132926
上式の各変数は以下のように定義される。
Figure 2013132926
また、式(10)は、以下のように展開することができる。
Figure 2013132926
次に、補助関数Q(α,θ)をσ とσ に関して偏微分し、結果をゼロとすることで、s=1の場合について、以下の式を得ることができる。
Figure 2013132926
である。また、同様にs=0の場合については、以下の式を得ることができる。
Figure 2013132926
式(14)の、左辺第一項に式(10)を挿入し、右辺を展開すると以下の式を得ることができる。
Figure 2013132926
式(12)と(15)を用いれば、以下のように雑音信号の分散値σv,i の逐次推定式を導出することができる。
Figure 2013132926
ここで、β0,iは、事変の忘却係数として以下のように定義される。
Figure 2013132926
最後に、式(12)と(13)を用いれば、観測信号の分散値σy,i の更新式も得ることができる。
Figure 2013132926
ここで、β1,iは事変の忘却係数として以下のように定義される。
Figure 2013132926
なお、σy,i とσv,i とが推定されれば、σx,i も必然的に推定されるため(σy,i =σv,i +σx,i )、σy,i の推定は、σx,i の推定と同義である。
<尤度最大化部110>
図4は尤度最大化部110の機能ブロック図を、図5はその処理フローを示す。尤度最大化部110は、観測信号分散推定部111、事後確率推定部113、事前確率推定部115及び雑音信号分散推定部117を含む。
(観測信号分散推定部111)
観測信号分散推定部111は、直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、現在のフレームiの直前のフレーム(i−1)において推定された観測信号の第二分散値σ y,i−1,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ y,i,1を推定する。例えば、現在のフレームiにおける観測信号の複素スペクトルYと、直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)及び観測信号の第二分散値σ y,i−1,2とを受け取り、これらの値を用いて、現在のフレームiにおける観測信号の第一分散値σ y,i,1
Figure 2013132926
として推定し(s41)(式(18)、式(19)、式(12)参照)、事後確率推定部113に出力する。ただし、最初のフレームの観測信号の複素スペクトルYを受け取った場合は、η1,i−1(α0,i−2,θi−2)及びσ y,i−1,2とを用いずに、上述(A)の初期値β1,i−1=1−λ及びσy,i−1 =|Yから第一分散値σ y,i,1を求める。
さらに、観測信号分散推定部111は、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、現在のフレームiの直前のフレーム(i−1)において推定された観測信号の第二分散値σ y,i−1,2とを重み付け加算して、現在のフレームiにおける観測信号の第二分散値σ y,i,2を推定する。例えば、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)を受け取り、現在のフレームiにおける観測信号の第二分散値σ y,i,2
Figure 2013132926
として推定し(s45)(式(18)、式(19)、式(12)参照)、第二分散値σ y,i,2を現在のフレームiにおける観測信号の分散値σ y,iとして記憶部120に格納する。ただし、最初のフレームの場合は、上述(A)の初期値c1,i−1=α0,i−1=κを用いて、c1,iを求める。
つまり、観測信号分散推定部111は、直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)を用いて第一分散値σ y,i,1を推定し、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)を用いて第二分散値σ y,i,2を推定する。
観測信号分散推定部111は、第二分散値σ y,i,2を現在のフレームiにおける分散値σ y,iとして記憶部120に記憶する。
(事後確率推定部113)
観測信号の音声不在区間の複素スペクトルYは雑音信号の分散値σ v,i−1により定まるガウス分布に従うものと仮定し(式(5)参照)、観測信号の音声存在区間の複素スペクトルYは雑音信号の分散値σ v,i−1と観測信号の第一分散値σ y,i,1とにより定まるガウス分布に従うものと仮定する(式(5)参照、なお、σ y,i,1=σ v,i−1+σ x,i−1)。事後確率推定部113は、現在のフレームiにおける観測信号の複素スペクトルY及び観測信号の第一分散値σ y,i,1と、直前のフレーム(i−1)において推定された音声存在事前確率α1,i−1及び音声不在事前確率α0,i−1とを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を推定する。例えば、現在のフレームiにおける観測信号の複素スペクトルY及び観測信号の第一分散値σ y,i,1と、直前のフレーム(i−1)において推定された音声存在事前確率α1,i−1、音声不在事前確率α0,i−1及び雑音信号の分散値σ v,i−1とを受け取り、これらの値を用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を
Figure 2013132926
として推定し(s42)(式(7)、式(5)参照)、音声存在事後確率η1,i(α0,i−1,θi−1)を観測信号分散推定部111に、音声不在事後確率η0,i(α0,i−1,θi−1)を雑音信号分散推定部117に、音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を事前確率推定部115に出力する。また、音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を記憶部120に格納する。ただし、最初のフレームiにおける観測信号の複素スペクトルYを受け取った場合は、上述(A)の初期値σv、i−1 =|Yを用いて、σx、i−1 を求め、初期値α0,i−1=κ及びα1,i−1=1−α0,i−1=1−κを用いて、η1,i(α0,i−1,θi−1)及びη0,i(α0,i−1,θi−1)を求める。
(事前確率推定部115)
事前確率推定部115は、現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を(式(10)参照)、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する。例えば、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を受け取り、これらの値を用いて、音声存在事前確率α1,i及び音声不在事前確率α0,i
Figure 2013132926
として推定し(s43)(式(9)、式(12)、式(11)参照)、記憶部120に格納する。なお、cs,i−1については、フレーム(i−1)において求めたものを記憶しておけばよい。ただし、最初のフレームiの場合は、上述(A)の初期値c0,i−1=α0,i−1=κ、c1,i−1=α1,i−1=1−α0,i−1=1−κ、を用いて、cs,iを求める。
また、式(10)により、cs,iを求めてもよいが、その場合、現在のフレームまでの全ての音声存在事後確率η1,0,η1,1,…,η1,i及び音声不在事後確率η0,0,η0,1,…,η0,iをλi−tで重み付き加算する必要があるため、計算量が大きくなる。
(雑音信号分散推定部117)
雑音信号分散推定部117は、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、現在のフレームiの直前のフレーム(i−1)において推定された雑音信号の分散値σ v,i−1とを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ v,iを推定する。例えば、観測信号の複素スペクトルYと、現在のフレームiにおいて推定された音声不在事後確率η0,i(α0,i−1,θi−1)と、直前のフレーム(i−1)において推定された雑音信号の分散値σ v,i−1とを受け取り、これらの値を用いて、現在のフレームiにおける雑音信号の分散値σ v,i
Figure 2013132926
として推定し(s44)(式(16)、式(17)参照)、記憶部120に格納する。
なお、観測信号分散推定部111では、事後確率推定部113の処理後に現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)を用いて上述のs45を行う。
<効果>
本実施形態では、時々刻々と変化する雑音成分を尤度最大化基準で逐次推定できる。その結果、時変雑音への追従性が高くなり、精度の高い雑音除去を行えることが期待される。
<シミュレーション結果>
本実施形態の効果を検証するため、雑音信号の逐次推定性能、推定した雑音成分を用いた雑音除去性能を、従来技術と比較し、評価する。
処理の初期化時に必要なパラメータλ及びκは、それぞれ0.96、0.99とした。
雑音環境の模擬のために、人工的に変調した白色雑音及びバブルノイズ(人ごみ雑音)の二種類の雑音を用意した。変調白色雑音は時間的に大きく特性の変わる時変性の高い雑音であり、バルブノイズは比較的緩やかに特性が変化する時変性の低い雑音である。これらの雑音を、クリーン音声にいくつかのSNRで混合し、雑音推定及び雑音除去の性能を試験した。なお、雑音除去方法としては、観測信号のパワースペクトルから、第一実施形態を用いて推定した雑音信号のパワースペクトルを減算し、雑音信号の除去されたパワースペクトルを得る、スペクトル減算法(参考文献2参照)を用いた。スペクトル減算法以外にも、雑音除去のために雑音信号のパワースペクトル推定値を必要とする雑音除去方法(非特許文献3等参照)と組合せが可能である。
(参考文献2) P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
(参考文献3) Y. Ephraim, D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Sig. Process., Dec.1984, vol. ASSP-32, pp. 1109-1121
図6に、第一実施形態に係る雑音推定装置10と従来技術の雑音推定装置90とによる雑音逐次推定性能を示す。この際のSNRは10dBであった。図6から、雑音推定装置10は時々刻々と変化する雑音を効果的に逐次推定できており、一方、雑音推定装置90は雑音の急速な変化に追従できずに、大きく推定を誤っていることが分かる。
図7には、雑音推定装置10と雑音推定装置90とにより雑音推定処理を行い、推定された雑音信号の分散値を用いて、雑音除去を行った際の音声波形を示した。(a)はクリーン音声の波形を、(b)は変調白色雑音の重畳した音声の波形を、(c)は雑音推定装置10により雑音推定処理を行い、雑音除去を行った際の音声の波形を、(d)は雑音推定装置90により雑音推定処理を行い、雑音除去を行った際の音声の波形を示す。(c)は、(d)と比べ残留雑音が少ないことが分かる。図8及び図9は、それぞれ変調白色雑音及びバブルノイズ環境下で、雑音推定装置10と雑音推定装置90を比較した場合の評価結果を示している。ここでは、評価尺度としてセグメンタルSNR、PESQ値(参考文献4参照)を用いた。
(参考文献4)P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
変調白色雑音環境下(図8参照)においては、雑音推定装置10は雑音推定装置90に対して大幅に優位な効果を示している。また、バブルノイズ環境下(図9参照)においても、雑音推定装置10は雑音推定装置90よりもわずかではあるが高い性能を示している。
<変形例>
本実施形態では、第一分散値σ y,i,1を求める過程(s41)において、β1,i−1を算出しているが、直前のフレーム(i−1)において第二分散値σ y,i−1,2を求める過程(s45)において算出されるβ1,i−1を記憶しておき利用してもよい。その場合には、音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を記憶部120に格納する必要はない。
本実施形態では、分散値σ v,iを求める過程(s44)において、c0,iを算出しているが、事前確率推定部115において事前確率を求める過程(s43)において算出されるc0,iを受け取り、利用してもよい。同様に、第二分散値σ y,i,2を求める過程(s45)において、c1,iを算出しているが、事前確率推定部115において事前確率を求める過程(s43)において算出されるc1,iを受け取り、利用してもよい。
本実施形態では、第一分散値σ y,i,1及び第二分散値σ y,i,2を観測信号分散推定部111において推定しているが、観測信号分散推定部111に代えて第一観測信号分散推定部と第二観測信号分散推定部とを設け、第一分散値σ y,i,1及び第二分散値σ y,i,2をそれぞれ第一観測信号分散推定部及び第二観測信号分散推定部において推定する構成としてもよい。本実施形態では、観測信号分散推定部111が、第一観測信号分散推定部及び第二観測信号分散推定部を含んでいる。
第一分散値σ y,i,1を推定(s41)しなくともよい。その場合の尤度最大化部110の機能ブロック図を図10に、その処理フローを図11に示す。その場合、現在のフレームiにおける観測信号の分散値をσ y,iと表す。事後確率推定部113では、第一分散値σ y,i,1に代えて、直前のフレーム(i−1)における分散値σ y,i−1を用いて推定する。その場合には、音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を記憶部120に格納する必要はない。ただし、βi−1を用いて第一分散値σ y,i,1を求め、βを算出した後に調整して第二分散値σ y,i,2を求めたほうが、雑音推定精度は高い。直前のフレームの分散値を用いるより、現在のフレームの観測信号の複素スペクトルYが反映された第一分散値を用いる方が、すべてのパラメータが、より現在の観測に適合した形で推定されるからである。つまり、第一分散値σ y,i,1を推定しない場合、第一実施形態の場合と比べ、計算量を減らすことができるというメリットがあるが、雑音推定精度が低いというデメリットがある。
本実施形態のs4では、現在のフレームiでの雑音信号の分散値σv,i を「逐次」推定するために(次のフレーム(i+1)でも雑音信号の分散値σv,i を推定するために)、尤度最大化部110は、現在のフレームiでの音声存在事前確率α1,i、音声不在事前確率α0,i、音声不在事後確率η0,i、音声存在事後確率η1,i及び所望信号の分散値σx,i の分散値を求めているが、現在のフレームiでの雑音信号の分散値σv,i 「のみ」を推定するのであれば、現在のフレームiでの音声存在事前確率α1,i、音声不在事前確率α0,i、音声不在事後確率η0,i、音声存在事後確率η1,i及び所望信号の分散値σx,i の分散値を求めなくともよい。
また、本実施形態のs4では、現在のフレームiの直前のフレーム(i−1)で推定された各パラメータを記憶部120から取り出しているが、必ずしも直前のフレーム(i−1)である必要はなく、過去の何れかのフレーム(i−τ)で推定された各パラメータを記憶部120から取り出して用いてもよい。ただし、τは1以上の整数とする。
また、観測信号分散推定部111では、二つ前のフレーム(i−2)において推定されたパラメータα0,i−2、θi−2を用いて直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)に基づき、現在のフレームiにおける観測信号の第一分散値σ y,i,1を推定しているが、フレーム(i−τ)よりも過去の何れかのフレーム(i−τ’)において推定されたパラメータα0,i−τ’、θi−τ’を用いてフレーム(i−τ)において推定された音声存在事後確率η1,i−τ(α0,i−τ’,θi−τ’)に基づき、現在のフレームiにおける観測信号の第一分散値σ y,i,1を推定してもよい。ただし、τ’はτより大きい整数とする。
本実施形態のs4では、現在のフレームiでの観測信号の複素スペクトルYを受け取ると、現在のフレームiまでの観測信号の複素スペクトルY,Y,…,Yを用いて、
Figure 2013132926
が最大化されるように、各パラメータを求めている。このとき、実際に、現在のフレームiまでの観測信号の複素スペクトルY,Y,…,Yの全ての値を用いてQ(α,θ)を求めてもよいし、直前のフレーム(i−1)で得たQi−1と現在のフレームiの観測信号の複素スペクトルYとを用いて(α,θ)(間接的に直前のフレーム(i−1)までの観測信号の複素スペクトルY,Y,…,Yi−1を用いて)、
Figure 2013132926
が最大化されるように、各パラメータを求めてもよい。よって、少なくとも現在のフレームの観測信号の複素スペクトルYを用いて、Q(α,θ)を求めればよい。
また、本実施形態のs4では、Q(α,θ)が最大化されるように、各パラメータを求めているが、必ずしも一度で最大化される必要はなく、更新前の対数尤度log[αp(Y|H;θ)]に基づく値Q(α,θ)よりも、更新後の対数尤度log[αp(Y|H;θ)]に基づく値Q(α,θ)が大きくなるように各パラメータを求め、これを所定回数繰り返せば、尤度最大化基準におけるパラメータ推定が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した雑音推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
本発明は、様々な音響信号処理システムの要素技術として利用することができる。本発明を用いることで、そのシステム全体の性能向上につながる技術である。発話された音声信号中に含まれる雑音成分の推定処理が要素技術として性能向上に寄与できるようなシステムには、例えば、以下のようなものを列挙できる。実環境で収録された音声には、常に雑音が含まれるが、以下に挙げるシステムは、そのような状況で用いられることを想定した例である。
1.実環境で用いられる音声認識システム。
2.人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、及び機械と人間との対話装置。
3.人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽に重畳する雑音を除去して、楽曲を検索したり、採譜したりする音楽情報処理システム。
4.マイクロホンで収音した収音音声に重畳する雑音を除去し、相手側のスピーカで再生する音声通話システム。

Claims (15)

  1. 現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
    雑音推定装置。
  2. 請求項1記載の雑音推定装置であって、
    現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
    雑音推定装置。
  3. 請求項1または2記載の雑音推定装置であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
    ことを特徴とする雑音推定装置。
  4. 請求項1乃至3の何れかに記載の雑音推定装置であって、
    τを1以上の整数とし、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された雑音信号の分散値σ v,i−τとを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ v,iを推定する雑音信号分散推定部を含む、
    雑音推定装置。
  5. 請求項4記載の雑音推定装置であって、
    過去のフレーム(i−τ)において推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ y,i,1を推定する第一観測信号分散推定部と、
    観測信号の音声不在区間の複素スペクトルYは雑音信号の分散値σ v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYは雑音信号の分散値σ v,i−τと観測信号の第一分散値σ y,i,1とにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルY及び観測信号の第一分散値σ y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定部と、
    現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定部と、
    現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第二分散値σ y,i,2を推定する第二観測信号分散推定部とを含む、
    雑音推定装置。
  6. 請求項4記載の雑音推定装置であって、
    観測信号の音声不在区間の複素スペクトルYは雑音信号の分散値σ v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYは雑音信号の分散値σ v,i−τと観測信号の分散値σ y,iとにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の分散値σ y,i−τ、音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定部と、
    現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定部と、
    現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の分散値σ y,i−τとを重み付け加算して、現在のフレームiにおける観測信号の分散値σ y,iを推定する観測信号分散推定部とを含む、
    雑音推定装置。
  7. 請求項5記載の雑音推定装置であって、
    0<λ<1とし、τ’をτより大きい整数とし、前記第一観測信号分散推定部は、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを用いて、現在のフレームiにおける観測信号の第一分散値σ y,i,1
    Figure 2013132926

    として推定し、
    s=0またはs=1とし、前記事後確率推定部は、現在のフレームiにおける観測信号の複素スペクトルY及び観測信号の第一分散値σ y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ、音声不在事前確率α0,i−τ及び雑音信号の分散値σ v,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を
    Figure 2013132926

    として推定し、
    前記事前確率推定部は、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を用いて、音声存在事前確率α1,i及び音声不在事前確率α0,i
    Figure 2013132926

    として推定し、
    前記雑音信号分散推定部は、観測信号の複素スペクトルYと、現在のフレームiにおいて推定された音声不在事後確率η0,i(α0,i−τ,θi−τ)と、過去のフレーム(i−τ)において推定された雑音信号の分散値σ v,i−τとを用いて、現在のフレームiにおける雑音信号の分散値σ v,i
    Figure 2013132926

    として推定し、
    前記第二観測信号分散推定部は、現在のフレームiにおける観測信号の複素スペクトルYと、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−τ,θi−τ)と、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを用いて、現在のフレームiにおける観測信号の第二分散値σ y,i,2
    Figure 2013132926

    として推定する、
    雑音推定装置。
  8. 現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
    雑音推定方法。
  9. 請求項8記載の雑音推定方法であって、
    現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
    雑音推定方法。
  10. 請求項8または9記載の雑音推定方法であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
    ことを特徴とする雑音推定方法。
  11. 請求項8乃至10の何れかに記載の雑音推定方法であって、
    τを1以上の整数とし、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された雑音信号の分散値σ v,i−τとを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ v,iを推定する雑音信号分散推定ステップを含む、
    雑音推定方法。
  12. 請求項11記載の雑音推定方法であって、
    過去のフレーム(i−τ)において推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ y,i,1を推定する第一観測信号分散推定ステップと、
    観測信号の音声不在区間の複素スペクトルYは雑音信号の分散値σ v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYは雑音信号の分散値σ v,i−τと観測信号の第一分散値σ y,i,1とにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルY及び観測信号の第一分散値σ y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定ステップと、
    現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定ステップと、
    現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第二分散値σ y,i,2を推定する第二観測信号分散推定ステップとを含む、
    雑音推定方法。
  13. 請求項11記載の雑音推定方法であって、
    観測信号の音声不在区間の複素スペクトルYは雑音信号の分散値σ v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYは雑音信号の分散値σ v,i−τと観測信号の分散値σ y,iとにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の分散値σ y,i−τ、音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定ステップと、
    現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定ステップと、
    現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYと、過去のフレーム(i−τ)において推定された観測信号の分散値σ y,i−τとを重み付け加算して、現在のフレームiにおける観測信号の分散値σ y,iを推定する観測信号分散推定ステップとを含む、
    雑音推定方法。
  14. 請求項1から請求項7の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラム。
  15. 請求項1から請求項7の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2014503716A 2012-03-06 2013-01-30 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 Active JP5842056B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014503716A JP5842056B2 (ja) 2012-03-06 2013-01-30 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012049478 2012-03-06
JP2012049478 2012-03-06
PCT/JP2013/051980 WO2013132926A1 (ja) 2012-03-06 2013-01-30 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP2014503716A JP5842056B2 (ja) 2012-03-06 2013-01-30 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2013132926A1 true JPWO2013132926A1 (ja) 2015-07-30
JP5842056B2 JP5842056B2 (ja) 2016-01-13

Family

ID=49116412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014503716A Active JP5842056B2 (ja) 2012-03-06 2013-01-30 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US9754608B2 (ja)
JP (1) JP5842056B2 (ja)
WO (1) WO2013132926A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
EP3152756B1 (en) * 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
CN106328151B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US9756512B2 (en) * 2015-10-22 2017-09-05 Qualcomm Incorporated Exchanging interference values
CN112017676A (zh) * 2019-05-31 2020-12-01 京东数字科技控股有限公司 音频处理方法、装置和计算机可读存储介质
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
TWI716123B (zh) * 2019-09-26 2021-01-11 仁寶電腦工業股份有限公司 除噪能力評估系統及方法
CN110600051B (zh) * 2019-11-12 2020-03-31 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN113625146B (zh) * 2021-08-16 2022-09-30 长春理工大学 一种半导体器件1/f噪声SαS模型参数估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2747870B1 (fr) * 1996-04-19 1998-11-06 Wavecom Sa Signal numerique a blocs de reference multiples pour l'estimation de canal, procedes d'estimation de canal et recepteurs correspondants
US7092436B2 (en) * 2002-01-25 2006-08-15 Mitsubishi Electric Research Laboratories, Inc. Expectation-maximization-based channel estimation and signal detection for wireless communications systems
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US8271277B2 (en) * 2006-03-03 2012-09-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
GB2471875B (en) * 2009-07-15 2011-08-10 Toshiba Res Europ Ltd A speech recognition system and method
US8700394B2 (en) * 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
US8743658B2 (en) * 2011-04-29 2014-06-03 Siemens Corporation Systems and methods for blind localization of correlated sources
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9087513B2 (en) * 2012-03-09 2015-07-21 International Business Machines Corporation Noise reduction method, program product, and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP5842056B2 (ja) 2016-01-13
WO2013132926A1 (ja) 2013-09-12
US9754608B2 (en) 2017-09-05
US20150032445A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
CN111161752B (zh) 回声消除方法和装置
Xu et al. An experimental study on speech enhancement based on deep neural networks
JP4765461B2 (ja) 雑音抑圧システムと方法及びプログラム
EP1515305A1 (en) Noise adaption for speech recognition
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP6004792B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
JP2010078650A (ja) 音声認識装置及びその方法
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
KR20150093059A (ko) 화자 검증 장치 및 방법
KR20190037025A (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Dionelis et al. Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP6521886B2 (ja) 信号解析装置、方法、及びプログラム
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
JP5683446B2 (ja) スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140814

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20140814

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20140814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151116

R150 Certificate of patent or registration of utility model

Ref document number: 5842056

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150