JPWO2009104252A1 - 音処理装置、音処理方法及び音処理プログラム - Google Patents

音処理装置、音処理方法及び音処理プログラム Download PDF

Info

Publication number
JPWO2009104252A1
JPWO2009104252A1 JP2009554158A JP2009554158A JPWO2009104252A1 JP WO2009104252 A1 JPWO2009104252 A1 JP WO2009104252A1 JP 2009554158 A JP2009554158 A JP 2009554158A JP 2009554158 A JP2009554158 A JP 2009554158A JP WO2009104252 A1 JPWO2009104252 A1 JP WO2009104252A1
Authority
JP
Japan
Prior art keywords
sound
sound signal
unit
suppression
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009554158A
Other languages
English (en)
Other versions
JP4957810B2 (ja
Inventor
太介 伊藤
太介 伊藤
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009104252A1 publication Critical patent/JPWO2009104252A1/ja
Application granted granted Critical
Publication of JP4957810B2 publication Critical patent/JP4957810B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

音出力部に出力させる音の基となる参照音信号、及び複数の受音部が入力した音に基づいて出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換する変換部と、変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを変換後の観測音信号から周波数成分毎に抑制するエコー抑制部と、複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を変換後の観測音信号から周波数成分毎に抑制する雑音抑制部と、エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制する統合処理部とを備える音処理装置、音処理方法及び音処理プログラム。

Description

本発明は、音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携し、該受音部が出力した音に基づく音信号を処理する音処理装置、該音処理装置に実行させる音処理方法、及び前記音処理装置を実現するための音処理プログラムに関する。
テレビ会議システム、携帯電話、音声出力及び音声認識機能を有するカーナビゲーションシステム等のスピーカ及びマイクロホンを備える装置では、スピーカから出力された音に基づくエコーを、マイクロホンにて受音した音から除去するエコー抑制処理が実現されている。
図1は、従来のエコー抑制装置の構成を示すブロック図である。図1中10000は、エコー抑制処理を実行するエコー抑制装置である。エコー抑制装置10000は、参照音信号y(t)に基づいて音を出力するスピーカ10001及び入力した音を観測音信号x(t)に変換するマイクロホン10002を備えている。またエコー抑制装置10000は、観測音信号x(t)からのエコーの除去に用いる適応フィルタ10003を備えている。
マイクロホン10002は、話者が発声した音声だけでなく、スピーカ10001から出力された音、その他の雑音等の様々な音を受音する。即ちスピーカ10001から参照音信号y(t)に基づいて出力された音は、外部環境の音場を通ってマイクロホン10002に入力される。このスピーカ10001及びマイクロホン10002間のインパルス応答をh(t)とすると、エコー抑制装置10000は、インパルス応答h(t)の推定値a(t)を適応フィルタ10003にて求め、参照音信号y(t)を適応フィルタ10003に通したy’(t)を導出する。推定値a(t)を推定する方法としては、最急降下法、LMS(Least Mean Square)法、学習同定法等の方法が用いられる。そして観測音信号x(t)からy’(t)を減算することによりスピーカ10001の出力に基づくエコーを除去して差分信号e(t)を導出する。なお観測音信号x(t)に含まれている信号がスピーカ10001の出力に基づく残留エコーのみである場合に、差分信号e(t)の電力が最小となる様に適応フィルタ10003を動作させて推定する(例えば非特許文献1、p84−85参照。)。そして差分信号e(t)に基づいて音声認識等の各種処理を実行する。
また複数のマイクロホンを用いて音の到来方向を推定し、話者の方向等の目的方向以外から到来する音を環境雑音として抑制する雑音抑制処理が実現されている。
図2は、従来の雑音抑制装置の構成を示すブロック図である。図2中20000は、到来する方向に基づいて環境雑音を抑制する雑音抑制装置である。雑音抑制装置20000は、適当な間隔dをおいて配設された第1マイクロホン20001及び第2マイクロホン20002を備えており、第1マイクロホン20001及び第2マイクロホン20002は、入力した音に基づいて夫々第1音信号x1(t)及び第2音信号x2(t)を出力する。また雑音抑制装置20000は、設定されている第1フィルタ係数H1(ω)に基づいて第1音信号x1(t)をフィルタリングする第1FIR(Finite Impulse Response )フィルタ20003及び第2フィルタ係数H2(ω)に基づいて第2音信号x2(t)をフィルタリングする第2FIRフィルタ20004を備えている。また雑音抑制装置20000は、第1音信号x1(t)及び第2音信号x2(t)に基づいて第1FIRフィルタ20003の第1フィルタ係数H1(ω)及び第2FIRフィルタ20004の第2フィルタ係数H2(ω)を夫々導出し、導出した第1フィルタ係数H1(ω)及び第2フィルタ係数H2(ω)を第1FIRフィルタ20003及び第2FIRフィルタ20004へ出力するフィルタ係数導出部20005を備えている。さらに雑音抑制装置20000は、第1FIRフィルタ20003及び第2FIRフィルタ20004にてフィルタリングされた第1音信号x1’(t)及び第2音信号x2’(t)を加算した音信号r(t)を出力する加算器20006を備えている。
図2において、環境雑音原が第1マイクロホン20001及び第2マイクロホン20002から十分離れており、抑制すべき環境雑音が方向θから平面波として到来しているものとすると、雑音は第1マイクロホン20001に受音された後、遅延時間τ(=dsinθ/c,c:音速)の遅れをもって第2マイクロホン20002に受音される。従って第1FIRフィルタ20003に遅延時間τ及び逆相を示す伝達係数を持つ第1フィルタ係数H1(ω)を設定し、第2FIRフィルタ20004に1の伝達係数を持つ第2フィルタ係数H2(ω)を設定すれば、音信号r(t)は、方向θから到来する環境雑音が抑制された信号となる。この技術を応用することにより、周波数毎に音の到来方向を推定し、話者の方向等の目的方向以外から到来する音を環境雑音として抑制することができる(例えば非特許文献1,p85−86参照。)。そして音信号r(t)に基づく音声認識等の各種処理が実行される。
図1に示したエコー抑制装置は、参照音信号に基づいてエコーを抑制することができるが、エコー以外の環境雑音を抑制することができないという問題がある。図2に示した雑音抑制装置は、話者の方向等の特定の目的方向から到来する音以外の環境雑音を抑制することができるが、スピーカが話者の近傍にある場合に、スピーカから出力される音の抑制が不十分となる。そこでエコーを抑制するエコー抑制装置と到来方向に応じて環境雑音を抑制する雑音抑制装置とを組み合わせて両方の技術の問題点を相互に補完する音処理装置が検討され始めている。
図3は、従来の音処理装置の構成を示すブロック図である。図3中30000は、エコーを抑制するエコー抑制装置と到来方向に基づいて環境雑音を抑制する雑音抑制装置とを組み合わせた音処理装置である。音処理装置30000は、参照音信号y(t)に基づいて音を出力するスピーカ30001と、入力した音を第1観測音信号x1(t)及び第2観測音信号x2(t)に夫々変換する第1マイクロホン30002及び第2マイクロホン30003とを備えている。
音処理装置30000は、第1観測音信号x1(t)及び第2観測音信号x2(t)から到来する方向に基づいて雑音を抑制する雑音抑制部30004を備えており、雑音抑制部30004は、環境雑音を抑制した観測音信号x_r(t)を出力する。さらに音処理装置30000は、環境雑音を抑制した観測音信号x_r(t)から参照音信号y(t)に基づくエコーを抑制するエコー抑制部30005を備えており、エコー抑制部30005は、環境雑音及びエコーを抑制した信号e_r(t)を出力する。そして信号e_r(t)に基づく音声認識等の各種処理が実行される。
図3に示した音処理装置は、到来方向に基づき環境雑音を抑制後、エコーを抑制する構成である。
図4は、従来の音処理装置の構成を示すブロック図である。図4中40000は、エコーを抑制するエコー抑制装置と到来方向に応じて環境雑音を抑制する雑音抑制装置とを組み合わせた音処理装置である。音処理装置40000は、参照音信号y(t)に基づいて音を出力するスピーカ40001と、入力した音を観測音信号x1(t)及びx2(t)に夫々変換する第1マイクロホン40002及び第2マイクロホン40003とを備えている。
音処理装置40000は、第1観測音信号x1(t)から参照音信号y(t)に基づくエコーを抑制する第1エコー抑制部40004を備えており、第1エコー抑制部40004は、エコーを抑制した第1観測音信号e1(t)を出力する。また音処理装置40000は、第2観測音信号x2(t)から参照音信号y(t)に基づくエコーを抑制する第2エコー抑制部40005を備えており、第2エコー抑制部40005は、エコーを抑制した第2観測音信号e2(t)を出力する。さらに音処理装置40000は、エコーを抑制した第1観測音信号e1(t)及び第2観測音信号e2(t)から到来する方向に基づいて環境雑音を抑制する雑音抑制部40006を備えており、雑音抑制部40006は、環境雑音及びエコーを抑制した信号e_r(t)を出力する。そして信号e_r(t)に基づく音声認識等の各種処理が実行される。
図4に示した音処理装置は、エコーを抑制後、到来方向に基づき環境雑音を抑制する構成である。
古井貞煕著、音響・音声工学、初版、株式会社近代科学社、1992年9月、p84−86
しかしながら図3に示した様に到来方向に基づき環境雑音を抑制後、エコーを抑制する装置では、到来方向に基づく雑音抑制後の信号に歪みが生じる。従ってエコー抑制処理において、環境雑音を抑制した観測音信号と参照音信号との音響的距離が大きくなるため、エコー抑制処理のエコー抑制精度が低下するという問題がある。また歪んだ雑音抑制後の信号に基づいてエコー抑制処理を行うため、音質が低下するという問題がある。
また図4に示した様にエコーを抑制後、到来方向に基づき環境雑音を抑制する装置では、エコー抑制後の夫々の参照音信号間に差異が生じ、最終的にエコー抑制処理のエコー抑制精度が低下するという問題がある。また歪んだエコー抑制後の信号に基づいて環境雑音の抑制を行うため、音質が低下するという問題がある。
本発明は斯かる事情に鑑みてなされたものであり、到来方向に基づき環境雑音を抑制する処理及びエコー抑制処理の夫々に対しては歪みのない観測音信号を入力し、夫々の処理を実行後に統合処理を行うことにより、音質を維持しながらも環境雑音及びエコーを高精度に抑制する音処理装置、該音処理装置に実行させる音処理方法、及び前記音処理装置を実現するための音処理プログラムを開示する。
第1の音処理装置は、音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能であり、前記受音部が出力した音信号を処理する音処理装置において、前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換する変換部と、前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制するエコー抑制部と、前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制する雑音抑制部と、前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制する統合処理部とを備えることを要件とする。
第2の音処理装置は、第1の音処理装置において、前記統合処理部は、前記エコー抑制前後の観測音信号の周波数成分毎の比及び前記雑音抑制後の観測音信号の積、又は、前記雑音抑制前後の観測音信号の周波数成分毎の比及び前記エコー抑制後の観測音信号の積に基づいてエコー及び雑音を抑制した観測音信号を求める様にしてあることを要件とする。
第3の音処理装置は、第1又は第2の音処理装置において、前記雑音抑制部は、更に、前記変換後の観測音信号に基づいて背景雑音を導出する背景雑音導出部を有し、前記エコー抑制前後の観測音信号の周波数成分毎の比と、前記背景雑音導出部にて導出した背景雑音との積を加味して雑音を抑制する様にしてあることを要件とする。
第4の音処理装置は、第1又は第2の音処理装置において、前記雑音抑制部は、更に、前記音出力部の方向から到来したと推定した音の周波数成分を、前記変換後の観測音信号から抑制する出力音抑制部を有し、
前記エコー抑制部は、更に、前記変換後の観測音信号のうち、前記出力音抑制部による抑制前後の比が所定値以下である周波数成分に基づいて背景雑音を導出する背景雑音導出部を有し、前記エコー抑制部は、前記背景雑音導出部が導出した背景雑音を加味して推定したエコーを抑制する様にしてあることを要件とする。
第5の音処理装置は、第4の音処理装置において、前記雑音抑制部は、更に、前記変換後の観測音信号のうち、前記エコー抑制前後の比が所定値を超える周波数成分に基づいて背景雑音を導出する背景雑音導出部を有し、前記雑音抑制部は、前記背景雑音導出部が導出した背景雑音を加味して雑音を抑制する様にしてあることを要件とする。
第6の音処理装置は、第3乃至第5のいずれかの音処理装置において、前記背景雑音導出部は、前記変換後の観測音信号の時間変化を周波数成分毎に平滑化して背景雑音を導出するようにしてあることを要件とする。
第7の音処理装置は、第1又は第2の音処理装置において、前記雑音制御部は、更に、前記変換後の観測音信号に対し、所定の目的方向から到来したと推定した音信号の周波数成分の強調処理及び/又は目的方向以外の方向から到来したと推定した音信号の周波数成分の抑制処理により、目的方向から到来する目的音を強調する目的音強調部を有し、前記エコー抑制部は、更に、前記変換後の参照音信号に基づいて、周波数毎に算出及び更新されたフィルタ係数にてフィルタリングすることにより、前記変換後の観測音信号から抑制すべきエコー成分を導出するフィルタ部と、前記目的音強調部にて目的音を強調した観測音信号に基づいて、前記フィルタ部のフィルタ係数の更新の要否を判定する更新要否判定部とを有することを要件とする。
第8の音処理装置は、第1又は第2の音処理装置において、前記雑音制御部は、所定の要抑制方向から到来したと推定した音信号の周波数成分を、前記変換後の観測音信号から抑制することで、要抑制方向から到来する音を抑制する要抑制音抑制部を有し、前記エコー抑制部は、前記変換後の参照音信号を、周波数毎に算出及び更新されたフィルタ係数にてフィルタリングすることにより、抑制すべきエコー成分を導出するフィルタ部を有し、該フィルタ部は、前記変換後の参照音信号及び前記要抑制音を抑制した観測音信号に基づいて、フィルタ係数を算出及び更新する様にしてあることを要件とする。
第9の音処理方法は、音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能な音処理装置に実行させる音処理方法において、前記音処理装置が、前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換するステップと、前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制するステップと、前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制するステップと、前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制するステップとを実行することを要件とする。
第10の音処理プログラムは、音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能なコンピュータを音処理装置として機能させる音処理プログラムにおいて、コンピュータに、前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換する手順と、前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制する手順と、前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制する手順と、前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制する手順とを実行させることを要件とする。
第1及び第2の音処理装置、第9の音処理方法並びに第10の音処理プログラムでは、音質を維持しながらも到来方向に基づく環境雑音及びエコーを抑制することが可能であり、しかも雑音抑制部及びエコー抑制部の処理の精度の低下を防止することが可能である。
第3の音処理装置は、背景雑音の導出に、エコー抑制前後の比を用いることにより、エコー成分を除外して背景雑音の推定精度を向上させることが可能である。
第4の音処理装置は、音出力部の方向から到来した音を抑制した観測音信号に基づいて導出した背景雑音を加味してエコーを抑制することにより、背景雑音の推定がエコー以外の音に影響されることを防止することが可能である。
第5の音処理装置は、エコーを抑制した観測音信号に基づいて導出した背景雑音を加味して雑音を抑制することにより、エコー成分を除外して背景雑音の推定精度を向上させることが可能である。
第6の音処理装置は、恒常的に発生する背景雑音を導出することが可能である。
第7の音処理装置は、話者が発声した音声等の目的音を強調した観測音信号に基づき高精度にダブルトーク又はシングルトークの状態であることを判断することができるので、その状態に応じたフィルタ係数の更新の要否を高精度に判定することが可能である。
第8の音処理装置は、話者が発声した音声等の要抑制音を抑制した観測音信号に基づいてエコー成分を導出することにより、ダブルトーク、シングルトークの状態の判定が不要である。
本願は、参照音信号及び観測音信号から推定した参照音信号に基づく音に起因するエコーを、観測音信号から抑制するエコー抑制部と、複数の観測音信号間の位相差から求まる音の到来方向に基づき推定した雑音を抑制する雑音抑制部とを備え、更にエコー抑制部によりエコーを抑制した観測音信号及び雑音抑制部により雑音を抑制した観測音信号に基づいて、観測音信号からエコー及び雑音を抑制する統合処理部を備える音処理装置等を開示する。
この構成により、本願は、雑音抑制処理を行っていない信号に基づいてエコー抑制処理を行い、かつエコー抑制処理を行っていない信号に基づいて雑音抑制処理を行う。従って本願は、音質を維持しながらも到来方向に基づき環境雑音及びエコーを抑制することが可能であり、しかも雑音抑制部及びエコー抑制部の処理の精度の低下を防止することが可能である等、優れた効果を奏する。
本願は、雑音抑制部が、例えば観測音信号の時間変化を平滑化することにより背景雑音を導出し、導出した背景雑音と、エコー抑制前後の観測音信号の比との積を加味して雑音を抑制する音処理装置等を開示する。
この構成により、本願は、エコーの成分を排除して高精度に背景雑音を導出することが可能である等、優れた効果を奏する。従って雑音抑制部が、背景雑音を加味して雑音の抑制を行う際、例えば目的方向から到来する音のレベルを背景雑音まで抑制することでミュージカルノイズ等の不自然な雑音の発生を防止して雑音の抑制を行う際に有効である。特に特定の周波数のパワーが大きいオーディオ音を連続して音出力部から出力している場合に、オーディオ音が背景雑音の導出に与える影響を排除することが可能である。
本願は、雑音抑制部が、音出力部の方向から到来したと推定した音の周波数成分を観測信号の周波数成分から抑制する出力音抑制部を有し、エコー抑制部が、出力音抑制部による抑制前後の比が所定値以下である周波数成分の音信号に基づいて背景雑音を導出し、導出した背景雑音を加味して推定したエコーを抑制する音処理装置等を開示する。
この構成により、本願は、音出力部の方向から到来した音を抑制した観測音信号を加味して推定した背景雑音に基づいてエコーを抑制するので、背景雑音の推定がエコー以外の音に影響されることを防止し、エコー抑制部によるエコーの推定精度を向上させることが可能である等、優れた効果を奏する。
本願は、雑音抑制部が、エコー抑制前後の比が所定値を超える周波数成分に基づいて背景雑音を導出し、導出した背景雑音を加味して雑音を抑制する音処理装置等を開示する。
この構成により、本願は、エコー成分を除外して背景雑音の推定精度を向上させることが可能である等、優れた効果を奏する。
本願は、雑音抑制部が、観測音信号に対し、話者の方向等の目的方向から到来したと推定した目的音を強調し、エコー抑制部が、周波数毎に算出及び更新されたフィルタ係数にて参照音信号をフィルタリングすることにより、抑制すべきエコー成分を導出するフィルタ部に対し、目的音を強調した観測音信号に基づいて、フィルタ係数の更新の要否を判定する音処理装置等を開示する。
この構成により、本願は、ダブルトークの判定に要する目的音が強調されていることから、高精度にダブルトーク又はシングルトークの状態であることを判断することができるので、その状態に応じたフィルタ係数の更新の要否を高精度に判定することが可能である等、優れた効果を奏する。
本願は、雑音抑制部が、話者の方向等の要抑制方向から到来したと推定した要抑制音を観測音信号から抑制し、エコー抑制部が、周波数毎に算出及び更新されたフィルタ係数にて参照音信号をフィルタリングすることにより、抑制すべきエコー成分を導出するフィルタ部を有し、フィルタ部は、参照音信号及び要抑制音を抑制した観測音信号に基づいて、フィルタ係数を算出及び更新する音処理装置等を開示する。
この構成により、本願は、要抑制音が抑制された観測音信号にはダブルトークの状態が存在しないと見なすことができるので、ダブルトーク、シングルトークの状態を判定することなくエコーを抑制することが可能である等、優れた効果を奏する。
従来のエコー抑制装置の構成を示すブロック図である。 従来の雑音抑制装置の構成を示すブロック図である。 従来の音処理装置の構成を示すブロック図である。 従来の音処理装置の構成を示すブロック図である。 本発明の実施の形態1に係る音処理装置の構成例を示すブロック図である。 本発明の実施の形態1に係る音処理装置が備える抑制機構等の機構の機能構成例を示す機能ブロック図である。 本発明の実施の形態1に係る音処理装置が備えるエコー抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態1に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態1に係る音処理装置の処理の一例を示すフローチャートである。 本発明の実施の形態1に係る音処理装置が備えるエコー抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態1に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態2に係る音処理装置が備える抑制機構等の機構の機能構成例を示す機能ブロック図である。 本発明の実施の形態2に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態2に係る音処理装置の処理の一例を示すフローチャートである。 本発明の実施の形態3に係る音処理装置が備える抑制機構等の機構の機能構成例を示す機能ブロック図である。 本発明の実施の形態3に係る音処理装置が備えるエコー抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態3に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態3に係る音処理装置の処理の一例を示すフローチャートである。 本発明の実施の形態4に係る音処理装置が備える抑制機構等の機構の機能構成例を示す機能ブロック図である。 本発明の実施の形態4に係る音処理装置が備えるエコー抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態4に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態4に係る音処理装置の処理の一例を示すフローチャートである。 本発明の実施の形態5に係る音処理装置が備える抑制機構等の機構の機能構成例を示す機能ブロック図である。 本発明の実施の形態5に係る音処理装置が備えるエコー抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態5に係る音処理装置が備える雑音抑制部等の機能構成例を示す機能ブロック図である。 本発明の実施の形態5に係る音処理装置の処理の一例を示すフローチャートである。
符号の説明
1 音処理装置
10 音出力機構
111 第1受音機構
112 第2受音機構
12 抑制機構
1201 第1FFT処理部
1202 第2FFT処理部
121 エコー抑制部
1210 適応フィルタ部
1211 除去部
12111 第1除去部
12112 第2除去部
1212 ゲイン算出部
1213 背景雑音推定部
1214 補正部
1215 発声判定部
1216 学習スイッチ部
122 雑音抑制部
12201 第1FIRフィルタ部
12202 第2FIRフィルタ部
12203 第3FIRフィルタ部
12204 第4FIRフィルタ部
12205 第5FIRフィルタ部
12206 第6FIRフィルタ部
12207 第7FIRフィルタ部
12208 第8FIRフィルタ部
1221 フィルタ係数導出部
12211 第1フィルタ係数導出部
12212 第2フィルタ係数導出部
12213 第3フィルタ係数導出部
12214 第4フィルタ係数導出部
1222 抑制部
12221 第1抑制部
12222 第2抑制部
12223 第3抑制部
12224 第4抑制部
1223 背景雑音推定部
1224 補正部
1225 ゲイン算出部
123 統合処理部
124 背景雑音推定部
125 補正部
13 制御機構
14 記録機構
15 通信機構
16 操作機構
17 処理機構
100 音処理プログラム
10000 エコー抑制装置
10001 スピーカ
10002 マイクロホン
10003 適応フィルタ
20000 雑音抑制装置
20001 第1マイクロホン
20002 第2マイクロホン
20003 第1FIRフィルタ
20004 第2FIRフィルタ
20005 フィルタ係数導出部
20006 加算器
30000 音処理装置
30001 スピーカ
30002 第1マイクロホン
30003 第2マイクロホン
30004 雑音抑制部
30005 エコー抑制部
40000 音処理装置
40001 スピーカ
40002 第1マイクロホン
40003 第2マイクロホン
40004 第1エコー抑制部
40005 第2エコー抑制部
40006 雑音抑制部
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
実施の形態1.
図5は、本発明の実施の形態1に係る音処理装置の構成例を示すブロック図である。図5中1は、テレビ会議システム、携帯電話、音声出力及び音声認識機能を有するカーナビゲーションシステム等のシステム又は装置として用いられる音処理装置である。音処理装置1は、音信号に基づいて音を出力するスピーカ等の音出力機構10と、入力した音に基づいて生成した音信号を出力するコンデンサマイク等の複数のマイクロホンを用いた第1受音機構111及び第2受音機構112と、本発明の音処理プログラム100及びデータ等のファームウェアが組み込まれたDSP(Digital Signal Processor)等の抑制機構12とを備えている。テレビ会議システム、携帯電話、カーナビゲーションシステム等のコンピュータは、抑制機構12に組み込まれている本発明の音処理プログラム100を実行することにより、本発明の音処理装置1として機能する。
さらに音処理装置1は、テレビ会議システム、携帯電話、カーナビゲーションシステム等のシステム又は装置としての各種処理を実行すべく、装置全体を制御するCPU等の制御機構13と、各種プログラム及びデータを記録するROM、RAM、ハードディスク等の記録機構14と、アンテナ、通信ポート及びそれらの制御回路等の通信機構15と、操作者からの操作を受け付ける操作機構16と、ハードウェア及び/又はソフトウェアにて構成され音信号に対する様々な処理を実行する処理機構17と等の各種機構を備えている。
音処理装置1は、例えば記録機構14に記録されているデータに基づく音信号、通信機構15から受信したデータに基づく音信号等の音信号に基づく音を出力させる場合、音信号を音出力機構10へ出力する。また音出力機構10へ出力する音信号は、抑制機構12へも出力される。なお抑制機構12は、デジタル信号である音信号に対して各種処理を実行し、音出力機構10は、アナログ信号である音信号に基づいて音を出力する。このため音信号を伝送する信号路上には、図示しないA/D変換回路等の変換回路が配設されている。なお記録機構14は、デジタル信号である音信号を抑制機構12へ出力し、アナログ信号である音信号を音出力機構10へ出力する様に構成する等、適宜設計することが可能である。
また音処理装置1は、第1受音機構111及び第2受音機構112により、夫々受音した音に基づいてアナログ信号である音信号を生成する。そして音処理装置1は、生成した音信号を図示しないゲインアンプ等の増幅回路により増幅し、増幅した音信号を図示しないA/D変換回路により8000Hz等のサンプリング周波数でサンプリングしてデジタル信号に変換し、デジタル信号に変換した音信号を抑制機構12へ出力する。
抑制機構12は、音処理プログラム100等のファームウェアを実行することにより、音信号に対するエコー成分の抑制、到来方向に基づく環境雑音の抑制等の処理を実行する。
図6は、本発明の実施の形態1に係る音処理装置1が備える抑制機構12等の機構の機能構成例を示す機能ブロック図である。抑制機構12は、音処理プログラム100を実行することにより、音信号に対してFFT(高速フーリエ変換:Fast Fourier Transformation)処理を行う第1FFT処理部1201及び第2FFT処理部1202と、エコー成分を抑制するエコー抑制部121と、到来方向に基づき環境雑音を抑制する雑音抑制部122と、エコー抑制部121及び雑音抑制部122の抑制処理を統合する統合処理部123と、背景雑音を推定する背景雑音推定部124と、背景雑音推定部124が推定した背景雑音に基づいて音信号を補正する補正部125と等の各種プログラムモジュールを生成する。なお本願の音処理装置1は、図6に例示した構成に限らず、背景雑音推定部124及び補正部125の機能を、雑音抑制部122内に組み込む等、適宜設計変更することが可能である。
第1FFT処理部1201は、第1受音機構111及び第2受音機構112が受音した音をデジタル信号に変換した各音信号を、夫々第1観測音信号及び第2観測音信号として受け付ける。第1FFT処理部1201は、例えば512サンプル分の第1(第2)観測音信号を1フレームとしたフレーム単位の第1(第2)観測音信号を夫々生成する。なお各フレームは、128〜256サンプル分程度ずつオーバーラップしており、各フレームに対しては、ハミング窓、ハニング窓等の窓関数、高域強調フィルタによるフィルタリング等の音声認識の分野で一般的なフレーム処理が施される。第1FFT処理部1201は、フレーム単位の第1観測音信号及び第2観測音信号に対してFFT処理を行うことで周波数軸上の成分のスペクトルである音信号に変換する。そして第1FFT処理部1201は、FFT処理にてスペクトルに変換した第1観測音信号を、エコー抑制部121及び雑音抑制部122並びに背景雑音推定部124に渡す。また第1FFT処理部1201は、FFT処理にてスペクトルに変換した第2観測音信号を雑音抑制部122に渡す。
なお図6及び以降の説明では、第1FFT処理部1201が受け付ける第1観測音信号及び第2観測音信号を、x1(t)及びx2(t)として示す。変数tは、アナログ信号である音信号を8000Hz、12000Hz等のサンプリング周波数でサンプリングしてデジタル信号に変換した際の各サンプルを特定するサンプル番号である。なお時間を示す変数として、変数tを用いる様にしてもよい。またFFT処理後の第1観測音信号のスペクトルを、周波数ωを変数として用いたX1(ω)として示し、FFT処理部の第2観測音信号のスペクトルをX2(ω)として示す。そして便宜上、以降の説明では、第1観測音信号のスペクトルX1(ω)を第1観測音信号X1(ω)と呼び、第2観測音信号のスペクトルX2(ω)を第2観測音信号X2(ω)と呼ぶことにする。なおスペクトルX1(ω)及びX2(ω)は、複素数である。
第2FFT処理部1202は、音出力機構10から音を出力させる音信号を参照音信号として受け付け、フレーム単位に参照音信号を分割し、フレーム単位の参照音信号に対してFFT処理を行い、FFT処理にて変換した参照音信号のスペクトルをエコー抑制部121に渡す。なお図6及び以降の説明では、第2FFT処理部1202が受け付ける参照音信号y(t)として示す。またFFT処理後の参照音信号のスペクトルをY(ω)として示す。そして便宜上、以降の説明では、参照音信号のスペクトルY(ω)を参照音信号Y(ω)と呼ぶことにする。なおスペクトルY(ω)は複素数である。
なお第1FFT処理部1201及び第2FFT処理部1202は異なる構成として記載しているが、一のプログラムモジュールに纏める様にしても良く、また第1受音機構111及び第2受音機構112の夫々の音信号に対して専用のFFT処理部を設ける様にしても良い。
エコー抑制部121は、参照音信号Y(ω)に基づく音に起因するエコーを第1観測音信号X1(ω)から除去するエコー抑制処理を実行し、第1観測音信号X1(ω)と、第1観測音信号X1(ω)からエコーを除去した第3観測音信号のスペクトルX3(ω)(以降、第3観測音信号X3(ω)と呼ぶ)を統合処理部123に渡す。
雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)の受音の時間差に起因する位相差に基づいて周波数ω毎に音の到来方向を推定し、話者の方向等の目的方向以外から到来する音を環境雑音として抑制する雑音抑制処理を実行し、環境雑音を抑制した第4観測音信号のスペクトルX4(ω)(以降、第4観測音信号X4(ω)と呼ぶ)を統合処理部123に渡す。
統合処理部123は、エコー抑制部121から第1観測音信号X1(ω)及び第3観測音信号X3(ω)を受け付け、雑音抑制部122から第4観測音信号X4(ω)を受け付ける。統合処理部123は、第1観測音信号X1(ω)と第3観測音信号X3(ω)とのスペクトル比を算出する下記の式(1)により、第1観測音信号X1(ω)に対する第3観測音信号X3(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出する。なお式(1)において|X1(ω)|=0となる周波数fにおいては、g1(f)=0とする。
g1(ω)=|X3(ω)|/|X1(ω)| …式(1)
但し、g1(ω):エコー抑制ゲイン
X3(ω):第3観測音信号のスペクトル
X1(ω):第1観測音信号のスペクトル
さらに統合処理部123は、式(1)にて算出したエコー抑制ゲインg1(ω)を第4観測音信号X4(ω)に乗じる下記の式(2)により、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した第5観測音信号のスペクトルX5(ω)(以降、第5観測音信号X5(ω)と呼ぶ)を生成し、第5観測音信号X5(ω)を補正部125に渡す。
X5(ω)=g1(ω)・X4(ω) …式(2)
但し、g1(ω):エコー抑制ゲイン
X5(ω):第5観測音信号のスペクトル
X4(ω):第4観測音信号のスペクトル
背景雑音推定部124は、下記の式(3)に示す様に第1観測音信号X1(ω)の絶対値を二乗したスペクトルのパワーP(ω)の時間変化を周波数成分毎に平滑化して実数である背景雑音のパワーN(n,ω)を導出し、背景雑音のパワーN(n,ω)を補正部125に渡す。なお式(3)では、時間を示す変数として、フレーム番号nを用いている。即ちnフレーム目、周波数ωにおける背景雑音のスペクトルのパワーがN(n,ω)である。また第1観測音信号X1(ω)の絶対値の二乗の常用対数を用いて背景雑音のスペクトルのパワーN(n,ω)を導出する様にしても良い。
N(n,ω)=α・N(n−1,ω)+(1−α)・P(ω) …式(3)
但し、n:フレーム番号
N(n,ω)
:nフレーム目、周波数ωにおける背景雑音のスペクトルのパワー
α:0<α≦1の定数
P(ω):周波数ωにおける第1観測音信号のスペクトルのパワー
補正部125は、統合処理部123から受け付けた第5観測音信号X5(ω)を、背景雑音のパワーN(n,ω)に基づいて補正することで出力音信号のスペクトルXop(ω)(以降、出力音信号Xop(ω)と呼ぶ)を生成し、生成した出力音信号Xop(ω)を処理機構17へ出力する。補正部125による補正は、第5観測音信号X5(ω)の絶対値を二乗したパワーP5(ω)が背景雑音のパワーN(n,ω)より小さくなる周波数ωにおいて、第5観測音信号X5(ω)の値を、背景雑音のパワー(n,ω)の平方根が第5観測音信号X5(ω)の絶対値となる様に、第5観測音信号X5(ω)の位相を保ちながら変換することにより行われる。補正部125の補正により、過度の抑制によるミュージカルノイズ等の不自然な音の発生を防止することができる。
処理機構17は、出力音信号Xop(ω)に基づく音声認識等の音響処理を実行する。ただし処理機構17による音響処理としては、音声認識に限るものではない。例えば処理機構17は、出力音信号Xop(ω)をIFFT(逆フーリエ変換)処理にて時間軸上の音信号に変換し、通信機構15からの送信、更にアナログ信号に変換して音出力機構10からの音としての出力等の音響処理を実行する。なお抑制機構12及び処理機構17は、夫々独立した機構として構成するのではなく、処理機構17の音響処理に係る機能の一部又は全部を抑制機構12にて実現する様にしても良い。
抑制機構12にて機能するエコー抑制部121について更に詳述する。図7は、本発明の実施の形態1に係る音処理装置1が備えるエコー抑制部121等の機能構成例を示す機能ブロック図である。エコー抑制部121は、除去すべきエコー成分を推定する適応フィルタ部1210と、推定したエコー成分を第1観測音信号X1(ω)から除去する減算器である除去部1211と等の各種プログラムモジュールを含んでいる。
エコー抑制部121は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、第2FFT処理部1202から参照音信号Y(ω)を受け付ける。
適応フィルタ部1210は、参照音信号Y(ω)と、第1観測音信号X1(ω)からエコーを除去した第3観測音信号X3(ω)とを受け付ける。適応フィルタ部1210は、参照音信号Y(ω)及び第3観測音信号X3(ω)から、周波数ω毎のフィルタ係数を適応的に算出及び更新し、更新したフィルタ係数に基づいて参照音信号Y(ω)をフィルタリングすることにより、除去すべきエコー成分を導出(推定)する。そして適応フィルタ部1210は、エコー成分を除去部1211に渡す。
除去部1211は、第1観測音信号X1(ω)からエコー成分を減算することにより、第3観測音信号X3(ω)を生成する。第3観測音信号X3(ω)は、エコー成分が除去されたスペクトルである。
そしてエコー抑制部121は、第1FFT処理部1201から受け付けた第1観測音信号X1(ω)及び除去部1211が生成した第3観測音信号X3(ω)を統合処理部123に渡す。エコー抑制部121によるエコーの抑制は、非特許文献1等に開示されている既存の技術を適用することが可能である。
抑制機構12にて機能する雑音抑制部122について更に詳述する。図8は、本発明の実施の形態1に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)を夫々フィルタリングする第1FIR(Finite Impulse Response )フィルタ部12201及び第2FIRフィルタ部12202と、フィルタ係数を導出するフィルタ係数導出部1221と、環境雑音を抑制する加算器である抑制部1222と等の各種プログラムモジュールを含んでいる。
雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付ける。
第1FIRフィルタ部12201は、設定されている第1フィルタ係数H1(ω)に基づいて第1観測音信号X1(ω)をフィルタリングし、フィルタリング後の第1観測音信号X1_f(ω)を抑制部1222に渡す。
第2FIRフィルタ部12202は、設定されている第2フィルタ係数H2(ω)に基づいて第2観測音信号X2(ω)をフィルタリングし、フィルタリング後の第2観測音信号X2_f(ω)を抑制部1222に渡す。
フィルタ係数導出部1221は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて第1フィルタ係数H1(ω)及び第2フィルタ係数H2(ω)を夫々導出し、導出した第1フィルタ係数H1(ω)を第1FIRフィルタ部12201へ渡し、第2フィルタ係数H2(ω)を第2FIRフィルタ部12202へ渡す。第1FIRフィルタ部12201及び第2FIRフィルタ部12202は、受け付けた第1フィルタ係数H1(ω)及び第2フィルタ係数H2(ω)を夫々設定する。
抑制部1222は、フィルタリング後の第1観測音信号X1_f(ω)及び第2観測音信号X2_f(ω)を加算することにより、話者の方向等の目的方向以外から到来する音を環境雑音として抑制した第4観測音信号X4(ω)を生成する。
そして雑音抑制部122は、抑制部1222が生成した第4観測音信号X4(ω)を統合処理部123に渡す。この様に雑音抑制部122は、フィルタ係数導出部1221により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)の位相差に基づいて、周波数成分毎に音の到来方向を推定し、第1FIRフィルタ部12201、第2FIRフィルタ部12202、フィルタ係数導出部1221及び抑制部1222が協働することにより、環境雑音を抑制する処理を実行する。この処理は、非特許文献1等に開示されている既存の技術を適用することが可能である。なお環境雑音を抑制する方法として、目的方向以外の方向から到来したと推定した周波数成分の音を抑制する方法を例示したが、目的方向から到来したと推定した周波数成分の音を強調する様にしても良い。
次に本発明の実施の形態1に係る音処理装置1の処理について説明する。図9は、本発明の実施の形態1に係る音処理装置1の処理の一例を示すフローチャートである。音処理装置1は、音出力機構10から出力させる音の基となる音信号を抑制機構12へ出力し、さらに音信号を音出力機構10へ出力する。また音処理装置1は、第1受音機構111及び第2受音機構112が夫々入力した音に基づき生成した夫々の音信号を抑制機構12へ出力する。
音処理装置1の抑制機構12は、第1FFT処理部1201及び第2FFT処理部1202の処理により、受け付けた音信号をフレーム化し、フレーム化した音信号を夫々周波数軸上の成分であるスペクトルに変換する(S101)。ステップS101において、第1FFT処理部1201は、第1受音機構111が入力した音に基づく第1観測音信号x1(t)及び第2受音機構112が入力した音に基づく第2観測音信号x2(t)を周波数軸上の成分に変換する。ステップS101において、第2FFT処理部1202は、音出力機構10から出力する音の基となる参照音信号y(t)を周波数軸上の成分に変換する。ステップS101における周波数軸上の成分に変換する方法としては、必ずしもFFTを用いる必要はなく、DCT(離散コサイン変換:Discrete Cosine Transform )等の他の変換方法を用いてもよい。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、周波数軸上の成分に変換された第1観測音信号X1(ω)及び参照音信号Y(ω)を受け付け、参照音信号Y(ω)に基づく音に起因するエコー成分を推定し、推定したエコー成分を第1観測音信号X1(ω)から除去するエコー抑制処理を実行し(S102)、第1観測音信号X1(ω)と、第1観測音信号X1(ω)からエコーを除去した第3観測音信号X3(ω)とを統合処理部123に渡す。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)の位相差に基づいて周波数ω毎に音の到来方向を推定し、目的方向以外から到来する環境雑音を抑制する雑音抑制処理を実行し(S103)、環境雑音を抑制した第4観測音信号X4(ω)を統合処理部123に渡す。なお便宜上、各ステップは逐次的に行われる様に説明しているが、ステップS102及びS103の処理は、実質的に並行して実行される。
音処理装置1の抑制機構12は、統合処理部123の処理により、前述した式(1)により、第1観測音信号X1(ω)に対する第3観測音信号X3(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出する(S104)。
さらに音処理装置1の抑制機構12は、統合処理部123の処理により、前述した式(2)により、第4観測音信号X4(ω)にエコー抑制ゲインg1(ω)を乗じて第5観測音信号X5(ω)を生成する統合抑制処理を実行し(S105)、生成した第5観測音信号X5(ω)を補正部125に渡す。ステップS105にて生成する第5観測音信号X5(ω)は、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施したスペクトルであり、第4観測音信号X4(ω)と同じ位相となる。
また音処理装置1の抑制機構12は、背景雑音推定部124の処理により、前述した式(3)により、第1観測音信号X1(ω)の絶対値を二乗したパワーP(ω)の時間変化を周波数成分毎に平滑化して背景雑音のパワーN(n,ω)を導出し(S106)、背景雑音のパワーN(n,ω)を補正部125へ渡す。なお便宜上、各ステップは逐次的に行われる様に説明しているが、ステップS106の処理は、実質的にステップS102及びS103の処理と並行して実行される。
音処理装置1の抑制機構12は、補正部125の処理により、第5観測音信号X5(ω)を、背景雑音のパワーN(n,ω)に基づいて補正することで出力音信号Xop(ω)を生成する補正処理を実行し(S107)、生成した出力音信号Xop(ω)を処理機構17へ出力する。
そして音処理装置1の処理機構17は、出力音信号Xop(ω)に基づく音声認識等の音響処理、時間軸上の音信号に変換するIFFT処理、音としての出力処理、送信処理等の各種信号処理を実行する(S108)。
この様に、本発明の実施の形態1に係る音処理装置1は、エコー抑制処理及び雑音抑制処理を夫々独立して実行し、エコー抑制処理及び雑音抑制処理の結果を用いた統合抑制処理を行うことにより、エコー抑制処理及び雑音抑制処理の何れに対しても歪みのない信号を用いることになるので、音質を維持しながらもエコー及び環境雑音を高精度に抑制することが可能である。
また前記実施の形態1では、背景雑音推定部にて推定した背景雑音のパワーに基づいて補正する形態を示したが、本発明はこれに限らず、背景雑音のパワーに基づく補正を行わない様に処理を簡略化する等、様々な形態に展開することが可能である。
前記実施の形態1では、エコー抑制部から統合処理部に第1観測音信号及び第3観測音信号を渡し、統合処理部にてエコー抑制ゲインを算出する形態を示したが、本発明はこれに限らず、エコー抑制部にてエコー抑制ゲインを算出する形態に展開することも可能である。
図10は、本発明の実施の形態1に係る音処理装置1が備えるエコー抑制部121等の機能構成例を示す機能ブロック図である。図10は、エコー抑制部121にてエコー抑制ゲインg1(ω)を算出する場合のエコー抑制部121を示している。図10に示すエコー抑制部121は、適応フィルタ部1210と、除去部1211と、更に第1観測音信号X1(ω)及び第3観測音信号X3(ω)のスペクトル比であるエコー抑制ゲインg1(ω)を算出するゲイン算出部1212と等の各種プログラムモジュールを含んでいる。
ゲイン算出部1212は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、除去部1211から第3観測音信号X3(ω)を受け付ける。そしてゲイン算出部1212は、前述した式(1)により、第1観測音信号X1(ω)に対する第3観測音信号X3(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出する。
そしてエコー抑制部121は、ゲイン算出部1212が算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
この様に本発明の実施の形態1に係る音処理装置1は、エコー抑制部121にてエコー抑制ゲインg1(ω)を算出することで、統合処理部123によるエコー抑制ゲインg1(ω)の算出処理を代替することも可能である。この場合、図9に示したフローチャートのステップS104の処理は、統合処理部123ではなく、エコー抑制部121にて実行されることになる。
また前記実施の形態1では、エコー抑制前後の観測音信号の周波数成分毎の比と、環境雑音抑制後の観測音信号との積を算出することにより、エコー及び環境雑音を抑制する形態を示したが、本発明はこれに限らず、雑音抑制前後の観測音信号の周波数成分毎の比と、エコー抑制後の観測音信号との積を算出することにより、エコー及び環境雑音を抑制する形態に展開することも可能である。
図11は、本発明の実施の形態1に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。図11に示す雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付け、環境雑音を抑制した第4観測音信号X4(ω)を生成する雑音抑制処理を実行する。
そして雑音抑制部122は、第1FFT処理部1201から受け付けた第1観測音信号X1(ω)及び生成した第4観測音信号X4(ω)を統合処理部123に渡す。なおエコー抑制部121は、第3観測音信号X3(ω)のみを統合処理部123に渡す。
図11に示す雑音抑制部122を用いた場合の統合処理部123について説明する。統合処理部123は、エコー抑制部121から第3観測音信号X3(ω)を受け付け、雑音抑制部122から第1観測音信号X1(ω)及び第4観測音信号X4(ω)を受け付ける。統合処理部123は、第1観測音信号X1(ω)と第4観測音信号X4(ω)とのスペクトル比を算出する下記の式(4)により、第1観測音信号X1(ω)に対する第4観測音信号X4(ω)の周波数成分毎の絶対値の比の値である雑音抑制ゲインg2(ω)を算出する。なお式(4)において|X1(ω)|=0となる周波数fにおいては、g2(f)=0とする。
g2(ω)=|X4(ω)|/|X1(ω)| …式(4)
但し、g2(ω):雑音抑制ゲイン
X4(ω):第4観測音信号のスペクトル
X1(ω):第1観測音信号のスペクトル
さらに統合処理部123は、式(4)にて算出した雑音抑制ゲインg2(ω)を第3観測音信号X3(ω)に乗じる下記の式(5)により、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した第5観測音信号X5(ω)を生成する。生成した第5観測音信号X5(ω)を補正部125に渡される。
X5(ω)=g2(ω)・X3(ω) …式(5)
但し、g2(ω):雑音抑制ゲイン
X5(ω):第5観測音信号のスペクトル
X3(ω):第3観測音信号のスペクトル
この様に雑音抑制ゲインg2(ω)を用いる場合、図9に示したフローチャートのステップS104の処理は、雑音抑制ゲインg2(ω)の算出となる。またこの場合、第5観測音信号X5(ω)は、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した音信号であり、第3観測音信号X3(ω)と同じ位相となる。なお雑音抑制部122が雑音抑制ゲインg2(ω)を算出し、雑音抑制ゲインg2(ω)を統合処理部123に渡す様に構成することも可能である。
なお雑音抑制ゲインg2(ω)を、式(4)ではなく、下記の式(4’)にて算出することも可能である。
g2(ω)=|X4(ω)|/|X2(ω)| …式(4’)
但し、g2(ω):雑音抑制ゲイン
X4(ω):第4観測音信号のスペクトル
X2(ω):第2観測音信号のスペクトル
さらに前記実施の形態1において、エコー抑制ゲイン及び雑音抑制ゲインを用いてエコー及び環境雑音を抑制する形態に展開することも可能である。
統合処理部123又はエコー抑制部121は、前述した式(1)によりエコー抑制ゲインg1(ω)を算出する。更に統合処理部123又は雑音抑制部122は、前述した式(4)により雑音抑制ゲインg2(ω)を算出する。
そして統合処理部123は、エコー抑制ゲインg1(ω)及び雑音抑制ゲインg2(ω)を第1観測音信号X1(ω)に乗じる下記の式(6)により、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した第5観測音信号X5(ω)を生成する。生成した第5観測音信号X5(ω)は補正部125に渡される。
X5(ω)=g1(ω)・g2(ω)・X1(ω) …式(6)
但し、g1(ω):エコー抑制ゲイン
g2(ω):雑音抑制ゲイン
X5(ω):第5観測音信号のスペクトル
X1(ω):第1観測音信号のスペクトル
この様にエコー抑制ゲインg1(ω)及び雑音抑制ゲインg2(ω)を用いる場合、図9に示したフローチャートのステップS104の処理は、エコー抑制ゲインg1(ω)及び雑音抑制ゲインg2(ω)の算出となる。またこの場合、第5観測音信号X5(ω)は、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した音信号であり、第1観測音信号X1(ω)と同じ位相となる。
実施の形態2.
実施の形態2は、実施の形態1において、エコー抑制部にて算出したエコー抑制ゲインを雑音抑制部でも用いる形態である。以降の説明において、実施の形態1と同様の構成要素については、実施の形態1と同様の符号を付すものとし、その詳細な説明を省略する。実施の形態2における音処理装置1の構成例は、図5を用いて示した実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。
図12は、本発明の実施の形態2に係る音処理装置1が備える抑制機構12等の機構の機能構成例を示す機能ブロック図である。抑制機構12は、音処理プログラム100を実行することにより、第1FFT処理部1201及び第2FFT処理部1202と、エコー抑制部121と、雑音抑制部122と、統合処理部123と等の各種プログラムモジュールを生成する。なお実施の形態2において、背景雑音を推定する背景雑音推定部の機能及び推定した背景雑音に基づいて音信号を補正する補正部の機能は、雑音抑制部122に組み込まれている。
実施の形態2に係るエコー抑制部121は、実施の形態1の図10に示したエコー抑制部121に相当する。即ち実施の形態2に係るエコー抑制部121は、第1観測音信号X1(ω)及び参照音信号Y(ω)を受け付け、エコー抑制前後の観測音信号の周波数成分毎の比であるエコー抑制ゲインg1(ω)を算出する。なお実施の形態2に係るエコー抑制部121は、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡すとともに、エコー抑制ゲインg1(ω)を雑音抑制部122にも渡す。
雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し、環境雑音を抑制した第4観測音信号X4(ω)を生成する。さらに雑音抑制部122は、エコー抑制部121から受け付けたエコー抑制ゲインg1(ω)を加味して背景雑音を推定し、推定した背景雑音に基づいて第4観測音信号X4(ω)を補正し、補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。
抑制機構12にて機能する雑音抑制部122について更に詳述する。図13は、本発明の実施の形態2に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。雑音抑制部122は、第1FIRフィルタ部12201及び第2FIRフィルタ部12202と、フィルタ係数導出部1221と、抑制部1222と、更に背景雑音推定部1223と、補正部1224と等の各種プログラムモジュールを含んでいる。
雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付け、エコー抑制部121からエコー抑制ゲインg1(ω)を受け付ける。
抑制部1222は、環境雑音を抑制した第4観測音信号X4(ω)を補正部1224に渡す。
背景雑音推定部1223は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、エコー抑制部121からエコー抑制ゲインg1(ω)を受け付ける。そして背景雑音推定部1223は、実施の形態1にて示した式(3)を用いて、第1観測音信号X1(ω)の絶対値を二乗したスペクトルのパワーP(ω)の時間変化を周波数成分毎に平滑化して背景雑音のパワーN(n,ω)を導出する。更に背景雑音推定部1223は、下記の式(7)に示す様に、背景雑音のパワーN(n,ω)に、エコー抑制ゲインg1(ω)を乗じることにより、エコーを抑制した背景雑音のパワーN_r(n,ω)を算出する。そして背景雑音推定部1223は、エコーを抑制した背景雑音のパワーN_r(n,ω)を補正部1224に渡す。
N_r(n,ω)=g1(ω)・N(n,ω) …式(7)
但し、N_r(n,ω)
:nフレーム目、周波数ωにおけるエコーを抑制した背景雑音のスペクトルのパワー
g1(ω):エコー抑制ゲイン
N(n,ω)
:nフレーム目、周波数ωにおける背景雑音のスペクトルのパワー
補正部1224は、抑制部1222から受け付けた第4観測音信号X4(ω)を、エコーを抑制した背景雑音のパワーN_r(n,ω)に基づいて補正することにより、補正後の第4観測音信号X4_r(ω)を生成する。補正部1224による補正は、第4観測音信号X4(ω)の絶対値を二乗したパワーP4(ω)が背景雑音のパワーN_r(n,ω)より小さくなる周波数ωにおいて、第4観測音信号X4(ω)の値を、背景雑音のパワーN_r(n,ω)の平方根が第4観測音信号X4(ω)の絶対値となる様に、第4観測音信号X4(ω)の位相を保ちながら変換することにより行われる。
そして雑音抑制部122は、補正部1224が生成した補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。
統合処理部123は、エコー抑制部121からエコー抑制ゲインg1(ω)を受け付け、雑音抑制部122から補正後の第4観測音信号X4_r(ω)を受け付ける。統合処理部123は、下記の式(8)として示す様に、エコー抑制ゲインg1(ω)を、補正後の第4観測音信号X4_r(ω)に乗じて第5観測音信号X5(ω)を生成する。第5観測音信号X5(ω)は、出力音信号Xop(ω)として処理機構17へ出力される。
X5(ω)=g1(ω)・X4_r(ω) …式(8)
但し、g1(ω):エコー抑制ゲイン
X5(ω):第5観測音信号のスペクトル
X4_r(ω):補正後の第4観測音信号のスペクトル
次に本発明の実施の形態2に係る音処理装置1の処理について説明する。図14は、本発明の実施の形態2に係る音処理装置1の処理の一例を示すフローチャートである。音処理装置1の抑制機構12は、第1FFT処理部1201及び第2FFT処理部1202の処理により、受け付けた音信号をフレーム化し、フレーム化した音信号を夫々周波数軸上の成分であるスペクトルに変換する(S201)。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、エコー抑制処理を実行し(S202)、エコー抑制処理の結果に基づいてエコー抑制ゲインg1(ω)を算出し(S203)、算出したエコー抑制ゲインg1(ω)を雑音抑制部122及び統合処理部123に渡す。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し(S204)、環境雑音を抑制した第4観測音信号X4(ω)を生成する。
また音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)に基づいて背景雑音のパワーN(n,ω)を導出し(S205)、更にエコー抑制ゲインg1(ω)と背景雑音のパワーN(n,ω)との積であるエコーを抑制した背景雑音のパワーN_r(n,ω)を算出する(S206)。
そして音処理装置1の抑制機構12は、雑音抑制部122の処理により、第4観測音信号X4(ω)を、エコーを抑制した背景雑音のパワーN_r(n,ω)に基づいて補正することで補正後の第4観測音信号X4_r(ω)を生成する補正処理を実行し(S207)、補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。
音処理装置1の抑制機構12は、統合処理部123の処理により、エコー抑制ゲインg1(ω)を、補正後の第4観測音信号X4_r(ω)に乗じて第5観測音信号X5(ω)を生成する統合抑制処理を実行し(S208)、生成した第5観測音信号X5(ω)を出力音信号Xop(ω)として処理機構17へ出力する。ステップS208にて生成する第5観測音信号X5(ω)は、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した音信号である。
そして音処理装置1の処理機構17は、出力音信号Xop(ω)に基づく音声認識等の音響処理、時間軸上の音信号に変換するIFFT処理、音としての出力処理、送信処理等の各種信号処理を実行する(S209)。
なお便宜上、各ステップは逐次的に行われる様に説明しているが、エコー抑制部121及び雑音抑制部122の処理は、実質的に並行して行われる。
この様に実施の形態2では、背景雑音のパワーN(n,ω)に、エコー抑制ゲインg1(ω)を乗じることにより、エコーの影響を排除した効果的な背景雑音の抑制を行うことができる。この様な処理は、特定の周波数でオーディオ音による大きなパワーが連続し、背景雑音が大きくなる場合に特に有効である。
前記実施の形態2では、雑音抑制部に背景雑音部及び補正部を組み込む構成を示したが、本発明はこれに限らず、雑音抑制部外に背景雑音部及び補正部を設ける等、様々な形態に展開することが可能である。
実施の形態3.
実施の形態3は、実施の形態1において、エコー抑制部にて算出したエコー抑制ゲインを雑音抑制部でも用い、また雑音抑制部にて音出力機構の方向から到来する音を抑制した出力音抑制ゲインを算出し、算出した出力音抑制ゲインをエコー抑制部にて用いる形態である。以降の説明において、実施の形態1又は実施の形態2と同様の構成要素については、実施の形態1又は実施の形態2と同様の符号を付すものとし、その詳細な説明を省略する。実施の形態3における音処理装置1の構成例は、図5を用いて説明した実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。
図15は、本発明の実施の形態3に係る音処理装置1が備える抑制機構12等の機構の機能構成例を示す機能ブロック図である。抑制機構12は、音処理プログラム100を実行することにより、第1FFT処理部1201及び第2FFT処理部1202と、エコー抑制部121と、雑音抑制部122と、統合処理部123と等の各種プログラムモジュールを生成する。なお実施の形態3において、背景雑音を推定する背景雑音推定部の機能及び推定した背景雑音に基づいて音信号を補正する補正部の機能は、エコー抑制部121及び雑音抑制部122の双方に組み込まれている。
エコー抑制部121は、第1観測音信号X1(ω)及び参照音信号Y(ω)と後述する出力音抑制ゲインg3(ω)とを受け付け、エコー抑制前後の観測音信号の周波数成分毎の比であるエコー抑制ゲインg1(ω)を算出する。そしてエコー抑制部121は、算出したエコー抑制ゲインg1(ω)を雑音抑制部122及び統合処理部123に渡す。
雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し、環境雑音を抑制した第4観測音信号X4(ω)を生成する。また雑音抑制部122は、エコー抑制部121から受け付けたエコー抑制ゲインg1(ω)を加味して背景雑音を推定し、推定した背景雑音に基づいて第4観測音信号X4(ω)を補正し、補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。さらに雑音抑制部122は、音出力機構10の方向から到来する音を抑制し、抑制前後の観測音信号の周波数成分毎の比である出力音抑制ゲインg3(ω)を算出する。そして雑音抑制部122は、算出した出力音抑制ゲインg3(ω)をエコー抑制部121に渡す。
抑制機構12にて機能するエコー抑制部121について更に詳述する。図16は、本発明の実施の形態3に係る音処理装置1が備えるエコー抑制部121等の機能構成例を示す機能ブロック図である。エコー抑制部121は、適応フィルタ部1210と、除去部1211と、ゲイン算出部1212と、更に背景雑音推定部1213と、補正部1214と等の各種プログラムモジュールを含んでいる。
エコー抑制部121は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、第2FFT処理部1202から参照音信号Y(ω)を受け付ける。またエコー抑制部121は、雑音抑制部122から出力音抑制ゲインg3(ω)を受け付ける。
背景雑音推定部1213は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、雑音抑制部122から出力音抑制ゲインg3(ω)を受け付ける。そして背景雑音推定部1213は、実施の形態1にて示した式(3)を用いて、第1観測音信号X1(ω)の絶対値を二乗したスペクトルのパワーP(ω)の時間変化を周波数成分毎に平滑化して背景雑音のパワーN(n,ω)を導出する。また背景雑音推定部1213は、出力音抑制ゲインg3(ω)の周波数毎の値と予め設定されている第1閾値との大小関係を比較する。背景雑音推定部1213は、出力音抑制ゲインg3(ω)が第1閾値以下となる周波数f1に対しては、新たに算出した背景雑音のパワーN(n,f1)を採用し、出力音抑制ゲインg3(ω)が第1閾値より大きい周波数f2に対しては、前回算出した背景雑音のパワーN(n−1,f2)を今回の背景雑音のパワーN(n,f2)に採用する。この様にして背景雑音推定部1213は、背景雑音のパワーN(n,ω)を導出し、導出した背景雑音のパワーN(n,ω)を出力音抑制ゲインg3(ω)に基づいて修正する。この様にすることで、出力音抑制ゲインg3(ω)が第1閾値より大きい周波数においては、音出力機構10の方向から到来するエコーの基となる音以外の雑音の影響が大きいと推定し、背景雑音のパワーN(n,ω)の更新を停止することができる。そして背景雑音推定部1213は、出力音抑制ゲインg3(ω)に基づいて修正した背景雑音のパワーN(n,ω)を補正部1214に渡す。
補正部1214は、除去部1211から第3観測音信号X3(ω)を受け付け、背景雑音推定部1213から背景雑音のパワーN(n,ω)を受け付ける。そして補正部1214は、第3観測音信号X3(ω)を背景雑音のパワーN(n,ω)に基づいて補正することで、補正後の第3観測音信号X3_r(ω)を生成し、生成した補正後の第3観測音信号X3_r(ω)をゲイン算出部1212に渡す。補正部1214による補正は、第3観測音信号X3(ω)の絶対値を二乗したスペクトルのパワーP3(ω)が背景雑音のパワーN(n,ω)より小さくなる周波数ωにおいて、第3観測音信号X3(ω)の値を、背景雑音のパワーN(n,ω)の平方根が第3観測音信号X3(ω)の絶対値となる様に、第3観測音信号X3(ω)の位相を保ちながら変換することにより行われる。補正部1214の補正により、背景雑音の過度の抑制を防止し、話者が発声していないシングルトークの状態での第3観測音信号X3(ω)のレベルを背景雑音のレベルまで下げることができる。
ゲイン算出部1212は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、補正部1214から補正後の第3観測音信号X3_r(ω)を受け付ける。そしてゲイン算出部1212は、実施の形態1にて示した式(1)により、第1観測音信号X1(ω)に対する補正後の第3観測音信号X3_r(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出する。なお実施の形態3に係るゲイン算出部1212では、式(1)による計算に際し、第3観測音信号X3(ω)に替えて補正後の第3観測音信号X3_r(ω)を用いる。
そしてエコー抑制部121は、ゲイン算出部1212が算出したエコー抑制ゲインg1(ω)を雑音抑制部122及び統合処理部123に渡す。
抑制機構12にて機能する雑音抑制部122について更に詳述する。図17は、本発明の実施の形態3に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。雑音抑制部122は、第1FIRフィルタ部12201及び第2FIRフィルタ部12202と、第1フィルタ係数導出部12211と、第1抑制部12221と、背景雑音推定部1223と、補正部1224と、更に第3FIRフィルタ部12203及び第4FIRフィルタ部12204と、第2フィルタ係数導出部12212と、第2抑制部12222と、ゲイン算出部1225と等の各種プログラムモジュールを含んでいる。なお第1フィルタ係数導出部12211及び第1抑制部12221は、実施の形態1にて説明したフィルタ係数導出部1221及び抑制部1222と同様の処理を実行する。また図17では、第1FIRフィルタ部12201によるフィルタリング後の第1観測音信号X1_f1(ω)として示し、第2FIRフィルタ部12202によるフィルタリング後の第2観測音信号X2_f2(ω)として示している。
雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付け、エコー抑制部121からエコー抑制ゲインg1(ω)を受け付ける。
背景雑音推定部1223は、実施の形態1にて示した式(3)を用いて、第1観測音信号X1(ω)の絶対値を二乗したスペクトルのパワーP(ω)の時間変化を周波数成分毎に平滑化して背景雑音のパワーN(n,ω)を導出する。また背景雑音推定部1223は、エコー抑制ゲインg1(ω)の周波数毎の値と予め設定されている第2閾値との大小関係を比較する。背景雑音推定部1223は、エコー抑制ゲインg1(ω)が第2閾値以上となる周波数f3に対しては、新たに算出した背景雑音のパワーN(n,f3)を採用し、エコー抑制ゲインg1(ω)が第2閾値より小さい周波数f4に対しては、前回算出した背景雑音のパワーN(n−1,f4)を今回の背景雑音のパワーN(n,f4)に採用する。この様にして背景雑音推定部1223は、背景雑音のパワーN(n,ω)を導出し、導出した背景雑音のパワーN(n,ω)をエコー抑制ゲインg1(ω)に基づいて修正する。この様にすることで、エコーの影響を抑制した背景雑音を推定することができる。そして背景雑音推定部1223は、エコー抑制ゲインg1(ω)に基づいて修正した背景雑音のパワーN(n,ω)を補正部1224に渡す。
補正部1224は、第1抑制部12221から受け付けた第4観測音信号X4(ω)を、背景雑音のパワーN(n,ω)に基づいて補正することにより、補正後の第4観測音信号X4_r(ω)を生成する。
第3FIRフィルタ部12203は、設定されている第3フィルタ係数H3(ω)に基づいて第1観測音信号X1(ω)をフィルタリングし、フィルタリング後の第1観測音信号X1_f3(ω)を第2抑制部12222に渡す。
第4FIRフィルタ部12204は、設定されている第4フィルタ係数H4(ω)に基づいて第2観測音信号X2(ω)をフィルタリングし、フィルタリング後の第2観測音信号X2_f4(ω)を第2抑制部12222に渡す。
第2フィルタ係数導出部12212は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて第3フィルタ係数H3(ω)及び第4フィルタ係数H4(ω)を夫々導出し、導出した第3フィルタ係数H3(ω)を第3FIRフィルタ部12203へ渡し、第4フィルタ係数H4(ω)を第4FIRフィルタ部12204へ渡す。第3FIRフィルタ部12203及び第4FIRフィルタ部12204は、受け付けた第3フィルタ係数H3(ω)及び第4フィルタ係数H4(ω)を夫々設定する。
第2抑制部12222は、フィルタリング後の第1観測音信号X1_f3(ω)及び第2観測音信号X2_f4(ω)を加算することにより、音出力機構10の方向以外から到来する音を抑制した第6観測音信号のスペクトルX6(ω)(以降、第6観測音信号X6(ω)と呼ぶ)を生成する。そして第2抑制部12222は、生成した第6観測音信号X6(ω)をゲイン算出部1225へ渡す。
ゲイン算出部1225は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、第2抑制部12222から第6観測音信号X6(ω)を受け付ける。そしてゲイン算出部1225は、第1観測音信号X1(ω)と第6観測音信号X6(ω)とのスペクトル比を算出する下記の式(9)により、第1観測音信号X1(ω)に対する第6観測音信号X6(ω)の周波数成分毎の絶対値の比である出力音抑制ゲインg3(ω)を算出する。
g3(ω)=|X6(ω)|/|X1(ω)| …式(9)
但し、g3(ω):出力音抑制ゲイン
X6(ω):第6観測音信号のスペクトル
X1(ω):第1観測音信号のスペクトル
そして雑音抑制部122は、ゲイン算出部1225が算出した出力音抑制ゲインg3(ω)をエコー抑制部121に渡し、補正部1224が算出した補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。
次に本発明の実施の形態3に係る音処理装置1の処理について説明する。図18は、本発明の実施の形態3に係る音処理装置1の処理の一例を示すフローチャートである。音処理装置1の抑制機構12は、第1FFT処理部1201及び第2FFT処理部1202の処理により、受け付けた音信号をフレーム化し、フレーム化した音信号を夫々周波数軸上の成分に変換する(S301)。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて、音出力機構10の方向以外から到来する音を抑制する出力音抑制処理を実行して(S302)、第6観測音信号X6(ω)を生成し、第1観測音信号X1(ω)及び第6観測音信号X6(ω)に基づいて抑制前後の比である出力音抑制ゲインg3(ω)を算出し(S303)、算出した出力音抑制ゲインg3(ω)をエコー抑制部121に渡す。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び参照音信号Y(ω)、並びに出力音抑制ゲインg3(ω)を受け付け、第1観測音信号X1(ω)及び参照音信号Y(ω)に基づいてエコー抑制処理を実行し(S304)、第1観測音信号X1(ω)からエコーを除去した第3観測音信号X3(ω)を生成する。
また音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び出力音抑制ゲインg3(ω)に基づいて背景雑音のパワーN(n,ω)を導出する(S305)。ステップS305では、音出力機構10から出力された音の抑制前後の比を示す出力音抑制ゲインg3(ω)が、第1閾値以下である周波数成分について更新した背景雑音のパワーN(n,ω)を導出する。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、第3観測音信号X3(ω)を背景雑音のパワーN(n,ω)に基づいて補正する補正処理を実行し(S306)、補正後の第3観測音信号X3_r(ω)を生成する。ステップS306の補正処理により生成される補正後の第3観測音信号X3_r(ω)は、背景雑音を加味して推定したエコーを抑制した信号である。
そして音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び補正後の第3観測音信号X3_r(ω)に基づいてエコー抑制ゲインg1(ω)を算出し(S307)、算出したエコー抑制ゲインg1(ω)を雑音抑制部122及び統合処理部123に渡す。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し(S308)、環境雑音を抑制した第4観測音信号X4(ω)を生成する。
また音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及びエコー抑制ゲインg1(ω)に基づいて背景雑音のパワーN(n,ω)を導出する(S309)。ステップS309では、エコー抑制前後の比を示すエコー抑制ゲインg1(ω)が、第2閾値以上である周波数成分について更新した背景雑音のパワーN(n,ω)を導出する。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第4観測音信号X4(ω)を、背景雑音のパワーN(n,ω)に基づいて補正することで補正後の第4観測音信号X4_r(ω)を生成する補正処理を実行し(S310)、補正後の第4観測音信号X4_r(ω)を統合処理部123に渡す。
音処理装置1の抑制機構12は、統合処理部123の処理により、補正後の第4観測音信号X4_r(ω)にエコー抑制ゲインg1(ω)を乗じて第5観測音信号X5(ω)を生成する統合抑制処理を実行し(S311)、生成した第5観測音信号X5(ω)を出力音信号Xop(ω)として処理機構17へ出力する。ステップS311にて生成する第5観測音信号X5(ω)は、第1観測音信号X1(ω)に対してエコー抑制処理及び雑音抑制処理を施した音信号である。
そして音処理装置1の処理機構17は、出力音信号Xop(ω)に基づく音声認識等の音響処理、時間軸上の音信号に変換するIFFT処理、音としての出力処理、送信処理等の各種信号処理を実行する(S312)。
なお便宜上、各ステップは逐次的に行われる様に説明しているが、エコー抑制部121及び雑音抑制部122の処理は、実質的に並行して行われる。またエコー抑制部121は、雑音抑制部122が直前のフレームに基づいて算出した出力音抑制ゲインg3(ω)に基づいて今回のフレームに対する処理を実行し、雑音抑制部122は、エコー抑制部121が直前のフレームに基づいて算出したエコー抑制ゲインg1(ω)に基づいて今回のフレームに対する処理を実行する。但し、これらのタイミングは適宜設定することが可能である。
前記実施の形態3では、エコー抑制部及び雑音抑制部の処理の結果を相互に用いる形態を示したが、一方の結果を他方にて用いるのみの構成にする等、様々な形態に展開することが可能である。
実施の形態4.
実施の形態4は、実施の形態1において、雑音抑制部にて、話者の音声を強調した音信号を生成してエコー抑制部に渡し、エコー抑制部にて、話者の音声を強調した音信号に基づいてシングルトークの状態にあるかダブルトークの状態にあるかを判定し、その結果に基づいてエコーを抑制する形態である。以降の説明において、実施の形態1乃至実施の形態3のいずれかと同様の構成要素については、実施の形態1乃至実施の形態3と同様の符号を付すものとし、その詳細な説明を省略する。実施の形態4における音処理装置1の構成例は、図5を用いて説明した実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。
図19は、本発明の実施の形態4に係る音処理装置1が備える抑制機構12等の機構の機能構成例を示す機能ブロック図である。抑制機構12は、音処理プログラム100を実行することにより、第1FFT処理部1201及び第2FFT処理部1202と、エコー抑制部121と、雑音抑制部122と、統合処理部123と、背景雑音推定部124と、補正部125と等の各種プログラムモジュールを生成する。
エコー抑制部121は、第1観測音信号X1(ω)及び参照音信号Y(ω)と後述する第7観測音信号のスペクトルX7(ω)(以降、第7観測音信号X7(ω)と呼ぶ)とを受け付け、エコー抑制前後の観測音信号の周波数成分毎の比であるエコー抑制ゲインg1(ω)を算出する。そしてエコー抑制部121は、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し、環境雑音を抑制した第4観測音信号X4(ω)を生成する。そして雑音抑制部122は、生成した第4観測音信号X4(ω)を統合処理部123に渡す。また雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて、話者の方向から到来する音声を強調する音声強調処理を実行して第7観測音信号X7(ω)を生成する。そして雑音抑制部122は、生成した第7観測音信号X7(ω)をエコー抑制部121に渡す。
抑制機構12にて機能するエコー抑制部121について更に詳述する。図20は、本発明の実施の形態4に係る音処理装置1が備えるエコー抑制部121等の機能構成例を示す機能ブロック図である。エコー抑制部121は、適応フィルタ部1210と、除去部1211と、ゲイン算出部1212と、更に発声判定部1215と、学習スイッチ部1216と等の各種プログラムモジュールを含んでいる。
エコー抑制部121は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、第2FFT処理部1202から参照音信号Y(ω)を受け付ける。またエコー抑制部121は、雑音抑制部122から第7観測音信号X7(ω)を受け付ける。
発声判定部1215は、雑音抑制部122から受け付けた第7観測音信号X7(ω)に基づいて、話者が発声していないシングルトークの状態であるか、話者が発声しているダブルトークの状態であるかを判定する。第7観測音信号X7(ω)は、話者の方向から到来する音を、話者が発声した音声と見なして強調した音信号であるので、シングルトークかダブルトークかの判定を高精度に実行することができる。そして発声判定部1215は、判定した結果を示す判定結果信号を学習スイッチ部1216へ渡す。例えばシングルトークと判定した場合、判定結果信号として適応フィルタ部1210の学習を実行させる「オン」を示す信号を渡し、ダブルトークと判定した場合、判定結果信号として適応フィルタ部1210の学習を停止させる「オフ」を示す信号を渡す。
学習スイッチ部1216は、除去部1211から第3観測音信号X3(ω)を受け付け、発声判定部1215から判定結果信号を受け付ける。判定結果信号がシングルトークを示す「オン」である場合、学習スイッチ部1216は、適応フィルタ部1210に、第3観測音信号X3(ω)と、第3観測音信号X3(ω)に基づく学習により、フィルタ係数の算出及び更新を実行させる学習実行信号とを渡す。判定結果信号がダブルトークを示す「オフ」である場合、学習スイッチ部1216は、適応フィルタ部1210にフィルタ係数の更新を停止させる学習停止信号を渡す。
実施の形態4のエコー抑制部121は、シングルトーク及びダブルトークの高精度な判定結果に基づいて、第1観測音信号X1(ω)からエコー成分を抑制して第3観測音信号X3(ω)を生成する処理を実行する。そしてエコー抑制部121は、第1観測音信号X1(ω)に対する第3観測音信号X3(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出し、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
抑制機構12にて機能する雑音抑制部122について更に詳述する。図21は、本発明の実施の形態4に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。雑音抑制部122は、第1FIRフィルタ部12201及び第2FIRフィルタ部12202と、第1フィルタ係数導出部12211と、第1抑制部12221と、更に第5FIRフィルタ部12205及び第6FIRフィルタ部12206と、第3フィルタ係数導出部12213と、第3抑制部12223と等の各種プログラムモジュールを含んでいる。
雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付ける。
第5FIRフィルタ部12205は、設定されている第5フィルタ係数H5(ω)に基づいて第1観測音信号X1(ω)をフィルタリングし、フィルタリング後の第1観測音信号X1_f5(ω)を第3抑制部12223に渡す。
第6FIRフィルタ部12206は、設定されている第6フィルタ係数H6(ω)に基づいて第2観測音信号X2(ω)をフィルタリングし、フィルタリング後の第2観測音信号X2_f6(ω)を第3抑制部12223に渡す。
第3フィルタ係数導出部12213は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて第5フィルタ係数H5(ω)及び第6フィルタ係数H6(ω)を夫々導出し、導出した第5フィルタ係数H5(ω)を第5FIRフィルタ部12205へ渡し、第6フィルタ係数H6(ω)を第6FIRフィルタ部12206へ渡す。第5FIRフィルタ部12205及び第6FIRフィルタ部12206は、受け付けた第5フィルタ係数H5(ω)及び第6フィルタ係数H6(ω)を夫々設定する。
第3抑制部12223は、フィルタリング後の第1観測音信号X1_f5(ω)及び第2観測音信号X2_f6(ω)を加算することにより、話者の方向から到来する音を強調した第7観測音信号X7(ω)を生成する。実施の形態4において、第5FIRフィルタ部12205、第6FIRフィルタ部12206、第3フィルタ係数導出部12213及び第3抑制部12223は、話者の方向から到来する音声、即ち目的方向から到来する目的音を強調する目的音強調部として機能する。
そして雑音抑制部122は、環境雑音を抑制した第4観測音信号X4(ω)を統合処理部123に渡し、話者が発声した音声を強調した第7観測音信号X7(ω)をエコー抑制部121に渡す。なお環境雑音を抑制し、話者が発声した音声を強調するフィルタ係数を設定して第4観測音信号X4(ω)を生成することにより、第4観測音信号X4(ω)を第7観測音信号X7(ω)としても用いることが可能となり、また雑音抑制部122の構成を簡略化することが可能となる。
次に本発明の実施の形態4に係る音処理装置1の処理について説明する。図22は、本発明の実施の形態4に係る音処理装置1の処理の一例を示すフローチャートである。音処理装置1の抑制機構12は、第1FFT処理部1201及び第2FFT処理部1202の処理により、受け付けた音信号をフレーム化し、フレーム化した音信号を夫々周波数軸上の成分であるスペクトルに変換する(S401)。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて、話者の方向から到来する音を、音声と見なして強調する音声強調処理を実行して(S402)、第7観測音信号X7(ω)を生成し、生成した第7観測音信号X7(ω)をエコー抑制部121に渡す。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び参照音信号Y(ω)、並びに第7観測音信号X7(ω)を受け付ける。そして音処理装置1の抑制機構12は、エコー抑制部121の処理により、第7観測音信号X7(ω)に基づいてシングルトークの状態であるかダブルトークの状態であるかを判定する発声判定処理を実行し(S403)、判定結果に基づき、適応フィルタ部1210のフィルタ係数について、第3観測音信号X3(ω)に基づく学習によるフィルタ係数の更新の要否を決定する(S404)。ステップS403及びS404では、発声判定部1215及び学習スイッチ部1216の処理により、適応フィルタ部1210のフィルタ係数の更新の要否の判定及び決定を行う。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び参照音信号Y(ω)、並びにフィルタ係数の更新の要否の決定結果に基づいてエコー抑制処理を実行し(S405)、第1観測音信号X1(ω)からエコーを除去した第3観測音信号X3(ω)を生成する。
そして音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び第3観測音信号X3(ω)に基づいてエコー抑制ゲインg1(ω)を算出し(S406)、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し(S407)、環境雑音を抑制した第4観測音信号X4(ω)を統合処理部123に渡す。
そして音処理装置1は、実施の形態1のフローチャートに示したステップS105以降の処理を実行する。なお便宜上、各ステップは逐次的に行われる様に説明しているが、エコー抑制部121及び雑音抑制部122の処理は、実質的に並行して行われる。この様に実施の形態4では、話者の発声した音声を強調した音信号に基づいてシングルトークの状態かダブルトークの状態かを高精度に判定することが可能となる。
実施の形態5.
実施の形態5は、実施の形態1において、雑音抑制部にて、話者の音声を抑制した音信号を生成してエコー抑制部に渡し、エコー抑制部にて、話者の音声を抑制した音信号を加味してエコーを抑制する形態である。以降の説明において、実施の形態1乃至実施の形態4のいずれかと同様の構成要素については、実施の形態1乃至実施の形態4と同様の符号を付すものとし、その詳細な説明を省略する。実施の形態5における音処理装置1の構成例は、図5を用いて説明した実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。
図23は、本発明の実施の形態5に係る音処理装置1が備える抑制機構12等の機構の機能構成例を示す機能ブロック図である。抑制機構12は、音処理プログラム100を実行することにより、第1FFT処理部1201及び第2FFT処理部1202と、エコー抑制部121と、雑音抑制部122と、統合処理部123と、背景雑音推定部124と、補正部125と等の各種プログラムモジュールを生成する。
エコー抑制部121は、第1観測音信号X1(ω)及び参照音信号Y(ω)と後述する第8観測音信号のスペクトルX8(ω)(以降、第8観測音信号X8(ω)と呼ぶ)とを受け付け、エコー抑制前後の観測音信号の周波数成分毎の比であるエコー抑制ゲインg1(ω)を算出する。そしてエコー抑制部121は、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し、環境雑音を抑制した第4観測音信号X4(ω)を生成する。そして雑音抑制部122は、生成した第4観測音信号X4(ω)を統合処理部123に渡す。また雑音抑制部122は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて、話者の方向から到来する音声を抑制する音声抑制処理を実行して第8観測音信号X8(ω)を生成する。そして雑音抑制部122は、生成した第8観測音信号X8(ω)をエコー抑制部121に渡す。
抑制機構12にて機能するエコー抑制部121について更に詳述する。図24は、本発明の実施の形態5に係る音処理装置1が備えるエコー抑制部121等の機能構成例を示す機能ブロック図である。エコー抑制部121は、適応フィルタ部1210と、第1除去部12111と、ゲイン算出部1212と、更に第2除去部12112と等の各種プログラムモジュールを含んでいる。なお第1除去部12111は、実施の形態1にて説明した除去部1211と同様の処理を実行する。
エコー抑制部121は、第1FFT処理部1201から第1観測音信号X1(ω)を受け付け、第2FFT処理部1202から参照音信号Y(ω)を受け付ける。またエコー抑制部121は、雑音抑制部122から第8観測音信号X8(ω)を受け付ける。
第2除去部12112は、第8観測音信号X8(ω)からエコー成分を減算し、適応フィルタ部1210に渡す。
第1観測音信号X1(ω)から音声が抑制された第8観測音信号X8(ω)には、話者の発声を含むダブルトークの状態が存在しないと見なすことができるので、実施の形態5の適応フィルタ部1210は、シングルトークだけの音信号に基づいて、高精度にエコーを抑制することができる。そしてエコー抑制部121は、第1観測音信号X1(ω)に対する第3観測音信号X3(ω)の周波数成分毎の絶対値の比の値であるエコー抑制ゲインg1(ω)を算出し、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
抑制機構12にて機能する雑音抑制部122について更に詳述する。図25は、本発明の実施の形態5に係る音処理装置1が備える雑音抑制部122等の機能構成例を示す機能ブロック図である。雑音抑制部122は、第1FIRフィルタ部12201及び第2FIRフィルタ部12202と、第1フィルタ係数導出部12211と、第1抑制部12221と、更に第7FIRフィルタ部12207及び第8FIRフィルタ部12208と、第4フィルタ係数導出部12214と、第4抑制部12224と等の各種プログラムモジュールを含んでいる。
雑音抑制部122は、第1FFT処理部1201から第1観測音信号X1(ω)及び第2観測音信号X2(ω)を受け付ける。
第7FIRフィルタ部12207は、設定されている第7フィルタ係数H7(ω)に基づいて第1観測音信号X1(ω)をフィルタリングし、フィルタリング後の第1観測音信号X1_f7(ω)を第4抑制部12224に渡す。
第8FIRフィルタ部12208は、設定されている第8フィルタ係数H8(ω)に基づいて第2観測音信号X2(ω)をフィルタリングし、フィルタリング後の第2観測音信号X2_f8(ω)を第4抑制部12224に渡す。
第4フィルタ係数導出部12214は、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて第7フィルタ係数H7(ω)及び第8フィルタ係数H8(ω)を夫々導出し、導出した第7フィルタ係数H7(ω)を第7FIRフィルタ部12207へ渡し、第8フィルタ係数H8(ω)を第8FIRフィルタ部12208へ渡す。第7FIRフィルタ部12207及び第8FIRフィルタ部12208は、受け付けた第7フィルタ係数H7(ω)及び第8フィルタ係数H8(ω)を夫々設定する。
第4抑制部12224は、フィルタリング後の第1観測音信号X1_f7(ω)及び第2観測音信号X2_f8(ω)を加算することにより、話者の方向から到来する音を抑制した第8観測音信号X8(ω)を生成する。実施の形態5において、第7FIRフィルタ部12207、第8FIRフィルタ部12208、第4フィルタ係数導出部12214及び第4抑制部12224は、話者の方向から到来する音声、即ち要抑制方向から到来する要抑制音を抑制する要抑制音抑制部として機能する。
そして雑音抑制部122は、環境雑音を抑制した第4観測音信号X4(ω)を統合処理部123に渡し、話者が発声した音声を抑制した第8観測音信号X8(ω)をエコー抑制部121に渡す。
次に本発明の実施の形態5に係る音処理装置1の処理について説明する。図26は、本発明の実施の形態5に係る音処理装置1の処理の一例を示すフローチャートである。音処理装置1の抑制機構12は、第1FFT処理部1201及び第2FFT処理部1202の処理により、受け付けた音信号をフレーム化し、フレーム化した音信号を夫々周波数軸上の成分であるスペクトルに変換する(S501)。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて、話者の方向から到来する音を、音声と見なして抑制する音声抑制処理を実行して(S502)、第8観測音信号X8(ω)を生成し、生成した第8観測音信号X8(ω)をエコー抑制部121に渡す。
音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び参照音信号Y(ω)、並びに第8観測音信号X8(ω)を受け付ける。そして音処理装置1の抑制機構12は、エコー抑制部121の処理により、第8観測音信号X8(ω)からエコー成分を減算することでエコーを除去するエコー減算処理を実行し(S503)、エコー減算処理の結果及び参照音信号Y(ω)に基づいて、参照音信号Y(ω)に基づく音に起因するエコー成分を推定し、推定したエコー成分を第1観測音信号X1(ω)から除去するエコー抑制処理を実行し(S504)、第3観測音信号X3(ω)を生成する。
そして音処理装置1の抑制機構12は、エコー抑制部121の処理により、第1観測音信号X1(ω)及び第3観測音信号X3(ω)に基づいてエコー抑制ゲインg1(ω)を算出し(S505)、算出したエコー抑制ゲインg1(ω)を統合処理部123に渡す。
音処理装置1の抑制機構12は、雑音抑制部122の処理により、第1観測音信号X1(ω)及び第2観測音信号X2(ω)に基づいて雑音抑制処理を実行し(S506)、環境雑音を抑制した第4観測音信号X4(ω)を統合処理部123に渡す。
そして音処理装置1は、実施の形態1のフローチャートに示したステップS105以降の処理を実行する。なお便宜上、各ステップは逐次的に行われる様に説明しているが、エコー抑制部121及び雑音抑制部122の処理は、実質的に並行して行われる。この様に実施の形態5では、話者の発声した音声を抑制した音信号に基づいてエコーを高精度に推定することが可能となる。
前記実施の形態1乃至5は、本発明の無限にある実施の形態の一部を例示したに過ぎず、各種ハードウェア及びソフトフェア等の構成は、適宜設定することが可能であり、また例示した基本的な処理以外にも様々な処理を組み合わせることが可能である。例えば本発明の音処理装置を、例示した装置以外の音声、音響に係る様々なシステムに適用することが可能である。また前記実施の形態1乃至5で説明した音処理装置を、音信号を出力する音出力装置と、受音機構を備える受音装置と、エコー抑制及び雑音抑制を行う音処理装置との三の装置という様に複数の装置として構成する様にしても良く、また受音機構についても三以上備えていても良い。そして例えばエコー抑制に際し、エコーの推定にどの受音機構に係る観測音信号を用いるか等、様々な形態に展開することが可能である。さらに前記実施の形態1乃至5は夫々独立して実現されるのではなく、適宜組み合わせることも可能である。

Claims (10)

  1. 音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能であり、前記受音部が出力した音信号を処理する音処理装置において、
    前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換する変換部と、
    前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制するエコー抑制部と、
    前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制する雑音抑制部と、
    前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制する統合処理部と
    を備えることを特徴とする音処理装置。
  2. 前記統合処理部は、
    前記エコー抑制前後の観測音信号の周波数成分毎の比及び前記雑音抑制後の観測音信号の積、
    又は、
    前記雑音抑制前後の観測音信号の周波数成分毎の比及び前記エコー抑制後の観測音信号の積
    に基づいてエコー及び雑音を抑制した観測音信号を求める様にしてある
    ことを特徴とする請求項1に記載の音処理装置。
  3. 前記雑音抑制部は、更に、
    前記変換後の観測音信号に基づいて背景雑音を導出する背景雑音導出部を有し、
    前記エコー抑制前後の観測音信号の周波数成分毎の比と、前記背景雑音導出部にて導出した背景雑音との積を加味して雑音を抑制する様にしてある
    ことを特徴とする請求項1又は請求項2に記載の音処理装置。
  4. 前記雑音抑制部は、更に、
    前記音出力部の方向から到来したと推定した音の周波数成分を、前記変換後の観測音信号から抑制する出力音抑制部を有し、
    前記エコー抑制部は、更に、
    前記変換後の観測音信号のうち、前記出力音抑制部による抑制前後の比が所定値以下である周波数成分に基づいて背景雑音を導出する背景雑音導出部を有し、
    前記エコー抑制部は、前記背景雑音導出部が導出した背景雑音を加味して推定したエコーを抑制する様にしてある
    ことを特徴とする請求項1又は請求項2に記載の音処理装置。
  5. 前記雑音抑制部は、更に、
    前記変換後の観測音信号のうち、前記エコー抑制前後の比が所定値を超える周波数成分に基づいて背景雑音を導出する背景雑音導出部を有し、
    前記雑音抑制部は、前記背景雑音導出部が導出した背景雑音を加味して雑音を抑制する様にしてある
    ことを特徴とする請求項4に記載の音処理装置。
  6. 前記背景雑音導出部は、前記変換後の観測音信号の時間変化を周波数成分毎に平滑化して背景雑音を導出するようにしてあることを特徴とする請求項3乃至請求項5のいずれかに記載の音処理装置。
  7. 前記雑音制御部は、更に、
    前記変換後の観測音信号に対し、所定の目的方向から到来したと推定した音信号の周波数成分の強調処理及び/又は目的方向以外の方向から到来したと推定した音信号の周波数成分の抑制処理により、目的方向から到来する目的音を強調する目的音強調部を有し、
    前記エコー抑制部は、更に、
    前記変換後の参照音信号に基づいて、周波数毎に算出及び更新されたフィルタ係数にてフィルタリングすることにより、前記変換後の観測音信号から抑制すべきエコー成分を導出するフィルタ部と、
    前記目的音強調部にて目的音を強調した観測音信号に基づいて、前記フィルタ部のフィルタ係数の更新の要否を判定する更新要否判定部と
    を有する
    ことを特徴とする請求項1又は請求項2に記載の音処理装置。
  8. 前記雑音制御部は、
    所定の要抑制方向から到来したと推定した音信号の周波数成分を、前記変換後の観測音信号から抑制することで、要抑制方向から到来する音を抑制する要抑制音抑制部を有し、
    前記エコー抑制部は、
    前記変換後の参照音信号を、周波数毎に算出及び更新されたフィルタ係数にてフィルタリングすることにより、抑制すべきエコー成分を導出するフィルタ部を有し、
    該フィルタ部は、前記変換後の参照音信号及び前記要抑制音を抑制した観測音信号に基づいて、フィルタ係数を算出及び更新する様にしてある
    ことを特徴とする請求項1又は請求項2に記載の音処理装置。
  9. 音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能な音処理装置に実行させる音処理方法において、
    前記音処理装置が、
    前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換するステップと、
    前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制するステップと、
    前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制するステップと、
    前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制するステップと
    を実行することを特徴とする音処理方法。
  10. 音信号に基づいて音を出力する音出力部、及び入力した音に基づいて音信号を出力する複数の受音部と連携可能なコンピュータを音処理装置として機能させる音処理プログラムにおいて、
    コンピュータに、
    前記音出力部に出力させる音の基となる参照音信号、及び前記複数の受音部が出力した夫々の音信号に基づく観測音信号を、周波数軸上の成分に変換する手順と、
    前記変換後の参照音信号に基づく音に起因するエコーを推定し、推定したエコーを前記変換後の観測音信号から周波数成分毎に抑制する手順と、
    前記複数の受音部に入力した夫々の音の時間差から求まる音の到来方向に基づいて雑音を推定し、推定した雑音を前記変換後の観測音信号から周波数成分毎に抑制する手順と、
    前記エコー抑制後の観測音信号及び前記雑音抑制後の観測音信号に基づいて、前記変換後の観測音信号から周波数成分毎にエコー及び雑音を抑制する手順と
    を実行させることを特徴とする音処理プログラム。
JP2009554158A 2008-02-20 2008-02-20 音処理装置、音処理方法及び音処理プログラム Expired - Fee Related JP4957810B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/052843 WO2009104252A1 (ja) 2008-02-20 2008-02-20 音処理装置、音処理方法及び音処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2009104252A1 true JPWO2009104252A1 (ja) 2011-06-16
JP4957810B2 JP4957810B2 (ja) 2012-06-20

Family

ID=40985147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009554158A Expired - Fee Related JP4957810B2 (ja) 2008-02-20 2008-02-20 音処理装置、音処理方法及び音処理プログラム

Country Status (3)

Country Link
US (1) US8462962B2 (ja)
JP (1) JP4957810B2 (ja)
WO (1) WO2009104252A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9343073B1 (en) * 2010-04-20 2016-05-17 Knowles Electronics, Llc Robust noise suppression system in adverse echo conditions
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
EP2487801B1 (en) * 2011-02-10 2018-09-05 Nxp B.V. Method and apparatus for reducing or removing click noise
US9307321B1 (en) 2011-06-09 2016-04-05 Audience, Inc. Speaker distortion reduction
WO2013054448A1 (ja) * 2011-10-14 2013-04-18 富士通株式会社 音処理装置、音処理方法及びプログラム
US20160275961A1 (en) * 2015-03-18 2016-09-22 Qualcomm Technologies International, Ltd. Structure for multi-microphone speech enhancement system
JP6729187B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
JP6973484B2 (ja) * 2017-06-12 2021-12-01 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法
US10192567B1 (en) 2017-10-18 2019-01-29 Motorola Mobility Llc Echo cancellation and suppression in electronic device
US11430421B2 (en) 2017-11-01 2022-08-30 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
JP2020202448A (ja) * 2019-06-07 2020-12-17 ヤマハ株式会社 音響装置および音響処理方法
WO2021107925A1 (en) * 2019-11-26 2021-06-03 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
CN113874938B (zh) * 2020-03-31 2022-08-19 华为技术有限公司 一种音频去噪方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6563925B1 (en) * 1999-04-07 2003-05-13 Ericsson Inc. Method and apparatus for space-time echo cancellation
JP2001045592A (ja) 1999-06-29 2001-02-16 Alexander Goldin 雑音キャンセル式マイクロホンアレイ
JP3727258B2 (ja) * 2001-08-13 2005-12-14 富士通株式会社 エコー抑制処理システム
US7003099B1 (en) * 2002-11-15 2006-02-21 Fortmedia, Inc. Small array microphone for acoustic echo cancellation and noise suppression
EP1592282B1 (en) * 2003-02-07 2007-06-13 Nippon Telegraph and Telephone Corporation Teleconferencing method and system
JP4080987B2 (ja) 2003-10-30 2008-04-23 日本電信電話株式会社 エコー・雑音抑制方法および多チャネル拡声通話システム
US20060034476A1 (en) * 2004-08-12 2006-02-16 Cardo Corp. Headset case arrangement for wind control
ATE413769T1 (de) * 2004-09-03 2008-11-15 Harman Becker Automotive Sys Sprachsignalverarbeitung für die gemeinsame adaptive reduktion von störgeräuschen und von akustischen echos
US8761385B2 (en) * 2004-11-08 2014-06-24 Nec Corporation Signal processing method, signal processing device, and signal processing program
EP1715669A1 (en) * 2005-04-19 2006-10-25 Ecole Polytechnique Federale De Lausanne (Epfl) A method for removing echo in an audio signal
DE602005015426D1 (de) * 2005-05-04 2009-08-27 Harman Becker Automotive Sys System und Verfahren zur Intensivierung von Audiosignalen
US20070047743A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and apparatus for improving noise discrimination using enhanced phase difference value
JP4863713B2 (ja) 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
JP4769323B2 (ja) * 2007-03-29 2011-09-07 旭化成株式会社 信号処理装置、エコーキャンセラ、信号処理方法
EP2058804B1 (en) * 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
US8625775B2 (en) * 2009-08-06 2014-01-07 Hti Ip, L.L.C. Method and system for reducing echo and noise in a vehicle passenger compartment environment

Also Published As

Publication number Publication date
US20110019832A1 (en) 2011-01-27
JP4957810B2 (ja) 2012-06-20
US8462962B2 (en) 2013-06-11
WO2009104252A1 (ja) 2009-08-27

Similar Documents

Publication Publication Date Title
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
JP4916394B2 (ja) エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
JP3727258B2 (ja) エコー抑制処理システム
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
JP5071480B2 (ja) エコー抑制装置、エコー抑制システム、エコー抑制方法及びコンピュータプログラム
WO2010035308A1 (ja) エコー消去装置
JP5391103B2 (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
KR20100003530A (ko) 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
KR101182017B1 (ko) 휴대 단말기에서 복수의 마이크들로 입력된 신호들의잡음을 제거하는 방법 및 장치
JP5662232B2 (ja) エコー消去装置、その方法及びプログラム
US10129410B2 (en) Echo canceller device and echo cancel method
JP5469564B2 (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム
JP3756839B2 (ja) 反響低減方法、反響低減装置、反響低減プログラム
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2008005094A (ja) エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体
JP4700673B2 (ja) エコー消去方法、装置、プログラム、および記録媒体
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
JP6143702B2 (ja) エコー消去装置、その方法及びプログラム
JP5228903B2 (ja) 信号処理装置および方法
WO2018229821A1 (ja) 信号処理装置、遠隔会議装置、および信号処理方法
EP3667662B1 (en) Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
JP4247203B2 (ja) 自動音量制御方法、自動音量制御装置、プログラム、記録媒体
JP4478045B2 (ja) エコー消去装置、エコー消去方法、エコー消去プログラムおよびその記録媒体
JP6356087B2 (ja) エコー消去装置、その方法及びプログラム
JP2006014359A (ja) エコー抑制処理システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130806

LAPS Cancellation because of no payment of annual fees