JPWO2020110228A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JPWO2020110228A1
JPWO2020110228A1 JP2020557460A JP2020557460A JPWO2020110228A1 JP WO2020110228 A1 JPWO2020110228 A1 JP WO2020110228A1 JP 2020557460 A JP2020557460 A JP 2020557460A JP 2020557460 A JP2020557460 A JP 2020557460A JP WO2020110228 A1 JPWO2020110228 A1 JP WO2020110228A1
Authority
JP
Japan
Prior art keywords
sound
microphone
observation
time
observed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020557460A
Other languages
English (en)
Other versions
JP6840302B2 (ja
Inventor
訓 古田
訓 古田
松岡 文啓
文啓 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6840302B2 publication Critical patent/JP6840302B2/ja
Publication of JPWO2020110228A1 publication Critical patent/JPWO2020110228A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

観測音から生成された第1の観測デジタル信号及び第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部(104)と、第1のスペクトル成分及び第2のスペクトル成分の相互相関関数を用いて、観測音が、第1のマイクロホンに到来する時間と、第2のマイクロホンに到来する時間との時間差により、目的とする音が到来する第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部(105)と、第1のスペクトル成分に対して、フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部(110)とを備える。

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。
近年のデジタル信号処理技術の進展に伴い、自動車内又は家庭のリビングでの音声認識によるハンズフリー音声操作、又は、手ぶらで電話するためのハンズフリー通話が広く普及している。また、機械の発する異常音又は人の悲鳴等の音を捉えて検知する異常音監視システムも開発されてきている。
これらハンズフリー音声操作システム、ハンズフリー通話システム又は異常音監視システムは、走行する自動車内、工場内、オフィス、又は、家庭のリビング等の様々な雑音環境下において、音声又は異常音等の目的音を収集するためにマイクロホンが設置される。しかしながら、そのようなマイクロホンは、目的音だけでなく、その目的音以外の周囲雑音及び他の音声(以下、妨害音と称する)を収集してしまう。
音声から個別に目的音を取り出す方法として、例えば、複数のマイクロホンを用いる場合、信号処理により目的音方向に指向性を向けたり、あるいは妨害音に死角を向けたりするようなビームフォーミングによる方法、又は、独立成分分析により混合行列を推定する方法等がある。但し、ビームフォーミングは、ノイズの抑圧には優れているが、音声の分離にはあまり有効でなく、独立成分分析は、残響又は騒音の影響で性能が低下する問題がある。更に、一般に実環境においては、妨害音の騒音源の数も1つとは限らず、マイクロホン数より多くの音源を分離するのに対応困難であるという制約がある。
これらに対し、目的音信号と妨害音信号とが時間周波数領域上で互いに重ならないというスパース性の仮定の下で、目的音以外の周波数成分をマスクして音源信号を分離する、バイナリマスキングと呼ばれる方法が提案されている。バイナリマスキングは、実装が容易で方向性を有する妨害音を抑圧するのに有効な方法である。
このバイナリマスキングに基づく方法として、特許文献1に開示されている技術がある。特許文献1には、パワースペクトルの振幅差を意図的に生じさせることで、スパース性が保証されない混合音声に対するバイナリマスキングの精度を高める方法が開示されている。
特開2010−239424号公報
しかしながら、従来の方法では、主マイク入力信号と副マイク入力信号のパワースペクトル間に意図的にパワー差を生じさせるため、マスク係数に誤差が生ずる問題がある。
本発明の1又は複数の態様は、かかる問題を解決するためになされたもので、高品質な目的信号を容易に得ることができるようにすることを目的とする。
本発明の1態様に係る情報処理装置は、第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備えることを特徴とする。
本発明の1態様に係るプログラムは、コンピュータを、第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させることを特徴とする。
本発明の1態様に係る情報処理方法は、第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成することを特徴とする。
本発明の1又は複数の態様によれば、高品質な目的信号を容易に得ることができる。
実施の形態1及び3に係る音源分離装置の構成を概略的に示すブロック図である。 実施の形態1〜3におけるマスク生成部の内部構成を概略的に示すブロック図である。 第1のマイクロホン及び第2のマイクロホンの配置と、目的音の到来方向を説明するための概略図である。 (A)〜(C)は、目的音話者と妨害音話者が発話した場合の発話量比を説明するためのグラフである。 (A)及び(B)は、実施の形態1における効果を説明するためのグラフである。 音源分離装置の第1のハードウェア構成例を示すブロック図である。 音源分離装置の第2のハードウェア構成例を示すブロック図である。 音源分離装置の動作を示すフローチャートである。 実施の形態2に係る音源分離装置を含む情報処理システムの構成を概略的に示すブロック図である。 目的音及び妨害音以外の雑音の影響を除外する方法の一例を示す模式図である。
実施の形態1.
図1は、実施の形態1に係る情報処理装置としての音源分離装置100の構成を概略的に示すブロック図である。
音源分離装置100は、アナログ/デジタル変換部(以下、A/D変換部という)103と、時間/周波数変換部(以下、T/F変換部という)104と、マスク生成部105と、マスキングフィルタ部110と、時間/周波数逆変換部(以下、T/F逆変換部という)111と、デジタル/アナログ変換部(以下、D/A変換部という)112とを備える。
音源分離装置100は、第1のマイクロホン101及び第2のマイクロホン102に接続されている。
図2は、マスク生成部105の内部構成を概略的に示すブロック図である。
マスク生成部105は、マスク係数算出部106と、発話量比算出部107と、ゲイン算出部108と、マスク修正部109とを備える。
以下、図1及び図2に基づいて、実施の形態1の音源分離装置100の構成及びその動作原理を説明する。音源分離装置100は、第1のマイクロホン101及び第2のマイクロホン102で取得された時間領域の信号から生成された、周波数領域における信号に基づいて、マスキングフィルタを形成し、それを第1のマイクロホン101で取得された信号に対応する周波数領域の信号に掛けることで、妨害音が除去された目的音の出力信号を得る構成となっている。
ここで、第1のマイクロホン101で取得された第1の観測アナログ信号を第1のチャンネルCh1ともいい、第2のマイクロホン102で取得された第2の観測アナログ信号を第2のチャンネルCh2ともいう。
また、以降の説明を簡単にするため、図3に示されているように、第1のマイクロホン101と、第2のマイクロホン102とは、同一水平面に位置し、かつ、それらの位置は既知であり、かつ、時間で変化しないものとする。さらに、目的音及び妨害音が到来し得る方向範囲についても時間で変化しないものとする。なお、目的音が到来する方向を第1の方向ともいい、妨害音が到来する方向を第2の方向ともいう。
ここでは、目的音及び妨害音は、それぞれ別の単一話者による音声であるものとして説明する。
第1のマイクロホン101は、観測音を電気信号に変換することで、第1の観測アナログ信号を生成する。第1の観測アナログ信号は、A/D変換部103に与えられる。
第2のマイクロホン102は、観測音を電気信号に変換することで、第2の観測アナログ信号を生成する。第2の観測アナログ信号は、A/D変換部103に与えられる。
A/D変換部103は、第1のマイクロホン101から与えられた第1の観測アナログ信号及び第2のマイクロホン102から与えられた第2の観測アナログ信号のそれぞれに対して、アナログ/デジタル変換(以下、A/D変換という)を行うことで、それぞれをデジタル信号に変換し、第1の観測デジタル信号及び第2の観測デジタル信号を生成する。
例えば、A/D変換部103は、第1のマイクロホン101から与えられた第1の観測アナログ信号に対して、予め定められたサンプリング周波数でサンプリングして、フレーム単位で分割されたデジタル信号に変換することで、第1の観測デジタル信号を生成する。同様に、A/D変換部103は、第2のマイクロホン102から与えられた第2の観測アナログ信号に対して、予め定められたサンプリング周波数でサンプリングして、フレーム単位で分割されたデジタル信号に変換することで、第2の観測デジタル信号を生成する。ここで、サンプリング周波数は、例えば、16kHzであり、フレーム単位は、例えば、16msである。
なお、サンプル番号tに対応するフレーム間隔における第1の観測アナログ信号から生成された第1の観測デジタル信号を、符号x(t)で表し、サンプル番号tに対応するフレーム間隔における第2の観測アナログ信号から生成された第2の観測デジタル信号を、符号x(t)で表す。
第1の観測デジタル信号x(t)及び第2の観測デジタル信号x(t)は、T/F変換部104に与えられる。
T/F変換部104は、第1の観測デジタル信号x(t)及び第2の観測デジタル信号x(t)を受けて、時間領域の第1の観測デジタル信号x(t)及び第2の観測デジタル信号x(t)を、周波数領域の第1の短時間スペクトル成分X(ω,τ)及び第2の短時間スペクトル成分X(ω,τ)に変換する。但し、ωは、離散周波数であるスペクトル番号、τは、フレーム番号を表す。
具体的には、T/F変換部104は、第1の観測デジタル信号x(t)に対して、例えば、512点の高速フーリエ変換を行うことで、第1の短時間スペクトル成分X(ω,τ)を生成する。同様に、T/F変換部104は、第2の観測デジタル信号x(t)から、第2の短時間スペクトル成分X(ω,τ)を生成する。
なお、以下では、特に断わりのない限り、現フレームの短時間スペクトル成分は、単にスペクトル成分としてその記載を省略する。
マスク生成部105は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)を受けて、目的音を分離するためのマスキングを行うフィルタリング係数である時間周波数フィルタ係数bmod(ω,τ)を算出する。例えば、マスク生成部105は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)の相互相関関数を用いて、観測音が、第1のマイクロホン101に到来する時間と、第2のマイクロホン102に到来する時間との時間差により、目的音が到来する第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出する。
時間周波数フィルタ係数bmod(ω,τ)を求めるにあたり、図3に示されているように、第1のマイクロホン101及び第2のマイクロホン102が設けられている水平面において、第1のマイクロホン101の垂直方向V及び第2のマイクロホン102の垂直方向Vに対して、予め定められた角度θに含まれる方向から、目的音が到来するものとする。なお、妨害音は、第1のマイクロホン101の垂直方向V及び第2のマイクロホン102の垂直方向Vに対して、目的音とは反対の側から到来するものとする。
ここで、第1のマイクロホン101の垂直方向V及び第2のマイクロホン102の垂直方向Vは、第1のマイクロホン101及び第2のマイクロホン102を結ぶ直線に対して、垂直になっているものとする。なお、第1のマイクロホン101の垂直方向V及び第2のマイクロホン102の垂直方向Vは、予め定められている基準方向であって、必ずしも垂直方向である必要はない。
また、第1のマイクロホン101と第2のマイクロホン102との間隔は、間隔dとなっているものとする。
第1のマイクロホン101及び第2のマイクロホン102で集音された音声が、目的音か妨害音かを判別するには、第1のマイクロホン101及び第2のマイクロホン102からの信号を用いて音声到来方向が所望の範囲であるかどうかを推定する必要がある。ここで、第1のマイクロホン101及び第2のマイクロホン102からの信号間に生じる時間差は、角度θによって決まるため、この時間差を利用することで到来方向の推定が可能となる。以下、図2及び図3を用いて説明する。
マスク係数算出部106は、まず、下記の式(1)に示すように、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)の相互相関関数からクロススペクトルD(ω,τ)を算出する。そして、マスク係数算出部106は、算出されたクロススペクトルD(ω,τ)を、発話量比算出部107に与える。
Figure 2020110228
次に、マスク係数算出部106は、クロススペクトルD(ω,τ)のフェイズΘ(ω,τ)を、下記の式(2)を用いて求める。
Figure 2020110228
ここで、Q(ω,τ)及びK(ω,τ)のそれぞれは、クロススペクトルD(ω,τ)の虚数部及び実数部のそれぞれを表す。
上記の式(2)で得られたフェイズΘ(ω,τ)は、第1のチャンネルCh1及び第2のチャンネルCh2のそれぞれのスペクトル成分毎の位相角を意味し、これを離散周波数ωで除算したものは、2つの信号間の時間遅れを表す。すなわち、第1のチャンネルCh1及び第2のチャンネルCh2の時間差δ(ω,τ)は、下記の式(3)のように表すことができる。
Figure 2020110228
次に、音声が角度θの方向から到来するときに観測される時間差の理論値δθは、間隔dを使って、下記の式(4)のように表すことができる。但し、cは音速である。
Figure 2020110228
ここで、θ>θthを満たすθの集合を、所望の方向範囲とするならば、理論的な時間差δθ_thと、観測アナログ信号の時間差δ(ω,τ)との大小を比較することで、音声が所望の方向範囲から到来しているかどうかを推定することができる。
そのため、目的音を分離するためのマスキングを行うマスク係数b(ω,τ)は、下記の式(5)のように表すことができる。
Figure 2020110228
言い換えると、マスク係数算出部106は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)の相互相関関数を用いて、目的音が、第1のマイクロホン101に到来する時間と、第2のマイクロホン102に到来する時間との第1の時間差、及び、妨害音が第1のマイクロホン101に到来する時間と、第2のマイクロホン102に到来する時間との第2の時間差から、観測音の内、目的音が到来する第1の方向を含む第1の範囲から到来する音と、妨害音が到来する第2の方向を含む第2の範囲から到来する音とを区別して、第1の範囲に含まれる方向から到来する音のスペクトル成分を、第2の範囲に含まれる方向から到来する音のスペクトル成分から分離するためのマスク係数を算出する。
式(5)で示されるマスク係数b(ω,τ)は、目的音と推定される場合には1、妨害音と推定される場合にはMとなる。ここで、M=0とする場合には、1又は0の二値(バイナリ)とするマスク係数となるため、そのようなマスク係数を有するフィルタは、バイナリマスクと呼ばれる。なお、フィルタ係数として、二値以外の小数が用いられてもよく、この場合のフィルタは、ソフトマスクとも呼ばれる。但し、フィルタ係数は、目的音及び妨害音のいずれも1未満の値となる。本実施の形態では、例えば、M=0.5を用いるものとする。
マスク係数算出部106は、マスク係数b(ω,τ)を、マスク修正部109に与える。
発話量比算出部107は、第1のチャンネルCh1の第1のスペクトル成分X(ω,τ)と、第2のチャンネルCh2の第2のスペクトル成分X(ω,τ)と、クロススペクトルD(ω,τ)とを受け、目的音話者の発話量と妨害音話者の発話量との比率である発話量比を算出する。言い換えると、発話量比は、第1のスペクトル成分X(ω,τ)の内、目的音が到来する第1の方向を含む第1の範囲から到来する音のスペクトル成分の量の、妨害音が到来する第2の方向を含む第2の範囲から到来する音のスペクトル成分の量に対する比率である。
まず、発話量比算出部107は、第1のチャンネルCh1の第1のスペクトル成分X(ω,τ)から、第1のチャンネルCh1の第1のパワースペクトルP(ω,τ)を、下記の式(6)から求める。
Figure 2020110228
ただし、XReは、第1のスペクトル成分X(ω,τ)の実数部であり、XImは、第1のスペクトル成分X(ω,τ)の虚数部である。
続いて、発話量比算出部107は、上記の式(1)に示されているクロススペクトルD(ω,τ)の虚数部Q(ω,τ)の符号により、対象となる音声の観測アナログ信号が、目的音側から到来しているのか、妨害音側から到来しているのかを判定する。そして、発話量比算出部107は、下記の式(7)に示されているように、符号の判定結果に従って第1のチャンネルCh1の第1のパワースペクトルP1(ω,τ)を加算し、目的音話者の発話量sTgt(τ)、及び、妨害音話者の発話量sInt(τ)をそれぞれ求める。
Figure 2020110228
ここで、Nは、離散周波数スペクトルの総数であり、例えば、N=256である。
そして、発話量比算出部107は、得られた2つの発話量sTgt(τ)及びsInt(τ)から、下記の式(8)により、発話量比SR(τ)を得る。
Figure 2020110228
図4(A)〜(C)は、目的音話者と妨害音話者が発話した場合の発話量比SR(τ)を説明するためのグラフである。
図4(A)は、第1のマイクロホン101で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図4(B)は、目的音話者と妨害音話者との発話量の時間変動の一例を示すグラフである。
図4(C)は、目的音話者の発話量と、妨害音話者の発話量とから得られた発話量比SR(τ)の時間変動の一例を示すグラフである。
図4(C)に示されているように、SR(τ)<0.3を満たすフレームの場合は、妨害音のみの可能性が高い一方、SR(τ)>0.5を満たすフレームの場合は、目的音のみの可能性が高いことが分かる。
また、0.3≦SR(τ)≦0.5の場合は、目的音も妨害音も両方存在する場合とみなすことができる。
よって、上記の式(8)で得られた発話量比SR(τ)を用い、観測アナログ信号の様態に応じたマスキングの強度の制御を行うことで、分離精度が高く歪みも少ない目的音の分離が可能である。より具体的には、例えば、発話量比SR(τ)が小さいフレームでは、マスキングのフィルタ係数の数値を大きくすることで強く妨害音を抑圧して分離性能を高め、発話量比SR(τ)が大きいフレームでは、マスキングのフィルタ係数の数値を小さくすることで目的音の歪みを小さくする制御が可能である。
図2に戻り、ゲイン算出部108は、上記の式(8)で得られた発話量比SR(τ)を用いて、上記の式(5)のマスク係数b(ω,τ)中の定数Mを修正する修正ゲインg(ω,τ)を、下記の式(9)により計算する。
Figure 2020110228
ここで、GTgt、GInt及びGDTは、予め定められた修正ゲイン定数であり、GTgtは、観測アナログ信号が目的音だけの可能性が高い場合の定数、GIntは、観測アナログ信号が妨害音だけの可能性が高い場合の定数、GDTは、観測アナログ信号に目的音及び妨害音の両者が存在する可能性が高い場合の定数である。本実施の形態においては、GTgt=1.5、GDT=0.99、GInt=0.01を好適な一例とする。
そして、目的音の可能性が高い場合は、上記の式(5)中のMが大きくなるように、言い換えるならば、マスクの抑圧量が小さくなるように制御される。但し、修正後のMは、1以下の値に制限される。
一方、妨害音の可能性が高い場合には、上述の式(5)中のMが更に小さくなるように、言い換えると、妨害音の抑圧量が更に大きくなるように制御されることとなる。
即ち、ゲイン算出部108は、発話量比が高いほど、マスキングが行われる強度が低くなるように、マスク係数を修正するための修正ゲインを算出する。
この修正ゲインの算出にあたっては、単純な観測アナログ信号のパワー計算から求められる発話量比と、発話量比の比較による条件式のみで済むため計算コストが低くて済み、効率的にマスク係数を修正することが可能である。
また、K(ω)は1以下の正の数で表現される周波数補正係数であり、下記の式(10)で示されるように、周波数が高くなるに従って値が大きくなるように設定される。
Figure 2020110228
K(ω)による周波数補正を行うことで、高周波数でのマスキングの強度が緩和されるので、マスキングによる目的音の歪みを抑制することができる。
なお、式(10)の周波数補正係数は、周波数が高くなるに従って値が大きくなるように補正しているが、式(10)の周波数補正係数は、このような例に限定されるものではなく、観測アナログ信号の特性に応じて適宜変更することが可能である。例えば、音源分離の対象とする音響信号が音声の場合、音声において重要な周波数帯域成分であるフォルマントの抑圧を弱くするように補正が行われるとともに、それ以外の帯域成分の抑圧を強くするように補正が行われてもよい。これにより、音声に対するマスク制御の精度が向上するので、目的音を効率良く分離することが可能となる。
また、音源分離の対象が機械の異常音であれば、その音響信号の周波数特性に応じて式(10)の周波数補正係数を変更することで、異常音を効率良く分離することが可能となる。
このように周波数により補正することによる更なる効果としては、観測騒音に環境騒音が混入している場合では、目的とする音声又は異常音以外の音響信号(例えば、騒音又は音楽等)へのマスキングによる影響が少なくなるため、環境騒音に対する不必要なマスキングにより生じる不快な人工的雑音(ミュージカルトーン)が少なくなり、人工的雑音による音声認識装置又は異常音監視装置の誤動作が減少し、ハンズフリー通話時の不快な雑音が減少する副次的効果も奏する。
なお、上記した修正ゲインの各定数値又は発話量比SR(τ)の定数閾値については、式(9)の場合に限定されることはなく、目的音又は妨害音の様態に合わせて適宜調整することができる。また、修正ゲインを決定する条件も式(9)のように3段階に限らず、更に多い段階で設定されてもよい。
マスク修正部109は、下記の式(11)に示すように、上記の式(5)で得られたマスク係数b(ω,τ)に対して、式(9)で得られた修正ゲインg(ω,τ)を用いて修正し、時間周波数フィルタ係数bmod(ω,τ)を得る。
Figure 2020110228
図1に戻り、マスキングフィルタ部110は、下記の式(12)で示されているように、第1のマイクロホン101側の第1のスペクトル成分X(ω,τ)に、上記の式(11)で得られた時間周波数フィルタ係数bmod(ω,τ)を乗算し、スペクトル成分Y(ω,τ)を算出する。そして、マスキングフィルタ部110は、算出されたスペクトル成分Y(ω,τ)をT/F逆変換部111に送る。ここで分離されたスペクトル成分Y(ω,τ)を目的スペクトル成分ともいう。目的スペクトル成分は、目的音を含むスペクトル成分である。
Figure 2020110228
T/F逆変換部111は、スペクトル成分Y(ω,τ)に対し、例えば、逆高速フーリエ変換を行い、出力デジタル信号y(t)を算出する。T/F逆変換部111は、算出された出力デジタル信号y(t)をD/A変換部112に与える。
D/A変換部112は、出力デジタル信号y(t)をアナログ信号に変換することで、出力信号を生成する。生成された出力信号は、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置等の外部機器へ出力される。
図5(A)及び(B)は、実施の形態1における効果を説明するためのグラフである。
図5(A)は、図4(A)と同様に、第1のマイクロホン101で取得された観測アナログ信号の時間波形の一例を示すグラフである。
図5(B)は、D/A変換部112から出力される出力信号の時間変動の一例を示すグラフである。
図5(A)及び(B)から明らかなように、出力信号からは妨害音が殆ど除去されて目的音のみが分離されていることが分かる。
上記の音源分離装置100のハードウェア構成は、タブレットタイプの可搬型コンピュータ、又は、カーナビゲーションシステム等の機器組み込み用途のマイクロコンピュータ等の、CPU(Central Processing Unit)内蔵のコンピュータで実現可能である。あるいは、上記の音源分離装置100のハードウェア構成は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又は、FPGA(Field−Programmable Gate Array)等のLSI(Large Scale Integrated circuit)により実現されてもよい。
図6は、DSP、ASIC又はFPGA等のLSIを用いて構成される音源分離装置100のハードウェア構成例を示すブロック図である。
図6の例では、音源分離装置100は、信号入出力部131、信号処理回路132、記録媒体133及びバス等の信号路134により構成されている。
信号入出力部131は、マイクロホン回路140及び外部装置141との接続機能を実現するインタフェース回路である。マイクロホン回路140は、第1のマイクロホン101及び第2のマイクロホン102に対応し、例えば、音響振動を捉えて電気信号へ変換する装置等を使用することができる。
図1に示されている、T/F変換部104、マスク生成部105、マスキングフィルタ部110及びT/F逆変換部111の各機能は、信号処理回路132及び記録媒体133で実現することができる。
また、図1のA/D変換部103及びD/A変換部112は、信号入出力部131により実現することができる。
記録媒体133は、信号処理回路132の各種設定データ及び信号データ等の各種データを蓄積するために使用される。記録媒体133としては、例えば、SDRAM(Synchronous Dynamic Random Access Memory)等の揮発性メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の不揮発性メモリを使用することができる。記録媒体133には、音源分離処理の初期状態、各種設定データ、制御用の定数データ等を記憶しておくことができる。
信号処理回路132で音源分離処理が行われた出力デジタル信号は、信号入出力部131から外部装置141に送出されるが、この外部装置141としては、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置が相当する。
図7は、コンピュータ等の演算装置を用いて構成される音源分離装置100のハードウェア構成例を示すブロック図である。
図7の例では、音源分離装置100は、信号入出力部131、CPU135を内蔵するプロセッサ136、メモリ137、記録媒体138及びバス等の信号路134により構成されている。
信号入出力部131は、マイクロホン回路140及び外部装置141との接続機能を実現するインタフェース回路である。
メモリ137は、音源分離処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサ136がデータ処理を行う際に使用するワークメモリ、及び、信号データを展開するメモリ等として使用するROM(Read Only Memory)及びRAM(Random Access Memory)等の記憶手段である。
T/F変換部104、マスク生成部105、マスキングフィルタ部110及びT/F逆変換部111の各機能は、プロセッサ136、メモリ137及び記録媒体138で実現することができる。
また、A/D変換部103及びD/A変換部112は、信号入出力部131で実現することができる。
記録媒体138は、プロセッサ136の各種設定データ及び信号データ等の各種データを蓄積するために使用される。記録媒体138としては、たとえば、SDRAM等の揮発性メモリ、HDD又はSSD等の不揮発性メモリを使用することが可能である。OS(Operating System)を含むプログラム、各種設定データ、及び、音響信号データ等の各種データを蓄積することができる。なお、この記録媒体138に、メモリ137内のデータを蓄積しておくこともできる。
プロセッサ136は、メモリ137を作業用メモリとして使用し、メモリ137から読み出されたコンピュータプログラムに従って動作することにより、T/F変換部104、マスク生成部105、マスキングフィルタ部110及びT/F逆変換部111として機能することができる。
プロセッサ136で音源分離処理が行われて生成された出力信号は、信号入出力部131から外部装置141に送出されるが、この外部装置141としては、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置が相当する。
プロセッサ136が実行されるプログラムは、ソフトウェアプログラムを実行するコンピュータ内部の記憶装置に記憶していても良いし、CD−ROM等の記憶媒体にて配布される形式でもよい。また、LAN(Local Area Network)等の無線又は有線のネットワークを通じて、他のコンピュータからプログラムを取得することも可能である。このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
さらに、マイクロホン回路140及び外部装置141に関しても、アナログ信号とデジタル信号との変換等を介せずに、無線又は有線ネットワークを通じて、各種データをデジタル信号のまま送受信しても構わない。
また、プロセッサ136で実行されるプログラムは、外部装置141で実行されるプログラム、例えば、コンピュータを、音声認識装置、ハンズフリー通話装置又は異常音監視装置として機能させるために実行されるプログラムとソフトウェア上で結合され、同一のコンピュータで動作させることも可能であり、又は、複数のコンピュータ上で分散して動作させることも可能である。
なお、外部装置141が音源分離装置100を含んでいてもよい。即ち、音源分離装置100を含む形で、音声認識装置、ハンズフリー通話装置又は異常音監視装置が構成されてもよい。
次に、実施の形態1に係る音源分離装置100の動作について説明する。
図8は、音源分離装置100の動作を示すフローチャートである。
まず、A/D変換部103は、第1のマイクロホン101及び第2のマイクロホン102のそれぞれから入力された、第1の観測アナログ信号及び第2の観測アナログ信号のそれぞれを、予め定められたフレーム間隔で取り込み、それぞれをA/D変換することで、第1の観測デジタル信号x(t)及び第2の観測デジタル信号x(t)を生成して、それらをT/F変換部104に与える(S10)。
そして、A/D変換部103からの出力は、サンプル番号tが予め定められた値Tよりも小さい場合(S11でNo)には、繰り返し行われる。
ステップS12では、T/F変換部104は、第1の観測デジタル信号x(t)及び第2の観測デジタル信号x(t)のそれぞれに対して、例えば、512点の高速フーリエ変換を行い、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)を算出する。そして、T/F変換部104は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)をマスク生成部105に与え、第1のスペクトル成分X(ω,τ)をマスキングフィルタ部110に与える。
マスク生成部105は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)から、目的音を分離するためのマスキングを行う時間周波数フィルタ係数bmod(ω,τ)を算出する(S13)。以下、ステップS13A〜S13Dにより、ステップS13での詳細な処理を説明する。
ステップS13Aでは、マスク係数算出部106は、第1のスペクトル成分X(ω,τ)及び第2のスペクトル成分X(ω,τ)の相互相関関数から、クロススペクトルD(ω,τ)を算出するとともに、得られたクロススペクトルD(ω,τ)に基づいて、マスク係数b(ω,τ)を算出する。マスク係数算出部106は、クロススペクトルD(ω,τ)を発話量比算出部107に与え、マスク係数b(ω,τ)をマスク修正部109に与える。そして、処理は、ステップS13Bに進む。
ステップS13Bでは、発話量比算出部107は、第1のスペクトル成分X(ω,τ)、第2のスペクトル成分X(ω,τ)及びクロススペクトルD(ω,τ)から、目的音話者の発話量と、妨害音話者の発話量との間の比率である発話量比SR(τ)を算出する。発話量比算出部107は、発話量比SR(τ)をゲイン算出部108に与える。そして、処理はステップS13Cに進む。
ステップS13Cでは、ゲイン算出部108は、発話量比SR(τ)を用いて、マスク係数b(ω,τ)を修正するための修正ゲインg(ω,τ)を計算する。ゲイン算出部108は、修正ゲインg(ω,τ)をマスク修正部109に与える。そして、処理はステップS13Dに進む。
ステップS13Dでは、マスク修正部109は、マスク係数b(ω,τ)を、修正ゲインg(ω,τ)を用いて修正し、時間周波数フィルタ係数bmod(ω,τ)を得る。そして、マスク修正部109は、時間周波数フィルタ係数bmod(ω,τ)を、マスキングフィルタ部110に与える。
マスキングフィルタ部110は、第1のスペクトル成分X(ω,τ)に、時間周波数フィルタ係数bmod(ω,τ)を乗算し、出力デジタル信号y(t)のスペクトル成分Y(ω,τ)を算出する(S14)。そして、マスキングフィルタ部110は、スペクトル成分Y(ω,τ)をT/F逆変換部111に与える。
T/F逆変換部111は、スペクトル成分Y(ω,τ)に対して逆高速フーリエ変換を行うことで、スペクトル成分Y(ω,τ)を時間領域の出力デジタル信号y(t)に変換する(S15)。
D/A変換部112は、出力デジタル信号y(t)を、D/A変換することで、アナログ信号である出力信号に変換して、外部に出力する(S16)。
そして、D/A変換部112からの出力は、サンプル番号tが予め定められた値Tより小さい場合(S17でYes)には、繰り返し行われる。
次に、音源分離処理が続行される場合(S18でYes)には、処理はステップS10に戻る。一方、音源分離処理が続行されない場合(S18でNo)には、音源分離処理は終了する。
以上のように、実施の形態1の音源分離装置100で、低い計算コストで分離性能の高いマスキングフィルタを作成することができる。このため、目的音を的確に取得することができ、高精度の音声認識装置、高品質なハンズフリー通話装置及び検出精度の高い異常音監視装置を提供することが可能となる。
実施の形態2.
実施の形態1では、音声による構成を例示したが、妨害音となる音声以外の雑音が存在する場合にも適用することができる実施の形態を、実施の形態2として説明する。
図9は、実施の形態2に係る音源分離装置200を含む情報処理システム250の構成を概略的に示すブロック図である。ここで示す情報処理システム250は、カーナビゲーションシステムの一例であり、走行中の自動車内での運転席に着座する話者と、助手席に着座する話者とが発話する場合を示している。実施の形態2では、運転席に着座する話者を目的音話者とし、助手席に着座する話者を妨害音話者として、説明する。
図9に示されているように、情報処理システム250は、第1のマイクロホン101と、第2のマイクロホン102と、音源分離装置200と、外部装置141とを備える。
実施の形態2における第1のマイクロホン101及び第2のマイクロホン102は、実施の形態1における第1のマイクロホン101及び第2のマイクロホン102と同様である。また、外部装置141は、図6又は図7を用いて説明した外部装置141と同様である。
実施の形態2における入力としては、第1のマイクロホン101及び第2のマイクロホン102を通じて取り込まれた目的音話者及び妨害音話者の音声の他、自動車走行騒音等の騒音、ハンズフリー通話時におけるスピーカより送出された遠端側話者の受話音声、カーナビゲーションが送出する案内音声、又は、カーオーディオの音楽等が回り込む音響エコー等である。目的音話者及び妨害音話者の音声以外の音声を雑音とする。また、雑音の信号を雑音信号とする。そして、実施の形態2では、目的音が到来する第1の方向を含む第1の範囲及び妨害音が到来する第2の方向を含む第2の範囲には含まれない方向から到来する音のスペクトル成分を除外して、発話量比を算出することで、雑音の影響を除外している。
外部装置141は、上述のように、例えば、音声認識装置、ハンズフリー通話装置又は異常音監視装置である。外部装置141では、例えば、音声認識処理、ハンズフリー通話処理又は異常音検出処理を行って、それぞれの処理に応じた出力結果を得る。
音源分離装置200は、A/D変換部103と、T/F変換部104と、マスク生成部205と、マスキングフィルタ部110と、T/F逆変換部111とを備える。
実施の形態2に係る音源分離装置200のA/D変換部103、T/F変換部104、マスキングフィルタ部110及びT/F逆変換部111は、実施の形態1の音源分離装置100のA/D変換部103、T/F変換部104、マスキングフィルタ部110及びT/F逆変換部111と同様である。
但し、実施の形態2に係る音源分離装置200では、T/F逆変換部111で生成された出力デジタル信号y(t)が外部装置141に与えられる。
図2に示されているように、マスク生成部205は、マスク係数算出部106と、発話量比算出部207と、ゲイン算出部108と、マスク修正部109とを備える。
実施の形態2におけるマスク生成部205のマスク係数算出部106、ゲイン算出部108及びマスク修正部109は、実施の形態1におけるマスク生成部105のマスク係数算出部106、ゲイン算出部108及びマスク修正部109と同様である。
発話量比算出部207は、実施の形態1で述べた式(7)を変形した式(13)を用いることで、発話量比SR(τ)の計算から妨害音信号を除外する。
実施の形態1では、式(1)のクロススペクトルD(ω,τ)の虚数部Q(ω,τ)の符号により、目的音の到来方向を判別していたが、式(13)のように、条件式において、到来方向の角度を意味する、第1のチャンネルCh1及び第2のチャンネルCh2の時間差δ(ω,τ)を組み合わせることで、発話量の計算から目的音話者と妨害音話者以外の雑音の影響を除外することができる。
Figure 2020110228
ここで、δθDT及びδθDNは、それぞれ、発話量の計算から除外するための観測アナログ信号の時間差の閾値であり、到来方向角度を時間差に変換した予め定められた定数である。
δθDTは、観測アナログ信号の到来時間差が極めて小さく、到来方向が目的音方向なのか妨害音方向なのか判別が難しい場合、あるいは正面方向から騒音が到来している場合を想定し、それらの場合を発話量の計算から除外するための閾値である。
δθDNは、目的音及び妨害音の想定する到来方向から外れている可能性が高い場合、言い換えれば、観測アナログ信号が、例えば窓から混入する風きり音等の方向性雑音、又は、スピーカから放出される音楽等の可能性が高い場合において、そのような場合を発話量の計算から除外するための閾値である。
図10は、式(13)における目的音及び妨害音以外の雑音の影響を除外する方法の一例を示す模式図である。
図10の例は、第1のチャンネルCh1を基準に除外範囲を記載している。
図10のように、発話量の計算において除外範囲を設定することで、目的音及び妨害音以外の雑音の影響を除外することができるので、発話量比の計算精度が向上し、更に品質の高い音源分離装置を構成することが可能となる。
実施の形態2に係る音源分離装置200は、以上のように構成されているため、様々な騒音条件であっても、低い計算コストで分離性能の高いマスキングフィルタを作成できる。このため、自動車内の騒音下でも目的音を的確に取得することができるので、高精度の音声認識装置、高品質なハンズフリー通話装置、又は、自動車内の異常音を検知する異常音監視装置を提供することが可能となる。
実施の形態3.
実施の形態1及び2では、発話量比の計算に現フレーム情報だけを使用しているが、実施の形態はこのような例に限定されるものではなく、過去のフレーム情報を用いて計算することも可能である。
図1に示されているように、実施の形態3に係る音源分離装置300は、A/D変換部103と、T/F変換部104と、マスク生成部305と、マスキングフィルタ部110と、T/F逆変換部111と、D/A変換部112とを備える。
実施の形態3に係る音源分離装置300のA/D変換部103、T/F変換部104、マスキングフィルタ部110、T/F逆変換部111及びD/A変換部112は、実施の形態1に係る音源分離装置100のA/D変換部103、T/F変換部104、マスキングフィルタ部110、T/F逆変換部111及びD/A変換部112と同様である。
図2に示されているように、実施の形態3におけるマスク生成部305は、マスク係数算出部106と、発話量比算出部307と、ゲイン算出部108と、マスク修正部109とを備える。
実施の形態3におけるマスク生成部305のマスク係数算出部106、ゲイン算出部108及びマスク修正部109は、実施の形態1におけるマスク生成部105のマスク係数算出部106、ゲイン算出部108及びマスク修正部109と同様である。
発話量比算出部307は、上記の式(8)を用いて発話量比SR(τ)を算出し、さらに、下記の式(14)を用いて、算出されたSR(τ)を、1フレーム前の発話量比SR(τ−1)で平滑化する。
Figure 2020110228
ここで、αは、平滑化係数であり、実施の形態3においては、α=0.9が好適な一例である。
このように発話量比の計算において、過去に算出された発話量比を用いて、最後に算出された発話量比を平滑化することで、観測アナログ信号に騒音が混入した場合でも、安定して発話量比の計算を行うことが可能となり、更に精度の高い音源分離が可能となる。
さらに、実施の形態2では、発話量比算出部207は、式(13)を用いて、各信号の発話量を計算しているが、変形例として、発話量比算出部207は、この計算を所定のフレーム区間に拡張すること、言い換えると、予め定められたフレーム区間のパワースペクトルの積分値を計算することで、所定のフレーム区間での目的音と妨害音の占有率、具体的には、どちらが長く発話しているか、あるいは、どちらが大きな音量であるかを分析することが可能である。よって、目的音と妨害音とのダブルトーク時において、どちらの音声が支配的かを判定することが可能となり、より精度の高い音源分離が可能となる。
上述の実施の形態2において、情報処理システム250がカーナビゲーションシステムの一例である場合について説明したが、実施の形態2は、これに限定されるものではない。例えば、情報処理システム250は、一般家庭内又はオフィス内に設置されるスマートスピーカ又はテレビ等の遠隔音声認識システム、TV会議システムの拡声通話システム、ロボットの音声認識対話システム、又は、工場の異常音監視システム等にも適用可能である。このような場合にも、これらの音響的環境で生ずる雑音又は音響エコーについても、実施の形態2にて述べた効果を同様に奏する。
また、以上に記載された実施の形態1〜3では、入力信号の周波数帯域幅を16kHzとしているが、実施の形態1〜3は、このような例に限定されない。例えば、実施の形態1〜3は、24kHz等の更に広帯域の音響信号についても適用可能である。
上記以外にも、実施の形態1〜3は、任意の構成要素の変形、又は、任意の構成要素の省略が可能である。
以上のように、実施の形態1〜3に係る音源分離装置100〜300は、低い計算コストで高品質な音源分離が可能なため、音声認識システム、音声通信システム又は異常音監視システムのいずれかに導入することができる。これにより、カーナビゲーション又はテレビ等の遠隔音声認識システムの認識率向上、携帯電話又はインターフォン等のハンズフリー通話システム、TV会議システム又は異常音監視システム等の品質改善に供することができる。
100,200,300 音源分離装置、 101 第1のマイクロホン、 102 第2のマイクロホン、 103 A/D変換部、 104 T/F変換部、 105,205,305 マスク生成部、 106 マスク係数算出部、 107,207,307 発話量比算出部、 108 ゲイン算出部、 109 マスク修正部、 110 マスキングフィルタ部、 111 T/F逆変換部、 112 D/A変換部、 250 情報処理システム。
本発明の第1の態様に係る情報処理装置は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備え、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第2の態様に係る情報処理装置は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備え、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第1の態様に係るプログラムは、コンピュータを、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させ、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第2の態様に係るプログラムは、コンピュータを、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させ、前記マスク生成部は、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えることを特徴とする。
本発明の第1の態様に係る情報処理方法は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、前記フィルタリング係数を算出する際に、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出し、前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出することを特徴とする。
本発明の第2の態様に係る情報処理方法は、第1の方向から到来する目的音と、前記第1の方向とは異なる第2の方向から到来する妨害音と、を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する情報処理方法であって、前記フィルタリング係数を算出する際に、前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出し、前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化し、前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出し、前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出することを特徴とする。

Claims (6)

  1. 第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部と、
    前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部と、
    前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部と、
    前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部と、
    前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部と、を備えること
    を特徴とする情報処理装置。
  2. 前記観測音には、前記第1の方向とは異なる第2の方向から到来する妨害音が含まれており、
    前記マスク生成部は、
    前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
    前記第1のスペクトル成分の内、前記第1の範囲から到来する音のスペクトル成分の量の、前記第2の範囲から到来する音のスペクトル成分の量に対する比率を算出する発話量比算出部と、
    前記比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
    前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記観測音には、前記第1の方向とは異なる第2の方向から到来する妨害音が含まれており、
    前記マスク生成部は、
    前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記目的音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第1の時間差、及び、前記妨害音が前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との第2の時間差から、前記観測音の内、前記第1の方向を含む第1の範囲から到来する音と、前記第2の方向を含み、前記第1の範囲とは重ならない第2の範囲から到来する音とを区別して、前記第1の範囲から到来する音のスペクトル成分を、前記第2の範囲から到来する音のスペクトル成分から分離するためのマスク係数を算出するマスク係数算出部と、
    前記第1のスペクトル成分の内、前記第1の範囲から到来している音のスペクトル成分の量の、前記第2の範囲から到来している音のスペクトル成分の量に対する比率を、時間の経過とともに順次算出し、過去に算出された前記比率を用いて最後に算出された前記比率を平滑化する発話量比算出部と、
    前記平滑化された比率が高いほど、前記マスキングが行われる強度が低くなるように、前記マスク係数を修正するための修正ゲインを算出するゲイン算出部と、
    前記マスク係数を前記修正ゲインで修正することで、前記フィルタリング係数を算出するマスク修正部と、を備えること
    を特徴とする請求項1に記載の情報処理装置。
  4. 前記発話量比算出部は、前記第1の範囲及び前記第2の範囲には含まれない方向から到来する音のスペクトル成分を除外して、前記比率を算出すること
    を特徴とする請求項2又は3に記載の情報処理装置。
  5. コンピュータを、
    第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成するアナログ/デジタル変換部、
    前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成する時間/周波数変換部、
    前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出するマスク生成部、
    前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離するマスキングフィルタ部、及び、
    前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成する時間/周波数逆変換部、として機能させること
    を特徴とするプログラム。
  6. 第1の方向から到来する目的音を含む観測音に基づいて第1のマイクロホンで生成された第1の観測アナログ信号、及び、前記観測音に基づいて第2のマイクロホンで生成された第2の観測アナログ信号の入力を受けて、第1の観測アナログ信号及び第2の観測アナログ信号の各々をデジタル信号に変換することで、第1の観測デジタル信号及び第2の観測デジタル信号を生成し、
    前記第1の観測デジタル信号及び前記第2の観測デジタル信号の各々を、周波数領域の信号に変換することで、第1のスペクトル成分及び第2のスペクトル成分を生成し、
    前記第1のスペクトル成分及び前記第2のスペクトル成分の相互相関関数を用いて、前記観測音が、前記第1のマイクロホンに到来する時間と、前記第2のマイクロホンに到来する時間との時間差により、前記第1の方向とは異なる方向から到来する音のスペクトル成分をマスキングするためのフィルタリング係数を算出し、
    前記第1のスペクトル成分に対して、前記フィルタリング係数を用いてマスキングを行うことで、スペクトル成分を分離し、
    前記分離されたスペクトル成分を、時間領域の信号に変換することで、出力デジタル信号を生成すること
    を特徴とする情報処理方法。
JP2020557460A 2018-11-28 2018-11-28 情報処理装置、プログラム及び情報処理方法 Active JP6840302B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/043747 WO2020110228A1 (ja) 2018-11-28 2018-11-28 情報処理装置、プログラム及び情報処理方法

Publications (2)

Publication Number Publication Date
JP6840302B2 JP6840302B2 (ja) 2021-03-10
JPWO2020110228A1 true JPWO2020110228A1 (ja) 2021-03-11

Family

ID=70854207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020557460A Active JP6840302B2 (ja) 2018-11-28 2018-11-28 情報処理装置、プログラム及び情報処理方法

Country Status (2)

Country Link
JP (1) JP6840302B2 (ja)
WO (1) WO2020110228A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7109349B2 (ja) * 2018-12-04 2022-07-29 富士通株式会社 発話検出プログラム、発話検出方法、および発話検出装置
WO2022244173A1 (ja) * 2021-05-20 2022-11-24 三菱電機株式会社 集音装置、集音方法、及び集音プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2011113044A (ja) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
JP2013061421A (ja) * 2011-09-12 2013-04-04 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2011113044A (ja) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
JP2013061421A (ja) * 2011-09-12 2013-04-04 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体

Also Published As

Publication number Publication date
WO2020110228A1 (ja) 2020-06-04
JP6840302B2 (ja) 2021-03-10

Similar Documents

Publication Publication Date Title
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP6279181B2 (ja) 音響信号強調装置
EP2773137B1 (en) Microphone sensitivity difference correction device
CN106663445B (zh) 声音处理装置、声音处理方法及程序
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP2755204B1 (en) Noise suppression device and method
JP5834088B2 (ja) 動的マイクロフォン信号ミキサ
JP2007318528A (ja) 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2013524267A (ja) 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
US9532138B1 (en) Systems and methods for suppressing audio noise in a communication system
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US11380312B1 (en) Residual echo suppression for keyword detection
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
WO2015114674A1 (ja) 集音装置、集音装置の入力信号補正方法および移動機器情報システム
US11386911B1 (en) Dereverberation and noise reduction
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP5105336B2 (ja) 音源分離装置、プログラム及び方法
US10887709B1 (en) Aligned beam merger
JPWO2018167921A1 (ja) 信号処理装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201203

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201203

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210216

R150 Certificate of patent or registration of utility model

Ref document number: 6840302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250