WO2024069964A1 - ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体 - Google Patents

ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体 Download PDF

Info

Publication number
WO2024069964A1
WO2024069964A1 PCT/JP2022/036788 JP2022036788W WO2024069964A1 WO 2024069964 A1 WO2024069964 A1 WO 2024069964A1 JP 2022036788 W JP2022036788 W JP 2022036788W WO 2024069964 A1 WO2024069964 A1 WO 2024069964A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
signals
unit
sound source
Prior art date
Application number
PCT/JP2022/036788
Other languages
English (en)
French (fr)
Inventor
将吾 土岐
聡 木下
敏弘 藤井
Original Assignee
Tdk株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tdk株式会社 filed Critical Tdk株式会社
Priority to PCT/JP2022/036788 priority Critical patent/WO2024069964A1/ja
Publication of WO2024069964A1 publication Critical patent/WO2024069964A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明の一実施の形態に係るノイズ処理回路は、複数の信号に基づいて音源を検出する検出部と、複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、複数の信号およびフラグ信号に基づいて、第1の信号成分を強調することにより、第1の信号を生成するとともに、第1の信号成分を抑えることにより、第2の信号を生成するビームフォーミング処理部と、フラグ信号に基づいて、第1の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、フラグ信号に基づいて、第1の信号および第2の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、第1の信号のスペクトル、および選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部とを備える。

Description

ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体
 本発明は、複数のマイクロフォンにより得られた複数の信号に基づいてノイズ処理を行うノイズ処理回路、信号処理装置、ノイズ処理方法、および複数のマイクロフォンにより得られた複数の信号に基づいてノイズ処理を行うことが可能なソフトウェアが記録された記録媒体に関する。
 信号処理装置には、複数のマイクロフォンにより得られた複数の信号に基づいて処理を行うものがある。このような信号処理装置では、例えば、これらの複数の信号に基づいてノイズ処理が行われ、ノイズ処理が行われた信号に基づいて所定の処理が行われる。例えば、特許文献1には、音声信号の品質を損なうことなく、非定常ノイズである風雑音成分の低減を図る技術が開示されている。
特開2014-126856号公報
 このような、複数のマイクロフォンにより得られた複数の信号のノイズ処理では、所望の信号成分の品質を損なうことなく、非定常ノイズを低減することが望まれており、非定常ノイズの効果的な低減が期待されている。
 非定常ノイズを効果的に低減することができるノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体を提供することが望ましい。
 本発明の一実施の形態に係るノイズ処理回路は、検出部と、フラグ信号生成部と、ビームフォーミング処理部と、ノイズモデル生成部と、ノイズモデル選択部と、スペクトル減算部とを備えている。検出部は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出するものである。フラグ信号生成部は、検出部の検出結果に基づいて、複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するものである。ビームフォーミング処理部は、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、複数の信号が第1の信号成分を含む期間において第1の信号成分を抑えることにより、第2の信号を生成するものである。ノイズモデル生成部は、フラグ信号に基づいて、複数の信号が第1の信号成分を含まない期間において、第1の信号のスペクトルに応じた複数のノイズモデルを生成するものである。ノイズモデル選択部は、フラグ信号に基づいて、第1の信号および第2の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択するものである。スペクトル減算部は、第1の信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うものである。
 本発明の一実施の形態に係る信号処理装置は、ノイズ処理回路と、処理回路とを備えている。ノイズ処理回路は、複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うものである。処理回路は、ノイズ処理回路の処理結果に基づいて信号処理を行うものである。ノイズ処理回路は、検出部と、フラグ信号生成部と、ビームフォーミング処理部と、ノイズモデル生成部と、ノイズモデル選択部と、スペクトル減算部とを有している。検出部は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出するものである。フラグ信号生成部は、検出部の検出結果に基づいて、複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するものである。ビームフォーミング処理部は、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、複数の信号が第1の信号成分を含む期間において第1の信号成分を抑えることにより、第2の信号を生成するものである。ノイズモデル生成部は、フラグ信号に基づいて、複数の信号が第1の信号成分を含まない期間において、第1の信号のスペクトルに応じた複数のノイズモデルを生成するものである。ノイズモデル選択部は、フラグ信号に基づいて、第1の信号および第2の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択するものである。スペクトル減算部は、第1の信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うものである。
 本発明の一実施の形態に係るノイズ処理方法は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、音源の検出結果に基づいて、複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を抑えることにより、第2の信号を生成することと、フラグ信号に基づいて、複数の信号が第1の信号成分を含まない期間において、第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、フラグ信号に基づいて、第1の信号および第2の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択することと、第1の信号のスペクトル、および複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うこととを含むものである。
 本発明の一実施の形態に係る記録媒体は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、音源の検出結果に基づいて、複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第1の信号成分を含む期間において第1の信号成分を抑えることにより、第2の信号を生成することと、フラグ信号に基づいて、複数の信号が第1の信号成分を含まない期間において、第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、フラグ信号に基づいて、第1の信号および第2の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択することと、第1の信号のスペクトル、および複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うこととをプロセッサに行わせるソフトウェアが記録されたものである。
 本発明の一実施の形態に係るノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体によれば、非定常ノイズを効果的に低減することができる。
本発明の一実施の形態に係る信号処理装置の一構成例を表すブロック図である。 図1に示したノイズ処理回路の一動作例を表す説明図である。 図1に示した音源検出部および音源選択部の一動作例を表す波形図である。 図1に示したビームフォーミング処理部の一構成例を表すブロック図である。 図1に示したフーリエ変換部の一動作例を表す説明図である。 図1に示したノイズモデル生成部の一動作例を表す説明図である。 図1に示したノイズモデル選択部の一動作例を表す説明図である。 変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。 他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。 他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。 他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
<実施の形態>
[構成例]
 図1は、本発明の一実施の形態に係るノイズ処理回路を備えた信号処理装置1の一構成例を表すものである。信号処理装置1は、この例では4つのマイクロフォンから供給された4つの信号に基づいてノイズ処理を行うことによりノイズが低減された信号を生成し、その信号に基づいて所定の信号処理を行うように構成される。信号処理装置1は、マイクロフォン91~94と、AD(Analog to Digital)変換回路11~14と、ユーザインタフェース18と、ノイズ処理回路20と、処理回路19とを有している。
 マイクロフォン91~94のそれぞれは、音波を電気信号に変換するように構成される。マイクロフォン91~94は、例えば、互いに離間して配置される。これにより、マイクロフォン91~94のそれぞれは、互いに異なる方向からの音波を検出することができるようになっている。
 AD変換回路11は、マイクロフォン91から供給された電気信号に基づいて、AD変換を行うことにより、信号S11を生成するように構成される。AD変換回路11は、サンプリング周波数fsでAD変換を行うことにより、データx1を順次生成し、これらのデータx1を信号S11として出力する。図1に示したデータx1(n)は、n番目のデータx1を示す。サンプリング周波数fsは、例えば、16kHzである。
 同様に、AD変換回路12は、マイクロフォン92から供給された電気信号に基づいて、AD変換を行うことにより、信号S12を生成するように構成される。AD変換回路12は、サンプリング周波数fsでAD変換を行うことにより、データx2を順次生成し、これらのデータx2を信号S12として出力する。図1に示したデータx2(n)は、n番目のデータx2を示す。AD変換回路13は、マイクロフォン93から供給された電気信号に基づいて、AD変換を行うことにより、信号S13を生成するように構成される。AD変換回路13は、サンプリング周波数fsでAD変換を行うことにより、データx3を順次生成し、これらのデータx3を信号S13として出力する。図1に示したデータx3(n)は、n番目のデータx3を示す。AD変換回路14は、マイクロフォン94から供給された電気信号に基づいて、AD変換を行うことにより、信号S14を生成するように構成される。AD変換回路14は、サンプリング周波数fsでAD変換を行うことにより、データx4を順次生成し、これらのデータx4を信号S14として出力する。図1に示したデータx4(n)は、n番目のデータx4を示す。AD変換回路11~14は、互いに同期してAD変換を行うようになっている。
 ユーザインタフェース18は、信号処理装置1のユーザに対して情報を提示するとともに、ユーザ操作を受け付けるように構成され、例えば表示パネル、インジケータ、操作ボタンなどを含む。ユーザは、このユーザインタフェース18を操作することにより、信号処理装置1の各種設定を行うことができるようになっている。
 ノイズ処理回路20は、AD変換回路11~14から供給された信号S11~S14に基づいてノイズ処理を行うことにより、ノイズが低減された信号S29を生成するように構成される。ノイズ処理回路20は、スペクトルサブトラクション法を用いて、ノイズ処理を行う。ノイズ処理回路20は、例えば、プロセッサ、メモリなどを用いて構成され、ソフトウェアを実行することにより動作するようになっている。
 図2は、ノイズ処理回路20の一動作例を模式的に表すものであり、(A)はノイズ処理が施される前の信号を示し、(B)はノイズ処理が施された後の信号を示す。細線で示した波形W1はノイズ成分を示し、太線で示した波形W2は音声などの所望の信号成分を示す。ノイズ処理が施される前では、図2(A)に示したように、ノイズ成分(波形W1)が大きく、所望の信号成分(波形W2)はノイズ成分に埋もれている。特に、この例では、ノイズ成分は定常ノイズだけでなく非定常ノイズを含む。この図2では、期間T1,T2において、非定常ノイズが生じている。ノイズ処理が施された後では、図2(B)に示したように、ノイズ成分(波形W1)が低減され、所望の信号成分(波形W2)はほぼ維持される。このように、ノイズ処理回路20は、所望の信号成分をほぼ維持しつつ、定常ノイズおよび非定常ノイズを含むノイズ成分を低減することができるようになっている。
 ノイズ処理回路20(図1)は、音源検出部21と、音源選択部22と、ビームフォーミング処理部30と、フーリエ変換部24,25と、ノイズモデル生成部26と、ノイズモデル選択部27と、スペクトル減算部28と、逆フーリエ変換部29とを有している。
 音源検出部21は、AD変換回路11~14から供給された信号S11~S14に基づいて、音源の種類を検出するように構成される。
 図3は、音源検出部21および音源選択部22の一動作例を表すものである。音源検出部21は、信号S11~S14に、どのような音源に係る信号成分が含まれているかを検出し、音源の種類を示すメタデータを生成する。この例では、“V”は人の声を示し、“M”は音楽を示し、“C”は車両の走行音を示す。例えば、信号S11~S14は、例えばタイミングt10~t12の期間において、車両の走行音の信号成分を含み、タイミングt11~t14の期間において、人の声の信号成分を含み、タイミングt13~t15の期間において、音楽の信号成分を含む。
 音源検出部21は、例えば、信号S11に含まれる所定数(例えば512個)のデータx1、信号S12に含まれる所定数(例えば512個)のデータx2、信号S13に含まれる所定数(例えば512個)のデータx3、および信号S14に含まれる所定数(例えば512個)のデータx4に基づいて音源検出を行う。音源検出部21は、この音源検出において、信号S11~S14のそれぞれに含まれる様々な音源に係る信号成分のうち、S/N比が所定値以上である音源の信号成分に基づいて、その信号成分が示す音源を検出する。具体的には、図3の例では、タイミングt10~t12の期間において、車両の走行音の信号成分のS/N比が所定値以上である場合に、車両の走行音を示すメタデータを生成し、タイミングt11~t14の期間において、人の声の信号成分のS/N比が所定値以上である場合に、人の声を示すメタデータを生成し、タイミングt13~t15の期間において、音楽の信号成分のS/N比が所定値以上である場合に、音楽を示すメタデータを生成する。そして、音源検出部21は、このメタデータを、ユーザインタフェース18および音源選択部22に供給するようになっている。
 ユーザインタフェース18(図1)は、音源検出部21から供給されたメタデータに基づいて、音源の種類についての情報をユーザに提示する。ユーザは、例えば、信号処理装置1が、人の声、音楽、車両の走行音などを検出したことを把握する。そして、ユーザは、これらの音源のうちのどの音源の信号成分に基づいてノイズ処理回路20を動作させるかを選択する選択操作を行う。ノイズ処理回路20は、ユーザの選択操作に基づいて処理を行う。例えば、ユーザが人の声を選択する旨の選択操作を行った場合、ノイズ処理回路20は人の声を目的音源として処理を行う。この場合には、例えば音楽はノイズ成分になる。例えば、ユーザが音楽を選択する旨の選択操作を行った場合、ノイズ処理回路20は音楽を目的音源として処理を行う。この場合、例えば音楽はノイズ成分になる。ユーザインタフェース18は、そのようなユーザの選択操作を受け付ける。そして、ユーザインタフェース18は、このようなユーザの選択操作についての情報を音源選択部22に供給するようになっている。
 音源選択部22は、音源検出部21から供給されたメタデータ、およびユーザインタフェース18から供給されたユーザの選択操作についての情報に基づいて、フラグ信号CTLを生成するように構成される。このフラグ信号CTLは、信号S11~S14が、ユーザが選択した音源の信号成分を含む期間においてアクティブになり、それ以外の期間において非アクティブになる信号である。
 図3の例において、例えば、ユーザが、人の声を選択する旨の選択操作を行った場合には、音源選択部22は、人の声の信号成分を含むタイミングt11~t14の期間において、フラグ信号CTLをアクティブ(この例では高レベル)にし、それ以外の期間において、フラグ信号CTLを非アクティブ(この例では低レベル)にする。音源選択部22は、このようにしてフラグ信号CTLを生成し、生成したフラグ信号CTLをビームフォーミング処理部30、ノイズモデル生成部26、およびノイズモデル選択部27に供給するようになっている。
 ビームフォーミング処理部30は、信号S11~S14、およびフラグ信号CTLに基づいて、音源信号S38および疑似ノイズ信号S48を生成するように構成される。音源信号S38は、ユーザが選択した音源の信号成分が強調された信号である。疑似ノイズ信号S48は、ユーザが選択した音源の信号成分が抑えられ、信号S11~S14に含まれるノイズ成分に応じた信号成分を含む信号である。
 図4は、ビームフォーミング処理部30の一構成例を表すものである。ビームフォーミング処理部30は、遅延部31~34と、遅延制御部35と、加算部36と、遅延部37と、減算部41~43と、適応フィルタ44~46と、適応フィルタ制御部47と、加算部48と、減算部38とを有している。
 遅延部31は、信号S11を遅延量d1だけ遅延させることにより信号S31を生成するように構成される。具体的には、遅延部31は、信号S11の位相を、サンプリング周期Ts(=1/fs)を単位としてずらすことにより、信号S11を遅延量d1だけ遅延させる。図4に示したデータx1(n-d1)は、データx1(n)が遅延量d1だけ遅延されたデータである。遅延部31の遅延量d1は、遅延制御部35により設定されるようになっている。
 同様に、遅延部32は、信号S12を遅延量d2だけ遅延させることにより信号S32を生成するように構成される。具体的には、遅延部32は、信号S12の位相を、サンプリング周期Ts(=1/fs)を単位としてずらすことにより、信号S12を遅延量d2だけ遅延させる。図4に示したデータx2(n-d2)は、データx2(n)が遅延量d2だけ遅延されたデータである。遅延部32の遅延量d2は、遅延制御部35により設定されるようになっている。遅延部33は、信号S13を遅延量d3だけ遅延させることにより信号S33を生成するように構成される。具体的には、遅延部33は、信号S13の位相を、サンプリング周期Ts(=1/fs)を単位としてずらすことにより、信号S13を遅延量d3だけ遅延させる。図4に示したデータx3(n-d3)は、データx3(n)が遅延量d3だけ遅延されたデータである。遅延部33の遅延量d3は、遅延制御部35により設定されるようになっている。遅延部34は、信号S14を遅延量d4だけ遅延させることにより信号S34を生成するように構成される。具体的には、遅延部34は、信号S14の位相を、サンプリング周期Ts(=1/fs)を単位としてずらすことにより、信号S14を遅延量d4だけ遅延させる。図4に示したデータx4(n-d4)は、データx4(n)が遅延量d4だけ遅延されたデータである。遅延部34の遅延量d4は、遅延制御部35により設定されるようになっている。
 遅延制御部35は、フラグ信号CTLおよび信号S11~S14に基づいて、信号S11~S14に含まれる、ユーザが選択した音源の信号成分の位相が一致するように、遅延部31~34の遅延量d1~d4をそれぞれ生成するように構成される。具体的には、遅延制御部35は、フラグ信号CTLが高レベル(アクティブ)である期間において、ユーザが選択した音源の信号成分の位相が一致するように、遅延量d1~d4を更新する。遅延部31~34は、更新された遅延量d1~d4を用いて信号S11~S14をそれぞれ遅延させることにより信号S31~S34をそれぞれ生成する。これにより、信号S31~S34における、ユーザが選択した音源の信号成分の位相は、互いに一致するように制御される。
 すなわち、マイクロフォン91~94のそれぞれは、互いに異なる方向からの音波を検出する。よって、信号処理装置1からみた音源の向きに応じて、信号S11~S14に含まれる、ユーザが選択した音源の信号成分の位相は、互いにずれ得る。また、マイクロフォン91~94のうちのあるマイクロフォンは、音源から直接音波を検出し、他のあるマイクロフォンは、物体に反射した音波を検出することがあり得る。よって、信号S11~S14に含まれる、ユーザが選択した音源の信号成分の位相は、互いにずれ得る。また、マイクロフォン91~94の特性差や、AD変換回路11~14の特性差により、信号S11~S14に含まれる、ユーザが選択した音源の信号成分の位相が互いにずれることもあり得る。遅延制御部35は、フラグ信号CTLおよび信号S11~S14に基づいて、信号S11~S14に含まれる、ユーザが選択した音源(目的音源)の信号成分の位相が一致するように、遅延量d1~d4を生成する。これにより、遅延制御部35は、音源の方向の違いを調節するとともに、マイクロフォン91~94の特性差を調節するようになっている。
 また、遅延制御部35は、フラグ信号CTLが低レベル(非アクティブ)である期間では、遅延量d1~d4を更新せず、遅延量d1~d4を維持する。これにより、遅延部31~34は、維持された遅延量d1~d4を用いて信号S11~S14をそれぞれ遅延させる。すなわち、フラグ信号CTLが低レベル(非アクティブ)である期間には、信号S11~S14には、ユーザが選択した音源の信号成分が含まれないので、遅延制御部35は、遅延量d1~d4を更新しない。よって、遅延部31~34は、維持された遅延量d1~d4を用いて信号S11~S14をそれぞれ遅延させるようになっている。
 加算部36は、遅延部31~34からそれぞれ供給された信号S31~S34を互いに加算することにより信号S36を生成するように構成される。具体的には、加算部36は、データx1(n-d1)と、データx2(n-d2)と、データx3(n-d3)と、データx4(n-d4)とを互いに加算することにより、データd(n)を生成する。上述したように、信号S31~S34における、ユーザが選択した音源の信号成分の位相は、互いに一致する。加算部36は、これらの信号S31~S34を互いに加算することにより、ユーザが選択した音源(目的音源)の信号成分が強調された信号S36を生成するようになっている。
 遅延部37は、加算部36から供給された信号S36を遅延量dsだけ遅延させることにより信号S37を生成するように構成される。具体的には、遅延部37は、信号S36の位相を、サンプリング周期Ts(=1/fs)を単位としてずらすことにより、信号S36を遅延量dsだけ遅延させる。図4に示したデータd(n-ds)は、データd(n)が遅延量dsだけ遅延されたデータである。遅延部37の遅延量dsは、図示しない制御部により設定された所定値である。
 減算部41は、遅延部31から供給された信号S31から、遅延部32から供給された信号S32を減算することにより、信号S41を生成するように構成される。具体的には、減算部41は、データx1(n-d1)からデータx2(n-d2)を減算することにより、データy1(n)を生成する。上述したように、信号S31,S32における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部41は、信号S31から信号S32を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号S41を生成するようになっている。
 同様に、減算部42は、遅延部32から供給された信号S32から、遅延部33から供給された信号S33を減算することにより、信号S42を生成するように構成される。具体的には、減算部42は、データx2(n-d2)からデータx3(n-d3)を減算することにより、データy2(n)を生成する。上述したように、信号S32,S33における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部42は、信号S32から信号S33を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号S42を生成するようになっている。減算部43は、遅延部33から供給された信号S33から、遅延部34から供給された信号S34を減算することにより、信号S43を生成するように構成される。具体的には、減算部43は、データx3(n-d3)からデータx4(n-d4)を減算することにより、データy3(n)を生成する。上述したように、信号S33,S34における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部43は、信号S33から信号S34を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号S43を生成するようになっている。
 適応フィルタ44は、減算部41から供給された信号S41に対して、フィルタ処理を行うことにより信号S44を生成するように構成される。適応フィルタ44は、FIR(Finite Impulse Response)フィルタであり、適応フィルタ制御部47から供給されたフィルタ係数を用いて、信号S41に対して畳み込み演算を行うことにより、信号S41の振幅および位相を調節するようになっている。
 同様に、適応フィルタ45は、減算部42から供給された信号S42に対して、フィルタ処理を行うことにより信号S45を生成するように構成される。適応フィルタ45は、FIRフィルタであり、適応フィルタ制御部47から供給されたフィルタ係数を用いて、信号S42に対して畳み込み演算を行うことにより、信号S42の振幅および位相を調節するようになっている。適応フィルタ46は、減算部43から供給された信号S43に対して、フィルタ処理を行うことにより信号S46を生成するように構成される。適応フィルタ46は、FIRフィルタであり、適応フィルタ制御部47から供給されたフィルタ係数を用いて、信号S43に対して畳み込み演算を行うことにより、信号S43の振幅および位相を調節するようになっている。
 適応フィルタ制御部47は、フラグ信号CTLおよび減算部38から供給された音源信号S38に基づいて、音源信号S38におけるノイズが小さくなるように、適応フィルタ44に供給されるフィルタ係数、適応フィルタ45に供給されるフィルタ係数、および適応フィルタ46に供給されるフィルタ係数をそれぞれ生成するように構成される。具体的には、適応フィルタ制御部47は、フラグ信号CTLが低レベル(非アクティブ)である期間において、音源信号S38におけるノイズが小さくなるように、適応フィルタ44~46に供給されるフィルタ係数のそれぞれを更新する。適応フィルタ44~46は、更新されたフィルタ係数を用いてそれぞれフィルタ処理を行う。
 また、適応フィルタ制御部47は、フラグ信号CTLが高レベル(アクティブ)である期間では、フィルタ係数を更新せず、フィルタ係数を維持する。これにより、適応フィルタ44~46は、維持されたフィルタ係数を用いてそれぞれフィルタ処理を行うようになっている。
 加算部48は、適応フィルタ44~46から供給された信号S44~S46を互いに加算することにより疑似ノイズ信号S48を生成するように構成される。具体的には、加算部48は、適応フィルタ44~46から供給されたデータを互いに加算することにより、データy(n)を生成するようになっている。データy(n)は、n番目のデータyを示す。
 減算部38は、遅延部37から供給された信号S37から、加算部48から供給された疑似ノイズ信号S48を減算することにより、音源信号S38を生成するように構成される。具体的には、減算部38は、データd(n-ds)からデータy(n)を減算することにより、データe(n)を生成するようになっている。データe(n)は、n番目のデータeを示す。
 この構成により、適応フィルタ44~46、適応フィルタ制御部47、加算部48、および減算部38は、音源信号S38におけるノイズが小さくなるように負帰還動作を行う。言い換えれば、適応フィルタ44~46、適応フィルタ制御部47、および加算部48は、疑似ノイズ信号S48が、減算部38に供給される信号S37に含まれるノイズ成分と同じになるように、負帰還動作を行う。
 このようにして、ビームフォーミング処理部30では、加算部36が、ユーザが選択した音源(目的音源)の信号成分の位相が互いに一致した信号S31~S34を互いに加算することにより、音源信号S38の、ユーザが選択した音源の信号成分が強調される。また、減算部38が、信号S37から疑似ノイズ信号S48を減算することにより、音源信号S38の、ユーザが選択した音源の信号成分が強調される。このようにして、ビームフォーミング処理部30は、ユーザが選択した音源の信号成分が強調された音源信号S38を生成するようになっている。
 なお、ビームフォーミング処理部30は、例えば、信号S11~S14のうちの一部の信号だけが目的音源の信号を含んでいない場合には、その目的音源の信号を含んでいない信号をビームフォーミング処理部30における処理の対象から除外する。例えば、信号S14が目的音源の信号を含んでいない場合、加算部36は、信号S31~S33を加算することにより信号S36を生成する。つまり、加算部36は、信号S34を加算しない。このように、加算部36は、信号S31~S34のうち、目的音源の信号を含む信号を加算する。同様に、減算部41~43は、信号S31~S34のうち、目的音源の信号を含む信号を適宜組み合わせて減算を行うようになっている。
 フーリエ変換部24(図1)は、ビームフォーミング処理部30から供給された音源信号S38に基づいて離散フーリエ変換を行うことにより、音源信号S38の振幅スペクトルデータSD38および位相スペクトルデータSDPを算出するように構成される。
 図5は、フーリエ変換部24の一動作例を表すものである。フーリエ変換部24は、例えば、音源信号S38を介して所定数(例えば512個)のデータeが供給される度に、これらのデータに基づいて離散フーリエ変換を行うことにより、音源信号S38の振幅スペクトルデータSD38および位相スペクトルデータSDPを生成する。なお、この図5では、位相スペクトルデータSDPの図示を省略している。振幅スペクトルデータSD38の横軸は周波数を示し、縦軸は振幅の大きさを示す。この図5では、フーリエ変換部24は、処理期間Tにおいて、ビームフォーミング処理部30から、所定数(例えば512個)のデータeが供給される。フーリエ変換部24は、処理期間Tのそれぞれにおいて、これらのデータeに基づいて離散フーリエ変換を行うことにより、音源信号S38の振幅スペクトルデータSD38および位相スペクトルデータSDPを算出する。そして、フーリエ変換部24は、生成した振幅スペクトルデータSD38をノイズモデル生成部26、ノイズモデル選択部27、およびスペクトル減算部28に供給するとともに、生成した位相スペクトルデータSDPを逆フーリエ変換部29に供給するようになっている。
 フーリエ変換部25(図1)は、ビームフォーミング処理部30から供給された疑似ノイズ信号S48に基づいて離散フーリエ変換を行うことにより疑似ノイズ信号S48の振幅スペクトルデータSD48を算出するように構成される。具体的には、フーリエ変換部25は、フーリエ変換部24と同様に、例えば、疑似ノイズ信号S48を介して所定数(例えば512個)のデータyが供給される度に、これらのデータに基づいて離散フーリエ変換を行うことにより、疑似ノイズ信号S48の振幅スペクトルデータSD48を生成する。そして、フーリエ変換部25は、生成した振幅スペクトルデータSD48をノイズモデル選択部27に供給するようになっている。
 ノイズモデル生成部26は、フラグ信号CTL、およびフーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成するように構成される。ノイズモデルNMは、ノイズを示す振幅スペクトルデータである。ノイズモデル生成部26は、フラグ信号CTLが低レベル(非アクティブ)である期間に、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。すなわち、フラグ信号CTLが低レベル(非アクティブ)である期間では、音源信号S38は、ユーザが選択した音源(目的音源)の信号成分を含まないので、ノイズモデル生成部26は、この期間において、音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。そして、ノイズモデル生成部26は、生成したノイズモデルNMをノイズモデル選択部27に供給するようになっている。
 ノイズモデル選択部27は、ノイズモデル生成部26から供給されたノイズモデルNMを蓄積し、フラグ信号CTL、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38、およびフーリエ変換部25から供給された疑似ノイズ信号S48の振幅スペクトルデータSD48に基づいて、蓄積された複数のノイズモデルNMのうちの1つを選択するように構成される。具体的には、ノイズモデル選択部27は、フラグ信号CTLが低レベル(非アクティブ)である期間では、音源信号S38の振幅スペクトルデータSD38と、複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択する。すなわち、フラグ信号CTLが低レベル(非アクティブ)である期間では、音源信号S38は、ユーザが選択した音源(目的音源)の信号成分を含まないので、ノイズモデル選択部27は、この期間において、この音源信号S38の振幅スペクトルデータSD38を用いて、複数のノイズモデルNMのうちの1つを選択する。類似度は、例えばコサイン類似度を用いることができる。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。また、ノイズモデル選択部27は、フラグ信号CTLが高レベル(アクティブ)である期間では、疑似ノイズ信号S48の振幅スペクトルデータSD48と、複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択する。すなわち、フラグ信号CTLが高レベル(アクティブ)である期間では、音源信号S38は、ユーザが選択した音源(目的音源)の信号成分を含むので、ノイズモデル選択部27は、この期間において、疑似ノイズ信号S48の振幅スペクトルデータSD48を用いて、複数のノイズモデルNMのうちの1つを選択する。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給するようになっている。
 スペクトル減算部28は、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38から、ノイズモデル選択部27から供給されたノイズモデルNMの振幅スペクトルデータを減算するスペクトル減算処理を行うように構成される。そして、スペクトル減算部28は、スペクトル減算処理により得られた振幅スペクトルデータを、逆フーリエ変換部29に供給するようになっている。
 逆フーリエ変換部29は、スペクトル減算部28から供給された振幅スペクトルデータ、およびフーリエ変換部24から供給された位相スペクトルデータSDPに基づいて離散フーリエ変換の逆変換を行うことにより、信号S29を生成するように構成される。
 このようにして、ノイズ処理回路20は、ノイズが低減された、タイムドメインの信号S29を生成する。そして、ノイズ処理回路20は、この信号S29を、後段の処理回路19に供給するようになっている。
 処理回路19は、信号S29に基づいて、所定の信号処理を行うように構成される。
 ここで、音源検出部21は、本開示における「検出部」の一具体例に対応する。マイクロフォン91~94は、本開示における「複数のマイクロフォン」の一具体例に対応する。信号S11~S14は、本開示における「複数の信号」の一具体例に対応する。音源選択部22は、本開示における「フラグ信号生成部」の一具体例に対応する。ビームフォーミング処理部30は、本開示における「ビームフォーミング処理部」の一具体例に対応する。ノイズモデル生成部26は、本開示における「ノイズモデル生成部」の一具体例に対応する。ノイズモデル選択部27は、本開示における「ノイズモデル選択部」の一具体例に対応する。スペクトル減算部28は、本開示における「スペクトル減算部」の一具体例に対応する。ユーザインタフェース18は、本開示における「ユーザインタフェース」の一具体例に対応する。処理回路19は、本開示における「処理回路」の一具体例に対応する。
[動作および作用]
 続いて、本実施の形態の信号処理装置1の動作および作用について説明する。
(全体動作概要)
 まず、図1を参照して、信号処理装置1の全体動作概要を説明する。マイクロフォン91~94のそれぞれは、音波を電気信号に変換する。AD変換回路11~14は、マイクロフォン91~94から供給された電気信号に基づいてAD変換を行うことにより、信号S11~S14をそれぞれ生成する。ユーザインタフェース18は、信号処理装置1のユーザに対して情報を提示するとともに、ユーザ操作を受け付ける。ノイズ処理回路20は、信号S11~S14に基づいて、ノイズ処理を行うことにより、ノイズが低減された信号S29を生成する。
 ノイズ処理回路20の音源検出部21は、信号S11~S14に基づいて、音源の種類を検出し、音源の種類を示すメタデータを生成する。音源選択部22は、音源検出部21から供給されたメタデータと、ユーザインタフェース18から供給された、ユーザの選択操作についての情報に基づいて、ユーザが選択した音源の信号成分を含む期間においてアクティブになり、それ以外の期間において非アクティブになるフラグ信号CTLを生成する。ビームフォーミング処理部30は、信号S11~S14、およびフラグ信号CTLに基づいて、音源信号S38および疑似ノイズ信号S48を生成する。フーリエ変換部24は、音源信号S38に基づいて離散フーリエ変換を行うことにより音源信号S38の振幅スペクトルデータSD38および位相スペクトルデータSDPを算出する。フーリエ変換部25は、疑似ノイズ信号S48に基づいて離散フーリエ変換を行うことにより疑似ノイズ信号S48の振幅スペクトルデータSD48を算出する。ノイズモデル生成部26は、フラグ信号CTL、および音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。ノイズモデル選択部27は、ノイズモデル生成部26から供給されたノイズモデルNMを蓄積し、フラグ信号CTL、音源信号S38の振幅スペクトルデータSD38、および疑似ノイズ信号S48の振幅スペクトルデータSD48に基づいて、蓄積された複数のノイズモデルNMのうちの1つを選択する。スペクトル減算部28は、音源信号S38の振幅スペクトルデータSD38から、ノイズモデル選択部27から供給されたノイズモデルNMの振幅スペクトルデータを減算するスペクトル減算処理を行う。逆フーリエ変換部29は、スペクトル減算部28から供給された振幅スペクトルデータおよびフーリエ変換部24から供給された位相スペクトルデータSDPに基づいて離散フーリエ変換の逆変換を行うことにより、信号S29を生成する。
 処理回路19は、ノイズ処理回路20が生成した信号S29に基づいて、所定の信号処理を行う。
(詳細動作)
 次に、ノイズ処理回路20における、ノイズモデル生成部26、およびノイズモデル選択部27の動作について詳細に説明する。
(ノイズモデル生成部26の動作)
 ノイズモデル生成部26は、フラグ信号CTL、およびフーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。
 図6は、ノイズモデル生成部26の一動作例を表すものである。この図6では、音源信号S38を、エンベロープを用いて描いている。
 この例では、音源選択部22は、このタイミングt11において、フラグ信号CTLを高レベル(アクティブ)から低レベル(非アクティブ)に変化させる。すなわち、音源信号S38は、タイミングt11より前の期間では、ユーザが選択した音源の信号成分を含み、タイミングt11より後の期間では、ユーザが選択した音源の信号成分を含んでいない。
 フーリエ変換部24は、処理期間Tのそれぞれにおいて、音源信号S38に含まれる所定数(例えば512個)のデータeに基づいて離散フーリエ変換を行うことにより、音源信号S38の振幅スペクトルデータSD38を算出する。
 フラグ信号CTLが低レベル(非アクティブ)である期間において、ノイズモデル生成部26は、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。
 具体的には、例えば、ノイズモデル生成部26は、タイミングt11~t12の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。ノイズモデル生成部26は、例えば、振幅スペクトルデータSD38に、係数を乗算することにより、ノイズモデルNMを生成することができる。この係数は、いわゆるサブトラクション係数である。具体的には、ノイズモデル生成部26は、例えば、振幅スペクトルデータSD38における各周波数での振幅の大きさに、例えば“1.3”を乗算することにより、ノイズモデルNMを生成することができる。これに限定されるものではなく、ノイズモデル生成部26は、例えば、振幅スペクトルデータSD38における各周波数での振幅の大きさに、例えば“1.0”を乗算することにより、ノイズモデルNMを生成してもよいし、例えば“0.7”を乗算することにより、ノイズモデルNMを生成してもよい。
 次に、ノイズモデル生成部26は、この例では、タイミングt11~t12の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38と、タイミングt12~t13の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38とに基づいて、ノイズモデルNMを生成する。ノイズモデル生成部26は、例えば、これらの2つの振幅スペクトルデータSD38の平均値を算出することにより、ノイズモデルNMを生成することができる。また、ノイズモデル生成部26は、例えば、これらの2つの振幅スペクトルデータSD38に基づいて、係数を用いて重み加算を行うことにより、ノイズモデルNMを生成してもよい。
 次に、ノイズモデル生成部26は、この例では、タイミングt11~t12の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38、タイミングt12~t13の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38、およびタイミングt13~t14の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38とに基づいて、ノイズモデルNMを生成する。ノイズモデル生成部26は、例えば、これらの3つの振幅スペクトルデータSD38の平均値を算出することにより、ノイズモデルNMを生成することができる。また、ノイズモデル生成部26は、例えば、これらの3つの振幅スペクトルデータSD38に基づいて、係数を用いて重み加算を行うことにより、ノイズモデルNMを生成してもよい。
 この例では、タイミングt14~t15の期間では、ノイズモデル生成部26は、ノイズモデルNMを生成しない。すなわち、この例では、タイミングt14~t15の期間における4つの振幅スペクトルデータSD38のそれぞれは、タイミングt11~t14の期間における振幅スペクトルデータSD38とほぼ同じであるので、ノイズモデル生成部26は、ノイズモデルNMを生成しない。なお、この例では、タイミングt14~t15の期間では、ノイズモデルNMを生成しないようにしたが、これに限定されるものではなく、ノイズモデルNMを生成してもよい。
 そして、この例では、タイミングt15において、音源信号S38が大きく変化する。これに応じて、振幅スペクトルデータSD38もまた大きく変化する。
 ノイズモデル生成部26は、タイミングt15~t16の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。すなわち、この例では、タイミングt15~t16の期間における振幅スペクトルデータSD38は、例えば直前の振幅スペクトルデータSD38と比べて所定の度合い以上変化しているので、ノイズモデル生成部26は、ノイズモデルNMを生成する。ノイズモデル生成部26は、例えば、振幅スペクトルデータSD38に、係数を乗算することにより、ノイズモデルNMを生成することができる。すなわち、この例では、タイミングt15~t16の期間における振幅スペクトルデータSD38は、それ以前の振幅スペクトルデータSD38との相関が低いので、以前の振幅スペクトルデータSD38を用いずに、タイミングt15~t16の期間における振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。
 次に、ノイズモデル生成部26は、この例では、タイミングt15~t16の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38と、タイミングt16~t17の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38とに基づいて、ノイズモデルNMを生成する。
 次に、ノイズモデル生成部26は、この例では、タイミングt15~t16の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38、タイミングt16~t17の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38、およびタイミングt17~t18の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38とに基づいて、ノイズモデルNMを生成する。
 このように、ノイズモデル生成部26は、フラグ信号CTLが低レベル(非アクティブ)である期間において、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。
 なお、この例では、ノイズモデル生成部26は、フラグ信号CTLが高レベル(アクティブ)から低レベル(非アクティブ)に変化した直後、および振幅スペクトルデータSD38が大きく変化したときに、ノイズモデルNMを生成したが、これに限定されるものではなく、これ以外の場合にも、ノイズモデルNMを生成してもよい。例えば、ノイズモデル生成部26は、フラグ信号CTLが低レベル(非アクティブ)である場合において、常にノイズモデルNMを生成してもよい。
 このようにして、ノイズモデル生成部26は、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38に基づいて、ノイズモデルNMを生成する。そして、ノイズモデル生成部26は、生成したノイズモデルNMを、順次、ノイズモデル選択部27に供給する。
(ノイズモデル選択部27の動作)
 ノイズモデル選択部27は、ノイズモデル生成部26から供給されたノイズモデルNMを蓄積し、フラグ信号CTL、音源信号S38の振幅スペクトルデータSD38、および疑似ノイズ信号S48の振幅スペクトルデータSD48に基づいて、蓄積された複数のノイズモデルNMのうちの1つを選択する。
 図7は、ノイズモデル選択部27の一動作例を表すものである。図7において、ノイズモデルリストは、ノイズモデル生成部26により生成され、ノイズモデル選択部27において蓄積された複数のノイズモデルNMを示している。
 この例では、音源選択部22は、このタイミングt23において、フラグ信号CTLを低レベル(非アクティブ)から高レベル(アクティブ)に変化させる。すなわち、音源信号S38は、タイミングt23より前の期間では、ユーザが選択した音源(目的音源)の信号成分を含んでおらず、タイミングt23より後の期間では、ユーザが選択した音源の信号成分を含んでいる。
 フーリエ変換部24は、処理期間Tのそれぞれにおいて、音源信号S38に含まれる所定数(例えば512個)のデータeに基づいて離散フーリエ変換を行うことにより、音源信号S38の振幅スペクトルデータSD38を算出する。同様に、フーリエ変換部25は、処理期間Tのそれぞれにおいて、疑似ノイズ信号S48に含まれる所定数(例えば512個)のデータeに基づいて離散フーリエ変換を行うことにより、疑似ノイズ信号S48の振幅スペクトルデータSD48を算出する。
 フラグ信号CTLが低レベル(非アクティブ)である期間では、ノイズモデル選択部27は、音源信号S38の振幅スペクトルデータSD38と、蓄積された複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 具体的には、例えば、ノイズモデル選択部27は、タイミングt21~t22の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38と、複数のノイズモデルNMのそれぞれとの類似度を算出する。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 次に、ノイズモデル選択部27は、タイミングt22~t23の期間における音源信号S38に基づいて得られた振幅スペクトルデータSD38と、複数のノイズモデルNMのそれぞれとの類似度を算出する。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 フラグ信号CTLが高レベル(アクティブ)である期間では、ノイズモデル選択部27は、疑似ノイズ信号S48の振幅スペクトルデータSD48と、複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 具体的には、例えば、ノイズモデル選択部27は、タイミングt23~t24の期間における疑似ノイズ信号S48に基づいて得られた振幅スペクトルデータSD48と、複数のノイズモデルNMのそれぞれとの類似度を算出する。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 次に、ノイズモデル選択部27は、タイミングt24~t25の期間における疑似ノイズ信号S48に基づいて得られた振幅スペクトルデータSD48と、複数のノイズモデルNMのそれぞれとの類似度を算出する。ノイズモデル選択部27は、例えば、複数のノイズモデルNMのうちの、類似度が最も高いノイズモデルNMを選択する。そして、ノイズモデル選択部27は、選択したノイズモデルNMをスペクトル減算部28に供給する。
 スペクトル減算部28は、フーリエ変換部24から供給された音源信号S38の振幅スペクトルデータSD38から、ノイズモデル選択部27から供給されたノイズモデルNMの振幅スペクトルデータを減算するスペクトル減算処理を行う。そして、逆フーリエ変換部29は、スペクトル減算部28から供給された振幅スペクトルデータおよびフーリエ変換部24から供給された位相スペクトルデータSDPに基づいて離散フーリエ変換の逆変換を行うことにより、信号S29を生成する。
 このようにして、ノイズ処理回路20は、ノイズが低減された、タイムドメインの信号S29を生成する。
 このように、ノイズ処理回路20では、4つのマイクロフォン91~94から供給された4つの信号S11~S14に基づいて音源を検出する音源検出部21と、音源検出部21の検出結果に基づいて、4つの信号S11~S14が第1の信号成分(この例ではユーザにより選択された音源の信号成分)を含む期間を示すフラグ信号CTLを生成する音源選択部22と、4つの信号S11~S14およびフラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分を含む期間において第1の信号成分を強調することにより、音源信号S38を生成するとともに、4つの信号S11~S14が第1の信号成分を含む期間において第1の信号成分を抑えることにより、疑似ノイズ信号S48を生成するビームフォーミング処理部30と、フラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分を含まない期間において、音源信号S38のスペクトルに応じた複数のノイズモデルNMを生成するノイズモデル生成部26と、フラグ信号CTLに基づいて、音源信号S38および疑似ノイズ信号S48のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択するノイズモデル選択部27と、音源信号S38のスペクトル、およびノイズモデル選択部27により選択されたノイズモデルNMに基づいてスペクトル減算処理を行うスペクトル減算部28を設けるようにした。これにより、ノイズ処理回路20では、非定常ノイズを効果的に低減することができる。
 すなわち、一般的なスペクトルサブトラクション法では、定常ノイズを低減することができるが、非定常ノイズを低減することは難しい。具体的には、例えば、ノイズ処理回路は、定常ノイズに基づいてノイズスペクトルを取得し、音源信号のスペクトルからこのノイズスペクトルを減算する場合には、音源信号に含まれる定常ノイズを低減することができる。しかしながら、音源信号に非定常ノイズが含まれている場合に、非定常ノイズを低減することができず、所望の信号成分の品質を損なってしまう。また、ノイズ処理回路は、非定常ノイズに基づいてノイズスペクトルを取得し、音源信号のスペクトルからこのノイズスペクトルを減算する場合には、音源信号に含まれる非定常ノイズを低減することができる。しかしながら、この場合には、音源信号に非定常ノイズが含まれていない場合に、所望の信号成分の品質を損なってしまう。
 一方、本実施の形態に係るノイズ処理回路20では、複数のノイズモデルNMを設け、音源信号S38および疑似ノイズ信号S48のうちの一方のスペクトルと、複数のノイズモデルNMのそれぞれとの類似度を算出することにより、複数のノイズモデルNMのうちの1つを選択し、音源信号S38のスペクトル、およびノイズモデル選択部27により選択されたノイズモデルNMに基づいてスペクトル減算処理を行うようにした。これにより、例えば、音源信号S38が、ユーザにより選択された音源の信号成分を含まない期間では、この音源信号S38のスペクトルに類似するノイズモデルNMが選択される。また、例えば、音源信号S38が、ユーザにより選択された音源の信号成分を含む期間では、この疑似ノイズ信号S48のスペクトルに類似するノイズモデルNMが選択される。疑似ノイズ信号S48は、音源信号S38に含まれるノイズ信号と相関がある。よって、音源信号S38が非定常ノイズを含むか否かに関わらず、複数のノイズモデルNMのうち、音源信号S38に含まれるノイズが除去可能なノイズモデルNMが選択される。これにより、ノイズ処理回路20では、所望の信号成分の品質を損なうことなく、非定常ノイズを低減することができる。その結果、非定常ノイズを効果的に低減することができる。
 また、ノイズ処理回路20では、音源検出部21は、音源を検出することにより、音源の種類を示すメタ情報のシーケンスを生成し、音源選択部22は、メタ情報のシーケンスに基づいて、フラグ信号CTLを生成するようにした。これにより、ノイズ処理回路20は、意図しない信号成分に基づいてノイズ処理を行う可能性を低減することができるので、ノイズ処理の精度を高めることができる。
 また、ノイズ処理回路20では、音源選択部22は、音源検出部21の検出結果、およびユーザインタフェース18が受け付けた、ユーザの音源選択操作に基づいて、フラグ信号CTLを生成するようにした。これにより、ユーザは、アプリケーションに応じて、どの音源の信号成分を残しそれ以外の信号成分を低減するかを選択することができる。よって、ノイズ処理回路20は、ユーザが意図した信号成分に基づいてノイズ処理を行うことができるので、ノイズ処理の精度を高めることができる。
 また、ノイズ処理回路20では、ビームフォーミング処理部30は、フラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分(この例ではユーザにより選択された音源の信号成分)を含む期間において、第1の信号成分が強調された音源信号S38を生成するように、ビームフォーミング処理部30の第1の処理設定(この例では4つの遅延部31~34における遅延量d1~d4および3つの適応フィルタ44~46におけるフィルタ係数)を調節し、4つの信号S11~S14が第1の信号成分を含まない期間において、第1の処理設定を維持し、第1の処理設定を用いて音源信号S38を生成するようにした。これにより、例えば信号処理装置1からみた音源の方向やマイクロフォン91~94の特性差によらずに、ユーザが選択した音源の信号成分が強調された音源信号S38を生成することができる。これにより、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。
 また、ノイズ処理回路20では、ビームフォーミング処理部30は、フラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分(この例ではユーザにより選択された音源の信号成分)を含まない期間において、音源信号S38の第2の信号成分(例えばノイズ成分)を抑えるとともに第2の信号成分を含む疑似ノイズ信号S48を生成するようにビームフォーミング処理部30の第2の処理設定(この例では3つの適応フィルタ44~46におけるフィルタ係数)を調節し、4つの信号S11~S14が第1の信号成分を含む期間において、第2の処理設定を維持し、第2の処理設定を用いて疑似ノイズ信号S48を生成するようにした。これにより、例えば音源の方向やマイクロフォン91~94の特性差によらずに、ユーザが選択した音源の信号成分が抑えられ、信号S11~S14に含まれるノイズ成分を含む疑似ノイズ信号S48を生成することができる。これにより、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。
 また、ノイズ処理回路20では、ノイズモデル生成部26は、音源信号S38のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じたノイズモデルNMを生成するようにした。これにより、ノイズ処理回路20では、新たな非定常ノイズが生じた場合でも、音源信号S38における、この非定常ノイズのノイズ成分を低減することができるので、非定常ノイズを効果的に低減することができる。
 また、ノイズ処理回路20では、ノイズモデル選択部27は、フラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分(この例ではユーザにより選択された音源の信号成分)を含まない期間において、音源信号S38および疑似ノイズ信号S48のうちの音源信号S38を選択し、この音源信号S38に基づいて、複数のノイズモデルNMのうちの1つを選択するようにした。これにより、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。すなわち、この期間では、音源信号S38は、ユーザが選択した音源の信号成分を含まないので、この音源信号S38に基づいてノイズのスペクトルを高い精度で得ることができ、複数のノイズモデルNMのうちのより適切な1つを選択することができる。その結果、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。
 また、ノイズ処理回路20では、ノイズモデル選択部27は、フラグ信号CTLに基づいて、4つの信号S11~S14が第1の信号成分(この例ではユーザにより選択された音源の信号成分)を含む場合において、音源信号S38および疑似ノイズ信号S48のうちの疑似ノイズ信号S48を選択し、この疑似ノイズ信号S48に基づいて、複数のノイズモデルNMのうちの1つを選択するようにした。これにより、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。すなわち、この期間では、音源信号S38は、ユーザが選択した音源の信号成分を含むので、この音源信号S38に基づいてノイズのスペクトルを高い精度で得ることは難しい。疑似ノイズ信号S48の信号成分は、音源信号S38に含まれるノイズ成分と相関がある。よって、疑似ノイズ信号S48に基づいてノイズのスペクトルを得ることにより、複数のノイズモデルNMのうちのより適切な1つを選択することができる。その結果、ノイズ処理回路20では、ノイズ処理の精度を高めることができる。
[効果]
 以上のように本実施の形態では、4つのマイクロフォンから供給された4つの信号に基づいて音源を検出する音源検出部と、音源検出部の検出結果に基づいて、4つの信号が第1の信号成分含む期間を示すフラグ信号を生成する音源選択部と、4つの信号およびフラグ信号に基づいて、4つの信号が第1の信号成分を含む期間において第1の信号成分を強調することにより、音源信号を生成するとともに、4つの信号が第1の信号成分を含む期間において第1の信号成分を抑えることにより、疑似ノイズ信号を生成するビームフォーミング処理部と、フラグ信号に基づいて、4つの信号が第1の信号成分を含まない期間において、音源信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、フラグ信号に基づいて、音源信号および疑似ノイズ信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、音源信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部を設けるようにした。これにより、非定常ノイズを効果的に低減することができる。
 本実施の形態では、音源検出部は、音源を検出することにより、音源の種類を示すメタ情報のシーケンスを生成し、音源選択部は、メタ情報のシーケンスに基づいて、フラグ信号を生成するようにしたので、ノイズ処理の精度を高めることができる。
 本実施の形態では、音源選択部は、音源検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、フラグ信号を生成するようにしたので、ノイズ処理の精度を高めることができる。
 本実施の形態では、ビームフォーミング処理部は、フラグ信号に基づいて、4つの信号が第1の信号成分を含む期間において、第1の信号成分が強調された音源信号を生成するように、ビームフォーミング処理部の第1の処理設定を調節し、4つの信号が第1の信号成分を含まない期間において、第1の処理設定を維持し、第1の処理設定を用いて音源信号を生成するようにしたので、ノイズ処理の精度を高めることができる。
 本実施の形態では、ビームフォーミング処理部は、フラグ信号に基づいて、4つの信号が第1の信号成分を含まない期間において、音源信号の第2の信号成分を抑えるとともに第2の信号成分を含む疑似ノイズ信号を生成するようにビームフォーミング処理部の第2の処理設定を調節し、4つの信号が第1の信号成分を含む期間において、第2の処理設定を維持し、第2の処理設定を用いて疑似ノイズ信号を生成するようにした。これにより、ノイズ処理の精度を高めることができる。
 本実施の形態では、ノイズモデル生成部は、音源信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じたノイズモデルを生成するようにしたので、非定常ノイズを効果的に低減することができる。
 本実施の形態では、ノイズモデル選択部は、フラグ信号に基づいて、4つの信号が第1の信号成分を含まない期間において、音源信号および疑似ノイズ信号のうちの音源信号を選択し、この音源信号に基づいて、複数のノイズモデルのうちの1つを選択するようにしたので、ノイズ処理の精度を高めることができる。
 本実施の形態では、ノイズモデル選択部は、フラグ信号に基づいて、4つの信号が第1の信号成分を含む場合において、音源信号および疑似ノイズ信号のうちの疑似ノイズ信号を選択し、この疑似ノイズ信号に基づいて、複数のノイズモデルNMのうちの1つを選択するようにしたので、ノイズ処理の精度を高めることができる。
[変形例1]
 上記実施の形態では、ビームフォーミング処理部30は、図4に示した構成を有するようにしたが、これに限定されるものではない。以下に、本変形例について、いくつか例を挙げて説明する。
 図8は、本変形例に係るビームフォーミング処理部30Aの一構成例を表すものである。ビームフォーミング処理部30Aは、遅延部31~34と、遅延設定部35Aと、加算部36と、遅延部37と、減算部41~43と、適応フィルタ44~46と、適応フィルタ制御部47と、加算部48と、減算部38とを有している。すなわち、ビームフォーミング処理部30Aは、上記実施の形態に係るビームフォーミング処理部30(図4)において、遅延制御部35を遅延設定部35Aに置き換えたものである。遅延設定部35Aは、遅延部31~34の遅延量d1~d4をそれぞれ設定するように構成される。遅延設定部35Aでは、信号処理装置1からみた音源の向きや、マイクロフォン91~94の特性差により、遅延量d1~d4があらかじめ設定されている。遅延設定部35Aには、この遅延量d1~d4の設定データが記憶されている。遅延設定部35Aは、このような設定データを複数記憶し、例えばユーザ操作に基づいて、これらの設定データのうちの1つが選択されるようにしてもよい。遅延設定部35Aは、設定データに基づいて、遅延量d1~d4を設定する。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。
 図9は、本変形例に係るビームフォーミング処理部30Bの一構成例を表すものである。ビームフォーミング処理部30Bは、遅延部31~34と、遅延制御部35と、遅延部37Bと、減算部41~43と、適応フィルタ44~46と、適応フィルタ制御部47と、加算部48と、減算部38とを有している。すなわち、ビームフォーミング処理部30Bは、上記実施の形態に係るビームフォーミング処理部30(図4)において、加算部36を省くとともに、遅延部37を遅延部37Bに置き換えたものである。遅延部37Bは、信号S11を遅延量dsだけ遅延させることにより信号S37を生成するように構成される。なお、これに限定されるものではなく、遅延部37Bは、信号S12~S14のいずれか1つを遅延量dsだけ遅延させることにより信号S37を生成してもよい。遅延部37Bの遅延量dsは、図示しない制御部により設定された所定値である。この場合でも、減算部38が信号S37から疑似ノイズ信号S48を減算することにより、信号S37に含まれるノイズ成分が低減されるので、ビームフォーミング処理部30Bは、ユーザが選択した音源の信号成分が強調された信号である音源信号S38を生成することができる。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。
 図10は、本変形例に係るビームフォーミング処理部30Cの一構成例を表すものである。このビームフォーミング処理部30Cは、ビームフォーミング処理部30A(図8)およびビームフォーミング処理部30B(図9)を組み合わせたものである。ビームフォーミング処理部30Cは、遅延部31~34と、遅延設定部35Aと、遅延部37Bと、減算部41~43と、適応フィルタ44~46と、適応フィルタ制御部47と、加算部48と、減算部38とを有している。すなわち、ビームフォーミング処理部30Bは、上記実施の形態に係るビームフォーミング処理部30(図4)において、加算部36を省き、遅延制御部35および遅延部37を遅延設定部35Aおよび遅延部37Bにそれぞれ置き換えたものである。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。
[変形例2]
 上記実施の形態では、ビームフォーミング処理部30は、減算部38の出力信号を音源信号S38として出力したが、これに限定されるものではない。これに代えて、図11に示すビームフォーミング処理部30Dのように、遅延部37が出力する信号S37を音源信号として出力してもよい。この場合でも、加算部36は、ユーザが選択した音源の信号成分の位相が互いに一致した信号S31~S34を互いに加算するので、ビームフォーミング処理部30Dは、ユーザが選択した音源の信号成分が強調された信号を音源信号として出力することができる。
[その他の変形例]
 また、これらの変形例のうちの2以上を組み合わせてもよい
 以上、実施の形態および変形例を挙げて本発明を説明したが、本発明はこれらの実施の形態等には限定されず、種々の変形が可能である。
 例えば、上記実施の形態等では、4つのマイクロフォン91~94を設けたが、これに限定されるものではなく、2つまたは3つのマイクロフォンを設けてもよいし、5つ以上のマイクロフォンを設けてもよい。
 本明細書中に記載された効果はあくまで例示であり、本開示の効果は、本明細書中に記載された効果に限定されない。よって、本開示に関して、他の効果が得られてもよい。
 さらに、本開示は、以下の態様を取り得る。
(1)
 複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
 前記検出部の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成するビームフォーミング処理部と、
 前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
 前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、
 前記第1の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
 を備えたノイズ処理回路。
(2)
 前記検出部は、前記音源を検出することにより、前記音源の種類を示すメタ情報のシーケンスを生成し、
 前記フラグ信号生成部は、前記メタ情報の前記シーケンスに基づいて、前記フラグ信号を生成する
 前記(1)に記載のノイズ処理回路。
(3)
 前記フラグ信号生成部は、前記検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、前記フラグ信号を生成する
 前記(1)または(2)に記載のノイズ処理回路。
(4)
 前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
 前記複数の信号が前記第1の信号成分を含む期間において、前記第1の信号成分が強調された前記第1の信号を生成するように、前記ビームフォーミング処理部の第1の処理設定を調節し、
 前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の処理設定を維持し、前記第1の処理設定を用いて前記第1の信号を生成する
 前記(1)から(3)のいずれかに記載のノイズ処理回路。
(5)
 前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
 前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号の第2の信号成分を抑えるとともに前記第2の信号成分を含む前記第2の信号を生成するように前記ビームフォーミング処理部の第2の処理設定を調節し、
 前記複数の信号が前記第1の信号成分を含む期間において、前記第2の処理設定を維持し、前記第2の処理設定を用いて前記第2の信号を生成する
 前記(1)から(4)のいずれかに記載のノイズ処理回路。
(6)
 前記ノイズモデル生成部は、第1の期間における前記第1の信号のスペクトルに基づいて、第1のノイズモデルを生成し、
 前記複数のノイズモデルは、前記第1のノイズモデルを含む
 前記(1)から(5)のいずれかに記載のノイズ処理回路。
(7)
 前記ノイズモデル生成部は、第1の期間における前記第1の信号のスペクトル、および第2の期間における前記第1の信号のスペクトルに基づいて、第2のノイズモデルを生成し、
 前記複数のノイズモデルは、前記第2のノイズモデルを含む
 前記(1)から(6)のいずれかに記載のノイズ処理回路。
(8)
 前記ノイズモデル生成部は、前記第1の信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じた第3のノイズモデルを生成し、
 前記複数のノイズモデルは、前記第3のノイズモデルを含む
 前記(1)から(7)のいずれかに記載のノイズ処理回路。
(9)
 前記ノイズモデル選択部は、前記フラグ信号に基づいて、
 前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号および前記第2の信号のうちの前記第1の信号を選択し、前記第1の信号に基づいて、前記複数のノイズモデルのうちの1つを選択する
 前記(1)から(8)のいずれかに記載のノイズ処理回路。
(10)
 前記ノイズモデル選択部は、前記フラグ信号に基づいて、
 前記複数の信号が前記第1の信号成分を含む期間において、前記第1の信号および前記第2の信号のうちの前記第2の信号を選択し、前記第2の信号に基づいて、前記複数のノイズモデルのうちの1つを選択する
 前記(1)から(9)のいずれかに記載のノイズ処理回路。
(11)
 複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うノイズ処理回路と、
 前記ノイズ処理回路の処理結果に基づいて信号処理を行う処理回路と
 を備え、
 前記ノイズ処理回路は、
 複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
 前記検出部の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成するビームフォーミング処理部と、
 前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
 前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、
 前記第1の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
 を有する
 信号処理装置。
(12)
 複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
 前記音源の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成することと、
 前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、
 前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択することと、
 前記第1の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
 を含むノイズ処理方法。
(13)
 複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
 前記音源の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、
 前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成することと、
 前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、
 前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択することと、
 前記第1の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
 をプロセッサに行わせるソフトウェアが記録された
 記録媒体。
 

Claims (13)

  1.  複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
     前記検出部の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成するビームフォーミング処理部と、
     前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
     前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、
     前記第1の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
     を備えたノイズ処理回路。
  2.  前記検出部は、前記音源を検出することにより、前記音源の種類を示すメタ情報のシーケンスを生成し、
     前記フラグ信号生成部は、前記メタ情報の前記シーケンスに基づいて、前記フラグ信号を生成する
     請求項1に記載のノイズ処理回路。
  3.  前記フラグ信号生成部は、前記検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、前記フラグ信号を生成する
     請求項1に記載のノイズ処理回路。
  4.  前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
     前記複数の信号が前記第1の信号成分を含む期間において、前記第1の信号成分が強調された前記第1の信号を生成するように、前記ビームフォーミング処理部の第1の処理設定を調節し、
     前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の処理設定を維持し、前記第1の処理設定を用いて前記第1の信号を生成する
     請求項1に記載のノイズ処理回路。
  5.  前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
     前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号の第2の信号成分を抑えるとともに前記第2の信号成分を含む前記第2の信号を生成するように前記ビームフォーミング処理部の第2の処理設定を調節し、
     前記複数の信号が前記第1の信号成分を含む期間において、前記第2の処理設定を維持し、前記第2の処理設定を用いて前記第2の信号を生成する
     請求項1に記載のノイズ処理回路。
  6.  前記ノイズモデル生成部は、第1の期間における前記第1の信号のスペクトルに基づいて、第1のノイズモデルを生成し、
     前記複数のノイズモデルは、前記第1のノイズモデルを含む
     請求項1に記載のノイズ処理回路。
  7.  前記ノイズモデル生成部は、第1の期間における前記第1の信号のスペクトル、および第2の期間における前記第1の信号のスペクトルに基づいて、第2のノイズモデルを生成し、
     前記複数のノイズモデルは、前記第2のノイズモデルを含む
     請求項1に記載のノイズ処理回路。
  8.  前記ノイズモデル生成部は、前記第1の信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じた第3のノイズモデルを生成し、
     前記複数のノイズモデルは、前記第3のノイズモデルを含む
     請求項1に記載のノイズ処理回路。
  9.  前記ノイズモデル選択部は、前記フラグ信号に基づいて、
     前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号および前記第2の信号のうちの前記第1の信号を選択し、前記第1の信号に基づいて、前記複数のノイズモデルのうちの1つを選択する
     請求項1に記載のノイズ処理回路。
  10.  前記ノイズモデル選択部は、前記フラグ信号に基づいて、
     前記複数の信号が前記第1の信号成分を含む期間において、前記第1の信号および前記第2の信号のうちの前記第2の信号を選択し、前記第2の信号に基づいて、前記複数のノイズモデルのうちの1つを選択する
     請求項1に記載のノイズ処理回路。
  11.  複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うノイズ処理回路と、
     前記ノイズ処理回路の処理結果に基づいて信号処理を行う処理回路と
     を備え、
     前記ノイズ処理回路は、
     複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
     前記検出部の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成するとともに、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成するビームフォーミング処理部と、
     前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
     前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択するノイズモデル選択部と、
     前記第1の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
     を有する
     信号処理装置。
  12.  複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
     前記音源の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成することと、
    第1の信号成分が強調された第1の信号と、前記第1の信号成分が抑えられ、前記複数の信号に含まれるノイズ成分に応じた第2の信号成分を含む第2の信号とを生成することと、
     前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、
     前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択することと、
     前記第1の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
     を含むノイズ処理方法。
  13.  複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
     前記音源の検出結果に基づいて、前記複数の信号が第1の信号成分を含む期間を示すフラグ信号を生成することと、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において第1の信号成分を強調することにより、第1の信号を生成することと、
     前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含む期間において前記第1の信号成分を抑えることにより、第2の信号を生成することと、
     前記フラグ信号に基づいて、前記複数の信号が前記第1の信号成分を含まない期間において、前記第1の信号のスペクトルに応じた複数のノイズモデルを生成することと、
     前記フラグ信号に基づいて、前記第1の信号および前記第2の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの1つを選択することと、
     前記第1の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
     をプロセッサに行わせるソフトウェアが記録された
     記録媒体。
     
     
     
     
PCT/JP2022/036788 2022-09-30 2022-09-30 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体 WO2024069964A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/036788 WO2024069964A1 (ja) 2022-09-30 2022-09-30 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/036788 WO2024069964A1 (ja) 2022-09-30 2022-09-30 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Publications (1)

Publication Number Publication Date
WO2024069964A1 true WO2024069964A1 (ja) 2024-04-04

Family

ID=90476680

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/036788 WO2024069964A1 (ja) 2022-09-30 2022-09-30 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Country Status (1)

Country Link
WO (1) WO2024069964A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
JP2003308092A (ja) * 2002-04-15 2003-10-31 Mitsubishi Electric Corp 雑音除去装置及び雑音除去方法
JP2006047639A (ja) * 2004-08-04 2006-02-16 Advanced Telecommunication Research Institute International 雑音除去装置
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
JP2003308092A (ja) * 2002-04-15 2003-10-31 Mitsubishi Electric Corp 雑音除去装置及び雑音除去方法
JP2006047639A (ja) * 2004-08-04 2006-02-16 Advanced Telecommunication Research Institute International 雑音除去装置
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム

Similar Documents

Publication Publication Date Title
EP2209116B1 (en) Device and method for high-frequency range interpolation of an audio signal
KR101052445B1 (ko) 잡음 억압을 위한 방법과 장치, 및 컴퓨터 프로그램
JP2001134287A (ja) 雑音抑圧装置
JP2006222867A (ja) 音響信号処理装置およびその方法
JP2009104015A (ja) 帯域拡張再生装置
WO2013183185A1 (ja) 周波数特性変形装置
US20070170992A1 (en) Apparatus and method to eliminate noise in portable recorder
WO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP6070953B2 (ja) 信号処理装置、信号処理方法、及び記憶媒体
JP6300464B2 (ja) 音声処理装置
JP5086442B2 (ja) 雑音抑圧方法及び装置
WO2024069964A1 (ja) ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体
JP4368917B2 (ja) 音響再生装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP4594960B2 (ja) 背景雑音補間装置、背景雑音補間方法
JP2007088568A (ja) オーディオ装置
JP5985306B2 (ja) 雑音低減装置および雑音低減方法
JP5103606B2 (ja) 信号処理装置
JP2002175099A (ja) 雑音抑制方法および雑音抑制装置
US10397712B2 (en) Method for frequency distortion of an audio signal, method for suppressing an acoustic feedback in an acoustic system and hearing aid
WO2023112284A1 (ja) 信号同期回路、信号処理装置、信号同期方法、および記録媒体
JPWO2012157783A1 (ja) 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体
JP2010250131A (ja) 雑音除去装置
JP2007251676A (ja) 音声処理装置、その方法、プログラム、及びそのプログラムを記録した記録媒体
CN108366331B (zh) 音频处理装置与音频处理方法