WO2024069964A1

WO2024069964A1 - ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Info

Publication number: WO2024069964A1
Application number: PCT/JP2022/036788
Authority: WO
Inventors: 将吾土岐; 聡木下; 敏弘藤井
Original assignee: Tdk株式会社
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-04

Abstract

本発明の一実施の形態に係るノイズ処理回路は、複数の信号に基づいて音源を検出する検出部と、複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、複数の信号およびフラグ信号に基づいて、第１の信号成分を強調することにより、第１の信号を生成するとともに、第１の信号成分を抑えることにより、第２の信号を生成するビームフォーミング処理部と、フラグ信号に基づいて、第１の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、フラグ信号に基づいて、第１の信号および第２の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、第１の信号のスペクトル、および選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部とを備える。

Description

ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

　本発明は、複数のマイクロフォンにより得られた複数の信号に基づいてノイズ処理を行うノイズ処理回路、信号処理装置、ノイズ処理方法、および複数のマイクロフォンにより得られた複数の信号に基づいてノイズ処理を行うことが可能なソフトウェアが記録された記録媒体に関する。

　信号処理装置には、複数のマイクロフォンにより得られた複数の信号に基づいて処理を行うものがある。このような信号処理装置では、例えば、これらの複数の信号に基づいてノイズ処理が行われ、ノイズ処理が行われた信号に基づいて所定の処理が行われる。例えば、特許文献１には、音声信号の品質を損なうことなく、非定常ノイズである風雑音成分の低減を図る技術が開示されている。

特開２０１４－１２６８５６号公報

　このような、複数のマイクロフォンにより得られた複数の信号のノイズ処理では、所望の信号成分の品質を損なうことなく、非定常ノイズを低減することが望まれており、非定常ノイズの効果的な低減が期待されている。

　非定常ノイズを効果的に低減することができるノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体を提供することが望ましい。

　本発明の一実施の形態に係るノイズ処理回路は、検出部と、フラグ信号生成部と、ビームフォーミング処理部と、ノイズモデル生成部と、ノイズモデル選択部と、スペクトル減算部とを備えている。検出部は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出するものである。フラグ信号生成部は、検出部の検出結果に基づいて、複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するものである。ビームフォーミング処理部は、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、複数の信号が第１の信号成分を含む期間において第１の信号成分を抑えることにより、第２の信号を生成するものである。ノイズモデル生成部は、フラグ信号に基づいて、複数の信号が第１の信号成分を含まない期間において、第１の信号のスペクトルに応じた複数のノイズモデルを生成するものである。ノイズモデル選択部は、フラグ信号に基づいて、第１の信号および第２の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択するものである。スペクトル減算部は、第１の信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うものである。

　本発明の一実施の形態に係る信号処理装置は、ノイズ処理回路と、処理回路とを備えている。ノイズ処理回路は、複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うものである。処理回路は、ノイズ処理回路の処理結果に基づいて信号処理を行うものである。ノイズ処理回路は、検出部と、フラグ信号生成部と、ビームフォーミング処理部と、ノイズモデル生成部と、ノイズモデル選択部と、スペクトル減算部とを有している。検出部は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出するものである。フラグ信号生成部は、検出部の検出結果に基づいて、複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するものである。ビームフォーミング処理部は、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、複数の信号が第１の信号成分を含む期間において第１の信号成分を抑えることにより、第２の信号を生成するものである。ノイズモデル生成部は、フラグ信号に基づいて、複数の信号が第１の信号成分を含まない期間において、第１の信号のスペクトルに応じた複数のノイズモデルを生成するものである。ノイズモデル選択部は、フラグ信号に基づいて、第１の信号および第２の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択するものである。スペクトル減算部は、第１の信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うものである。

　本発明の一実施の形態に係るノイズ処理方法は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、音源の検出結果に基づいて、複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を抑えることにより、第２の信号を生成することと、フラグ信号に基づいて、複数の信号が第１の信号成分を含まない期間において、第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、フラグ信号に基づいて、第１の信号および第２の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択することと、第１の信号のスペクトル、および複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うこととを含むものである。

　本発明の一実施の形態に係る記録媒体は、複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、音源の検出結果に基づいて、複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、複数の信号およびフラグ信号に基づいて、複数の信号が第１の信号成分を含む期間において第１の信号成分を抑えることにより、第２の信号を生成することと、フラグ信号に基づいて、複数の信号が第１の信号成分を含まない期間において、第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、フラグ信号に基づいて、第１の信号および第２の信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択することと、第１の信号のスペクトル、および複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うこととをプロセッサに行わせるソフトウェアが記録されたものである。

　本発明の一実施の形態に係るノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体によれば、非定常ノイズを効果的に低減することができる。

本発明の一実施の形態に係る信号処理装置の一構成例を表すブロック図である。図１に示したノイズ処理回路の一動作例を表す説明図である。図１に示した音源検出部および音源選択部の一動作例を表す波形図である。図１に示したビームフォーミング処理部の一構成例を表すブロック図である。図１に示したフーリエ変換部の一動作例を表す説明図である。図１に示したノイズモデル生成部の一動作例を表す説明図である。図１に示したノイズモデル選択部の一動作例を表す説明図である。変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。他の変形例に係るビームフォーミング処理部の一構成例を表すブロック図である。

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

＜実施の形態＞
［構成例］
　図１は、本発明の一実施の形態に係るノイズ処理回路を備えた信号処理装置１の一構成例を表すものである。信号処理装置１は、この例では４つのマイクロフォンから供給された４つの信号に基づいてノイズ処理を行うことによりノイズが低減された信号を生成し、その信号に基づいて所定の信号処理を行うように構成される。信号処理装置１は、マイクロフォン９１～９４と、ＡＤ（Analog to Digital）変換回路１１～１４と、ユーザインタフェース１８と、ノイズ処理回路２０と、処理回路１９とを有している。

　マイクロフォン９１～９４のそれぞれは、音波を電気信号に変換するように構成される。マイクロフォン９１～９４は、例えば、互いに離間して配置される。これにより、マイクロフォン９１～９４のそれぞれは、互いに異なる方向からの音波を検出することができるようになっている。

　ＡＤ変換回路１１は、マイクロフォン９１から供給された電気信号に基づいて、ＡＤ変換を行うことにより、信号Ｓ１１を生成するように構成される。ＡＤ変換回路１１は、サンプリング周波数ｆｓでＡＤ変換を行うことにより、データｘ１を順次生成し、これらのデータｘ１を信号Ｓ１１として出力する。図１に示したデータｘ１（ｎ）は、ｎ番目のデータｘ１を示す。サンプリング周波数ｆｓは、例えば、１６ｋＨｚである。

　同様に、ＡＤ変換回路１２は、マイクロフォン９２から供給された電気信号に基づいて、ＡＤ変換を行うことにより、信号Ｓ１２を生成するように構成される。ＡＤ変換回路１２は、サンプリング周波数ｆｓでＡＤ変換を行うことにより、データｘ２を順次生成し、これらのデータｘ２を信号Ｓ１２として出力する。図１に示したデータｘ２（ｎ）は、ｎ番目のデータｘ２を示す。ＡＤ変換回路１３は、マイクロフォン９３から供給された電気信号に基づいて、ＡＤ変換を行うことにより、信号Ｓ１３を生成するように構成される。ＡＤ変換回路１３は、サンプリング周波数ｆｓでＡＤ変換を行うことにより、データｘ３を順次生成し、これらのデータｘ３を信号Ｓ１３として出力する。図１に示したデータｘ３（ｎ）は、ｎ番目のデータｘ３を示す。ＡＤ変換回路１４は、マイクロフォン９４から供給された電気信号に基づいて、ＡＤ変換を行うことにより、信号Ｓ１４を生成するように構成される。ＡＤ変換回路１４は、サンプリング周波数ｆｓでＡＤ変換を行うことにより、データｘ４を順次生成し、これらのデータｘ４を信号Ｓ１４として出力する。図１に示したデータｘ４（ｎ）は、ｎ番目のデータｘ４を示す。ＡＤ変換回路１１～１４は、互いに同期してＡＤ変換を行うようになっている。

　ユーザインタフェース１８は、信号処理装置１のユーザに対して情報を提示するとともに、ユーザ操作を受け付けるように構成され、例えば表示パネル、インジケータ、操作ボタンなどを含む。ユーザは、このユーザインタフェース１８を操作することにより、信号処理装置１の各種設定を行うことができるようになっている。

　ノイズ処理回路２０は、ＡＤ変換回路１１～１４から供給された信号Ｓ１１～Ｓ１４に基づいてノイズ処理を行うことにより、ノイズが低減された信号Ｓ２９を生成するように構成される。ノイズ処理回路２０は、スペクトルサブトラクション法を用いて、ノイズ処理を行う。ノイズ処理回路２０は、例えば、プロセッサ、メモリなどを用いて構成され、ソフトウェアを実行することにより動作するようになっている。

　図２は、ノイズ処理回路２０の一動作例を模式的に表すものであり、（Ａ）はノイズ処理が施される前の信号を示し、（Ｂ）はノイズ処理が施された後の信号を示す。細線で示した波形Ｗ１はノイズ成分を示し、太線で示した波形Ｗ２は音声などの所望の信号成分を示す。ノイズ処理が施される前では、図２（Ａ）に示したように、ノイズ成分（波形Ｗ１）が大きく、所望の信号成分（波形Ｗ２）はノイズ成分に埋もれている。特に、この例では、ノイズ成分は定常ノイズだけでなく非定常ノイズを含む。この図２では、期間Ｔ１，Ｔ２において、非定常ノイズが生じている。ノイズ処理が施された後では、図２（Ｂ）に示したように、ノイズ成分（波形Ｗ１）が低減され、所望の信号成分（波形Ｗ２）はほぼ維持される。このように、ノイズ処理回路２０は、所望の信号成分をほぼ維持しつつ、定常ノイズおよび非定常ノイズを含むノイズ成分を低減することができるようになっている。

　ノイズ処理回路２０（図１）は、音源検出部２１と、音源選択部２２と、ビームフォーミング処理部３０と、フーリエ変換部２４，２５と、ノイズモデル生成部２６と、ノイズモデル選択部２７と、スペクトル減算部２８と、逆フーリエ変換部２９とを有している。

　音源検出部２１は、ＡＤ変換回路１１～１４から供給された信号Ｓ１１～Ｓ１４に基づいて、音源の種類を検出するように構成される。

　図３は、音源検出部２１および音源選択部２２の一動作例を表すものである。音源検出部２１は、信号Ｓ１１～Ｓ１４に、どのような音源に係る信号成分が含まれているかを検出し、音源の種類を示すメタデータを生成する。この例では、“Ｖ”は人の声を示し、“Ｍ”は音楽を示し、“Ｃ”は車両の走行音を示す。例えば、信号Ｓ１１～Ｓ１４は、例えばタイミングｔ１０～ｔ１２の期間において、車両の走行音の信号成分を含み、タイミングｔ１１～ｔ１４の期間において、人の声の信号成分を含み、タイミングｔ１３～ｔ１５の期間において、音楽の信号成分を含む。

　音源検出部２１は、例えば、信号Ｓ１１に含まれる所定数（例えば５１２個）のデータｘ１、信号Ｓ１２に含まれる所定数（例えば５１２個）のデータｘ２、信号Ｓ１３に含まれる所定数（例えば５１２個）のデータｘ３、および信号Ｓ１４に含まれる所定数（例えば５１２個）のデータｘ４に基づいて音源検出を行う。音源検出部２１は、この音源検出において、信号Ｓ１１～Ｓ１４のそれぞれに含まれる様々な音源に係る信号成分のうち、Ｓ／Ｎ比が所定値以上である音源の信号成分に基づいて、その信号成分が示す音源を検出する。具体的には、図３の例では、タイミングｔ１０～ｔ１２の期間において、車両の走行音の信号成分のＳ／Ｎ比が所定値以上である場合に、車両の走行音を示すメタデータを生成し、タイミングｔ１１～ｔ１４の期間において、人の声の信号成分のＳ／Ｎ比が所定値以上である場合に、人の声を示すメタデータを生成し、タイミングｔ１３～ｔ１５の期間において、音楽の信号成分のＳ／Ｎ比が所定値以上である場合に、音楽を示すメタデータを生成する。そして、音源検出部２１は、このメタデータを、ユーザインタフェース１８および音源選択部２２に供給するようになっている。

　ユーザインタフェース１８（図１）は、音源検出部２１から供給されたメタデータに基づいて、音源の種類についての情報をユーザに提示する。ユーザは、例えば、信号処理装置１が、人の声、音楽、車両の走行音などを検出したことを把握する。そして、ユーザは、これらの音源のうちのどの音源の信号成分に基づいてノイズ処理回路２０を動作させるかを選択する選択操作を行う。ノイズ処理回路２０は、ユーザの選択操作に基づいて処理を行う。例えば、ユーザが人の声を選択する旨の選択操作を行った場合、ノイズ処理回路２０は人の声を目的音源として処理を行う。この場合には、例えば音楽はノイズ成分になる。例えば、ユーザが音楽を選択する旨の選択操作を行った場合、ノイズ処理回路２０は音楽を目的音源として処理を行う。この場合、例えば音楽はノイズ成分になる。ユーザインタフェース１８は、そのようなユーザの選択操作を受け付ける。そして、ユーザインタフェース１８は、このようなユーザの選択操作についての情報を音源選択部２２に供給するようになっている。

　音源選択部２２は、音源検出部２１から供給されたメタデータ、およびユーザインタフェース１８から供給されたユーザの選択操作についての情報に基づいて、フラグ信号ＣＴＬを生成するように構成される。このフラグ信号ＣＴＬは、信号Ｓ１１～Ｓ１４が、ユーザが選択した音源の信号成分を含む期間においてアクティブになり、それ以外の期間において非アクティブになる信号である。

　図３の例において、例えば、ユーザが、人の声を選択する旨の選択操作を行った場合には、音源選択部２２は、人の声の信号成分を含むタイミングｔ１１～ｔ１４の期間において、フラグ信号ＣＴＬをアクティブ（この例では高レベル）にし、それ以外の期間において、フラグ信号ＣＴＬを非アクティブ（この例では低レベル）にする。音源選択部２２は、このようにしてフラグ信号ＣＴＬを生成し、生成したフラグ信号ＣＴＬをビームフォーミング処理部３０、ノイズモデル生成部２６、およびノイズモデル選択部２７に供給するようになっている。

　ビームフォーミング処理部３０は、信号Ｓ１１～Ｓ１４、およびフラグ信号ＣＴＬに基づいて、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８を生成するように構成される。音源信号Ｓ３８は、ユーザが選択した音源の信号成分が強調された信号である。疑似ノイズ信号Ｓ４８は、ユーザが選択した音源の信号成分が抑えられ、信号Ｓ１１～Ｓ１４に含まれるノイズ成分に応じた信号成分を含む信号である。

　図４は、ビームフォーミング処理部３０の一構成例を表すものである。ビームフォーミング処理部３０は、遅延部３１～３４と、遅延制御部３５と、加算部３６と、遅延部３７と、減算部４１～４３と、適応フィルタ４４～４６と、適応フィルタ制御部４７と、加算部４８と、減算部３８とを有している。

　遅延部３１は、信号Ｓ１１を遅延量ｄ１だけ遅延させることにより信号Ｓ３１を生成するように構成される。具体的には、遅延部３１は、信号Ｓ１１の位相を、サンプリング周期Ｔｓ（＝１／ｆｓ）を単位としてずらすことにより、信号Ｓ１１を遅延量ｄ１だけ遅延させる。図４に示したデータｘ１（ｎ－ｄ１）は、データｘ１（ｎ）が遅延量ｄ１だけ遅延されたデータである。遅延部３１の遅延量ｄ１は、遅延制御部３５により設定されるようになっている。

　同様に、遅延部３２は、信号Ｓ１２を遅延量ｄ２だけ遅延させることにより信号Ｓ３２を生成するように構成される。具体的には、遅延部３２は、信号Ｓ１２の位相を、サンプリング周期Ｔｓ（＝１／ｆｓ）を単位としてずらすことにより、信号Ｓ１２を遅延量ｄ２だけ遅延させる。図４に示したデータｘ２（ｎ－ｄ２）は、データｘ２（ｎ）が遅延量ｄ２だけ遅延されたデータである。遅延部３２の遅延量ｄ２は、遅延制御部３５により設定されるようになっている。遅延部３３は、信号Ｓ１３を遅延量ｄ３だけ遅延させることにより信号Ｓ３３を生成するように構成される。具体的には、遅延部３３は、信号Ｓ１３の位相を、サンプリング周期Ｔｓ（＝１／ｆｓ）を単位としてずらすことにより、信号Ｓ１３を遅延量ｄ３だけ遅延させる。図４に示したデータｘ３（ｎ－ｄ３）は、データｘ３（ｎ）が遅延量ｄ３だけ遅延されたデータである。遅延部３３の遅延量ｄ３は、遅延制御部３５により設定されるようになっている。遅延部３４は、信号Ｓ１４を遅延量ｄ４だけ遅延させることにより信号Ｓ３４を生成するように構成される。具体的には、遅延部３４は、信号Ｓ１４の位相を、サンプリング周期Ｔｓ（＝１／ｆｓ）を単位としてずらすことにより、信号Ｓ１４を遅延量ｄ４だけ遅延させる。図４に示したデータｘ４（ｎ－ｄ４）は、データｘ４（ｎ）が遅延量ｄ４だけ遅延されたデータである。遅延部３４の遅延量ｄ４は、遅延制御部３５により設定されるようになっている。

　遅延制御部３５は、フラグ信号ＣＴＬおよび信号Ｓ１１～Ｓ１４に基づいて、信号Ｓ１１～Ｓ１４に含まれる、ユーザが選択した音源の信号成分の位相が一致するように、遅延部３１～３４の遅延量ｄ１～ｄ４をそれぞれ生成するように構成される。具体的には、遅延制御部３５は、フラグ信号ＣＴＬが高レベル（アクティブ）である期間において、ユーザが選択した音源の信号成分の位相が一致するように、遅延量ｄ１～ｄ４を更新する。遅延部３１～３４は、更新された遅延量ｄ１～ｄ４を用いて信号Ｓ１１～Ｓ１４をそれぞれ遅延させることにより信号Ｓ３１～Ｓ３４をそれぞれ生成する。これにより、信号Ｓ３１～Ｓ３４における、ユーザが選択した音源の信号成分の位相は、互いに一致するように制御される。

　すなわち、マイクロフォン９１～９４のそれぞれは、互いに異なる方向からの音波を検出する。よって、信号処理装置１からみた音源の向きに応じて、信号Ｓ１１～Ｓ１４に含まれる、ユーザが選択した音源の信号成分の位相は、互いにずれ得る。また、マイクロフォン９１～９４のうちのあるマイクロフォンは、音源から直接音波を検出し、他のあるマイクロフォンは、物体に反射した音波を検出することがあり得る。よって、信号Ｓ１１～Ｓ１４に含まれる、ユーザが選択した音源の信号成分の位相は、互いにずれ得る。また、マイクロフォン９１～９４の特性差や、ＡＤ変換回路１１～１４の特性差により、信号Ｓ１１～Ｓ１４に含まれる、ユーザが選択した音源の信号成分の位相が互いにずれることもあり得る。遅延制御部３５は、フラグ信号ＣＴＬおよび信号Ｓ１１～Ｓ１４に基づいて、信号Ｓ１１～Ｓ１４に含まれる、ユーザが選択した音源（目的音源）の信号成分の位相が一致するように、遅延量ｄ１～ｄ４を生成する。これにより、遅延制御部３５は、音源の方向の違いを調節するとともに、マイクロフォン９１～９４の特性差を調節するようになっている。

　また、遅延制御部３５は、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間では、遅延量ｄ１～ｄ４を更新せず、遅延量ｄ１～ｄ４を維持する。これにより、遅延部３１～３４は、維持された遅延量ｄ１～ｄ４を用いて信号Ｓ１１～Ｓ１４をそれぞれ遅延させる。すなわち、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間には、信号Ｓ１１～Ｓ１４には、ユーザが選択した音源の信号成分が含まれないので、遅延制御部３５は、遅延量ｄ１～ｄ４を更新しない。よって、遅延部３１～３４は、維持された遅延量ｄ１～ｄ４を用いて信号Ｓ１１～Ｓ１４をそれぞれ遅延させるようになっている。

　加算部３６は、遅延部３１～３４からそれぞれ供給された信号Ｓ３１～Ｓ３４を互いに加算することにより信号Ｓ３６を生成するように構成される。具体的には、加算部３６は、データｘ１（ｎ－ｄ１）と、データｘ２（ｎ－ｄ２）と、データｘ３（ｎ－ｄ３）と、データｘ４（ｎ－ｄ４）とを互いに加算することにより、データｄ（ｎ）を生成する。上述したように、信号Ｓ３１～Ｓ３４における、ユーザが選択した音源の信号成分の位相は、互いに一致する。加算部３６は、これらの信号Ｓ３１～Ｓ３４を互いに加算することにより、ユーザが選択した音源（目的音源）の信号成分が強調された信号Ｓ３６を生成するようになっている。

　遅延部３７は、加算部３６から供給された信号Ｓ３６を遅延量ｄｓだけ遅延させることにより信号Ｓ３７を生成するように構成される。具体的には、遅延部３７は、信号Ｓ３６の位相を、サンプリング周期Ｔｓ（＝１／ｆｓ）を単位としてずらすことにより、信号Ｓ３６を遅延量ｄｓだけ遅延させる。図４に示したデータｄ（ｎ－ｄｓ）は、データｄ（ｎ）が遅延量ｄｓだけ遅延されたデータである。遅延部３７の遅延量ｄｓは、図示しない制御部により設定された所定値である。

　減算部４１は、遅延部３１から供給された信号Ｓ３１から、遅延部３２から供給された信号Ｓ３２を減算することにより、信号Ｓ４１を生成するように構成される。具体的には、減算部４１は、データｘ１（ｎ－ｄ１）からデータｘ２（ｎ－ｄ２）を減算することにより、データｙ１（ｎ）を生成する。上述したように、信号Ｓ３１，Ｓ３２における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部４１は、信号Ｓ３１から信号Ｓ３２を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号Ｓ４１を生成するようになっている。

　同様に、減算部４２は、遅延部３２から供給された信号Ｓ３２から、遅延部３３から供給された信号Ｓ３３を減算することにより、信号Ｓ４２を生成するように構成される。具体的には、減算部４２は、データｘ２（ｎ－ｄ２）からデータｘ３（ｎ－ｄ３）を減算することにより、データｙ２（ｎ）を生成する。上述したように、信号Ｓ３２，Ｓ３３における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部４２は、信号Ｓ３２から信号Ｓ３３を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号Ｓ４２を生成するようになっている。減算部４３は、遅延部３３から供給された信号Ｓ３３から、遅延部３４から供給された信号Ｓ３４を減算することにより、信号Ｓ４３を生成するように構成される。具体的には、減算部４３は、データｘ３（ｎ－ｄ３）からデータｘ４（ｎ－ｄ４）を減算することにより、データｙ３（ｎ）を生成する。上述したように、信号Ｓ３３，Ｓ３４における、ユーザが選択した音源の信号成分の位相は、互いに一致する。減算部４３は、信号Ｓ３３から信号Ｓ３４を減算することにより、ユーザが選択した音源の信号成分が抑えられた信号Ｓ４３を生成するようになっている。

　適応フィルタ４４は、減算部４１から供給された信号Ｓ４１に対して、フィルタ処理を行うことにより信号Ｓ４４を生成するように構成される。適応フィルタ４４は、ＦＩＲ（Finite Impulse Response）フィルタであり、適応フィルタ制御部４７から供給されたフィルタ係数を用いて、信号Ｓ４１に対して畳み込み演算を行うことにより、信号Ｓ４１の振幅および位相を調節するようになっている。

　同様に、適応フィルタ４５は、減算部４２から供給された信号Ｓ４２に対して、フィルタ処理を行うことにより信号Ｓ４５を生成するように構成される。適応フィルタ４５は、ＦＩＲフィルタであり、適応フィルタ制御部４７から供給されたフィルタ係数を用いて、信号Ｓ４２に対して畳み込み演算を行うことにより、信号Ｓ４２の振幅および位相を調節するようになっている。適応フィルタ４６は、減算部４３から供給された信号Ｓ４３に対して、フィルタ処理を行うことにより信号Ｓ４６を生成するように構成される。適応フィルタ４６は、ＦＩＲフィルタであり、適応フィルタ制御部４７から供給されたフィルタ係数を用いて、信号Ｓ４３に対して畳み込み演算を行うことにより、信号Ｓ４３の振幅および位相を調節するようになっている。

　適応フィルタ制御部４７は、フラグ信号ＣＴＬおよび減算部３８から供給された音源信号Ｓ３８に基づいて、音源信号Ｓ３８におけるノイズが小さくなるように、適応フィルタ４４に供給されるフィルタ係数、適応フィルタ４５に供給されるフィルタ係数、および適応フィルタ４６に供給されるフィルタ係数をそれぞれ生成するように構成される。具体的には、適応フィルタ制御部４７は、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間において、音源信号Ｓ３８におけるノイズが小さくなるように、適応フィルタ４４～４６に供給されるフィルタ係数のそれぞれを更新する。適応フィルタ４４～４６は、更新されたフィルタ係数を用いてそれぞれフィルタ処理を行う。

　また、適応フィルタ制御部４７は、フラグ信号ＣＴＬが高レベル（アクティブ）である期間では、フィルタ係数を更新せず、フィルタ係数を維持する。これにより、適応フィルタ４４～４６は、維持されたフィルタ係数を用いてそれぞれフィルタ処理を行うようになっている。

　加算部４８は、適応フィルタ４４～４６から供給された信号Ｓ４４～Ｓ４６を互いに加算することにより疑似ノイズ信号Ｓ４８を生成するように構成される。具体的には、加算部４８は、適応フィルタ４４～４６から供給されたデータを互いに加算することにより、データｙ（ｎ）を生成するようになっている。データｙ（ｎ）は、ｎ番目のデータｙを示す。

　減算部３８は、遅延部３７から供給された信号Ｓ３７から、加算部４８から供給された疑似ノイズ信号Ｓ４８を減算することにより、音源信号Ｓ３８を生成するように構成される。具体的には、減算部３８は、データｄ（ｎ－ｄｓ）からデータｙ（ｎ）を減算することにより、データｅ（ｎ）を生成するようになっている。データｅ（ｎ）は、ｎ番目のデータｅを示す。

　この構成により、適応フィルタ４４～４６、適応フィルタ制御部４７、加算部４８、および減算部３８は、音源信号Ｓ３８におけるノイズが小さくなるように負帰還動作を行う。言い換えれば、適応フィルタ４４～４６、適応フィルタ制御部４７、および加算部４８は、疑似ノイズ信号Ｓ４８が、減算部３８に供給される信号Ｓ３７に含まれるノイズ成分と同じになるように、負帰還動作を行う。

　このようにして、ビームフォーミング処理部３０では、加算部３６が、ユーザが選択した音源（目的音源）の信号成分の位相が互いに一致した信号Ｓ３１～Ｓ３４を互いに加算することにより、音源信号Ｓ３８の、ユーザが選択した音源の信号成分が強調される。また、減算部３８が、信号Ｓ３７から疑似ノイズ信号Ｓ４８を減算することにより、音源信号Ｓ３８の、ユーザが選択した音源の信号成分が強調される。このようにして、ビームフォーミング処理部３０は、ユーザが選択した音源の信号成分が強調された音源信号Ｓ３８を生成するようになっている。

　なお、ビームフォーミング処理部３０は、例えば、信号Ｓ１１～Ｓ１４のうちの一部の信号だけが目的音源の信号を含んでいない場合には、その目的音源の信号を含んでいない信号をビームフォーミング処理部３０における処理の対象から除外する。例えば、信号Ｓ１４が目的音源の信号を含んでいない場合、加算部３６は、信号Ｓ３１～Ｓ３３を加算することにより信号Ｓ３６を生成する。つまり、加算部３６は、信号Ｓ３４を加算しない。このように、加算部３６は、信号Ｓ３１～Ｓ３４のうち、目的音源の信号を含む信号を加算する。同様に、減算部４１～４３は、信号Ｓ３１～Ｓ３４のうち、目的音源の信号を含む信号を適宜組み合わせて減算を行うようになっている。

　フーリエ変換部２４（図１）は、ビームフォーミング処理部３０から供給された音源信号Ｓ３８に基づいて離散フーリエ変換を行うことにより、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８および位相スペクトルデータＳＤＰを算出するように構成される。

　図５は、フーリエ変換部２４の一動作例を表すものである。フーリエ変換部２４は、例えば、音源信号Ｓ３８を介して所定数（例えば５１２個）のデータｅが供給される度に、これらのデータに基づいて離散フーリエ変換を行うことにより、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８および位相スペクトルデータＳＤＰを生成する。なお、この図５では、位相スペクトルデータＳＤＰの図示を省略している。振幅スペクトルデータＳＤ３８の横軸は周波数を示し、縦軸は振幅の大きさを示す。この図５では、フーリエ変換部２４は、処理期間Ｔにおいて、ビームフォーミング処理部３０から、所定数（例えば５１２個）のデータｅが供給される。フーリエ変換部２４は、処理期間Ｔのそれぞれにおいて、これらのデータｅに基づいて離散フーリエ変換を行うことにより、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８および位相スペクトルデータＳＤＰを算出する。そして、フーリエ変換部２４は、生成した振幅スペクトルデータＳＤ３８をノイズモデル生成部２６、ノイズモデル選択部２７、およびスペクトル減算部２８に供給するとともに、生成した位相スペクトルデータＳＤＰを逆フーリエ変換部２９に供給するようになっている。

　フーリエ変換部２５（図１）は、ビームフォーミング処理部３０から供給された疑似ノイズ信号Ｓ４８に基づいて離散フーリエ変換を行うことにより疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８を算出するように構成される。具体的には、フーリエ変換部２５は、フーリエ変換部２４と同様に、例えば、疑似ノイズ信号Ｓ４８を介して所定数（例えば５１２個）のデータｙが供給される度に、これらのデータに基づいて離散フーリエ変換を行うことにより、疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８を生成する。そして、フーリエ変換部２５は、生成した振幅スペクトルデータＳＤ４８をノイズモデル選択部２７に供給するようになっている。

　ノイズモデル生成部２６は、フラグ信号ＣＴＬ、およびフーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成するように構成される。ノイズモデルＮＭは、ノイズを示す振幅スペクトルデータである。ノイズモデル生成部２６は、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間に、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。すなわち、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間では、音源信号Ｓ３８は、ユーザが選択した音源（目的音源）の信号成分を含まないので、ノイズモデル生成部２６は、この期間において、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。そして、ノイズモデル生成部２６は、生成したノイズモデルＮＭをノイズモデル選択部２７に供給するようになっている。

　ノイズモデル選択部２７は、ノイズモデル生成部２６から供給されたノイズモデルＮＭを蓄積し、フラグ信号ＣＴＬ、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８、およびフーリエ変換部２５から供給された疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８に基づいて、蓄積された複数のノイズモデルＮＭのうちの１つを選択するように構成される。具体的には、ノイズモデル選択部２７は、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間では、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択する。すなわち、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間では、音源信号Ｓ３８は、ユーザが選択した音源（目的音源）の信号成分を含まないので、ノイズモデル選択部２７は、この期間において、この音源信号Ｓ３８の振幅スペクトルデータＳＤ３８を用いて、複数のノイズモデルＮＭのうちの１つを選択する。類似度は、例えばコサイン類似度を用いることができる。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。また、ノイズモデル選択部２７は、フラグ信号ＣＴＬが高レベル（アクティブ）である期間では、疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択する。すなわち、フラグ信号ＣＴＬが高レベル（アクティブ）である期間では、音源信号Ｓ３８は、ユーザが選択した音源（目的音源）の信号成分を含むので、ノイズモデル選択部２７は、この期間において、疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８を用いて、複数のノイズモデルＮＭのうちの１つを選択する。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給するようになっている。

　スペクトル減算部２８は、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８から、ノイズモデル選択部２７から供給されたノイズモデルＮＭの振幅スペクトルデータを減算するスペクトル減算処理を行うように構成される。そして、スペクトル減算部２８は、スペクトル減算処理により得られた振幅スペクトルデータを、逆フーリエ変換部２９に供給するようになっている。

　逆フーリエ変換部２９は、スペクトル減算部２８から供給された振幅スペクトルデータ、およびフーリエ変換部２４から供給された位相スペクトルデータＳＤＰに基づいて離散フーリエ変換の逆変換を行うことにより、信号Ｓ２９を生成するように構成される。

　このようにして、ノイズ処理回路２０は、ノイズが低減された、タイムドメインの信号Ｓ２９を生成する。そして、ノイズ処理回路２０は、この信号Ｓ２９を、後段の処理回路１９に供給するようになっている。

　処理回路１９は、信号Ｓ２９に基づいて、所定の信号処理を行うように構成される。

　ここで、音源検出部２１は、本開示における「検出部」の一具体例に対応する。マイクロフォン９１～９４は、本開示における「複数のマイクロフォン」の一具体例に対応する。信号Ｓ１１～Ｓ１４は、本開示における「複数の信号」の一具体例に対応する。音源選択部２２は、本開示における「フラグ信号生成部」の一具体例に対応する。ビームフォーミング処理部３０は、本開示における「ビームフォーミング処理部」の一具体例に対応する。ノイズモデル生成部２６は、本開示における「ノイズモデル生成部」の一具体例に対応する。ノイズモデル選択部２７は、本開示における「ノイズモデル選択部」の一具体例に対応する。スペクトル減算部２８は、本開示における「スペクトル減算部」の一具体例に対応する。ユーザインタフェース１８は、本開示における「ユーザインタフェース」の一具体例に対応する。処理回路１９は、本開示における「処理回路」の一具体例に対応する。

［動作および作用］
　続いて、本実施の形態の信号処理装置１の動作および作用について説明する。

（全体動作概要）
　まず、図１を参照して、信号処理装置１の全体動作概要を説明する。マイクロフォン９１～９４のそれぞれは、音波を電気信号に変換する。ＡＤ変換回路１１～１４は、マイクロフォン９１～９４から供給された電気信号に基づいてＡＤ変換を行うことにより、信号Ｓ１１～Ｓ１４をそれぞれ生成する。ユーザインタフェース１８は、信号処理装置１のユーザに対して情報を提示するとともに、ユーザ操作を受け付ける。ノイズ処理回路２０は、信号Ｓ１１～Ｓ１４に基づいて、ノイズ処理を行うことにより、ノイズが低減された信号Ｓ２９を生成する。

　ノイズ処理回路２０の音源検出部２１は、信号Ｓ１１～Ｓ１４に基づいて、音源の種類を検出し、音源の種類を示すメタデータを生成する。音源選択部２２は、音源検出部２１から供給されたメタデータと、ユーザインタフェース１８から供給された、ユーザの選択操作についての情報に基づいて、ユーザが選択した音源の信号成分を含む期間においてアクティブになり、それ以外の期間において非アクティブになるフラグ信号ＣＴＬを生成する。ビームフォーミング処理部３０は、信号Ｓ１１～Ｓ１４、およびフラグ信号ＣＴＬに基づいて、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８を生成する。フーリエ変換部２４は、音源信号Ｓ３８に基づいて離散フーリエ変換を行うことにより音源信号Ｓ３８の振幅スペクトルデータＳＤ３８および位相スペクトルデータＳＤＰを算出する。フーリエ変換部２５は、疑似ノイズ信号Ｓ４８に基づいて離散フーリエ変換を行うことにより疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８を算出する。ノイズモデル生成部２６は、フラグ信号ＣＴＬ、および音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。ノイズモデル選択部２７は、ノイズモデル生成部２６から供給されたノイズモデルＮＭを蓄積し、フラグ信号ＣＴＬ、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８、および疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８に基づいて、蓄積された複数のノイズモデルＮＭのうちの１つを選択する。スペクトル減算部２８は、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８から、ノイズモデル選択部２７から供給されたノイズモデルＮＭの振幅スペクトルデータを減算するスペクトル減算処理を行う。逆フーリエ変換部２９は、スペクトル減算部２８から供給された振幅スペクトルデータおよびフーリエ変換部２４から供給された位相スペクトルデータＳＤＰに基づいて離散フーリエ変換の逆変換を行うことにより、信号Ｓ２９を生成する。

　処理回路１９は、ノイズ処理回路２０が生成した信号Ｓ２９に基づいて、所定の信号処理を行う。

（詳細動作）
　次に、ノイズ処理回路２０における、ノイズモデル生成部２６、およびノイズモデル選択部２７の動作について詳細に説明する。

（ノイズモデル生成部２６の動作）
　ノイズモデル生成部２６は、フラグ信号ＣＴＬ、およびフーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。

　図６は、ノイズモデル生成部２６の一動作例を表すものである。この図６では、音源信号Ｓ３８を、エンベロープを用いて描いている。

　この例では、音源選択部２２は、このタイミングｔ１１において、フラグ信号ＣＴＬを高レベル（アクティブ）から低レベル（非アクティブ）に変化させる。すなわち、音源信号Ｓ３８は、タイミングｔ１１より前の期間では、ユーザが選択した音源の信号成分を含み、タイミングｔ１１より後の期間では、ユーザが選択した音源の信号成分を含んでいない。

　フーリエ変換部２４は、処理期間Ｔのそれぞれにおいて、音源信号Ｓ３８に含まれる所定数（例えば５１２個）のデータｅに基づいて離散フーリエ変換を行うことにより、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８を算出する。

　フラグ信号ＣＴＬが低レベル（非アクティブ）である期間において、ノイズモデル生成部２６は、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。

　具体的には、例えば、ノイズモデル生成部２６は、タイミングｔ１１～ｔ１２の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。ノイズモデル生成部２６は、例えば、振幅スペクトルデータＳＤ３８に、係数を乗算することにより、ノイズモデルＮＭを生成することができる。この係数は、いわゆるサブトラクション係数である。具体的には、ノイズモデル生成部２６は、例えば、振幅スペクトルデータＳＤ３８における各周波数での振幅の大きさに、例えば“１．３”を乗算することにより、ノイズモデルＮＭを生成することができる。これに限定されるものではなく、ノイズモデル生成部２６は、例えば、振幅スペクトルデータＳＤ３８における各周波数での振幅の大きさに、例えば“１．０”を乗算することにより、ノイズモデルＮＭを生成してもよいし、例えば“０．７”を乗算することにより、ノイズモデルＮＭを生成してもよい。

　次に、ノイズモデル生成部２６は、この例では、タイミングｔ１１～ｔ１２の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８と、タイミングｔ１２～ｔ１３の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８とに基づいて、ノイズモデルＮＭを生成する。ノイズモデル生成部２６は、例えば、これらの２つの振幅スペクトルデータＳＤ３８の平均値を算出することにより、ノイズモデルＮＭを生成することができる。また、ノイズモデル生成部２６は、例えば、これらの２つの振幅スペクトルデータＳＤ３８に基づいて、係数を用いて重み加算を行うことにより、ノイズモデルＮＭを生成してもよい。

　次に、ノイズモデル生成部２６は、この例では、タイミングｔ１１～ｔ１２の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８、タイミングｔ１２～ｔ１３の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８、およびタイミングｔ１３～ｔ１４の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８とに基づいて、ノイズモデルＮＭを生成する。ノイズモデル生成部２６は、例えば、これらの３つの振幅スペクトルデータＳＤ３８の平均値を算出することにより、ノイズモデルＮＭを生成することができる。また、ノイズモデル生成部２６は、例えば、これらの３つの振幅スペクトルデータＳＤ３８に基づいて、係数を用いて重み加算を行うことにより、ノイズモデルＮＭを生成してもよい。

　この例では、タイミングｔ１４～ｔ１５の期間では、ノイズモデル生成部２６は、ノイズモデルＮＭを生成しない。すなわち、この例では、タイミングｔ１４～ｔ１５の期間における４つの振幅スペクトルデータＳＤ３８のそれぞれは、タイミングｔ１１～ｔ１４の期間における振幅スペクトルデータＳＤ３８とほぼ同じであるので、ノイズモデル生成部２６は、ノイズモデルＮＭを生成しない。なお、この例では、タイミングｔ１４～ｔ１５の期間では、ノイズモデルＮＭを生成しないようにしたが、これに限定されるものではなく、ノイズモデルＮＭを生成してもよい。

　そして、この例では、タイミングｔ１５において、音源信号Ｓ３８が大きく変化する。これに応じて、振幅スペクトルデータＳＤ３８もまた大きく変化する。

　ノイズモデル生成部２６は、タイミングｔ１５～ｔ１６の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。すなわち、この例では、タイミングｔ１５～ｔ１６の期間における振幅スペクトルデータＳＤ３８は、例えば直前の振幅スペクトルデータＳＤ３８と比べて所定の度合い以上変化しているので、ノイズモデル生成部２６は、ノイズモデルＮＭを生成する。ノイズモデル生成部２６は、例えば、振幅スペクトルデータＳＤ３８に、係数を乗算することにより、ノイズモデルＮＭを生成することができる。すなわち、この例では、タイミングｔ１５～ｔ１６の期間における振幅スペクトルデータＳＤ３８は、それ以前の振幅スペクトルデータＳＤ３８との相関が低いので、以前の振幅スペクトルデータＳＤ３８を用いずに、タイミングｔ１５～ｔ１６の期間における振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。

　次に、ノイズモデル生成部２６は、この例では、タイミングｔ１５～ｔ１６の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８と、タイミングｔ１６～ｔ１７の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８とに基づいて、ノイズモデルＮＭを生成する。

　次に、ノイズモデル生成部２６は、この例では、タイミングｔ１５～ｔ１６の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８、タイミングｔ１６～ｔ１７の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８、およびタイミングｔ１７～ｔ１８の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８とに基づいて、ノイズモデルＮＭを生成する。

　このように、ノイズモデル生成部２６は、フラグ信号ＣＴＬが低レベル（非アクティブ）である期間において、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。

　なお、この例では、ノイズモデル生成部２６は、フラグ信号ＣＴＬが高レベル（アクティブ）から低レベル（非アクティブ）に変化した直後、および振幅スペクトルデータＳＤ３８が大きく変化したときに、ノイズモデルＮＭを生成したが、これに限定されるものではなく、これ以外の場合にも、ノイズモデルＮＭを生成してもよい。例えば、ノイズモデル生成部２６は、フラグ信号ＣＴＬが低レベル（非アクティブ）である場合において、常にノイズモデルＮＭを生成してもよい。

　このようにして、ノイズモデル生成部２６は、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８に基づいて、ノイズモデルＮＭを生成する。そして、ノイズモデル生成部２６は、生成したノイズモデルＮＭを、順次、ノイズモデル選択部２７に供給する。

（ノイズモデル選択部２７の動作）
　ノイズモデル選択部２７は、ノイズモデル生成部２６から供給されたノイズモデルＮＭを蓄積し、フラグ信号ＣＴＬ、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８、および疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８に基づいて、蓄積された複数のノイズモデルＮＭのうちの１つを選択する。

　図７は、ノイズモデル選択部２７の一動作例を表すものである。図７において、ノイズモデルリストは、ノイズモデル生成部２６により生成され、ノイズモデル選択部２７において蓄積された複数のノイズモデルＮＭを示している。

　この例では、音源選択部２２は、このタイミングｔ２３において、フラグ信号ＣＴＬを低レベル（非アクティブ）から高レベル（アクティブ）に変化させる。すなわち、音源信号Ｓ３８は、タイミングｔ２３より前の期間では、ユーザが選択した音源（目的音源）の信号成分を含んでおらず、タイミングｔ２３より後の期間では、ユーザが選択した音源の信号成分を含んでいる。

　フーリエ変換部２４は、処理期間Ｔのそれぞれにおいて、音源信号Ｓ３８に含まれる所定数（例えば５１２個）のデータｅに基づいて離散フーリエ変換を行うことにより、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８を算出する。同様に、フーリエ変換部２５は、処理期間Ｔのそれぞれにおいて、疑似ノイズ信号Ｓ４８に含まれる所定数（例えば５１２個）のデータｅに基づいて離散フーリエ変換を行うことにより、疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８を算出する。

　フラグ信号ＣＴＬが低レベル（非アクティブ）である期間では、ノイズモデル選択部２７は、音源信号Ｓ３８の振幅スペクトルデータＳＤ３８と、蓄積された複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　具体的には、例えば、ノイズモデル選択部２７は、タイミングｔ２１～ｔ２２の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出する。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　次に、ノイズモデル選択部２７は、タイミングｔ２２～ｔ２３の期間における音源信号Ｓ３８に基づいて得られた振幅スペクトルデータＳＤ３８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出する。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　フラグ信号ＣＴＬが高レベル（アクティブ）である期間では、ノイズモデル選択部２７は、疑似ノイズ信号Ｓ４８の振幅スペクトルデータＳＤ４８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　具体的には、例えば、ノイズモデル選択部２７は、タイミングｔ２３～ｔ２４の期間における疑似ノイズ信号Ｓ４８に基づいて得られた振幅スペクトルデータＳＤ４８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出する。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　次に、ノイズモデル選択部２７は、タイミングｔ２４～ｔ２５の期間における疑似ノイズ信号Ｓ４８に基づいて得られた振幅スペクトルデータＳＤ４８と、複数のノイズモデルＮＭのそれぞれとの類似度を算出する。ノイズモデル選択部２７は、例えば、複数のノイズモデルＮＭのうちの、類似度が最も高いノイズモデルＮＭを選択する。そして、ノイズモデル選択部２７は、選択したノイズモデルＮＭをスペクトル減算部２８に供給する。

　スペクトル減算部２８は、フーリエ変換部２４から供給された音源信号Ｓ３８の振幅スペクトルデータＳＤ３８から、ノイズモデル選択部２７から供給されたノイズモデルＮＭの振幅スペクトルデータを減算するスペクトル減算処理を行う。そして、逆フーリエ変換部２９は、スペクトル減算部２８から供給された振幅スペクトルデータおよびフーリエ変換部２４から供給された位相スペクトルデータＳＤＰに基づいて離散フーリエ変換の逆変換を行うことにより、信号Ｓ２９を生成する。

　このようにして、ノイズ処理回路２０は、ノイズが低減された、タイムドメインの信号Ｓ２９を生成する。

　このように、ノイズ処理回路２０では、４つのマイクロフォン９１～９４から供給された４つの信号Ｓ１１～Ｓ１４に基づいて音源を検出する音源検出部２１と、音源検出部２１の検出結果に基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分（この例ではユーザにより選択された音源の信号成分）を含む期間を示すフラグ信号ＣＴＬを生成する音源選択部２２と、４つの信号Ｓ１１～Ｓ１４およびフラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分を含む期間において第１の信号成分を強調することにより、音源信号Ｓ３８を生成するとともに、４つの信号Ｓ１１～Ｓ１４が第１の信号成分を含む期間において第１の信号成分を抑えることにより、疑似ノイズ信号Ｓ４８を生成するビームフォーミング処理部３０と、フラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分を含まない期間において、音源信号Ｓ３８のスペクトルに応じた複数のノイズモデルＮＭを生成するノイズモデル生成部２６と、フラグ信号ＣＴＬに基づいて、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択するノイズモデル選択部２７と、音源信号Ｓ３８のスペクトル、およびノイズモデル選択部２７により選択されたノイズモデルＮＭに基づいてスペクトル減算処理を行うスペクトル減算部２８を設けるようにした。これにより、ノイズ処理回路２０では、非定常ノイズを効果的に低減することができる。

　すなわち、一般的なスペクトルサブトラクション法では、定常ノイズを低減することができるが、非定常ノイズを低減することは難しい。具体的には、例えば、ノイズ処理回路は、定常ノイズに基づいてノイズスペクトルを取得し、音源信号のスペクトルからこのノイズスペクトルを減算する場合には、音源信号に含まれる定常ノイズを低減することができる。しかしながら、音源信号に非定常ノイズが含まれている場合に、非定常ノイズを低減することができず、所望の信号成分の品質を損なってしまう。また、ノイズ処理回路は、非定常ノイズに基づいてノイズスペクトルを取得し、音源信号のスペクトルからこのノイズスペクトルを減算する場合には、音源信号に含まれる非定常ノイズを低減することができる。しかしながら、この場合には、音源信号に非定常ノイズが含まれていない場合に、所望の信号成分の品質を損なってしまう。

　一方、本実施の形態に係るノイズ処理回路２０では、複数のノイズモデルＮＭを設け、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８のうちの一方のスペクトルと、複数のノイズモデルＮＭのそれぞれとの類似度を算出することにより、複数のノイズモデルＮＭのうちの１つを選択し、音源信号Ｓ３８のスペクトル、およびノイズモデル選択部２７により選択されたノイズモデルＮＭに基づいてスペクトル減算処理を行うようにした。これにより、例えば、音源信号Ｓ３８が、ユーザにより選択された音源の信号成分を含まない期間では、この音源信号Ｓ３８のスペクトルに類似するノイズモデルＮＭが選択される。また、例えば、音源信号Ｓ３８が、ユーザにより選択された音源の信号成分を含む期間では、この疑似ノイズ信号Ｓ４８のスペクトルに類似するノイズモデルＮＭが選択される。疑似ノイズ信号Ｓ４８は、音源信号Ｓ３８に含まれるノイズ信号と相関がある。よって、音源信号Ｓ３８が非定常ノイズを含むか否かに関わらず、複数のノイズモデルＮＭのうち、音源信号Ｓ３８に含まれるノイズが除去可能なノイズモデルＮＭが選択される。これにより、ノイズ処理回路２０では、所望の信号成分の品質を損なうことなく、非定常ノイズを低減することができる。その結果、非定常ノイズを効果的に低減することができる。

　また、ノイズ処理回路２０では、音源検出部２１は、音源を検出することにより、音源の種類を示すメタ情報のシーケンスを生成し、音源選択部２２は、メタ情報のシーケンスに基づいて、フラグ信号ＣＴＬを生成するようにした。これにより、ノイズ処理回路２０は、意図しない信号成分に基づいてノイズ処理を行う可能性を低減することができるので、ノイズ処理の精度を高めることができる。

　また、ノイズ処理回路２０では、音源選択部２２は、音源検出部２１の検出結果、およびユーザインタフェース１８が受け付けた、ユーザの音源選択操作に基づいて、フラグ信号ＣＴＬを生成するようにした。これにより、ユーザは、アプリケーションに応じて、どの音源の信号成分を残しそれ以外の信号成分を低減するかを選択することができる。よって、ノイズ処理回路２０は、ユーザが意図した信号成分に基づいてノイズ処理を行うことができるので、ノイズ処理の精度を高めることができる。

　また、ノイズ処理回路２０では、ビームフォーミング処理部３０は、フラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分（この例ではユーザにより選択された音源の信号成分）を含む期間において、第１の信号成分が強調された音源信号Ｓ３８を生成するように、ビームフォーミング処理部３０の第１の処理設定（この例では４つの遅延部３１～３４における遅延量ｄ１～ｄ４および３つの適応フィルタ４４～４６におけるフィルタ係数）を調節し、４つの信号Ｓ１１～Ｓ１４が第１の信号成分を含まない期間において、第１の処理設定を維持し、第１の処理設定を用いて音源信号Ｓ３８を生成するようにした。これにより、例えば信号処理装置１からみた音源の方向やマイクロフォン９１～９４の特性差によらずに、ユーザが選択した音源の信号成分が強調された音源信号Ｓ３８を生成することができる。これにより、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。

　また、ノイズ処理回路２０では、ビームフォーミング処理部３０は、フラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分（この例ではユーザにより選択された音源の信号成分）を含まない期間において、音源信号Ｓ３８の第２の信号成分（例えばノイズ成分）を抑えるとともに第２の信号成分を含む疑似ノイズ信号Ｓ４８を生成するようにビームフォーミング処理部３０の第２の処理設定（この例では３つの適応フィルタ４４～４６におけるフィルタ係数）を調節し、４つの信号Ｓ１１～Ｓ１４が第１の信号成分を含む期間において、第２の処理設定を維持し、第２の処理設定を用いて疑似ノイズ信号Ｓ４８を生成するようにした。これにより、例えば音源の方向やマイクロフォン９１～９４の特性差によらずに、ユーザが選択した音源の信号成分が抑えられ、信号Ｓ１１～Ｓ１４に含まれるノイズ成分を含む疑似ノイズ信号Ｓ４８を生成することができる。これにより、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。

　また、ノイズ処理回路２０では、ノイズモデル生成部２６は、音源信号Ｓ３８のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じたノイズモデルＮＭを生成するようにした。これにより、ノイズ処理回路２０では、新たな非定常ノイズが生じた場合でも、音源信号Ｓ３８における、この非定常ノイズのノイズ成分を低減することができるので、非定常ノイズを効果的に低減することができる。

　また、ノイズ処理回路２０では、ノイズモデル選択部２７は、フラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分（この例ではユーザにより選択された音源の信号成分）を含まない期間において、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８のうちの音源信号Ｓ３８を選択し、この音源信号Ｓ３８に基づいて、複数のノイズモデルＮＭのうちの１つを選択するようにした。これにより、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。すなわち、この期間では、音源信号Ｓ３８は、ユーザが選択した音源の信号成分を含まないので、この音源信号Ｓ３８に基づいてノイズのスペクトルを高い精度で得ることができ、複数のノイズモデルＮＭのうちのより適切な１つを選択することができる。その結果、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。

　また、ノイズ処理回路２０では、ノイズモデル選択部２７は、フラグ信号ＣＴＬに基づいて、４つの信号Ｓ１１～Ｓ１４が第１の信号成分（この例ではユーザにより選択された音源の信号成分）を含む場合において、音源信号Ｓ３８および疑似ノイズ信号Ｓ４８のうちの疑似ノイズ信号Ｓ４８を選択し、この疑似ノイズ信号Ｓ４８に基づいて、複数のノイズモデルＮＭのうちの１つを選択するようにした。これにより、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。すなわち、この期間では、音源信号Ｓ３８は、ユーザが選択した音源の信号成分を含むので、この音源信号Ｓ３８に基づいてノイズのスペクトルを高い精度で得ることは難しい。疑似ノイズ信号Ｓ４８の信号成分は、音源信号Ｓ３８に含まれるノイズ成分と相関がある。よって、疑似ノイズ信号Ｓ４８に基づいてノイズのスペクトルを得ることにより、複数のノイズモデルＮＭのうちのより適切な１つを選択することができる。その結果、ノイズ処理回路２０では、ノイズ処理の精度を高めることができる。

［効果］
　以上のように本実施の形態では、４つのマイクロフォンから供給された４つの信号に基づいて音源を検出する音源検出部と、音源検出部の検出結果に基づいて、４つの信号が第１の信号成分含む期間を示すフラグ信号を生成する音源選択部と、４つの信号およびフラグ信号に基づいて、４つの信号が第１の信号成分を含む期間において第１の信号成分を強調することにより、音源信号を生成するとともに、４つの信号が第１の信号成分を含む期間において第１の信号成分を抑えることにより、疑似ノイズ信号を生成するビームフォーミング処理部と、フラグ信号に基づいて、４つの信号が第１の信号成分を含まない期間において、音源信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、フラグ信号に基づいて、音源信号および疑似ノイズ信号のうちの一方を選択し、選択された信号のスペクトルと、複数のノイズモデルのそれぞれとの類似度を算出することにより、複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、音源信号のスペクトル、およびノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部を設けるようにした。これにより、非定常ノイズを効果的に低減することができる。

　本実施の形態では、音源検出部は、音源を検出することにより、音源の種類を示すメタ情報のシーケンスを生成し、音源選択部は、メタ情報のシーケンスに基づいて、フラグ信号を生成するようにしたので、ノイズ処理の精度を高めることができる。

　本実施の形態では、音源選択部は、音源検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、フラグ信号を生成するようにしたので、ノイズ処理の精度を高めることができる。

　本実施の形態では、ビームフォーミング処理部は、フラグ信号に基づいて、４つの信号が第１の信号成分を含む期間において、第１の信号成分が強調された音源信号を生成するように、ビームフォーミング処理部の第１の処理設定を調節し、４つの信号が第１の信号成分を含まない期間において、第１の処理設定を維持し、第１の処理設定を用いて音源信号を生成するようにしたので、ノイズ処理の精度を高めることができる。

　本実施の形態では、ビームフォーミング処理部は、フラグ信号に基づいて、４つの信号が第１の信号成分を含まない期間において、音源信号の第２の信号成分を抑えるとともに第２の信号成分を含む疑似ノイズ信号を生成するようにビームフォーミング処理部の第２の処理設定を調節し、４つの信号が第１の信号成分を含む期間において、第２の処理設定を維持し、第２の処理設定を用いて疑似ノイズ信号を生成するようにした。これにより、ノイズ処理の精度を高めることができる。

　本実施の形態では、ノイズモデル生成部は、音源信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じたノイズモデルを生成するようにしたので、非定常ノイズを効果的に低減することができる。

　本実施の形態では、ノイズモデル選択部は、フラグ信号に基づいて、４つの信号が第１の信号成分を含まない期間において、音源信号および疑似ノイズ信号のうちの音源信号を選択し、この音源信号に基づいて、複数のノイズモデルのうちの１つを選択するようにしたので、ノイズ処理の精度を高めることができる。

　本実施の形態では、ノイズモデル選択部は、フラグ信号に基づいて、４つの信号が第１の信号成分を含む場合において、音源信号および疑似ノイズ信号のうちの疑似ノイズ信号を選択し、この疑似ノイズ信号に基づいて、複数のノイズモデルＮＭのうちの１つを選択するようにしたので、ノイズ処理の精度を高めることができる。

［変形例１］
　上記実施の形態では、ビームフォーミング処理部３０は、図４に示した構成を有するようにしたが、これに限定されるものではない。以下に、本変形例について、いくつか例を挙げて説明する。

　図８は、本変形例に係るビームフォーミング処理部３０Ａの一構成例を表すものである。ビームフォーミング処理部３０Ａは、遅延部３１～３４と、遅延設定部３５Ａと、加算部３６と、遅延部３７と、減算部４１～４３と、適応フィルタ４４～４６と、適応フィルタ制御部４７と、加算部４８と、減算部３８とを有している。すなわち、ビームフォーミング処理部３０Ａは、上記実施の形態に係るビームフォーミング処理部３０（図４）において、遅延制御部３５を遅延設定部３５Ａに置き換えたものである。遅延設定部３５Ａは、遅延部３１～３４の遅延量ｄ１～ｄ４をそれぞれ設定するように構成される。遅延設定部３５Ａでは、信号処理装置１からみた音源の向きや、マイクロフォン９１～９４の特性差により、遅延量ｄ１～ｄ４があらかじめ設定されている。遅延設定部３５Ａには、この遅延量ｄ１～ｄ４の設定データが記憶されている。遅延設定部３５Ａは、このような設定データを複数記憶し、例えばユーザ操作に基づいて、これらの設定データのうちの１つが選択されるようにしてもよい。遅延設定部３５Ａは、設定データに基づいて、遅延量ｄ１～ｄ４を設定する。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。

　図９は、本変形例に係るビームフォーミング処理部３０Ｂの一構成例を表すものである。ビームフォーミング処理部３０Ｂは、遅延部３１～３４と、遅延制御部３５と、遅延部３７Ｂと、減算部４１～４３と、適応フィルタ４４～４６と、適応フィルタ制御部４７と、加算部４８と、減算部３８とを有している。すなわち、ビームフォーミング処理部３０Ｂは、上記実施の形態に係るビームフォーミング処理部３０（図４）において、加算部３６を省くとともに、遅延部３７を遅延部３７Ｂに置き換えたものである。遅延部３７Ｂは、信号Ｓ１１を遅延量ｄｓだけ遅延させることにより信号Ｓ３７を生成するように構成される。なお、これに限定されるものではなく、遅延部３７Ｂは、信号Ｓ１２～Ｓ１４のいずれか１つを遅延量ｄｓだけ遅延させることにより信号Ｓ３７を生成してもよい。遅延部３７Ｂの遅延量ｄｓは、図示しない制御部により設定された所定値である。この場合でも、減算部３８が信号Ｓ３７から疑似ノイズ信号Ｓ４８を減算することにより、信号Ｓ３７に含まれるノイズ成分が低減されるので、ビームフォーミング処理部３０Ｂは、ユーザが選択した音源の信号成分が強調された信号である音源信号Ｓ３８を生成することができる。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。

　図１０は、本変形例に係るビームフォーミング処理部３０Ｃの一構成例を表すものである。このビームフォーミング処理部３０Ｃは、ビームフォーミング処理部３０Ａ（図８）およびビームフォーミング処理部３０Ｂ（図９）を組み合わせたものである。ビームフォーミング処理部３０Ｃは、遅延部３１～３４と、遅延設定部３５Ａと、遅延部３７Ｂと、減算部４１～４３と、適応フィルタ４４～４６と、適応フィルタ制御部４７と、加算部４８と、減算部３８とを有している。すなわち、ビームフォーミング処理部３０Ｂは、上記実施の形態に係るビームフォーミング処理部３０（図４）において、加算部３６を省き、遅延制御部３５および遅延部３７を遅延設定部３５Ａおよび遅延部３７Ｂにそれぞれ置き換えたものである。この場合でも、上記実施の形態の場合と同様の効果を得ることができる。

［変形例２］
　上記実施の形態では、ビームフォーミング処理部３０は、減算部３８の出力信号を音源信号Ｓ３８として出力したが、これに限定されるものではない。これに代えて、図１１に示すビームフォーミング処理部３０Ｄのように、遅延部３７が出力する信号Ｓ３７を音源信号として出力してもよい。この場合でも、加算部３６は、ユーザが選択した音源の信号成分の位相が互いに一致した信号Ｓ３１～Ｓ３４を互いに加算するので、ビームフォーミング処理部３０Ｄは、ユーザが選択した音源の信号成分が強調された信号を音源信号として出力することができる。

［その他の変形例］
　また、これらの変形例のうちの２以上を組み合わせてもよい

　以上、実施の形態および変形例を挙げて本発明を説明したが、本発明はこれらの実施の形態等には限定されず、種々の変形が可能である。

　例えば、上記実施の形態等では、４つのマイクロフォン９１～９４を設けたが、これに限定されるものではなく、２つまたは３つのマイクロフォンを設けてもよいし、５つ以上のマイクロフォンを設けてもよい。

　本明細書中に記載された効果はあくまで例示であり、本開示の効果は、本明細書中に記載された効果に限定されない。よって、本開示に関して、他の効果が得られてもよい。

　さらに、本開示は、以下の態様を取り得る。

（１）
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
　前記検出部の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成するビームフォーミング処理部と、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、
　前記第１の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
　を備えたノイズ処理回路。
（２）
　前記検出部は、前記音源を検出することにより、前記音源の種類を示すメタ情報のシーケンスを生成し、
　前記フラグ信号生成部は、前記メタ情報の前記シーケンスに基づいて、前記フラグ信号を生成する
　前記（１）に記載のノイズ処理回路。
（３）
　前記フラグ信号生成部は、前記検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、前記フラグ信号を生成する
　前記（１）または（２）に記載のノイズ処理回路。
（４）
　前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第１の信号成分が強調された前記第１の信号を生成するように、前記ビームフォーミング処理部の第１の処理設定を調節し、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の処理設定を維持し、前記第１の処理設定を用いて前記第１の信号を生成する
　前記（１）から（３）のいずれかに記載のノイズ処理回路。
（５）
　前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号の第２の信号成分を抑えるとともに前記第２の信号成分を含む前記第２の信号を生成するように前記ビームフォーミング処理部の第２の処理設定を調節し、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第２の処理設定を維持し、前記第２の処理設定を用いて前記第２の信号を生成する
　前記（１）から（４）のいずれかに記載のノイズ処理回路。
（６）
　前記ノイズモデル生成部は、第１の期間における前記第１の信号のスペクトルに基づいて、第１のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第１のノイズモデルを含む
　前記（１）から（５）のいずれかに記載のノイズ処理回路。
（７）
　前記ノイズモデル生成部は、第１の期間における前記第１の信号のスペクトル、および第２の期間における前記第１の信号のスペクトルに基づいて、第２のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第２のノイズモデルを含む
　前記（１）から（６）のいずれかに記載のノイズ処理回路。
（８）
　前記ノイズモデル生成部は、前記第１の信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じた第３のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第３のノイズモデルを含む
　前記（１）から（７）のいずれかに記載のノイズ処理回路。
（９）
　前記ノイズモデル選択部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号および前記第２の信号のうちの前記第１の信号を選択し、前記第１の信号に基づいて、前記複数のノイズモデルのうちの１つを選択する
　前記（１）から（８）のいずれかに記載のノイズ処理回路。
（１０）
　前記ノイズモデル選択部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第１の信号および前記第２の信号のうちの前記第２の信号を選択し、前記第２の信号に基づいて、前記複数のノイズモデルのうちの１つを選択する
　前記（１）から（９）のいずれかに記載のノイズ処理回路。
（１１）
　複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うノイズ処理回路と、
　前記ノイズ処理回路の処理結果に基づいて信号処理を行う処理回路と
　を備え、
　前記ノイズ処理回路は、
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
　前記検出部の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成するビームフォーミング処理部と、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、
　前記第１の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
　を有する
　信号処理装置。
（１２）
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
　前記音源の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成することと、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択することと、
　前記第１の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
　を含むノイズ処理方法。
（１３）
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
　前記音源の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成することと、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択することと、
　前記第１の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
　をプロセッサに行わせるソフトウェアが記録された
　記録媒体。

Claims

　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
　前記検出部の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成するビームフォーミング処理部と、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、
　前記第１の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
　を備えたノイズ処理回路。
　前記検出部は、前記音源を検出することにより、前記音源の種類を示すメタ情報のシーケンスを生成し、
　前記フラグ信号生成部は、前記メタ情報の前記シーケンスに基づいて、前記フラグ信号を生成する
　請求項１に記載のノイズ処理回路。
　前記フラグ信号生成部は、前記検出部の検出結果、およびユーザインタフェースが受け付けた、ユーザの音源選択操作に基づいて、前記フラグ信号を生成する
　請求項１に記載のノイズ処理回路。
　前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第１の信号成分が強調された前記第１の信号を生成するように、前記ビームフォーミング処理部の第１の処理設定を調節し、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の処理設定を維持し、前記第１の処理設定を用いて前記第１の信号を生成する
　請求項１に記載のノイズ処理回路。
　前記ビームフォーミング処理部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号の第２の信号成分を抑えるとともに前記第２の信号成分を含む前記第２の信号を生成するように前記ビームフォーミング処理部の第２の処理設定を調節し、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第２の処理設定を維持し、前記第２の処理設定を用いて前記第２の信号を生成する
　請求項１に記載のノイズ処理回路。
　前記ノイズモデル生成部は、第１の期間における前記第１の信号のスペクトルに基づいて、第１のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第１のノイズモデルを含む
　請求項１に記載のノイズ処理回路。
　前記ノイズモデル生成部は、第１の期間における前記第１の信号のスペクトル、および第２の期間における前記第１の信号のスペクトルに基づいて、第２のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第２のノイズモデルを含む
　請求項１に記載のノイズ処理回路。
　前記ノイズモデル生成部は、前記第１の信号のスペクトルが所定の度合い以上変化した場合に、その変化した後のスペクトルに応じた第３のノイズモデルを生成し、
　前記複数のノイズモデルは、前記第３のノイズモデルを含む
　請求項１に記載のノイズ処理回路。
　前記ノイズモデル選択部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号および前記第２の信号のうちの前記第１の信号を選択し、前記第１の信号に基づいて、前記複数のノイズモデルのうちの１つを選択する
　請求項１に記載のノイズ処理回路。
　前記ノイズモデル選択部は、前記フラグ信号に基づいて、
　前記複数の信号が前記第１の信号成分を含む期間において、前記第１の信号および前記第２の信号のうちの前記第２の信号を選択し、前記第２の信号に基づいて、前記複数のノイズモデルのうちの１つを選択する
　請求項１に記載のノイズ処理回路。
　複数のマイクロフォンから供給された複数の信号に基づいてノイズ処理を行うノイズ処理回路と、
　前記ノイズ処理回路の処理結果に基づいて信号処理を行う処理回路と
　を備え、
　前記ノイズ処理回路は、
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出する検出部と、
　前記検出部の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成するフラグ信号生成部と、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成するとともに、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成するビームフォーミング処理部と、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成するノイズモデル生成部と、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択するノイズモデル選択部と、
　前記第１の信号のスペクトル、および前記ノイズモデル選択部により選択されたノイズモデルに基づいてスペクトル減算処理を行うスペクトル減算部と
　を有する
　信号処理装置。
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
　前記音源の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成することと、
第１の信号成分が強調された第１の信号と、前記第１の信号成分が抑えられ、前記複数の信号に含まれるノイズ成分に応じた第２の信号成分を含む第２の信号とを生成することと、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択することと、
　前記第１の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
　を含むノイズ処理方法。
　複数のマイクロフォンから供給された複数の信号に基づいて音源を検出することと、
　前記音源の検出結果に基づいて、前記複数の信号が第１の信号成分を含む期間を示すフラグ信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において第１の信号成分を強調することにより、第１の信号を生成することと、
　前記複数の信号および前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含む期間において前記第１の信号成分を抑えることにより、第２の信号を生成することと、
　前記フラグ信号に基づいて、前記複数の信号が前記第１の信号成分を含まない期間において、前記第１の信号のスペクトルに応じた複数のノイズモデルを生成することと、
　前記フラグ信号に基づいて、前記第１の信号および前記第２の信号のうちの一方を選択し、選択された信号のスペクトルと、前記複数のノイズモデルのそれぞれとの類似度を算出することにより、前記複数のノイズモデルのうちの１つを選択することと、
　前記第１の信号のスペクトル、および前記複数のノイズモデルのうちの選択されたノイズモデルに基づいてスペクトル減算処理を行うことと
　をプロセッサに行わせるソフトウェアが記録された
　記録媒体。