本発明は、収音装置、収音方法、収音プログラム、および集積回路に関し、より特定的には、複数のマイクロホンを用いてマルチチャンネル信号を生成する収音装置、収音方法、収音プログラム、および集積回路に関するものである。
従来より、テレビ会議システムなどの音響システムでは、送信元の音源(例えば話者など)の位置を送信先において再現する(音像定位を実現する)複数のチャンネルの信号(マルチチャンネル信号)を、複数のマイクロホンを用いて生成する収音装置が用いられていた。
このような収音装置では、複数のマイクロホンは、各チャンネルに対応して設けられている。また、複数のマイクロホンは、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、1カ所に集中して固定的に設置される。これらにより、上記収音装置は、各収音信号を、音像定位を実現するマルチチャンネル信号として生成することができる。生成されたマルチチャンネル信号は、通信網を介して送信先の複数のスピーカへ送信される。これにより、送信先でマルチチャンネルの音が再生され、送信先において送信元の話者の位置が再現される。
ここで、音像定位を実現するマルチチャンネル信号を生成するには、複数のマイクロホンが、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、固定的に設置される必要がある。このため、上記収音装置では、話者は、複数のマイクロホンの配置位置を自由に変更することができなかった。
そこで、上記課題を解決するために、図14及び図15に示すような収音装置9が提案されている(例えば、特許文献1など)。図14は、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図15は、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図14及び図15の例では、マルチチャンネル信号として、Rチャンネル信号とLチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。
マイクロホン90−1は、話者2−1の前方近傍に配置されるようにテーブル3上に設置される。マイクロホン90−2は、話者2−2の前方近傍に配置されるようにテーブル3上に設置される。モニター4は、送信先のカメラ5aを用いて撮影された映像を表示するための装置であり、話者2−1及び2−2の前方に設置される。送信先の映像は、通信網7を介してモニター4に入力される。カメラ5は、送信元の話者2−1及び2−2を撮影するための装置であり、モニター4の上部に設置される。送信元の映像は、通信網7を介して送信先のモニター4aへ送信される。スピーカ6−1及び6−2は、送信先の収音装置9aから通信網7を介して入力されたLチャンネル信号(Lch)及びRチャンネル信号(Rch)を再生するための装置であり、モニター4の両側にそれぞれ設置される。送信先のスピーカ6a−1は、図示していないが、送信先の話者から見て左側前方に設置され、送信先のスピーカ6a−2は、送信先の話者から見て右側前方に設置されている。
収音装置9は、送信元に設置され、収音装置9aは、送信先に設置される。収音装置9aは、収音装置9と同じ回路構成を有するため、ここでは説明を省略する。収音装置9は、マイクロホン90−1及び90−2、マイクロホン位置測定手段91、係数算出手段92、マイクロホン検出手段93、及び信号算出手段94により構成される。以下、収音装置9の各構成要素について具体的に説明する。
マイクロホン位置測定手段91は、測定信号をスピーカ6−1及び6−2に出力する。その後、マイクロホン位置測定手段91は、測定信号を出力してから、当該測定信号がマイクロホン90−1及び90−2で収音されるまでの時間を遅延時間として算出する。マイクロホン位置測定手段91は、算出した遅延時間を用いて、マイクロホン90−1及び90−2の現在位置を測定する。図14の例では、マイクロホン90−1はモニター4から見て右側の位置に配置されるので、当該右側の位置がマイクロホン90−1の現在位置として測定される。また、マイクロホン90−2はモニター4から見て左側の位置に配置されるので、当該左側の位置がマイクロホン90−2の現在位置として測定される。なお、話者がマイクロホン90−1及び90−2を自由に移動させることができるように、マイクロホン位置測定手段91は、マイクロホン90−1及び90−2の移動の度に、それらの現在位置を測定している。
係数算出手段92は、測定されたマイクロホン90−1及び90−2の現在位置を元に、音像定位を実現するマルチチャンネル信号が生成されるように、Rチャンネル信号に割り当てるレベルとLチャンネル信号に割り当てるレベルとの比(係数比)を算出する。図14の例では、測定されたマイクロホン90−1の現在位置はモニター4から見て右側の位置となる。よって、係数算出手段92は、マイクロホン90−1について、例えば(Rチャンネル信号:Lチャンネル信号)=(1:0)を係数比として算出する。一方、測定されたマイクロホン90−2の現在位置はモニター4から見て左側の位置となる。よって、係数算出手段92は、マイクロホン90−2について、例えば(Rチャンネル信号:Lチャンネル信号)=(0:1)を係数比として算出する。
マイクロホン検出手段93は、話者2−1及び2−2のいずれかが発言したとき、マイクロホン90−1及び90−2からの収音信号のレベルを元に、発言者に最も近いマイクロホンを検出する。例えば、話者2−1が発言したとすると、マイクロホン90−1からの収音信号のレベルがマイクロホン90−2からの収音信号のレベルよりも大きくなる。この場合、マイクロホン検出手段93は、マイクロホン90−1を、発言者に最も近いマイクロホンとして検出する。その後、係数算出手段92は、マイクロホン検出手段93で検出されたマイクロホン90−1を元に、マイクロホン90−1について算出した係数比(Rチャンネル信号:Lチャンネル信号)=(1:0)を、信号算出手段94に出力する係数比として決定する。
信号算出手段94は、決定された係数比に従って、Rチャンネル信号及びLチャンネル信号を算出する。例えば、マイクロホン90−1について決定された係数比が(Rチャンネル信号:Lチャンネル信号)=(1:0)であるとする。この場合、信号算出手段94は、マイクロホン90−1及び90−2の収音信号それぞれに係数1を乗算して加算することで、Rチャンネル信号を算出する。一方、信号算出手段94は、マイクロホン90−1及び90−2の収音信号それぞれに係数0を乗算して加算することで、Lチャンネル信号を算出する。これにより、Rチャンネル信号はマイクロホン90−1及び90−2からの収音信号全てが加算された信号となり、Lチャンネル信号は無信号となり、音像定位を実現するマルチチャンネル信号が生成される。信号算出手段94において算出されたLチャンネル信号(Lch)及びRチャンネル信号(Rch)は、通信網7を介して、送信先のスピーカ6a−1及び6a−2へそれぞれ送信される。これにより、送信先では、送信先の話者から見て右側の位置から話者2−1が発言しているように再生される。
このように、図14及び図15に示した収音装置9では、マイクロホンの移動の度にその移動後の位置(現在位置)を測定し、測定したマイクロホンの現在位置の情報を用いて、音像定位を実現するマルチチャンネル信号を生成している。このため、話者は、マイクロホンの配置位置を自由に変更することができる。
特開平9−182044号公報(図1、図2等)
しかしながら、図14及び図15に示した収音装置9は、次の課題を有している。(1)収音装置9は、マイクロホンの現在位置の情報を用いた処理を行っているので、マルチチャンネル信号を生成する前(例えば会議開始前)に、マイクロホンの位置を測定する必要がある。(2)収音装置9は、マイクロホンの現在位置の情報を用いた処理を行っているので、会議中に話者がマイクロホンを移動させるなどしてマイクロホンの位置が変わる度に、会議を中断してマイクロホンの位置を測定し直す必要がある。(3)マイクロホンは話者によって自由に移動させられるので、マイクロホンの指向性の主軸が必ずしも話者に向いているとは限らない。したがって、マイクロホン検出手段93において検出されたマイクロホンが実際には発言者に最も近いものではない場合がある。
それ故、本発明は、上記課題(1)〜(3)を解決する収音装置であって、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することを目的とする。
本発明は、上記目的を達成するためになされたものであり、本発明に係る収音装置は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる収音装置であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段とを備える。
なお、上記信号生成手段は、例えば、後述する実施の形態における、ミキシング係数算出手段(14−1、14−2)と信号算出手段(15)とにより構成される手段である。
上記本発明に係る収音装置において、基準マイクロホンは、各チャンネルに対応して固定的に配置されており、音像定位を実現するチャンネルの信号を表す基準信号をそれぞれ出力する。また、実収録マイクロホンは、移動可能に配置される。そして、信号生成手段は、各基準信号に基づいて実収録信号に所定の演算処理を施すことによって、各チャンネルの信号(マルチチャンネル信号)を生成している。それ故、本発明に係る収音装置によれば、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、マルチチャンネル信号を生成することができ、上記従来の課題(1)〜(3)を解決することができる。
または、本発明に係る収音装置は、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成手段と、各基準マイクロホンからの基準信号と信号生成手段の各チャンネルの信号を混合し他の場所に設けられた複数のスピーカへ通信網を介して出力する混合手段とを備えてもよい。
好ましくは、実収録マイクロホンは、1つ備えられており、信号生成手段は、実収録信号のレベルを基準マイクロホンからの基準信号のレベルと一致させるために実収録マイクロホンからの実収録信号に乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、実収録マイクロホンからの実収録信号に対して係数算出手段において基準信号毎に算出された係数を1つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。この場合において、実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。
また好ましくは、実収録マイクロホンは、複数備えられており、信号生成手段は、各実収録信号のレベルの総和を基準マイクロホンからの基準信号と一致させるために各実収録マイクロホンからの実収録信号それぞれに乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、各実収録マイクロホンからの実収録信号それぞれに対して係数算出手段において基準信号毎に算出された係数を1つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。
この場合において、各実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。さらに、各基準マイクロホンから出力された基準信号のレベルのうちの最大レベルが、各実収録マイクロホンからの実収録信号のレベルのうちの最大のレベルよりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の最大レベルが実収録信号の最大レベルよりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出するとよい。または、各基準マイクロホンから出力された基準信号のレベルの総和が、各実収録マイクロホンからの実収録信号のレベルの総和よりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の総和が実収録信号の総和よりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、各基準マイクロホンから出力された基準信号のレベルと、各実収録マイクロホンから出力された実収録信号のレベルとに基づいて、話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において話者が音声を発していないと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、他の場所からの各チャンネルの信号のレベルに基づいて、他の場所に存在する話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において他の場所に存在する話者が音声を発していると判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のレベルを、各基準マイクロホンから話者までの距離のうちの最大距離と各実収録マイクロホンから話者までの距離のうちの最小距離との差に応じた時間区間で平均しながら逐次算出する複数の第1のレベル算出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のレベルを、第1のレベル算出手段と同じ時間区間で平均しながら逐次算出する複数の第2のレベル算出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1のレベル算出手段からの基準信号と一致させるために各第2のレベル算出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、話者の音声帯域に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第1の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第1の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第2の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の帯域抽出手段からの基準信号と一致させるために各第2の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、各基準マイクロホン及び各実収録マイクロホンは、指向性を有しており、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、各基準マイクロホン及び各実収録マイクロホンの指向特性に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第1の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第1の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第2の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の帯域抽出手段からの基準信号と一致させるために各第2の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号から、定常的な雑音信号を減算して出力する複数の第1の定常抑圧手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号から、定常的な雑音信号を減算して出力する複数の第2の定常抑圧手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の定常抑圧手段からの基準信号と一致させるために各第2の定常抑圧手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
また好ましくは、音響システムは、話者を撮影して生成した映像を、他の場所に設置された表示装置へ通信網を介して出力するためのカメラを備えており、各基準マイクロホンは、カメラに固定的に設置されるとよい。
また好ましくは、各基準マイクロホンは、指向性を有しており、指向性の主軸を対応するチャンネルに応じた方向に向けて配置されるとよい。
また好ましくは、各基準マイクロホンは、無指向性であり、互いに異なる位置に配置されるとよい。
また本発明は、収音方法にも向けられており、本発明に係る収音方法は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムにおいて行われる収音方法であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを含む。
また本発明は、収音プログラムにも向けられており、本発明に係る収音プログラムは、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられるコンピュータに実行させるための収音プログラムであって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを、コンピュータに実行させるための収音プログラムである。
また本発明は、集積回路にも向けられており、本発明に係る集積回路は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる集積回路であって、音響システムは、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンとを備えており、集積回路は、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段を備える。
本発明によれば、マイクロホンの現在位置を処理に用いることなくマイクロホンの配置位置を自由に変更可能にしつつ、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することができる。
図1は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。
図2は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。
図3は、基準マイクロホン11−1及び11−2の指向性の主軸の開き角を180度としたときのポーラパターンを示す図である。
図4は、話者2−1及び2−2の音声の伝達経路を模擬的に示した図である。
図5は、信号算出手段15の具体的な構成を示した図である。
図6は、無指向性のマイクロホンで構成した場合の基準マイクロホン11−1及び11−2の配置例を示す図である。
図7は、基準マイクロホン11−1及び11−2がカメラ5に直接に取り付けられた様子を示す図である。
図8は、実施の形態2に係る収音装置1bの構成を示した図である。
図9は、実施の形態3に係る収音装置1cの構成を示した図である。
図10は、実施の形態4に係る収音装置1dの構成を示した図である。
図11は、実施の形態5に係る収音装置1eの構成を示した図である。
図12は、実施の形態6に係る収音装置1fの構成を示した図である。
図13は、実施の形態7に係る収音装置1gの構成を示した図である。
図14は、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。
図15は、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。
符号の説明
1、1a〜1g、9、9a 収音装置
2−1、2−2 話者
3 テーブル
4、4a モニター
5、5a カメラ
6−1、6−2、6a−1、6b−2 スピーカ
7 通信網
10−1、10−2 実収録マイクロホン
11−1、11a−1、11−2、11a−2 基準マイクロホン
12−1、12−2 レベル算出手段
13−1、13−2 基準レベル算出手段
14−1、14−2 ミキシング係数算出手段
15 信号算出手段
16 混合手段
151〜154 可変ゲイン器
155、156 加算器
20−1、20−2 帯域抽出手段
21−1、21−2 基準帯域抽出手段
30、40、50 判定手段
60−1、60−2 定常信号抑圧手段
61−1、61−2 基準定常信号抑圧手段
90−1、90−2 マイクロホン
91 マイクロホン位置測定手段
92 係数算出手段
93 マイクロホン検出手段
94 信号算出手段
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1及び図2を参照して、本発明の実施の形態1に係る収音装置について説明する。図1は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図2は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図1及び図2の例では、マルチチャンネル信号として、Rチャンネル信号とLチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。
図1において、モニター4は、送信先のカメラ5aで撮影された映像を表示するための装置であり、話者2−1及び2−2の前方に設置される。送信先の映像は、通信網7を介してモニター4に入力される。カメラ5は、送信元の話者2−1及び2−2を撮影するための装置であり、モニター4の上部に設置される。送信元の映像は、通信網7を介して送信先のモニター4aに送信される。スピーカ6−1は、モニター4から見て右側(話者2−1及び2−2から見て左側)に配置される。スピーカ6−1は、送信先の収音装置1aから通信網7を介して入力されたLチャンネル信号(Lch)を再生する。スピーカ6−2は、モニター4から見て左側(話者2−1及び2−2から見て右側)に配置される。スピーカ6−2は、送信先の収音装置1aから通信網7を介して入力されたRチャンネル信号(Rch)を再生する。スピーカ6a−1は、図示していないが、モニター4aから見て右側(送信先の話者から見て左側)に配置される。スピーカ6a−1は、送信元の収音装置1から通信網7を介して入力されたLチャンネル信号(Lch)を再生する。スピーカ6a−2は、図示していないが、モニター4aから見て左側(送信先の話者から見て右側)に配置される。スピーカ6a−2は、送信元の収音装置1から通信網7を介して入力されたRチャンネル信号(Rch)を再生する。
収音装置1は、送信元に配置され、収音装置1aは、送信先に配置される。収音装置1aは、収音装置1と同じ回路構成を有するため、ここでは説明を省略する。収音装置1は、実収録マイクロホン10−1及び10−2、基準マイクロホン11−1及び11−2、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2、ミキシング係数算出手段14−1及び14−2、及び信号算出手段15により構成される。以下、収音装置1の構成について詳細に説明する。
実収録マイクロホン10−1は、話者2−1の前方近傍に配置されるようにテーブル3上に設置される。実収録マイクロホン10−2は、話者2−2の前方近傍に配置されるようにテーブル3上に設置される。実収録マイクロホン10−1及び10−2の配置位置は、話者2−1及び2−2によって自由に変更可能である。実収録マイクロホン10−1は、到来する音声を収音し、実収録信号x1(n)としてレベル算出手段12−1へ出力する。実収録マイクロホン10−2は、到来する音声を収音し、実収録信号x2(n)としてレベル算出手段12−2へ出力する。なお、nは時間サンプルの番号を示す。
基準マイクロホン11−1は、Rチャンネルに対応して設けられ、モニター4の上部に固定的に配置される。基準マイクロホン11−1は、到来する音声を収音し、Rチャンネル信号を表す基準信号s1(n)を基準レベル算出手段13−1へ出力する。同様に、基準マイクロホン11−2は、Lチャンネルに対応して設けられ、モニター4の上部に固定的に配置される。基準マイクロホン11−2は、到来する音声を収音し、Lチャンネル信号を表す基準信号s2(n)を基準レベル算出手段13−2へ出力する。基準マイクロホン11−1及び11−2は、例えば単一指向性を有するマイクロホンで構成される。この場合、基準マイクロホン11−1及び11−2は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、モニター4の上部に固定的に配置される。より具体的には、基準マイクロホン11−1の指向性の主軸は、図3に示すように、モニター4から見て右方向(Rch方向)を向いている。基準マイクロホン11−2の指向性の主軸は、基準マイクロホン11−1と180度反対方向であって、モニター4から見て左方向(Lch方向)を向いている。図3は、基準マイクロホン11−1及び11−2の指向性の主軸の開き角を180度としたときのポーラパターンを示す図である。図3からわかるように、基準マイクロホン11−1は、Rch方向から到来する音を、Lch方向から到来する音よりも大きなレベルで収音する。一方、基準マイクロホン11−2は、Lch方向から到来する音を、Rch方向から到来する音よりも大きなレベルで収音する。したがって、例えば図1に示した話者2−1の位置から音声が到来した場合、基準マイクロホン11−1で収音されるレベルの方が基準マイクロホン11−2で収音されるレベルよりも大きくなる。このように、基準マイクロホン11−1及び11−2は、各チャンネルに対応して固定的に配置されており、対応するチャンネルの信号を表す基準信号を出力している。つまり、基準マイクロホン11−1及び11−2は、Rチャンネル信号及びLチャンネル信号を分離して収音している。
レベル算出手段12−1は、実収録信号x1(n)を入力とし、実収録信号x1(n)のパワレベルである実収録信号パワPx1(n)を算出する。レベル算出手段12−1は、算出した実収録信号パワPx1(n)を、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。レベル算出手段12−2は、実収録信号x2(n)を入力とし、実収録信号x2(n)のパワレベルである実収録信号パワPx2(n)を算出する。レベル算出手段12−2は、算出した実収録信号パワPx2(n)を、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。
基準レベル算出手段13−1は、基準信号s1(n)を入力とし、基準信号s1(n)のパワレベルである基準信号パワPs1(n)を算出する。基準レベル算出手段13−1は、算出した基準信号パワPs1(n)を、ミキシング係数算出手段14−1へ出力する。基準レベル算出手段13−2は、基準信号s2(n)を入力とし、基準信号s2(n)のパワレベルである基準信号パワPs2(n)を算出する。基準レベル算出手段13−2は、算出した基準信号パワPs2(n)を、ミキシング係数算出手段14−2へ出力する。以下、特に断りがない限り、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定される、収音した信号のレベルを平均するための時間区間は短時間であるとし、時間平均パワを算出するとする。
ミキシング係数算出手段14−1は、基準信号パワPs1(n)と、実収録信号パワPx1(n)及びPx2(n)とを入力とする。ミキシング係数算出手段14−1は、実収録信号パワPx1(n)及びPx2(n)を用いて基準信号パワPs1(n)を擬似的に再現するように、実収録信号パワPx1(n)及びPx2(n)のミキシング係数(A11、A12)を算出する。ミキシング係数算出手段14−1は、算出したミキシング係数を信号算出手段15へ出力する。ミキシング係数算出手段14−2は、基準信号パワPs2(n)と、実収録信号パワPx1(n)及びPx2(n)とを入力とする。ミキシング係数算出手段14−2は、実収録信号パワPx1(n)及びPx2(n)を用いて基準信号パワPs2(n)を擬似的に再現するように、実収録信号パワPx1(n)及びPx2(n)のミキシング係数(A21、A22)を算出する。ミキシング係数算出手段14−2は、算出したミキシング係数を信号算出手段15へ出力する。
信号算出手段15は、ミキシング係数(A11、A12、A21、A22)と実収録信号x1(n)及びx2(n)とを入力とする。信号算出手段15は、式(1)に従って、Rチャンネル信号(Rch)である出力信号y1(n)と、Lチャンネル信号(Lch)である出力信号y2(n)とを算出する。信号算出手段15は、通信網7を介して、算出した出力信号y1(n)を出力先のスピーカ6a−2へ送信し、算出したy2(n)を送信先の6a−1へ送信する。
次に、本発明の概念について説明する。基準マイクロホン11−1及び11−2は、Rチャンネル信号及びLチャンネル信号を分離して収音することができる。しかしながら、基準マイクロホン11−1及び11−2は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で固定的に配置される必要がある。このため、話者2−1及び2−2は、基準マイクロホン11−1及び11−2の配置位置を自由に変更することができない。一方、実収録マイクロホン10−1及び10−2は、話者2−1及び2−2によって配置位置が自由に変更され得る。しかしながら、配置位置を自由に変更され得るがために、実収録マイクロホン10−1及び10−2は、Rチャンネル信号及びLチャンネル信号を分離して収音することができない。そこで、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することを可能にするために、本発明では、基準マイクロホン11−1及び11−2において収音された音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2において収音された実収録信号を用いて擬似的に再現している。以下、この再現方法について図4を参照しながら詳細に説明する。図4は、話者2−1及び2−2の音声の伝達経路を模擬的に示した図である。
図4において、V1(n)、V2(n)は、それぞれ、話者2−1及び2−2の音声である音声信号である。話者2−1の音声信号V1(n)は、音響空間を経て、減衰しながら基準マイクロホン11−1及び11−2に到達する。このとき、話者2−1から基準マイクロホン11−1までの間の減衰係数をD11とし、話者2−1から基準マイクロホン11−2までの間の減衰係数をD12とする。話者2−2の音声信号V2(n)は、音響空間を経て、減衰しながら基準マイクロホン11−1及び11−2に到達する。このとき、話者2−2から基準マイクロホン11−1までの間の減衰係数をD21とし、話者2−1から基準マイクロホン11−2までの間の減衰係数をD22とする。また、話者2−1の音声信号V1(n)は、音響空間を経て、減衰しながら実収録マイクロホン10−1及び10−2に到達する。このとき、話者2−1から実収録マイクロホン10−1までの間の減衰係数をC11とし、話者2−1から実収録マイクロホン10−2までの間の減衰係数をC12とする。話者2−2の音声信号V2(n)は、音響空間を経て、減衰しながら実収録マイクロホン10−1及び10−2に到達する。このとき、話者2−2から実収録マイクロホン10−1までの間の減衰係数をC21とし、話者2−2から実収録マイクロホン10−2までの間の減衰係数をC22とする。なお、話者2−1の音声信号V1(n)の短時間平均パワをPV1(n)とし、話者2−2の音声信号V2(n)の短時間平均パワをPV2(n)とする。
ここで、話者2−1の音声信号V1(n)と、話者2−2の音声信号V2(n)とは無相関である。このことから、音声信号V1(n)及びV2(n)を混合した混合信号の短時間平均パワと、音声信号V1(n)の短時間平均パワPV1(n)及び音声信号V2(n)の短時間平均パワPV2(n)の和とが、等しくなるといえる。したがって、基準マイクロホン11−1及び11−2の基準信号パワPs1(n)及びPs2(n)は、式(2)のように表せる。ただし、話者2−1及び2−2の音声以外の騒音がないものとする。
同様に、実収録マイクロホン10−1及び10−2の実収録信号パワPx1(n)及びPx2(n)は、式(3)のように表せる。
式(2)及び(3)から、PV1(n)及びPV2(n)を消去すると、式(4)が得られる。
さらに、B11、B12、B21、B22は、行列式を用いて式(5)で求められる。
上式(4)は、Rチャンネル信号である基準信号パワPs1(n)が、実収録信号パワPx1(n)に係数B11を乗算したものと、実収録信号パワPx2(n)に係数B12を乗算したものとを線形結合したものに置換できることを表している。また上式(4)は、Lチャンネル信号である基準信号パワPs2(n)が、実収録信号パワPx1(n)に係数B21を乗算したものと、実収録信号パワPx2(n)に係数B22を乗算したものとを線形結合したものに置換できることを表している。したがって、これらの係数B11、B12、B21、B22を上式(1)の係数A11、A12、A21、A22として用いることにより、基準マイクロホン11−1及び11−2からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2からの実収録信号を用いて擬似的に再現することができる。その結果、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するRチャンネル信号及びLチャンネル信号を生成することができる。
次に、以上に説明した本発明の概念を実現するための、ミキシング係数算出手段14−1及び14−2の処理、信号算出手段15の処理について具体的に説明する。
ミキシング係数算出手段14−1は、入力される基準信号パワPs1(n)と実収録信号パワPx1(n)及びPx2(n)とを用いて、上式(4)を満たすような係数B11及びB12を算出する。ここで、基準信号パワPs1(n)は、上式(4)より、実収録信号パワPx1(n)に係数B11を乗算したものと、実収録信号パワPx2(n)に係数B12を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワPs1(n)(n=...n−1、n、n+1、...)と、時系列の実収録信号パワPx1(n)及びPx2(n)とを入力として、係数乗算後の実収録信号パワPx1(n)及びPx2(n)のパワレベルの総和を基準信号パワPs1(n)のパワレベルに等化させるための係数B11及びB12を算出することができる。ミキシング係数算出手段14−1は、算出したB11を上式(1)のA11とし、算出したB12を上式(1)のA12として、信号算出手段15へ出力する。同様に、ミキシング係数算出手段14−2は、入力される基準信号パワPs2(n)と実収録信号パワPx1(n)及びPx2(n)とを用いて、上式(4)を満たすような係数A21及びA22を算出する。ここで、基準信号パワPs2(n)は、上式(4)より、実収録信号パワPx1(n)に係数A21を乗算したものと、実収録信号パワPx2(n)に係数A22を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワPs2(n)(n=...n−1、n、n+1、...)と、時系列の実収録信号パワPx1(n)及びPx2(n)とを入力として、係数乗算後の実収録信号パワPx1(n)及びPx2(n)のパワレベルの総和を基準信号パワPs2(n)のパワレベルに等化させるための係数A21及びA22を算出することができる。ミキシング係数算出手段14−2は、算出したB21を上式(1)のA21とし、算出したB22を上式(1)のA22として、信号算出手段15へ出力する。
なお、上述した適応等化アルゴリズムとしては、例えば逐次更新を行うLMSや、統計情報を利用して逐次更新を行う主成分分析、同じく統計情報を利用して逐次更新を行う独立成分分析等を利用することが可能である。例えば、適応等化アルゴリズムとしてLMSを利用した場合のミキシング係数算出手段14−1の処理について説明する。推定誤差をe(n)とおくと、推定誤差e(n)は式(6)のようになる。
また、推定する係数ベクトルをB(n)=[1、B11(n)、B12(n)]とおき、入力信号をX(n)=[Ps1(n)、Px1(n)、Px2(n)]とおき、ステップサイズをμとおくと、推定する係数ベクトルB(n)は、式(7)に従って逐次更新される。
ミキシング係数算出手段14−1が、式(7)に従って推定誤差e(n)が最小となるまで係数ベクトルを逐次更新したとき、当該係数ベクトルに含まれる係数B11及びB12は、上式(4)を満たす係数B11及びB12となる。なお、ミキシング係数算出手段14−1は、さらに、時間サンプル(n)毎に推定した係数B11、B12、B21、B22を所定の時間サンプル数で平均し、平均した係数B11、B12、B21、B22を徐々に更新するようにしてもよい。
次に、図5を用いて、信号算出手段15の処理について説明する。図5は、信号算出手段15の具体的な構成を示した図である。図5において、信号算出手段15は、可変ゲイン器151〜154、加算器155及び156により構成される。可変ゲイン器151〜154は、ゲインが可変な増幅器である。可変ゲイン器151は、ミキシング係数算出手段14−1から出力される係数A11をゲインに設定して、実収録信号x1(n)をA11倍に増幅する。可変ゲイン器152は、ミキシング係数算出手段14−1から出力される係数A12をゲインに設定して、実収録信号x2(n)をA12倍に増幅する。加算器155は、可変ゲイン器151からのA11倍に増幅された実収録信号x1(n)と、可変ゲイン器152からのA12倍に増幅された実収録信号x2(n)と加算して、Rチャンネル信号である出力信号y1(n)を算出する。同様に、可変ゲイン器153は、ミキシング係数算出手段14−2から出力される係数A21をゲインに設定して、実収録信号x1(n)をA21倍に増幅する。可変ゲイン器154は、ミキシング係数算出手段14−2から出力される係数A22をゲインに設定して、実収録信号x2(n)をA22倍に増幅する。加算器156は、可変ゲイン器153からのA21倍に増幅された実収録信号x1(n)と、可変ゲイン器154からのA22倍に増幅された実収録信号x2(n)と加算して、Lチャンネル信号である出力信号y2(n)を算出する。
以上のように、本実施形態によれば、基準マイクロホン11−1及び11−2からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2からの実収録信号を用いて擬似的に再現している。これにより、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するRチャンネル信号及びLチャンネル信号を生成することができる。その結果、上述した従来技術のように、マイクロホンの現在位置の情報を処理に用いることによって生じる種々の問題は生じない。
また、本実施形態によれば、実収録マイクロホン10−1及び10−2は配置位置が自由であるため、図1に示したように、実収録マイクロホン10−1及び10−2を、話者2−1及び2−2の近傍に配置することもできる。このため、各実収録信号の信号対ノイズ比(以下、S/Nと呼ぶ)が良好なものになり、良好なS/N比を有するマルチチャンネル信号を生成することができる。
なお、上述では、実収録マイクロホン10−1の配置位置を話者2−1の前方近傍とし、実収録マイクロホン10−2の配置位置を話者2−2の前方近傍としていたが、どのような位置にしてもよい。なお、良好なS/N比を有するマルチチャンネル信号を生成する場合には、実収録マイクロホン10−1及び10−2を、可能な限り話者2−1及び2−2に近い位置に配置すればよい。また、基準マイクロホン11−1及び11−2のみで構成されていた上記従来よりも良好なS/Nを有するマルチチャンネル信号を生成する場合には、実収録マイクロホン10−1及び10−2を、基準マイクロホン11−1及び11−2よりも話者2−1及び2−2(音源側)に近い位置に配置すればよい。このように配置することで、実収録マイクロホン10−1及び10−2からの音声信号x1(n)、x2(n)は、基準マイクロホン11−1及び11−2からの音声信号s1(n)、s2(n)よりも、S/Nが良い信号となる。また、実収録マイクロホン10−1及び10−2は、無指向性のマイクロホンで構成されてもよいし、指向性を有するマイクロホンで構成されてもよい。また、実収録マイクロホン10−1及び10−2が指向性を有するマイクロホンで構成される場合、実収録マイクロホン10−1及び10−2は、指向性の主軸が互いに異なる方向を向くように1カ所に集中して配置されてもよい。
なお、上述では、レベル算出手段12−1及び12−2と、基準レベル算出手段13−1及び13−2が、入力される信号のパワレベルをそれぞれ算出するとしたが、これに限定されない。レベル算出手段12−1及び12−2と、基準レベル算出手段13−1及び13−2は、入力される信号の振幅レベルをそれぞれ算出してもよい。
なお、基準マイクロホン11−1及び11−2に関し、図3に示した指向性の主軸の開き角は0度でなければよく、180度に限ったものではない。また、基準マイクロホン11−1及び11−2それぞれは、単一指向性を有するマイクロホンで構成されるとしたが、これに限定されない。基準マイクロホン11−1及び11−2それぞれは、無指向性を有するマイクロホンを信号処理して単一指向性を形成する構成であってもよい。
なお、図3では、基準マイクロホン11−1及び11−2は、互いに異なる位置に配置されていたが、これに限定されない。基準マイクロホン11−1及び11−2は、指向性の主軸が各チャンネルに応じた方向を向きつつも、同じ位置に配置されてもよい。この場合であっても、図3のように配置した場合と同様の効果が得られる。また、基準マイクロホン11−1及び11−2は、図7に示すように、カメラ5に直接に取り付けられてもよい。図7は、基準マイクロホン11−1及び11−2がカメラ5に直接に取り付けられた様子を示す図である。この場合、カメラ5がターンして撮像エリアが変化しても、送信先に送信する映像と、基準マイクロホン11−1及び11−2が収音する方向とに差が生じなくなる。その結果、常に映像と話者の位置とが一致したマルチチャンネル信号を得ることができる。また、話者2−1又は2−2が会議システムをセッティングするとき、基準マイクロホン11−1及び11−2とカメラ5とを個別に設置する必要がなくなる。このため、より簡単な設置が可能となり、生成されるマルチチャンネル信号の音質がセッティング次第で変わってしまうことを防ぐことができる。
なお、図3では、基準マイクロホン11−1及び11−2が指向性を有するマイクロホンで構成されていたが、これに限定されない。基準マイクロホン11−1及び11−2を無指向性のマイクロホンで構成し、図6のように配置するようにしてもよい。図6は、無指向性のマイクロホンで構成した場合の基準マイクロホン11−1及び11−2の配置例を示す図である。図6では、無指向性のマイクロホンで構成された基準マイクロホン11−1を11a−1と付し、無指向性のマイクロホンで構成された基準マイクロホン11−2を11a−2と付している。例えば、基準マイクロホン11a−2と話者2−2との距離をdとおく。この場合において、基準マイクロホン11a−1が、図6に示すように、基準マイクロホン11a−2及び話者2−2の位置との関係において、直角三角形を形成する位置に配置されるとする。このとき、より望ましくは、基準マイクロホン11a−1は、話者2−1との距離が2dとなる位置に配置されるとよい。これにより、基準マイクロホン11a−1で収音される話者2−2の音声のレベルと、基準マイクロホン11a−2で収音される話者2−2の音声のレベルとの間には、6dBのレベル差が生じることになる。このため、図3のように配置した場合と同様以上の効果が得られる。なお、音像定位を明確に実現するマルチチャンネル信号を収音するには、基準マイクロホン11a−1は、少なくとも話者2−1との距離が1.4dとなる位置に配置される必要がある。また、基準マイクロホン11−1及び11−2は、アレイ処理によりRチャンネル及びLチャンネルの2方向からの音を収音可能にした4つの無指向性のマイクロホンで構成されてもよい。このように1つの基準マイクロホンを、複数のマイクロホンで構成することもできる。
なお、上述では、基準マイクロホン11−1及び11−2と実収録マイクロホン10−1及び10−2とでは設置場所が異なっていた。このため、実際には、基準マイクロホン11−1及び11−2、実収録マイクロホン10−1及び10−2それぞれにおいて話者2−1及び2−2を収音するタイミングが、必ずしも一致するとは限らない。このため、ミキシング係数算出手段14−1及び14−2で推定されるミキシング係数(B11、B12、B21、B22)が上式(4)を満足する係数にならない場合がある。そこで、これらのタイミングの不一致を吸収できるように、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定された、収音した信号のレベルを平均するための時間区間を調整する。具体的には、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定される時間区間を、基準マイクロホン11−1又は基準マイクロホン11−2から話者2−1又は話者2−2までの距離のうちの最大となる距離と、実収録マイクロホン10−1又は実収録マイクロホン10−2から話者2−1又は話者2−2までの距離のうちの最小となる距離との差に応じた時間区間に設定する。ここで、実用上、基準マイクロホン11−1及び11−2は、話者2−1及び2−2から2〜4m離れた場所に設置され、実収録マイクロホン10−1及び10−2は、話者2−1及び2−2から50cm離れた場所に設置されることが多い。この場合、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差は、1.5〜3.5mとなる。音波は、距離1m伝搬するのに約3msecかかるので、音波が例えば3.5m伝搬するのに、約11msecかかる。このため、この場合においては、平均する時間区間を11msec以上に調整する必要がある。このように、タイミングの不一致を吸収できるように時間区間を調整することで、ミキシング係数算出手段14−1及び14−2で推定されるミキシング係数の精度を高めることができる。なお、基準マイクロホン及び実収録マイクロホンの音圧レベルを監視して、基準マイクロホン及び実収録マイクロホンの位置関係を把握することで、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差を求めることができる。
なお、上述では、マルチチャンネル信号としてRチャンネル信号とLチャンネル信号が生成されるとし、基準マイクロホンを2つ設けていたが、これに限定されない。例えば、C(センター)チャンネル信号をさらに生成するとし、基準マイクロホンを計3つ設けてもよい。このように、基準マイクロホンは、チャンネル数に応じて設けられる。なお、チャンネル数がN(Nは自然数)である場合、図2に示した構成において、基準レベル算出手段及びミキシング係数算出手段それぞれがN個設けられることになる。
なお、上述では、実収録マイクロホンを2つ設けていたが、これに限定されない。実収録マイクロホンを、1つだけ設けてもよいし、3つ以上設けてもよい。なお、実収録マイクロホンがM(Mは自然数)個設けられた場合、図2に示した構成おいて、レベル算出手段がM個設けられ、M個のレベル算出手段それぞれからミキシング係数算出手段へ実収録信号が出力されることになる。そして、ミキシング係数算出手段では、M個の係数を算出する。例えばM=1のとき、ミキシング係数算出手段14−1は係数A11のみを算出し、ミキシング係数算出手段14−2は係数A21のみを算出する。実収録マイクロホンを多数設ける程、信号算出手段15において生成されるマルチチャンネル信号が実現する音像をより明確にすることができるとともに、S/Nの良い実収録信号が収音可能な収音エリアも拡大できる。
(実施の形態2)
図8を参照して、本発明の実施の形態2に係る収音装置について説明する。図8は、実施の形態2に係る収音装置1bの構成を示した図である。図8に示した収音装置1bは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1bは、図1に示した収音装置1に対して、帯域抽出手段20−1及び20−2、基準帯域抽出手段21−1及び21−2が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。
帯域抽出手段20−1は、実収録マイクロホン10−1からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段12−1へ出力する。同様に、帯域抽出手段20−2は、実収録マイクロホン10−2からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段12−2へ出力する。また、基準帯域抽出手段21−1は、基準マイクロホン11−1からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段13−1へ出力する。同様に、基準帯域抽出手段21−2は、基準マイクロホン11−2からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段13−2へ出力する。
帯域抽出手段20−1及び20−2、基準帯域抽出手段21−1及び21−2それぞれに設定される所定の周波数帯域は、全て同じである。所定の周波数帯域には、例えば、話者2−1及び2−2の音声帯域であって、比較的室内騒音の低い帯域(例えば、1kHz〜4kHz)を用いる。また、所定の周波数帯域として例えば、基準マイクロホン11−1及び11−2、実収録マイクロホン10−1及び10−2それぞれが有する指向特性(指向性の周波数特性)を考慮して求められる帯域であってもよい。具体的には、全てのマイクロホンに対して、指向性が安定して得られる帯域とする。以上のような所定の周波数帯域を用いることで、ミキシング係数算出手段14−1及び14−2に入力される基準信号及び実収録信号に含まれる、話者2−1及び2−2の音声以外の騒音を減少させることができる。
以上のように、本実施の形態によれば、ミキシング係数算出手段14−1及び14−2に入力される基準信号及び実収録信号に含まれる、話者2−1及び2−2の音声以外の騒音を減少させることができる。これにより、ミキシング係数算出手段14−1及び14−2で算出するミキシング係数の精度が向上し、より明確な音像定位を実現するマルチチャンネル信号を生成することができる。
(実施の形態3)
図9を参照して、本発明の実施の形態3に係る収音装置について説明する。図9は、実施の形態3に係る収音装置1cの構成を示した図である。図9に示した収音装置1cは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1cは、図1に示した収音装置1に対して、判定手段30が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。
図1に示したように、話者2−1及び2−2は、実収録マイクロホン10−1及び10−2の近くに存在する。このため、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)の方が、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)よりも大きくなる。しかしながら、基準マイクロホン11−1及び11−2の近くに騒音源が存在する場合、あるいは、話者2−1及び2−2が発声していない状況において、基準マイクロホン11−1及び11−2に対して話者2−1及び2−2と反対方向から音が到来する場合などでは、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)の方が、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)よりも大きくなる。このような場合には、ミキシング係数算出手段14−1及び14−2において推定されるミキシング係数の精度が低下するので、ミキシング係数を更新しない方がよい。
具体的には、判定手段30は、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)と、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)とを入力とする。判定手段30は、入力された基準信号パワPs1(n)及びPs2(n)のうちの最大のレベルが、入力された実収録信号パワPx1(n)及びPx2(n)のうちの最大のレベルよりも大きいか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段30において、基準信号パワの最大のレベルが実収録信号パワの最大のレベルよりも大きいと判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、話者2−1及び2−2の音声以外の音によって、ミキシング係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、判定手段30は、入力された基準信号パワPs1(n)及びPs2(n)の総和が、入力された実収録信号パワPx1(n)及びPx2(n)の総和よりも大きいか否かを、時間サンプル(n)毎に逐次判定するようにしてもよい。このとき、判定手段30において、基準信号パワの総和が実収録信号パワの総和よりも大きいと判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。これにより、判定手段30が最大レベルを用いて判定する場合と同様の効果が得られる。
なお、判定手段30は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。
(実施の形態4)
図10を参照して、本発明の実施の形態4に係る収音装置について説明する。図10は、実施の形態4に係る収音装置1dの構成を示した図である。図10に示した収音装置1dは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1dは、図9に示した収音装置1cに対して、判定手段30が判定手段40に入れ代わった点のみ異なる。以下、異なる点を中心に説明する。
判定手段40は、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)と、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)とを入力とする。判定手段40は、入力された基準信号パワPs1(n)及びPs2(n)と、実収録信号パワPx1(n)及びPx2(n)とに基づいて、話者2−1又は2−2が音声を発しているか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段40において話者2−1又は2−2が音声を発していると判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、話者2−1及び2−2の音声以外の音によって、ミキシング係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、話者2−1又は2−2が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワPs1(n)及びPs2(n)、実収録信号パワPx1(n)及びPx2(n)の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段40は、所定のレベル以上である場合、話者2−1又は2−2が音声を発している判定する。ここで、実収録マイクロホン10−1及び10−2は、基準マイクロホン11−1及び11−2と比べて話者2−1及び2−2に近い位置に配置される。このため、基準信号と実収録信号とでS/Nが異なる。これを踏まえ、例えば、判定手段40が、基準マイクロホン11−1及び11−2の組に対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン10−1及び10−2の組に対して、所定のレベル以上であるか否かを判定するようにしてもよい。また例えば、判定手段40が、基準マイクロホン11−1及び11−2それぞれに対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン10−1及び10−2それぞれに対して、所定のレベル以上であるか否かを判定するようにしてもよい。さらに、この場合において、上記4つの判定結果を統合することにより、最終的な判定が行われてもよい。例えば、上記4つの判定結果のうち、3つ以上が所定のレベル以上であると判定された場合に、最終的な判定結果として所定のレベル以上であると判定されるようにする。
なお、話者2−1又は2−2が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワPs1(n)及びPs2(n)、実収録信号パワPx1(n)及びPx2(n)の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。周囲雑音は定常的であるため、周囲騒音のレベルの変動幅は、話者2−1又は2−2の音声と比べて小さい。したがって、判定手段40は、所定の変動幅を超えて変動した場合、話者2−1又は2−2が音声を発している判定する。
なお、判定手段40は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。
(実施の形態5)
図11を参照して、本発明の実施の形態5に係る収音装置について説明する。図11は、実施の形態5に係る収音装置1eの構成を示した図である。図11に示した収音装置1eは、図1及び図2に示した収音装置1に入れ代わるように配置される。なお、図11では、説明の都合上、図2に示したスピーカ6−1及び6−2、通信網7を図示している。また、収音装置1eは、図1に示した収音装置1に対して、判定手段50が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
判定手段50は、通信網7を介してスピーカ6−1及び6−2に入力される送信先のマルチチャンネル信号を入力とする。判定手段50は、入力されたマルチチャンネル信号に基づいて、送信先の話者が音声を発しているか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段50において送信先の話者が音声を発していると判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、ミキシング係数算出手段14−1及び14−2が、送信先の話者が音声を発しているか否かに基づいて係数の逐次更新を停止する。ここで、スピーカ6−1及び6−2から出力される送信先の話者の音声は、話者2−1及び2−2の音声以外の音である。このため、実施の形態4と同様、送信先の話者が音声を発しているときに係数の逐次更新を停止させることで、係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、送信先の話者が音声を発しているか否かを判定する具体的な方法として例えば、スピーカ6−1及び6−2に入力される送信先のマルチチャンネル信号の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段50は、所定のレベル以上である場合、送信先の話者が音声を発している判定する。また、送信先のマルチチャンネル信号の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。送信先の周囲雑音は定常的であるため、送信先の周囲騒音のレベルの変動幅は、送信先の話者の音声と比べて小さい。したがって、判定手段50は、所定の変動幅を超えて変動した場合、送信先の話者が音声を発している判定する。
なお、判定手段50は、送信先のマルチチャンネル信号のパワレベルを用いて判定してもよいし、送信先のマルチチャンネル信号の振幅レベルを用いて判定してもよい。
(実施の形態6)
図12を参照して、本発明の実施の形態6に係る収音装置について説明する。図12は、実施の形態6に係る収音装置1fの構成を示した図である。図12に示した収音装置1fは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1fは、図1に示した収音装置1に対して、定常信号抑圧手段60−1及び60−2と、基準定常信号抑圧手段61−1及び61−2が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
基準マイクロホン11−1及び11−2は、カメラ5あるいはモニター4に設置され、話者2−1及び2−2からある程度遠く離れた位置に配置される。このため、定常的な周囲雑音の影響によって、基準信号のS/Nが悪くなる。また、実収録マイクロホン10−1及び10−2は、プロジェクタ(図示なし)等の雑音源付近に設置される場合がある。この場合において、実収録信号のS/Nが悪くなってしまう。このため、ミキシング係数算出手段14−1及び14−2の演算処理において、算出するミキシング係数がこの周囲雑音の影響を受けてしまう。そこで、定常信号抑圧手段60−1及び60−2と、基準定常信号抑圧手段61−1及び61−2を用いて、周囲雑音の影響を小さくする。
具体的には、定常信号抑圧手段60−1は、レベル算出手段12−1からの実収録信号パワPx1(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。同様に、定常信号抑圧手段60−2は、レベル算出手段12−2からの実収録信号パワPx2(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。また、基準定常信号抑圧手段61−1は、基準レベル算出手段13−1からの基準信号パワPs1(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1へ出力する。同様に、基準定常信号抑圧手段61−2は、基準レベル算出手段13−2からの基準信号パワPs2(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−2へ出力する。
以上のように、本実施の形態によれば、周囲雑音の影響が小さくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、定常的な雑音信号を減算する具体的な方法として例えば、所定のレベルを減算する方法がある。また、レベル算出手段12−1及び12−2からの実収録信号パワPx1(n)及びPx2(n)、基準レベル算出手段13−1及び13−2からの基準信号パワPs1(n)及びPs2(n)を監視することによって変動幅が小さいレベルを特定し、特定したレベルを減算する方法もある。
(実施の形態7)
図13を参照して、本発明の実施の形態7に係る収音装置について説明する。図13は、実施の形態7に係る収音装置1gの構成を示した図である。図13に示した収音装置1gは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1gは、図1に示した収音装置1に対して、混合手段16が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
基準マイクロホン11−1及び11−2の出力信号は、実収録マイクロホン10−1及び10−2の係数算出に使用するのみである。しかし、実収録マイクロホン10−1、10−2の設置が困難であり話者近辺に設置できない場合、または遠くの話者を収音する用途として補助的に使用するような場合、実収録マイクロホンで全ての収音エリアをカバーすることができない。そこで基準マイクロホンの出力信号を混合することにより上記問題を緩和することが可能となる。
具体的に混合手段16では、信号算出手段15の出力信号y1(n)及びy2(n)に、基準マイクロホン11−1及び11−2の出力であるs1(n)及びs2(n)をそれぞれLch信号同士、Rch信号同士を加算し、出力信号y´1(n)及びy´2(n)を出力する。
以上のように、本実施の形態によれば、基準マイクロホン信号を出力信号に混合することにより、実収録マイクロホンによる収音効果が低い場合においても、音像定位を保ったマルチチャンネル収音が可能となる。
なお、上述した実施の形態1〜7で説明した収音装置は、一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した処理をコンピュータに実行させる収音プログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納された収音プログラムをコンピュータが読み出して実行することによって、実施の形態1〜7で説明した収音装置が実現される。また、上記収音プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、上記収音プログラムを他の媒体あるいは通信回線を通じて上記情報処理装置に供給してもかまわない。
なお、上述した実施の形態1〜7で説明した収音装置の各構成要素の一部又は全部は、LSIなどの集積回路や、専用の信号処理回路を用いて1チップ化したものによって実現されてもよい。また上述した実施の形態1〜7で説明した収音装置は、上記各構成要素の機能に相当するものをそれぞれチップ化したものによって実現されてもよい。なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また集積回路化の手法は、LSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。
本発明に係る収音装置は、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能であり、ハンズフリー機能を有する機器や、テレビ等の放送機器、テレビ会議システム、音声のみの会議システム等に利用される。
本発明は、収音装置、収音方法、収音プログラム、および集積回路に関し、より特定的には、複数のマイクロホンを用いてマルチチャンネル信号を生成する収音装置、収音方法、収音プログラム、および集積回路に関するものである。
従来より、テレビ会議システムなどの音響システムでは、送信元の音源(例えば話者など)の位置を送信先において再現する(音像定位を実現する)複数のチャンネルの信号(マルチチャンネル信号)を、複数のマイクロホンを用いて生成する収音装置が用いられていた。
このような収音装置では、複数のマイクロホンは、各チャンネルに対応して設けられている。また、複数のマイクロホンは、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、1カ所に集中して固定的に設置される。これらにより、上記収音装置は、各収音信号を、音像定位を実現するマルチチャンネル信号として生成することができる。生成されたマルチチャンネル信号は、通信網を介して送信先の複数のスピーカへ送信される。これにより、送信先でマルチチャンネルの音が再生され、送信先において送信元の話者の位置が再現される。
ここで、音像定位を実現するマルチチャンネル信号を生成するには、複数のマイクロホンが、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、固定的に設置される必要がある。このため、上記収音装置では、話者は、複数のマイクロホンの配置位置を自由に変更することができなかった。
そこで、上記課題を解決するために、図14及び図15に示すような収音装置9が提案されている(例えば、特許文献1など)。図14は、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図15は、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図14及び図15の例では、マルチチャンネル信号として、Rチャンネル信号とLチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。
マイクロホン90−1は、話者2−1の前方近傍に配置されるようにテーブル3上に設置される。マイクロホン90−2は、話者2−2の前方近傍に配置されるようにテーブル3上に設置される。モニター4は、送信先のカメラ5aを用いて撮影された映像を表示するための装置であり、話者2−1及び2−2の前方に設置される。送信先の映像は、通信網7を介してモニター4に入力される。カメラ5は、送信元の話者2−1及び2−2を撮影するための装置であり、モニター4の上部に設置される。送信元の映像は、通信網7を介して送信先のモニター4aへ送信される。スピーカ6−1及び6−2は、送信先の収音装置9aから通信網7を介して入力されたLチャンネル信号(Lch)及びRチャンネル信号(Rch)を再生するための装置であり、モニター4の両側にそれぞれ設置される。送信先のスピーカ6a−1は、図示していないが、送信先の話者から見て左側前方に設置され、送信先のスピーカ6a−2は、送信先の話者から見て右側前方に設置されている。
収音装置9は、送信元に設置され、収音装置9aは、送信先に設置される。収音装置9aは、収音装置9と同じ回路構成を有するため、ここでは説明を省略する。収音装置9は、マイクロホン90−1及び90−2、マイクロホン位置測定手段91、係数算出手段92、マイクロホン検出手段93、及び信号算出手段94により構成される。以下、収音装置9の各構成要素について具体的に説明する。
マイクロホン位置測定手段91は、測定信号をスピーカ6−1及び6−2に出力する。その後、マイクロホン位置測定手段91は、測定信号を出力してから、当該測定信号がマイクロホン90−1及び90−2で収音されるまでの時間を遅延時間として算出する。マイクロホン位置測定手段91は、算出した遅延時間を用いて、マイクロホン90−1及び90−2の現在位置を測定する。図14の例では、マイクロホン90−1はモニター4から見て右側の位置に配置されるので、当該右側の位置がマイクロホン90−1の現在位置として測定される。また、マイクロホン90−2はモニター4から見て左側の位置に配置されるので、当該左側の位置がマイクロホン90−2の現在位置として測定される。なお、話者がマイクロホン90−1及び90−2を自由に移動させることができるように、マイクロホン位置測定手段91は、マイクロホン90−1及び90−2の移動の度に、それらの現在位置を測定している。
係数算出手段92は、測定されたマイクロホン90−1及び90−2の現在位置を元に、音像定位を実現するマルチチャンネル信号が生成されるように、Rチャンネル信号に割り当てるレベルとLチャンネル信号に割り当てるレベルとの比(係数比)を算出する。図14の例では、測定されたマイクロホン90−1の現在位置はモニター4から見て右側の位置となる。よって、係数算出手段92は、マイクロホン90−1について、例えば(Rチャンネル信号:Lチャンネル信号)=(1:0)を係数比として算出する。一方、測定されたマイクロホン90−2の現在位置はモニター4から見て左側の位置となる。よって、係数算出手段92は、マイクロホン90−2について、例えば(Rチャンネル信号:Lチャンネル信号)=(0:1)を係数比として算出する。
マイクロホン検出手段93は、話者2−1及び2−2のいずれかが発言したとき、マイクロホン90−1及び90−2からの収音信号のレベルを元に、発言者に最も近いマイクロホンを検出する。例えば、話者2−1が発言したとすると、マイクロホン90−1からの収音信号のレベルがマイクロホン90−2からの収音信号のレベルよりも大きくなる。この場合、マイクロホン検出手段93は、マイクロホン90−1を、発言者に最も近いマイクロホンとして検出する。その後、係数算出手段92は、マイクロホン検出手段93で検出されたマイクロホン90−1を元に、マイクロホン90−1について算出した係数比(Rチャンネル信号:Lチャンネル信号)=(1:0)を、信号算出手段94に出力する係数比として決定する。
信号算出手段94は、決定された係数比に従って、Rチャンネル信号及びLチャンネル信号を算出する。例えば、マイクロホン90−1について決定された係数比が(Rチャンネル信号:Lチャンネル信号)=(1:0)であるとする。この場合、信号算出手段94は、マイクロホン90−1及び90−2の収音信号それぞれに係数1を乗算して加算することで、Rチャンネル信号を算出する。一方、信号算出手段94は、マイクロホン90−1及び90−2の収音信号それぞれに係数0を乗算して加算することで、Lチャンネル信号を算出する。これにより、Rチャンネル信号はマイクロホン90−1及び90−2からの収音信号全てが加算された信号となり、Lチャンネル信号は無信号となり、音像定位を実現するマルチチャンネル信号が生成される。信号算出手段94において算出されたLチャンネル信号(Lch)及びRチャンネル信号(Rch)は、通信網7を介して、送信先のスピーカ6a−1及び6a−2へそれぞれ送信される。これにより、送信先では、送信先の話者から見て右側の位置から話者2−1が発言しているように再生される。
このように、図14及び図15に示した収音装置9では、マイクロホンの移動の度にその移動後の位置(現在位置)を測定し、測定したマイクロホンの現在位置の情報を用いて、音像定位を実現するマルチチャンネル信号を生成している。このため、話者は、マイクロホンの配置位置を自由に変更することができる。
しかしながら、図14及び図15に示した収音装置9は、次の課題を有している。(1)収音装置9は、マイクロホンの現在位置の情報を用いた処理を行っているので、マルチチャンネル信号を生成する前(例えば会議開始前)に、マイクロホンの位置を測定する必要がある。(2)収音装置9は、マイクロホンの現在位置の情報を用いた処理を行っているので、会議中に話者がマイクロホンを移動させるなどしてマイクロホンの位置が変わる度に、会議を中断してマイクロホンの位置を測定し直す必要がある。(3)マイクロホンは話者によって自由に移動させられるので、マイクロホンの指向性の主軸が必ずしも話者に向いているとは限らない。したがって、マイクロホン検出手段93において検出されたマイクロホンが実際には発言者に最も近いものではない場合がある。
それ故、本発明は、上記課題(1)〜(3)を解決する収音装置であって、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することを目的とする。
本発明は、上記目的を達成するためになされたものであり、本発明に係る収音装置は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる収音装置であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段とを備える。
なお、上記信号生成手段は、例えば、後述する実施の形態における、ミキシング係数算出手段(14−1、14−2)と信号算出手段(15)とにより構成される手段である。
上記本発明に係る収音装置において、基準マイクロホンは、各チャンネルに対応して固定的に配置されており、音像定位を実現するチャンネルの信号を表す基準信号をそれぞれ出力する。また、実収録マイクロホンは、移動可能に配置される。そして、信号生成手段は、各基準信号に基づいて実収録信号に所定の演算処理を施すことによって、各チャンネルの信号(マルチチャンネル信号)を生成している。それ故、本発明に係る収音装置によれば、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、マルチチャンネル信号を生成することができ、上記従来の課題(1)〜(3)を解決することができる。
または、本発明に係る収音装置は、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成手段と、各基準マイクロホンからの基準信号と信号生成手段の各チャンネルの信号を混合し他の場所に設けられた複数のスピーカへ通信網を介して出力する混合手段とを備えてもよい。
好ましくは、実収録マイクロホンは、1つ備えられており、信号生成手段は、実収録信号のレベルを基準マイクロホンからの基準信号のレベルと一致させるために実収録マイクロホンからの実収録信号に乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、実収録マイクロホンからの実収録信号に対して係数算出手段において基準信号毎に算出された係数を1つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。この場合において、実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。
また好ましくは、実収録マイクロホンは、複数備えられており、信号生成手段は、各実収録信号のレベルの総和を基準マイクロホンからの基準信号と一致させるために各実収録マイクロホンからの実収録信号それぞれに乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、各実収録マイクロホンからの実収録信号それぞれに対して係数算出手段において基準信号毎に算出された係数を1つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。
この場合において、各実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。さらに、各基準マイクロホンから出力された基準信号のレベルのうちの最大レベルが、各実収録マイクロホンからの実収録信号のレベルのうちの最大のレベルよりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の最大レベルが実収録信号の最大レベルよりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出するとよい。または、各基準マイクロホンから出力された基準信号のレベルの総和が、各実収録マイクロホンからの実収録信号のレベルの総和よりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の総和が実収録信号の総和よりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、各基準マイクロホンから出力された基準信号のレベルと、各実収録マイクロホンから出力された実収録信号のレベルとに基づいて、話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において話者が音声を発していないと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、他の場所からの各チャンネルの信号のレベルに基づいて、他の場所に存在する話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において他の場所に存在する話者が音声を発していると判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のレベルを、各基準マイクロホンから話者までの距離のうちの最大距離と各実収録マイクロホンから話者までの距離のうちの最小距離との差に応じた時間区間で平均しながら逐次算出する複数の第1のレベル算出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のレベルを、第1のレベル算出手段と同じ時間区間で平均しながら逐次算出する複数の第2のレベル算出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1のレベル算出手段からの基準信号と一致させるために各第2のレベル算出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、話者の音声帯域に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第1の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第1の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第2の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の帯域抽出手段からの基準信号と一致させるために各第2の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、各基準マイクロホン及び各実収録マイクロホンは、指向性を有しており、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、各基準マイクロホン及び各実収録マイクロホンの指向特性に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第1の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第1の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第2の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の帯域抽出手段からの基準信号と一致させるために各第2の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号から、定常的な雑音信号を減算して出力する複数の第1の定常抑圧手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号から、定常的な雑音信号を減算して出力する複数の第2の定常抑圧手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第1の定常抑圧手段からの基準信号と一致させるために各第2の定常抑圧手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。
また好ましくは、音響システムは、話者を撮影して生成した映像を、他の場所に設置された表示装置へ通信網を介して出力するためのカメラを備えており、各基準マイクロホンは、カメラに固定的に設置されるとよい。
また好ましくは、各基準マイクロホンは、指向性を有しており、指向性の主軸を対応するチャンネルに応じた方向に向けて配置されるとよい。
また好ましくは、各基準マイクロホンは、無指向性であり、互いに異なる位置に配置されるとよい。
また本発明は、収音方法にも向けられており、本発明に係る収音方法は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムにおいて行われる収音方法であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを含む。
また本発明は、収音プログラムにも向けられており、本発明に係る収音プログラムは、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられるコンピュータに実行させるための収音プログラムであって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを、コンピュータに実行させるための収音プログラムである。
また本発明は、集積回路にも向けられており、本発明に係る集積回路は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる集積回路であって、音響システムは、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する1つ以上の実収録マイクロホンとを備えており、集積回路は、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段を備える。
本発明によれば、マイクロホンの現在位置を処理に用いることなくマイクロホンの配置位置を自由に変更可能にしつつ、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することができる。
実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図
実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図
基準マイクロホン11−1及び11−2の指向性の主軸の開き角を180度としたときのポーラパターンを示す図
話者2−1及び2−2の音声の伝達経路を模擬的に示した図
信号算出手段15の具体的な構成を示した図
無指向性のマイクロホンで構成した場合の基準マイクロホン11−1及び11−2の配置例を示す図
基準マイクロホン11−1及び11−2がカメラ5に直接に取り付けられた様子を示す図
実施の形態2に係る収音装置1bの構成を示した図
実施の形態3に係る収音装置1cの構成を示した図
実施の形態4に係る収音装置1dの構成を示した図
実施の形態5に係る収音装置1eの構成を示した図
実施の形態6に係る収音装置1fの構成を示した図
実施の形態7に係る収音装置1gの構成を示した図
送信元に配置されるテレビ会議システムの装置構成の一部を示した図
送信元に配置されるテレビ会議システムの詳細な回路構成を示した図
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1及び図2を参照して、本発明の実施の形態1に係る収音装置について説明する。図1は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図2は、実施の形態1に係る収音装置1を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図1及び図2の例では、マルチチャンネル信号として、Rチャンネル信号とLチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。
図1において、モニター4は、送信先のカメラ5aで撮影された映像を表示するための装置であり、話者2−1及び2−2の前方に設置される。送信先の映像は、通信網7を介してモニター4に入力される。カメラ5は、送信元の話者2−1及び2−2を撮影するための装置であり、モニター4の上部に設置される。送信元の映像は、通信網7を介して送信先のモニター4aに送信される。スピーカ6−1は、モニター4から見て右側(話者2−1及び2−2から見て左側)に配置される。スピーカ6−1は、送信先の収音装置1aから通信網7を介して入力されたLチャンネル信号(Lch)を再生する。スピーカ6−2は、モニター4から見て左側(話者2−1及び2−2から見て右側)に配置される。スピーカ6−2は、送信先の収音装置1aから通信網7を介して入力されたRチャンネル信号(Rch)を再生する。スピーカ6a−1は、図示していないが、モニター4aから見て右側(送信先の話者から見て左側)に配置される。スピーカ6a−1は、送信元の収音装置1から通信網7を介して入力されたLチャンネル信号(Lch)を再生する。スピーカ6a−2は、図示していないが、モニター4aから見て左側(送信先の話者から見て右側)に配置される。スピーカ6a−2は、送信元の収音装置1から通信網7を介して入力されたRチャンネル信号(Rch)を再生する。
収音装置1は、送信元に配置され、収音装置1aは、送信先に配置される。収音装置1aは、収音装置1と同じ回路構成を有するため、ここでは説明を省略する。収音装置1は、実収録マイクロホン10−1及び10−2、基準マイクロホン11−1及び11−2、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2、ミキシング係数算出手段14−1及び14−2、及び信号算出手段15により構成される。以下、収音装置1の構成について詳細に説明する。
実収録マイクロホン10−1は、話者2−1の前方近傍に配置されるようにテーブル3上に設置される。実収録マイクロホン10−2は、話者2−2の前方近傍に配置されるようにテーブル3上に設置される。実収録マイクロホン10−1及び10−2の配置位置は、話者2−1及び2−2によって自由に変更可能である。実収録マイクロホン10−1は、到来する音声を収音し、実収録信号x1(n)としてレベル算出手段12−1へ出力する。実収録マイクロホン10−2は、到来する音声を収音し、実収録信号x2(n)としてレベル算出手段12−2へ出力する。なお、nは時間サンプルの番号を示す。
基準マイクロホン11−1は、Rチャンネルに対応して設けられ、モニター4の上部に固定的に配置される。基準マイクロホン11−1は、到来する音声を収音し、Rチャンネル信号を表す基準信号s1(n)を基準レベル算出手段13−1へ出力する。同様に、基準マイクロホン11−2は、Lチャンネルに対応して設けられ、モニター4の上部に固定的に配置される。基準マイクロホン11−2は、到来する音声を収音し、Lチャンネル信号を表す基準信号s2(n)を基準レベル算出手段13−2へ出力する。基準マイクロホン11−1及び11−2は、例えば単一指向性を有するマイクロホンで構成される。この場合、基準マイクロホン11−1及び11−2は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、モニター4の上部に固定的に配置される。より具体的には、基準マイクロホン11−1の指向性の主軸は、図3に示すように、モニター4から見て右方向(Rch方向)を向いている。基準マイクロホン11−2の指向性の主軸は、基準マイクロホン11−1と180度反対方向であって、モニター4から見て左方向(Lch方向)を向いている。図3は、基準マイクロホン11−1及び11−2の指向性の主軸の開き角を180度としたときのポーラパターンを示す図である。図3からわかるように、基準マイクロホン11−1は、Rch方向から到来する音を、Lch方向から到来する音よりも大きなレベルで収音する。一方、基準マイクロホン11−2は、Lch方向から到来する音を、Rch方向から到来する音よりも大きなレベルで収音する。したがって、例えば図1に示した話者2−1の位置から音声が到来した場合、基準マイクロホン11−1で収音されるレベルの方が基準マイクロホン11−2で収音されるレベルよりも大きくなる。このように、基準マイクロホン11−1及び11−2は、各チャンネルに対応して固定的に配置されており、対応するチャンネルの信号を表す基準信号を出力している。つまり、基準マイクロホン11−1及び11−2は、Rチャンネル信号及びLチャンネル信号を分離して収音している。
レベル算出手段12−1は、実収録信号x1(n)を入力とし、実収録信号x1(n)のパワレベルである実収録信号パワPx1(n)を算出する。レベル算出手段12−1は、算出した実収録信号パワPx1(n)を、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。レベル算出手段12−2は、実収録信号x2(n)を入力とし、実収録信号x2(n)のパワレベルである実収録信号パワPx2(n)を算出する。レベル算出手段12−2は、算出した実収録信号パワPx2(n)を、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。
基準レベル算出手段13−1は、基準信号s1(n)を入力とし、基準信号s1(n)のパワレベルである基準信号パワPs1(n)を算出する。基準レベル算出手段13−1は、算出した基準信号パワPs1(n)を、ミキシング係数算出手段14−1へ出力する。基準レベル算出手段13−2は、基準信号s2(n)を入力とし、基準信号s2(n)のパワレベルである基準信号パワPs2(n)を算出する。基準レベル算出手段13−2は、算出した基準信号パワPs2(n)を、ミキシング係数算出手段14−2へ出力する。以下、特に断りがない限り、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定される、収音した信号のレベルを平均するための時間区間は短時間であるとし、時間平均パワを算出するとする。
ミキシング係数算出手段14−1は、基準信号パワPs1(n)と、実収録信号パワPx1(n)及びPx2(n)とを入力とする。ミキシング係数算出手段14−1は、実収録信号パワPx1(n)及びPx2(n)を用いて基準信号パワPs1(n)を擬似的に再現するように、実収録信号パワPx1(n)及びPx2(n)のミキシング係数(A11、A12)を算出する。ミキシング係数算出手段14−1は、算出したミキシング係数を信号算出手段15へ出力する。ミキシング係数算出手段14−2は、基準信号パワPs2(n)と、実収録信号パワPx1(n)及びPx2(n)とを入力とする。ミキシング係数算出手段14−2は、実収録信号パワPx1(n)及びPx2(n)を用いて基準信号パワPs2(n)を擬似的に再現するように、実収録信号パワPx1(n)及びPx2(n)のミキシング係数(A21、A22)を算出する。ミキシング係数算出手段14−2は、算出したミキシング係数を信号算出手段15へ出力する。
信号算出手段15は、ミキシング係数(A11、A12、A21、A22)と実収録信号x1(n)及びx2(n)とを入力とする。信号算出手段15は、式(1)に従って、Rチャンネル信号(Rch)である出力信号y1(n)と、Lチャンネル信号(Lch)である出力信号y2(n)とを算出する。信号算出手段15は、通信網7を介して、算出した出力信号y1(n)を出力先のスピーカ6a−2へ送信し、算出したy2(n)を送信先の6a−1へ送信する。
次に、本発明の概念について説明する。基準マイクロホン11−1及び11−2は、Rチャンネル信号及びLチャンネル信号を分離して収音することができる。しかしながら、基準マイクロホン11−1及び11−2は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で固定的に配置される必要がある。このため、話者2−1及び2−2は、基準マイクロホン11−1及び11−2の配置位置を自由に変更することができない。一方、実収録マイクロホン10−1及び10−2は、話者2−1及び2−2によって配置位置が自由に変更され得る。しかしながら、配置位置を自由に変更され得るがために、実収録マイクロホン10−1及び10−2は、Rチャンネル信号及びLチャンネル信号を分離して収音することができない。そこで、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することを可能にするために、本発明では、基準マイクロホン11−1及び11−2において収音された音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2において収音された実収録信号を用いて擬似的に再現している。以下、この再現方法について図4を参照しながら詳細に説明する。図4は、話者2−1及び2−2の音声の伝達経路を模擬的に示した図である。
図4において、V1(n)、V2(n)は、それぞれ、話者2−1及び2−2の音声である音声信号である。話者2−1の音声信号V1(n)は、音響空間を経て、減衰しながら基準マイクロホン11−1及び11−2に到達する。このとき、話者2−1から基準マイクロホン11−1までの間の減衰係数をD11とし、話者2−1から基準マイクロホン11−2までの間の減衰係数をD12とする。話者2−2の音声信号V2(n)は、音響空間を経て、減衰しながら基準マイクロホン11−1及び11−2に到達する。このとき、話者2−2から基準マイクロホン11−1までの間の減衰係数をD21とし、話者2−2から基準マイクロホン11−2までの間の減衰係数をD22とする。また、話者2−1の音声信号V1(n)は、音響空間を経て、減衰しながら実収録マイクロホン10−1及び10−2に到達する。このとき、話者2−1から実収録マイクロホン10−1までの間の減衰係数をC11とし、話者2−1から実収録マイクロホン10−2までの間の減衰係数をC12とする。話者2−2の音声信号V2(n)は、音響空間を経て、減衰しながら実収録マイクロホン10−1及び10−2に到達する。このとき、話者2−2から実収録マイクロホン10−1までの間の減衰係数をC21とし、話者2−2から実収録マイクロホン10−2までの間の減衰係数をC22とする。なお、話者2−1の音声信号V1(n)の短時間平均パワをPV1(n)とし、話者2−2の音声信号V2(n)の短時間平均パワをPV2(n)とする。
ここで、話者2−1の音声信号V1(n)と、話者2−2の音声信号V2(n)とは無相関である。このことから、音声信号V1(n)及びV2(n)を混合した混合信号の短時間平均パワと、音声信号V1(n)の短時間平均パワPV1(n)及び音声信号V2(n)の短時間平均パワPV2(n)の和とが、等しくなるといえる。したがって、基準マイクロホン11−1及び11−2の基準信号パワPs1(n)及びPs2(n)は、式(2)のように表せる。ただし、話者2−1及び2−2の音声以外の騒音がないものとする。
同様に、実収録マイクロホン10−1及び10−2の実収録信号パワPx1(n)及びPx2(n)は、式(3)のように表せる。
式(2)及び(3)から、PV1(n)及びPV2(n)を消去すると、式(4)が得られる。
さらに、B11、B12、B21、B22は、行列式を用いて式(5)で求められる。
上式(4)は、Rチャンネル信号である基準信号パワPs1(n)が、実収録信号パワPx1(n)に係数B11を乗算したものと、実収録信号パワPx2(n)に係数B12を乗算したものとを線形結合したものに置換できることを表している。また上式(4)は、Lチャンネル信号である基準信号パワPs2(n)が、実収録信号パワPx1(n)に係数B21を乗算したものと、実収録信号パワPx2(n)に係数B22を乗算したものとを線形結合したものに置換できることを表している。したがって、これらの係数B11、B12、B21、B22を上式(1)の係数A11、A12、A21、A22として用いることにより、基準マイクロホン11−1及び11−2からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2からの実収録信号を用いて擬似的に再現することができる。その結果、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するRチャンネル信号及びLチャンネル信号を生成することができる。
次に、以上に説明した本発明の概念を実現するための、ミキシング係数算出手段14−1及び14−2の処理、信号算出手段15の処理について具体的に説明する。
ミキシング係数算出手段14−1は、入力される基準信号パワPs1(n)と実収録信号パワPx1(n)及びPx2(n)とを用いて、上式(4)を満たすような係数B11及びB12を算出する。ここで、基準信号パワPs1(n)は、上式(4)より、実収録信号パワPx1(n)に係数B11を乗算したものと、実収録信号パワPx2(n)に係数B12を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワPs1(n)(n=...n−1、n、n+1、...)と、時系列の実収録信号パワPx1(n)及びPx2(n)とを入力として、係数乗算後の実収録信号パワPx1(n)及びPx2(n)のパワレベルの総和を基準信号パワPs1(n)のパワレベルに等化させるための係数B11及びB12を算出することができる。ミキシング係数算出手段14−1は、算出したB11を上式(1)のA11とし、算出したB12を上式(1)のA12として、信号算出手段15へ出力する。同様に、ミキシング係数算出手段14−2は、入力される基準信号パワPs2(n)と実収録信号パワPx1(n)及びPx2(n)とを用いて、上式(4)を満たすような係数B21及びB22を算出する。ここで、基準信号パワPs2(n)は、上式(4)より、実収録信号パワPx1(n)に係数B21を乗算したものと、実収録信号パワPx2(n)に係数B22を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワPs2(n)(n=...n−1、n、n+1、...)と、時系列の実収録信号パワPx1(n)及びPx2(n)とを入力として、係数乗算後の実収録信号パワPx1(n)及びPx2(n)のパワレベルの総和を基準信号パワPs2(n)のパワレベルに等化させるための係数B21及びB22を算出することができる。ミキシング係数算出手段14−2は、算出したB21を上式(1)のA21とし、算出したB22を上式(1)のA22として、信号算出手段15へ出力する。
なお、上述した適応等化アルゴリズムとしては、例えば逐次更新を行うLMSや、統計情報を利用して逐次更新を行う主成分分析、同じく統計情報を利用して逐次更新を行う独立成分分析等を利用することが可能である。例えば、適応等化アルゴリズムとしてLMSを利用した場合のミキシング係数算出手段14−1の処理について説明する。推定誤差をe(n)とおくと、推定誤差e(n)は式(6)のようになる。
また、推定する係数ベクトルをB(n)=[1、B11(n)、B12(n)]とおき、入力信号をX(n)=[Ps1(n)、Px1(n)、Px2(n)]とおき、ステップサイズをμとおくと、推定する係数ベクトルB(n)は、式(7)に従って逐次更新される。
ミキシング係数算出手段14−1が、式(7)に従って推定誤差e(n)が最小となるまで係数ベクトルを逐次更新したとき、当該係数ベクトルに含まれる係数B11及びB12は、上式(4)を満たす係数B11及びB12となる。なお、ミキシング係数算出手段14−1は、さらに、時間サンプル(n)毎に推定した係数B11、B12、B21、B22を所定の時間サンプル数で平均し、平均した係数B11、B12、B21、B22を徐々に更新するようにしてもよい。
次に、図5を用いて、信号算出手段15の処理について説明する。図5は、信号算出手段15の具体的な構成を示した図である。図5において、信号算出手段15は、可変ゲイン器151〜154、加算器155及び156により構成される。可変ゲイン器151〜154は、ゲインが可変な増幅器である。可変ゲイン器151は、ミキシング係数算出手段14−1から出力される係数A11をゲインに設定して、実収録信号x1(n)をA11倍に増幅する。可変ゲイン器152は、ミキシング係数算出手段14−1から出力される係数A12をゲインに設定して、実収録信号x2(n)をA12倍に増幅する。加算器155は、可変ゲイン器151からのA11倍に増幅された実収録信号x1(n)と、可変ゲイン器152からのA12倍に増幅された実収録信号x2(n)と加算して、Rチャンネル信号である出力信号y1(n)を算出する。同様に、可変ゲイン器153は、ミキシング係数算出手段14−2から出力される係数A21をゲインに設定して、実収録信号x1(n)をA21倍に増幅する。可変ゲイン器154は、ミキシング係数算出手段14−2から出力される係数A22をゲインに設定して、実収録信号x2(n)をA22倍に増幅する。加算器156は、可変ゲイン器153からのA21倍に増幅された実収録信号x1(n)と、可変ゲイン器154からのA22倍に増幅された実収録信号x2(n)と加算して、Lチャンネル信号である出力信号y2(n)を算出する。
以上のように、本実施形態によれば、基準マイクロホン11−1及び11−2からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン10−1及び10−2からの実収録信号を用いて擬似的に再現している。これにより、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するRチャンネル信号及びLチャンネル信号を生成することができる。その結果、上述した従来技術のように、マイクロホンの現在位置の情報を処理に用いることによって生じる種々の問題は生じない。
また、本実施形態によれば、実収録マイクロホン10−1及び10−2は配置位置が自由であるため、図1に示したように、実収録マイクロホン10−1及び10−2を、話者2−1及び2−2の近傍に配置することもできる。このため、各実収録信号の信号対ノイズ比(以下、S/Nと呼ぶ)が良好なものになり、良好なS/N比を有するマルチチャンネル信号を生成することができる。
なお、上述では、実収録マイクロホン10−1の配置位置を話者2−1の前方近傍とし、実収録マイクロホン10−2の配置位置を話者2−2の前方近傍としていたが、どのような位置にしてもよい。なお、良好なS/N比を有するマルチチャンネル信号を生成する場合には、実収録マイクロホン10−1及び10−2を、可能な限り話者2−1及び2−2に近い位置に配置すればよい。また、基準マイクロホン11−1及び11−2のみで構成されていた上記従来よりも良好なS/Nを有するマルチチャンネル信号を生成する場合には、実収録マイクロホン10−1及び10−2を、基準マイクロホン11−1及び11−2よりも話者2−1及び2−2(音源側)に近い位置に配置すればよい。このように配置することで、実収録マイクロホン10−1及び10−2からの音声信号x1(n)、x2(n)は、基準マイクロホン11−1及び11−2からの音声信号s1(n)、s2(n)よりも、S/Nが良い信号となる。また、実収録マイクロホン10−1及び10−2は、無指向性のマイクロホンで構成されてもよいし、指向性を有するマイクロホンで構成されてもよい。また、実収録マイクロホン10−1及び10−2が指向性を有するマイクロホンで構成される場合、実収録マイクロホン10−1及び10−2は、指向性の主軸が互いに異なる方向を向くように1カ所に集中して配置されてもよい。
なお、上述では、レベル算出手段12−1及び12−2と、基準レベル算出手段13−1及び13−2が、入力される信号のパワレベルをそれぞれ算出するとしたが、これに限定されない。レベル算出手段12−1及び12−2と、基準レベル算出手段13−1及び13−2は、入力される信号の振幅レベルをそれぞれ算出してもよい。
なお、基準マイクロホン11−1及び11−2に関し、図3に示した指向性の主軸の開き角は0度でなければよく、180度に限ったものではない。また、基準マイクロホン11−1及び11−2それぞれは、単一指向性を有するマイクロホンで構成されるとしたが、これに限定されない。基準マイクロホン11−1及び11−2それぞれは、無指向性を有するマイクロホンを信号処理して単一指向性を形成する構成であってもよい。
なお、図3では、基準マイクロホン11−1及び11−2は、互いに異なる位置に配置されていたが、これに限定されない。基準マイクロホン11−1及び11−2は、指向性の主軸が各チャンネルに応じた方向を向きつつも、同じ位置に配置されてもよい。この場合であっても、図3のように配置した場合と同様の効果が得られる。また、基準マイクロホン11−1及び11−2は、図7に示すように、カメラ5に直接に取り付けられてもよい。図7は、基準マイクロホン11−1及び11−2がカメラ5に直接に取り付けられた様子を示す図である。この場合、カメラ5がターンして撮像エリアが変化しても、送信先に送信する映像と、基準マイクロホン11−1及び11−2が収音する方向とに差が生じなくなる。その結果、常に映像と話者の位置とが一致したマルチチャンネル信号を得ることができる。また、話者2−1又は2−2が会議システムをセッティングするとき、基準マイクロホン11−1及び11−2とカメラ5とを個別に設置する必要がなくなる。このため、より簡単な設置が可能となり、生成されるマルチチャンネル信号の音質がセッティング次第で変わってしまうことを防ぐことができる。
なお、図3では、基準マイクロホン11−1及び11−2が指向性を有するマイクロホンで構成されていたが、これに限定されない。基準マイクロホン11−1及び11−2を無指向性のマイクロホンで構成し、図6のように配置するようにしてもよい。図6は、無指向性のマイクロホンで構成した場合の基準マイクロホン11−1及び11−2の配置例を示す図である。図6では、無指向性のマイクロホンで構成された基準マイクロホン11−1を11a−1と付し、無指向性のマイクロホンで構成された基準マイクロホン11−2を11a−2と付している。例えば、基準マイクロホン11a−2と話者2−2との距離をdとおく。この場合において、基準マイクロホン11a−1が、図6に示すように、基準マイクロホン11a−2及び話者2−2の位置との関係において、直角三角形を形成する位置に配置されるとする。このとき、より望ましくは、基準マイクロホン11a−1は、話者2−1との距離が2dとなる位置に配置されるとよい。これにより、基準マイクロホン11a−1で収音される話者2−2の音声のレベルと、基準マイクロホン11a−2で収音される話者2−2の音声のレベルとの間には、6dBのレベル差が生じることになる。このため、図3のように配置した場合と同様以上の効果が得られる。なお、音像定位を明確に実現するマルチチャンネル信号を収音するには、基準マイクロホン11a−1は、少なくとも話者2−1との距離が1.4dとなる位置に配置される必要がある。また、基準マイクロホン11−1及び11−2は、アレイ処理によりRチャンネル及びLチャンネルの2方向からの音を収音可能にした4つの無指向性のマイクロホンで構成されてもよい。このように1つの基準マイクロホンを、複数のマイクロホンで構成することもできる。
なお、上述では、基準マイクロホン11−1及び11−2と実収録マイクロホン10−1及び10−2とでは設置場所が異なっていた。このため、実際には、基準マイクロホン11−1及び11−2、実収録マイクロホン10−1及び10−2それぞれにおいて話者2−1及び2−2を収音するタイミングが、必ずしも一致するとは限らない。このため、ミキシング係数算出手段14−1及び14−2で推定されるミキシング係数(B11、B12、B21、B22)が上式(4)を満足する係数にならない場合がある。そこで、これらのタイミングの不一致を吸収できるように、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定された、収音した信号のレベルを平均するための時間区間を調整する。具体的には、レベル算出手段12−1及び12−2、基準レベル算出手段13−1及び13−2それぞれに設定される時間区間を、基準マイクロホン11−1又は基準マイクロホン11−2から話者2−1又は話者2−2までの距離のうちの最大となる距離と、実収録マイクロホン10−1又は実収録マイクロホン10−2から話者2−1又は話者2−2までの距離のうちの最小となる距離との差に応じた時間区間に設定する。ここで、実用上、基準マイクロホン11−1及び11−2は、話者2−1及び2−2から2〜4m離れた場所に設置され、実収録マイクロホン10−1及び10−2は、話者2−1及び2−2から50cm離れた場所に設置されることが多い。この場合、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差は、1.5〜3.5mとなる。音波は、距離1m伝搬するのに約3msecかかるので、音波が例えば3.5m伝搬するのに、約11msecかかる。このため、この場合においては、平均する時間区間を11msec以上に調整する必要がある。このように、タイミングの不一致を吸収できるように時間区間を調整することで、ミキシング係数算出手段14−1及び14−2で推定されるミキシング係数の精度を高めることができる。なお、基準マイクロホン及び実収録マイクロホンの音圧レベルを監視して、基準マイクロホン及び実収録マイクロホンの位置関係を把握することで、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差を求めることができる。
なお、上述では、マルチチャンネル信号としてRチャンネル信号とLチャンネル信号が生成されるとし、基準マイクロホンを2つ設けていたが、これに限定されない。例えば、C(センター)チャンネル信号をさらに生成するとし、基準マイクロホンを計3つ設けてもよい。このように、基準マイクロホンは、チャンネル数に応じて設けられる。なお、チャンネル数がN(Nは自然数)である場合、図2に示した構成において、基準レベル算出手段及びミキシング係数算出手段それぞれがN個設けられることになる。
なお、上述では、実収録マイクロホンを2つ設けていたが、これに限定されない。実収録マイクロホンを、1つだけ設けてもよいし、3つ以上設けてもよい。なお、実収録マイクロホンがM(Mは自然数)個設けられた場合、図2に示した構成おいて、レベル算出手段がM個設けられ、M個のレベル算出手段それぞれからミキシング係数算出手段へ実収録信号が出力されることになる。そして、ミキシング係数算出手段では、M個の係数を算出する。例えばM=1のとき、ミキシング係数算出手段14−1は係数A11のみを算出し、ミキシング係数算出手段14−2は係数A21のみを算出する。実収録マイクロホンを多数設ける程、信号算出手段15において生成されるマルチチャンネル信号が実現する音像をより明確にすることができるとともに、S/Nの良い実収録信号が収音可能な収音エリアも拡大できる。
(実施の形態2)
図8を参照して、本発明の実施の形態2に係る収音装置について説明する。図8は、実施の形態2に係る収音装置1bの構成を示した図である。図8に示した収音装置1bは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1bは、図1に示した収音装置1に対して、帯域抽出手段20−1及び20−2、基準帯域抽出手段21−1及び21−2が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。
帯域抽出手段20−1は、実収録マイクロホン10−1からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段12−1へ出力する。同様に、帯域抽出手段20−2は、実収録マイクロホン10−2からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段12−2へ出力する。また、基準帯域抽出手段21−1は、基準マイクロホン11−1からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段13−1へ出力する。同様に、基準帯域抽出手段21−2は、基準マイクロホン11−2からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段13−2へ出力する。
帯域抽出手段20−1及び20−2、基準帯域抽出手段21−1及び21−2それぞれに設定される所定の周波数帯域は、全て同じである。所定の周波数帯域には、例えば、話者2−1及び2−2の音声帯域であって、比較的室内騒音の低い帯域(例えば、1kHz〜4kHz)を用いる。また、所定の周波数帯域として例えば、基準マイクロホン11−1及び11−2、実収録マイクロホン10−1及び10−2それぞれが有する指向特性(指向性の周波数特性)を考慮して求められる帯域であってもよい。具体的には、全てのマイクロホンに対して、指向性が安定して得られる帯域とする。以上のような所定の周波数帯域を用いることで、ミキシング係数算出手段14−1及び14−2に入力される基準信号及び実収録信号に含まれる、話者2−1及び2−2の音声以外の騒音を減少させることができる。
以上のように、本実施の形態によれば、ミキシング係数算出手段14−1及び14−2に入力される基準信号及び実収録信号に含まれる、話者2−1及び2−2の音声以外の騒音を減少させることができる。これにより、ミキシング係数算出手段14−1及び14−2で算出するミキシング係数の精度が向上し、より明確な音像定位を実現するマルチチャンネル信号を生成することができる。
(実施の形態3)
図9を参照して、本発明の実施の形態3に係る収音装置について説明する。図9は、実施の形態3に係る収音装置1cの構成を示した図である。図9に示した収音装置1cは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1cは、図1に示した収音装置1に対して、判定手段30が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。
図1に示したように、話者2−1及び2−2は、実収録マイクロホン10−1及び10−2の近くに存在する。このため、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)の方が、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)よりも大きくなる。しかしながら、基準マイクロホン11−1及び11−2の近くに騒音源が存在する場合、あるいは、話者2−1及び2−2が発声していない状況において、基準マイクロホン11−1及び11−2に対して話者2−1及び2−2と反対方向から音が到来する場合などでは、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)の方が、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)よりも大きくなる。このような場合には、ミキシング係数算出手段14−1及び14−2において推定されるミキシング係数の精度が低下するので、ミキシング係数を更新しない方がよい。
具体的には、判定手段30は、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)と、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)とを入力とする。判定手段30は、入力された基準信号パワPs1(n)及びPs2(n)のうちの最大のレベルが、入力された実収録信号パワPx1(n)及びPx2(n)のうちの最大のレベルよりも大きいか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段30において、基準信号パワの最大のレベルが実収録信号パワの最大のレベルよりも大きいと判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、話者2−1及び2−2の音声以外の音によって、ミキシング係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、判定手段30は、入力された基準信号パワPs1(n)及びPs2(n)の総和が、入力された実収録信号パワPx1(n)及びPx2(n)の総和よりも大きいか否かを、時間サンプル(n)毎に逐次判定するようにしてもよい。このとき、判定手段30において、基準信号パワの総和が実収録信号パワの総和よりも大きいと判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。これにより、判定手段30が最大レベルを用いて判定する場合と同様の効果が得られる。
なお、判定手段30は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。
(実施の形態4)
図10を参照して、本発明の実施の形態4に係る収音装置について説明する。図10は、実施の形態4に係る収音装置1dの構成を示した図である。図10に示した収音装置1dは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1dは、図9に示した収音装置1cに対して、判定手段30が判定手段40に入れ代わった点のみ異なる。以下、異なる点を中心に説明する。
判定手段40は、基準レベル算出手段13−1及び13−2が算出した基準信号パワPs1(n)及びPs2(n)と、レベル算出手段12−1及び12−2が算出した実収録信号パワPx1(n)及びPx2(n)とを入力とする。判定手段40は、入力された基準信号パワPs1(n)及びPs2(n)と、実収録信号パワPx1(n)及びPx2(n)とに基づいて、話者2−1又は2−2が音声を発しているか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段40において話者2−1又は2−2が音声を発していると判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、話者2−1及び2−2の音声以外の音によって、ミキシング係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、話者2−1又は2−2が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワPs1(n)及びPs2(n)、実収録信号パワPx1(n)及びPx2(n)の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段40は、所定のレベル以上である場合、話者2−1又は2−2が音声を発している判定する。ここで、実収録マイクロホン10−1及び10−2は、基準マイクロホン11−1及び11−2と比べて話者2−1及び2−2に近い位置に配置される。このため、基準信号と実収録信号とでS/Nが異なる。これを踏まえ、例えば、判定手段40が、基準マイクロホン11−1及び11−2の組に対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン10−1及び10−2の組に対して、所定のレベル以上であるか否かを判定するようにしてもよい。また例えば、判定手段40が、基準マイクロホン11−1及び11−2それぞれに対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン10−1及び10−2それぞれに対して、所定のレベル以上であるか否かを判定するようにしてもよい。さらに、この場合において、上記4つの判定結果を統合することにより、最終的な判定が行われてもよい。例えば、上記4つの判定結果のうち、3つ以上が所定のレベル以上であると判定された場合に、最終的な判定結果として所定のレベル以上であると判定されるようにする。
なお、話者2−1又は2−2が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワPs1(n)及びPs2(n)、実収録信号パワPx1(n)及びPx2(n)の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。周囲雑音は定常的であるため、周囲騒音のレベルの変動幅は、話者2−1又は2−2の音声と比べて小さい。したがって、判定手段40は、所定の変動幅を超えて変動した場合、話者2−1又は2−2が音声を発している判定する。
なお、判定手段40は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。
(実施の形態5)
図11を参照して、本発明の実施の形態5に係る収音装置について説明する。図11は、実施の形態5に係る収音装置1eの構成を示した図である。図11に示した収音装置1eは、図1及び図2に示した収音装置1に入れ代わるように配置される。なお、図11では、説明の都合上、図2に示したスピーカ6−1及び6−2、通信網7を図示している。また、収音装置1eは、図1に示した収音装置1に対して、判定手段50が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
判定手段50は、通信網7を介してスピーカ6−1及び6−2に入力される送信先のマルチチャンネル信号を入力とする。判定手段50は、入力されたマルチチャンネル信号に基づいて、送信先の話者が音声を発しているか否かを、時間サンプル(n)毎に逐次判定する。そして、判定手段50において送信先の話者が音声を発していると判定されたときのみ、ミキシング係数算出手段14−1及び14−2は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段15は、ミキシング係数算出手段14−1及び14−2において過去に算出された係数を用いて、マルチチャンネル信号を算出する。
以上のように、本実施の形態によれば、ミキシング係数算出手段14−1及び14−2が、送信先の話者が音声を発しているか否かに基づいて係数の逐次更新を停止する。ここで、スピーカ6−1及び6−2から出力される送信先の話者の音声は、話者2−1及び2−2の音声以外の音である。このため、実施の形態4と同様、送信先の話者が音声を発しているときに係数の逐次更新を停止させることで、係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、送信先の話者が音声を発しているか否かを判定する具体的な方法として例えば、スピーカ6−1及び6−2に入力される送信先のマルチチャンネル信号の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段50は、所定のレベル以上である場合、送信先の話者が音声を発している判定する。また、送信先のマルチチャンネル信号の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。送信先の周囲雑音は定常的であるため、送信先の周囲騒音のレベルの変動幅は、送信先の話者の音声と比べて小さい。したがって、判定手段50は、所定の変動幅を超えて変動した場合、送信先の話者が音声を発している判定する。
なお、判定手段50は、送信先のマルチチャンネル信号のパワレベルを用いて判定してもよいし、送信先のマルチチャンネル信号の振幅レベルを用いて判定してもよい。
(実施の形態6)
図12を参照して、本発明の実施の形態6に係る収音装置について説明する。図12は、実施の形態6に係る収音装置1fの構成を示した図である。図12に示した収音装置1fは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1fは、図1に示した収音装置1に対して、定常信号抑圧手段60−1及び60−2と、基準定常信号抑圧手段61−1及び61−2が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
基準マイクロホン11−1及び11−2は、カメラ5あるいはモニター4に設置され、話者2−1及び2−2からある程度遠く離れた位置に配置される。このため、定常的な周囲雑音の影響によって、基準信号のS/Nが悪くなる。また、実収録マイクロホン10−1及び10−2は、プロジェクタ(図示なし)等の雑音源付近に設置される場合がある。この場合において、実収録信号のS/Nが悪くなってしまう。このため、ミキシング係数算出手段14−1及び14−2の演算処理において、算出するミキシング係数がこの周囲雑音の影響を受けてしまう。そこで、定常信号抑圧手段60−1及び60−2と、基準定常信号抑圧手段61−1及び61−2を用いて、周囲雑音の影響を小さくする。
具体的には、定常信号抑圧手段60−1は、レベル算出手段12−1からの実収録信号パワPx1(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。同様に、定常信号抑圧手段60−2は、レベル算出手段12−2からの実収録信号パワPx2(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1及び14−2それぞれへ出力する。また、基準定常信号抑圧手段61−1は、基準レベル算出手段13−1からの基準信号パワPs1(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−1へ出力する。同様に、基準定常信号抑圧手段61−2は、基準レベル算出手段13−2からの基準信号パワPs2(n)から、定常的な雑音信号を減算して、ミキシング係数算出手段14−2へ出力する。
以上のように、本実施の形態によれば、周囲雑音の影響が小さくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。
なお、定常的な雑音信号を減算する具体的な方法として例えば、所定のレベルを減算する方法がある。また、レベル算出手段12−1及び12−2からの実収録信号パワPx1(n)及びPx2(n)、基準レベル算出手段13−1及び13−2からの基準信号パワPs1(n)及びPs2(n)を監視することによって変動幅が小さいレベルを特定し、特定したレベルを減算する方法もある。
(実施の形態7)
図13を参照して、本発明の実施の形態7に係る収音装置について説明する。図13は、実施の形態7に係る収音装置1gの構成を示した図である。図13に示した収音装置1gは、図1及び図2に示した収音装置1に入れ代わるように配置される。また、収音装置1gは、図1に示した収音装置1に対して、混合手段16が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。
基準マイクロホン11−1及び11−2の出力信号は、実収録マイクロホン10−1及び10−2の係数算出に使用するのみである。しかし、実収録マイクロホン10−1、10−2の設置が困難であり話者近辺に設置できない場合、または遠くの話者を収音する用途として補助的に使用するような場合、実収録マイクロホンで全ての収音エリアをカバーすることができない。そこで基準マイクロホンの出力信号を混合することにより上記問題を緩和することが可能となる。
具体的に混合手段16では、信号算出手段15の出力信号y1(n)及びy2(n)に、基準マイクロホン11−1及び11−2の出力であるs1(n)及びs2(n)をそれぞれLch信号同士、Rch信号同士を加算し、出力信号y´1(n)及びy´2(n)を出力する。
以上のように、本実施の形態によれば、基準マイクロホン信号を出力信号に混合することにより、実収録マイクロホンによる収音効果が低い場合においても、音像定位を保ったマルチチャンネル収音が可能となる。
なお、上述した実施の形態1〜7で説明した収音装置は、一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した処理をコンピュータに実行させる収音プログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納された収音プログラムをコンピュータが読み出して実行することによって、実施の形態1〜7で説明した収音装置が実現される。また、上記収音プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、上記収音プログラムを他の媒体あるいは通信回線を通じて上記情報処理装置に供給してもかまわない。
なお、上述した実施の形態1〜7で説明した収音装置の各構成要素の一部又は全部は、LSIなどの集積回路や、専用の信号処理回路を用いて1チップ化したものによって実現されてもよい。また上述した実施の形態1〜7で説明した収音装置は、上記各構成要素の機能に相当するものをそれぞれチップ化したものによって実現されてもよい。なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また集積回路化の手法は、LSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。
本発明に係る収音装置は、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能であり、ハンズフリー機能を有する機器や、テレビ等の放送機器、テレビ会議システム、音声のみの会議システム等に利用される。
1、1a〜1g、9、9a 収音装置
2−1、2−2 話者
3 テーブル
4、4a モニター
5、5a カメラ
6−1、6−2、6a−1、6b−2 スピーカ
7 通信網
10−1、10−2 実収録マイクロホン
11−1、11a−1、11−2、11a−2 基準マイクロホン
12−1、12−2 レベル算出手段
13−1、13−2 基準レベル算出手段
14−1、14−2 ミキシング係数算出手段
15 信号算出手段
16 混合手段
151〜154 可変ゲイン器
155、156 加算器
20−1、20−2 帯域抽出手段
21−1、21−2 基準帯域抽出手段
30、40、50 判定手段
60−1、60−2 定常信号抑圧手段
61−1、61−2 基準定常信号抑圧手段
90−1、90−2 マイクロホン
91 マイクロホン位置測定手段
92 係数算出手段
93 マイクロホン検出手段
94 信号算出手段