JPWO2009075085A1

JPWO2009075085A1 - 収音装置、収音方法、収音プログラム、および集積回路

Info

Publication number: JPWO2009075085A1
Application number: JP2009545342A
Authority: JP
Inventors: 慎一杠; 丈郎金森
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-12-10
Filing date: 2008-12-05
Publication date: 2011-04-28
Anticipated expiration: 2028-12-05
Also published as: EP2242286A4; EP2242286B1; US20100266139A1; CN101897199A; CN101897199B; JP5259622B2; EP2242286A1; WO2009075085A1; US8249269B2

Abstract

自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供する。本発明に係る収音装置は、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成手段とを備える。

Description

本発明は、収音装置、収音方法、収音プログラム、および集積回路に関し、より特定的には、複数のマイクロホンを用いてマルチチャンネル信号を生成する収音装置、収音方法、収音プログラム、および集積回路に関するものである。

従来より、テレビ会議システムなどの音響システムでは、送信元の音源（例えば話者など）の位置を送信先において再現する（音像定位を実現する）複数のチャンネルの信号（マルチチャンネル信号）を、複数のマイクロホンを用いて生成する収音装置が用いられていた。

このような収音装置では、複数のマイクロホンは、各チャンネルに対応して設けられている。また、複数のマイクロホンは、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、１カ所に集中して固定的に設置される。これらにより、上記収音装置は、各収音信号を、音像定位を実現するマルチチャンネル信号として生成することができる。生成されたマルチチャンネル信号は、通信網を介して送信先の複数のスピーカへ送信される。これにより、送信先でマルチチャンネルの音が再生され、送信先において送信元の話者の位置が再現される。

ここで、音像定位を実現するマルチチャンネル信号を生成するには、複数のマイクロホンが、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、固定的に設置される必要がある。このため、上記収音装置では、話者は、複数のマイクロホンの配置位置を自由に変更することができなかった。

そこで、上記課題を解決するために、図１４及び図１５に示すような収音装置９が提案されている（例えば、特許文献１など）。図１４は、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図１５は、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図１４及び図１５の例では、マルチチャンネル信号として、Ｒチャンネル信号とＬチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。

マイクロホン９０−１は、話者２−１の前方近傍に配置されるようにテーブル３上に設置される。マイクロホン９０−２は、話者２−２の前方近傍に配置されるようにテーブル３上に設置される。モニター４は、送信先のカメラ５ａを用いて撮影された映像を表示するための装置であり、話者２−１及び２−２の前方に設置される。送信先の映像は、通信網７を介してモニター４に入力される。カメラ５は、送信元の話者２−１及び２−２を撮影するための装置であり、モニター４の上部に設置される。送信元の映像は、通信網７を介して送信先のモニター４ａへ送信される。スピーカ６−１及び６−２は、送信先の収音装置９ａから通信網７を介して入力されたＬチャンネル信号（Ｌｃｈ）及びＲチャンネル信号（Ｒｃｈ）を再生するための装置であり、モニター４の両側にそれぞれ設置される。送信先のスピーカ６ａ−１は、図示していないが、送信先の話者から見て左側前方に設置され、送信先のスピーカ６ａ−２は、送信先の話者から見て右側前方に設置されている。

収音装置９は、送信元に設置され、収音装置９ａは、送信先に設置される。収音装置９ａは、収音装置９と同じ回路構成を有するため、ここでは説明を省略する。収音装置９は、マイクロホン９０−１及び９０−２、マイクロホン位置測定手段９１、係数算出手段９２、マイクロホン検出手段９３、及び信号算出手段９４により構成される。以下、収音装置９の各構成要素について具体的に説明する。

マイクロホン位置測定手段９１は、測定信号をスピーカ６−１及び６−２に出力する。その後、マイクロホン位置測定手段９１は、測定信号を出力してから、当該測定信号がマイクロホン９０−１及び９０−２で収音されるまでの時間を遅延時間として算出する。マイクロホン位置測定手段９１は、算出した遅延時間を用いて、マイクロホン９０−１及び９０−２の現在位置を測定する。図１４の例では、マイクロホン９０−１はモニター４から見て右側の位置に配置されるので、当該右側の位置がマイクロホン９０−１の現在位置として測定される。また、マイクロホン９０−２はモニター４から見て左側の位置に配置されるので、当該左側の位置がマイクロホン９０−２の現在位置として測定される。なお、話者がマイクロホン９０−１及び９０−２を自由に移動させることができるように、マイクロホン位置測定手段９１は、マイクロホン９０−１及び９０−２の移動の度に、それらの現在位置を測定している。

係数算出手段９２は、測定されたマイクロホン９０−１及び９０−２の現在位置を元に、音像定位を実現するマルチチャンネル信号が生成されるように、Ｒチャンネル信号に割り当てるレベルとＬチャンネル信号に割り当てるレベルとの比（係数比）を算出する。図１４の例では、測定されたマイクロホン９０−１の現在位置はモニター４から見て右側の位置となる。よって、係数算出手段９２は、マイクロホン９０−１について、例えば（Ｒチャンネル信号：Ｌチャンネル信号）＝（１：０）を係数比として算出する。一方、測定されたマイクロホン９０−２の現在位置はモニター４から見て左側の位置となる。よって、係数算出手段９２は、マイクロホン９０−２について、例えば（Ｒチャンネル信号：Ｌチャンネル信号）＝（０：１）を係数比として算出する。

マイクロホン検出手段９３は、話者２−１及び２−２のいずれかが発言したとき、マイクロホン９０−１及び９０−２からの収音信号のレベルを元に、発言者に最も近いマイクロホンを検出する。例えば、話者２−１が発言したとすると、マイクロホン９０−１からの収音信号のレベルがマイクロホン９０−２からの収音信号のレベルよりも大きくなる。この場合、マイクロホン検出手段９３は、マイクロホン９０−１を、発言者に最も近いマイクロホンとして検出する。その後、係数算出手段９２は、マイクロホン検出手段９３で検出されたマイクロホン９０−１を元に、マイクロホン９０−１について算出した係数比（Ｒチャンネル信号：Ｌチャンネル信号）＝（１：０）を、信号算出手段９４に出力する係数比として決定する。

信号算出手段９４は、決定された係数比に従って、Ｒチャンネル信号及びＬチャンネル信号を算出する。例えば、マイクロホン９０−１について決定された係数比が（Ｒチャンネル信号：Ｌチャンネル信号）＝（１：０）であるとする。この場合、信号算出手段９４は、マイクロホン９０−１及び９０−２の収音信号それぞれに係数１を乗算して加算することで、Ｒチャンネル信号を算出する。一方、信号算出手段９４は、マイクロホン９０−１及び９０−２の収音信号それぞれに係数０を乗算して加算することで、Ｌチャンネル信号を算出する。これにより、Ｒチャンネル信号はマイクロホン９０−１及び９０−２からの収音信号全てが加算された信号となり、Ｌチャンネル信号は無信号となり、音像定位を実現するマルチチャンネル信号が生成される。信号算出手段９４において算出されたＬチャンネル信号（Ｌｃｈ）及びＲチャンネル信号（Ｒｃｈ）は、通信網７を介して、送信先のスピーカ６ａ−１及び６ａ−２へそれぞれ送信される。これにより、送信先では、送信先の話者から見て右側の位置から話者２−１が発言しているように再生される。

このように、図１４及び図１５に示した収音装置９では、マイクロホンの移動の度にその移動後の位置（現在位置）を測定し、測定したマイクロホンの現在位置の情報を用いて、音像定位を実現するマルチチャンネル信号を生成している。このため、話者は、マイクロホンの配置位置を自由に変更することができる。
特開平９−１８２０４４号公報（図１、図２等）

しかしながら、図１４及び図１５に示した収音装置９は、次の課題を有している。（１）収音装置９は、マイクロホンの現在位置の情報を用いた処理を行っているので、マルチチャンネル信号を生成する前（例えば会議開始前）に、マイクロホンの位置を測定する必要がある。（２）収音装置９は、マイクロホンの現在位置の情報を用いた処理を行っているので、会議中に話者がマイクロホンを移動させるなどしてマイクロホンの位置が変わる度に、会議を中断してマイクロホンの位置を測定し直す必要がある。（３）マイクロホンは話者によって自由に移動させられるので、マイクロホンの指向性の主軸が必ずしも話者に向いているとは限らない。したがって、マイクロホン検出手段９３において検出されたマイクロホンが実際には発言者に最も近いものではない場合がある。

それ故、本発明は、上記課題（１）〜（３）を解決する収音装置であって、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することを目的とする。

本発明は、上記目的を達成するためになされたものであり、本発明に係る収音装置は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる収音装置であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段とを備える。

なお、上記信号生成手段は、例えば、後述する実施の形態における、ミキシング係数算出手段（１４−１、１４−２）と信号算出手段（１５）とにより構成される手段である。

上記本発明に係る収音装置において、基準マイクロホンは、各チャンネルに対応して固定的に配置されており、音像定位を実現するチャンネルの信号を表す基準信号をそれぞれ出力する。また、実収録マイクロホンは、移動可能に配置される。そして、信号生成手段は、各基準信号に基づいて実収録信号に所定の演算処理を施すことによって、各チャンネルの信号（マルチチャンネル信号）を生成している。それ故、本発明に係る収音装置によれば、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、マルチチャンネル信号を生成することができ、上記従来の課題（１）〜（３）を解決することができる。

または、本発明に係る収音装置は、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンと、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成手段と、各基準マイクロホンからの基準信号と信号生成手段の各チャンネルの信号を混合し他の場所に設けられた複数のスピーカへ通信網を介して出力する混合手段とを備えてもよい。

好ましくは、実収録マイクロホンは、１つ備えられており、信号生成手段は、実収録信号のレベルを基準マイクロホンからの基準信号のレベルと一致させるために実収録マイクロホンからの実収録信号に乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、実収録マイクロホンからの実収録信号に対して係数算出手段において基準信号毎に算出された係数を１つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。この場合において、実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。

また好ましくは、実収録マイクロホンは、複数備えられており、信号生成手段は、各実収録信号のレベルの総和を基準マイクロホンからの基準信号と一致させるために各実収録マイクロホンからの実収録信号それぞれに乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、各実収録マイクロホンからの実収録信号それぞれに対して係数算出手段において基準信号毎に算出された係数を１つずつ乗算することによって、各チャンネルの信号を算出する信号算出手段とを有するとよい。

この場合において、各実収録マイクロホンは、各基準マイクロホンよりも話者に近い位置に配置されるとよい。さらに、各基準マイクロホンから出力された基準信号のレベルのうちの最大レベルが、各実収録マイクロホンからの実収録信号のレベルのうちの最大のレベルよりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の最大レベルが実収録信号の最大レベルよりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出するとよい。または、各基準マイクロホンから出力された基準信号のレベルの総和が、各実収録マイクロホンからの実収録信号のレベルの総和よりも大きいか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において基準信号の総和が実収録信号の総和よりも大きいと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。

または、各基準マイクロホンから出力された基準信号のレベルと、各実収録マイクロホンから出力された実収録信号のレベルとに基づいて、話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において話者が音声を発していないと判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。

または、他の場所からの各チャンネルの信号のレベルに基づいて、他の場所に存在する話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、係数算出手段は、係数を逐次算出しており、判定手段において他の場所に存在する話者が音声を発していると判定されたとき、係数の算出処理を停止し、信号算出手段は、各チャンネルの信号を逐次算出しており、係数算出手段において係数の算出処理が停止したとき、係数算出手段において過去に算出された係数を用いて各チャンネルの信号を算出してもよい。

または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のレベルを、各基準マイクロホンから話者までの距離のうちの最大距離と各実収録マイクロホンから話者までの距離のうちの最小距離との差に応じた時間区間で平均しながら逐次算出する複数の第１のレベル算出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のレベルを、第１のレベル算出手段と同じ時間区間で平均しながら逐次算出する複数の第２のレベル算出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第１のレベル算出手段からの基準信号と一致させるために各第２のレベル算出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。

または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、話者の音声帯域に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第１の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第１の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第２の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第１の帯域抽出手段からの基準信号と一致させるために各第２の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。

または、各基準マイクロホン及び各実収録マイクロホンは、指向性を有しており、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、各基準マイクロホン及び各実収録マイクロホンの指向特性に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第１の帯域抽出手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、第１の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第２の帯域抽出手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第１の帯域抽出手段からの基準信号と一致させるために各第２の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。

または、複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号から、定常的な雑音信号を減算して出力する複数の第１の定常抑圧手段と、複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号から、定常的な雑音信号を減算して出力する複数の第２の定常抑圧手段とをさらに備え、係数算出手段は、各実収録信号のレベルの総和を第１の定常抑圧手段からの基準信号と一致させるために各第２の定常抑圧手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出してもよい。

また好ましくは、音響システムは、話者を撮影して生成した映像を、他の場所に設置された表示装置へ通信網を介して出力するためのカメラを備えており、各基準マイクロホンは、カメラに固定的に設置されるとよい。

また好ましくは、各基準マイクロホンは、指向性を有しており、指向性の主軸を対応するチャンネルに応じた方向に向けて配置されるとよい。

また好ましくは、各基準マイクロホンは、無指向性であり、互いに異なる位置に配置されるとよい。

また本発明は、収音方法にも向けられており、本発明に係る収音方法は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムにおいて行われる収音方法であって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを含む。

また本発明は、収音プログラムにも向けられており、本発明に係る収音プログラムは、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられるコンピュータに実行させるための収音プログラムであって、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、基準ステップにおいて出力された複数の基準信号に基づいて実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成する信号生成ステップと、信号生成ステップにおいて生成された各チャンネルの信号を、他の場所に設けられた複数のスピーカへ通信網を介して出力する出力ステップとを、コンピュータに実行させるための収音プログラムである。

また本発明は、集積回路にも向けられており、本発明に係る集積回路は、マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる集積回路であって、音響システムは、各チャンネルに対応して固定的に配置され、到来する話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、移動可能に配置され、到来する話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンとを備えており、集積回路は、各基準マイクロホンからの基準信号に基づいて実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、各チャンネルの信号を生成し、当該生成した各チャンネルの信号を他の場所に設けられた複数のスピーカへ通信網を介して出力する信号生成手段を備える。

本発明によれば、マイクロホンの現在位置を処理に用いることなくマイクロホンの配置位置を自由に変更可能にしつつ、音像定位を実現するマルチチャンネル信号を生成することが可能な収音装置を提供することができる。

図１は、実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図２は、実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図３は、基準マイクロホン１１−１及び１１−２の指向性の主軸の開き角を１８０度としたときのポーラパターンを示す図である。図４は、話者２−１及び２−２の音声の伝達経路を模擬的に示した図である。図５は、信号算出手段１５の具体的な構成を示した図である。図６は、無指向性のマイクロホンで構成した場合の基準マイクロホン１１−１及び１１−２の配置例を示す図である。図７は、基準マイクロホン１１−１及び１１−２がカメラ５に直接に取り付けられた様子を示す図である。図８は、実施の形態２に係る収音装置１ｂの構成を示した図である。図９は、実施の形態３に係る収音装置１ｃの構成を示した図である。図１０は、実施の形態４に係る収音装置１ｄの構成を示した図である。図１１は、実施の形態５に係る収音装置１ｅの構成を示した図である。図１２は、実施の形態６に係る収音装置１ｆの構成を示した図である。図１３は、実施の形態７に係る収音装置１ｇの構成を示した図である。図１４は、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図１５は、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。

符号の説明

１、１ａ〜１ｇ、９、９ａ収音装置
２−１、２−２話者
３テーブル
４、４ａモニター
５、５ａカメラ
６−１、６−２、６ａ−１、６ｂ−２スピーカ
７通信網
１０−１、１０−２実収録マイクロホン
１１−１、１１ａ−１、１１−２、１１ａ−２基準マイクロホン
１２−１、１２−２レベル算出手段
１３−１、１３−２基準レベル算出手段
１４−１、１４−２ミキシング係数算出手段
１５信号算出手段
１６混合手段
１５１〜１５４可変ゲイン器
１５５、１５６加算器
２０−１、２０−２帯域抽出手段
２１−１、２１−２基準帯域抽出手段
３０、４０、５０判定手段
６０−１、６０−２定常信号抑圧手段
６１−１、６１−２基準定常信号抑圧手段
９０−１、９０−２マイクロホン
９１マイクロホン位置測定手段
９２係数算出手段
９３マイクロホン検出手段
９４信号算出手段

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１及び図２を参照して、本発明の実施の形態１に係る収音装置について説明する。図１は、実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図である。図２は、実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図である。図１及び図２の例では、マルチチャンネル信号として、Ｒチャンネル信号とＬチャンネル信号が生成されるとし、送信先においてステレオ再生が実現されるとする。

図１において、モニター４は、送信先のカメラ５ａで撮影された映像を表示するための装置であり、話者２−１及び２−２の前方に設置される。送信先の映像は、通信網７を介してモニター４に入力される。カメラ５は、送信元の話者２−１及び２−２を撮影するための装置であり、モニター４の上部に設置される。送信元の映像は、通信網７を介して送信先のモニター４ａに送信される。スピーカ６−１は、モニター４から見て右側（話者２−１及び２−２から見て左側）に配置される。スピーカ６−１は、送信先の収音装置１ａから通信網７を介して入力されたＬチャンネル信号（Ｌｃｈ）を再生する。スピーカ６−２は、モニター４から見て左側（話者２−１及び２−２から見て右側）に配置される。スピーカ６−２は、送信先の収音装置１ａから通信網７を介して入力されたＲチャンネル信号（Ｒｃｈ）を再生する。スピーカ６ａ−１は、図示していないが、モニター４ａから見て右側（送信先の話者から見て左側）に配置される。スピーカ６ａ−１は、送信元の収音装置１から通信網７を介して入力されたＬチャンネル信号（Ｌｃｈ）を再生する。スピーカ６ａ−２は、図示していないが、モニター４ａから見て左側（送信先の話者から見て右側）に配置される。スピーカ６ａ−２は、送信元の収音装置１から通信網７を介して入力されたＲチャンネル信号（Ｒｃｈ）を再生する。

収音装置１は、送信元に配置され、収音装置１ａは、送信先に配置される。収音装置１ａは、収音装置１と同じ回路構成を有するため、ここでは説明を省略する。収音装置１は、実収録マイクロホン１０−１及び１０−２、基準マイクロホン１１−１及び１１−２、レベル算出手段１２−１及び１２−２、基準レベル算出手段１３−１及び１３−２、ミキシング係数算出手段１４−１及び１４−２、及び信号算出手段１５により構成される。以下、収音装置１の構成について詳細に説明する。

実収録マイクロホン１０−１は、話者２−１の前方近傍に配置されるようにテーブル３上に設置される。実収録マイクロホン１０−２は、話者２−２の前方近傍に配置されるようにテーブル３上に設置される。実収録マイクロホン１０−１及び１０−２の配置位置は、話者２−１及び２−２によって自由に変更可能である。実収録マイクロホン１０−１は、到来する音声を収音し、実収録信号ｘ１（ｎ）としてレベル算出手段１２−１へ出力する。実収録マイクロホン１０−２は、到来する音声を収音し、実収録信号ｘ２（ｎ）としてレベル算出手段１２−２へ出力する。なお、ｎは時間サンプルの番号を示す。

基準マイクロホン１１−１は、Ｒチャンネルに対応して設けられ、モニター４の上部に固定的に配置される。基準マイクロホン１１−１は、到来する音声を収音し、Ｒチャンネル信号を表す基準信号ｓ１（ｎ）を基準レベル算出手段１３−１へ出力する。同様に、基準マイクロホン１１−２は、Ｌチャンネルに対応して設けられ、モニター４の上部に固定的に配置される。基準マイクロホン１１−２は、到来する音声を収音し、Ｌチャンネル信号を表す基準信号ｓ２（ｎ）を基準レベル算出手段１３−２へ出力する。基準マイクロホン１１−１及び１１−２は、例えば単一指向性を有するマイクロホンで構成される。この場合、基準マイクロホン１１−１及び１１−２は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で、モニター４の上部に固定的に配置される。より具体的には、基準マイクロホン１１−１の指向性の主軸は、図３に示すように、モニター４から見て右方向（Ｒｃｈ方向）を向いている。基準マイクロホン１１−２の指向性の主軸は、基準マイクロホン１１−１と１８０度反対方向であって、モニター４から見て左方向（Ｌｃｈ方向）を向いている。図３は、基準マイクロホン１１−１及び１１−２の指向性の主軸の開き角を１８０度としたときのポーラパターンを示す図である。図３からわかるように、基準マイクロホン１１−１は、Ｒｃｈ方向から到来する音を、Ｌｃｈ方向から到来する音よりも大きなレベルで収音する。一方、基準マイクロホン１１−２は、Ｌｃｈ方向から到来する音を、Ｒｃｈ方向から到来する音よりも大きなレベルで収音する。したがって、例えば図１に示した話者２−１の位置から音声が到来した場合、基準マイクロホン１１−１で収音されるレベルの方が基準マイクロホン１１−２で収音されるレベルよりも大きくなる。このように、基準マイクロホン１１−１及び１１−２は、各チャンネルに対応して固定的に配置されており、対応するチャンネルの信号を表す基準信号を出力している。つまり、基準マイクロホン１１−１及び１１−２は、Ｒチャンネル信号及びＬチャンネル信号を分離して収音している。

レベル算出手段１２−１は、実収録信号ｘ１（ｎ）を入力とし、実収録信号ｘ１（ｎ）のパワレベルである実収録信号パワＰｘ１（ｎ）を算出する。レベル算出手段１２−１は、算出した実収録信号パワＰｘ１（ｎ）を、ミキシング係数算出手段１４−１及び１４−２それぞれへ出力する。レベル算出手段１２−２は、実収録信号ｘ２（ｎ）を入力とし、実収録信号ｘ２（ｎ）のパワレベルである実収録信号パワＰｘ２（ｎ）を算出する。レベル算出手段１２−２は、算出した実収録信号パワＰｘ２（ｎ）を、ミキシング係数算出手段１４−１及び１４−２それぞれへ出力する。

基準レベル算出手段１３−１は、基準信号ｓ１（ｎ）を入力とし、基準信号ｓ１（ｎ）のパワレベルである基準信号パワＰｓ１（ｎ）を算出する。基準レベル算出手段１３−１は、算出した基準信号パワＰｓ１（ｎ）を、ミキシング係数算出手段１４−１へ出力する。基準レベル算出手段１３−２は、基準信号ｓ２（ｎ）を入力とし、基準信号ｓ２（ｎ）のパワレベルである基準信号パワＰｓ２（ｎ）を算出する。基準レベル算出手段１３−２は、算出した基準信号パワＰｓ２（ｎ）を、ミキシング係数算出手段１４−２へ出力する。以下、特に断りがない限り、レベル算出手段１２−１及び１２−２、基準レベル算出手段１３−１及び１３−２それぞれに設定される、収音した信号のレベルを平均するための時間区間は短時間であるとし、時間平均パワを算出するとする。

ミキシング係数算出手段１４−１は、基準信号パワＰｓ１（ｎ）と、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力とする。ミキシング係数算出手段１４−１は、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）を用いて基準信号パワＰｓ１（ｎ）を擬似的に再現するように、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のミキシング係数（Ａ１１、Ａ１２）を算出する。ミキシング係数算出手段１４−１は、算出したミキシング係数を信号算出手段１５へ出力する。ミキシング係数算出手段１４−２は、基準信号パワＰｓ２（ｎ）と、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力とする。ミキシング係数算出手段１４−２は、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）を用いて基準信号パワＰｓ２（ｎ）を擬似的に再現するように、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のミキシング係数（Ａ２１、Ａ２２）を算出する。ミキシング係数算出手段１４−２は、算出したミキシング係数を信号算出手段１５へ出力する。

信号算出手段１５は、ミキシング係数（Ａ１１、Ａ１２、Ａ２１、Ａ２２）と実収録信号ｘ１（ｎ）及びｘ２（ｎ）とを入力とする。信号算出手段１５は、式（１）に従って、Ｒチャンネル信号（Ｒｃｈ）である出力信号ｙ１（ｎ）と、Ｌチャンネル信号（Ｌｃｈ）である出力信号ｙ２（ｎ）とを算出する。信号算出手段１５は、通信網７を介して、算出した出力信号ｙ１（ｎ）を出力先のスピーカ６ａ−２へ送信し、算出したｙ２（ｎ）を送信先の６ａ−１へ送信する。

次に、本発明の概念について説明する。基準マイクロホン１１−１及び１１−２は、Ｒチャンネル信号及びＬチャンネル信号を分離して収音することができる。しかしながら、基準マイクロホン１１−１及び１１−２は、指向性の主軸を対応するチャンネルに応じた方向に向けた状態で固定的に配置される必要がある。このため、話者２−１及び２−２は、基準マイクロホン１１−１及び１１−２の配置位置を自由に変更することができない。一方、実収録マイクロホン１０−１及び１０−２は、話者２−１及び２−２によって配置位置が自由に変更され得る。しかしながら、配置位置を自由に変更され得るがために、実収録マイクロホン１０−１及び１０−２は、Ｒチャンネル信号及びＬチャンネル信号を分離して収音することができない。そこで、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することを可能にするために、本発明では、基準マイクロホン１１−１及び１１−２において収音された音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン１０−１及び１０−２において収音された実収録信号を用いて擬似的に再現している。以下、この再現方法について図４を参照しながら詳細に説明する。図４は、話者２−１及び２−２の音声の伝達経路を模擬的に示した図である。

図４において、Ｖ１（ｎ）、Ｖ２（ｎ）は、それぞれ、話者２−１及び２−２の音声である音声信号である。話者２−１の音声信号Ｖ１（ｎ）は、音響空間を経て、減衰しながら基準マイクロホン１１−１及び１１−２に到達する。このとき、話者２−１から基準マイクロホン１１−１までの間の減衰係数をＤ１１とし、話者２−１から基準マイクロホン１１−２までの間の減衰係数をＤ１２とする。話者２−２の音声信号Ｖ２（ｎ）は、音響空間を経て、減衰しながら基準マイクロホン１１−１及び１１−２に到達する。このとき、話者２−２から基準マイクロホン１１−１までの間の減衰係数をＤ２１とし、話者２−１から基準マイクロホン１１−２までの間の減衰係数をＤ２２とする。また、話者２−１の音声信号Ｖ１（ｎ）は、音響空間を経て、減衰しながら実収録マイクロホン１０−１及び１０−２に到達する。このとき、話者２−１から実収録マイクロホン１０−１までの間の減衰係数をＣ１１とし、話者２−１から実収録マイクロホン１０−２までの間の減衰係数をＣ１２とする。話者２−２の音声信号Ｖ２（ｎ）は、音響空間を経て、減衰しながら実収録マイクロホン１０−１及び１０−２に到達する。このとき、話者２−２から実収録マイクロホン１０−１までの間の減衰係数をＣ２１とし、話者２−２から実収録マイクロホン１０−２までの間の減衰係数をＣ２２とする。なお、話者２−１の音声信号Ｖ１（ｎ）の短時間平均パワをＰＶ１（ｎ）とし、話者２−２の音声信号Ｖ２（ｎ）の短時間平均パワをＰＶ２（ｎ）とする。

ここで、話者２−１の音声信号Ｖ１（ｎ）と、話者２−２の音声信号Ｖ２（ｎ）とは無相関である。このことから、音声信号Ｖ１（ｎ）及びＶ２（ｎ）を混合した混合信号の短時間平均パワと、音声信号Ｖ１（ｎ）の短時間平均パワＰＶ１（ｎ）及び音声信号Ｖ２（ｎ）の短時間平均パワＰＶ２（ｎ）の和とが、等しくなるといえる。したがって、基準マイクロホン１１−１及び１１−２の基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）は、式（２）のように表せる。ただし、話者２−１及び２−２の音声以外の騒音がないものとする。

同様に、実収録マイクロホン１０−１及び１０−２の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）は、式（３）のように表せる。

式（２）及び（３）から、ＰＶ１（ｎ）及びＰＶ２（ｎ）を消去すると、式（４）が得られる。

さらに、Ｂ１１、Ｂ１２、Ｂ２１、Ｂ２２は、行列式を用いて式（５）で求められる。

上式（４）は、Ｒチャンネル信号である基準信号パワＰｓ１（ｎ）が、実収録信号パワＰｘ１（ｎ）に係数Ｂ１１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ｂ１２を乗算したものとを線形結合したものに置換できることを表している。また上式（４）は、Ｌチャンネル信号である基準信号パワＰｓ２（ｎ）が、実収録信号パワＰｘ１（ｎ）に係数Ｂ２１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ｂ２２を乗算したものとを線形結合したものに置換できることを表している。したがって、これらの係数Ｂ１１、Ｂ１２、Ｂ２１、Ｂ２２を上式（１）の係数Ａ１１、Ａ１２、Ａ２１、Ａ２２として用いることにより、基準マイクロホン１１−１及び１１−２からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン１０−１及び１０−２からの実収録信号を用いて擬似的に再現することができる。その結果、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するＲチャンネル信号及びＬチャンネル信号を生成することができる。

次に、以上に説明した本発明の概念を実現するための、ミキシング係数算出手段１４−１及び１４−２の処理、信号算出手段１５の処理について具体的に説明する。

ミキシング係数算出手段１４−１は、入力される基準信号パワＰｓ１（ｎ）と実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを用いて、上式（４）を満たすような係数Ｂ１１及びＢ１２を算出する。ここで、基準信号パワＰｓ１（ｎ）は、上式（４）より、実収録信号パワＰｘ１（ｎ）に係数Ｂ１１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ｂ１２を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワＰｓ１（ｎ）（ｎ＝．．．ｎ−１、ｎ、ｎ＋１、．．．）と、時系列の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力として、係数乗算後の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のパワレベルの総和を基準信号パワＰｓ１（ｎ）のパワレベルに等化させるための係数Ｂ１１及びＢ１２を算出することができる。ミキシング係数算出手段１４−１は、算出したＢ１１を上式（１）のＡ１１とし、算出したＢ１２を上式（１）のＡ１２として、信号算出手段１５へ出力する。同様に、ミキシング係数算出手段１４−２は、入力される基準信号パワＰｓ２（ｎ）と実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを用いて、上式（４）を満たすような係数Ａ２１及びＡ２２を算出する。ここで、基準信号パワＰｓ２（ｎ）は、上式（４）より、実収録信号パワＰｘ１（ｎ）に係数Ａ２１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ａ２２を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワＰｓ２（ｎ）（ｎ＝．．．ｎ−１、ｎ、ｎ＋１、．．．）と、時系列の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力として、係数乗算後の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のパワレベルの総和を基準信号パワＰｓ２（ｎ）のパワレベルに等化させるための係数Ａ２１及びＡ２２を算出することができる。ミキシング係数算出手段１４−２は、算出したＢ２１を上式（１）のＡ２１とし、算出したＢ２２を上式（１）のＡ２２として、信号算出手段１５へ出力する。

なお、上述した適応等化アルゴリズムとしては、例えば逐次更新を行うＬＭＳや、統計情報を利用して逐次更新を行う主成分分析、同じく統計情報を利用して逐次更新を行う独立成分分析等を利用することが可能である。例えば、適応等化アルゴリズムとしてＬＭＳを利用した場合のミキシング係数算出手段１４−１の処理について説明する。推定誤差をｅ（ｎ）とおくと、推定誤差ｅ（ｎ）は式（６）のようになる。

また、推定する係数ベクトルをＢ（ｎ）＝［１、Ｂ１１（ｎ）、Ｂ１２（ｎ）］とおき、入力信号をＸ（ｎ）＝［Ｐｓ１（ｎ）、Ｐｘ１（ｎ）、Ｐｘ２（ｎ）］とおき、ステップサイズをμとおくと、推定する係数ベクトルＢ（ｎ）は、式（７）に従って逐次更新される。

ミキシング係数算出手段１４−１が、式（７）に従って推定誤差ｅ（ｎ）が最小となるまで係数ベクトルを逐次更新したとき、当該係数ベクトルに含まれる係数Ｂ１１及びＢ１２は、上式（４）を満たす係数Ｂ１１及びＢ１２となる。なお、ミキシング係数算出手段１４−１は、さらに、時間サンプル（ｎ）毎に推定した係数Ｂ１１、Ｂ１２、Ｂ２１、Ｂ２２を所定の時間サンプル数で平均し、平均した係数Ｂ１１、Ｂ１２、Ｂ２１、Ｂ２２を徐々に更新するようにしてもよい。

次に、図５を用いて、信号算出手段１５の処理について説明する。図５は、信号算出手段１５の具体的な構成を示した図である。図５において、信号算出手段１５は、可変ゲイン器１５１〜１５４、加算器１５５及び１５６により構成される。可変ゲイン器１５１〜１５４は、ゲインが可変な増幅器である。可変ゲイン器１５１は、ミキシング係数算出手段１４−１から出力される係数Ａ１１をゲインに設定して、実収録信号ｘ１（ｎ）をＡ１１倍に増幅する。可変ゲイン器１５２は、ミキシング係数算出手段１４−１から出力される係数Ａ１２をゲインに設定して、実収録信号ｘ２（ｎ）をＡ１２倍に増幅する。加算器１５５は、可変ゲイン器１５１からのＡ１１倍に増幅された実収録信号ｘ１（ｎ）と、可変ゲイン器１５２からのＡ１２倍に増幅された実収録信号ｘ２（ｎ）と加算して、Ｒチャンネル信号である出力信号ｙ１（ｎ）を算出する。同様に、可変ゲイン器１５３は、ミキシング係数算出手段１４−２から出力される係数Ａ２１をゲインに設定して、実収録信号ｘ１（ｎ）をＡ２１倍に増幅する。可変ゲイン器１５４は、ミキシング係数算出手段１４−２から出力される係数Ａ２２をゲインに設定して、実収録信号ｘ２（ｎ）をＡ２２倍に増幅する。加算器１５６は、可変ゲイン器１５３からのＡ２１倍に増幅された実収録信号ｘ１（ｎ）と、可変ゲイン器１５４からのＡ２２倍に増幅された実収録信号ｘ２（ｎ）と加算して、Ｌチャンネル信号である出力信号ｙ２（ｎ）を算出する。

以上のように、本実施形態によれば、基準マイクロホン１１−１及び１１−２からの音像定位を実現する基準信号を、自由に移動可能な実収録マイクロホン１０−１及び１０−２からの実収録信号を用いて擬似的に再現している。これにより、自由に移動可能な実収録マイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するＲチャンネル信号及びＬチャンネル信号を生成することができる。その結果、上述した従来技術のように、マイクロホンの現在位置の情報を処理に用いることによって生じる種々の問題は生じない。

また、本実施形態によれば、実収録マイクロホン１０−１及び１０−２は配置位置が自由であるため、図１に示したように、実収録マイクロホン１０−１及び１０−２を、話者２−１及び２−２の近傍に配置することもできる。このため、各実収録信号の信号対ノイズ比（以下、Ｓ／Ｎと呼ぶ）が良好なものになり、良好なＳ／Ｎ比を有するマルチチャンネル信号を生成することができる。

なお、上述では、実収録マイクロホン１０−１の配置位置を話者２−１の前方近傍とし、実収録マイクロホン１０−２の配置位置を話者２−２の前方近傍としていたが、どのような位置にしてもよい。なお、良好なＳ／Ｎ比を有するマルチチャンネル信号を生成する場合には、実収録マイクロホン１０−１及び１０−２を、可能な限り話者２−１及び２−２に近い位置に配置すればよい。また、基準マイクロホン１１−１及び１１−２のみで構成されていた上記従来よりも良好なＳ／Ｎを有するマルチチャンネル信号を生成する場合には、実収録マイクロホン１０−１及び１０−２を、基準マイクロホン１１−１及び１１−２よりも話者２−１及び２−２（音源側）に近い位置に配置すればよい。このように配置することで、実収録マイクロホン１０−１及び１０−２からの音声信号ｘ１（ｎ）、ｘ２（ｎ）は、基準マイクロホン１１−１及び１１−２からの音声信号ｓ１（ｎ）、ｓ２（ｎ）よりも、Ｓ／Ｎが良い信号となる。また、実収録マイクロホン１０−１及び１０−２は、無指向性のマイクロホンで構成されてもよいし、指向性を有するマイクロホンで構成されてもよい。また、実収録マイクロホン１０−１及び１０−２が指向性を有するマイクロホンで構成される場合、実収録マイクロホン１０−１及び１０−２は、指向性の主軸が互いに異なる方向を向くように１カ所に集中して配置されてもよい。

なお、上述では、レベル算出手段１２−１及び１２−２と、基準レベル算出手段１３−１及び１３−２が、入力される信号のパワレベルをそれぞれ算出するとしたが、これに限定されない。レベル算出手段１２−１及び１２−２と、基準レベル算出手段１３−１及び１３−２は、入力される信号の振幅レベルをそれぞれ算出してもよい。

なお、基準マイクロホン１１−１及び１１−２に関し、図３に示した指向性の主軸の開き角は０度でなければよく、１８０度に限ったものではない。また、基準マイクロホン１１−１及び１１−２それぞれは、単一指向性を有するマイクロホンで構成されるとしたが、これに限定されない。基準マイクロホン１１−１及び１１−２それぞれは、無指向性を有するマイクロホンを信号処理して単一指向性を形成する構成であってもよい。

なお、図３では、基準マイクロホン１１−１及び１１−２は、互いに異なる位置に配置されていたが、これに限定されない。基準マイクロホン１１−１及び１１−２は、指向性の主軸が各チャンネルに応じた方向を向きつつも、同じ位置に配置されてもよい。この場合であっても、図３のように配置した場合と同様の効果が得られる。また、基準マイクロホン１１−１及び１１−２は、図７に示すように、カメラ５に直接に取り付けられてもよい。図７は、基準マイクロホン１１−１及び１１−２がカメラ５に直接に取り付けられた様子を示す図である。この場合、カメラ５がターンして撮像エリアが変化しても、送信先に送信する映像と、基準マイクロホン１１−１及び１１−２が収音する方向とに差が生じなくなる。その結果、常に映像と話者の位置とが一致したマルチチャンネル信号を得ることができる。また、話者２−１又は２−２が会議システムをセッティングするとき、基準マイクロホン１１−１及び１１−２とカメラ５とを個別に設置する必要がなくなる。このため、より簡単な設置が可能となり、生成されるマルチチャンネル信号の音質がセッティング次第で変わってしまうことを防ぐことができる。

なお、図３では、基準マイクロホン１１−１及び１１−２が指向性を有するマイクロホンで構成されていたが、これに限定されない。基準マイクロホン１１−１及び１１−２を無指向性のマイクロホンで構成し、図６のように配置するようにしてもよい。図６は、無指向性のマイクロホンで構成した場合の基準マイクロホン１１−１及び１１−２の配置例を示す図である。図６では、無指向性のマイクロホンで構成された基準マイクロホン１１−１を１１ａ−１と付し、無指向性のマイクロホンで構成された基準マイクロホン１１−２を１１ａ−２と付している。例えば、基準マイクロホン１１ａ−２と話者２−２との距離をｄとおく。この場合において、基準マイクロホン１１ａ−１が、図６に示すように、基準マイクロホン１１ａ−２及び話者２−２の位置との関係において、直角三角形を形成する位置に配置されるとする。このとき、より望ましくは、基準マイクロホン１１ａ−１は、話者２−１との距離が２ｄとなる位置に配置されるとよい。これにより、基準マイクロホン１１ａ−１で収音される話者２−２の音声のレベルと、基準マイクロホン１１ａ−２で収音される話者２−２の音声のレベルとの間には、６ｄＢのレベル差が生じることになる。このため、図３のように配置した場合と同様以上の効果が得られる。なお、音像定位を明確に実現するマルチチャンネル信号を収音するには、基準マイクロホン１１ａ−１は、少なくとも話者２−１との距離が１．４ｄとなる位置に配置される必要がある。また、基準マイクロホン１１−１及び１１−２は、アレイ処理によりＲチャンネル及びＬチャンネルの２方向からの音を収音可能にした４つの無指向性のマイクロホンで構成されてもよい。このように１つの基準マイクロホンを、複数のマイクロホンで構成することもできる。

なお、上述では、基準マイクロホン１１−１及び１１−２と実収録マイクロホン１０−１及び１０−２とでは設置場所が異なっていた。このため、実際には、基準マイクロホン１１−１及び１１−２、実収録マイクロホン１０−１及び１０−２それぞれにおいて話者２−１及び２−２を収音するタイミングが、必ずしも一致するとは限らない。このため、ミキシング係数算出手段１４−１及び１４−２で推定されるミキシング係数（Ｂ１１、Ｂ１２、Ｂ２１、Ｂ２２）が上式（４）を満足する係数にならない場合がある。そこで、これらのタイミングの不一致を吸収できるように、レベル算出手段１２−１及び１２−２、基準レベル算出手段１３−１及び１３−２それぞれに設定された、収音した信号のレベルを平均するための時間区間を調整する。具体的には、レベル算出手段１２−１及び１２−２、基準レベル算出手段１３−１及び１３−２それぞれに設定される時間区間を、基準マイクロホン１１−１又は基準マイクロホン１１−２から話者２−１又は話者２−２までの距離のうちの最大となる距離と、実収録マイクロホン１０−１又は実収録マイクロホン１０−２から話者２−１又は話者２−２までの距離のうちの最小となる距離との差に応じた時間区間に設定する。ここで、実用上、基準マイクロホン１１−１及び１１−２は、話者２−１及び２−２から２〜４ｍ離れた場所に設置され、実収録マイクロホン１０−１及び１０−２は、話者２−１及び２−２から５０ｃｍ離れた場所に設置されることが多い。この場合、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差は、１．５〜３．５ｍとなる。音波は、距離１ｍ伝搬するのに約３ｍｓｅｃかかるので、音波が例えば３．５ｍ伝搬するのに、約１１ｍｓｅｃかかる。このため、この場合においては、平均する時間区間を１１ｍｓｅｃ以上に調整する必要がある。このように、タイミングの不一致を吸収できるように時間区間を調整することで、ミキシング係数算出手段１４−１及び１４−２で推定されるミキシング係数の精度を高めることができる。なお、基準マイクロホン及び実収録マイクロホンの音圧レベルを監視して、基準マイクロホン及び実収録マイクロホンの位置関係を把握することで、基準マイクロホンに関する最大距離と実収録マイクロホンに関する最小距離との差を求めることができる。

なお、上述では、マルチチャンネル信号としてＲチャンネル信号とＬチャンネル信号が生成されるとし、基準マイクロホンを２つ設けていたが、これに限定されない。例えば、Ｃ（センター）チャンネル信号をさらに生成するとし、基準マイクロホンを計３つ設けてもよい。このように、基準マイクロホンは、チャンネル数に応じて設けられる。なお、チャンネル数がＮ（Ｎは自然数）である場合、図２に示した構成において、基準レベル算出手段及びミキシング係数算出手段それぞれがＮ個設けられることになる。

なお、上述では、実収録マイクロホンを２つ設けていたが、これに限定されない。実収録マイクロホンを、１つだけ設けてもよいし、３つ以上設けてもよい。なお、実収録マイクロホンがＭ（Ｍは自然数）個設けられた場合、図２に示した構成おいて、レベル算出手段がＭ個設けられ、Ｍ個のレベル算出手段それぞれからミキシング係数算出手段へ実収録信号が出力されることになる。そして、ミキシング係数算出手段では、Ｍ個の係数を算出する。例えばＭ＝１のとき、ミキシング係数算出手段１４−１は係数Ａ１１のみを算出し、ミキシング係数算出手段１４−２は係数Ａ２１のみを算出する。実収録マイクロホンを多数設ける程、信号算出手段１５において生成されるマルチチャンネル信号が実現する音像をより明確にすることができるとともに、Ｓ／Ｎの良い実収録信号が収音可能な収音エリアも拡大できる。

（実施の形態２）
図８を参照して、本発明の実施の形態２に係る収音装置について説明する。図８は、実施の形態２に係る収音装置１ｂの構成を示した図である。図８に示した収音装置１ｂは、図１及び図２に示した収音装置１に入れ代わるように配置される。また、収音装置１ｂは、図１に示した収音装置１に対して、帯域抽出手段２０−１及び２０−２、基準帯域抽出手段２１−１及び２１−２が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。

帯域抽出手段２０−１は、実収録マイクロホン１０−１からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段１２−１へ出力する。同様に、帯域抽出手段２０−２は、実収録マイクロホン１０−２からの実収録信号のうち、所定の周波数帯域内の実収録信号のみを抽出して、レベル算出手段１２−２へ出力する。また、基準帯域抽出手段２１−１は、基準マイクロホン１１−１からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段１３−１へ出力する。同様に、基準帯域抽出手段２１−２は、基準マイクロホン１１−２からの基準信号のうち、所定の周波数帯域内の基準信号のみを抽出して、基準レベル算出手段１３−２へ出力する。

帯域抽出手段２０−１及び２０−２、基準帯域抽出手段２１−１及び２１−２それぞれに設定される所定の周波数帯域は、全て同じである。所定の周波数帯域には、例えば、話者２−１及び２−２の音声帯域であって、比較的室内騒音の低い帯域（例えば、１ｋＨｚ〜４ｋＨｚ）を用いる。また、所定の周波数帯域として例えば、基準マイクロホン１１−１及び１１−２、実収録マイクロホン１０−１及び１０−２それぞれが有する指向特性（指向性の周波数特性）を考慮して求められる帯域であってもよい。具体的には、全てのマイクロホンに対して、指向性が安定して得られる帯域とする。以上のような所定の周波数帯域を用いることで、ミキシング係数算出手段１４−１及び１４−２に入力される基準信号及び実収録信号に含まれる、話者２−１及び２−２の音声以外の騒音を減少させることができる。

以上のように、本実施の形態によれば、ミキシング係数算出手段１４−１及び１４−２に入力される基準信号及び実収録信号に含まれる、話者２−１及び２−２の音声以外の騒音を減少させることができる。これにより、ミキシング係数算出手段１４−１及び１４−２で算出するミキシング係数の精度が向上し、より明確な音像定位を実現するマルチチャンネル信号を生成することができる。

（実施の形態３）
図９を参照して、本発明の実施の形態３に係る収音装置について説明する。図９は、実施の形態３に係る収音装置１ｃの構成を示した図である。図９に示した収音装置１ｃは、図１及び図２に示した収音装置１に入れ代わるように配置される。また、収音装置１ｃは、図１に示した収音装置１に対して、判定手段３０が新たに追加される点のみ異なる。以下、異なる点を中心に説明する。

図１に示したように、話者２−１及び２−２は、実収録マイクロホン１０−１及び１０−２の近くに存在する。このため、レベル算出手段１２−１及び１２−２が算出した実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）の方が、基準レベル算出手段１３−１及び１３−２が算出した基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）よりも大きくなる。しかしながら、基準マイクロホン１１−１及び１１−２の近くに騒音源が存在する場合、あるいは、話者２−１及び２−２が発声していない状況において、基準マイクロホン１１−１及び１１−２に対して話者２−１及び２−２と反対方向から音が到来する場合などでは、基準レベル算出手段１３−１及び１３−２が算出した基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）の方が、レベル算出手段１２−１及び１２−２が算出した実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）よりも大きくなる。このような場合には、ミキシング係数算出手段１４−１及び１４−２において推定されるミキシング係数の精度が低下するので、ミキシング係数を更新しない方がよい。

具体的には、判定手段３０は、基準レベル算出手段１３−１及び１３−２が算出した基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）と、レベル算出手段１２−１及び１２−２が算出した実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力とする。判定手段３０は、入力された基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）のうちの最大のレベルが、入力された実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のうちの最大のレベルよりも大きいか否かを、時間サンプル（ｎ）毎に逐次判定する。そして、判定手段３０において、基準信号パワの最大のレベルが実収録信号パワの最大のレベルよりも大きいと判定されたときのみ、ミキシング係数算出手段１４−１及び１４−２は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段１５は、ミキシング係数算出手段１４−１及び１４−２において過去に算出された係数を用いて、マルチチャンネル信号を算出する。

以上のように、本実施の形態によれば、話者２−１及び２−２の音声以外の音によって、ミキシング係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。

なお、判定手段３０は、入力された基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）の総和が、入力された実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）の総和よりも大きいか否かを、時間サンプル（ｎ）毎に逐次判定するようにしてもよい。このとき、判定手段３０において、基準信号パワの総和が実収録信号パワの総和よりも大きいと判定されたときのみ、ミキシング係数算出手段１４−１及び１４−２は、係数の逐次更新を停止する。これにより、判定手段３０が最大レベルを用いて判定する場合と同様の効果が得られる。

なお、判定手段３０は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。

（実施の形態４）
図１０を参照して、本発明の実施の形態４に係る収音装置について説明する。図１０は、実施の形態４に係る収音装置１ｄの構成を示した図である。図１０に示した収音装置１ｄは、図１及び図２に示した収音装置１に入れ代わるように配置される。また、収音装置１ｄは、図９に示した収音装置１ｃに対して、判定手段３０が判定手段４０に入れ代わった点のみ異なる。以下、異なる点を中心に説明する。

判定手段４０は、基準レベル算出手段１３−１及び１３−２が算出した基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）と、レベル算出手段１２−１及び１２−２が算出した実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力とする。判定手段４０は、入力された基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）と、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とに基づいて、話者２−１又は２−２が音声を発しているか否かを、時間サンプル（ｎ）毎に逐次判定する。そして、判定手段４０において話者２−１又は２−２が音声を発していると判定されたときのみ、ミキシング係数算出手段１４−１及び１４−２は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段１５は、ミキシング係数算出手段１４−１及び１４−２において過去に算出された係数を用いて、マルチチャンネル信号を算出する。

なお、話者２−１又は２−２が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段４０は、所定のレベル以上である場合、話者２−１又は２−２が音声を発している判定する。ここで、実収録マイクロホン１０−１及び１０−２は、基準マイクロホン１１−１及び１１−２と比べて話者２−１及び２−２に近い位置に配置される。このため、基準信号と実収録信号とでＳ／Ｎが異なる。これを踏まえ、例えば、判定手段４０が、基準マイクロホン１１−１及び１１−２の組に対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン１０−１及び１０−２の組に対して、所定のレベル以上であるか否かを判定するようにしてもよい。また例えば、判定手段４０が、基準マイクロホン１１−１及び１１−２それぞれに対して、所定のレベル以上であるか否かを判定し、実収録マイクロホン１０−１及び１０−２それぞれに対して、所定のレベル以上であるか否かを判定するようにしてもよい。さらに、この場合において、上記４つの判定結果を統合することにより、最終的な判定が行われてもよい。例えば、上記４つの判定結果のうち、３つ以上が所定のレベル以上であると判定された場合に、最終的な判定結果として所定のレベル以上であると判定されるようにする。

なお、話者２−１又は２−２が音声を発しているか否かを判定する具体的な方法として例えば、基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）、実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。周囲雑音は定常的であるため、周囲騒音のレベルの変動幅は、話者２−１又は２−２の音声と比べて小さい。したがって、判定手段４０は、所定の変動幅を超えて変動した場合、話者２−１又は２−２が音声を発している判定する。

なお、判定手段４０は、基準信号及び実収録信号のパワレベルではなく、基準信号及び実収録信号の振幅レベルを用いて判定してもよい。

（実施の形態５）
図１１を参照して、本発明の実施の形態５に係る収音装置について説明する。図１１は、実施の形態５に係る収音装置１ｅの構成を示した図である。図１１に示した収音装置１ｅは、図１及び図２に示した収音装置１に入れ代わるように配置される。なお、図１１では、説明の都合上、図２に示したスピーカ６−１及び６−２、通信網７を図示している。また、収音装置１ｅは、図１に示した収音装置１に対して、判定手段５０が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。

判定手段５０は、通信網７を介してスピーカ６−１及び６−２に入力される送信先のマルチチャンネル信号を入力とする。判定手段５０は、入力されたマルチチャンネル信号に基づいて、送信先の話者が音声を発しているか否かを、時間サンプル（ｎ）毎に逐次判定する。そして、判定手段５０において送信先の話者が音声を発していると判定されたときのみ、ミキシング係数算出手段１４−１及び１４−２は、係数の逐次更新を停止する。そして、係数の逐次更新が停止したとき、信号算出手段１５は、ミキシング係数算出手段１４−１及び１４−２において過去に算出された係数を用いて、マルチチャンネル信号を算出する。

以上のように、本実施の形態によれば、ミキシング係数算出手段１４−１及び１４−２が、送信先の話者が音声を発しているか否かに基づいて係数の逐次更新を停止する。ここで、スピーカ６−１及び６−２から出力される送信先の話者の音声は、話者２−１及び２−２の音声以外の音である。このため、実施の形態４と同様、送信先の話者が音声を発しているときに係数の逐次更新を停止させることで、係数が誤って更新されなくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。

なお、送信先の話者が音声を発しているか否かを判定する具体的な方法として例えば、スピーカ６−１及び６−２に入力される送信先のマルチチャンネル信号の全てが、所定のレベル以上であるか否かを判定する方法がある。判定手段５０は、所定のレベル以上である場合、送信先の話者が音声を発している判定する。また、送信先のマルチチャンネル信号の全てが、所定の変動幅を超えて変動したか否かを判定する方法を用いてもよい。送信先の周囲雑音は定常的であるため、送信先の周囲騒音のレベルの変動幅は、送信先の話者の音声と比べて小さい。したがって、判定手段５０は、所定の変動幅を超えて変動した場合、送信先の話者が音声を発している判定する。

なお、判定手段５０は、送信先のマルチチャンネル信号のパワレベルを用いて判定してもよいし、送信先のマルチチャンネル信号の振幅レベルを用いて判定してもよい。

（実施の形態６）
図１２を参照して、本発明の実施の形態６に係る収音装置について説明する。図１２は、実施の形態６に係る収音装置１ｆの構成を示した図である。図１２に示した収音装置１ｆは、図１及び図２に示した収音装置１に入れ代わるように配置される。また、収音装置１ｆは、図１に示した収音装置１に対して、定常信号抑圧手段６０−１及び６０−２と、基準定常信号抑圧手段６１−１及び６１−２が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。

基準マイクロホン１１−１及び１１−２は、カメラ５あるいはモニター４に設置され、話者２−１及び２−２からある程度遠く離れた位置に配置される。このため、定常的な周囲雑音の影響によって、基準信号のＳ／Ｎが悪くなる。また、実収録マイクロホン１０−１及び１０−２は、プロジェクタ（図示なし）等の雑音源付近に設置される場合がある。この場合において、実収録信号のＳ／Ｎが悪くなってしまう。このため、ミキシング係数算出手段１４−１及び１４−２の演算処理において、算出するミキシング係数がこの周囲雑音の影響を受けてしまう。そこで、定常信号抑圧手段６０−１及び６０−２と、基準定常信号抑圧手段６１−１及び６１−２を用いて、周囲雑音の影響を小さくする。

具体的には、定常信号抑圧手段６０−１は、レベル算出手段１２−１からの実収録信号パワＰｘ１（ｎ）から、定常的な雑音信号を減算して、ミキシング係数算出手段１４−１及び１４−２それぞれへ出力する。同様に、定常信号抑圧手段６０−２は、レベル算出手段１２−２からの実収録信号パワＰｘ２（ｎ）から、定常的な雑音信号を減算して、ミキシング係数算出手段１４−１及び１４−２それぞれへ出力する。また、基準定常信号抑圧手段６１−１は、基準レベル算出手段１３−１からの基準信号パワＰｓ１（ｎ）から、定常的な雑音信号を減算して、ミキシング係数算出手段１４−１へ出力する。同様に、基準定常信号抑圧手段６１−２は、基準レベル算出手段１３−２からの基準信号パワＰｓ２（ｎ）から、定常的な雑音信号を減算して、ミキシング係数算出手段１４−２へ出力する。

以上のように、本実施の形態によれば、周囲雑音の影響が小さくなる。その結果、音像定位を安定して実現するマルチチャンネル信号を生成することができる。

なお、定常的な雑音信号を減算する具体的な方法として例えば、所定のレベルを減算する方法がある。また、レベル算出手段１２−１及び１２−２からの実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）、基準レベル算出手段１３−１及び１３−２からの基準信号パワＰｓ１（ｎ）及びＰｓ２（ｎ）を監視することによって変動幅が小さいレベルを特定し、特定したレベルを減算する方法もある。

（実施の形態７）
図１３を参照して、本発明の実施の形態７に係る収音装置について説明する。図１３は、実施の形態７に係る収音装置１ｇの構成を示した図である。図１３に示した収音装置１ｇは、図１及び図２に示した収音装置１に入れ代わるように配置される。また、収音装置１ｇは、図１に示した収音装置１に対して、混合手段１６が新たに追加された点のみ異なる。以下、異なる点を中心に説明する。

基準マイクロホン１１−１及び１１−２の出力信号は、実収録マイクロホン１０−１及び１０−２の係数算出に使用するのみである。しかし、実収録マイクロホン１０−１、１０−２の設置が困難であり話者近辺に設置できない場合、または遠くの話者を収音する用途として補助的に使用するような場合、実収録マイクロホンで全ての収音エリアをカバーすることができない。そこで基準マイクロホンの出力信号を混合することにより上記問題を緩和することが可能となる。

具体的に混合手段１６では、信号算出手段１５の出力信号ｙ１（ｎ）及びｙ２（ｎ）に、基準マイクロホン１１−１及び１１−２の出力であるｓ１（ｎ）及びｓ２（ｎ）をそれぞれＬｃｈ信号同士、Ｒｃｈ信号同士を加算し、出力信号ｙ´１（ｎ）及びｙ´２（ｎ）を出力する。

以上のように、本実施の形態によれば、基準マイクロホン信号を出力信号に混合することにより、実収録マイクロホンによる収音効果が低い場合においても、音像定位を保ったマルチチャンネル収音が可能となる。

なお、上述した実施の形態１〜７で説明した収音装置は、一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した処理をコンピュータに実行させる収音プログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納された収音プログラムをコンピュータが読み出して実行することによって、実施の形態１〜７で説明した収音装置が実現される。また、上記収音プログラムを格納する情報記録媒体は、例えば、ＲＯＭまたはフラッシュメモリのような不揮発性半導体メモリやＣＤ−ＲＯＭ、ＤＶＤ、あるいはそれらに類する光学式ディスク状記録媒体である。また、上記収音プログラムを他の媒体あるいは通信回線を通じて上記情報処理装置に供給してもかまわない。

なお、上述した実施の形態１〜７で説明した収音装置の各構成要素の一部又は全部は、ＬＳＩなどの集積回路や、専用の信号処理回路を用いて１チップ化したものによって実現されてもよい。また上述した実施の形態１〜７で説明した収音装置は、上記各構成要素の機能に相当するものをそれぞれチップ化したものによって実現されてもよい。なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また集積回路化の手法は、ＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。

本発明に係る収音装置は、自由に移動可能なマイクロホンを用いつつもその現在位置の情報については処理に用いずに、音像定位を実現するマルチチャンネル信号を生成することが可能であり、ハンズフリー機能を有する機器や、テレビ等の放送機器、テレビ会議システム、音声のみの会議システム等に利用される。

このように、図１４及び図１５に示した収音装置９では、マイクロホンの移動の度にその移動後の位置（現在位置）を測定し、測定したマイクロホンの現在位置の情報を用いて、音像定位を実現するマルチチャンネル信号を生成している。このため、話者は、マイクロホンの配置位置を自由に変更することができる。

特開平９−１８２０４４号公報（図１、図２等）

実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの装置構成の一部を示した図実施の形態１に係る収音装置１を用いた、送信元に配置されるテレビ会議システムの詳細な回路構成を示した図基準マイクロホン１１−１及び１１−２の指向性の主軸の開き角を１８０度としたときのポーラパターンを示す図話者２−１及び２−２の音声の伝達経路を模擬的に示した図信号算出手段１５の具体的な構成を示した図無指向性のマイクロホンで構成した場合の基準マイクロホン１１−１及び１１−２の配置例を示す図基準マイクロホン１１−１及び１１−２がカメラ５に直接に取り付けられた様子を示す図実施の形態２に係る収音装置１ｂの構成を示した図実施の形態３に係る収音装置１ｃの構成を示した図実施の形態４に係る収音装置１ｄの構成を示した図実施の形態５に係る収音装置１ｅの構成を示した図実施の形態６に係る収音装置１ｆの構成を示した図実施の形態７に係る収音装置１ｇの構成を示した図送信元に配置されるテレビ会議システムの装置構成の一部を示した図送信元に配置されるテレビ会議システムの詳細な回路構成を示した図

図４において、Ｖ１（ｎ）、Ｖ２（ｎ）は、それぞれ、話者２−１及び２−２の音声である音声信号である。話者２−１の音声信号Ｖ１（ｎ）は、音響空間を経て、減衰しながら基準マイクロホン１１−１及び１１−２に到達する。このとき、話者２−１から基準マイクロホン１１−１までの間の減衰係数をＤ１１とし、話者２−１から基準マイクロホン１１−２までの間の減衰係数をＤ１２とする。話者２−２の音声信号Ｖ２（ｎ）は、音響空間を経て、減衰しながら基準マイクロホン１１−１及び１１−２に到達する。このとき、話者２−２から基準マイクロホン１１−１までの間の減衰係数をＤ２１とし、話者２−２から基準マイクロホン１１−２までの間の減衰係数をＤ２２とする。また、話者２−１の音声信号Ｖ１（ｎ）は、音響空間を経て、減衰しながら実収録マイクロホン１０−１及び１０−２に到達する。このとき、話者２−１から実収録マイクロホン１０−１までの間の減衰係数をＣ１１とし、話者２−１から実収録マイクロホン１０−２までの間の減衰係数をＣ１２とする。話者２−２の音声信号Ｖ２（ｎ）は、音響空間を経て、減衰しながら実収録マイクロホン１０−１及び１０−２に到達する。このとき、話者２−２から実収録マイクロホン１０−１までの間の減衰係数をＣ２１とし、話者２−２から実収録マイクロホン１０−２までの間の減衰係数をＣ２２とする。なお、話者２−１の音声信号Ｖ１（ｎ）の短時間平均パワをＰＶ１（ｎ）とし、話者２−２の音声信号Ｖ２（ｎ）の短時間平均パワをＰＶ２（ｎ）とする。

ミキシング係数算出手段１４−１は、入力される基準信号パワＰｓ１（ｎ）と実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを用いて、上式（４）を満たすような係数Ｂ１１及びＢ１２を算出する。ここで、基準信号パワＰｓ１（ｎ）は、上式（４）より、実収録信号パワＰｘ１（ｎ）に係数Ｂ１１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ｂ１２を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワＰｓ１（ｎ）（ｎ＝．．．ｎ−１、ｎ、ｎ＋１、．．．）と、時系列の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力として、係数乗算後の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のパワレベルの総和を基準信号パワＰｓ１（ｎ）のパワレベルに等化させるための係数Ｂ１１及びＢ１２を算出することができる。ミキシング係数算出手段１４−１は、算出したＢ１１を上式（１）のＡ１１とし、算出したＢ１２を上式（１）のＡ１２として、信号算出手段１５へ出力する。同様に、ミキシング係数算出手段１４−２は、入力される基準信号パワＰｓ２（ｎ）と実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを用いて、上式（４）を満たすような係数Ｂ２１及びＢ２２を算出する。ここで、基準信号パワＰｓ２（ｎ）は、上式（４）より、実収録信号パワＰｘ１（ｎ）に係数Ｂ２１を乗算したものと、実収録信号パワＰｘ２（ｎ）に係数Ｂ２２を乗算したものとを線形結合したもので表現される。このことから、適応等化アルゴリズムを利用することにより、時系列の基準信号パワＰｓ２（ｎ）（ｎ＝．．．ｎ−１、ｎ、ｎ＋１、．．．）と、時系列の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）とを入力として、係数乗算後の実収録信号パワＰｘ１（ｎ）及びＰｘ２（ｎ）のパワレベルの総和を基準信号パワＰｓ２（ｎ）のパワレベルに等化させるための係数Ｂ２１及びＢ２２を算出することができる。ミキシング係数算出手段１４−２は、算出したＢ２１を上式（１）のＡ２１とし、算出したＢ２２を上式（１）のＡ２２として、信号算出手段１５へ出力する。

Claims

マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる収音装置であって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンと、
各前記基準マイクロホンからの基準信号に基づいて前記実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成し、当該生成した各チャンネルの信号を前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する信号生成手段とを備える、収音装置。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる収音装置であって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンと、
各前記基準マイクロホンからの基準信号に基づいて前記実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成手段と、
各前記基準マイクロホンからの基準信号と前記信号生成手段の各チャンネルの信号を混合し前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する混合手段とを備える、収音装置。
前記実収録マイクロホンは、１つ備えられており、
前記信号生成手段は、
前記実収録信号のレベルを前記基準マイクロホンからの基準信号のレベルと一致させるために前記実収録マイクロホンからの実収録信号に乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、
前記実収録マイクロホンからの実収録信号に対して前記係数算出手段において基準信号毎に算出された係数を１つずつ乗算することによって、前記各チャンネルの信号を算出する信号算出手段とを有することを特徴とする、請求項１に記載の収音装置。
前記実収録マイクロホンは、各前記基準マイクロホンよりも前記話者に近い位置に配置されることを特徴とする、請求項３に記載の収音装置。
前記実収録マイクロホンは、複数備えられており、
前記信号生成手段は、
各前記実収録信号のレベルの総和を前記基準マイクロホンからの基準信号と一致させるために各前記実収録マイクロホンからの実収録信号それぞれに乗算されるべき係数を、当該基準信号毎に算出する係数算出手段と、
各前記実収録マイクロホンからの実収録信号それぞれに対して前記係数算出手段において基準信号毎に算出された係数を１つずつ乗算することによって、前記各チャンネルの信号を算出する信号算出手段とを有することを特徴とする、請求項１、２に記載の収音装置。
各前記実収録マイクロホンは、各前記基準マイクロホンよりも前記話者に近い位置に配置されることを特徴とする、請求項５に記載の収音装置。
各前記基準マイクロホンから出力された基準信号のレベルのうちの最大レベルが、各前記実収録マイクロホンからの実収録信号のレベルのうちの最大のレベルよりも大きいか否かを逐次判定する判定手段をさらに備え、
前記係数算出手段は、前記係数を逐次算出しており、前記判定手段において前記基準信号の最大レベルが前記実収録信号の最大レベルよりも大きいと判定されたとき、前記係数の算出処理を停止し、
前記信号算出手段は、前記各チャンネルの信号を逐次算出しており、前記係数算出手段において前記係数の算出処理が停止したとき、前記係数算出手段において過去に算出された係数を用いて前記各チャンネルの信号を算出することを特徴とする、請求項６に記載の収音装置。
各前記基準マイクロホンから出力された基準信号のレベルの総和が、各前記実収録マイクロホンからの実収録信号のレベルの総和よりも大きいか否かを逐次判定する判定手段をさらに備え、
前記係数算出手段は、前記係数を逐次算出しており、前記判定手段において前記基準信号の総和が前記実収録信号の総和よりも大きいと判定されたとき、前記係数の算出処理を停止し、
前記信号算出手段は、前記各チャンネルの信号を逐次算出しており、前記係数算出手段において前記係数の算出処理が停止したとき、前記係数算出手段において過去に算出された係数を用いて前記各チャンネルの信号を算出することを特徴とする、請求項６に記載の収音装置。
各前記基準マイクロホンから出力された基準信号のレベルと、各前記実収録マイクロホンから出力された実収録信号のレベルとに基づいて、前記話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、
前記係数算出手段は、前記係数を逐次算出しており、前記判定手段において前記話者が音声を発していないと判定されたとき、前記係数の算出処理を停止し、
前記信号算出手段は、前記各チャンネルの信号を逐次算出しており、前記係数算出手段において前記係数の算出処理が停止したとき、前記係数算出手段において過去に算出された係数を用いて前記各チャンネルの信号を算出することを特徴とする、請求項５に記載の収音装置。
前記他の場所からの各チャンネルの信号のレベルに基づいて、前記他の場所に存在する話者が音声を発しているか否かを逐次判定する判定手段をさらに備え、
前記係数算出手段は、前記係数を逐次算出しており、前記判定手段において前記他の場所に存在する話者が音声を発していると判定されたとき、前記係数の算出処理を停止し、
前記信号算出手段は、前記各チャンネルの信号を逐次算出しており、前記係数算出手段において前記係数の算出処理が停止したとき、前記係数算出手段において過去に算出された係数を用いて前記各チャンネルの信号を算出することを特徴とする、請求項５に記載の収音装置。
前記複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のレベルを、各前記基準マイクロホンから前記話者までの距離のうちの最大距離と各前記実収録マイクロホンから前記話者までの距離のうちの最小距離との差に応じた時間区間で平均しながら逐次算出する複数の第１のレベル算出手段と、
前記複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のレベルを、前記第１のレベル算出手段と同じ時間区間で平均しながら逐次算出する複数の第２のレベル算出手段とをさらに備え、
前記係数算出手段は、各前記実収録信号のレベルの総和を前記第１のレベル算出手段からの基準信号と一致させるために各前記第２のレベル算出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出することを特徴とする、請求項５に記載の収音装置。
前記複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、前記話者の音声帯域に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第１の帯域抽出手段と、
前記複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、前記第１の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第２の帯域抽出手段とをさらに備え、
前記係数算出手段は、各前記実収録信号のレベルの総和を前記第１の帯域抽出手段からの基準信号と一致させるために各前記第２の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出することを特徴とする、請求項５に記載の収音装置。
各前記基準マイクロホン及び各前記実収録マイクロホンは、指向性を有しており、
前記複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号のうち、各前記基準マイクロホン及び各前記実収録マイクロホンの指向特性に基づく周波数帯域内の基準信号のみを抽出して出力する複数の第１の帯域抽出手段と、
前記複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号のうち、前記第１の帯域抽出手段と同じ周波数帯域内の実収録信号のみを抽出して出力する複数の第２の帯域抽出手段とをさらに備え、
前記係数算出手段は、各前記実収録信号のレベルの総和を前記第１の帯域抽出手段からの基準信号と一致させるために各前記第２の帯域抽出手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出することを特徴とする、請求項５に記載の収音装置。
前記複数の基準マイクロホンそれぞれに対応して設けられ、対応する基準マイクロホンからの基準信号から、定常的な雑音信号を減算して出力する複数の第１の定常抑圧手段と、
前記複数の実収録マイクロホンそれぞれに対応して設けられ、対応する実収録マイクロホンからの実収録信号から、定常的な雑音信号を減算して出力する複数の第２の定常抑圧手段とをさらに備え、
前記係数算出手段は、各前記実収録信号のレベルの総和を前記第１の定常抑圧手段からの基準信号と一致させるために各前記第２の定常抑圧手段からの実収録信号それぞれに乗算されるべき当該基準信号毎の係数を逐次算出することを特徴とする、請求項５に記載の収音装置。
前記音響システムは、前記話者を撮影して生成した映像を、前記他の場所に設置された表示装置へ前記通信網を介して出力するためのカメラを備えており、
各前記基準マイクロホンは、前記カメラに固定的に設置されることを特徴とする、請求項１〜１４のいずれか１項に記載の収音装置。
各前記基準マイクロホンは、指向性を有しており、指向性の主軸を対応するチャンネルに応じた方向に向けて配置されることを特徴とする、請求項１〜１５のいずれか１項に記載の収音装置。
各前記基準マイクロホンは、無指向性であり、互いに異なる位置に配置されることを特徴とする、請求項１〜１５のいずれか１項に記載の収音装置。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムにおいて行われる収音方法であって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、
前記基準ステップにおいて出力された複数の基準信号に基づいて前記実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成ステップと、
前記信号生成ステップにおいて生成された各チャンネルの信号を、前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する出力ステップとを含む、収音方法。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムにおいて行われる収音方法であって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、
前記基準ステップにおいて出力された複数の基準信号に基づいて前記実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成ステップと、
前記基準ステップにおいて出力された複数の基準信号と前記信号生成ステップにおいて生成された各チャンネルの信号を混合する混合ステップと、
前記混合ステップにより生成された各チャンネルの信号を、前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する出力ステップとを含む、収音方法。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられるコンピュータに実行させるための収音プログラムであって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、
前記基準ステップにおいて出力された複数の基準信号に基づいて前記実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成ステップと、
前記信号生成ステップにおいて生成された各チャンネルの信号を、前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する出力ステップとを、前記コンピュータに実行させるための収音プログラム。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられるコンピュータに実行させるための収音プログラムであって、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンを用いて、複数の基準信号を出力する基準ステップと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンを用いて、実収録信号を出力する実収録ステップと、
前記基準ステップにおいて出力された複数の基準信号に基づいて前記実収録ステップにおいて出力された実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成ステップと、
前記基準ステップにおいて出力された複数の基準信号と前記信号生成ステップにおいて生成された各チャンネルの信号を混合する混合ステップと、
前記混合ステップにより生成された各チャンネルの信号を、前記信号生成ステップにおいて生成された各チャンネルの信号を、前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する出力ステップとを、前記コンピュータに実行させるための収音プログラム。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる集積回路であって、
前記音響システムは、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンとを備えており、
前記集積回路は、
各前記基準マイクロホンからの基準信号に基づいて前記実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成し、当該生成した各チャンネルの信号を前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する信号生成手段を備える、集積回路。
マイクロホンを用いて収音した話者の音声を含む各チャンネルの信号を、他の場所に設置された複数のスピーカへ通信網を介して出力するとともに、当該通信網を介して入力される前記他の場所からの各チャンネルの信号を、複数のスピーカを用いて再生する音響システムに用いられる集積回路であって、
前記音響システムは、
前記各チャンネルに対応して固定的に配置され、到来する前記話者の音声を収音し、対応するチャンネルの信号を表す基準信号を出力する複数の基準マイクロホンと、
移動可能に配置され、到来する前記話者の音声を収音し実収録信号として出力する１つ以上の実収録マイクロホンとを備えており、
前記集積回路は、
各前記基準マイクロホンからの基準信号に基づいて前記実収録マイクロホンからの実収録信号に所定の演算処理を施すことによって、前記各チャンネルの信号を生成する信号生成手段と、
各前記基準マイクロホンからの基準信号と前記信号生成手段の各チャンネルの信号を混合し前記他の場所に設けられた複数のスピーカへ前記通信網を介して出力する混合手段を備える、集積回路。