WO2015159901A1

WO2015159901A1 - 放収音装置及び放収音方法

Info

Publication number: WO2015159901A1
Application number: PCT/JP2015/061520
Authority: WO
Inventors: 訓史鵜飼; 高史山川
Original assignee: ヤマハ株式会社
Priority date: 2014-04-14
Filing date: 2015-04-14
Publication date: 2015-10-22
Also published as: EP3133835A4; CN106233751B; CN106233751A; EP3133835A1; KR101837529B1; EP3133835B1; JP6349899B2; US10038769B2; US9807215B2; CN110213453A; CN110213453B; JP2015204535A; US20180007186A1; KR20160132475A; US20170041445A1

Abstract

　放収音装置は、スピーカ（１６）と、スピーカ（１６）に供給される音声信号である放音信号を処理するフィルタ（２４）と、複数のマイク（１１）と、複数のマイク（１１）の各々に対応して設けられ、各々がその対応するマイクの収音信号からスピーカ（１６）によって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラ（３２）と、複数のエコーキャンセラ（３２）から取り出された適応フィルタ係数を統合する第１統合部と、統合された適応フィルタ係数に基づき、スピーカ（１６）および複数のマイク（１１）が存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部（４１）と、推定された残響時間に基づいて、放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出してフィルタに設定する演算部と、を備える。

Description

放収音装置及び放収音方法

　この発明は、遠隔の音声会議等に用いられる放収音装置に関し、特に放音される音声の残響の抑制に関する。

　拠点間をネットワークで接続して音声を送受信する音声会議システムが実用化されている。会議に使用される会議室の音響特性は様々であり、非常に長い残響を有する部屋で会議が行われる場合もある。残響が長いとスピーカから放音される音声の明瞭度が低下する。これに対処するため、放音される音声の残響を抑制する装置が提案されている（特許文献１）。

　特許文献１の装置は、参加者Ｍａに対応するキーＫiaを操作することにより、参加者Ｍａからマイクロホン３１までの空間伝達関数Ｈａの逆フィルタ係数Ｇａが、ＲＯＭ４１から読み出されてデジタルフィルタ３４ｉに供給され、このデジタルフィルタ３４ｉが逆フィルタ演算をリアルタイムで行って参加者Ｍａの音声信号を逆フィルタリング処理するものである。すなわち、この装置では、各参加者Ｍａ～Ｍｎの席から複数のマイクロホン３１までの空間伝達関数が予め測定されており、各伝達関数の逆フィルタ係数Ｇａ～ＧｎがＲＯＭ４１に予め格納されている。

日本国特開平０９－２４７７８８号公報

　しかしながら、上記従来の装置では、予めインパルス応答を測定する必要があるため、会議開始直前にテスト信号を再生するか、会議の途中でテスト信号を再生する必要があり、テスト信号の再生中は会議室内を静かな環境にする必要があるため、会議の円滑な進行の妨げになった。

　会議参加者が入場する前に行っておくことも考えられるが、参加者が居るときと不在のときとでは会議室の音響特性が変化するため、やはり参加者が存在する状態でテスト信号を再生するのが好ましい。

　この発明は、事前にテスト音声を再生しなくても、会議用の収音およびエコーキャンセル機能を利用して残響を抑制できる放収音装置及び放収音方法を提供することを目的とする。

　上記目的を達成するため本発明に係る放収音装置は、スピーカと、前記スピーカに供給される音声信号である放音信号を処理するフィルタと、複数のマイクと、前記複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラと、前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合する第１統合部と、統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部と、前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する演算部と、を備える。

　また、放収音方法は、スピーカに供給される音声信号である放音信号をフィルタによって処理し、複数のマイクの各々に対応して設けられた複数のエコーキャンセラによって、前記複数のマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルし、前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合し、統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定し、前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する。

　この発明によれば、会議に好適な指向性マイクを用い、且つ、エコーキャンセラのパラメータ（適応フィルタのフィルタ係数など）を利用して、適切な残響の抑制が可能になる。

この発明の実施形態である音声会議システムの設置形態の一例を示す図会議室における音声の反射の形態を説明する図音声会議システムの収音器のブロック図音声会議システムの収音器のマイクの指向性を示す図収音器のエコーキャンセラのブロック図音声会議システムの通信器のブロック図通信器のパラメータ推定部の機能ブロック図残響抑制のプロセスの流れを示す図（Ａ）及び（Ｂ）は、パラメータ推定部において現れる信号波形を例示した図通信器の補正特性算出部のゲインテーブルの例を示す図ゲインテーブルの他の例を示す図パラメータ推定部に周波数特性補正機能を追加した実施形態を示す図音声会議システムの収音器の他の結線形態を示す図（Ａ）～（Ｃ）は、個別のマイクをグルーピングして収音器を構成する例を示す図

　図面を参照して本発明の実施形態である音声会議システムについて説明する。図１は、本発明の実施形態である音声会議システムの設置形態の一例を示す図である。

　音声会議システム１は、会議室Ｃの会議机Ｄ上に設置される。音声会議システム１は、１台の通信器１０および１または複数台の収音器１１を有する（この実施形態では４台）。通信器１０は、スピーカ２６を有する。収音器１１は、複数のマイク素子３１を備える。通信器１０および収音器１１は通信ケーブル１２で相互に接続され、デジタル通信を行う。収音器１１は、マイク素子３１で収音した音声信号およびエコーキャンセラ３２（図３参照）のフィルタ係数を通信器１０に送信する。通信器１０は、ホスト装置であるパーソナルコンピュータ２に接続される。パーソナルコンピュータ２は、インターネットなどのネットワーク３を介して、他の拠点に設置されている他の音声会議システムと通信し、この音声会議システム１の通信器１０から入力された（マイク素子３１が収音した）音声信号を他の音声会議システムに送信するとともに、他の音声会議システムから受信した音声信号を通信器１０に入力する。通信器１０は、他の音声会議システムから送られてきた音声信号をスピーカ２６から放音する。

　図２は、会議室Ｃにおける音声の反射の形態を説明する図である。スピーカ２６から放音された音声は、会議の参加者Ｍおよびマイク素子３１に直接到達するとともに、会議室Ｃの壁および天井で様々に反射して、参加者Ｍおよびマイク素子３１に到達する。

　スピーカ２６から放音された音声、すなわち、他拠点に設置された他の音声会議システムで収音された音声が、マイク素子３１によって収音され、他の音声会議システムに送信されると、送信した音声が戻って再生されるいわゆるエコーになる。このエコーを防止するため、マイク素子３１には、スピーカ２６から放音された音声をキャンセルするエコーキャンセラ３２（図３参照）が接続される。また、スピーカ２６から放音された音声が会議室Ｃの壁や天井で反射する残響によってこもった音声になり明瞭度が低下するのを改善するため、通信器１０には、残響抑制用のフィルタ２４（図６参照）が設けられている。このフィルタ２４のフィルタ係数は、エコーキャンセラ３２の適応フィルタ３５（図５参照）のフィルタ係数を利用して算出される。

　エコーキャンセラ３２および残響抑制用のフィルタ２４の機能・動作については、図３以下の図面を参照して後述する。なお、以下に説明する、通信器１０および収音器１１に内蔵の機能部は、電子回路で構成されてもよく、コンピュータなどのプロセッサとプログラムの協働によって実現されてもよい。

　図３は、収音器１１のブロック図である。図４は、収音器１１の３つのマイク素子３１のそれぞれの指向性を示す図である。図５は、収音器１１のエコーキャンセラ３２のブロック図である。

　収音器１１は、３つのマイク素子３１を備える。図１および図４に示すように、収音器１１は円盤状の平面形状をしており、その円周上に１２０度ずつの間隔で３つのマイク素子３１が外向き（法線方向）に放射状に設けられている。各マイク素子３１は単一指向性マイクであり、マイク素子３１が向いている方向を中心にカージオイド形状の収音特性を有する。各マイク素子３１は１２０度の間隔で設けられ、その指向特性は図４に示すような配置になるため、各マイク素子３１の収音信号を合成すればほぼ無指向性に近い特性の信号が得られる。なお、マイク素子３１は、指向特性がカージオイドのものに限定されない。後方に若干の指向性を持つものであってもよく、双指向性のものであってもよい。

　図３において、各マイク素子３１にはそれぞれエコーキャンセラ３２が設けられている。エコーキャンセラ３２の詳細構成は、図５で説明するが、マイク素子３１で収音された音声信号のなかからスピーカ２６から放音された音声をキャンセルする。エコーキャンセラ３２によって、スピーカ２６の回り込み音声をキャンセルされた音声信号が、音声選択部３３に入力される。音声選択部３３には、３つのマイク素子３１で収音された音声信号がそれぞれ入力される。音声選択部３３は、入力された３つの音声信号のレベル・持続時間等に基づいて、どのマイク素子３１から入力されている音声信号のレベルが高いか、すなわち話者の発話音声信号と推定されるかを推定し、発話音声信号と推定された１つの音声信号を選択する。すなわち、会議における音声信号の収音においては、指向性マイクの特性を利用して、３つのマイク素子３１から最適な１つのマイク素子３１を選択し、Ｓ／Ｎ比の良い発話音声を収音している。選択された音声信号は、通信インタフェース３４を介して通信器１０に送信される。通信器１０に複数の収音器１１が接続されている場合、通信器１０（マイクミキサ２２：図６参照）は、各収音器１１から受信した音声信号を、音声信号のレベル、持続時間及び相関度について比較してさらに１つの音声信号を選択し、または、複数の音声信号をミキシングし、この選択された音声信号またはミキシングした音声信号を相手システムに送信する。

　次に、図５を参照して、エコーキャンセラ３２の構成について説明する。図５は、エコーキャンセラ３２のブロック図である。エコーキャンセラ３２は、フィルタ係数設定部３５Ｂおよび可変フィルタ３５Ａを有する適応フィルタ３５を有し、さらに加算器３７を有している。一般的に適応フィルタとは、所定の最適化アルゴリズムに従って自己の伝達関数（適応フィルタ係数列）を自動適応させるフィルタである。

　フィルタ係数設定部３５Ｂは、会議室Ｃの音響伝達系（スピーカ２６からマイク素子３１に至る音響伝搬経路）の伝達関数を推定し、推定した伝達関数のフィルタとなるようなフィルタ係数を可変フィルタ３５Ａに設定する。

　可変フィルタ３５Ａには、スピーカ２６から放音される音声信号（放音信号）が入力される。可変フィルタ３５Ａの伝達関数は、会議室Ｃの音響伝達系（スピーカ２６からマイク素子３１に至る音響伝搬経路）が模擬された伝達関数であるため、可変フィルタ３５Ａでフィルタリングされた放音信号は、スピーカ２６から放音され会議室Ｃを伝搬してマイク素子３１に収音された音声信号（回帰音信号）を模擬した音声信号（擬似回帰音信号）である。この擬似回帰音信号は加算器３７に入力される。

　また、加算器３７には、マイク素子３１が収音した音声信号（収音信号）が、入力される。加算器３７は、収音信号から疑似回帰音信号を減算して出力する。収音信号には、会議の参加者Ｍの発話音声信号とともにスピーカ２６から放音されて回り込んだ回帰音信号も含まれている。加算器３７が、収音信号から疑似回帰音信号を減算することにより、収音信号から回帰音を除去する、すなわちエコーをキャンセルすることができる。エコーをキャンセルされた収音信号は、音声選択部３３に入力されるとともに、参照信号としてフィルタ係数設定部３５Ｂに入力される。また、フィルタ係数設定部３５Ｂには、参照信号としてスピーカ２６から放音される音声信号である放音信号も入力される。フィルタ係数設定部３５Ｂは、これらの参照信号に基づいてフィルタ係数を継続的に更新する。また、このフィルタ係数の更新は、スピーカ２６から音声が放音されていて、かつ、会議室Ｃにいる参加者Ｍが発話をしていない時間区間を自動的に検出し、その時間区間の参照信号を用いて行われる。

　ここで、可変フィルタ３５ＡはＦＩＲフィルタである。したがって、可変フィルタ３５Ａに設定されるフィルタ係数は、フィルタ係数設定部３５Ｂが、スピーカ２６からマイク素子３１に至る音響伝搬経路のインパルス応答を推定して模擬したものである。フィルタ係数設定部３５Ｂは、このフィルタ係数を推定インパルス応答として、通信インタフェース３４を介して通信器１０に送信する。

　上述したように、３つマイク素子３１がそれぞれ収音した音声信号は、音声選択部３３により、そのうちの１つが選択されて通信器１０に送信されるが、３つのマイク素子３１に対応する３つの推定インパルス応答は、３つともに通信器１０に送信される。後述するように通信器１０のパラメータ推定部２３では、これら３つの推定インパルス応答が合成される。３つの推定インパルス応答は、図４に示すように対応するマイク素子３１の向いている方向から到来する残響成分を含むインパルス応答であるが、３つを合成することにより、全ての方向から到来する残響成分を含む無指向性マイクで収音した会議室Ｃの全方向からのインパルス応答を模擬することができる。

　図６は、通信器１０のブロック図である。通信器１０は、パーソナルコンピュータ２と通信するための通信インタフェース２１、マイクミキサ２２、パラメータ推定部２３、フィルタ２４、オーディオ回路２５、スピーカ２６および収音器１１と通信するための通信インタフェース２７を有する。通信インタフェース２１は、パーソナルコンピュータ２とデジタル通信を行うためのインタフェースであり、たとえばＵＳＢインタフェースが用いられる。ＵＳＢインタフェースを用いた場合、パソコン２がホストであり通信器１０がオーディオデバイスとなる。通信インタフェース２７は複数設けられており、それぞれケーブル１２を介して個別の収音器１１が接続される。通信インタフェース２７は例えば有線ＬＡＮのインタフェースを用いればよい。

　通信器１０は、通信インタフェース２７を介して収音器１１から音声信号（エコーをキャンセルされた収音信号）および３つの推定インパルス応答を受信する。受信した音声信号はマイクミキサ２２に入力される。マイクミキサ２２には複数の通信インタフェース２７から、それぞれ別の収音器１１から受信した複数の音声信号が入力される。マイクミキサ２２は、複数の収音器１１から受信した音声信号を選択またはミキシングしてモノラルの音声信号とし、通信インタフェース２１を介してパーソナルコンピュータ２に送信する。パーソナルコンピュータ２は、この音声信号をネットワーク３を介して他拠点の音声会議システムに送信する。マイクミキサ２２は、通信器の音声信号のレベル、持続時間または相関度を比較してＳ／Ｎ比の良い音声信号を相手システムに送信する発話音声として選択すればよい。

　また、パーソナルコンピュータ２は、他拠点の音声会議システムから音声信号を受信する。この音声信号は、通信インタフェース２１を介して入力され、スピーカ２６から放音される放音信号としてフィルタ２４に入力されるとともに、通信インタフェース２７を介して各収音器１１に送信される。

　フィルタ２４は、会議室Ｃの残響による音声の明瞭度の低下を抑制するようなフィルタ処理を施す。すなわち、放音信号に対して、残響時間の長い周波数帯域のレベルを抑制するような信号処理を行う。特に、低音域の残響が明瞭度の低下の原因になるため、低音域に対しては抑制の度合いを強くする。このようなフィルタ係数は、パラメータ推定部２３によって決定される。フィルタ２４によって残響時間の長い周波数帯域が抑制された放音信号は、オーディオ回路２５に入力される。オーディオ回路２５は、放音信号をアナログの音声信号に変換し、所定のレベルで増幅してスピーカ２６に入力する。スピーカ２６は、この放音信号を音声として会議室Ｃに放音する。放音された音声は会議の参加者Ｍに聴取されるとともに、マイク素子３１によって収音される。

　通信インタフェース２７を介して収音器１１に送信された放音信号は、図５に示したエコーキャンセラ３２のフィルタ係数設定部３５Ｂに参照信号として入力される。

　図７はパラメータ推定部２３のブロック図である。また、図８は、パラメータ推定部２３を含む音声会議システム１で実行される残響抑制処理の手順を示す図である。また、図９（Ａ）、（Ｂ）は、残響抑制処理の手順のなかで現れる信号波形を例示した図である。

　図８において、指向性のマイク素子３１による収音（Ｓ１０１）、エコーキャンセル処理（Ｓ１０２）、および、適応フィルタ３５からのフィルタ係数（推定インパルス応答）の取り出し（Ｓ１０３）は、収音器１１が行う。収音器１１は、３つのマイク素子３１に対応して設けられた３つのエコーキャンセラ３２のフィルタ係数を推定インパルス応答として通信器１０に対して送信する。

　図７において、パラメータ推定部２３は、接続している収音器１１ごとのフィルタ係数統合部４０、同じく接続している収音器１１ごとの残響時間推定部４１、残響時間統合部４２、補正特性算出部４３、および、フィルタ係数算出部４４を備える。

　通信器１０は、各収音器１１から、それぞれ３つずつの推定インパルス応答（フィルタ係数）を受信する。受信した推定インパルス応答は、パラメータ推定部２３に入力される。パラメータ推定部２３では、入力された推定インパルス応答が、各収音器１１ごとに設けられたフィルタ係数統合部４０にそれぞれ入力される。フィルタ係数統合部４０は、入力された３つの推定インパルス応答を時間軸を揃えて合成する。この合成は、単純に加算合成してもよいし、各推定インパルス応答の重みづけを変えてもよいし、各インパルス応答の時間ずれを補正しても良い。図４に示した３方向の推定インパルス応答を合成することにより、１マイクに関する推定インパルス応答よりも広い方向の範囲から到来する残響成分を含む（理想的には３６０度無指向性の）インパルス応答を推定することが可能である。この処理が、図８におけるＳ１０４の前段統合である。この処理は、接続された（推定インパルス応答が入力された）収音器１１毎に行われ、各収音器１１の位置におけるインパルス応答が推定される。

　フィルタ係数統合部４０で合成された広指向性の推定インパルス応答は、残響時間推定部４１に入力される。残響時間推定部４１では以下の処理が行われる。まず、推定インパルス応答を複数チャンネルのバンドパスフィルタに通して帯域を分割する。分割するチャンネルの数や各チャンネルの周波数帯域は任意であるが、例えば、３１５Ｈｚ～８０００Ｈｚまでを１５のチャンネルに分割するなどの帯域分割を行えばよい。この処理により、各周波数帯域（チャンネル）の信号成分のインパルス応答が推定される。この処理が図８のＳ１０５の処理である。この処理も各収音器１１毎に行われる。

　残響時間推定部４１は、各周波数帯域の推定インパルス応答に基づき、各周波数帯域の信号の残響時間を求める。残響時間は、一般的に信号レベルが－６０ｄＢ（１００万分の１）に減衰するまでの時間を言い、その算出・推定方法は種々あるが、ここではシュレーダー法により残響時間を求めればよい。シュレーダー法は、インパルス応答をシュレーダー積分または後方累積加算によって、図９（Ａ）に例示するようなシュレーダー曲線（残響減衰曲線）を求め、この曲線が－６０ｄＢになるまでの時間を求めれば良い。簡略にはシュレーダー曲線の直接音や誤差成分等の含まれない所定区間を取り出してその区間の傾きをこの曲線の傾きとし、この傾きにより０ｄＢから－６０ｄＢまで減衰する時間を推定してもよい。この処理が、図８のＳ１０６に相当し、各収音器１１毎の周波数帯域毎に行われ、各収音器１１の位置における周波数帯域毎の残響時間が推定される。

　そして、複数の残響時間推定部４１によって推定された、各収音器１１の位置における周波数帯域毎の残響時間は、残響時間統合部４２に入力される。残響時間統合部４２は、各収音器１１の位置における残響時間を周波数帯域毎に合成する。この処理が図８のＳ１０７の後段統合処理であり、各周波数帯域毎に行われる。

　この後段統合処理の合成は、周波数帯域毎に各収音器１１の残響時間を加算平均することによって行われるが、平均値から極端に離れている残響時間値（外れ値）は、平均から除外してもよい。また、外れ値が多い収音器１１については、部屋の隅など偏った特性が出やすい場所に設置されている可能性があるとして、その収音器１１の残響時間は全ての周波数帯域において全面的に後段統合処理から除外するようにしてもよい。この除外の処理は、通信器１０の判断で行ってもよく、会議室Ｃにこのシステムを設置する係員が、収音器１１または通信器１０に対するマニュアル操作で、特定の収音器１１、たとえば上記部屋の隅に設置される収音器１１などをこの後段統合の対象から除外するように設定可能にしてもよい。この場合、統合対象から除外された収音器１１については、Ｓ１０３以下の処理は不要になり、処理が軽減される。

　後段統合処理によって求められた各周波数帯域毎の残響時間を周波数軸にプロットすることにより、例えば、図９（Ｂ）に示すような会議室Ｃ全体の平均した残響特性が求められる。この残響特性に基づき、どの周波数帯域の残響時間が長いかなどの判定が可能になる。

　残響時間統合部４２によって求められた残響特性は、補正特性算出部４３に入力される。補正特性算出部４３は、入力された残響特性に基づき、スピーカ２６から放音された音声が、その音声の残響音によって覆い隠されないように、残響時間の長い周波数帯域を抑制するような周波数領域の補正特性を決定する。補正特性の決定は、周波数帯域ごとに残響時間の閾値を定めておき、残響時間が閾値を超えている周波数帯域を抽出してこの周波数帯域のパワーを抑制する方法や、残響音を抑制する既知のフィルタリング法、周波数帯域ごとのゲインテーブルを用いることで周波数帯域ごとのパワーの抑制量を定める方法などを選択することができる。周波数帯域ごとのゲインテーブルは図１０に示すようなものが使用できる。このゲインテーブルは縦軸がゲイン（ｄＢ）、横軸が残響時間ＲＴ（秒）となっており、周波数帯域ごとのゲイン値が傾きを有する線分で示されている。ｆ１～ｆｎの線分は、上述したバンドパスフィルタにより分割された周波数帯域に対応し、ｆ１が低音域側、ｆｎが高音域側となっている。例えば帯域ｆ３において残響時間が１．０秒であればゲインは－３０ｄＢと定められる。このゲインテーブルでは低音域の線分がより急峻な傾きをもつように設定されている。高帯域側のｆ４では残響時間が１．０秒であればゲインは－２４ｄＢ付近となる。このように低音域の残響時間が長い場合には、この低音域を高音域の残響時間が長い場合よりも強く抑制するような補正特性が決定される。

　なお、ゲイン値には下限があり、所定の値（図に示したゲインテーブルでは－３０ｄＢ）を超える抑制は行われないようにしている。また各周波数帯域において所定の残響時間（ｆ３においては１．０秒）を超えた場合はゲインの下限値を適用するようにしている。また、ゲインテーブルは図１１のように複数の線分が収束する収束点が一定の残響時間だけ正方向にずれて設定されているものでもよい。この図の場合は残響時間が１．０秒以下の場合はゲインが０ｄＢとなる。この処理が図８のＳ１０８である。決定された補正特性はフィルタ係数算出部４４に入力される。

　フィルタ係数算出部４４は、フィルタ２４が補正特性算出部４３で算出された補正特性を持つようにフィルタ特性を決定する。フィルタ２４は、ＦＩＲフィルタやＩＩＲフィルタで構成される。フィルタ係数は、フィルタ２４の構成に合わせて、離散時間逆フーリエ変換や、パラメトリックなピークフィルタなどの演算によって算出される。この処理が図８のＳ１０９である。算出されたフィルタ係数は、フィルタ２４に設定される（Ｓ１１０）。このフィルタ２４で放音信号をフィルタリングすることにより、スピーカ２６から放音された音声の残響が抑制され、参加者Ｍにとって明瞭度の高い音声となる。

　以上の実施形態では、エコーキャンセラ３２のフィルタ係数を用いて会議室Ｃの残響特性を推定し、残響の長い周波数帯域を抑制することによって放音された音声の明瞭度が低下しないようにした。さらに、エコーキャンセラ３２のフィルタ係数を用いて会議室Ｃの周波数特性を推定し、放音された音声がフラットな特性で聴取されるように、放音信号の周波数特性を、会議室Ｃの周波数特性をキャンセルするように補正してもよい。これにより、残響だけでなく会議室Ｃの周波数特性を原因とする明瞭度の低下も防ぐことができる。

　図１２に、パラメータ推定部の変形例を示す。この図のパラメータ推定部２３′は、残響を抑制する補正特性に加えて、周波数特性を補正する補正特性を決定してフィルタ２４に設定する。図１２において、図７と同一構成の部分は同一番号を付して説明を省略する。この図のパラメータ推定部２３′は、図７のパラメータ推定部２３の構成に加えて、各収音器１１毎の周波数特性推定部４５、および、周波数特性統合部４６をさらに備えている。

　フィルタ係数統合部４０から出力された各収音器１１毎の広指向性（無指向性）の推定インパルス応答は、残響時間推定部４１に入力されるとともに、周波数特性推定部４５に入力される。周波数特性推定部４５は、入力されたインパルス応答をフーリエ変換して、その収音器１１の位置における周波数特性を算出する。この周波数特性は周波数特性統合部４６に入力される。周波数特性統合部４６は、各周波数特性推定部４５から入力された各収音器１１における周波数特性を合成して、会議室Ｃにおける全体の周波数特性の平均値を算出する。この平均値の算出は、単純に相加平均してもよく、各周波数特性を正規化したのち平均を求めても良い。

　周波数特性統合部４６によって求められた会議室Ｃの周波数特性は、補正特性算出部４３′に入力される。補正特性算出部４３′は、残響時間の長い周波数帯域を抑制するような特性であり、且つ、放音された音声が会議室Ｃに影響された周波数特性をキャンセルしてフラットな伝達特性を経て聴者に届くような補正特性を算出する。またこの算出方法は、フラットな伝達特性を経て聴者に届くような補正特性ではなく、あらかじめ設定された任意の理想的な伝達特性を経て聴者に届くような補正特性を算出してもよい。算出された補正特性はフィルタ係数算出部４４に入力される。フィルタ係数算出部４４は、フィルタ２４が補正特性算出部４３′で算出された補正特性を持つようにフィルタ特性を決定する。算出されたフィルタ係数は、フィルタ２４に設定される。このフィルタ２４で放音信号をフィルタリングすることにより、スピーカ２６から放音された音声はフラットな伝達特性を経たような特性を有するとともにその残響が抑制され、参加者Ｍにとって明瞭度の高い音声となる。

　上記の実施形態では、前段統合を通信器１０が行っているが、これを収音器１１に行わせてもよい。図８において、Ｓ１０１－Ｓ１０３の処理は収音器１１で行うことが好適である。また、Ｓ１０７以下の処理は通信器１０が行うことが好適である。その間のＳ１０４－Ｓ１０６の処理は、収音器１１、通信器１０のいずれが行ってもよい。

　上記の実施形態では、スピーカ２６を備えた通信器１０に、マイク素子３１を備えた収音器１１が接続される形態の音声会議システムについて説明したが、複数のマイク素子３１とスピーカ２６を一体に備えた（通信器１０のみの）音声会議装置に対しても、本発明は適用可能である。

　また、通信器１０と収音器１１との接続の形態は、有線接続に限定されない。たとえば、無線ＬＡＮや近距離無線通信規格などの無線接続であってもよい。

　また、収音器１１の形状やマイク素子３１の数は、図１や図４に示したものに限定されない。たとえば、円盤状の筐体の周縁部に２つまたは４つのマイク素子３１を等間隔に設けてもよい。この場合、各マイク素子３１の角度は、１８０度または９０度となる。また、間隔（角度）は等間隔でなくてもよい。会議参加者Ｍに向ける方向に片寄せてマイク素子３１を設けても良い。

　通信器１０に複数台の収音器１１を接続する場合、図１３に示すように、複数の収音器１１をケーブル１２でディジーチェーン接続する形態でもよい。この接続形態にすることで、全ケーブル長を節約することができる。通信インタフェース２１および３４をＬＡＮインタフェースとすることで、図１のスター型の接続および図１３のディジーチェーン型の接続の両方に対応させることも可能である。

　また、図１４（Ａ）～（Ｃ）に示すように、１つのマイク素子３１を内蔵するマイク５１，５２，５３，５４を複数組み合わせて（グループ化）し、この１つのグループ６０を１つの収音器１１として機能させてもよい。この場合、係員がテーブルマイク５１のグルーピング情報を予め通信器１０に設定しておくようにしてもよく、通信器１０のフロントエンドに信号振分部を設けて、通信器１０が自らグルーピングを行うようにしてもよい。この場合、信号振分部は、エコーキャンセラの適応フィルタの時間位置や、収音された音声信号の相関度などに基づき、類似した信号を収音しているテーブルマイク同士を同じグループとしてグルーピングするようにしてもよい。

　図１４（Ａ）は、複数のテーブルマイク（スタンドマイク）５１を組み合わせてグループ６０とした例を示している。また、図１４（Ｂ）は、複数のハンドマイク５２をグループ６０化した例を示している。ハンドマイク５２は有線であっても無線であってもよい。この場合はハンドマイクを持った話者が動くため一定距離に存在する複数のハンドマイク５２を１つのグループ６０として、各グループ６０ごとに適応フィルタ係数列を加算してもよい。ハンドマイク５２のグループ６０が複数存在する場合は、各グループの残響時間を算出して上述した残響特性を求めればよい。複数のハンドマイク５２が一定距離に存在することは、２つのハンドマイク５２の収音遅延差を算出することによる位置検出や、ハンドマイク５２が発する無線の強度を相互に検出することで判定することができる。

　また、収音器１１は、会議机Ｄ上に載置されるものでなくてもよい。すなわち、図１４（Ｃ）に示すように、天井から吊り下げられる吊りマイク５３や壁面に設置される壁面マイク５４などを用いてもよい。勿論、図１の収音器１１、テーブルマイク５１、ハンドマイク５２、吊りマイク５３および壁面マイク５４が混在していてもよい。

　また、本実施形態の音声会議システム１は、会議以外に用いることも当然可能である。また、使用される場所も会議室に限定されない。
　本発明の放収音装置は、スピーカと、スピーカに供給される音声信号である放音信号を処理するフィルタと、指向性を有する複数のマイクと、複数のエコーキャンセラと、第１統合部と、残響特性推定部と、演算部と、を備える。複数のエコーキャンセラは、複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号からスピーカによって放音された音声の回帰音信号をキャンセルする。第１統合部は、エコーキャンセラから取り出された適応フィルタ係数列を統合する。残響時間推定部は、統合されたフィルタ係数列に基づき、スピーカおよびマイクが存在する空間の周波数帯域ごとの残響時間を推定する。演算部は、残響時間の長い周波数帯域を抽出し、その周波数帯域のパワーを抑制するフィルタ係数を算出してフィルタに設定する。

　以下に、本開示を例示的に要約する。
　この発明の放収音装置は、複数のマイクを備える。前記複数のマイクは例えば会議などに好適化された指向性マイクである。各マイクには、スピーカ音のエコーをキャンセルするためのエコーキャンセラが設けられている。エコーキャンセラは、疑似回帰音信号を生成する適応フィルタを備え、スピーカとマイクとの間のインパルス応答を模擬した適応フィルタ係数（推定インパルス応答）を持つ。また、この推定インパルス応答は、放音信号およびマイクの収音信号に基づいて常に更新されている。マイクは指向性マイクであるため、この推定インパルス応答はマイクの指向性の方向から到来する残響成分しか多く含まず、会議室全体の残響特性を完全に現しているとはいえない。しかし、第１統合部が、複数の指向性マイクのパラメータを統合することにより、会議用の指向性マイクでありながら、広い範囲の方向から到来する残響成分を含むインパルス応答を模擬することができる。そして、この統合されたパラメータ（推定インパルス応答）を用いて残響時間を算出し、この残響を抑制するようなフィルタ係数を算出する。これにより、会議室全体の残響特性を正確に再現でき、効果的な残響の抑制ができる。また、推定インパルス応答は、エコーキャンセラが回帰音除去に使用するものがそのまま流用できるので、特別な計算量が必要にならず、また、このためにテスト音声を放音する必要も無い。

　例えば、複数のマイクを、水平の全方向にいずれかのマイクが感度を持つようそれぞれ異なる方向に向けて配置してもよい。マイクをこのように配置することにより、第１統合部で統合されたパラメータをほぼ無指向性のパラメータとすることが可能になる。

　例えば、前記演算部は、周波数帯域ごとに予め設定されている残響時間のしきい値と、前記推定された周波数帯域毎の残響時間とをそれぞれ比較し、前記残響時間が前記しきい値を超えている周波数帯域を抽出する。

　例えば、前記演算部が設定するフィルタ係数は、前記空間の周波数帯域における高音域の周波数帯域を抑制するパワーよりも前記空間の周波数帯域における低音域の周波数帯域を抑制するパワーの方が強い。

　例えば、前記第１統合部は、前記適応フィルタ係数をそれらの時間軸を揃えて、単純統合又は重み付けを変更して統合する。

　例えば、複数のマイクおよび複数のエコーキャンセラを含む収音器、および、スピーカおよびフィルタを含む通信器を、それぞれ別体としてもよい。これにより、設置の自由度が増すとともに、収音器を複数設けることも可能になる。

　例えば、収音器を複数設けるともに、第１統合部を、複数の収音器に対応して複数設け、さらに、残響時間推定部に、各収音器の残響時間を統合する第２統合部をさらに設けてもよい。そして、演算部は、第２統合部によって統合された残響時間に基づいてフィルタ係数を算出するようにしてもよい。

　これにより、装置が設置される部屋の複数の場所に集音器を設置することができ、多人数が参加する会議でも漏れなく発話音声を収音することができる。さらに、部屋の各所の残響時間を算出して第２統合部でこれを統合することができるため、偏りのない平均的な残響時間を得ることが可能になる。

　例えば、前記少なくとも一つの収音器は複数の収音器であり、前記第１統合部は、前記複数の収音器に対応して複数設けられ、前記放収音装置は、前記複数の収音器の前記第１統合部でそれぞれ統合された複数の適応フィルタ係数に基づいて、前記複数の収音器の位置における複数の周波数特性を算出する複数の周波数特性推定部と、前記複数の周波数特性推定部で算出された前記複数の周波数特性を統合する周波数特性統合部と、をさらに備える。

　本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
　本発明は、2014年4月14日出願の日本特許出願（特願2014-083209）に基づくものであり、その内容はここに参照として取り込まれる。

　本発明によれば、事前にテスト音声を再生しなくても、会議用の収音およびエコーキャンセル機能を利用して残響を抑制できる放収音装置を提供することができる。

　Ｃ…会議室、Ｄ…会議机、Ｍ…会議の参加者、１…音声会議システム、２…パーソナルコンピュータ、３…ネットワーク、１０…通信器、１１…収音器、２６…スピーカ、３１…マイク素子、５１…テーブルマイク、５２…ハンドマイク、５３…吊りマイク、５４…壁面マイク、６０…グループ

Claims

　スピーカと、
　前記スピーカに供給される音声信号である放音信号を処理するフィルタと、
　複数のマイクと、
　前記複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラと、
　前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合する第１統合部と、
　統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部と、
　前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する演算部と、
を備えた放収音装置。
　前記複数のマイクは、指向性を有する請求項１に記載の放収音装置。
　前記複数のマイクは、水平の全方向にいずれかのマイクが感度を持つようそれぞれ異なる方向に向けて配置されている請求項１または２に記載の放収音装置。
　前記演算部は、周波数帯域ごとに予め設定されている残響時間のしきい値と、前記推定された周波数帯域毎の残響時間とをそれぞれ比較し、前記残響時間が前記しきい値を超えている周波数帯域を抽出する請求項１から３のいずれか１項に記載の放収音装置。
　前記演算部が設定するフィルタ係数は、前記空間の周波数帯域における高音域の周波数帯域を抑制するパワーよりも前記空間の周波数帯域における低音域の周波数帯域を抑制するパワーの方が強い請求項１から４のいずれか１項に記載の放収音装置。
　前記第１統合部は、前記適応フィルタ係数をそれらの時間軸を揃えて、単純統合又は重み付けを変更して統合する請求項１から５のいずれか１項に記載の放収音装置。
　前記複数のマイクおよび前記複数のエコーキャンセラが含まれる少なくとも一つの収音器と、前記スピーカおよび前記フィルタが含まれる少なくとも一つの通信器と、
　を備え、
　前記収音器及び前記通信器は別体に構成されている請求項１から６のいずれか１項に記載の放収音装置。
　前記少なくとも一つの収音器は複数の収音器であり、
　前記第１統合部は、前記複数の収音器に対応して複数設けられ、
　前記残響時間推定部は、前記複数の収音器のそれぞれの残響時間を統合する第２統合部をさらに有し、
　前記演算部は、前記第２統合部によって統合された残響時間に基づいて、前記フィルタ係数を算出する請求項７に記載の放収音装置。
　前記少なくとも一つの収音器は複数の収音器であり、
　前記第１統合部は、前記複数の収音器に対応して複数設けられ、
　当該放収音装置は、
　前記複数の収音器の前記第１統合部でそれぞれ統合された複数の適応フィルタ係数に基づいて、前記複数の収音器の位置における複数の周波数特性を算出する複数の周波数特性推定部と、
　前記複数の周波数特性推定部で算出された前記複数の周波数特性を統合する周波数特性統合部と、
をさらに備える請求項７に記載の放収音装置。
　スピーカに供給される音声信号である放音信号をフィルタによって処理し、
　複数のマイクの各々に対応して設けられた複数のエコーキャンセラによって、前記複数のマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルし、
　前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合し、
　統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定し、
　前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する放収音方法。