WO2012161089A1

WO2012161089A1 - テレビ会議装置

Info

Publication number: WO2012161089A1
Application number: PCT/JP2012/062665
Authority: WO
Inventors: 純生佐藤; 永雄服部
Original assignee: シャープ株式会社
Priority date: 2011-05-26
Filing date: 2012-05-17
Publication date: 2012-11-29
Also published as: JP2012248986A; JP5912294B2

Abstract

　既存のテレビ会議システムの機器との互換性が高く、映像と音像方向が一致するような実在感のあるテレビ会議を実施できるテレビ会議装置を、コストを大きく増加させずに提供する。テレビ会議装置は、発話側装置（１０）として左右の２つのマイク（１１Ｌ），（１１Ｒ）とカメラ（１５）を備え、受話側装置（３０）として３つ以上のスピーカ（３４）が水平方向に並べられたスピーカアレイとディスプレイ（３５）を備える。装置（１０）は入力の左右２つの音声信号からモノラル音声信号とその音像方向を示す音像方向情報を生成する。装置（３０）は、発話側から受信の音像方向情報が示す音像方向を、スピーカアレイを発話側の２つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、発話側から受信のモノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する１つ又は複数のスピーカからモノラル音声信号が示す音声を出力させる。

Description

テレビ会議装置

　本発明は、テレビ会議を行うための端末として使用するテレビ会議装置に関する。

　従来から、カメラにより撮影した映像とマイクにより収音した音声を、遠隔地に電気あるいは光回線を経由して伝送する、所謂、テレビ会議システムが広く利用されている。

　このテレビ会議システムの品質において、音像の方向を映像と一致させることは、非常に重要である。映像の中の被写体から発話されている音声が、その被写体の方向から聞こえれば、遠隔地の相手があたかもこちらの空間にいるような感覚（実在感）を与え、会話や協調作業が促進され、遠隔地の相手との作業効率が高まる。

　ところで、音像の方向を推定するには一般に、撮影した画像から推定する方法と、あるいは収音した音声から推定する方法と、がある。

　撮影した画像から推定する方法は、発話者を画像認識によって特定し、その発話者の位置を画像情報により推定する。そして、その位置情報を、映像・音声信号とともに伝送し、復号化側で、その位置情報に音像を定位させる（例えば、特許文献１を参照）。

　収音した音声から推定する方法は、マイクを複数使用し、各マイクに入ってくる音声の音圧や時間差のずれから発話者位置を推定する。その後の音像の定位については上述した処理と同様である。

特許第４３２７８２２号公報

　上述の、収音した音声から音像位置を推定する方法に関して、一般に、複数のマイクを使用して収音すれば、その収音した音声から音像の方向を推定することが可能となる。しかし、そのような推定は、数個以上のマイクからなるマイクアレイを用いて行うことが一般的であり、マイクアレイのコストが増大してしまうという問題がある。

　一方で、上述の、撮影した画像から音像位置を推定する方法は、発話者を画像認識する必要があり、現状の画像認識技術の水準では大人数に対応できない。また、仮に可能であるとしても、映像信号処理に必要な計算機演算量は音声信号処理に比べ格段に大きいため、高スペックの演算処理装置を搭載する必要があり、製品コストが増大してしまうという問題がある。

　このように、製品コストを下げるためにはマイクの個数やスピーカの個数、そして信号処理の演算量をなるべく少なくすることが望ましいが、従来のテレビ会議システムの機器にて音像位置を推定するためには、マイクの個数や演算量を下げることは難しい。

　ところで、現在、広く普及しているテレビ会議システムにおいて音声符号化・復号化方式として採用している標準化方式は、モノラル音声を伝送する方式が殆どであるため、ステレオ（２ｃｈ）音声信号やそれ以上のチャネル数の信号を伝送する場合には各メーカの機器間で互換性がない。このように、モノラル音声信号が各メーカの機器間で互換性を持って通信できる唯一の信号であり、モノラル音声信号の伝送路を使用して音声信号を伝送できることは、互換性を持った機器において必須の機能である。

　しかしながら、収音した音声から音像位置を推定する方法を採用した場合、複数のマイクで収音した２チャネル以上の音声信号をネットワークを介して送信する必要があり、各メーカの機器間で互換性を持たせることが望まれる。また、それ以外の方法を採用した場合でも、同様に互換性を持たせることが望まれる。

　本発明は、上述のような実状に鑑みてなされたものであり、その目的は、既存のテレビ会議システムの機器との互換性が高く、且つ映像と音像方向が一致するような実在感のあるテレビ会議を実施することが可能なテレビ会議装置を、コストを大きく増加させることなく提供することにある。

　上述したような課題を解決するために、本発明の第１の技術手段は、左右の２つのマイクと、該２つのマイクによって収音する対象の空間を撮影するカメラとを発話用に備えるとともに、３つ以上のスピーカが水平方向に並べられたスピーカアレイと、ディスプレイとを受話用に備え、ネットワークを介して他のテレビ会議装置と通信するテレビ会議装置であって、前記他のテレビ会議装置において２つのマイクで収音された左右２つの音声信号から生成・送信された、モノラル音声信号及び該モノラル音声信号の音像方向を示す音像方向情報を、処理する受話側の音声信号処理部を備え、該受話側の音声信号処理部は、前記音像方向情報が示す音像方向を、前記スピーカアレイを前記他のテレビ会議装置の前記２つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、前記モノラル音声信号が変換後の音像方向に定位するように、該変換後の音像方向に対応する１つあるいは複数の前記スピーカから前記モノラル音声信号が示す音声を出力させる処理を行うことを特徴としたものである。

　第２の技術手段は、第１の技術手段において、前記テレビ会議装置は、前記２つのマイクで入力された左右２つの音声信号から、モノラル音声信号、及び該モノラル音声信号の音像方向を示す音像方向情報を生成する発話側の音声信号処理部を、更に備えたことを特徴としたものである。

　第３の技術手段は、第１または第２の技術手段において、前記２つのマイクは、前記ディスプレイの両端に離して設置された無指向性マイクであることを特徴としたものである。

　第４の技術手段は、第１または第２の技術手段において、前記２つのマイクは、前記ディスプレイの両端に離して設置された指向性マイクであることを特徴としたものである。

　第５の技術手段は、第１または第２の技術手段において、前記２つのマイクは、前記ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであることを特徴としたものである。

　本発明によれば、既存のテレビ会議システムの機器との互換性が高く、且つ映像と音像方向が一致するような実在感のあるテレビ会議を実施することが可能なテレビ会議装置を、コストを大きく増加させることなく提供することができる。

本発明に係るテレビ会議装置を用いたテレビ会議システムの構成例を示す図である。図１のテレビ会議システムの符号化部における音声信号処理部の一構成例を示すブロック図である。図２の音声信号処理部において音声データをバッファに蓄える様子を示す図である。図２の後処理部に入力される音声信号の波形の一部を拡大した図である。左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図２の後処理部で施される不連続点除去処理の一例を説明するための模式図である。図４の音声信号に対し、図６の不連続点除去処理を施した結果を示す図である。図１のテレビ会議システムの復号化部における音声信号処理部の一構成例を示すブロック図である。２ｃｈ再生方式を説明するための模式図である。図１のテレビ会議システムにおいてスピーカ群として配置するスピーカアレイの一例を示す模式図である。受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。図１２の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。本発明に係るテレビ会議装置の例を示す外観図である。本発明に係るテレビ会議装置の他の例を示す外観図である。本発明に係るテレビ会議装置の他の例を示す外観図である。本発明に係るテレビ会議装置の他の例を示す外観図である。本発明に係るテレビ会議装置の他の例を示す外観図である。

　本発明に係るテレビ会議装置は、テレビ会議を行うための端末として使用する装置であって、ネットワークを介して他のテレビ会議装置と通信することでテレビ会議の環境を提供する。本発明に係るテレビ会議装置は、概略的に説明すると、発話側では、ステレオ入力音声信号のみから音像方向を推定し（音像位置を推定するとも言える）、モノラル音声信号とその音像方向を示す情報を伝送して、受信側では、その音像方向に対応するようにスピーカアレイに定位させるように、モノラル音声信号が示す音声を出力させる。これにより、実在感のある映像と音声の伝送が、少ない演算量とモノラル音声信号のみの伝送で可能となる。

　以下、図面を参照しながら、本発明に係るテレビ会議装置の構成例及び処理例について説明する。
　図１は、本発明に係るテレビ会議装置を用いたテレビ会議システムの構成例を示す図である。以下、テレビ会議システムを構成する発話側（符号化側）の装置１０と受話側（復号化側）の装置３０とに分けて説明するが、本発明に係るテレビ会議装置は双方の装置１０，３０の機能を持っている。

　符号化側の装置１０は、２つのマイク１１Ｌ，１１Ｒ、増幅器１２Ｌ，１２Ｒ、Ａ／Ｄコンバータ１３、符号化部１４、及びカメラ１５を備える。マイク１１Ｌ，１１Ｒはそれぞれ左チャネルのマイク、右チャネルのマイクであり、増幅器１２Ｌ，１２Ｒはそれぞれマイク１１Ｌ，１１Ｒで収音された音声信号を増幅させる。Ａ／Ｄコンバータ１３は、増幅器１２Ｌ，１２Ｒから出力された左右の音声信号をそれぞれ左右のデジタル音声信号に変換する。カメラ１５は、２つのマイク１１Ｌ，１１Ｒによって収音する対象の空間を撮影し、デジタル映像信号として出力するものであり、必要に応じて画像処理が施される。

　符号化部１４は、Ａ／Ｄコンバータ１３から出力された左右のデジタル音声信号を符号化するとともに、カメラ１５から出力されたデジタル映像信号を符号化する。符号化部１４は、本発明の主たる特徴の一つである発話側の音声信号処理部を有する。この発話側の音声信号処理部は、２つのマイク１１Ｌ，１１Ｒで入力された左右２つの音声信号から、モノラル音声信号と、そのモノラル音声信号の音像方向を示す音像方向情報とを生成する。ただし、この発話側の音声信号処理部は符号化部１４以外に設けられていてもよい。

　また、符号化側の装置１０は、符号化されたデジタルデータを復号化側の装置３０に伝送するための通信部（図示せず）も備える。送信されるデジタルデータには、モノラル音声信号、映像信号の他に上記音像方向情報を含んでいる。

　復号化側の装置３０は、符号化側の装置１０から送信されたデータを受信する通信部（図示せず）を備える。以下、特に説明しないが、装置１０と装置３０との間のデータのやり取りは、通常、データのやり取りを管理するサーバを介して行われる。このデータのやり取りは、例えば、そのテレビ会議システムの専用の高セキュリティのサーバを介して行われてもよいし、一般的なチャットサーバを介して行われてもよい。

　復号化側の装置３０は、さらに復号化部３１、Ｄ／Ａコンバータ３２、複数の増幅器３３、及び３つ以上のスピーカ３４を備える。３つ以上のスピーカ３４は、水平方向に並べられており、スピーカアレイをなしている。

　そして、復号化側の装置３０は、本発明の主たる特徴の一つである受話側の音声信号処理部を有する。この受話側の音声信号処理部は、音声に関する処理を簡単に説明したように、他のテレビ会議装置から受信したモノラル音声信号及び音像方向情報を処理する受話側の音声信号処理部を有する。この受話側の音声信号処理部は、その詳細な例については後述するが、音像方向情報が示す音像方向を、３つ以上のスピーカ３４でなるスピーカアレイを発話側の装置における２つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、モノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する１つあるいは複数のスピーカからモノラル音声信号が示す音声を出力させる処理を行う。

　復号化側の装置３０の各構成要素についてその概略を説明する。まず、復号化部３１は、他のテレビ会議装置から受信したデジタルデータを復号化し、復号化したデジタルデータのうち映像信号をディスプレイ３５に渡すとともに、モノラル音声信号及び音像方向情報をＤ／Ａコンバータ３２に渡す。ディスプレイ３５は、復号化部３１から入力された映像信号が示す映像を表示する。Ｄ／Ａコンバータ３２は、モノラル音声信号を音像方向情報を用いてその音像方向情報が示す音像方向のアナログ音声信号に変換し、出力させるスピーカ３４に対応する増幅器３３に出力する。各増幅器３３は、入力されたアナログ音声信号に対応するスピーカ３４に出力する。これにより、音像方向情報が示すスピーカ３４から対応する音声が出力される。ここで、音声の出力は、既存の技術により映像の表示と同期をとっておけばよい。

　このような構成のテレビ会議システムにおいて音声に注目し、音声の収音から再生までの概略を説明する。まず、発話者から発せられた音声は、左右２つのマイク１１Ｌ，１１Ｒで収音され、それぞれ増幅器１２Ｌ，１２Ｒによって増幅される。そして、Ａ／Ｄコンバータ１３によって標本化されて離散音声信号となり符号化部１４に入力される。符号化部１４では、入力された離散音声信号を処理することによってモノラル音声信号と音像方向情報とを生成し、符号化する。この符号化データが通信部によりネットワークＮを介して復号化側の装置３０に伝送される。

　伝送された信号はネットワークＮを経由して復号化側の装置３０の通信部で受信される。受信された符号データは、復号化部３１によって復号され、その結果、音像方向情報が示す位置情報を反映した音声信号が生成される。それがＤ／Ａコンバータ３２によってアナログ信号に変換され、複数の増幅器３３を通して複数のスピーカ３４によって再生される。

　図２を参照しながら、符号化部１４における音声信号処理に関する部分である、上記発話側の音声信号処理部を説明する。図２は、図１のテレビ会議システムの符号化部における音声信号処理部の一構成例を示すブロック図である。

　図２で例示する音声信号処理部２０は、前処理部２１、離散フーリエ変換部２２、信号分離抽出部２３、ゲイン調整部２４Ｌ，２４Ｓ，２４Ｒ、合成部２５、離散フーリエ逆変換部（逆離散フーリエ変換部）２６、後処理部２７、及び圧縮符号化処理部２８を備える。

　前処理部２１は、入力された左右の音声信号を読み込み、それぞれ窓関数演算を行う。離散フーリエ変換部２２は、それら信号を時間領域の表現から周波数領域の表現に変換する。信号分離抽出部２３は、変換後の音声信号を相関信号と左右チャネルそれぞれから分離される無相関信号に分離するとともに、音像方向情報の抽出も行う。抽出された音声方向情報は、圧縮符号化処理部２８に出力される。

　ゲイン調整部２４Ｌ，２４Ｓ，２４Ｒは、それぞれの分離された信号成分（左の無相関信号、相関信号、右の無相関信号）を入力し、それぞれスケーリング処理、つまりゲインを増加または減少させるゲイン係数乗算処理を施す。合成部２５は、スケーリング後の音声信号を足し合わせて、離散フーリエ逆変換部２６に出力する。なお、合成部２５は、３つの音声信号を加算処理（つまり重ね合わせ処理）するため、加算部あるいは重ね合わせ部とも言える。

　離散フーリエ逆変換部２６は、足し合わせた音声信号を、再び時間領域に戻し、後処理部２７に出力する。後処理部２７は、離散フーリエ逆変換部２６からの出力信号にノイズ除去処理を施して、圧縮符号化処理部２８に出力する。そして、圧縮符号化処理部２８は、後処理部２７で後処理後の音声信号と信号分離抽出部２３で抽出された音像方向情報とを、圧縮符号化する。

　以下、図３を併せて参照しながら、音声信号処理部２０の各部についてそれぞれ具体的な処理例を説明する。図３は、図２の音声信号処理部において音声データをバッファに蓄える様子を示す図である。

　まず、前処理部２１について説明する。前処理部２１は、１セグメントの半分の長さの音声データ（音声信号のデータ）を、図１におけるＡ／Ｄコンバータ１３から読み出す。ここで、音声信号は、Ａ／Ｄコンバータ１３によって例えば１６ｋＨｚの標本化周波数で標本化されているとする。また、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば１０２４とする。この例では、１セグメントの半分の長さである５１２点の音声データが読み出し対象となる。

　読み出した５１２点の音声データは、図３で例示するようなバッファ３に蓄えられる。このバッファ３は、直前の１セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて１セグメント分の音声データを作成し、そのデータに対して窓関数演算を行う。すなわち、全ての標本データは窓関数演算のために２回読み込まれることになる。

　窓関数演算では、従来提案されている次のＨａｎｎ窓を１セグメント分の音声データに乗算する。

　ここで、ｍは自然数、Ｍは１セグメント長で偶数とする。ステレオの入力信号をそれぞれｘ_Ｌ（ｍ）、ｘ_Ｒ（ｍ）とすると、窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、

　　ｘ′_Ｌ（ｍ）＝ｗ（ｍ）ｘ_Ｌ（ｍ）　、
　　ｘ′_Ｒ（ｍ）＝ｗ（ｍ）ｘ_Ｒ（ｍ）　　　　　　　　　　　　　　　(2)
と計算される。このＨａｎｎ窓を用いると、例えば標本点ｍ_０（ただし、Ｍ／２≦ｍ_０＜Ｍ）の入力信号ｘ_Ｌ（ｍ_０）にはｓｉｎ^２（（ｍ_０／Ｍ）π）が乗算される。そして、その次の回の読み込みではその同じ標本点がｍ_０－Ｍ／２として読み込まれるので、

が乗算される。ここで、ｓｉｎ^２（（ｍ_０／Ｍ）π）＋ｃｏｓ^２（（ｍ_０／Ｍ）π）＝１であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。

　そうして得られた音声データを、次の数式(3)のように離散フーリエ変換部２２で離散フーリエ変換し、周波数領域の音声データを得る。ここで、ＤＦＴは離散フーリエ変換を表し、ｋは自然数で、０≦ｋ＜Ｍである。Ｘ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）は複素数となる。
　　Ｘ_Ｌ（ｋ）＝ＤＦＴ（ｘ′_Ｌ（ｎ））　、
　　Ｘ_Ｒ（ｋ）＝ＤＦＴ（ｘ′_Ｒ（ｎ））　　　　　　　　　　　　(3)

　次に、信号分離抽出部２３について説明する。信号分離抽出部２３は、得られた周波数領域の音声データを小さい帯域に分割する。分割方法についてはEquivalent Rectangular Band（ＥＲＢ）を用い、ＥＲＢの帯域幅で０Ｈｚから標本化周波数の１／２の周波数までの間を分割する。ここで、ＥＲＢにより、与えられた周波数の上限ｆ_ｍａｘ［Ｈｚ］までをいくつに分割するか、すなわちＥＲＢで分割した各帯域の索引の最大値Ｉは次式によって与えられる。
　　Ｉ＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７ｆ_ｍａｘ＋１））　(4)
　ただし、ｆｌｏｏｒ（ａ）はフロア関数で、実数ａを越えない整数の最大値を表す。

　そして、それぞれのＥＲＢ幅の帯域（以下、小帯域）の中心周波数Ｆ_ｃ ^（ｉ）（１≦ｉ≦Ｉ）［Ｈｚ］は次式によって与えられる。

　また、その時のＥＲＢの帯域幅ｂ^（ｉ）［Ｈｚ］は次式によって求められる。
　　ｂ^（ｉ）＝２４.７（０.００４３７Ｆ_ｃ ^（ｉ）＋１）　　　　　　　　　　(6)
　よって、その中心周波数から低域側と高域側にそれぞれＥＲＢ／２の周波数幅だけシフトすることによりｉ番目の小帯域の両側の境界周波数Ｆ_Ｌ ^（ｉ）、Ｆ_Ｕ ^（ｉ）を求めることができる。したがって、ｉ番目の小帯域には、Ｋ_Ｌ ^（ｉ）番目の線スペクトルからＫ_Ｕ ^（ｉ）番目の線スペクトルが含まれる。ここで、Ｋ_Ｌ ^（ｉ）、Ｋ_Ｕ ^（ｉ）はそれぞれ次の数式(7)、(8)で表される。
　　Ｋ_Ｌ ^（ｉ）＝ｃｅｉｌ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｌ ^（ｉ）＋１））　(7)
　　Ｋ_Ｕ ^（ｉ）＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｕ ^（ｉ）＋１））(8)
　ただし、ｃｅｉｌ（ａ）は天井関数で、実数ａより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばＸ_Ｌ（０）を除いて、Ｍ／２（ただし、Ｍは偶数）を境に対称となっている。すなわち、Ｘ_Ｌ（ｋ）とＸ_Ｌ（Ｍ－ｋ）は０＜ｋ＜Ｍ／２の範囲で複素共役の関係になる。したがって、以下ではＫ_Ｕ ^（ｉ）≦Ｍ／２の範囲を分析の対象として考え、ｋ＞Ｍ／２の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。

　これらの具体例を示す。例えば、標本化周波数が１６０００Ｈｚの場合、Ｉ＝３３となり、３３の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が１となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。

　次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する。

　この正規化相関係数ｄ^（ｉ）は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、０から１の間の実数の値をとる。全く同じ信号同士であれば１、そして全く無相関の信号同士であれば０となる。ここで、左右のチャネルの音声信号の電力Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）の両方が０である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）のいずれか片方が０である場合、数式(9)では演算不可能であるが、正規化相関係数ｄ^（ｉ）＝０とし、その小帯域の処理を続行する。

　次に、この正規化相関係数ｄ^（ｉ）を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め、求めたそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。

　変換係数の算出及び信号の分離抽出の処理例を説明する。ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号ｘ_Ｌ（ｎ）、ｘ_Ｒ（ｎ）は、
　　ｘ_Ｌ（ｍ）＝　ｓ（ｍ）＋ｎ_Ｌ（ｍ）、
　　ｘ_Ｒ（ｍ）＝αｓ（ｍ）＋ｎ_Ｒ（ｍ）　　　　　　　　　　　　(13)
と表される。ここで、ｓ（ｍ）は左右の相関信号、ｎ_Ｌ（ｍ）は左チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（左チャネルの）無相関信号として定義できるもの、ｎ_Ｒ（ｍ）は右チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（右チャネルの）無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。

　数式(13)により、数式(2)で前述した窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、次の数式(14)で表される。ただし、ｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）はそれぞれｓ（ｍ）、ｎ_Ｌ（ｍ）、ｎ_Ｒ（ｍ）に窓関数を乗算したものである。
　　ｘ′_Ｌ（ｍ）＝ｗ（ｍ）｛　ｓ（ｍ）＋ｎ_Ｌ（ｍ）｝＝　ｓ′（ｍ）＋ｎ′_Ｌ（ｍ）、
　　ｘ′_Ｒ（ｍ）＝ｗ（ｍ）｛αｓ（ｍ）＋ｎ_Ｒ（ｍ）｝＝αｓ′（ｍ）＋ｎ′_Ｒ（ｍ）
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　(14)

　数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、Ｓ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）はそれぞれｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）を離散フーリエ変換したものである。
　　Ｘ_Ｌ（ｋ）＝　Ｓ（ｋ）＋Ｎ_Ｌ（ｋ）、
　　Ｘ_Ｒ（ｋ）＝αＳ（ｋ）＋Ｎ_Ｒ（ｋ）　　　　　　　　　　　　(15)

　したがって、ｉ番目の小帯域における音声信号Ｘ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）は、
　　Ｘ_Ｌ ^（ｉ）（ｋ）＝　　　Ｓ^（ｉ）（ｋ）＋Ｎ_Ｌ ^（ｉ）（ｋ）、
　　Ｘ_Ｒ ^（ｉ）（ｋ）＝α^（ｉ）Ｓ^（ｉ）（ｋ）＋Ｎ_Ｒ ^（ｉ）（ｋ）
　　ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ）　　　　　　　　　　　　　　　　　(16)
と表現される。ここで、α^（ｉ）はｉ番目の小帯域におけるαを表す。以後、ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）、無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）をそれぞれ、
　　Ｓ^（ｉ）（ｋ）＝Ｓ（ｋ）、
　　Ｎ_Ｌ ^（ｉ）（ｋ）＝Ｎ_Ｌ（ｋ）、
　　Ｎ_Ｒ ^（ｉ）（ｋ）＝Ｎ_Ｒ（ｋ）
　　ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ）　　　　　　　　　　　　　　　　　(17)
とおくこととする。

　数式(16)から、数式(12)の音圧Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）は、
　　Ｐ_Ｌ ^（ｉ）＝Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ）、
　　Ｐ_Ｒ ^（ｉ）＝［α^（ｉ）］^２Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ）　　　　　　　　　　　　(18)
と表される。ここで、Ｐ_Ｓ ^（ｉ）、Ｐ_Ｎ ^（ｉ）はｉ番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、

と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。

　また、数式(10)～(12)より、数式(9)は、

と表すことができる。ただし、この算出においてはＳ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）が互いに直交し、かけ合わされたときの電力は０と仮定している。

　数式(18)と数式(20)を解くことにより、次の式が得られる。

　これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）の推定値est（Ｓ^（ｉ）（ｋ））を、媒介変数μ_１、μ_２を用いて、
　　est（Ｓ^（ｉ）（ｋ））＝μ_１Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_２Ｘ_Ｒ ^（ｉ）（ｋ）　　　(23)
とおくと、推定誤差εは、
　　ε＝est（Ｓ^（ｉ）（ｋ））－Ｓ^（ｉ）（ｋ）　　　　　　　　　　　(24)
と表される。ここで、est（Ａ）はＡの推定値を表すものとする。そして二乗誤差ε^２が最少になるとき、εとＸ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）はそれぞれ直交するという性質を利用すると、
　　Ｅ［ε・Ｘ_Ｌ ^（ｉ）（ｋ）］＝０　、　Ｅ［ε・Ｘ_Ｒ ^（ｉ）（ｋ）］＝０　(25)
という関係が成り立つ。数式(16)、(19)、(21)～(24)を利用すると、数式(25)から次の連立方程式が導出できる。
　　　　　（１－μ_１－μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）－μ_１Ｐ_Ｎ ^（ｉ）＝０
　　α^（ｉ）（１－μ_１－μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）－μ_２Ｐ_Ｎ ^（ｉ）＝０
　　　　　　　　　　　　　　　　　　　　　　　　　　　　(26)

　この数式(26)を解くことによって、各媒介変数が次のように求まる。

　ここで、このようにして求まる推定値est（Ｓ^（ｉ）（ｋ））の電力Ｐ_est（Ｓ） ^（ｉ）が、数式(23）の両辺を二乗して求まる次の式
　　Ｐ_est（Ｓ） ^（ｉ）＝（μ_１＋α^（ｉ）μ_２）^２Ｐ_Ｓ ^（ｉ）＋（μ_１ ^２＋μ_２ ^２）Ｐ_Ｎ ^（ｉ）　　　　　　　　 (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′（Ａ）はＡの推定値をスケーリングしたものを表す。

　そして、ｉ番目の小帯域における左右チャネルの無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）に対する推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））はそれぞれ、
　　est（Ｎ_Ｌ ^（ｉ）（ｋ））＝μ_３Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_４Ｘ_Ｒ ^（ｉ）（ｋ）　　(30)
　　est（Ｎ_Ｒ ^（ｉ）（ｋ））＝μ_５Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_６Ｘ_Ｒ ^（ｉ）（ｋ）　　(31)
とおくことにより、上述の求め方と同様にして、媒介変数μ_３～μ_６は、

と求めることができる。このようにして求めた推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））も上述と同様に、次の式によってそれぞれスケーリングする。

　数式(27)、(32)、(33)で示した各媒介変数μ_１～μ_６及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップＳ８６で求める変換係数に該当する。そして、ステップＳ８７では、これらの変換係数を用いた演算（数式(23)、(30)、(31)）により推定することで、相関信号と無相関信号（右チャネルの無相関信号、左チャネルの無相関信号）とを分離抽出する。

　以上のように、信号分離抽出部２３は、このようにして分離された信号を出力することになるが、次に説明するように、仮想音源への割り当て処理が施された信号を出力することになる。そのため、音声信号処理部２０は、左右のチャネル用のゲイン調整部２４Ｌ，２４Ｒと相関信号用のゲイン調整部２４Ｓとを有する。信号分離抽出部２３は、左チャネルより分離された無相関信号est'（Ｎ_Ｌ ^（ｉ）（ｋ））を左チャネル用のゲイン調整部２４Ｌに出力し、右チャネルより分離された無相関信号est'（Ｎ_Ｒ ^（ｉ）（ｋ））を右チャネル用のゲイン調整部２４Ｒに出力し、両チャネルより分離された相関信号est'（Ｓ^（ｉ）（ｋ））を相関信号用のゲイン調整部２４Ｓに出力する。

　さらに、信号分離抽出部２３は、数式(21)のα^（ｉ）を、音像方向情報として、圧縮符号化処理部２８に出力する。各小帯域におけるこの値は、数式(13)に示したように、相関信号成分の左右の音圧バランスを示す値であるため、この値とマイク間の距離が分かれば、音像位置を特定することができる。

　ゲイン調整部２４Ｌ，２４Ｓ，２４Ｒでは、それぞれの信号をスケーリングする。通常、左右のマイク１１Ｌ，１１Ｒから入力される音声には背景ノイズが混在しているが、そのような背景ノイズは、左右のチャネル間の相関性が低いので、無相関信号として分離される確率が高い。その一方、発話者の音声信号は、主に相関信号として分離される。したがって、左右チャネルの無相関信号を、ゲイン調整部２４Ｌ，２４Ｒによって、相関信号と比べ相対的に減圧するか、あるいは相関信号をゲイン調整部２４Ｓによって、左右無相関信号と比べ相対的に増圧すれば、背景ノイズを抑圧することができ、結果として入力音声を明瞭にすることができる。

　次に合成部２５にて、スケーリング後のそれら３つの信号を、全ての小帯域で足し合わせ、さらに足し合わせた後の３つの信号を１つの信号として足し合わせる。これを離散フーリエ逆変換部２６で離散フーリエ逆変換することによって、モノラルの音声信号が得られる。このモノラルの音声信号は、上に述べた通り、左右の音声信号がモノラルの音声信号に変換され、さらにノイズ成分が抑圧されたものとなっている。

　そうして得られたモノラル音声信号は、後処理部２７に出力される。ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述したとおり、１つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。

　次に、後処理部２７について説明する。後処理部２７はノイズ除去処理を行う。図４を参照して、ノイズ除去の対象となるノイズについて説明する。図４は、図２の後処理部２７に入力される音声信号の波形の一部を拡大した図である。図４に示す音声信号４０は、中央付近４１にあるように不連続点が生じている。このような不連続点は、信号分離抽出部２３を経ることにより後処理部２７に入力されるデータに多数含まれてしまうため、それらが再生時に耳障りなノイズとして知覚されてしまうことになる。このような不連続点は、この音声信号処理方式が直流成分を無視して処理するため、すなわち直流成分の線スペクトルを考慮しないために生じる。

　図５はそれを模式的に示した波形のグラフである。より詳細には、図５は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図５に示すグラフ５０において、横軸は時間を表しており、例えば（Ｍ－２）^（ｌ）という記号は、ｌ番目のセグメントのＭ－２番目の標本点であることを示している。グラフ５０の縦軸は、それらの標本点に対する出力信号の値である。このグラフ５０から分かるように、ｌ番目のセグメントの最後から（ｌ＋１）番目のセグメントの最初にかけての部分で不連続点が生じてしまう。

　この問題に対し、ノイズ除去処理を行う。この処理は、波形の不連続点をなくすことによってノイズを除去できる方法であればどのようなものでもよいが、ここでは図６及び図７を参照して、図５で説明したような問題を解決するためのこのような処理の一例について具体的に説明する。図６は、図２の後処理部２７で施される不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。また、図７は、図４の音声信号に対し、図６の不連続点除去処理を施した結果を示す図である。

　後処理部２７で施される不連続点除去処理の例では、図６のグラフ６０で図５のグラフ５０に対する除去例を示すように、ｌ番目のセグメントの最後の波形の微分値と（ｌ＋１）番目のセグメントの先頭の微分値が一致するようにする。
　具体的には後処理部２７が、ｌ番目のセグメントの最後の２点による傾きが維持されるような（ｌ＋１）番目のセグメントの先頭の値となるよう、（ｌ＋１）番目のセグメントの波形に直流成分（バイアス）を加える。その結果、処理後の出力音声信号ｙ″_ｊ（ｍ）は、処理前の出力音声信号をｙ′_ｊ（ｍ）として、
　　ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）＋Ｂ　　　　　　　　　　　　　　　　(36)
となる。Ｂはバイアスを表す定数であり、１回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図６のグラフ６０のように波形が連続するように決定される。

　また、図６で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。
　したがって、次式のように、加算するバイアス成分（直流成分）の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
　　ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）＋Ｂ×（（Ｍ－ｍσ）／Ｍ）　　　　　(37)
ただし、σはその減少の程度を調整するパラメータであり、例えば０.５などとする。なお、減少のためにはＢ，σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値（直流成分の振幅の大きさ）に応じて変更する（変化させる）ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。

　よって、例えばバイアス値がある一定（所定値）以上の値になった場合には、数式(37)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、後処理部２７は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する（不連続点の除去を実行する）ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。

　また、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような音声信号に上述した不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、上述した不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。

　この問題を解消するために、後処理部２７では次に示す方法で不連続点除去処理（ノイズ除去処理）を行うことが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内（例えば処理セグメント内やその半分内）で０を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、０をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号（少なくとも離散フーリエ逆変換後の音声信号）が半セグメント長の中で０を交差する回数をカウントし、それが一定の値（所定回数）以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(36)や数式(37)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。

　図４の音声信号４０における不連続点の箇所（中央付近４１）は、上述したようなノイズ除去処理により、図７の音声信号７０で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。

　このようにして得られたモノラル音声信号と、信号分離抽出部２３より出力された音像方向情報は、圧縮符号化処理部２８で符号化される。モノラル音声信号は、広く普及している、Ｇ．７１１、７２２、７２３．１、７２８、７２９などの音声符号化標準方式によって符号化されてもよいし、ＶｏＩＰ（Voice over Internet Protocol）アプリケーションなどの独自プロトコルによって符号化されてもよい。

　音像方向情報α^（ｉ）については、その値が１のときに左右の音圧が等しく、音像が左右マイクから等距離のところに推定されていることを意味する。よって、その値は１を境にして両側で確率が等しいことが期待される。したがって、そのような値を量子化するためには、例えば下記のように変換した値α′^（ｉ）を用いれば、その値は－１から１の範囲に納まり、効率良く量子化することが可能となる。
　　α′^（ｉ）＝（α^（ｉ）－１）／（α^（ｉ）＋１）　　　　　　　　　　　(38)

　このように変換したα′^（ｉ）を、例えば１６ステップ（４ビット）に線形量子化する。この値は小帯域ごとに必要となるので、各値に４ビット必要ということになる。通常、テレビ会議では複数の発話者が同時に発話することは少なく、さらに発話者が発話しながら動き回ることも稀であるため、α′^（ｉ）の符号化については、１つ前のフレームからの差分を符号化してもよいし、あるいは隣の小帯域の値からの差分を符号化してもよい。いずれにせよ、その値は０近傍となることが期待できるため、それをさらにハフマン符号化することによって、大幅な情報圧縮が可能となる。

　上述の音声信号については、ＩＴＵ－Ｒ　Ｈ．３２３など、既存の方式でそのまま伝送できるが、この音像位置情報については、音声信号とは別に伝送する必要がある。方法としては、もしユーザ定義のビットフィールドが存在する場合は、それで伝送すればよい。それが無い場合、例えばＧ．７１１や７２２のロスレス符号化の場合、音知覚にあまり影響しない下位ビットをこれに割り当てるなど、音声信号への埋め込みを行ってもよい。それ以外のロッシー符号化の場合は、例えば画像データの重要でない部分に、ＱＲコード（登録商標）のように埋め込むなどしてもよい。以上のようにして音像位置情報を伝送する。

　次に、図８を参照しながら、図１の復号化部３１における音声信号処理に関する部分である、上記受話側の音声信号処理部について説明する。図８は、図１のテレビ会議システムの復号化部における音声信号処理部の一構成例を示すブロック図である。

　図８で例示する音声信号処理部８０は、復号処理部８１、前処理部８２、離散フーリエ変換部８３、再生信号生成部８４、離散フーリエ逆変換部８５、及び後処理部８６を備える。

　復号処理部８１は、受信した符号語から、モノラル音声信号と音像方向情報とを抽出する。モノラル音声信号は前処理部８２に出力され、音像方向情報は再生信号生成部８４に出力される。前処理部８２は、符号化側の前処理部２１で行ったのと同様、窓関数演算を行う。符号化側では、ステレオ音声信号それぞれに対して演算を行ったが、復号化側ではモノラル音声信号に対して演算を行い、離散フーリエ変換部８３に結果を出力する。離散フーリエ変換部８３は、符号化側と同じ方法で、離散フーリエ変換を行い、前述と同様に信号を小帯域に分割して、その結果を再生信号生成部８４に出力する。

　再生信号生成部８４は、フーリエ変換後の信号と音像方向情報とを入力し、再生信号の生成を行う。このとき、この再生信号生成部８４が主となって、音像方向情報が示す音像方向を、スピーカアレイを２つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、モノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する１つあるいは複数のスピーカからモノラル音声信号が示す音声を出力させるための信号に変換する。これにより、１つあるいは複数のスピーカから上記変換後の音像方向に定位した音声が出力できるようになる。

　以下、このような音声出力についてより詳細に説明する。
　再生する方式に関して、図９で模式的に図示したように２つのスピーカ９１Ｌ，９１Ｒを用いたステレオ（２ｃｈ）再生方式では、スイートスポット９２の領域の視聴者に対してのみ、音像方向が正しく聞こえることはよく知られている。この方式では、会議の複数の各参加者に対し、映像と音像方向を一致させることは困難である。

　よって、図１でも触れたように復号化側の装置３０は、図１０に示すように水平方向に直線状にスピーカアレイ１０１を配置しておき、音像方向に対応するスピーカのみから音声出力を行う。これにより、スイートスポット９２より広いスイートスポット１０２が得られ、どの参加者に対してもそのスピーカ付近に音像を定位させることが可能である。より好ましくは、水平方向に直線状に並べたスピーカアレイを用いてさらに広いスイートスポットを提供するＷａｖｅ　Ｆｉｅｌｄ　Ｓｙｎｔｈｅｓｉｓ（ＷＦＳ）方式などの波面合成再生方式によって、再生音を出力してもよい。

　この波面合成再生方式は、音源オブジェクト指向再生方式の一つの実装方式と言える。音源オブジェクト指向再生方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト（以下、「仮想音源」と呼ぶ。）が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。ＷＦＳ方式などの波面合成再生方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。

　この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、１つの仮想音源には１チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになり、本発明を用いたテレビ会議では各発言者の位置情報ということになる。

　以下、そのようなアレイスピーカによる波面合成再生を行う例を挙げ、図１１～図１３を参照しながら、主に再生信号生成部８４の処理について説明する。図１１は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図１２は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図１３は、図１２の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。

　いま、図１１に示す位置関係１１０のように、受聴者から左右のスピーカ１１１Ｌ，１１１Ｒの中点にひいた線と、同じく受聴者１１３からいずれかのスピーカ１１１Ｌ／１１１Ｒの中心までひいた線がなす見開き角をθ_０、受聴者１１３から推定合成音像１１２の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ１１１Ｌ，１１１Ｒから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像１０２の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている（以下、立体音響におけるサインの法則と呼ぶ）。

　よって、ｉ番目の小帯域における相関信号の合成音像の方向θ^（ｉ）は次式によって求められる。ここで、θ_０は予め決定しておく値で、例えばθ_０＝π／６［ｒａｄ］などとしてよい。

　ここで伝送したのは数式(38)の値であるから、数式(40)は、
　　θ^（ｉ）＝ｓｉｎ^－１（α′^（ｉ）ｓｉｎθ_０）　　　　　　　　　　(41)
と書き換えられる。

　次に、図１２のように、波面合成再生方式における複数個の仮想音源を仮定し、スピーカアレイ１２１（図１０のスピーカアレイ１０１に相当）の後方に配置する。そうした場合、再生信号生成部８４では、２ｃｈの音声信号を仮想音源数の音声信号に変換することになる。例えば変換後のチャネル数を５つとした場合、それを図１２で示す位置関係１２０のように、波面合成再生方式における仮想音源１２２ａ～１２２ｅと見做し、スピーカ群（スピーカアレイ）１２１の後方に配置する。なお、仮想音源１２２ａ～１２２ｅにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換例では、２ｃｈの音声信号を５つの音声信号に変換することになる。

　再生信号生成部８４は、入力された離散フーリエ変換後のモノラル音声信号を、前記５つの仮想音源１２２ａ～１２２ｅのうち、隣接するいずれか２つの仮想音源に割り当てる。ここで、前提として５つの仮想音源の両端（仮想音源１２２ａ，１２２ｅ）より内側になることとする。すなわち、２ｃｈステレオ再生時の２つのスピーカによってなす見開き角内におさまるように５つの仮想音源１２２ａ～１２２ｅを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する２つの仮想音源を決定し、その２つの仮想音源への音圧バランスの割り当てを調整して、その２つの仮想音源によって合成音像を生じさせるように再生する、という方法を採る。

　そこで、図１３で示す位置関係１３０のように、受聴者１３３から両端の仮想音源１２２ａ，１２２ｅの中点にひいた線と、端の仮想音源１２２ｅにひいた線とがなす見開き角をθ′_０、受聴者１３３から合成音像１３１にひいた線とがなす見開き角をθ′とする。さらに、受聴者１３３から合成音像１３１を挟む２つの仮想音源１２２ｃ，１２２ｄの中点にひいた線と、受聴者１３３から両端の仮想音源１２２ａ，１２２ｅの中点にひいた線（受聴者１３３から仮想音源１２２ｃにひいた線）とがなす見開き角をφ_０、受聴者１３３から合成音像１３１にひいた線とがなす見開き角をφとする。ここで、φ_０は正の実数である。これらの変数を用いて仮想音源に割り当てる方法について説明する。

　まず、見開き角の差によるスケーリングを次の式のように行う。
　　θ′＝（θ′_０／θ_０）θ　　　　　　　　　　　　　　(42)
　これにより、仮想音源の配置による見開き角の差異が考慮され、変換されることになる。ただし、θ′_０とθ_０の値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′_０とθ_０の値を等しくしなくても特に問題は生じないため、この例では、θ_０＝π／６［ｒａｄ］、θ′_０＝π／４［ｒａｄ］として説明する。

　次に、ｉ番目の合成音像の方向θ^（ｉ）が数式(41)によって推定され、例えばθ^（ｉ）＝π／１５［ｒａｄ］であったとすると、数式(42)よりθ′^（ｉ）＝π／１０［ｒａｄ］となる。そして、仮想音源が５つの場合、図１３に示すように合成音像１３１は左から数えて３番目の仮想音源１２２ｃと４番目の仮想音源１２２ｄの間に位置することになる。また、仮想音源が５つである場合、３番目の仮想音源１２２ｃと４番目の仮想音源１２２ｄの間について、θ′_０＝π／４［ｒａｄ］より、φ_０≒０.０７８［ｒａｄ］となり、ｉ番目の小帯域におけるφをφ^（ｉ）とすると、φ^（ｉ）＝θ′^（ｉ）－φ_０≒０.０２２π［ｒａｄ］となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む２つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その２つの仮想音源１２２ｃ，１２２ｄでその合成音像を生じさせることを考える。そのためには、２つの仮想音源１２２ｃ，１２２ｄからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(39)として利用した立体音響におけるサインの法則を用いる。

　ここで、ｉ番目の小帯域における相関信号によって生じる合成音像を挟む２つの仮想音源１２２ｃ，１２２ｄのうち、３番目の仮想音源１２２ｃに対するスケーリング係数をｇ_１、４番目の仮想音源１２２ｄに対するスケーリング係数をｇ_２とすると、３番目の仮想音源１２２ｃからはｇ_１・est′（Ｓ^（ｉ）（ｋ））、４番目の仮想音源１２２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を出力することになる。そして、ｇ_１、ｇ_２は立体音響におけるサインの法則により、

を満たせばよい。

　一方、３番目の仮想音源１２２ｃと４番目の仮想音源１２２ｄからの電力の合計が、符号化側の２ｃｈ収音時の相関信号の電力と等しくなるように次式のようにα^（ｉ）を使ってｇ_１、ｇ_２を正規化すると、
　　ｇ_１ ^２＋ｇ_２ ^２＝１＋［α^（ｉ）］^２　　　　　　　　　　　　　　　(44)
となる。ただし、α^（ｉ）は、受信したα′^（ｉ）を用い、数式(38)の逆の演算を行うことにより求めることができる。

　これらを連立させることで、

と求められる。この数式(45)に上述のφ^（ｉ）、φ_０を代入することによって、ｇ_１、ｇ_２を算出する。このようにして算出したスケーリング係数に基づき、上述したように３番目の仮想音源１１２ｃにはｇ_１・est′（Ｓ^（ｉ）（ｋ））の音声信号を、４番目の仮想音源１２２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源１２２ａ，１２２ｅに割り当てられる。すなわち、１番目の仮想音源１２２ａにはest′（Ｎ_Ｌ ^（ｉ）（ｋ））を、５番目の仮想音源１２２ｅにはest′（Ｎ_Ｒ ^（ｉ）（ｋ））を割り当てる。

　この例とは異なり、もし合成音像の推定方向が１番目と２番目の仮想音源の間であった場合には、１番目の仮想音源にはｇ_１・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｌ ^（ｉ）（ｋ））の両方が割り当てられることになる。また、もし合成音像の推定方向が４番目と５番目の仮想音源の間であった場合には、５番目の仮想音源にはｇ_２・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｒ ^（ｉ）（ｋ））の両方が割り当てられることになる。

　以上のようにして、ｉ番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。このような処理を全ての小帯域について行う。その結果、仮想音源の数をＪとすると、各仮想音源（出力チャネル）に対する周波数領域の出力音声信号Ｙ_１（ｋ），・・・，Ｙ_Ｊ（ｋ）が求まる。

　そして離散フーリエ逆変換部８５が、下式のように、得られた各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号ｙ′_ｊ（ｍ）を求める。ここで、ＤＦＴ^－１は離散フーリエ逆変換を表す。
　　ｙ′_ｊ（ｍ）＝ＤＦＴ^－１（Ｙ_ｊ（ｋ））　　　（１≦ｊ≦Ｊ）　(46)
　ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号ｙ′_ｊ（ｍ）も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、１つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。

　変換後のデータは、符号化側での処理と同様に、図８の後処理部８６においてノイズ除去処理を行う。このようにして、各スピーカに対する出力音声を得る。

　ここでは、スピーカアレイ１２１は、演算量を少なくするために、ディスプレイの正面方向に音を発するように正面方向を向いて設置されていることを前提として説明したが、これに限ったものではない。

　また、５つの仮想音源を仮定する例を示したが、仮想音源ではなく実際のスピーカに直接、上述と同じようにして再生音を割り当ててもよい。その場合、１つの小帯域が担当する出力音は、１つのスピーカあるいは隣接する２つのスピーカのみから再生されることとなる。

　以上のようなテレビ会議システムにより音声を収音して符号化し、伝送して復号化すれば、映像と音像方向を一致させた実在感がある映像＋音声を遠隔地に伝送することが可能となる。さらに、本発明に係るテレビ会議装置では、上述のように符号化時に音像方向情報を抽出する処理に伴ってノイズも低減できるため、明瞭な音質で伝送できる。

　本発明では、発話側は、映像信号とともにモノラル音声信号と僅かな付加情報（音像方向情報）を伝送するように構成しておくだけでよいため、既存のテレビ会議システムの端末にそのような構成を加えることは容易である。また、既存のテレビ会議システムの端末においてそのような構成を付加しない場合でも、例えば受話側のテレビ会議装置で音像方向情報を例えば中央などの所定の方向に予め決めておけば、テレビ会議自体は遂行できる。さらに、ステレオ音声信号を受信した場合にも対応できる。例えば、ステレオ音声信号を受信した場合に、図２の発話側の音声信号処理部２０を利用して音像方向を得て、図８の受話側の音声信号処理部８０により図１のスピーカ３４でなるスピーカアレイから出力するように構成しておけばよい。このように、本発明に係るテレビ会議装置では、モノラル音声信号のやり取りを行うため、既存のテレビ会議システムの機器との互換性が高い。

　また、本発明に係るテレビ会議装置では、音像方向情報の送信及び音像方向情報からのスピーカアレイへのモノラル音声信号の割り当てを可能とするだけでこのような効果が得られるため、コストを大きく増加させることもない。

　また、双方向通信のテレビ会議システムを考慮すると、本発明に係るテレビ会議装置に、マイクで拾ったスピーカからの音声をキャンセルするようなエコーキャンセリングシステムを加えることが好ましい。本発明ではモノラル音声を使用しているため、エコーキャンセリングシステムも従来電話やテレビ会議システムで広く使用されている１入力１出力用のエコーキャンセリングシステムを使用でき、多入力・多出力用の複雑なエコーキャンセリングシステムは必要としない。

　次に、スピーカとマイクの配置方法について、図１４～図１８を参照しながら説明する。図１４～図１８はそれぞれ、本発明に係るテレビ会議装置の例を示す外観図であり、図１のテレビ会議システムにおける符号化側の装置１０と復号化側の装置３０の双方の機能を兼ね備えたテレビ会議装置の例を示す外観図である。なお、図１４～図１８のいずれにおいても、スピーカアレイを構成するスピーカの数は図示したものに限らず、複数であればよい。

　図１４で示すテレビ会議装置１４０のように、ディスプレイ１４１の両端に離して２つのマイク１４２Ｌ，１４２Ｒを配置し、ディスプレイ１４１の下部にスピーカアレイ１４３（この例では８個のスピーカでなるアレイ）を配置してもよい。図１４のように２つのマイク１４２Ｌ，１４２Ｒを離して設置する場合、発話者がいる空間的範囲を広くカバーするためマイクは無指向性であることが望ましく、その場合、本発明によって精度良く音像位置を推定することが可能となる。ただし、発話者がディスプレイの左右どちらかよりに位置することが多い場合に適したテレビ会議装置としては、図１４に示すマイク１４２Ｌ，１４２Ｒの位置に、指向性マイクを設置することが好ましい。

　また、図１５で示すテレビ会議装置１５０のように、２つのマイク１５２Ｌ，１５２Ｒをディスプレイ１５１の上部に配置して、ディスプレイ１５１の下部に設けたスピーカアレイ１５３との距離を空け、なるべくマイク１５２Ｌ，１５２Ｒに再び入る出力音声を少なくするような配置をしてもよい。あるいは、図１６で示すテレビ会議装置１６０のように、複数枚（この例では４枚）のディスプレイ１６１ａ～１６１ｄを組み合わせた大型ディスプレイに適用してもよい。つまり、その大型ディスプレイの両端に離して２つのマイク１６２Ｌ，１１６２Ｒを配置し、その大型ディスプレイの下部にスピーカアレイ１６３（この例では１５個のスピーカでなるアレイ）を配置してもよい。

　また、スピーカアレイの配置についても、図１７で示すテレビ会議装置１５０のように、両端に離して２つのマイク１７２Ｌ，１７２Ｒが配置されたディスプレイ１７１の上部に、スピーカアレイ１７３を配置してもよい。

　また、図１８で示すテレビ会議装置１８０のように、指向性を有する２つのマイク１８２Ｌ，１８２Ｒを左右両側の開き方向に向けるように、ディスプレイ１８１の下部であってスピーカアレイ１８３が配置されたやや上に設置するなどしてもよい。なお、マイク１８２Ｌ，１８２Ｒは、スピーカアレイ１８３のやや下に配置してもよいし、ディスプレイ１８１の上部に配置してもよい。このように、２つのマイクは、ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであってもよい。

　また、本発明におけるテレビ会議装置では、水平方向のスピーカを用いており、上下方向の映像と音像の一致については考慮していない。その理由は、一般的に人間は、上下方向の音像知覚については、水平方向と比べ精度が低いとされているため、水平方向に音像と映像を一致させれば、映像と音像との距離は比較的近くなるので、それに加え、映像と同期する音声はあたかも映像の方から聞こえる、いわゆる腹話術効果の補助効果により、発話者から音声が聞こえるシステムを提供することができる。

　なお、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ（複数のスピーカ）を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、上述したＷＦＳ方式の他、人間の音像知覚に関する現象としての先行音効果（ハース効果）を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、テレビ会議装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させるように構成することもできる。

　また、例えば図２で例示した音声信号処理部２０や図８で例示した音声信号処理部８０における各構成要素、あるいは図１で例示した構成要素１３，１４，３１，３２など、本発明に係るテレビ会議装置の各構成要素は、例えばマイクロプロセッサ（またはＤＳＰ：Digital Signal Processor）、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路／ＩＣ（Integrated Circuit）チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路／ＩＣチップセットとして搭載することも可能である。

　また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、テレビ会議装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはＤＳＰによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体（外部記録媒体や内部記憶装置）であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばＣＤ－ＲＯＭまたはＤＶＤ－ＲＯＭなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。

　３…バッファ、１０…符号化側の装置、１１Ｌ，１１Ｒ…マイク、１２Ｌ，１２Ｒ…増幅器、１３…Ａ／Ｄコンバータ、１４…符号化部、１５…カメラ、２０…発話側の音声信号処理部、２１…前処理部、２２…離散フーリエ変換部、２３…信号分離抽出部、２４Ｌ，２４Ｓ，２４Ｒ…ゲイン調整部、２５…合成部、２６…離散フーリエ逆変換部、２７…後処理部、２８…圧縮符号化処理部、３０…復号化側の装置、３１…復号化部、３２…Ｄ／Ａコンバータ、３３…増幅器、３４…スピーカ、３５…ディスプレイ、８０…受話側の音声信号処理部、８１…復号処理部、８２…前処理部、８３…離散フーリエ変換部、８４…再生信号生成部、８５…離散フーリエ逆変換部、８６…後処理部。

Claims

　左右の２つのマイクと、該２つのマイクによって収音する対象の空間を撮影するカメラとを発話用に備えるとともに、３つ以上のスピーカが水平方向に並べられたスピーカアレイと、ディスプレイとを受話用に備え、ネットワークを介して他のテレビ会議装置と通信するテレビ会議装置であって、
　前記他のテレビ会議装置において２つのマイクで収音された左右２つの音声信号から生成・送信された、モノラル音声信号及び該モノラル音声信号の音像方向を示す音像方向情報を、処理する受話側の音声信号処理部を備え、
　該受話側の音声信号処理部は、前記音像方向情報が示す音像方向を、前記スピーカアレイを前記他のテレビ会議装置の前記２つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、前記モノラル音声信号が変換後の音像方向に定位するように、該変換後の音像方向に対応する１つあるいは複数の前記スピーカから前記モノラル音声信号が示す音声を出力させる処理を行うことを特徴とするテレビ会議装置。
　前記テレビ会議装置は、前記２つのマイクで入力された左右２つの音声信号から、モノラル音声信号、及び該モノラル音声信号の音像方向を示す音像方向情報を生成する発話側の音声信号処理部を、更に備えたことを特徴とする請求項１に記載のテレビ会議装置。
　前記２つのマイクは、前記ディスプレイの両端に離して設置された無指向性マイクであることを特徴とする請求項１または２に記載のテレビ会議装置。
　前記２つのマイクは、前記ディスプレイの両端に離して設置された指向性マイクであることを特徴とする請求項１または２に記載のテレビ会議装置。
　前記２つのマイクは、前記ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであることを特徴とする請求項１または２に記載のテレビ会議装置。