WO2023042671A1

WO2023042671A1 - 音信号処理方法、端末、音信号処理システム、管理装置

Info

Publication number: WO2023042671A1
Application number: PCT/JP2022/032928
Authority: WO
Inventors: 直森川
Original assignee: ヤマハ株式会社
Priority date: 2021-09-17
Filing date: 2022-09-01
Publication date: 2023-03-23
Also published as: US20240259751A1; JPWO2023042671A1

Abstract

音信号処理方法は、音信号を出力する複数の端末から構成される音信号処理システムで用いられる。前記複数の端末は、それぞれ、前記音信号処理システムにおける自端末の音像定位位置を決める定位制御情報を取得し、取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、前記定位処理を施した後の音信号を出力する。

Description

音信号処理方法、端末、音信号処理システム、管理装置

　この発明の一実施形態は、音信号処理システム、該音信号処理システムにおける音信号処理方法、該音信号処理方法を実行する端末、および管理装置に関する。

　従来、オンライン会議を管理するサーバ等の配信プラットフォームが音像定位を行う構成が知られている。例えば、特許文献１には、オンライン会議を管理する管理装置（コミュニケーション用サーバ）が各端末の音像定位を制御する構成が記載されている。

特開２０１３－１７０２７号公報

　しかし、既存の配信プラットフォーム側で定位制御の仕組みが存在しない場合には、特許文献１の様な定位処理を実現することができない。

　以上の事情を考慮して、本開示のひとつの態様は、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる音信号処理方法を提供することを目的とする。

　この発明の一実施形態は、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる。

音信号処理システム１の構成を示すブロック図である。端末１１Ａの構成を示すブロック図である。端末１１Ａの動作を示すフローチャートである。管理装置１２の動作を示すフローチャートである。定位制御情報の一例を示す図である。変形例１に係る端末１１Ａの動作を示すフローチャートである。変形例３に係る端末１１Ａの動作を示すフローチャートである。変形例３に係る管理装置１２の動作を示すフローチャートである。音信号処理システム１における各装置の送信する映像信号の概念を示すブロック図である。変形例５に係る音信号処理システム１Ａにおける各端末の音の定位位置の概念を示すブロック図である。

　図１は、音信号処理システム１の構成を示すブロック図である。音信号処理システム１は、複数の端末（端末１１Ａ、端末１１Ｂ、および端末１１Ｃ）と、管理装置１２と、を備えている。

　端末１１Ａ、端末１１Ｂ、端末１１Ｃ、および管理装置１２は、ネットワーク１３を介して接続されている。ネットワーク１３は、ＬＡＮ（ローカルエリアネットワーク）またはインターネットを含む。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、パーソナルコンピュータ等の情報処理装置である。

　図２は、端末１１Ａの構成を示すブロック図である。図２では代表して端末１１Ａの構成を示すが、端末１１Ｂおよび端末１１Ｃも同じ構成および機能を有する。

　端末１１Ａは、表示器２０１、ユーザＩ／Ｆ２０２、ＣＰＵ２０３、ＲＡＭ２０４、ネットワークＩ／Ｆ２０５、フラッシュメモリ２０６、マイク２０７、スピーカ２０８、およびカメラ２０９を備えている。なお、マイク２０７、スピーカ２０８、およびカメラ２０９は、端末１１Ａに内蔵されていてもよいし、外部機器として接続される態様であってもよい。

　ＣＰＵ２０３は、記憶媒体であるフラッシュメモリ２０６に記憶されているプログラムをＲＡＭ２０４に読み出して、所定の機能を実現する制御部である。なお、ＣＰＵ２０３が読み出すプログラムは、自装置内のフラッシュメモリ２０６に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、ＣＰＵ２０３は、該サーバから都度プログラムをＲＡＭ２０４に読み出して実行すればよい。

　フラッシュメモリ２０６は、オンライン会議用のアプリケーションプログラムを記憶している。ＣＰＵ２０３は、オンライン会議用のアプリケーションプログラムをＲＡＭ２０４に読み出す。

　ＣＰＵ２０３は、当該アプリケーションプログラムの機能により、マイク２０７で取得した音信号をネットワークＩ／Ｆ２０５を介して管理装置１２に出力する。ＣＰＵ２０３は、２チャンネル（ステレオチャンネル）の音信号を出力する。また、ＣＰＵ２０３は、カメラ２０９で取得した映像信号をネットワークＩ／Ｆ２０５を介して管理装置１２に出力する。

　管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから音信号および映像信号を受信する。管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから受信した音信号をミキシングする。また、管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから受信した映像信号を１つの映像信号に合成する。管理装置１２は、ミキシングした音信号および合成した映像信号を端末１１Ａ、端末１１Ｂ、および端末１１Ｃに配信する。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃの各ＣＰＵ２０３は、管理装置１２から配信された音信号をスピーカ２０８に出力する。また、ＣＰＵ２０３は、管理装置１２から配信された映像信号を表示器２０１に出力する。これにより、各端末の利用者は、オンライン会議を行うことができる。

　図３は、端末１１Ａのオンライン会議開始時の動作を示すフローチャートである。図４は、管理装置１２のオンライン会議開始時の動作を示すフローチャートである。端末１１Ｂおよび端末１１Ｃは、端末１１Ａと同じ動作を行う。

　まず端末１１Ａは、自端末の固有の識別情報の一例として、Ｍａｃアドレスを管理装置１２に送信する（Ｓ１１）。同様に、端末１１Ｂおよび端末１１Ｃは、自端末の固有の識別情報の一例として、Ｍａｃアドレスを管理装置１２に送信する。管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１ＣからそれぞれＭａｃアドレスを受信する（Ｓ２１）。そして、管理装置１２は、定位制御情報を生成する（Ｓ２２）。定位制御情報とは、音信号処理システム１における各端末の音像定位位置を決める情報である。

　図５は、定位制御情報の一例を示す図である。定位制御情報は、端末毎に、端末の識別情報と定位位置を示す情報と、を対応付けている。この例では、端末の識別情報はＭａｃアドレスである。識別情報は、他にも、各端末のユーザ名やメールアドレス、あるいは、オンライン会議において管理装置１２が割り当てる固有のＩＤ等であってもよい。

　また、この例では、定位位置を示す情報は、パニングのパラメータ（ＬチャンネルおよびＲチャンネルの音量バランス）を示す情報である。例えば、端末１１Ａの定位制御情報は、Ｌチャンネル８０％、Ｒチャンネル２０％の音量バランスを示している。この場合、端末１１Ａの音信号は、左側に定位する。端末１１Ｂの定位制御情報は、Ｌチャンネル５０％、Ｒチャンネル５０％の音量バランスを示している。この場合、端末１１Ｂの音信号は、中央に定位する。端末１１Ｃの定位制御情報は、Ｌチャンネル２０％、Ｒチャンネル８０％の音量バランスを示している。この場合、端末１１Ｃの音信号は、右側に定位する。

　管理装置１２は、一例として、Ｍａｃアドレスを受信した順に基づいて定位位置を決定する。つまり、管理装置１２は、オンライン会議に接続した順番に基づいて定位位置を決定する。

　この例では、管理装置１２は、オンライン会議に参加した端末から順に各端末の定位位置を左側から右側へ配置する。例えば、管理装置１２は、オンライン会議に３つの端末が参加した場合、最初にオンライン会議に参加した端末を左側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を右側に定位させる。端末１１Ａが最初に管理装置１２に接続してＭａｃアドレスを送信し、次に端末１１Ｂが管理装置１２に接続してＭａｃアドレスを送信し、最後に端末１１Ｃが管理装置１２に接続してＭａｃアドレスを送信している。したがって、管理装置１２は、端末１１Ａを左側に定位させ、端末１１Ｂを中央に定位させ、端末１１Ｃを右側に定位させる。

　無論、この様な定位制御情報の生成は一例に過ぎない。例えば、管理装置１２は、最初にオンライン会議に参加した端末を右側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を左側に定位させてもよい。また、オンライン会議に参加する端末の数もこの例に限らない。例えば、管理装置１２は、オンライン会議に２つの端末が参加している場合、最初にオンライン会議に参加した端末を右側に定位させ、次にオンライン会議に参加した端末を左側に定位させてもよい。いずれにしても管理装置１２は、オンライン会議に参加した複数の端末をそれぞれ異なる位置に定位させる。

　また、定位制御情報は、各端末の固有の識別情報に基づいて生成されてもよい。例えば識別情報がＭａｃアドレスである場合、管理装置１２は、Ｍａｃアドレスの昇順で定位位置を決定してもよい。管理装置１２は、例えば図５の場合、Ｍａｃアドレスの最も数字の小さい端末１１Ａを左側に定位させ、次にＭａｃアドレスの数字の小さい端末１１Ｂを中央に定位させ、端末１１Ｃを右側に定位させる。

　また、定位制御情報は、各端末の利用者の属性に基づいて生成されてもよい。例えば、各端末の利用者は、属性として、オンライン会議におけるアカウントレベルを有する。定位制御情報は、アカウントレベルの昇順で決定される。管理装置１２は、例えばアカウントレベルの高い利用者ほど、中央に定位させ、アカウントレベルの低い利用者ほど、左端または右端に定位させる。

　管理装置１２は、以上の様にして生成した定位制御情報を端末１１Ａ、端末１１Ｂ、および端末１１Ｃに配信する（Ｓ２３）。端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれ定位制御情報を取得する（Ｓ１２）。そして、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれマイク２０７で取得した音信号に定位処理を施す（Ｓ１３）。例えば、端末１１Ａは、マイク２０７で取得したステレオチャンネルの音信号の音量バランスを、Ｌチャンネルが８０％、Ｒチャンネルが２０％になる様に、パニング処理を施す。端末１１Ｂは、マイク２０７で取得したステレオチャンネルの音信号の音量バランスを、Ｌチャンネルが５０％、Ｒチャンネルが５０％になる様に、パニング処理を施す。端末１１Ｃは、マイク２０７で取得したステレオチャンネルの音信号の音量バランスを、Ｌチャンネルが２０％、Ｒチャンネルが８０％になる様に、パニング処理を施す。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれ定位処理を施した後の音信号を出力する（Ｓ１４）。管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから音信号を受信してミキシングし（Ｓ２４）、ミキシング後の音信号を端末１１Ａ、端末１１Ｂ、および端末１１Ｃに配信する（Ｓ２５）。

　この様に、本実施形態の音信号処理システム１は、オンライン会議に参加する各端末がそれぞれ定位処理を施した後の音信号を出力する。そのため、オンライン会議の配信プラットフォームである管理装置１２は定位処理を行う必要がない。よって、本実施形態の音信号処理システム１は、既存の配信プラットフォーム側で定位制御の仕組みが存在しない場合でも、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる。

　（変形例１）　
　上記実施形態では、管理装置１２が定位制御情報を生成する例を示した。しかし、定位制御情報は、各端末で生成されてもよい。図６は、変形例１に係る端末１１Ａの動作を示すフローチャートである。図３と共通する動作は同一の符号を付し、説明を省略する。端末１１Ｂおよび端末１１Ｃは、端末１１Ａと同じ動作を行う。

　端末１１Ａは、管理装置１２から参加者リストを取得する（Ｓ１０１）。参加者リストは、各端末のオンライン会議の参加時刻、および各端末の識別情報（例えばＭａｃアドレス、ユーザ名、メールアドレス、あるいは、オンライン会議において管理装置１２が割り当てる固有のＩＤ等）を含む。

　端末１１Ａは、取得した参加者リストに基づいて定位制御情報を生成する（Ｓ１０２）。参加者リストに基づく定位制御情報の生成ルールは、音信号処理システム１の全ての端末において同一である。例えば、生成ルールは、オンライン会議に参加した時刻順と、定位位置と、を一対一に対応させる。例えば、オンライン会議に３つの端末が参加している場合、生成ルールは、最初にオンライン会議に参加した端末を左側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を右側に定位させる。

　変形例１の音信号処理システム１は、定位制御情報を各端末で生成し、取得するため、管理装置１２で定位制御情報を生成する必要がない。管理装置１２は、参加者リストを有し、２チャンネル（ステレオチャンネル）の音信号を配信するだけでよく、定位に関する処理を何ら行う必要がない。したがって、本実施形態の音信号処理システム１の構成および動作は、参加者リストを有し、２チャンネル（ステレオチャンネル）の音信号を配信するプラットフォームであれば実現することができる。

　（変形例２）　
　上記実施形態では、定位位置を示す情報は、パニングのパラメータ（ＬチャンネルおよびＲチャンネルの音量バランス）を示す情報であった。しかし、定位制御情報は、例えばＨＲＴＦ（Head Related Transfer Function）であってもよい。ＨＲＴＦは、ある仮想の音源位置から利用者の右耳および左耳に至る伝達関数を表す。例えば、端末１１Ａの定位制御情報は、利用者の左側に定位する様なＨＲＴＦを示している。この場合、端末１１Ａは、ＬチャンネルおよびＲチャンネルのそれぞれの音信号に、利用者の左側に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。また、例えば、端末１１Ｂの定位制御情報は、利用者の後方に定位する様なＨＲＴＦを示している。この場合、端末１１Ｂは、ＬチャンネルおよびＲチャンネルのそれぞれの音信号に、利用者の後方に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。また、例えば、端末１１Ｃの定位制御情報は、利用者の右側に定位する様なＨＲＴＦを示している。この場合、端末１１Ｃは、ＬチャンネルおよびＲチャンネルのそれぞれの音信号に、利用者の右側に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。

　パニングのパラメータは、左右の音量バランスであり、定位制御情報は１次元（左右の位置）の情報である。そのため、パニングのパラメータでは、オンライン会議の参加者が多数になると、各利用者の音声の定位位置が近くなり、各利用者の音声を異なる位置に定位させることが難しい。しかし、ＨＲＴＦの定位制御情報は３次元の情報である。そのため、変形例２の音信号処理システム１は、オンライン会議の参加者がより多数の場合でも、各利用者の音声を異なる位置に定位させることができる。

　（変形例３）　
　変形例３に係る音信号処理システム１は、映像信号に基づいて管理装置１２または各端末が定位制御情報を生成する例である。図７は、変形例３に係る端末１１Ａの動作を示すフローチャートである。図３と共通する動作は同一の符号を付し、説明を省略する。端末１１Ｂおよび端末１１Ｃは、端末１１Ａと同じ動作を行う。図８は、変形例３に係る管理装置１２の動作を示すフローチャートである。図４と共通する動作は共通の符号を付し、説明を省略する。図９は、音信号処理システム１における各装置の送信する映像信号の概念を示すブロック図である。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、カメラ２０９で取得した映像信号を管理装置１２に出力する。このとき、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、識別情報を映像信号に重畳する（Ｓ２０１）。例えば、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、映像信号のうち一部のピクセルを識別情報で符号化する。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれカメラ２０９で取得した映像信号のうち、最も左上のピクセルである原点（０，０）から複数のピクセルを用いて、識別情報を符号化する。例えば、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、白（Ｒ，Ｇ，Ｂ＝２５５，２５５，２５５）を１のビットデータ、黒（Ｒ，Ｇ，Ｂ＝０，０，０）を０のビットデータとして、ピクセルのＲＧＢ値を識別情報で符号化する。映像信号のピクセル数が例えば１２８０×７２０である場合、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、映像信号のうちＹ＝０の座標となる１ライン（０，０～１２７９，０）の１２８０ピクセルを用いて識別情報を符号化する。

　管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから映像信号を受信し（Ｓ３０１）、上記識別情報を復号する（Ｓ３０２）。なお、管理装置１２は、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから受信した映像信号をそのまま合成してもよいし、Ｙ＝０の座標となる１ラインの１２８０ピクセルを削除してから合成してもよい。あるいは、管理装置１２は、Ｙ＝０の座標となる１ラインの１２８０ピクセルを全て白（Ｒ，Ｇ，Ｂ＝２５５，２５５，２５５）、または黒（Ｒ，Ｇ，Ｂ＝０，０，０）に置き換えて合成してもよい。

　管理装置１２が、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから受信した映像信号をそのまま合成すると、図９に示す様に、オンライン会議中に表示される各参加者の映像は、最も上の１ラインだけ符号化されたピクセルとなる。しかし、当該映像は、最も上の１ラインだけ符号化されているだけであり、オンライン会議における映像の視聴を阻害することはない。

　変形例３の音信号処理システム１は、各端末が映像信号を介して識別情報を送信することができる例である。したがって、変形例３の音信号処理システム１は、オンライン会議のプラットフォームがＭａｃアドレス等の識別情報を受信する手段が無くとも、各端末の識別情報を取得することができる。

　なお、識別情報は各端末で復号してもよい。この場合、各端末は、復号した識別情報に基づいて定位制御情報を生成する。この場合、識別情報に基づく定位制御情報の生成ルールは、音信号処理システム１の全ての端末において同一である。この場合、管理装置１２は識別情報を復号する必要がない、そのため、変形例３の音信号処理システム１は、管理装置１２がＭａｃアドレス等の識別情報を管理する必要もなく、２チャンネル（ステレオチャンネル）の音信号を配信する配信プラットフォームであれば実現することができる。

　なお、各端末で識別情報を復号する場合、各端末は、映像信号のうち複数（例えば４×４）ピクセルのＲＧＢ値を１のビットデータ（Ｒ，Ｇ，Ｂ＝２５５，２５５，２５５）、０またはビットデータ（Ｒ，Ｇ，Ｂ＝０，０，０）に符号化することが好ましい。これにより、管理装置１２が各端末の映像信号を例えば１／４の大きさに縮小して合成した場合でも、符号化されたピクセルが残る。そのため、各端末は、識別情報を適切に復号することができる。

　（変形例４）　
　変形例４の音信号処理システム１における各端末は、音信号に間接音を付与する処理を行う。変形例４の音信号処理システム１における各端末は、音信号に間接音を付与することで、会議室やホール等の所定の音響空間で会話している様な音場を再現することができる。

　間接音は、例えば音場を再現する対象となる所定の音響空間で予め測定したインパルス応答を音信号に畳み込むことで付与される。間接音は、初期反射音および後部残響音を含む。初期反射音は音の到来方向の明瞭な反射音であり、後部残響音は音の到来方向の定まらない反射音である。したがって、各端末は、各端末で取得した音信号に対して、初期反射音の各音源の位置情報が示す位置に音像が定位する様なＨＲＴＦを畳み込むバイノーラル処理を行ってもよい。また、初期反射音は、初期反射音の各音源の位置およびレベルを示す情報に基づいて生成してもよい。各端末は、各端末で取得した音信号に対して、初期反射音の各音源の位置に応じた遅延処理を行い、かつ初期反射音の各音源のレベル情報に基づいて音信号のレベルを制御する。これにより、各端末は、所定の音響空間における初期反射音を明瞭に再現することができる。

　また、各端末は、それぞれ異なる音響空間の音場を再現してもよい。各端末の利用者は、それぞれ再現する音響空間を指定する。各端末は、指定された音響空間を示す空間情報を管理装置１２等から取得する。空間情報は、インパルス応答の情報を含む。各端末は、指定された空間情報のインパルス応答を用いて音信号に間接音を付与する。なお、空間情報は、会議室やホール等の所定の音響空間の大きさや壁面の反射率等を示す情報であってもよい。各端末は、音響空間の大きさが大きいほど後部残響音を長くする。また、各端末は、壁面の反射率が高いほど初期反射音のレベルを高くする。

　（変形例５）　
　図１０は、変形例５に係る音信号処理システム１Ａにおける各端末の音の定位位置の概念を示すブロック図である。変形例５の音信号処理システム１Ａは、端末１１Ａ、端末１１Ｂ、および端末１１Ｃのユーザでリモート合奏（リモートセッション）を行う。端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれマイクを介して、またはオーディオケーブル等の信号線を介して、楽器の音信号を取得する。端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれ取得した音信号に定位制御情報に基づく定位処理を施す。端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、定位処理を施した音信号を、第１管理装置１２Ａに出力する。

　定位制御情報は、上述の各種の例と同様である。ただし、変形例５の定位制御情報は、属性に基づいて生成することが好ましい。この例における属性は、音（楽器）の種類である。例えば、歌唱音（ボーカル）の定位位置は前方中央、ギター等のストリングス楽器の定位位置は左側、ドラム等の打楽器の定位位置は後方中央、電子ピアノ等の鍵盤楽器の定位位置は右側と決まっている。

　例えば、端末１１Ａは、ボーカルおよびギターの音信号を取得する。なお、ボーカルの音信号はマイクで取得され、ギターの音信号はライン（オーディオケーブル）で取得される。端末１１Ａは、ボーカルの音信号に、利用者の前方中央に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。端末１１Ａは、ギターの音信号に、利用者の左側に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。

　端末１１Ｂは、電子ピアノの音信号を取得する。電子ピアノの音信号はライン（オーディオケーブル）で取得される。端末１１Ｂは、電子ピアノの音信号に、利用者の右側に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。

　端末１１Ｃは、ドラムの音信号を取得する。ドラムの音信号はマイクで取得される。端末１１Ｃは、ドラムの音信号に、利用者の後方中央に定位する様なＨＲＴＦを畳み込むバイノーラル処理を行う。

　無論、変形例５においても、定位処理はバイノーラル処理に限らず、パニング処理であってもよい。この場合、定位制御情報は、左右の定位位置（左右の音量バランス）を示す。

　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、以上の様にして定位処理を施した音信号を、第１管理装置１２Ａに出力する。第１管理装置１２Ａは、上記の管理装置１２と同じ構成および機能を有する。第１管理装置１２Ａは、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから受信した音信号をミキシングする。また、第１管理装置１２Ａは、端末１１Ａ、端末１１Ｂ、および端末１１Ｃから映像信号を受信して１つの映像信号に合成してもよい。第１管理装置１２Ａは、ミキシングした音信号および合成した映像信号をリスナに配信する。

　これにより、リモートセッションを視聴するリスナは、各楽器の音が異なる位置から到来するように知覚することができる。変形例５においても、第１管理装置１２Ａは、２チャンネル（ステレオチャンネル）の音信号を配信するだけでよい。したがって、変形例５の音信号処理システム１Ａの構成および動作は、２チャンネル（ステレオチャンネル）の音信号を配信するプラットフォームであれば実現することができる。

　また、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、定位処理を施す前の音信号を、第２管理装置１２Ｂに出力する。第２管理装置１２Ｂは、管理装置１２および第１管理装置１２Ａと同じ構成および機能を有する。第２管理装置１２Ｂは、端末１１Ａ、端末１１Ｂ、および端末１１Ｃで定位処理が施されていない音信号を受信してミキシングする。第２管理装置１２Ｂは、ミキシングした音信号を端末１１Ａ、端末１１Ｂ、および端末１１Ｃに配信する。

　これにより、端末１１Ａ、端末１１Ｂ、および端末１１Ｃでそれぞれリモートセッションを行う利用者は、定位処理が施されていない音を聴くことができ、各利用者の音をモニタリングし易くなる。第２管理装置１２Ｂも、２チャンネル（ステレオチャンネル）の音信号を配信するだけでよい。これにより、２チャンネル（ステレオチャンネル）の音信号を配信するプラットフォームであれば、リモートセッションを視聴するリスナは、各楽器の音を異なる位置から到来するように聴くことができ、端末１１Ａ、端末１１Ｂ、および端末１１Ｃでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。

　（変形例６）　
　変形例６の各端末は、変形例４と同様に音信号に間接音を付与する処理を行う。ただし、各端末は、間接音を付与した第１音信号と、間接音を付与しない第２音信号と、を生成する。第１音信号は、例えば上記の様に定位処理を施した音信号である。第２音信号は、例えば上記の様に定位処理を施していない音信号である。

　これにより、リモートセッションを視聴するリスナは、コンサートホール等の臨場感のある音を聴取することができ、端末１１Ａ、端末１１Ｂ、および端末１１Ｃでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。

　なお、間接音は、全ての端末において同じ音響空間を模したものであることが好ましい。これにより、遠隔地にいる端末１１Ａ、端末１１Ｂ、および端末１１Ｃの利用者（リモートセッションの演者）が同じ音響空間でライブ演奏を行っているように知覚することができる。

　（変形例７）　
　端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれの音信号に、アンビエンス音を付与する処理をさらに実行してもよい。アンビエンス音とは、暗騒音、リスナの声援、拍手、呼びかけ、歓声、合唱、またはざわめき等の環境音を含む。これにより、リモートセッションを視聴するリスナは、ライブ会場における観客等の音も聴くことができ、より臨場感のある音を聴くことができる。

　なお、各端末は、上記第１音信号にアンビエンス音を付与し、上記第２音信号にはアンビエンス音を付与しないことが好ましい。これにより、リモートセッションを視聴するリスナは、臨場感のある音を聴取することができ、端末１１Ａ、端末１１Ｂ、および端末１１Ｃでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。

　なお、実際のライブ会場では、アンビエンス音はランダムに発生する。そこで、端末１１Ａ、端末１１Ｂ、および端末１１Ｃは、それぞれ異なるアンビエンス音を付与してもよい。これにより、アンビエンス音がランダムに発生するため、リスナはより臨場感のある音を聴くことができる。

　また、例えば声援や歓声、ざわめき等のアンビエンス音は、リモートセッションを行う演者毎に異なっていてもよい。例えば、ボーカルの音信号を出力する端末は、発生頻度およびレベルの高い声援や歓声、ざわめきを付与する。ドラムの音信号を出力する端末は、発生頻度およびレベルの低い声援や歓声、ざわめきを付与する。一般に、ライブ演奏では主役であるボーカルに対する声援や歓声、ざわめきの頻度およびレベルが高く、他の楽器（例えばドラム）の演奏に対する声援や歓声、ざわめきの頻度およびレベルは低い。したがって、ライブ演奏の主役に相当する音信号を出力する端末は、発生頻度およびレベルの高い声援や歓声、ざわめきを付与することで、より高度な臨場感を再現することができる。

　本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　例えば、図１０の例において、各端末は、大きいコンサートホールの間接音を付与した音信号を第１管理装置１２Ａに出力し、小さいライブ会場の間接音を付与した音信号を第２管理装置１２Ｂに出力してもよい。この場合、第１管理装置１２Ａは、大きいコンサートホールの間接音を付与した音信号を配信し、第２管理装置１２Ｂは、小さいライブ会場の間接音を付与した音信号を配信する。リスナは、第１管理装置１２Ａの配信する音信号を受信して、大きいコンサートホールの響きを再現したリモートセッションを聴いてもよいし、第２管理装置１２Ｂの配信する音信号を受信して、小さいライブハウスの響きを再現したリモートセッションを聴いてもよい。

１，１Ａ…音信号処理システム
１１Ａ，１１Ｂ，１１Ｃ…端末
１２…管理装置
１２Ａ…第１管理装置
１２Ｂ…第２管理装置
１３…ネットワーク
２０１…表示器
２０３…ＣＰＵ
２０４…ＲＡＭ
２０５…ネットワークＩ／Ｆ
２０６…フラッシュメモリ
２０７…マイク
２０８…スピーカ
２０９…カメラ

Claims

　音信号を出力する複数の端末から構成される音信号処理システムで用いられる音信号処理方法であって、
　前記複数の端末は、それぞれ、
　前記音信号処理システムにおける自端末の音像定位位置を決める定位制御情報を取得し、
　取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
　前記定位処理を施した後の音信号を出力する、
　音信号処理方法。
　前記定位制御情報は、左右の定位位置を決める情報を含み、
　前記定位処理は、パニング処理を含む、
　請求項１に記載の音信号処理方法。
　前記定位制御情報は、３次元の定位位置を決める情報を含み、
　前記定位処理は、バイノーラル処理を含む、
　請求項１または請求項２に記載の音信号処理方法。
　前記定位制御情報は、各端末の固有の識別情報に基づいて生成される、
　請求項１乃至請求項３のいずれか１項に記載の音信号処理方法。
　前記複数の端末は、映像信号を出力し、
　前記識別情報は、前記映像信号に含まれている、
　請求項４に記載の音信号処理方法。
　前記定位制御情報は、各端末の利用者の属性に基づいて生成される、
　請求項１乃至請求項５のいずれか１項に記載の音信号処理方法。
　音響空間を示す空間情報を取得し、
　前記端末の音信号に、前記空間情報で示される音響空間に対応する間接音を付与する処理をさらに実行する、
　請求項１乃至請求項６のいずれか１項に記載の音信号処理方法。
　前記間接音を付与した第１音信号と、前記間接音を付与しない第２音信号と、を生成し、前記第１音信号と、前記第２音信号と、をそれぞれ出力する、
　請求項７に記載の音信号処理方法。
　前記端末の音信号に、アンビエンス音を付与する処理をさらに実行する、
　請求項１乃至請求項８のいずれか１項に記載の音信号処理方法。
　前記アンビエンス音は、前記複数の端末毎に異なる、
　請求項９に記載の音信号処理方法。
　自端末を含む複数の端末で構成される音信号処理システムにおける、前記自端末の音像定位位置を決める定位制御情報を取得し、
　取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
　前記定位処理を施した後の音信号を出力する、
　制御部を備えた端末。
　前記定位制御情報は、左右の定位位置を決める情報を含み、
　前記定位処理は、パニング処理を含む、
　請求項１１に記載の端末。
　前記定位制御情報は、３次元の定位位置を決める情報を含み、
　前記定位処理は、バイノーラル処理を含む、
　請求項１１または請求項１２に記載の端末。
　前記定位制御情報は、各端末の固有の識別情報に基づいて生成される、
　請求項１１乃至請求項１３のいずれか１項に記載の端末。
　前記制御部は、映像信号を出力し、
　前記識別情報は、前記映像信号に含まれている、
　請求項１４に記載の端末。
　前記定位制御情報は、各端末の利用者の属性に基づいて生成される、
　請求項１１乃至請求項１５のいずれか１項に記載の端末。
　前記制御部は、音響空間を示す空間情報を取得し、
　前記端末の音信号に、前記空間情報で示される音響空間に対応する間接音を付与する処理をさらに実行する、
　請求項１１乃至請求項１６のいずれか１項に記載の端末。
　前記制御部は、前記間接音を付与した第１音信号と、前記間接音を付与しない第２音信号と、を生成し、前記第１音信号と、前記第２音信号と、をそれぞれ出力する、
　請求項１７に記載の端末。
　前記端末の音信号に、アンビエンス音を付与する処理をさらに実行する、
　請求項１１乃至請求項１８のいずれか１項に記載の端末。
　前記アンビエンス音は、前記複数の端末毎に異なる、
　請求項１９に記載の端末。
　複数の端末と、管理装置と、で構成される音信号処理システムであって、
　前記管理装置は、
　前記複数の端末のそれぞれの音像定位位置を決める定位制御情報を生成し、
　前記複数の端末は、それぞれ、
　前記定位制御情報を取得し、
　取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
　前記定位処理を施した後の音信号を出力し、
　前記管理装置は、前記複数の端末からそれぞれ出力された音信号をミキシングして前記複数の端末に配信する、
　音信号処理システム。
　複数の端末で構成される音信号処理システムの管理装置であって、
　前記複数の端末のそれぞれの音像定位位置を決める定位制御情報を生成し、
　前記複数の端末のそれぞれに前記定位制御情報を配信し、
　前記複数の端末で、前記定位制御情報に基づいて定位処理が施された後の音信号を受信し、
　前記複数の端末からそれぞれ受信した音信号をミキシングして前記複数の端末に配信する、
　管理装置。
　複数の端末と、第１管理装置と、第２管理装置と、で構成される音信号処理システムであって、
　前記複数の端末は、それぞれ、
　前記音信号処理システムの音像定位位置を決める定位制御情報を取得し、
　取得した前記定位制御情報に基づいて、自身の端末で取得した音信号に定位処理を施し、
　前記定位処理を施した後の第１音信号を前記第１管理装置に出力し、
　前記定位処理を施す前の第２音信号を前記第２管理装置に出力し、
　前記第１管理装置は、前記複数の端末からそれぞれ出力された第１音信号をミキシングし、
　前記第２管理装置は、前記複数の端末からそれぞれ出力された第２音信号をミキシングする、
　音信号処理システム。