WO2024069796A1

WO2024069796A1 - 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

Info

Publication number: WO2024069796A1
Application number: PCT/JP2022/036165
Authority: WO
Inventors: 智治粟野; 耕佑細谷; 勇小川
Original assignee: 三菱電機株式会社
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2024-04-04
Also published as: DE112022007568T5; JPWO2024069796A1; US20250220387A1; JP7558467B2

Abstract

音空間構築装置（１００）は、複数の音源からの音声を含む音声データを取得する音声取得部（１０１）と、音声データから複数の音源位置を判定する音源判定部（１０２）と、音声データで示される音声を音源毎に抽出して、抽出された音声を示す複数の抽出音声データを生成する音声抽出部（１０３）と、複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、複数の音源に対応する複数の立体音を生成するフォーマット変換部（１０４）と、聴覚位置を取得する位置取得部（１０５）と、聴覚位置と、複数の音源位置の各々との間の角度及び距離を算出する移動処理部（１０６）と、複数の立体音のそれぞれを、複数の音源位置のそれぞれに対応する角度及び距離で調整することで、聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部（１０７）と、複数の調整済立体音を重畳する重畳部（１０８）とを備える。

Description

音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

　本開示は、音空間構築装置、音空間構築システム、プログラム及び音空間構築方法に関する。

　現在、立体音響技術の開発が進んでいる。例えば、アンビソニックス方式を用いることで、マイク位置での３６０度方向の音場を再現することが可能である。アンビソニックス方式の実現には、通常、アンビソニックスマイクが用いられる。アンビソニックスマイクが固定されていると、仮想空間内を体験者が自由に動いた際に、移動した場所での音場を再現することができない。

　これに対して、特許文献１には、方向性オーディオを捕捉するマイクロフォンシステムの空間データに応答して、捕捉された方向性オーディオの方向特性を修正するように適応された装置が開示されている。これにより、視聴位置の移動に応じた方向制オーディオの方向特性を修正することができる。

特表２０２２－５０９７６１号公報

　しかしながら、従来の技術では、音源が二つ以上ある場合、視聴位置の移動に対するアンビソニックスＢフォーマットの空間追従を行うことはできない。

　そこで、本開示の位置又は複数の態様は、集音装置が固定された状態において、自由位置での音場を再現できるようにすることを目的とする。

　本開示の一態様に係る音空間構築装置は、複数の音源からの音声を含む音声データを取得する音声取得部と、前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部と、前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部と、前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部と、音声を聴く位置である聴覚位置を取得する位置取得部と、前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部と、前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部と、前記複数の調整済立体音を重畳する重畳部と、を備えることを特徴とする。

　本開示の一態様に係る音空間構築システムは、音空間構築装置と、前記音空間構築装置に対してネットワークで接続され、複数の音源からの音声を含む音声データを生成する集音装置とを備える音空間構築システムであって、前記音空間構築装置は、前記集音装置と通信を行う通信部と、前記通信部を介して、前記音声データを取得する音声取得部と、前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部と、前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部と、前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部と、音声を聴く位置である聴覚位置を取得する位置取得部と、前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部と、前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部と、前記複数の調整済立体音を重畳する重畳部と、を備えることを特徴とする。

　本開示の一態様に係るプログラムは、コンピュータを、複数の音源からの音声を含む音声データを取得する音声取得部、前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部、前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部、前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部、音声を聴く位置である聴覚位置を取得する位置取得部、前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部、前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部、及び、前記複数の調整済立体音を重畳する重畳部、として機能させることを特徴とする。

　本開示の一態様に係る音空間構築方法は、複数の音源からの音声を含む音声データを取得し、前記音声データから、前記複数の音源の位置である複数の音源位置を判定し、前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成し、前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成し、音声を聴く位置である聴覚位置を取得し、前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出し、前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成し、前記複数の調整済立体音を重畳することを特徴とする。

　本開示の一又は複数の態様によれば、集音装置が固定された状態において、自由位置での音場を再現することができる。

実施の形態１に係る音空間構築装置の構成を概略的に示すブロック図である。音声抽出部の構成を概略的に示すブロック図である。コンピュータの構成を概略的に示すブロック図である。聴覚位置の移動に伴う処理例を説明するための第１の例である。聴覚位置の移動に伴う処理例を説明するための第２の例である。聴覚位置の移動に伴う処理例を説明するための第３の例である。実施の形態２に係る音空間構築システムの構成を概略的に示すブロック図である。実施の形態２における集音装置の構成を概略的に示すブロック図である。実施の形態２における音空間構築装置の構成を概略的に示すブロック図である。実施の形態３に係る音空間構築装置の構成を概略的に示すブロック図である。

実施の形態１．
　図１は、実施の形態１に係る音空間構築装置１００の構成を概略的に示すブロック図である。
　音空間構築装置１００は、音声取得部１０１と、音源判定部１０２と、音声抽出部１０３と、フォーマット変換部１０４と、位置取得部１０５と、移動処理部１０６と、角度距離調整部１０７と、重畳部１０８と、出力処理部１０９とを備える。

　音声取得部１０１は、複数の音源からの音声を含む音声データを取得する。
　例えば、音声取得部１０１は、マイク等の集音装置（図示しない）で生成された音声データを取得する。音声データの音声は、アンビソニックス方式に対応したマイクであるアンビソニックスマイクで捕捉されることが望ましいが、複数の無指向マイクで捕捉されてもよい。また、音声取得部１０１は、図示しない接続Ｉ／Ｆ（ＩｎｔｅｒＦａｃｅ）を介して、集音装置から音声データを取得してもよく、図示しない通信Ｉ／Ｆを介して、インターネット等のネットワークから音声データを取得してもよい。取得された音声データは、音源判定部１０２に与えられる。

　音源判定部１０２は、音声データから、複数の音源の位置である複数の音源位置を判定する。
　例えば、音源判定部１０２は、音声データに含まれている音源の数を判定する音源数判定と、音声データに含まれている音源の位置である音源位置を推定する音源位置推定とを行う。

　音源数判定には、公知の技術が用いられればよい。例えば、下記の文献１には、音源数判定として、独立成分分析による音源数推定法が記載されている。

　また、音源判定部１０２は、図示しないカメラ等の撮像装置から得られた画像データで示される画像を解析することで、音源を特定して、その音源の数を判定してもよい。言い換えると、音源判定部１０２は、複数の音源が含まれる空間を撮像した画像を用いて、複数の音源位置を判定してもよい。例えば、音源となる物体の方向及び大きさにより、その物体の位置を判定することができる。

　音源位置推定にも、公知の技術が用いられればよい。例えば、下記の文献２には、ビームフォーミング法及びＭＵＳＩＣ法による音源位置の推定方法が記載されている。

　音声データ及びその音声データに対する音源数判定による音源数を示す音源数データは、音声抽出部１０３に与えられる。
　音源位置推定による音源位置を示す音源位置データは、移動処理部１０６に与えられる。

　音声抽出部１０３は、音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する。複数の抽出音声データのそれぞれは、複数の音源のそれぞれに対応する。
　例えば、音声抽出部１０３は、音声データから音源毎の音声データである抽出音声データを抽出する。具体的には、音声抽出部１０３は、音声データから、複数の音源に含まれる一つの音源からの音声を分離した残りのデータを、その音声データから減算することで、複数の抽出音声データの内、その一つの音源に対応する抽出音声データを生成する。抽出音声データは、フォーマット変換部１０４に与えられる。

　図２は、音声抽出部１０３の構成を概略的に示すブロック図である。
　音声抽出部１０３は、騒音低減部１１０と、抽出処理部１１１とを備える。
　騒音低減部１１０は、音声データから騒音を低減する。騒音の低減方法は、公知の技術が使用されればよい。例えば、騒音低減部１１０は、下記の文献５に記載されているＧＳＣ（Ｇｌｏｂａｌ　Ｓｉｄｅｌｏｂｅ　Ｃａｎｃｅｌｌｅｒ）を用いて、騒音を低減すればよい。音声データから騒音が低減された処理済音声データは、抽出処理部１１１に与えられる。

　抽出処理部１１１は、処理済音声データから、音源毎の音声データである抽出音声データを抽出する。
　抽出処理部１１１は、音源分離部１１２と、位相調整部１１３と、減算部１１４とを備える。

　音源分離部１１２は、処理済音声データから、音源毎の音声データを分離することで、分離音声データを生成する。音源毎の音声データを分離する方法については、公知の方法が使用されればよい。例えば、音源分離部１１２は、下記の文献４に記載されているＩＬＲＭＡ（Ｉｎｄｅｐｅｎｄｅｎｔ　Ｌｏｗ－Ｒａｎｋ　Ｍａｔｒｉｘ　Ａｎａｌｙｓｉｓ）という技術を用いて分離を行う。

　位相調整部１１３は、音源分離部１１２における音源分離に用いた信号処理で、音源毎に、与えられた位相回転を抽出し、その位相回転をキャンセルする逆側の位相回転を、処理済音声データに与えることで、位相調整済音声データを生成する。位相調整済音声データは、減算部１１４に与えられる。

　減算部１１４は、音源毎に、処理済音声データから位相調整済音声データを減算することで、音源毎の音声データである抽出音声データを抽出する。

　図１に戻り、フォーマット変換部１０４は、複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、複数の音源に対応する複数の立体音を生成する。
　例えば、フォーマット変換部１０４は、抽出音声データを立体音響フォーマットに変換する。ここでは、フォーマット変換部１０４は、抽出音声データのフォーマットを、立体音響フォーマットであるアンビソニックスＢフォーマットに変換することで、立体音を示す立体音データを生成する。

　なお、音声がアンビソニックスマイクで捕捉されている場合には、フォーマット変換部１０４は、抽出音声データのアンビソニックスＡフォーマットを、アンビソニックスＢフォーマットに変換すればよい。アンビソニックスＡフォーマットからアンビソニックスＢフォーマットへの変換方法は、公知の技術が使用されればよい。例えば、下記の文献５には、アンビソニックスＡフォーマットからアンビソニックスＢフォーマットへの変換方法が記載されている。

　一方、音声が複数の無指向マイクで捕捉されている場合には、フォーマット変換部１０４には、公知の技術を利用して、抽出音声データのフォーマットを、アンビソニックスＢフォーマットに変換すればよい。例えば、下記の文献６には、無指向マイクで集音された結果をビームフォーミングにより双指向性を生成することで、アンビソニックスＢフォーマットを生成する方法が記載されている。

　位置取得部１０５は、音声を聴く位置である聴覚位置を取得する。例えば、位置取得部１０５は、図示しないマウス又はキーボード等の入力Ｉ／Ｆを介して、ユーザから、ユーザが仮想空間において音を聴く聴覚位置の特定を受けることで、その聴覚位置を取得する。ここでは、ユーザは、仮想空間を移動できることが前提となっているため、位置取得部１０５は、定期的に、又は、ユーザの移動が検知される毎に、その聴覚位置を取得する。
　そして、位置取得部１０５は、取得された聴覚位置を示す位置データを移動処理部１０６に与える。

　移動処理部１０６は、聴覚位置と、複数の音源位置の各々との間の角度及び距離を算出する。
　例えば、移動処理部１０６は、位置データで示される聴覚位置と、音源位置データで示される音源位置とから、音源位置毎に、聴覚位置との間の角度及び距離を算出する。
　そして、移動処理部１０６は、音源毎に、算出された角度及び距離を示す角度距離データを角度距離調整部１０７に与える。

　角度距離調整部１０７は、複数の立体音のそれぞれを、複数の音源位置のそれぞれに対応する角度及び距離で調整することで、聴覚位置における複数の立体音である複数の調整済立体音を生成する。
　例えば、角度距離調整部１０７は、音源毎に、立体音データを、角度距離データで示される角度及び距離となるように調整する。
　例えば、角度距離調整部１０７は、アンビソニックスの規格に従って、アンビソニックスＢフォーマットにおける音源からの音の到来方向に対応する角度を、容易に変更することができる。

　また、角度距離調整部１０７は、立体音データにおける振幅を、角度距離データで示される距離に応じて調整する。例えば、聴覚位置と音源との距離が、音声データが取得された際における捕捉位置と音源との距離の半分になるのであれば、角度距離調整部１０７は、その振幅を６ｄＢ大きくする。言い換えると、角度距離調整部１０７は、距離と振幅との関係を、例えば二乗則に従って調整すればよい。

　角度距離調整部１０７は、音源毎に、角度及び距離を調整した立体音である調整済立体音を示す調整済立体音データを重畳部１０８に与える。

　重畳部１０８は、複数の調整済立体音を重畳する。
　例えば、重畳部１０８は、音源毎の調整済立体音データを重畳する。具体的には、重畳部１０８は、音源毎の調整済立体音データで示される音信号を足し合わせる。これにより、重畳部１０８は、足し合わされた音信号を示す合成音データを生成する。合成音データは、出力処理部１０９に与えられる。

　出力処理部１０９は、合成音データで示されるチャネルベースの音を、両耳で授聴するための音であるバイノーラル音に変換することで、出力音を示す出力音データを生成する。チャネルベースの音を、バイノーラル音に変換する方法については、公知の方法が使用されればよい。例えば、下記の文献７には、チャネルベースの音を、バイノーラル音に変換する方法が記載されている。

　そして、出力処理部１０９は、例えば、図示しない接続Ｉ／Ｆを介して、スピーカ等の音声出力装置に出力音データを出力する。または、出力処理部１０９は、図示しない通信Ｉ／Ｆを介して、スピーカ等の音声出力装置に出力音データを出力する。

　以上に記載された音空間構築装置１００は、図３に示されているようなコンピュータ１０により実現することができる。
　コンピュータ１０は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）及びＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の補助記憶装置１１と、メモリ１２と、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサ１３と、キーボード及びマウス等の入力Ｉ／Ｆ１４と、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等の接続Ｉ／Ｆ１５と、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信Ｉ／Ｆ１６とを備える。

　具体的には、音声取得部１０１、音源判定部１０２、音声抽出部１０３、フォーマット変換部１０４、位置取得部１０５、移動処理部１０６、角度距離調整部１０７、重畳部１０８及び出力処理部１０９は、プロセッサ１３が補助記憶装置１１に記憶されているプログラムをメモリ１２にロードして、そのプログラムを実行することで実現可能である。

　そのプログラムは、図示しないリーダ／ライタを介して記録媒体から、あるいは、通信Ｉ／Ｆ１６を介してネットワークから、補助記憶装置１１にダウンロードされ、それから、メモリ１２上にロードされてプロセッサ１３により実行されるようにしてもよい。また、そのプログラムは、リーダ／ライタを介して記録媒体から、あるいは、通信Ｉ／Ｆ１６を介してネットワークから、メモリ１２上に直接ロードされ、プロセッサ１３により実行されるようにしてもよい。

　アンビソニックス方式では、ユーザが向いている方向に応じて、音源からの音の到来方向を変更できるようになっている。
　しかしながら、図４に示されているように、第１の音源２０及び第２の音源２１のように複数の音源がある場合において、ユーザ２２が第１の聴覚位置２３から第２の聴覚位置２４に移動すると、ユーザ２２と第１の音源２０との間の角度は、角度θ_１から角度θ_２に変わり、ユーザ２２と第２の音源２１との間の角度は、角度θ_３から角度θ_４に変わる。

　従来からのアンビソニックス方式では、ユーザの向きの変更等のように、一様な角度の変更は収容可能であるが、図４に示されているように、音源毎の角度の変更を行うことはできない。

　このため、実施の形態１は、例えば、図５及び図６に示されているように、音声データから、第１の音源２０からの抽出音声データと、第２の音源２１からの抽出音声データとを抽出して、処理を行う。

　具体的には、図５に示されているように、ユーザ２２が第１の聴覚位置２３から第２の聴覚位置２４に移動した場合、実施の形態１は、ユーザ２２と第１の音源２０との間の角度を第１の角度θ_１から第２の角度θ_２に変更する。さらに、実施の形態１は、第１の音源２０からの音の強さも、第１の聴覚位置２３と、第１の音源２０との間の第１の距離ｄ_１から、第２の聴覚位置２４と、第１の音源２０との間の第２の距離ｄ_２への変化に応じて変更している。

　また、図６に示されているように、ユーザ２２が第１の聴覚位置２３から第２の聴覚位置２４に移動した場合、実施の形態１は、ユーザ２２と第２の音源２１との間の角度を第３の角度θ_３から第４の角度θ_４に変更する。さらに、実施の形態１は、第２の音源２１からの音の強さも、第１の聴覚位置２３と、第２の音源２１との間の第３の距離ｄ_３から、第２の聴覚位置２４と、第２の音源２１との間の第４の距離ｄ_４への変化に応じて変更している。

　そして、実施の形態１は、以上のようにして、音源毎に処理されたデータを重畳することで、ユーザの移動に伴って音を変化させている。
　このため、実施の形態１によれば、複数の音源が存在していても、仮想空間における自由位置での音場を再現することができる。

実施の形態２．
　図７は、実施の形態２に係る音空間構築システム２３０の構成を概略的に示すブロック図である。
　音空間構築システム２３０は、音空間構築装置２００と、集音装置２４０とを備える。
　音空間構築装置２００と、集音装置２４０とは、インターネット等のネットワーク２３１で接続されている。

　集音装置２４０は、音空間構築装置２００とは離れた空間における音声を捕捉して、その音声を示す音声データを、ネットワーク２３１を介して、音空間構築装置２００に送信する。

　図８は、集音装置２４０の構成を概略的に示すブロック図である。
　集音装置２４０は、集音部２４１と、制御部２４２と、通信部２４３とを備える。

　集音部２４１は、集音装置２４０が設置された空間における音声を捕捉する。集音部２４１は、例えば、アンビソニックスマイク又は複数の無指向マイクで構成することができる。

　制御部２４２は、集音装置２４０での処理を制御する。
　例えば、制御部２４２は、集音部２４１で捕捉された音声を示す音声データを生成して、通信部２４３を介して、その音声データを音空間構築装置２００に送る。

　また、制御部２４２は、通信部２４３を介して、音空間構築装置２００から、音声を捕捉する方向が示された場合には、集音部２４１を制御することで、その方向からの音声を示す音声データを生成して、音空間構築装置２００に送る。これは、音空間構築装置２００でビームフォーミングが行われる際の処理である。

　以上に記載された制御部２４２の一部又は全部は、図示されていないが、メモリと、メモリに格納されているプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサとにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、制御部２４２の一部又は全部は、図示されていないが、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の処理回路で構成することもできる。
　以上のように、制御部２４２は、処理回路網により実現することができる。

　通信部２４３は、ネットワーク２３１を介して、音空間構築装置２００と通信を行う。
　例えば、通信部２４３は、ネットワーク２３１を介して、音空間構築装置２００に音声データを送信する。
　また、通信部２４３は、ネットワーク２３１を介して、音空間構築装置２００からの指示を受信し、その指示を制御部２４２に与える。

　ここで、通信部２４３は、図示されていないが、ＮＩＣ等の通信Ｉ／Ｆにより実現することができる。

　図９は、実施の形態２における音空間構築装置２００の構成を概略的に示すブロック図である。
　音空間構築装置２００は、音声取得部２０１と、音源判定部２０２と、音声抽出部１０３と、フォーマット変換部１０４と、位置取得部１０５と、移動処理部１０６と、角度距離調整部１０７と、重畳部１０８と、出力処理部１０９と、通信部２２０とを備える。

　実施の形態２における音空間構築装置２００の音声抽出部１０３、フォーマット変換部１０４、位置取得部１０５、移動処理部１０６、角度距離調整部１０７、重畳部１０８及び出力処理部１０９は、実施の形態１における音空間構築装置１００の音声抽出部１０３、フォーマット変換部１０４、位置取得部１０５、移動処理部１０６、角度距離調整部１０７、重畳部１０８及び出力処理部１０９と同様である。

　通信部２２０は、ネットワーク２３１を介して、集音装置２４０と通信を行う。
　例えば、通信部２２０は、ネットワーク２３１を介して、集音装置２４０からの音声データを受信する。
　また、通信部２２０は、ネットワーク２３１を介して、集音装置２４０に指示を送信する。
　なお、通信部２２０は、図３に示されている通信Ｉ／Ｆ１６により実現することができる。

　音声取得部２０１は、通信部２２０を介して、集音装置２４０から音声データを取得する。取得された音声データは、音源判定部２０２に与えられる。実施の形態２では、音声データは、音空間構築装置２００に対してネットワーク２３１で接続された集音装置２４０で捕捉された音声を示すデータである。

　音源判定部２０２は、音声データに含まれている音源の数を判定する音源数判定と、音声データに含まれている音源の位置である音源位置を推定する音源位置推定とを行う。音源数判定及び音源位置推定は、実施の形態１と同様の処理で行われればよい。
　なお、音源判定部２０２は、例えば、ビームフォーミング法及びＭＵＳＩＣ法により音源位置の推定を行う場合には、音声を捕捉する方向を示す指示を、通信部２２０を介して、集音装置２４０に送る。

　以上のように、実施の形態２によれば、集音装置２４０を遠隔地に設置することで、遠隔地から送信されてきた音声を用いて、仮想空間を構築することができる。

実施の形態３．
　図１０は、実施の形態３に係る音空間構築装置３００の構成を概略的に示すブロック図である。
　音空間構築装置３００は、音声取得部１０１と、音源判定部１０２と、音声抽出部１０３と、フォーマット変換部１０４と、位置取得部１０５と、移動処理部１０６と、角度距離調整部１０７と、重畳部３０８と、出力処理部１０９と、別音声取得部３２１と、角度距離調整部３２２とを備える。

　実施の形態３に係る音空間構築装置３００の音声取得部１０１、音源判定部１０２、音声抽出部１０３、フォーマット変換部１０４、位置取得部１０５、移動処理部１０６、角度距離調整部１０７及び出力処理部１０９は、実施の形態１に係る音空間構築装置１００の音声取得部１０１、音源判定部１０２、音声抽出部１０３、フォーマット変換部１０４、位置取得部１０５、移動処理部１０６、角度距離調整部１０７及び出力処理部１０９と同様である。
　但し、移動処理部１０６は、角度距離データを角度距離調整部３２２にも与える。

　別音声取得部３２１は、マイク等の集音装置（図示しない）で生成された音声データを取得する。別音声取得部３２１で取得される音声データは、音声取得部１０１で取得される音声データとは、少なくとも捕捉された時間及び位置の何れか一方が異なる音声データであるものとする。別音声取得部３２１で取得される音声データを、重畳用音声データともいう。

　ここで、重畳用音声データは、実施の形態１における音源判定部１０２、音声抽出部１０３及びフォーマット変換部１０４での処理と同様の処理により、音源毎に分離されて、アンビソニックスＢフォーマットに変換されたデータであるものとする。

　言い換えると、別音声取得部３２１は、音声取得部１０１で取得される音声データに含まれている音声とは、捕捉された時及び場所の少なくとも何れか一方において異なる音声の音声データを、立体音響のフォーマットに変換することで生成された立体音である重畳用立体音を示す重畳用音声データを取得する。

　重畳用音声データの音声は、アンビソニックス方式に対応したマイクであるアンビソニックスマイクで捕捉されることが望ましいが、複数の無指向マイクで捕捉されてもよい。また、別音声取得部３２１は、図示しない接続Ｉ／Ｆを介して、集音装置から音声データを取得してもよく、図示しない通信Ｉ／Ｆを介して、インターネット等のネットワークから音声データを取得してもよい。さらに、別音声取得部３２１は、図示しない記憶部から重畳用音声データを取得してもよい。取得された重畳用音声データは、角度距離調整部３２２に与えられる。

　角度距離調整部３２２は、重畳用立体音から、聴覚位置における立体音である重畳用調整済立体音を生成する重畳用角度距離調整部として機能する。
　角度距離調整部３２２は、音源毎に、重畳用音声データを、角度距離データで示される角度及び距離となるように調整する。例えば、重畳用音声データが、音声取得部１０１で取得される音声データの音声と同じ場所における過去の音声を示す場合には、角度距離調整部３２２は、角度距離データに従って、角度及び振幅を調整すればよい。角度及び振幅の調整方法については、実施の形態１における角度距離調整部１０７での調整方法と同様である。

　一方、重畳用音声データが、音声取得部１０１で取得される音声データの音声とは、異なる場所における音声を示す場合には、角度距離データで示される角度及び距離に応じて、音源毎に角度及び振幅を調整する基準が予め定められており、その基準に従って、角度距離調整部３２２は、重畳用音声データの角度及び振幅を調整すればよい。

　角度距離調整部３２２は、音源毎に、角度及び距離を調整した重畳用立体音である重畳用調整済立体音を示す重畳用調整済音声データを重畳部３０８に与える。

　重畳部３０８は、複数の調整済立体音及び重畳用調整済立体音を重畳する。
　例えば、重畳部３０８は、音源毎の調整済立体音データ及び重畳用調整済音声データを重畳する。具体的には、重畳部３０８は、音源毎の調整済立体音データで示される音信号及び調整済重畳用音声データで示される音信号を足し合わせる。これにより、重畳部３０８は、足し合わされた音信号を示す合成音データを生成する。合成音データは、出力処理部１０９に与えられる。

　以上に記載された別音声取得部３２１及び角度距離調整部３２２も、図３に示されているプロセッサ１３が補助記憶装置１１に記憶されているプログラムをメモリ１２にロードして、そのプログラムを実行することで実現可能である。

　以上のように、実施の形態３によれば、現実には発生していない別の音声も仮想空間に付加することができるため、例えば、遠隔旅行等の価値を向上することができる。具体的には、ユーザは、仮想空間における聴覚位置での過去の音声、又は、仮想空間とは別の空間での音声を聞くことができる。例えば、ユーザは、現在はない首里城の中で収録された音声を、仮想空間において聞くことができる。

　文献１：澤田他、「独立成分分析を用いた音源数推定法」、日本音響学会、秋季研究発表会、２００４年
　文献２：浅野　太、「音のアレイ信号処理－音源の定位・追跡と分離」、４．５章、コロナ社、２０１１年
　文献３：浅野　太、「音のアレイ信号処理－音源の定位・追跡と分離」、４．５章、コロナ社、２０１１年
　文献４：北村他、「独立低ランク行列分析に基づくブラインド音源分離」、ＩＥＩＣＥ　Ｔｅｃｈｎｉｃａｌ　Ｒｅｐｏｒｔ、ＥＡ２０１７－５６、ｖｏｌ．１１７、Ｎｏ．２５５、ｐｐ．７３－８０、Ｔｏｙａｍａ，Ｏｃｔｏｂｅｒ　２０１７
　文献５：西村　竜一、「アンビソニックス」、映像情報メディア学会誌、Ｖｏｌ．　６８、Ｎｏ.　８、ｐｐ．６１６－６２０、２０１４年
　文献６：特許第６７４２５３５号公報
　文献７：特許第４９６９９７８号公報

　１００，２００，３００　音空間構築装置、　１０１，２０１　音声取得部、　１０２，２０２　音源判定部、　１０３　音声抽出部、　１０４　フォーマット変換部、　１０５　位置取得部、　１０６　移動処理部、　１０７　角度距離調整部、　１０８，３０８　重畳部、　１０９　出力処理部、　１１０　騒音低減部、　１１１　抽出処理部、　１１２　音源分離部、　１１３　位相調整部、　１１４　減算部、　２２０　通信部、　３２１　別音声取得部、　３２２　角度距離調整部、　２３０　音空間構築システム、　２３１　ネットワーク、　２４０　集音装置、　２４１　集音部、　２４２　制御部、　２４３　通信部。

Claims

　複数の音源からの音声を含む音声データを取得する音声取得部と、
　前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部と、
　前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部と、
　前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部と、
　音声を聴く位置である聴覚位置を取得する位置取得部と、
　前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部と、
　前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部と、
　前記複数の調整済立体音を重畳する重畳部と、を備えること
　を特徴とする音空間構築装置。
　前記音声抽出部は、前記音声データから、前記複数の音源に含まれる一つの音源からの音声を分離した残りのデータを、前記音声データから減算することで、前記複数の抽出音声データの内、前記一つの音源に対応する抽出音声データを生成すること
　を特徴とする請求項１に記載の音空間構築装置。
　前記音源判定部は、前記複数の音源が含まれる空間を撮像した画像を用いて、前記複数の音源位置を判定すること
　を特徴とする請求項１又は２に記載の音空間構築装置。
　前記音声データは、前記音空間構築装置に対してネットワークで接続された集音装置で捕捉された音声を示すデータであること
　を特徴とする請求項１から３の何れか一項に記載の音空間構築装置。
　前記音声データに含まれている音声とは、捕捉された時及び場所の少なくとも何れか一方において異なる音声の音声データを、前記立体音響のフォーマットに変換することで生成された立体音である重畳用立体音を示す重畳用音声データを取得する別音声取得部と、
　前記重畳用立体音から、前記聴覚位置における立体音である重畳用調整済立体音を生成する重畳用角度距離調整部と、をさらに備え、
　前記重畳部は、前記複数の調整済立体音及び前記重畳用調整済立体音を重畳すること
　を特徴とする請求項１から４の何れか一項に記載の音空間構築装置。
　音空間構築装置と、前記音空間構築装置に対してネットワークで接続され、複数の音源からの音声を含む音声データを生成する集音装置とを備える音空間構築システムであって、
　前記音空間構築装置は、
　前記集音装置と通信を行う通信部と、
　前記通信部を介して、前記音声データを取得する音声取得部と、
　前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部と、
　前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部と、
　前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部と、
　音声を聴く位置である聴覚位置を取得する位置取得部と、
　前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部と、
　前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部と、
　前記複数の調整済立体音を重畳する重畳部と、を備えること
　を特徴とする音空間構築システム。
　コンピュータを、
　複数の音源からの音声を含む音声データを取得する音声取得部、
　前記音声データから、前記複数の音源の位置である複数の音源位置を判定する音源判定部、
　前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成する音声抽出部、
　前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成するフォーマット変換部、
　音声を聴く位置である聴覚位置を取得する位置取得部、
　前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出する移動処理部、
　前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成する角度距離調整部、及び、
　前記複数の調整済立体音を重畳する重畳部、として機能させること
　を特徴とするプログラム。
　複数の音源からの音声を含む音声データを取得し、
　前記音声データから、前記複数の音源の位置である複数の音源位置を判定し、
　前記音声データで示される音声を音源毎に抽出して、抽出された音声を示す抽出音声データを生成することで、複数の抽出音声データを生成し、
　前記複数の抽出音声データのフォーマットを、立体音響のフォーマットに変換することで、前記複数の音源に対応する複数の立体音を生成し、
　音声を聴く位置である聴覚位置を取得し、
　前記聴覚位置と、前記複数の音源位置の各々との間の角度及び距離を算出し、
　前記複数の立体音のそれぞれを、前記複数の音源位置のそれぞれに対応する角度及び距離で調整することで、前記聴覚位置における複数の立体音である複数の調整済立体音を生成し、
　前記複数の調整済立体音を重畳すること
　を特徴とする音空間構築方法。