WO2021054152A1

WO2021054152A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021054152A1
Application number: PCT/JP2020/033612
Authority: WO
Inventors: 隆一難波; 誠阿久根; 芳明及川
Original assignee: ソニー株式会社
Priority date: 2019-09-18
Filing date: 2020-09-04
Publication date: 2021-03-25
Also published as: JPWO2021054152A1; US20220335967A1; DE112020004387T5; CN114402390A

Abstract

本技術は、高品質な目的音を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、移動体の周囲に他の移動体が存在する状態で、移動体の周囲の音を収音して得られた収録信号と、移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、収録信号における移動体が発した音の時間区間を検出する区間検出部を備える。本技術は収録システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に高品質な目的音を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。

　バードビューやウォークスルーなどの自由視点の音場再現においては、目的とする音源の音を高いSN比（Signal to Noise ratio）で収録することが重要であると同時に、各音源の位置と方位を示す情報の取得が必要となる。

　目的とする音源の音の具体的な例としては、例えば人の音声、歩行音や走行音などの人の一般的な動作音、ボールのキック音などといったスポーツや演劇等のコンテンツに固有の動作音などがあげられる。

　また、例えばユーザの行動認識に関する技術として、複数の測距センサによって検出された測距センサデータの分析を行うことで、１または複数のユーザの行動認識結果を得ることができるようにする技術が提案されている（例えば、特許文献１参照）。

特開２０１７－２０５２１３号公報

　ところで、スポーツや演劇等を自由視点のコンテンツとして収録する場合、収録が行われる空間には複数の音源があり、それらの音源が複雑な動きをすることもあるため、目的とする音源の音を高いSN比で得ることは困難であった。すなわち、高品質な目的音を得ることは困難であった。

　本技術は、このような状況に鑑みてなされたものであり、高品質な目的音を得ることができるようにするものである。

　本技術の一側面の信号処理装置は、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える。

　本技術の一側面の信号処理方法またはプログラムは、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出するステップを含む。

　本技術の一側面においては、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間が検出される。

収録システムの構成例を示す図である。オブジェクトとオブジェクト音源について説明する図である。音源種別区間情報の例を示す図である。音源種別区間情報の生成について説明する図である。除去対象のオブジェクトの選択について説明する図である。収録処理を説明するフローチャートである。データ生成処理を説明するフローチャートである。収録システムの構成例を示す図である。データ生成処理を説明するフローチャートである。収録システムの構成例を示す図である。収録処理を説明するフローチャートである。データ生成処理を説明するフローチャートである。収録システムの構成例を示す図である。データ生成処理を説明するフローチャートである。収録システムの構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈収録システムの構成例〉
　本技術は、対象空間内において複数の移動体にマイクロホンや測距デバイス、カメラなどを装着し、音の収録信号や移動体の位置情報、移動体の運動情報、周囲の映像などに基づいて自身と他者の音を区別して抽出することで、高品質な目的音を得ることができるようにするものである。

　具体的には、本技術を適用するのに適したコンテンツとして、例えば以下のようなものが挙げられる。

　・チームスポーツが行われるフィールドを再現するコンテンツ
　・オーケストラやマーチングバンド等の演奏を再生するコンテンツ
　・ミュージカルやオペラ、演劇などの複数の演者が存在する空間を再現するコンテンツ　・運動会やライブ会場、各種のイベント、テーマパークのパレード等における任意の空間を再現するコンテンツ

　以下では、収録対象となる空間を対象空間と称することとする。

　特に、ここでは、同一の対象空間内には複数の移動体が存在しており、それらの各移動体にはコンテンツの収録のための収録デバイスが装着または内蔵されているとする。

　そして、収録デバイスが装着または内蔵された移動体をオブジェクトとして、そのオブジェクトに起因して発せられる音がオブジェクト音源の音として収録（収音）される。

　例えば対象空間内のオブジェクト（移動体）は、スポーツ選手等の人であってもよいし、収録デバイスが装着または内蔵されているロボットや車両、ドローン等の飛行体などであってもよい。

　例えばオブジェクトが人である場合には、それらの人によるパフォーマンスに影響がないように、かつ周囲から目視されないように、人に装着される収録デバイスは可能な限り小型化されることが望ましい。

　また、収録デバイスには、例えばオブジェクト音源の音を収音するためのマイクロホンや、オブジェクトの動きや向き（方位）を計測するための９軸センサ等のセンサ、位置を測定するための測距デバイス、周囲の映像を撮影するためのカメラなどが設けられている。

　ここで、測距デバイスは、例えばオブジェクトの位置を計測するためのGPS（Global Positioning System）デバイスや室内測距用ビーコン受信機などであり、測距デバイスによって、オブジェクトの位置を示す位置情報を得ることができる。

　また、収録デバイスに設けられたセンサの出力から、速度や加速度などのオブジェクトの動きや、オブジェクトの向き（方位）を示す運動情報が得られる。

　収録デバイスでは、内蔵されているマイクロホンやセンサ、測距デバイスを用いることで、オブジェクトの周囲の音を収音して得られたオーディオ信号である収録信号、オブジェクトの位置情報、およびオブジェクトの運動情報が得られる。また、収録デバイスにカメラが設けられている場合には、オブジェクトの周囲の映像の映像信号も得られる。

　このようにしてオブジェクトごとに得られた収録信号や位置情報、運動情報、映像信号は、目的音であるオブジェクト音源の音のオーディオ信号であるオブジェクト音源信号を得るために用いられる。

　ここで、目的音とされるオブジェクト音源の音とは、例えばオブジェクトである人が発話した音声や、オブジェクトの歩行音や走行音、拍手音等の動作音などである。

　各オブジェクトについて得られた収録信号には、オブジェクト自身から発せられた音だけでなく、近傍にいる他のオブジェクトから発せられた音も含まれている。また、収録信号には、オブジェクトの音であっても、自身が発話した音声や動作音など、複数の互いに異なるオブジェクト音源、すなわち互いに異なる種別の音も含まれている。

　本技術では各オブジェクトについて得られた位置情報や、運動情報、映像信号を必要に応じて利用することで、収録信号に含まれている各オブジェクト音源の音を弁別（区別）し、収録信号から各オブジェクト音源のオブジェクト音源信号を抽出することができる。

　具体的には、例えば運動情報に基づいてオブジェクトの動作状態を特定することで、収録信号における各オブジェクト音源の音が含まれる時間区間を検出することができる。

　したがって、収録信号からオブジェクト音源の音の区間の信号を抽出したり、抽出された信号に対して、適宜、音質補正や音源分離、雑音除去等の信号処理を施したりすることで、SN比が高い高品質なオブジェクト音源信号を得ることができる。

　また、複数のオブジェクトについて得られた位置情報や、運動情報、映像信号などの情報を統合することでオブジェクト音源の音の時間区間の検出結果を高精度化すれば、さらに高品質なオブジェクト音源信号を得ることができる。

　それでは、以下、本技術についてより詳細に説明する。

　図１は、本技術を適用した収録システムの一実施の形態の構成例を示す図である。

　図１に示す例では、収録システムは移動体であるオブジェクトに装着された収録デバイス１１と、収録デバイス１１からの伝送データを受信してオブジェクト音源信号を生成するサーバ１２とを有している。

　なお、収録デバイス１１が移動体に内蔵されていてもよいが、以下では収録デバイス１１が移動体に装着されているものとして説明を続ける。

　収録デバイス１１は、収録対象となる対象空間内を自由に移動可能な移動体であるオブジェクトに装着されており、収録信号、位置情報、および運動情報が含まれる伝送データを生成してサーバ１２へと送信する。

　なお、ここでは収録デバイス１１が１つだけ描かれているが、実際には複数の収録デバイス１１があり、それらの複数の収録デバイス１１が、互いに異なる複数のオブジェクトに装着されている。

　サーバ１２は、複数の収録デバイス１１から受信した伝送データに基づいて、コンテンツのデータとして、各オブジェクト音源のオブジェクト音源信号とメタデータとからなるオブジェクト音源データを出力する。なお、サーバ１２は対象空間に配置されている必要はない。

　また、収録デバイス１１は、マイクロホン２１、動き計測部２２、位置計測部２３、収録部２４、および伝送部２５を有している。

　マイクロホン２１は、収録デバイス１１の周囲の音を収音し、その結果得られた収録信号を収録部２４に供給する。なお、収録信号はモノラルの信号であってもよいが、ここでは収録信号がマルチチャネルの信号であるものとして説明を行う。

　収録デバイス１１では、周囲に、その収録デバイス１１が装着されたオブジェクトだけでなく、他のオブジェクトも存在する状態でマイクロホン２１による収音が行われるため、収録信号に基づく音には複数の音源からの音が含まれている。

　動き計測部２２は、例えば９軸センサや地磁気センサ、加速度センサ、ジャイロセンサなどのオブジェクトの動きや向きを計測するためのセンサからなり、その計測結果（センシング値）を示すセンサ信号を運動情報として収録部２４に出力する。

　特に動き計測部２２では、マイクロホン２１による収音が行われているときに、オブジェクトの動きや向きの計測が行われ、その結果を示す運動情報が出力される。

　なお、ここではセンサ信号がそのまま運動情報とされる例について説明するが、センサ信号に対して、適宜、収録部２４により信号処理が行われることで、センサ信号から運動情報が生成されるようにしてもよい。

　また、動き計測部２２は、収録デバイス１１の外部に設けられ、オブジェクトにおける収録デバイス１１の装着位置とは異なる位置に装着されるようにしてもよい。

　位置計測部２３は、例えばGPSデバイスや室内測距用ビーコン受信機などの測距デバイスからなり、収録デバイス１１が装着されたオブジェクトの位置を計測し、その計測結果を示す位置情報を収録部２４に出力する。

　なお、収録信号、運動情報、および位置情報は同じ期間の間、同時に取得される。

　収録部２４は、マイクロホン２１から供給された収録信号、動き計測部２２から供給された運動情報、および位置計測部２３から供給された位置情報に対して、適宜、AD（Analog to Digital）変換等を行って伝送部２５に供給する。

　伝送部２５は、収録部２４から供給された収録信号、運動情報、および位置情報に対して圧縮処理を行うなどして、収録信号、運動情報、および位置情報が含まれる伝送データを生成し、得られた伝送データを無線のネットワーク等を介してサーバ１２へと送信する。

　また、サーバ１２は、受信部３１、区間検出部３２、およびオブジェクト音源データ生成部３３を有している。

　受信部３１は、複数の各収録デバイス１１から送信された伝送データを受信し、伝送データから収録信号、位置情報、および運動情報を抽出する。

　受信部３１は、収録信号を区間検出部３２およびオブジェクト音源データ生成部３３に供給する。また、受信部３１は、運動情報を区間検出部３２に供給するとともに、運動情報および位置情報をオブジェクト音源データ生成部３３に供給する。

　区間検出部３２は、受信部３１から供給された収録信号および運動情報に基づいて、収録信号ごとに、収録信号に含まれているオブジェクト音源の音の種別（種類）、すなわちオブジェクト音源の種別と、そのオブジェクト音源の音が含まれている時間区間を検出する。

　区間検出部３２は、収録信号から検出されたオブジェクト音源の音の種別と時間区間を示す音源種別区間情報をオブジェクト音源データ生成部３３に供給する。

　また、区間検出部３２は、収録信号に対応するオブジェクトと、その収録信号から検出されたオブジェクト音源の音の種別とを示す音源種別情報をオブジェクト音源データ生成部３３に供給する。換言すれば、音源種別情報は、オブジェクト音源信号に基づく音の音源であるオブジェクト音源の種別と、その音の発生源のオブジェクトとを示す情報である。

　オブジェクト音源データ生成部３３は、受信部３１から供給された収録信号、運動情報、および位置情報と、区間検出部３２から供給された音源種別区間情報および音源種別情報に基づいてオブジェクト音源データを生成し、後段の再生装置等へと出力する。

　オブジェクト音源データ生成部３３は、信号処理部４１およびメタデータ生成部４２を有している。

　信号処理部４１は、受信部３１から供給された収録信号に対して、区間検出部３２から供給された音源種別区間情報と、受信部３１から供給された運動情報および位置情報とに基づいて所定の信号処理を施してオブジェクト音源信号を生成する。

　ここでは、例えば音源種別区間情報に基づいて、収録信号からオブジェクト音源の音の時間区間が抽出されたり、収録信号のオブジェクト音源の音のない時間区間がミュートされたりするなど、１または複数の信号処理が行われてオブジェクト音源信号が生成される。

　また、メタデータ生成部４２は、区間検出部３２から供給された音源種別情報と、受信部３１から供給された運動情報および位置情報とを含む、各オブジェクト音源、すなわち各オブジェクト音源信号のメタデータを生成する。

　オブジェクト音源データ生成部３３からは、このようにして得られたオブジェクト音源信号とメタデータとからなるオブジェクト音源データが後段に出力される。

〈サーバの各部について〉
　次に、サーバ１２を構成する各部について、より詳細に説明する。

　まず、区間検出部３２について説明する。

　なお、以下では、適宜、所定の注目するオブジェクトを対象オブジェクトとも称し、対象オブジェクト以外のオブジェクトを他のオブジェクトとも称することとする。

　区間検出部３２では、収録信号に含まれている音が、対象オブジェクトから発せられた音であるか、または他のオブジェクトから発せられた音であるかが弁別されたり、対象オブジェクトから発せられた音の種別が特定されたり、対象オブジェクトから発せられた音の時間区間が検出されたりする。

　上述したように区間検出部３２では、収録信号および運動情報が入力とされ、その入力に対して音源種別区間情報および音源種別情報が出力とされる。

　ここでは、例えば図２に示すように、収録デバイス１１が装着された移動体がオブジェクトであり、そのオブジェクトの各部がオブジェクト音源となって、そのオブジェクト音源の音がオブジェクトから発せられるものとする。なお、より詳細にはオブジェクトが所持している楽器等もオブジェクト音源となり得るものとする。

　また、収録デバイス１１やサーバ１２では、オブジェクト音源として、どのような種別のものがあるのかが予め定められている。

　例えばオブジェクト音源の種別、つまりオブジェクト音源の音の種別には、全コンテンツで共通するものや、コンテンツごとに異なるものがあるとする。

　具体的には、例えば図２中、右側に示すように、全コンテンツで共通するオブジェクト音源の音の種別の例としては、オブジェクトである人が発する音声や、その人の歩行音、走行音、拍手の音などがあげられる。

　また、例えばスポーツに関するコンテンツに固有のオブジェクト音源の音の種別例としては、パスの音やシュート音、ホイッスルの音などがあげられ、音楽に関するコンテンツに固有のオブジェクト音源の音の種別例としては楽器音などがあげられる。さらに、例えば演劇やダンスなどのコンテンツに固有のオブジェクト音源の音の種別例としては、衣服の衣擦れ音やステップ音などの演者の所作に関する音などがあげられる。

　区間検出部３２では、収録信号のどの時間区間にどの種別のオブジェクト音源の音が含まれているかを示す音源種別区間情報が生成される。

　この音源種別区間情報は、例えば図３に示すように、0または1を示すバイナリ情報や、連続値により表現される確率情報など、どのような形式の情報であってもよく、また、時間信号に対する区間情報でも周波数ビンごとの区間情報でもよい。

　例えば図３の左上に示す例では音源種別区間情報は、時間信号である収録信号の各時刻においてオブジェクト音源の音が含まれているか否かを示す、オブジェクト音源ごとのバイナリ情報とされている。

　この例では、各折れ線はオブジェクト音源である「暗騒音」、「歩行音/走行音」、「シュート音」、および「音声」の音が各時刻において含まれているか否かを示している。

　特に、各折れ線の横方向は時間を示しており、折れ線が上に凸となっている区間は、その区間にオブジェクト音源の音が含まれていることを示している。

　また、図３中、右上に示す例では音源種別区間情報は、時間信号である収録信号の各時刻においてオブジェクト音源の音が含まれている確率値を示す、オブジェクト音源ごとの連続値情報とされている。

　この例では、各曲線はオブジェクト音源である「暗騒音」、「歩行音/走行音」、「シュート音」、および「音声」の音が各時刻において含まれている確率値を示している。

　各オブジェクト音源の音が含まれている連続的な確率値は、例えば機械学習により得られる、オブジェクト音源の検出を多クラスの識別問題とした際のDNN（Deep Neural Network）の出力値などとされる。

　さらに、図３中、左下に示す例では音源種別区間情報は、オブジェクト音源の種別ごとに生成された、時間周波数マスク形式のバイナリ情報とされている。

　この時間周波数マスク形式のバイナリ情報では、収録信号の各時間周波数ビンの成分ごとに、収録信号の各時間区間（時刻）においてオブジェクト音源の音が含まれているか否かがバイナリ値により表現されている。特に、この例では縦軸は時間周波数ビンを示しており、横軸は時間を示している。

　また、図３中、右下に示す例では音源種別区間情報は、オブジェクト音源の種別ごとに生成された、時間周波数マスク形式の連続値情報とされている。この例においても縦軸は時間周波数ビンを示しており、横軸は時間を示している。

　この時間周波数マスク形式の連続値情報では、収録信号の各時間周波数ビンの成分ごとに、収録信号の各時間区間（時刻）においてオブジェクト音源の音が含まれている確率が連続値により表現されている。

　なお、音源種別区間情報は、図３に示した例に限らず、どのような形式の情報とされてもよく、どのような形式の音源種別区間情報を用いるかは、後段の信号処理部４１において、どのような信号処理が行われるかに応じて、適切に定めるようにすればよい。

　また、音源種別区間情報を生成するにあたり、区間検出部３２では、収録信号の各時間区間から各種別のオブジェクト音源の音が検出される。換言すれば、各種別のオブジェクト音源の音の時間区間が検出される。

　収録デバイス１１で得られる運動情報は、収録信号を得るためのマイクロホン２１による収音時のオブジェクトの動きや向きを示す情報である。

　そのため、運動情報を利用してオブジェクト音源の音の時間区間を検出すれば、収録信号における各時間区間に含まれている音が、オブジェクトから発せられた音であるか、または周囲のオブジェクトから発せられた音であるかを弁別することができる。

　例えばオブジェクト音源の音として、歩行音や走行音、拍手音、サッカーのシュート音、ダンスのステップ音などの様々な動作音がある。

　動作音の時間区間を検出する方法の１つとして、例えば閾値を用いた閾値処理等の簡易的なアルゴリズムにより動作音の時間区間を検出する方法を採用することができる。

　そのような場合、例えば運動情報としてのセンサのセンシング値が検出対象の動作音に対して定められた特定の範囲内に収まっている時間区間が動作音の時間区間とされる。

　また、例えばDNN等の識別器をマルチモーダル学習により生成し、その識別器を動作音の時間区間の検出に用いるようにしてもよい。

　この場合、例えば運動情報として得られる、加速度センサや地磁気センサ、ジャイロセンサなどのセンサのセンサ値と収録信号とを入力とし、収録信号の各時間区間における動作音の有無を出力とするDNN等の識別器が学習により生成される。

　なお、識別器として、例えば全コンテンツで共通する複数の動作音を検出対象とするものや、コンテンツに特有の動作音を検出対象とするものを用いることができる。

　ここで、具体的な動作音の時間区間の検出例について説明する。

　例えば動作音としてのオブジェクトの歩行音や走行音の時間区間を検出する場合、加速度センサにより計測された、オブジェクトの上下方向の加速度を示すセンサ値を運動情報として用いればよい。

　この場合、センサ値の変動によりオブジェクトの歩行や走行を検出することができ、例えばセンサ値の時間波形の周波数、すなわち振動数が2Hz以下程度の時間区間は、オブジェクトが歩行動作を行っている区間、つまり歩行音の時間区間とされる。同様に、例えばセンサ値の振動数が3Hz乃至4Hz程度の時間区間は、オブジェクトが走行動作を行っている区間、つまり走行音の時間区間とされる。

　また、例えば動作音としてのボールキック音の時間区間や、球技におけるシュート関連の音の時間区間を検出する場合、主にジャイロセンサにより計測された、オブジェクトの回転を示す回転角度等の情報を運動情報として用いればよい。これは、オブジェクトとしての人がボールキック動作やシュート動作を行うときには体を回転させるからである。

　さらに、例えば動作音としてのフィンガースナップの音の時間区間や、オブジェクトが自身の体をたたく音の時間区間を検出する場合、加速度センサや、ジャイロセンサ、地磁気センサなどのセンサ値の変動を利用すればよい。

　この場合、例えば動き計測部２２としての加速度センサやジャイロセンサ、地磁気センサがオブジェクトとしての人の胴体部分や手首、腕などに装着され、その装着部位に応じたセンサ値の変動量に基づいて、オブジェクトの胴体の動きや手の動きなどが検出される。

　また、例えば動作音の時間区間として、オブジェクトである人の呼吸音の時間区間を検出する場合、加速度センサにより計測された、オブジェクトの上下方向の微小な変位を示すセンサ値を運動情報として用いればよい。

　この場合、センサ値の変動によりオブジェクトの呼吸動作を検出することができ、例えばセンサ値の振動数が0.5Hz乃至1Hz程度である時間区間が、聞き取り可能な程度の呼吸音が収録される呼吸動作が行われている時間区間、つまりオブジェクトの呼吸音の時間区間とされる。

　さらに、例えば上記のようなオブジェクトが音を発するときの各動作の特徴を利用して、収録信号および運動情報を入力とし、オブジェクト音源の音の有無を出力とするDNN等の識別器を用いて、各オブジェクト音源の音の時間区間を検出してもよい。

　例えば図４に示すように、収録信号と、運動情報としての加速度センサのセンサ値（センサ信号）とを用いれば、識別器によりオブジェクト音源の音としての歩行音の時間区間を高精度に検出することができる。

　図４では、矢印Q11に示す部分には収録信号の時間波形が示されており、矢印Q12に示す部分には収録信号のスペクトルが示されている。また、矢印Q13に示す部分には、加速度センサのセンサ信号の時間波形が示されており、矢印Q14に示す部分には、そのセンサ信号のスペクトルが示されている。なお、矢印Q11乃至矢印Q14により示される各部分では、図中、横方向は時間を示している。

　この例では、例えば収録信号における矢印A11に示す部分などにおいて、対象オブジェクトの歩行音と、その対象オブジェクトの周囲にいる他のオブジェクトの歩行音とが混在している。

　このような場合、収録信号の時間波形と収録信号のスペクトルだけでは、収録信号に含まれている歩行音の成分が対象オブジェクトのものであるのか、他のオブジェクトのものであるのかを判別することは困難である。

　そこで、この例では収録信号だけでなく、センサ信号（運動情報）も用いられて対象オブジェクトのものであるか、他のオブジェクトのものであるかの判別（弁別）が行われる。

　矢印Q13に示すセンサ信号の時間波形は、上下方向に周期的に変動しており、この時間波形、つまり上下方向の成分の値は、対象オブジェクトの床反力垂直成分を示している。

　特に、ここでは、例えば矢印A12に示す部分など、図中、上に凸となっている１つのやまの部分が対象オブジェクトの一歩分の体動に対応しており、センサ信号には高いSN比で対象オブジェクトの体動を示す情報が含まれていることが分かる。

　また、矢印Q14に示すセンサ信号のスペクトルにおける濃淡のパターンも、矢印Q13に示したセンサ信号の時間波形と明確に対応がとれていることが分かる。

　このように、センサ信号には対象オブジェクトの体動を示す情報は高いSN比で含まれているが、他のオブジェクトの体動を示す情報は全く含まれていない。

　したがって、収録信号と運動情報とを利用することで、高精度に対象オブジェクトのオブジェクト音源の音の時間区間を検出することができる。

　具体的には、例えば対象オブジェクトの音の音圧と同じ音圧で、他のオブジェクトの音が収録信号に含まれている場合、収録信号のみを用いても高精度に対象オブジェクトの音の時間区間を検出することはできない。しかし、収録信号だけでなく、運動情報も利用することで、精度よく対象オブジェクトの音の時間区間を検出することができる。

　一般的に加速度センサやジャイロセンサ、地磁気センサなどのセンサ値からオブジェクトの行動を推定する手法が行動認識の分野などで多く提案されている。

　これに対して、区間検出部３２では、以上において説明したように収録信号と運動情報とが用いられて、対象オブジェクトから発せられた音と他のオブジェクトから発せられた音とがオブジェクト音源の音の種別ごとに弁別される。

　なお、例えば行動認識や理学療法などの分野では、歩行や走行は持続する動作であるとされ、立脚期や遊脚期などの連続的な状態遷移で記述されていることが多い。

　これに対して、区間検出部３２では、例えば実際に歩行音や走行音が発生する時間区間、すなわちオブジェクトとしての人の足、より詳細には踵やつま先の接地から離地までの時間区間が、歩行音や走行音の時間区間として検出される。

　また、オブジェクト音源の音としてのオブジェクトの発話の音声の時間区間についても運動情報から高精度に検出可能である。

　例えばオブジェクトとしての人の首回りや頭部に動き計測部２２が装着されている場合、対象オブジェクトが発話を行うと、運動情報としてのセンサ信号では、発話に起因する体動を示す情報が高いSN比で観測される。

　そのため、動作音における場合と同様に、発話音声の時間区間についても収録信号と運動情報を用いることで、対象オブジェクトから発せられた音声と、他のオブジェクトから発せられた音声とを高精度に弁別することが可能である。

　なお、対象オブジェクトの発話時の体動を示す情報が高いSN比で含まれる運動情報を得ることができないことも有り得る。

　しかし、そのような場合には、例えば収録デバイス１１を装着している対象オブジェクトの発話音声がマイクロホン２１を構成する複数の各マイクロホンで収音されるときに、その発話音声の各マイクロホンへの到来方向が略一定となる性質を利用すればよい。

　具体的には、例えば区間検出部３２において、複数の各マイクロホンで得られた収録信号に対してDS（Delay and Sum beamforming）を行うことで、収録信号における対象オブジェクトの音声が到来する方位の成分が強調される。

　このようにして得られた収録信号と、運動情報とを用いれば、高い精度で対象オブジェクトの発話音声と他のオブジェクトの発話音声とを弁別することができる。

　また、例えば区間検出部３２において、NBF（Null Beamformer）を利用して、収録信号に含まれる対象オブジェクトの発話音声の成分が抑圧されるようにしてもよい。

　この場合、抑圧前の収録信号から検出された対象オブジェクトの発話音声の時間区間と、抑圧後の収録信号から検出された対象オブジェクトの発話音声の時間区間とが比較される。そして、抑圧前の収録信号から検出された時間区間のうち、抑圧後の収録信号からは検出されなかった時間区間が、最終的な対象オブジェクトの発話音声の時間区間とされる。

　次に、信号処理部４１において行われる処理について、より詳細に説明する。

　信号処理部４１では、区間検出部３２で得られた音源種別区間情報と、運動情報と、位置情報と、収録信号とに基づいて信号処理を行うことで、オブジェクト音源の種別ごとのオーディオ信号であるオブジェクト音源信号が生成される。

　例えば信号処理部４１では、音質補正処理、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理や、それらの処理のうちの複数のものを組み合わせた処理が収録信号に対する信号処理として行われる。

　より具体的には、例えば音質補正処理として、オブジェクトが動くことにより、収録デバイス１１とオブジェクトとの接触部分で発生する雑音等の目的外の音を抑制するなどしてオブジェクト音源の音の品質（音質）を向上させるための処理が行われる。

　すなわち、例えば雑音が支配的な周波数帯域を抑制するフィルタ処理やゲイン補正といった、雑音を抑制する処理、雑音が多い区間や不要な区間、コンテンツ視聴時に適切ではない音声などが含まれる区間をミュートする処理などが音質補正処理として行われる。

　なお、適切でない音声が含まれる時間区間は、例えば音源種別区間情報や、収録信号に対する音声認識処理などにより検出することが考えられる。

　また、例えば収録信号における、高域が減衰しやすいオブジェクト音源の音が含まれる時間区間に対して高域成分を増加させるフィルタ処理を行うなど、オブジェクト音源の音の品質を向上させる処理を音質補正処理として行ってもよい。そのような場合、例えば音源種別区間情報に基づいて、収録信号の各時間区間に対して、オブジェクト音源の種別ごとに定められた処理を音質補正処理として行えばよい。

　さらに、例えば音源種別区間情報を参照すれば、収録信号において複数のオブジェクト音源の音が含まれている時間区間を特定することができる。

　そこで、その特定結果に基づいて、オブジェクト音源の種別ごとの振幅値や確率密度分布の差異に応じて、各オブジェクト音源の音を分離させる独立成分分析に基づく音源分離処理が収録信号に対して行われるようにしてもよい。

　また、オブジェクトから見たオブジェクト音源の方位の差異に応じてビームフォーミングなどを音源分離処理として行い、収録信号から各オブジェクト音源の音の信号を分離させるようにしてもよい。

　さらに、音源種別区間情報から、収録信号の時間区間に１つのオブジェクト音源の音のみが含まれていることが特定された場合には、その時間区間の信号をオブジェクト音源信号として切り出す処理が音源分離処理として行われる。

　これらの処理により、１つのオブジェクト音源の音のみが含まれる信号を得ることができ、その信号をオブジェクト音源信号とすることができる。

　また、音質補正処理と同様に、収録信号において、主に暗騒音や歓声などの定常ノイズや風等の雑音といった不要な音がオブジェクト音源の音の時間区間に含まれているときには、その時間区間に対して雑音を抑圧する処理を雑音除去処理として行ってもよい。

　その他、例えば各オブジェクトの位置情報と運動情報から、対象オブジェクトの周囲に他のオブジェクトが存在しているかや、対象オブジェクトに対する他のオブジェクトの相対的な方位、対象オブジェクトから他のオブジェクトまでの距離を特定することができる。

　したがって、それらの特定結果と音源種別区間情報から、対象オブジェクトのオブジェクト音源の音が含まれる時間区間に、他のオブジェクトの音が含まれているかを特定することができるので、DNNを利用した音源分離などにより対象オブジェクトについてのオブジェクト音源の音のみを抽出（分離）させることができる。

　なお、このような音源分離等にあたっては、例えば図５に示すように、対象オブジェクトOB11を中心とする所定の半径の円の領域R11内に位置する他のオブジェクトが除去対象のオブジェクトとされる。図５において各点はオブジェクトを表している。

　また、除去対象のオブジェクトまでの距離や、除去対象のオブジェクトの相対的な方位が考慮されて、対象オブジェクトOB11の収録信号におけるオブジェクト音源の音が含まれる時間区間に対して、その時間区間に含まれる除去対象のオブジェクトの音を除去する音源分離等の処理が行われる。つまり、対象オブジェクトOB11についてのオブジェクト音源の音の信号が抽出される。

　このとき、対象オブジェクトOB11から除去対象のオブジェクトまでの距離は、それらのオブジェクトの位置情報から得ることができる。また、対象オブジェクトOB11から見た除去対象のオブジェクトの相対方位は、それらのオブジェクトの運動情報により示される向きや位置情報により得ることができる。

　さらに、領域R11外にあるオブジェクト、つまり対象オブジェクトOB11からの距離が所定距離以上であるオブジェクトについては、除去対象のオブジェクトとはされない。

　これは、対象オブジェクトOB11の収録信号へと混入する、遠い位置にあるオブジェクトからの音は、距離減衰によって少なくなるので、そのようなオブジェクトの音声や動作音については考慮する必要がないからである。

　また、除去対象のオブジェクトの音を除去（分離）する際には、対象オブジェクトOB11から除去対象のオブジェクトまでの距離に応じて、除去対象のオブジェクトの音の分離時のゲインや強度を変化させるようにしてもよい。つまり、距離に応じて混入量（寄与率）が連続的に変化するものとして扱われるようにしてもよい。

　また、例えば信号処理として行われる距離補正処理は、オブジェクト音源の発する音の絶対音圧に対して、収録時にオブジェクト音源からマイクロホン２１の位置までの距離減衰や伝達特性が畳み込まれてしまった影響を補正する処理である。

　具体的には、例えば距離補正処理として、例えばオブジェクト音源からマイクロホン２１までの伝達特性の逆特性を収録信号に付加する処理を行うようにしてもよい。

　これにより、距離減衰や伝達特性などによるオブジェクト音源の音の音質劣化を補正することができるとともに、コンテンツ再生時に各オブジェクト音源の位置関係に応じた、各オブジェクト音源の音の絶対音圧の相対関係を回復することができる。

　さらに、例えば信号処理として行われる音源差し替え処理は、音源種別区間情報により示される所定のオブジェクト音源の種別の音を、事前に用意された音など、収録された音とは異なる音に差し替えてオブジェクト音源信号とする処理である。

　換言すれば、音源差し替え処理では、音源種別区間情報に基づいて、収録信号の一部の区間、または収録信号から得られたオブジェクト音源信号の一部の区間が、事前に用意されたり、動的に生成されたりした他のオーディオ信号に置き換えられる。

　ここでは、例えばオブジェクト音源の種別に応じて、事前に用意された高いSN比の音の信号をオブジェクト音源信号とすることができる。このような音源差し替え処理は、運動情報としてのセンサ値の振幅が大きく、すなわちオブジェクトの動きが大きく、収録したオブジェクト音源の音の音質がよくない場合に特に有効である。したがって、例えば運動情報に対する閾値処理の結果等に基づいて、音源差し替え処理を行うか否かが決定されてもよい。

　また、例えば音源差し替え処理では、運動情報としての加速度などを関数に代入するなどしてパラメトリックに生成された音の信号をオブジェクト音源信号としてもよい。

　さらに、例えば音源差し替え処理では、オブジェクト音源の音としてコンテンツ視聴時に適切ではない音声の時間区間がある場合には、事前に用意された所定の音の信号を、その時間区間のオブジェクト音源信号としてもよい。

　なお、信号処理部４１で得られるオブジェクト音源信号は、オブジェクト音源の音がある時間区間のみの信号であってもよいし、全時間区間の信号であるがオブジェクト音源の音がない時間区間は無音信号となっている信号とされてもよい。

　また、以上において説明した音質補正処理や、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理は、オンラインで収録信号のフレームごとに処理を行う場合や、先読みフレームを利用して処理を行う場合、オフラインで処理を行う場合など、何れの場合であっても実現可能である。このとき、必要に応じて収録信号の処理対象のフレームよりも過去のフレームについて、収録信号や音源種別区間情報、運動情報、位置情報などを保持しておけばよい。

〈収録処理の説明〉
　次に、収録デバイス１１とサーバ１２の動作について説明する。

　まず、収録デバイス１１の動作について説明する。収録デバイス１１は、オブジェクトに装着されて、例えばオブジェクトがパフォーマンスや試合を行っている間など、所定期間において収録処理を行う。

　以下、図６のフローチャートを参照して、収録デバイス１１による収録処理について説明する。

　ステップＳ１１において収録部２４は、周囲の音の収録を行う。

　すなわち、マイクロホン２１が周囲の音を収音し、その結果得られた収録信号を出力すると、収録部２４は、マイクロホン２１から出力された収録信号を取得することで、収録された音の収録信号を得る。

　ステップＳ１２において、収録部２４は、動き計測部２２および位置計測部２３から運動情報および位置情報を取得する。

　収録部２４は、このようにして得られた収録信号や、運動情報、位置情報に対して、必要に応じてAD変換等を行い、伝送部２５に供給する。

　また、伝送部２５は、収録部２４から供給された収録信号、運動情報、および位置情報からなる伝送データを生成する。このとき、伝送部２５は、必要に応じて収録信号や、運動情報、および位置情報に対して圧縮処理を行う。

　ステップＳ１３において伝送部２５は、伝送データをサーバ１２に送信する。

　なお、ここでは収録中にリアルタイム（オンライン）で、逐次、収録により得られた伝送データをサーバ１２に送信する例について説明するが、収録中には伝送データを蓄積しておき、収録後、オフラインで全ての伝送データを一括してサーバ１２に送信してもよい。

　ステップＳ１４において収録部２４は、処理を終了するか否かを判定する。例えば収録デバイス１１に設けられた図示せぬボタンなどが操作され、収録の終了が指示された場合、処理を終了すると判定される。

　ステップＳ１４において、まだ処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１４において処理を終了すると判定された場合、収録デバイス１１の各部は行っている動作を停止し、収録処理は終了する。

　以上のようにして収録デバイス１１は、収音を行うとともにオブジェクトの動きや位置の計測を行い、収録信号、運動情報、および位置情報を含む伝送データをサーバ１２に送信する。このようにすることで、サーバ１２では、高品質な目的音を得ることができるようになる。

〈データ生成処理の説明〉
　また、サーバ１２は、各収録デバイス１１から伝送データが送信されてくると、データ生成処理を行って、オブジェクト音源データを出力する。以下、図７のフローチャートを参照して、サーバ１２により行われるデータ生成処理について説明する。

　ステップＳ４１において受信部３１は、収録デバイス１１から送信されてきた伝送データを受信する。

　また、受信部３１は、受信した伝送データに対して、必要に応じて伸張処理を行い、伝送データから収録信号、運動情報、および位置情報を抽出する。

　そして、受信部３１は、区間検出部３２に収録信号および運動情報を供給し、信号処理部４１に収録信号、運動情報、および位置情報を供給し、メタデータ生成部４２に運動情報および位置情報を供給する。

　ステップＳ４２において区間検出部３２は、オブジェクト（収録デバイス１１）ごとに、受信部３１から供給されたオブジェクトの収録信号および運動情報に基づいて、そのオブジェクトの音源種別区間情報を生成し、信号処理部４１に供給する。

　例えば区間検出部３２は、上述したように収録信号に対して閾値処理を行ったり、DNN等の識別器に収録信号や運動情報を代入して演算を行ったり、収録信号に対してDSやNBFを行ったりすることで各時間区間に含まれるオブジェクト音源の種別を特定し、音源種別区間情報を生成する。

　また、区間検出部３２は、各時間区間に含まれるオブジェクト音源の種別の特定結果に基づいて、収録信号に含まれている音のオブジェクト音源の種別とオブジェクトとを示す音源種別情報を生成し、メタデータ生成部４２に供給する。

　ステップＳ４３において信号処理部４１は、受信部３１から供給された収録信号、運動情報、および位置情報と、区間検出部３２から供給された音源種別区間情報とに基づいてオブジェクト音源信号を生成する。

　具体的には信号処理部４１は、収録信号に対して、適宜、上述した音質補正処理や、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理を行うことで、各オブジェクトについてオブジェクト音源信号を生成する。このとき、対象オブジェクトの運動情報や位置情報、音源種別区間情報だけでなく、他のオブジェクトの運動情報や位置情報、音源種別区間情報も利用されて、対象オブジェクトのオブジェクト音源信号が生成される。

　ステップＳ４４においてメタデータ生成部４２は、各オブジェクトのオブジェクト音源ごとに、区間検出部３２から供給された音源種別情報と、受信部３１から供給された運動情報および位置情報とを含むメタデータを生成する。

　このようにしてオブジェクト音源ごとに、オブジェクト音源信号とメタデータとが得られると、オブジェクト音源データ生成部３３は、各オブジェクト音源について、オブジェクト音源信号とメタデータを含むオブジェクト音源データを後段に出力する。

　ステップＳ４５においてサーバ１２は、処理を終了するか否かを判定する。例えばステップＳ４５では、収録デバイス１１から受信した全ての伝送データが処理された場合、処理を終了すると判定される。

　ステップＳ４５において、まだ処理を終了しないと判定された場合、その後、処理はステップＳ４１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ４５において処理を終了すると判定された場合、サーバ１２の各部は行っている処理を停止し、データ生成処理は終了する。

　なお、ここでは収録デバイス１１からリアルタイムで、逐次、伝送データが送信され、サーバ１２においても逐次、伝送データからオブジェクト音源データを生成する例について説明した。

　しかし、収録デバイス１１からの伝送データを蓄積しておき、蓄積した伝送データを一括して処理し、オブジェクト音源データを生成してもよい。また、収録デバイス１１から伝送データが一括で送信されてきたときには、受信した伝送データを一括して処理し、オブジェクト音源データを生成すればよい。

　以上のようにしてサーバ１２は、複数の収録デバイス１１から伝送データを受信し、それらの伝送データからオブジェクト音源データを生成して出力する。

　このとき、収録信号だけでなく運動情報も利用して音源種別区間情報を生成したり、その音源種別区間情報を用いてオブジェクト音源データを生成したりすることで、高品質な目的音、すなわちオブジェクト音源信号を得ることができる。

〈第２の実施の形態〉
〈収録システムの構成例〉
　なお、以上においては各オブジェクトの音源種別区間情報を生成するときには、他のオブジェクトについて得られた情報は用いられない例について説明した。しかし、例えば各オブジェクトについて得られた情報を統合することで、音源種別区間情報を高精度化するようにしてもよい。

　そのような場合、収録システムは、例えば図８に示すように構成される。なお、図８において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図８に示す収録システムは、収録デバイス１１とサーバ１２とを有しており、収録デバイス１１の構成は図１における場合と同じとなっている。

　これに対して図８に示す収録システムでは、サーバ１２は受信部３１、区間検出部３２、統合部７１、およびオブジェクト音源データ生成部３３を有している。また、オブジェクト音源データ生成部３３は、信号処理部４１およびメタデータ生成部４２を有している。

　このサーバ１２の構成は、新たに統合部７１が設けられた点で図１に示したサーバ１２と異なり、その他の点では図１に示したサーバ１２と同じ構成となっている。

　この例では、区間検出部３２で生成された音源種別区間情報は、統合部７１に供給される。また、統合部７１には、区間検出部３２からの音源種別区間情報の他に、受信部３１から収録信号、運動情報、および位置情報が供給される。

　統合部７１は、これらの収録信号、音源種別区間情報、運動情報、および位置情報に基づいて、最終的な音源種別区間情報を生成して信号処理部４１に供給するとともに、音源種別情報も生成してメタデータ生成部４２に供給する。

　特に統合部７１では、各収録デバイス１１で得られた運動情報や位置情報などの各情報を統合することで、より高精度な音源種別区間情報が生成される。

　なお、以下では区間検出部３２とは別に統合部７１が設けられている例について説明するが、統合部７１が区間検出部３２に設けられていてもよい。そのような場合、区間検出部３２が以上において説明した処理とともに、以下において説明する統合部７１の処理も同時に行い、音源種別区間情報と音源種別情報を生成する。

　ここで、統合部７１についてさらに詳細に説明する。

　例えば区間検出部３２では、オブジェクトごと、つまり収録デバイス１１ごとに、オブジェクトの動作音や音声であると推定される時間区間が検出されて音源種別区間情報が生成される。

　しかし、それでも他のオブジェクトの動作音や音声の時間区間が、対象オブジェクトの動作音や音声の時間区間であると誤検出されたり、本来検出されるべき対象オブジェクトの動作音や音声の時間区間が検出されなかったりすることもある。

　そこで、統合部７１では、各収録デバイス１１で得られた情報を統合することで、より高精度な音源種別区間情報を得ることができるようになされている。

　具体的には、統合部７１は、例えば所定の時間長のフレームごとに、音源種別区間情報、収録信号、運動情報、および位置情報に基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行うことで、最終的な音源種別区間情報を得る。

　換言すれば、統合部７１は、対象オブジェクトの収録信号、運動情報、および位置情報と、他のオブジェクトの収録信号、運動情報、および位置情報のうちの少なくとも何れか１つとに基づいて、対象オブジェクトの音源種別区間情報を生成する。

　以下、これらの位置情報比較処理、時間区間統合処理、および区間平滑化処理の例について、さらに説明する。

　まず、全てのオブジェクトが、順次、対象オブジェクトとして選択されて、対象オブジェクトごとに位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。

　位置情報比較処理では、各オブジェクトの位置情報に基づいて、対象オブジェクトから他のオブジェクトまでの間の距離が計算される。

　そして、求められた距離に基づいて、対象オブジェクトのオブジェクト音源の音に対して影響が生じ得る他のオブジェクト、つまり対象オブジェクトの近くにある他のオブジェクトが参照オブジェクトとして選択される。

　具体的には、例えば対象オブジェクトとの間の距離が所定の閾値以下であるオブジェクトが参照オブジェクトとして選択される。この例では、各オブジェクトは収録デバイス１１を装着していることから、収録デバイス１１間の距離は、オブジェクト間の距離と略等しくなるので、位置情報から求まる距離が参照オブジェクトの選別に用いられる。

　なお、ここでは距離に基づいて参照オブジェクトが選択され、その参照オブジェクトに関する情報が用いられて時間区間統合処理が行われる例について説明する。

　しかし、全てのオブジェクトが参照オブジェクトとされて、対象オブジェクトからの距離に応じた重みで参照オブジェクトに関する情報が用いられて時間区間統合処理が行われるようにしてもよい。

　時間区間統合処理では、まず、位置情報比較処理で参照オブジェクトとして選択されたオブジェクトがあるか否かが判定される。

　そして、参照オブジェクトとして選択されたオブジェクトがない場合、区間検出部３２で得られた対象オブジェクトの音源種別区間情報が、そのまま最終的な音源種別区間情報として信号処理部４１に出力される。これは、対象オブジェクトの近くに他のオブジェクトがない場合、収録信号には他のオブジェクトの音は混入しないからである。

　これに対して、参照オブジェクトとして選択されたオブジェクトがある場合、それらの参照オブジェクトの位置情報や運動情報も用いられて対象オブジェクトの音源種別区間情報がアップデートされる。つまり、最終的な音源種別区間情報が生成される。

　具体的には、参照オブジェクトのうち、対象オブジェクトの音源種別区間情報により示される時間区間と重なる区間をオブジェクト音源の音の時間区間として有する参照オブジェクトが最終的な参照オブジェクトとして選択される。

　つまり、位置情報比較処理で参照オブジェクトとされたものであっても、音源種別区間情報により示される時間区間が、対象オブジェクトの音源種別区間情報により示される時間区間とは重ならないオブジェクトは、参照オブジェクトから除外される。

　次に、参照オブジェクトの位置情報および運動情報と、対象オブジェクトの位置情報および運動情報とに基づいて、３次元空間上における対象オブジェクトから見た参照オブジェクトの相対的な方位（方向）が推定され、その推定結果を示す相対方位情報が生成される。より詳細には、例えば対象オブジェクトの正面方向から見た参照オブジェクトの口元の方向（方位）が推定される。なお、相対方位情報の生成には、運動情報は用いられずに位置情報のみが用いられるようにしてもよい。

　さらに、対象オブジェクトの位置情報、および運動情報により示される対象オブジェクトの向きと、各参照オブジェクトの相対的方位情報とに基づいて、NBFフィルタが形成される。

　このNBFフィルタは、対象オブジェクトの向きにより示される、対象オブジェクトの口元方向から到来する音のゲインを維持しつつ、相対的方位情報により示される方向から到来する音を抑圧するビームフォーミングを実現するフィルタである。

　統合部７１は、このようにして得られたNBFフィルタと、対象オブジェクトの収録信号における、対象オブジェクトの音源種別区間情報により示される時間区間との畳み込み処理を行う。

　さらに統合部７１は、畳み込み処理により得られた信号と、対象オブジェクトの運動情報とに基づいて、区間検出部３２において行われる処理と同様の処理、すなわち閾値処理やDNN等の識別器での演算処理などを行い、音源種別区間情報を生成する。このようにすることで、参照オブジェクトから発せられた音が抑圧されて、より高精度な音源種別区間情報を得ることができる。

　なお、DNN等の識別器での演算処理において、参照オブジェクトの運動情報や位置情報、収録信号なども入力として用いられるようにしてもよい。

　最後に、統合部７１は、時間区間統合処理で得られた音源種別区間情報に対して区間平滑化処理を行うことで、最終的な音源種別区間情報を得る。

　例えばオブジェクト音源の種別ごとに、その種別のオブジェクト音源の音が発生したときに、その音が最低限持続する平均的な時間が平均最低持続時間として予め得られている。

　区間平滑化処理では、オブジェクト音源の音が検出された時間区間の長さが、平均最低持続時間以上となるように、細分化（分断）されてしまったオブジェクト音源の音の時間区間を接続する平滑化フィルタにより平滑化が行われる。

　換言すれば区間平滑化処理では、収録信号における同じ種別のオブジェクト音源の音が検出された、連続して並ぶ複数の時間区間が接続されて最終的な１つの時間区間とされる。このとき、接続される複数の時間区間には、時間幅が平均最低持続時間未満の時間区間が少なくとも１つ含まれている。

　例えば統合部７１は、各オブジェクト音源の種別の平均最低持続時間に基づいて生成された平滑化フィルタを予め保持している。

　統合部７１は、平滑化フィルタに基づいて、時間区間統合処理で得られた音源種別区間情報に対するフィルタリング（フィルタ処理）を区間平滑化処理として行い、最終的な音源種別区間情報を得て、信号処理部４１に供給する。区間平滑化処理では、オブジェクト音源の種別、すなわち平均最低持続時間によっては、連続する複数フレームの音源種別区間情報に対してフィルタリングが行われることもある。

　また、統合部７１は、得られた音源種別区間情報から音源種別情報を生成し、メタデータ生成部４２に供給する。

　以上のようにして統合部７１では、区間検出部３２で得られた音源種別区間情報では除去（除外）しきれていなかった他のオブジェクトの音に関する情報を除去し、より高精度な音源種別区間情報を得ることができる。

　例えば区間検出部３２では、上述したように収録信号に対して適宜DSやNBFが行われることがある。

　しかし、例えばDSでは、対象オブジェクトの音声が到来する方位の成分が十分に強調されないこともあり、そのような場合に他のオブジェクトの音の音量が大きいと、正しい音源種別区間情報を得ることができないことがある。

　また、例えばNBFにおいても、対象オブジェクトの近傍における、対象オブジェクトの音声が到来する方位と近い方位に他のオブジェクトがあり、対象オブジェクトと他のオブジェクトが略同時に発話した場合にも、正しい音源種別区間情報が得られないことがある。

　これに対して、統合部７１では、対象オブジェクトに関する情報だけでなく、他のオブジェクトの運動情報や位置情報、音源種別区間情報も用いることで、より高精度な音源種別区間情報を得ることができる。

〈データ生成処理の説明〉
　収録システムが図８に示した構成とされる場合、各収録デバイス１１では、図６を参照して説明した収録処理が行われ、サーバ１２へと伝送データが送信される。

　すると、サーバ１２では、図９に示すデータ生成処理が行われる。以下、図９のフローチャートを参照して、図８に示したサーバ１２によるデータ生成処理について説明する。

　なお、ステップＳ７１およびステップＳ７２の処理は、図７のステップＳ４１およびステップＳ４２の処理と同様であるので、その説明は省略する。

　但し、ステップＳ７１では、受信部３１で伝送データから抽出された収録信号、運動情報、および位置情報は、統合部７１にも供給される。

　また、ステップＳ７２では、生成された音源種別区間情報が区間検出部３２から統合部７１へと供給される。

　ステップＳ７３において統合部７１は、区間検出部３２および受信部３１から供給された情報の統合を行う。

　すなわち、統合部７１は、受信部３１から供給された収録信号、運動情報、および位置情報と、区間検出部３２から供給された音源種別区間情報とに基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行い、最終的な音源種別区間情報を得る。

　統合部７１は、得られた最終的な音源種別区間情報を信号処理部４１に供給するとともに、その最終的な音源種別区間情報から音源種別情報を生成し、メタデータ生成部４２に供給する。

　このようにして音源種別区間情報が得られると、その後、ステップＳ７４乃至ステップＳ７６の処理が行われてデータ生成処理は終了するが、これらの処理は図７のステップＳ４３乃至ステップＳ４５の処理と同様であるので、その説明は省略する。

　このとき、他のオブジェクトの情報も利用して対象オブジェクトの最終的な音源種別区間情報を生成することで、さらに高品質な目的音を得ることができる。

〈第３の実施の形態〉
〈収録システムの構成例〉
　また、以上においては音源種別区間情報の生成には収録信号や位置情報が用いられると説明したが、さらに映像情報が用いられるようにしてもよい。

　そのような場合、収録システムは、例えば図１０に示すように構成される。なお、図１０において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１０に示す収録システムは、収録デバイス１１とサーバ１２とを有している。

　この例では収録デバイス１１は、マイクロホン２１、動き計測部２２、位置計測部２３、撮影部１０１、収録部２４、および伝送部２５を有している。

　図１０に示す収録デバイス１１の構成は、新たに撮影部１０１を設けた点で図８に示した収録デバイス１１の構成と異なり、その他の点では図８の収録デバイス１１と同じ構成となっている。

　撮影部１０１は、小型なカメラからなり、例えばオブジェクトの位置を視点として、そのオブジェクトの一部を被写体として含む映像を撮影し、得られた映像情報（映像信号）を伝送部２５に供給する。なお、映像情報に基づく映像には、オブジェクトが被写体として含まれていない場合もあり得る。

　伝送部２５は、収録部２４から供給された収録信号、運動情報、および位置情報と、撮影部１０１から供給された映像情報とを含む伝送データを生成し、サーバ１２に送信する。

　また、サーバ１２は受信部３１、区間検出部３２、統合部７１、およびオブジェクト音源データ生成部３３を有しており、オブジェクト音源データ生成部３３には信号処理部４１およびメタデータ生成部４２が設けられている。

　すなわち、図１０に示すサーバ１２の構成は、図８に示したサーバ１２の構成と同じであるが、図１０に示すサーバ１２では、受信部３１で伝送データから抽出された映像情報が区間検出部３２および統合部７１に供給される。

　したがって、区間検出部３２では、受信部３１から供給された収録信号、運動情報、および映像情報に基づいて音源種別区間情報が生成される。

　例えば映像情報に基づく映像に、対象オブジェクトの一部が被写体として含まれている場合には、その対象オブジェクトの動作の検出に映像情報が利用される。

　具体的には、例えば映像情報に基づいて検出された対象オブジェクトの各時刻における動作に基づいて、音源種別区間情報が補正される。

　その他、例えば映像情報、運動情報、および収録信号がDNN等の識別器に代入されて演算が行われ、収録信号の各時刻における動作音の有無が得られるようにしてもよい。

　同様に、統合部７１においても収録信号、運動情報、位置情報、映像情報、および音源種別区間情報に基づいて位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。

　このとき、映像情報は、区間検出部３２における場合と同様に、対象オブジェクトの動作の検出や時間区間統合処理等に利用されてもよいし、対象オブジェクトの周囲に他のオブジェクトがいるか否かの検出、他のオブジェクトの動作の検出などに用いられるようにしてもよい。

〈収録処理の説明〉
　次に、図１０に示した収録デバイス１１とサーバ１２の動作について説明する。

　まず、図１１のフローチャートを参照して、収録デバイス１１による収録処理について説明する。

　なお、ステップＳ１０１およびステップＳ１０２の処理は、図６のステップＳ１１およびステップＳ１２の処理と同様であるので、その説明は省略する。

　ステップＳ１０３において撮影部１０１はオブジェクト、つまり収録デバイス１１の周囲を被写体として撮影を行い、その結果得られた映像情報を伝送部２５に供給する。

　伝送部２５は、撮影部１０１から供給された映像情報と、収録部２４から供給された収録信号、運動情報、および位置情報とを含む伝送データを生成する。

　伝送データが生成されると、その後、ステップＳ１０４およびステップＳ１０５の処理が行われて収録処理は終了するが、これらの処理は図６のステップＳ１３およびステップＳ１４の処理と同様であるので、その説明は省略する。

　以上のようにして収録デバイス１１は、周囲の被写体を撮影し、得られた映像情報を含む伝送データを生成してサーバ１２に送信する。このようにすることで、サーバ１２では、運動情報や位置情報だけでなく映像情報も利用して、より高品質な目的音を得ることができるようになる。

〈データ生成処理の説明〉
　次に、図１２のフローチャートを参照して、図１０に示したサーバ１２により行われるデータ生成処理について説明する。

　なお、ステップＳ１３１の処理は、図９のステップＳ７１の処理と同様であるので、その説明は省略する。但し、ステップＳ１３１では、受信部３１は伝送データから映像情報も抽出し、区間検出部３２および統合部７１に供給する。

　ステップＳ１３２において区間検出部３２は、受信部３１から供給された収録信号、運動情報、および映像情報に基づいて音源種別区間情報を生成し、統合部７１に供給する。

　なお、ステップＳ１３２では、図９のステップＳ７２と同様の処理が行われるが、ここでは映像情報が対象オブジェクトの動作の検出などに利用されて音源種別区間情報が生成される。

　ステップＳ１３３において統合部７１は、区間検出部３２および受信部３１から供給された情報の統合を行い、最終的な音源種別区間情報を生成する。

　ステップＳ１３３では、図９のステップＳ７３と同様の処理が行われるが、ここでは音源種別区間情報、収録信号、運動情報、および位置情報だけでなく、さらに映像情報も用いられて位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。すなわち、例えば映像情報が参照オブジェクトの選択や相対方位情報の生成などに用いられる。

　このようにして、最終的な音源種別区間情報が得られると、その後、ステップＳ１３４乃至ステップＳ１３６の処理が行われてデータ生成処理は終了するが、これらの処理は図９のステップＳ７４乃至ステップＳ７６の処理と同様であるので、その説明は省略する。

　このとき、映像情報も利用して対象オブジェクトの音源種別区間情報を生成することで、さらに高品質な目的音を得ることができる。

〈第４の実施の形態〉
〈収録システムの構成例〉
　また、図１０に示した収録システムでは、各オブジェクトの位置を視点とした映像情報が利用される例について説明したが、各収録デバイス１１を装着したオブジェクト、すなわち全てのオブジェクトがいる対象空間全体を被写体とした映像情報が利用されてもよい。

　そのような場合、収録システムは、例えば図１３に示すように構成される。なお、図１３において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１３に示す収録システムは収録デバイス１１、撮影装置１３１、およびサーバ１２を有しており、収録デバイス１１およびサーバ１２の構成は図８における場合と同じとなっている。

　撮影装置１３１は、例えばカメラなどからなり、収録デバイス１１を装着したオブジェクトがいる対象空間全体を被写体として撮影し、その結果得られた映像情報をサーバ１２に送信する。なお、撮影装置１３１による撮影は、収録デバイス１１が収録を行っている間、つまりマイクロホン２１による収音が行われている間、継続して行われる。

　また、サーバ１２の受信部３１は、収録デバイス１１により送信された伝送データだけでなく、撮影装置１３１により送信された映像情報も受信する。

　受信部３１は、受信した映像情報を統合部７１に供給する。また、統合部７１は、受信部３１から供給された収録信号、運動情報、位置情報、および映像情報と、区間検出部３２から供給された音源種別区間情報とに基づいて最終的な音源種別区間情報を生成する。

　この例では、統合部７１において、映像情報は各オブジェクトの動作を検出するために用いられる。

　例えば統合部７１には、各オブジェクトの位置情報も供給されることから、それらの位置情報を用いれば、映像情報に対する画像認識等により得られた映像上の各オブジェクトがどのオブジェクトであるかを特定することができる。また、映像情報に対する画像認識等から、各オブジェクトがどのような動作を行っているかを特定することができる。すなわち、各時刻においてオブジェクトからどのようなオブジェクト音源の音が発せられているかを特定することができる。

　統合部７１は、このようにして特定された各オブジェクトの動作を時間区間統合処理等に用いて、最終的な音源種別区間情報を生成する。また、例えば映像情報が時間区間統合処理におけるDNN等の識別器での演算処理の入力として用いられてもよい。

　なお、区間検出部３２においても、各オブジェクトの動作を検出するために映像情報が用いられるようにしてもよい。

〈データ生成処理の説明〉
　収録システムが図１３に示した構成とされる場合、各収録デバイス１１では、図６を参照して説明した収録処理が行われ、サーバ１２へと伝送データが送信される。また、撮影装置１３１からサーバ１２には、映像情報が送信される。

　すると、サーバ１２では、図１４に示すデータ生成処理が行われる。以下、図１４のフローチャートを参照して、図１３に示したサーバ１２によるデータ生成処理について説明する。

　ステップＳ１６１において受信部３１は、撮影装置１３１から送信されてきた映像情報を受信して統合部７１に供給する。

　また、サーバ１２には、収録デバイス１１から伝送データが送信されてくるので、ステップＳ１６２およびステップＳ１６３の処理が行われて音源種別区間情報が生成される。

　なお、ステップＳ１６２およびステップＳ１６３の処理は、図９のステップＳ７１およびステップＳ７２の処理と同様であるので、その説明は省略する。

　ステップＳ１６４において統合部７１は情報の統合を行う。

　すなわち、統合部７１は、受信部３１から供給された映像情報、収録信号、運動情報、および位置情報と、区間検出部３２から供給された音源種別区間情報とに基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行い、最終的な音源種別区間情報を得る。このとき、例えば映像情報が参照オブジェクトの選択等に用いられる。

　このようにして音源種別区間情報が得られると、その後、ステップＳ１６５乃至ステップＳ１６７の処理が行われてデータ生成処理は終了するが、これらの処理は図９のステップＳ７４乃至ステップＳ７６の処理と同様であるので、その説明は省略する。

　以上のようにしてサーバ１２は、複数の収録デバイス１１から伝送データを受信するとともに、撮影装置１３１から映像情報を受信し、それらの伝送データおよび映像情報からオブジェクト音源データを生成して出力する。このように映像情報も利用することで、さらに高品質な目的音を得ることができる。

〈第５の実施の形態〉
〈収録システムの構成例〉
　なお、以上においてはサーバ１２側で音源種別区間情報を生成する例について説明したが、収録デバイス１１側で音源種別区間情報を生成するようにしてもよい。

　そのような場合、例えば図１５に示すように、収録デバイス１１側に上述した区間検出部３２が設けられる。なお、図１５において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１５に示す収録システムは、収録デバイス１１およびサーバ１２を有している。

　また、収録デバイス１１はマイクロホン２１、動き計測部２２、位置計測部２３、収録部２４、区間検出部３２、および伝送部２５を有している。

　図１５に示す収録デバイス１１の構成は、新たに区間検出部３２を設けた点で図８に示した収録デバイス１１の構成と異なり、その他の点では図８の収録デバイス１１と同じ構成となっている。

　区間検出部３２は、収録部２４から供給された収録信号および運動情報に基づいて、音源種別区間情報を生成し、得られた音源種別区間情報と、収録部２４から供給された収録信号、運動情報、および位置情報とを伝送部２５に供給する。

　伝送部２５は、区間検出部３２から供給された収録信号、運動情報、位置情報、および音源種別区間情報を含む伝送データを生成し、サーバ１２へと送信する。

　また、サーバ１２は受信部３１、統合部７１、およびオブジェクト音源データ生成部３３を有しており、オブジェクト音源データ生成部３３には信号処理部４１およびメタデータ生成部４２が設けられている。

　このサーバ１２の構成は、区間検出部３２が設けられていない点で図８に示したサーバ１２と異なり、その他の点では図８に示したサーバ１２と同じ構成となっている。

　図１５に示す例では、サーバ１２においては受信部３１は、受信した伝送データから収録信号、運動情報、位置情報、および音源種別区間情報を抽出する。

　そして、受信部３１は、統合部７１に収録信号、運動情報、位置情報、および音源種別区間情報を供給し、信号処理部４１に収録信号、運動情報、および位置情報を供給し、メタデータ生成部４２に運動情報および位置情報を供給する。

　また、統合部７１は、受信部３１から供給された収録信号、運動情報、位置情報、および音源種別区間情報に基づいて、最終的な音源種別区間情報を生成して信号処理部４１に供給するとともに、音源種別情報も生成し、メタデータ生成部４２に供給する。

　このように収録デバイス１１側で音源種別区間情報を生成することで、サーバ１２の処理負荷を低減させるとともに、高品質な目的音を得ることができる。なお、図１０や図１３に示した収録システムにおいて、収録デバイス１１側で音源種別区間情報を生成するようにしてもよい。

　以上のように、本技術によれば、複数の移動体（オブジェクト）が存在し、それらの移動体が音を発する環境下において、運動情報や位置情報、映像情報を利用することで、収録信号に含まれている対象オブジェクトの音と他のオブジェクトの音とを弁別することができる。

　これにより、各オブジェクト音源の種別ごとの音が含まれている時間区間を検出したり、オブジェクト音源の種別ごとの信号処理を実現したり、オブジェクトの動作状態の行動認識などが可能となる。

　例えばオブジェクト音源の種別ごとの音の時間区間として、歩行音や走行音、サッカーでのボールキック音、野球の打球音や捕球音、ダンスの拍手音や衣擦れ音、ステップ音などの時間区間を高精度に検出することができる。

　一般的にセンサ信号のみからは動作音を得ることはできず、また、マイクロホンの収録信号において対象オブジェクトと他のオブジェクトの同種の動作音を判別するには方位や、音声の話者性（個人性）に関する情報が必要となる。

　この点、本技術ではセンサ信号のみを用いる場合や、収録信号のみを用いる場合と比較して、より高精度にオブジェクト音源の音の時間区間を検出し、より品質のよいオブジェクト音源信号を得ることが可能である。

　具体的には、収録信号のみから動作音の時間区間を検出する場合に、対象オブジェクトと他のオブジェクトとが近接しているとする。

　そのような場合、対象オブジェクトの動作音と、他のオブジェクトの動作音とを区別するためには、音声における場合と同様に、マルチマイクロホンの活用により音源の方位を推定し、その方位を利用することになる。

　しかし、例えば歩行音などの動作音の時間区間が短い場合、また時間とともに音源の方位が変化する場合などには、どのオブジェクトの動作音であるかを区別することは困難であることが多い。

　一方、運動情報には対象オブジェクトの動作に基づく体動情報のみが含まれ、他のオブジェクトの動作に起因する情報は含まれていない。

　そのため、本技術のように収録信号と運動情報とを組み合わせて動作音の時間区間を検出すれば、対象オブジェクトの動作音の時間区間を高精度に検出することができる。

　例えば動作音として歩行音の時間区間を検出する場合、収録信号のみでは地面や靴の状態は検出精度に大きく影響するが、運動情報も組み合わせて利用することで、高精度に歩行音の時間区間を検出することができるようになる。

　また、本技術では、例えばスポーツや演劇などの収録コンテンツにおいて、オーディオ再生に有意なオブジェクト音源の音がある時間区間を検出し、不要な時間区間のオブジェクト音源信号を伝送しないようにすることができる。これにより、伝送したり記録したりするコンテンツに関する情報の情報量、特にオブジェクト音源信号の情報量や、後段における処理量を削減することができる。

　さらに、本技術では、オブジェクトごとや、オブジェクトのオブジェクト音源ごとに、オブジェクト音源信号が生成される。そのため、後段においてオブジェクト音源ごとに音像定位の設定を行うことができ、より高精度に音像を定位させることができる。

　また、本技術では、オブジェクト音源ごとにオブジェクト音源信号が生成されるので、例えばスポーツ放送において、音声は再生せずに動作音のみを再生するなど、一部のオブジェクト音源の種別の音のみを選択的に再生することができる。これにより、再生時の機能性を向上させることができる。

　その他、本技術によれば、スポーツの試合などのコンテンツの収録時にサーバ１２でリアルタイムに処理が行われる場合、例えば現状、ビデオ判定が行われる場面において、有効な追加情報となる各選手の動作状態に関する情報を提供することができる。

　具体的には、例えば選手の動作状態に関する情報として、音源種別区間情報から所定の動作音の時間区間や音声の時間区間を示す情報を提供することができる。

　さらに、本技術は、コンテンツ等の収録に限らず、複数台の車両が路上に存在する状況や、複数のドローン等の飛行体が飛行している状況、複数のロボットが存在する状況など、様々な状況で活用することができる。

　例えば車両に収録デバイス１１を設け、その収録デバイス１１で得られた収録信号や運動情報などと、車両に搭載されたドライブレコーダで得られた情報を利用することで、他の車両との接触判定などを行うことも可能である。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える
　信号処理装置。
（２）
　前記時間区間の検出結果に基づいて、前記移動体の音声または動作音のオーディオ信号を前記収録信号から生成するデータ生成部をさらに備える
　（１）に記載の信号処理装置。
（３）
　前記データ生成部は、前記オーディオ信号と、前記移動体の位置を示す位置情報とを含むオブジェクト音源データを出力する
　（２）に記載の信号処理装置。
（４）
　前記データ生成部は、前記オーディオ信号と、前記移動体の向きを示す情報とを含むオブジェクト音源データを出力する
　（２）または（３）に記載の信号処理装置。
（５）
　前記データ生成部は、前記オーディオ信号と、前記オーディオ信号に基づく音の種別を示す音源種別情報とを含むオブジェクト音源データを出力する
　（２）乃至（４）の何れか一項に記載の信号処理装置。
（６）
　前記区間検出部は、前記移動体の前記収録信号および前記センサ信号と、前記他の移動体の前記収録信号または前記センサ信号とに基づいて、前記移動体が発した音の前記時間区間を検出する
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
　前記区間検出部は、前記移動体から前記他の移動体までの距離に基づいて、前記移動体が発した音の前記時間区間を検出する
　（６）に記載の信号処理装置。
（８）
　前記区間検出部は、前記移動体の向きおよび前記他の移動体の位置に基づいて、前記移動体が発した音の前記時間区間を検出する
　（６）または（７）に記載の信号処理装置。
（９）
　前記区間検出部は、前記時間区間の検出結果に基づいて、所定時間幅未満の前記時間区間を含む、前記収録信号における同じ種別の音の連続して並ぶ複数の前記時間区間を接続することで、最終的な前記時間区間の検出結果を得る
　（６）乃至（８）の何れか一項に記載の信号処理装置。
（１０）
　前記区間検出部は、前記時間区間の検出結果に対する平滑化処理を行うことで、前記複数の前記時間区間を接続する
　（９）に記載の信号処理装置。
（１１）
　前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号に対する音源分離を行うことで前記オーディオ信号を生成する
　（２）乃至（５）の何れか一項に記載の信号処理装置。
（１２）
　前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号の一部または前記オーディオ信号の一部を他の信号に置き換えることで、最終的な前記オーディオ信号を生成する
　（２）乃至（５）の何れか一項に記載の信号処理装置。
（１３）
　信号処理装置が、
　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
　信号処理方法。
（１４）
　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　収録デバイス，　１２　サーバ，　２１　マイクロホン，　２４　収録部，　２５　伝送部，　３１　受信部，　３２　区間検出部，　３３　オブジェクト音源データ生成部，　４１　信号処理部，　４２　メタデータ生成部，　７１　統合部

Claims

　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える
　信号処理装置。
　前記時間区間の検出結果に基づいて、前記移動体の音声または動作音のオーディオ信号を前記収録信号から生成するデータ生成部をさらに備える
　請求項１に記載の信号処理装置。
　前記データ生成部は、前記オーディオ信号と、前記移動体の位置を示す位置情報とを含むオブジェクト音源データを出力する
　請求項２に記載の信号処理装置。
　前記データ生成部は、前記オーディオ信号と、前記移動体の向きを示す情報とを含むオブジェクト音源データを出力する
　請求項２に記載の信号処理装置。
　前記データ生成部は、前記オーディオ信号と、前記オーディオ信号に基づく音の種別を示す音源種別情報とを含むオブジェクト音源データを出力する
　請求項２に記載の信号処理装置。
　前記区間検出部は、前記移動体の前記収録信号および前記センサ信号と、前記他の移動体の前記収録信号または前記センサ信号とに基づいて、前記移動体が発した音の前記時間区間を検出する
　請求項１に記載の信号処理装置。
　前記区間検出部は、前記移動体から前記他の移動体までの距離に基づいて、前記移動体が発した音の前記時間区間を検出する
　請求項６に記載の信号処理装置。
　前記区間検出部は、前記移動体の向きおよび前記他の移動体の位置に基づいて、前記移動体が発した音の前記時間区間を検出する
　請求項６に記載の信号処理装置。
　前記区間検出部は、前記時間区間の検出結果に基づいて、所定時間幅未満の前記時間区間を含む、前記収録信号における同じ種別の音の連続して並ぶ複数の前記時間区間を接続することで、最終的な前記時間区間の検出結果を得る
　請求項６に記載の信号処理装置。
　前記区間検出部は、前記時間区間の検出結果に対する平滑化処理を行うことで、前記複数の前記時間区間を接続する
　請求項９に記載の信号処理装置。
　前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号に対する音源分離を行うことで前記オーディオ信号を生成する
　請求項２に記載の信号処理装置。
　前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号の一部または前記オーディオ信号の一部を他の信号に置き換えることで、最終的な前記オーディオ信号を生成する
　請求項２に記載の信号処理装置。
　信号処理装置が、
　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
　信号処理方法。
　移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
　ステップを含む処理をコンピュータに実行させるプログラム。