WO2021054152A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021054152A1
WO2021054152A1 PCT/JP2020/033612 JP2020033612W WO2021054152A1 WO 2021054152 A1 WO2021054152 A1 WO 2021054152A1 JP 2020033612 W JP2020033612 W JP 2020033612W WO 2021054152 A1 WO2021054152 A1 WO 2021054152A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
sound source
moving body
information
Prior art date
Application number
PCT/JP2020/033612
Other languages
English (en)
French (fr)
Inventor
隆一 難波
誠 阿久根
芳明 及川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to DE112020004387.8T priority Critical patent/DE112020004387T5/de
Priority to US17/641,928 priority patent/US20220335967A1/en
Priority to JP2021546604A priority patent/JPWO2021054152A1/ja
Priority to CN202080064274.0A priority patent/CN114402390A/zh
Publication of WO2021054152A1 publication Critical patent/WO2021054152A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、高品質な目的音を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、移動体の周囲に他の移動体が存在する状態で、移動体の周囲の音を収音して得られた収録信号と、移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、収録信号における移動体が発した音の時間区間を検出する区間検出部を備える。本技術は収録システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に高品質な目的音を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 バードビューやウォークスルーなどの自由視点の音場再現においては、目的とする音源の音を高いSN比(Signal to Noise ratio)で収録することが重要であると同時に、各音源の位置と方位を示す情報の取得が必要となる。
 目的とする音源の音の具体的な例としては、例えば人の音声、歩行音や走行音などの人の一般的な動作音、ボールのキック音などといったスポーツや演劇等のコンテンツに固有の動作音などがあげられる。
 また、例えばユーザの行動認識に関する技術として、複数の測距センサによって検出された測距センサデータの分析を行うことで、1または複数のユーザの行動認識結果を得ることができるようにする技術が提案されている(例えば、特許文献1参照)。
特開2017-205213号公報
 ところで、スポーツや演劇等を自由視点のコンテンツとして収録する場合、収録が行われる空間には複数の音源があり、それらの音源が複雑な動きをすることもあるため、目的とする音源の音を高いSN比で得ることは困難であった。すなわち、高品質な目的音を得ることは困難であった。
 本技術は、このような状況に鑑みてなされたものであり、高品質な目的音を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える。
 本技術の一側面の信号処理方法またはプログラムは、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出するステップを含む。
 本技術の一側面においては、移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間が検出される。
収録システムの構成例を示す図である。 オブジェクトとオブジェクト音源について説明する図である。 音源種別区間情報の例を示す図である。 音源種別区間情報の生成について説明する図である。 除去対象のオブジェクトの選択について説明する図である。 収録処理を説明するフローチャートである。 データ生成処理を説明するフローチャートである。 収録システムの構成例を示す図である。 データ生成処理を説明するフローチャートである。 収録システムの構成例を示す図である。 収録処理を説明するフローチャートである。 データ生成処理を説明するフローチャートである。 収録システムの構成例を示す図である。 データ生成処理を説明するフローチャートである。 収録システムの構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈収録システムの構成例〉
 本技術は、対象空間内において複数の移動体にマイクロホンや測距デバイス、カメラなどを装着し、音の収録信号や移動体の位置情報、移動体の運動情報、周囲の映像などに基づいて自身と他者の音を区別して抽出することで、高品質な目的音を得ることができるようにするものである。
 具体的には、本技術を適用するのに適したコンテンツとして、例えば以下のようなものが挙げられる。
 ・チームスポーツが行われるフィールドを再現するコンテンツ
 ・オーケストラやマーチングバンド等の演奏を再生するコンテンツ
 ・ミュージカルやオペラ、演劇などの複数の演者が存在する空間を再現するコンテンツ ・運動会やライブ会場、各種のイベント、テーマパークのパレード等における任意の空間を再現するコンテンツ
 以下では、収録対象となる空間を対象空間と称することとする。
 特に、ここでは、同一の対象空間内には複数の移動体が存在しており、それらの各移動体にはコンテンツの収録のための収録デバイスが装着または内蔵されているとする。
 そして、収録デバイスが装着または内蔵された移動体をオブジェクトとして、そのオブジェクトに起因して発せられる音がオブジェクト音源の音として収録(収音)される。
 例えば対象空間内のオブジェクト(移動体)は、スポーツ選手等の人であってもよいし、収録デバイスが装着または内蔵されているロボットや車両、ドローン等の飛行体などであってもよい。
 例えばオブジェクトが人である場合には、それらの人によるパフォーマンスに影響がないように、かつ周囲から目視されないように、人に装着される収録デバイスは可能な限り小型化されることが望ましい。
 また、収録デバイスには、例えばオブジェクト音源の音を収音するためのマイクロホンや、オブジェクトの動きや向き(方位)を計測するための9軸センサ等のセンサ、位置を測定するための測距デバイス、周囲の映像を撮影するためのカメラなどが設けられている。
 ここで、測距デバイスは、例えばオブジェクトの位置を計測するためのGPS(Global Positioning System)デバイスや室内測距用ビーコン受信機などであり、測距デバイスによって、オブジェクトの位置を示す位置情報を得ることができる。
 また、収録デバイスに設けられたセンサの出力から、速度や加速度などのオブジェクトの動きや、オブジェクトの向き(方位)を示す運動情報が得られる。
 収録デバイスでは、内蔵されているマイクロホンやセンサ、測距デバイスを用いることで、オブジェクトの周囲の音を収音して得られたオーディオ信号である収録信号、オブジェクトの位置情報、およびオブジェクトの運動情報が得られる。また、収録デバイスにカメラが設けられている場合には、オブジェクトの周囲の映像の映像信号も得られる。
 このようにしてオブジェクトごとに得られた収録信号や位置情報、運動情報、映像信号は、目的音であるオブジェクト音源の音のオーディオ信号であるオブジェクト音源信号を得るために用いられる。
 ここで、目的音とされるオブジェクト音源の音とは、例えばオブジェクトである人が発話した音声や、オブジェクトの歩行音や走行音、拍手音等の動作音などである。
 各オブジェクトについて得られた収録信号には、オブジェクト自身から発せられた音だけでなく、近傍にいる他のオブジェクトから発せられた音も含まれている。また、収録信号には、オブジェクトの音であっても、自身が発話した音声や動作音など、複数の互いに異なるオブジェクト音源、すなわち互いに異なる種別の音も含まれている。
 本技術では各オブジェクトについて得られた位置情報や、運動情報、映像信号を必要に応じて利用することで、収録信号に含まれている各オブジェクト音源の音を弁別(区別)し、収録信号から各オブジェクト音源のオブジェクト音源信号を抽出することができる。
 具体的には、例えば運動情報に基づいてオブジェクトの動作状態を特定することで、収録信号における各オブジェクト音源の音が含まれる時間区間を検出することができる。
 したがって、収録信号からオブジェクト音源の音の区間の信号を抽出したり、抽出された信号に対して、適宜、音質補正や音源分離、雑音除去等の信号処理を施したりすることで、SN比が高い高品質なオブジェクト音源信号を得ることができる。
 また、複数のオブジェクトについて得られた位置情報や、運動情報、映像信号などの情報を統合することでオブジェクト音源の音の時間区間の検出結果を高精度化すれば、さらに高品質なオブジェクト音源信号を得ることができる。
 それでは、以下、本技術についてより詳細に説明する。
 図1は、本技術を適用した収録システムの一実施の形態の構成例を示す図である。
 図1に示す例では、収録システムは移動体であるオブジェクトに装着された収録デバイス11と、収録デバイス11からの伝送データを受信してオブジェクト音源信号を生成するサーバ12とを有している。
 なお、収録デバイス11が移動体に内蔵されていてもよいが、以下では収録デバイス11が移動体に装着されているものとして説明を続ける。
 収録デバイス11は、収録対象となる対象空間内を自由に移動可能な移動体であるオブジェクトに装着されており、収録信号、位置情報、および運動情報が含まれる伝送データを生成してサーバ12へと送信する。
 なお、ここでは収録デバイス11が1つだけ描かれているが、実際には複数の収録デバイス11があり、それらの複数の収録デバイス11が、互いに異なる複数のオブジェクトに装着されている。
 サーバ12は、複数の収録デバイス11から受信した伝送データに基づいて、コンテンツのデータとして、各オブジェクト音源のオブジェクト音源信号とメタデータとからなるオブジェクト音源データを出力する。なお、サーバ12は対象空間に配置されている必要はない。
 また、収録デバイス11は、マイクロホン21、動き計測部22、位置計測部23、収録部24、および伝送部25を有している。
 マイクロホン21は、収録デバイス11の周囲の音を収音し、その結果得られた収録信号を収録部24に供給する。なお、収録信号はモノラルの信号であってもよいが、ここでは収録信号がマルチチャネルの信号であるものとして説明を行う。
 収録デバイス11では、周囲に、その収録デバイス11が装着されたオブジェクトだけでなく、他のオブジェクトも存在する状態でマイクロホン21による収音が行われるため、収録信号に基づく音には複数の音源からの音が含まれている。
 動き計測部22は、例えば9軸センサや地磁気センサ、加速度センサ、ジャイロセンサなどのオブジェクトの動きや向きを計測するためのセンサからなり、その計測結果(センシング値)を示すセンサ信号を運動情報として収録部24に出力する。
 特に動き計測部22では、マイクロホン21による収音が行われているときに、オブジェクトの動きや向きの計測が行われ、その結果を示す運動情報が出力される。
 なお、ここではセンサ信号がそのまま運動情報とされる例について説明するが、センサ信号に対して、適宜、収録部24により信号処理が行われることで、センサ信号から運動情報が生成されるようにしてもよい。
 また、動き計測部22は、収録デバイス11の外部に設けられ、オブジェクトにおける収録デバイス11の装着位置とは異なる位置に装着されるようにしてもよい。
 位置計測部23は、例えばGPSデバイスや室内測距用ビーコン受信機などの測距デバイスからなり、収録デバイス11が装着されたオブジェクトの位置を計測し、その計測結果を示す位置情報を収録部24に出力する。
 なお、収録信号、運動情報、および位置情報は同じ期間の間、同時に取得される。
 収録部24は、マイクロホン21から供給された収録信号、動き計測部22から供給された運動情報、および位置計測部23から供給された位置情報に対して、適宜、AD(Analog to Digital)変換等を行って伝送部25に供給する。
 伝送部25は、収録部24から供給された収録信号、運動情報、および位置情報に対して圧縮処理を行うなどして、収録信号、運動情報、および位置情報が含まれる伝送データを生成し、得られた伝送データを無線のネットワーク等を介してサーバ12へと送信する。
 また、サーバ12は、受信部31、区間検出部32、およびオブジェクト音源データ生成部33を有している。
 受信部31は、複数の各収録デバイス11から送信された伝送データを受信し、伝送データから収録信号、位置情報、および運動情報を抽出する。
 受信部31は、収録信号を区間検出部32およびオブジェクト音源データ生成部33に供給する。また、受信部31は、運動情報を区間検出部32に供給するとともに、運動情報および位置情報をオブジェクト音源データ生成部33に供給する。
 区間検出部32は、受信部31から供給された収録信号および運動情報に基づいて、収録信号ごとに、収録信号に含まれているオブジェクト音源の音の種別(種類)、すなわちオブジェクト音源の種別と、そのオブジェクト音源の音が含まれている時間区間を検出する。
 区間検出部32は、収録信号から検出されたオブジェクト音源の音の種別と時間区間を示す音源種別区間情報をオブジェクト音源データ生成部33に供給する。
 また、区間検出部32は、収録信号に対応するオブジェクトと、その収録信号から検出されたオブジェクト音源の音の種別とを示す音源種別情報をオブジェクト音源データ生成部33に供給する。換言すれば、音源種別情報は、オブジェクト音源信号に基づく音の音源であるオブジェクト音源の種別と、その音の発生源のオブジェクトとを示す情報である。
 オブジェクト音源データ生成部33は、受信部31から供給された収録信号、運動情報、および位置情報と、区間検出部32から供給された音源種別区間情報および音源種別情報に基づいてオブジェクト音源データを生成し、後段の再生装置等へと出力する。
 オブジェクト音源データ生成部33は、信号処理部41およびメタデータ生成部42を有している。
 信号処理部41は、受信部31から供給された収録信号に対して、区間検出部32から供給された音源種別区間情報と、受信部31から供給された運動情報および位置情報とに基づいて所定の信号処理を施してオブジェクト音源信号を生成する。
 ここでは、例えば音源種別区間情報に基づいて、収録信号からオブジェクト音源の音の時間区間が抽出されたり、収録信号のオブジェクト音源の音のない時間区間がミュートされたりするなど、1または複数の信号処理が行われてオブジェクト音源信号が生成される。
 また、メタデータ生成部42は、区間検出部32から供給された音源種別情報と、受信部31から供給された運動情報および位置情報とを含む、各オブジェクト音源、すなわち各オブジェクト音源信号のメタデータを生成する。
 オブジェクト音源データ生成部33からは、このようにして得られたオブジェクト音源信号とメタデータとからなるオブジェクト音源データが後段に出力される。
〈サーバの各部について〉
 次に、サーバ12を構成する各部について、より詳細に説明する。
 まず、区間検出部32について説明する。
 なお、以下では、適宜、所定の注目するオブジェクトを対象オブジェクトとも称し、対象オブジェクト以外のオブジェクトを他のオブジェクトとも称することとする。
 区間検出部32では、収録信号に含まれている音が、対象オブジェクトから発せられた音であるか、または他のオブジェクトから発せられた音であるかが弁別されたり、対象オブジェクトから発せられた音の種別が特定されたり、対象オブジェクトから発せられた音の時間区間が検出されたりする。
 上述したように区間検出部32では、収録信号および運動情報が入力とされ、その入力に対して音源種別区間情報および音源種別情報が出力とされる。
 ここでは、例えば図2に示すように、収録デバイス11が装着された移動体がオブジェクトであり、そのオブジェクトの各部がオブジェクト音源となって、そのオブジェクト音源の音がオブジェクトから発せられるものとする。なお、より詳細にはオブジェクトが所持している楽器等もオブジェクト音源となり得るものとする。
 また、収録デバイス11やサーバ12では、オブジェクト音源として、どのような種別のものがあるのかが予め定められている。
 例えばオブジェクト音源の種別、つまりオブジェクト音源の音の種別には、全コンテンツで共通するものや、コンテンツごとに異なるものがあるとする。
 具体的には、例えば図2中、右側に示すように、全コンテンツで共通するオブジェクト音源の音の種別の例としては、オブジェクトである人が発する音声や、その人の歩行音、走行音、拍手の音などがあげられる。
 また、例えばスポーツに関するコンテンツに固有のオブジェクト音源の音の種別例としては、パスの音やシュート音、ホイッスルの音などがあげられ、音楽に関するコンテンツに固有のオブジェクト音源の音の種別例としては楽器音などがあげられる。さらに、例えば演劇やダンスなどのコンテンツに固有のオブジェクト音源の音の種別例としては、衣服の衣擦れ音やステップ音などの演者の所作に関する音などがあげられる。
 区間検出部32では、収録信号のどの時間区間にどの種別のオブジェクト音源の音が含まれているかを示す音源種別区間情報が生成される。
 この音源種別区間情報は、例えば図3に示すように、0または1を示すバイナリ情報や、連続値により表現される確率情報など、どのような形式の情報であってもよく、また、時間信号に対する区間情報でも周波数ビンごとの区間情報でもよい。
 例えば図3の左上に示す例では音源種別区間情報は、時間信号である収録信号の各時刻においてオブジェクト音源の音が含まれているか否かを示す、オブジェクト音源ごとのバイナリ情報とされている。
 この例では、各折れ線はオブジェクト音源である「暗騒音」、「歩行音/走行音」、「シュート音」、および「音声」の音が各時刻において含まれているか否かを示している。
 特に、各折れ線の横方向は時間を示しており、折れ線が上に凸となっている区間は、その区間にオブジェクト音源の音が含まれていることを示している。
 また、図3中、右上に示す例では音源種別区間情報は、時間信号である収録信号の各時刻においてオブジェクト音源の音が含まれている確率値を示す、オブジェクト音源ごとの連続値情報とされている。
 この例では、各曲線はオブジェクト音源である「暗騒音」、「歩行音/走行音」、「シュート音」、および「音声」の音が各時刻において含まれている確率値を示している。
 各オブジェクト音源の音が含まれている連続的な確率値は、例えば機械学習により得られる、オブジェクト音源の検出を多クラスの識別問題とした際のDNN(Deep Neural Network)の出力値などとされる。
 さらに、図3中、左下に示す例では音源種別区間情報は、オブジェクト音源の種別ごとに生成された、時間周波数マスク形式のバイナリ情報とされている。
 この時間周波数マスク形式のバイナリ情報では、収録信号の各時間周波数ビンの成分ごとに、収録信号の各時間区間(時刻)においてオブジェクト音源の音が含まれているか否かがバイナリ値により表現されている。特に、この例では縦軸は時間周波数ビンを示しており、横軸は時間を示している。
 また、図3中、右下に示す例では音源種別区間情報は、オブジェクト音源の種別ごとに生成された、時間周波数マスク形式の連続値情報とされている。この例においても縦軸は時間周波数ビンを示しており、横軸は時間を示している。
 この時間周波数マスク形式の連続値情報では、収録信号の各時間周波数ビンの成分ごとに、収録信号の各時間区間(時刻)においてオブジェクト音源の音が含まれている確率が連続値により表現されている。
 なお、音源種別区間情報は、図3に示した例に限らず、どのような形式の情報とされてもよく、どのような形式の音源種別区間情報を用いるかは、後段の信号処理部41において、どのような信号処理が行われるかに応じて、適切に定めるようにすればよい。
 また、音源種別区間情報を生成するにあたり、区間検出部32では、収録信号の各時間区間から各種別のオブジェクト音源の音が検出される。換言すれば、各種別のオブジェクト音源の音の時間区間が検出される。
 収録デバイス11で得られる運動情報は、収録信号を得るためのマイクロホン21による収音時のオブジェクトの動きや向きを示す情報である。
 そのため、運動情報を利用してオブジェクト音源の音の時間区間を検出すれば、収録信号における各時間区間に含まれている音が、オブジェクトから発せられた音であるか、または周囲のオブジェクトから発せられた音であるかを弁別することができる。
 例えばオブジェクト音源の音として、歩行音や走行音、拍手音、サッカーのシュート音、ダンスのステップ音などの様々な動作音がある。
 動作音の時間区間を検出する方法の1つとして、例えば閾値を用いた閾値処理等の簡易的なアルゴリズムにより動作音の時間区間を検出する方法を採用することができる。
 そのような場合、例えば運動情報としてのセンサのセンシング値が検出対象の動作音に対して定められた特定の範囲内に収まっている時間区間が動作音の時間区間とされる。
 また、例えばDNN等の識別器をマルチモーダル学習により生成し、その識別器を動作音の時間区間の検出に用いるようにしてもよい。
 この場合、例えば運動情報として得られる、加速度センサや地磁気センサ、ジャイロセンサなどのセンサのセンサ値と収録信号とを入力とし、収録信号の各時間区間における動作音の有無を出力とするDNN等の識別器が学習により生成される。
 なお、識別器として、例えば全コンテンツで共通する複数の動作音を検出対象とするものや、コンテンツに特有の動作音を検出対象とするものを用いることができる。
 ここで、具体的な動作音の時間区間の検出例について説明する。
 例えば動作音としてのオブジェクトの歩行音や走行音の時間区間を検出する場合、加速度センサにより計測された、オブジェクトの上下方向の加速度を示すセンサ値を運動情報として用いればよい。
 この場合、センサ値の変動によりオブジェクトの歩行や走行を検出することができ、例えばセンサ値の時間波形の周波数、すなわち振動数が2Hz以下程度の時間区間は、オブジェクトが歩行動作を行っている区間、つまり歩行音の時間区間とされる。同様に、例えばセンサ値の振動数が3Hz乃至4Hz程度の時間区間は、オブジェクトが走行動作を行っている区間、つまり走行音の時間区間とされる。
 また、例えば動作音としてのボールキック音の時間区間や、球技におけるシュート関連の音の時間区間を検出する場合、主にジャイロセンサにより計測された、オブジェクトの回転を示す回転角度等の情報を運動情報として用いればよい。これは、オブジェクトとしての人がボールキック動作やシュート動作を行うときには体を回転させるからである。
 さらに、例えば動作音としてのフィンガースナップの音の時間区間や、オブジェクトが自身の体をたたく音の時間区間を検出する場合、加速度センサや、ジャイロセンサ、地磁気センサなどのセンサ値の変動を利用すればよい。
 この場合、例えば動き計測部22としての加速度センサやジャイロセンサ、地磁気センサがオブジェクトとしての人の胴体部分や手首、腕などに装着され、その装着部位に応じたセンサ値の変動量に基づいて、オブジェクトの胴体の動きや手の動きなどが検出される。
 また、例えば動作音の時間区間として、オブジェクトである人の呼吸音の時間区間を検出する場合、加速度センサにより計測された、オブジェクトの上下方向の微小な変位を示すセンサ値を運動情報として用いればよい。
 この場合、センサ値の変動によりオブジェクトの呼吸動作を検出することができ、例えばセンサ値の振動数が0.5Hz乃至1Hz程度である時間区間が、聞き取り可能な程度の呼吸音が収録される呼吸動作が行われている時間区間、つまりオブジェクトの呼吸音の時間区間とされる。
 さらに、例えば上記のようなオブジェクトが音を発するときの各動作の特徴を利用して、収録信号および運動情報を入力とし、オブジェクト音源の音の有無を出力とするDNN等の識別器を用いて、各オブジェクト音源の音の時間区間を検出してもよい。
 例えば図4に示すように、収録信号と、運動情報としての加速度センサのセンサ値(センサ信号)とを用いれば、識別器によりオブジェクト音源の音としての歩行音の時間区間を高精度に検出することができる。
 図4では、矢印Q11に示す部分には収録信号の時間波形が示されており、矢印Q12に示す部分には収録信号のスペクトルが示されている。また、矢印Q13に示す部分には、加速度センサのセンサ信号の時間波形が示されており、矢印Q14に示す部分には、そのセンサ信号のスペクトルが示されている。なお、矢印Q11乃至矢印Q14により示される各部分では、図中、横方向は時間を示している。
 この例では、例えば収録信号における矢印A11に示す部分などにおいて、対象オブジェクトの歩行音と、その対象オブジェクトの周囲にいる他のオブジェクトの歩行音とが混在している。
 このような場合、収録信号の時間波形と収録信号のスペクトルだけでは、収録信号に含まれている歩行音の成分が対象オブジェクトのものであるのか、他のオブジェクトのものであるのかを判別することは困難である。
 そこで、この例では収録信号だけでなく、センサ信号(運動情報)も用いられて対象オブジェクトのものであるか、他のオブジェクトのものであるかの判別(弁別)が行われる。
 矢印Q13に示すセンサ信号の時間波形は、上下方向に周期的に変動しており、この時間波形、つまり上下方向の成分の値は、対象オブジェクトの床反力垂直成分を示している。
 特に、ここでは、例えば矢印A12に示す部分など、図中、上に凸となっている1つのやまの部分が対象オブジェクトの一歩分の体動に対応しており、センサ信号には高いSN比で対象オブジェクトの体動を示す情報が含まれていることが分かる。
 また、矢印Q14に示すセンサ信号のスペクトルにおける濃淡のパターンも、矢印Q13に示したセンサ信号の時間波形と明確に対応がとれていることが分かる。
 このように、センサ信号には対象オブジェクトの体動を示す情報は高いSN比で含まれているが、他のオブジェクトの体動を示す情報は全く含まれていない。
 したがって、収録信号と運動情報とを利用することで、高精度に対象オブジェクトのオブジェクト音源の音の時間区間を検出することができる。
 具体的には、例えば対象オブジェクトの音の音圧と同じ音圧で、他のオブジェクトの音が収録信号に含まれている場合、収録信号のみを用いても高精度に対象オブジェクトの音の時間区間を検出することはできない。しかし、収録信号だけでなく、運動情報も利用することで、精度よく対象オブジェクトの音の時間区間を検出することができる。
 一般的に加速度センサやジャイロセンサ、地磁気センサなどのセンサ値からオブジェクトの行動を推定する手法が行動認識の分野などで多く提案されている。
 これに対して、区間検出部32では、以上において説明したように収録信号と運動情報とが用いられて、対象オブジェクトから発せられた音と他のオブジェクトから発せられた音とがオブジェクト音源の音の種別ごとに弁別される。
 なお、例えば行動認識や理学療法などの分野では、歩行や走行は持続する動作であるとされ、立脚期や遊脚期などの連続的な状態遷移で記述されていることが多い。
 これに対して、区間検出部32では、例えば実際に歩行音や走行音が発生する時間区間、すなわちオブジェクトとしての人の足、より詳細には踵やつま先の接地から離地までの時間区間が、歩行音や走行音の時間区間として検出される。
 また、オブジェクト音源の音としてのオブジェクトの発話の音声の時間区間についても運動情報から高精度に検出可能である。
 例えばオブジェクトとしての人の首回りや頭部に動き計測部22が装着されている場合、対象オブジェクトが発話を行うと、運動情報としてのセンサ信号では、発話に起因する体動を示す情報が高いSN比で観測される。
 そのため、動作音における場合と同様に、発話音声の時間区間についても収録信号と運動情報を用いることで、対象オブジェクトから発せられた音声と、他のオブジェクトから発せられた音声とを高精度に弁別することが可能である。
 なお、対象オブジェクトの発話時の体動を示す情報が高いSN比で含まれる運動情報を得ることができないことも有り得る。
 しかし、そのような場合には、例えば収録デバイス11を装着している対象オブジェクトの発話音声がマイクロホン21を構成する複数の各マイクロホンで収音されるときに、その発話音声の各マイクロホンへの到来方向が略一定となる性質を利用すればよい。
 具体的には、例えば区間検出部32において、複数の各マイクロホンで得られた収録信号に対してDS(Delay and Sum beamforming)を行うことで、収録信号における対象オブジェクトの音声が到来する方位の成分が強調される。
 このようにして得られた収録信号と、運動情報とを用いれば、高い精度で対象オブジェクトの発話音声と他のオブジェクトの発話音声とを弁別することができる。
 また、例えば区間検出部32において、NBF(Null Beamformer)を利用して、収録信号に含まれる対象オブジェクトの発話音声の成分が抑圧されるようにしてもよい。
 この場合、抑圧前の収録信号から検出された対象オブジェクトの発話音声の時間区間と、抑圧後の収録信号から検出された対象オブジェクトの発話音声の時間区間とが比較される。そして、抑圧前の収録信号から検出された時間区間のうち、抑圧後の収録信号からは検出されなかった時間区間が、最終的な対象オブジェクトの発話音声の時間区間とされる。
 次に、信号処理部41において行われる処理について、より詳細に説明する。
 信号処理部41では、区間検出部32で得られた音源種別区間情報と、運動情報と、位置情報と、収録信号とに基づいて信号処理を行うことで、オブジェクト音源の種別ごとのオーディオ信号であるオブジェクト音源信号が生成される。
 例えば信号処理部41では、音質補正処理、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理や、それらの処理のうちの複数のものを組み合わせた処理が収録信号に対する信号処理として行われる。
 より具体的には、例えば音質補正処理として、オブジェクトが動くことにより、収録デバイス11とオブジェクトとの接触部分で発生する雑音等の目的外の音を抑制するなどしてオブジェクト音源の音の品質(音質)を向上させるための処理が行われる。
 すなわち、例えば雑音が支配的な周波数帯域を抑制するフィルタ処理やゲイン補正といった、雑音を抑制する処理、雑音が多い区間や不要な区間、コンテンツ視聴時に適切ではない音声などが含まれる区間をミュートする処理などが音質補正処理として行われる。
 なお、適切でない音声が含まれる時間区間は、例えば音源種別区間情報や、収録信号に対する音声認識処理などにより検出することが考えられる。
 また、例えば収録信号における、高域が減衰しやすいオブジェクト音源の音が含まれる時間区間に対して高域成分を増加させるフィルタ処理を行うなど、オブジェクト音源の音の品質を向上させる処理を音質補正処理として行ってもよい。そのような場合、例えば音源種別区間情報に基づいて、収録信号の各時間区間に対して、オブジェクト音源の種別ごとに定められた処理を音質補正処理として行えばよい。
 さらに、例えば音源種別区間情報を参照すれば、収録信号において複数のオブジェクト音源の音が含まれている時間区間を特定することができる。
 そこで、その特定結果に基づいて、オブジェクト音源の種別ごとの振幅値や確率密度分布の差異に応じて、各オブジェクト音源の音を分離させる独立成分分析に基づく音源分離処理が収録信号に対して行われるようにしてもよい。
 また、オブジェクトから見たオブジェクト音源の方位の差異に応じてビームフォーミングなどを音源分離処理として行い、収録信号から各オブジェクト音源の音の信号を分離させるようにしてもよい。
 さらに、音源種別区間情報から、収録信号の時間区間に1つのオブジェクト音源の音のみが含まれていることが特定された場合には、その時間区間の信号をオブジェクト音源信号として切り出す処理が音源分離処理として行われる。
 これらの処理により、1つのオブジェクト音源の音のみが含まれる信号を得ることができ、その信号をオブジェクト音源信号とすることができる。
 また、音質補正処理と同様に、収録信号において、主に暗騒音や歓声などの定常ノイズや風等の雑音といった不要な音がオブジェクト音源の音の時間区間に含まれているときには、その時間区間に対して雑音を抑圧する処理を雑音除去処理として行ってもよい。
 その他、例えば各オブジェクトの位置情報と運動情報から、対象オブジェクトの周囲に他のオブジェクトが存在しているかや、対象オブジェクトに対する他のオブジェクトの相対的な方位、対象オブジェクトから他のオブジェクトまでの距離を特定することができる。
 したがって、それらの特定結果と音源種別区間情報から、対象オブジェクトのオブジェクト音源の音が含まれる時間区間に、他のオブジェクトの音が含まれているかを特定することができるので、DNNを利用した音源分離などにより対象オブジェクトについてのオブジェクト音源の音のみを抽出(分離)させることができる。
 なお、このような音源分離等にあたっては、例えば図5に示すように、対象オブジェクトOB11を中心とする所定の半径の円の領域R11内に位置する他のオブジェクトが除去対象のオブジェクトとされる。図5において各点はオブジェクトを表している。
 また、除去対象のオブジェクトまでの距離や、除去対象のオブジェクトの相対的な方位が考慮されて、対象オブジェクトOB11の収録信号におけるオブジェクト音源の音が含まれる時間区間に対して、その時間区間に含まれる除去対象のオブジェクトの音を除去する音源分離等の処理が行われる。つまり、対象オブジェクトOB11についてのオブジェクト音源の音の信号が抽出される。
 このとき、対象オブジェクトOB11から除去対象のオブジェクトまでの距離は、それらのオブジェクトの位置情報から得ることができる。また、対象オブジェクトOB11から見た除去対象のオブジェクトの相対方位は、それらのオブジェクトの運動情報により示される向きや位置情報により得ることができる。
 さらに、領域R11外にあるオブジェクト、つまり対象オブジェクトOB11からの距離が所定距離以上であるオブジェクトについては、除去対象のオブジェクトとはされない。
 これは、対象オブジェクトOB11の収録信号へと混入する、遠い位置にあるオブジェクトからの音は、距離減衰によって少なくなるので、そのようなオブジェクトの音声や動作音については考慮する必要がないからである。
 また、除去対象のオブジェクトの音を除去(分離)する際には、対象オブジェクトOB11から除去対象のオブジェクトまでの距離に応じて、除去対象のオブジェクトの音の分離時のゲインや強度を変化させるようにしてもよい。つまり、距離に応じて混入量(寄与率)が連続的に変化するものとして扱われるようにしてもよい。
 また、例えば信号処理として行われる距離補正処理は、オブジェクト音源の発する音の絶対音圧に対して、収録時にオブジェクト音源からマイクロホン21の位置までの距離減衰や伝達特性が畳み込まれてしまった影響を補正する処理である。
 具体的には、例えば距離補正処理として、例えばオブジェクト音源からマイクロホン21までの伝達特性の逆特性を収録信号に付加する処理を行うようにしてもよい。
 これにより、距離減衰や伝達特性などによるオブジェクト音源の音の音質劣化を補正することができるとともに、コンテンツ再生時に各オブジェクト音源の位置関係に応じた、各オブジェクト音源の音の絶対音圧の相対関係を回復することができる。
 さらに、例えば信号処理として行われる音源差し替え処理は、音源種別区間情報により示される所定のオブジェクト音源の種別の音を、事前に用意された音など、収録された音とは異なる音に差し替えてオブジェクト音源信号とする処理である。
 換言すれば、音源差し替え処理では、音源種別区間情報に基づいて、収録信号の一部の区間、または収録信号から得られたオブジェクト音源信号の一部の区間が、事前に用意されたり、動的に生成されたりした他のオーディオ信号に置き換えられる。
 ここでは、例えばオブジェクト音源の種別に応じて、事前に用意された高いSN比の音の信号をオブジェクト音源信号とすることができる。このような音源差し替え処理は、運動情報としてのセンサ値の振幅が大きく、すなわちオブジェクトの動きが大きく、収録したオブジェクト音源の音の音質がよくない場合に特に有効である。したがって、例えば運動情報に対する閾値処理の結果等に基づいて、音源差し替え処理を行うか否かが決定されてもよい。
 また、例えば音源差し替え処理では、運動情報としての加速度などを関数に代入するなどしてパラメトリックに生成された音の信号をオブジェクト音源信号としてもよい。
 さらに、例えば音源差し替え処理では、オブジェクト音源の音としてコンテンツ視聴時に適切ではない音声の時間区間がある場合には、事前に用意された所定の音の信号を、その時間区間のオブジェクト音源信号としてもよい。
 なお、信号処理部41で得られるオブジェクト音源信号は、オブジェクト音源の音がある時間区間のみの信号であってもよいし、全時間区間の信号であるがオブジェクト音源の音がない時間区間は無音信号となっている信号とされてもよい。
 また、以上において説明した音質補正処理や、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理は、オンラインで収録信号のフレームごとに処理を行う場合や、先読みフレームを利用して処理を行う場合、オフラインで処理を行う場合など、何れの場合であっても実現可能である。このとき、必要に応じて収録信号の処理対象のフレームよりも過去のフレームについて、収録信号や音源種別区間情報、運動情報、位置情報などを保持しておけばよい。
〈収録処理の説明〉
 次に、収録デバイス11とサーバ12の動作について説明する。
 まず、収録デバイス11の動作について説明する。収録デバイス11は、オブジェクトに装着されて、例えばオブジェクトがパフォーマンスや試合を行っている間など、所定期間において収録処理を行う。
 以下、図6のフローチャートを参照して、収録デバイス11による収録処理について説明する。
 ステップS11において収録部24は、周囲の音の収録を行う。
 すなわち、マイクロホン21が周囲の音を収音し、その結果得られた収録信号を出力すると、収録部24は、マイクロホン21から出力された収録信号を取得することで、収録された音の収録信号を得る。
 ステップS12において、収録部24は、動き計測部22および位置計測部23から運動情報および位置情報を取得する。
 収録部24は、このようにして得られた収録信号や、運動情報、位置情報に対して、必要に応じてAD変換等を行い、伝送部25に供給する。
 また、伝送部25は、収録部24から供給された収録信号、運動情報、および位置情報からなる伝送データを生成する。このとき、伝送部25は、必要に応じて収録信号や、運動情報、および位置情報に対して圧縮処理を行う。
 ステップS13において伝送部25は、伝送データをサーバ12に送信する。
 なお、ここでは収録中にリアルタイム(オンライン)で、逐次、収録により得られた伝送データをサーバ12に送信する例について説明するが、収録中には伝送データを蓄積しておき、収録後、オフラインで全ての伝送データを一括してサーバ12に送信してもよい。
 ステップS14において収録部24は、処理を終了するか否かを判定する。例えば収録デバイス11に設けられた図示せぬボタンなどが操作され、収録の終了が指示された場合、処理を終了すると判定される。
 ステップS14において、まだ処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS14において処理を終了すると判定された場合、収録デバイス11の各部は行っている動作を停止し、収録処理は終了する。
 以上のようにして収録デバイス11は、収音を行うとともにオブジェクトの動きや位置の計測を行い、収録信号、運動情報、および位置情報を含む伝送データをサーバ12に送信する。このようにすることで、サーバ12では、高品質な目的音を得ることができるようになる。
〈データ生成処理の説明〉
 また、サーバ12は、各収録デバイス11から伝送データが送信されてくると、データ生成処理を行って、オブジェクト音源データを出力する。以下、図7のフローチャートを参照して、サーバ12により行われるデータ生成処理について説明する。
 ステップS41において受信部31は、収録デバイス11から送信されてきた伝送データを受信する。
 また、受信部31は、受信した伝送データに対して、必要に応じて伸張処理を行い、伝送データから収録信号、運動情報、および位置情報を抽出する。
 そして、受信部31は、区間検出部32に収録信号および運動情報を供給し、信号処理部41に収録信号、運動情報、および位置情報を供給し、メタデータ生成部42に運動情報および位置情報を供給する。
 ステップS42において区間検出部32は、オブジェクト(収録デバイス11)ごとに、受信部31から供給されたオブジェクトの収録信号および運動情報に基づいて、そのオブジェクトの音源種別区間情報を生成し、信号処理部41に供給する。
 例えば区間検出部32は、上述したように収録信号に対して閾値処理を行ったり、DNN等の識別器に収録信号や運動情報を代入して演算を行ったり、収録信号に対してDSやNBFを行ったりすることで各時間区間に含まれるオブジェクト音源の種別を特定し、音源種別区間情報を生成する。
 また、区間検出部32は、各時間区間に含まれるオブジェクト音源の種別の特定結果に基づいて、収録信号に含まれている音のオブジェクト音源の種別とオブジェクトとを示す音源種別情報を生成し、メタデータ生成部42に供給する。
 ステップS43において信号処理部41は、受信部31から供給された収録信号、運動情報、および位置情報と、区間検出部32から供給された音源種別区間情報とに基づいてオブジェクト音源信号を生成する。
 具体的には信号処理部41は、収録信号に対して、適宜、上述した音質補正処理や、音源分離処理、雑音除去処理、距離補正処理、音源差し替え処理を行うことで、各オブジェクトについてオブジェクト音源信号を生成する。このとき、対象オブジェクトの運動情報や位置情報、音源種別区間情報だけでなく、他のオブジェクトの運動情報や位置情報、音源種別区間情報も利用されて、対象オブジェクトのオブジェクト音源信号が生成される。
 ステップS44においてメタデータ生成部42は、各オブジェクトのオブジェクト音源ごとに、区間検出部32から供給された音源種別情報と、受信部31から供給された運動情報および位置情報とを含むメタデータを生成する。
 このようにしてオブジェクト音源ごとに、オブジェクト音源信号とメタデータとが得られると、オブジェクト音源データ生成部33は、各オブジェクト音源について、オブジェクト音源信号とメタデータを含むオブジェクト音源データを後段に出力する。
 ステップS45においてサーバ12は、処理を終了するか否かを判定する。例えばステップS45では、収録デバイス11から受信した全ての伝送データが処理された場合、処理を終了すると判定される。
 ステップS45において、まだ処理を終了しないと判定された場合、その後、処理はステップS41に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS45において処理を終了すると判定された場合、サーバ12の各部は行っている処理を停止し、データ生成処理は終了する。
 なお、ここでは収録デバイス11からリアルタイムで、逐次、伝送データが送信され、サーバ12においても逐次、伝送データからオブジェクト音源データを生成する例について説明した。
 しかし、収録デバイス11からの伝送データを蓄積しておき、蓄積した伝送データを一括して処理し、オブジェクト音源データを生成してもよい。また、収録デバイス11から伝送データが一括で送信されてきたときには、受信した伝送データを一括して処理し、オブジェクト音源データを生成すればよい。
 以上のようにしてサーバ12は、複数の収録デバイス11から伝送データを受信し、それらの伝送データからオブジェクト音源データを生成して出力する。
 このとき、収録信号だけでなく運動情報も利用して音源種別区間情報を生成したり、その音源種別区間情報を用いてオブジェクト音源データを生成したりすることで、高品質な目的音、すなわちオブジェクト音源信号を得ることができる。
〈第2の実施の形態〉
〈収録システムの構成例〉
 なお、以上においては各オブジェクトの音源種別区間情報を生成するときには、他のオブジェクトについて得られた情報は用いられない例について説明した。しかし、例えば各オブジェクトについて得られた情報を統合することで、音源種別区間情報を高精度化するようにしてもよい。
 そのような場合、収録システムは、例えば図8に示すように構成される。なお、図8において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8に示す収録システムは、収録デバイス11とサーバ12とを有しており、収録デバイス11の構成は図1における場合と同じとなっている。
 これに対して図8に示す収録システムでは、サーバ12は受信部31、区間検出部32、統合部71、およびオブジェクト音源データ生成部33を有している。また、オブジェクト音源データ生成部33は、信号処理部41およびメタデータ生成部42を有している。
 このサーバ12の構成は、新たに統合部71が設けられた点で図1に示したサーバ12と異なり、その他の点では図1に示したサーバ12と同じ構成となっている。
 この例では、区間検出部32で生成された音源種別区間情報は、統合部71に供給される。また、統合部71には、区間検出部32からの音源種別区間情報の他に、受信部31から収録信号、運動情報、および位置情報が供給される。
 統合部71は、これらの収録信号、音源種別区間情報、運動情報、および位置情報に基づいて、最終的な音源種別区間情報を生成して信号処理部41に供給するとともに、音源種別情報も生成してメタデータ生成部42に供給する。
 特に統合部71では、各収録デバイス11で得られた運動情報や位置情報などの各情報を統合することで、より高精度な音源種別区間情報が生成される。
 なお、以下では区間検出部32とは別に統合部71が設けられている例について説明するが、統合部71が区間検出部32に設けられていてもよい。そのような場合、区間検出部32が以上において説明した処理とともに、以下において説明する統合部71の処理も同時に行い、音源種別区間情報と音源種別情報を生成する。
 ここで、統合部71についてさらに詳細に説明する。
 例えば区間検出部32では、オブジェクトごと、つまり収録デバイス11ごとに、オブジェクトの動作音や音声であると推定される時間区間が検出されて音源種別区間情報が生成される。
 しかし、それでも他のオブジェクトの動作音や音声の時間区間が、対象オブジェクトの動作音や音声の時間区間であると誤検出されたり、本来検出されるべき対象オブジェクトの動作音や音声の時間区間が検出されなかったりすることもある。
 そこで、統合部71では、各収録デバイス11で得られた情報を統合することで、より高精度な音源種別区間情報を得ることができるようになされている。
 具体的には、統合部71は、例えば所定の時間長のフレームごとに、音源種別区間情報、収録信号、運動情報、および位置情報に基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行うことで、最終的な音源種別区間情報を得る。
 換言すれば、統合部71は、対象オブジェクトの収録信号、運動情報、および位置情報と、他のオブジェクトの収録信号、運動情報、および位置情報のうちの少なくとも何れか1つとに基づいて、対象オブジェクトの音源種別区間情報を生成する。
 以下、これらの位置情報比較処理、時間区間統合処理、および区間平滑化処理の例について、さらに説明する。
 まず、全てのオブジェクトが、順次、対象オブジェクトとして選択されて、対象オブジェクトごとに位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。
 位置情報比較処理では、各オブジェクトの位置情報に基づいて、対象オブジェクトから他のオブジェクトまでの間の距離が計算される。
 そして、求められた距離に基づいて、対象オブジェクトのオブジェクト音源の音に対して影響が生じ得る他のオブジェクト、つまり対象オブジェクトの近くにある他のオブジェクトが参照オブジェクトとして選択される。
 具体的には、例えば対象オブジェクトとの間の距離が所定の閾値以下であるオブジェクトが参照オブジェクトとして選択される。この例では、各オブジェクトは収録デバイス11を装着していることから、収録デバイス11間の距離は、オブジェクト間の距離と略等しくなるので、位置情報から求まる距離が参照オブジェクトの選別に用いられる。
 なお、ここでは距離に基づいて参照オブジェクトが選択され、その参照オブジェクトに関する情報が用いられて時間区間統合処理が行われる例について説明する。
 しかし、全てのオブジェクトが参照オブジェクトとされて、対象オブジェクトからの距離に応じた重みで参照オブジェクトに関する情報が用いられて時間区間統合処理が行われるようにしてもよい。
 時間区間統合処理では、まず、位置情報比較処理で参照オブジェクトとして選択されたオブジェクトがあるか否かが判定される。
 そして、参照オブジェクトとして選択されたオブジェクトがない場合、区間検出部32で得られた対象オブジェクトの音源種別区間情報が、そのまま最終的な音源種別区間情報として信号処理部41に出力される。これは、対象オブジェクトの近くに他のオブジェクトがない場合、収録信号には他のオブジェクトの音は混入しないからである。
 これに対して、参照オブジェクトとして選択されたオブジェクトがある場合、それらの参照オブジェクトの位置情報や運動情報も用いられて対象オブジェクトの音源種別区間情報がアップデートされる。つまり、最終的な音源種別区間情報が生成される。
 具体的には、参照オブジェクトのうち、対象オブジェクトの音源種別区間情報により示される時間区間と重なる区間をオブジェクト音源の音の時間区間として有する参照オブジェクトが最終的な参照オブジェクトとして選択される。
 つまり、位置情報比較処理で参照オブジェクトとされたものであっても、音源種別区間情報により示される時間区間が、対象オブジェクトの音源種別区間情報により示される時間区間とは重ならないオブジェクトは、参照オブジェクトから除外される。
 次に、参照オブジェクトの位置情報および運動情報と、対象オブジェクトの位置情報および運動情報とに基づいて、3次元空間上における対象オブジェクトから見た参照オブジェクトの相対的な方位(方向)が推定され、その推定結果を示す相対方位情報が生成される。より詳細には、例えば対象オブジェクトの正面方向から見た参照オブジェクトの口元の方向(方位)が推定される。なお、相対方位情報の生成には、運動情報は用いられずに位置情報のみが用いられるようにしてもよい。
 さらに、対象オブジェクトの位置情報、および運動情報により示される対象オブジェクトの向きと、各参照オブジェクトの相対的方位情報とに基づいて、NBFフィルタが形成される。
 このNBFフィルタは、対象オブジェクトの向きにより示される、対象オブジェクトの口元方向から到来する音のゲインを維持しつつ、相対的方位情報により示される方向から到来する音を抑圧するビームフォーミングを実現するフィルタである。
 統合部71は、このようにして得られたNBFフィルタと、対象オブジェクトの収録信号における、対象オブジェクトの音源種別区間情報により示される時間区間との畳み込み処理を行う。
 さらに統合部71は、畳み込み処理により得られた信号と、対象オブジェクトの運動情報とに基づいて、区間検出部32において行われる処理と同様の処理、すなわち閾値処理やDNN等の識別器での演算処理などを行い、音源種別区間情報を生成する。このようにすることで、参照オブジェクトから発せられた音が抑圧されて、より高精度な音源種別区間情報を得ることができる。
 なお、DNN等の識別器での演算処理において、参照オブジェクトの運動情報や位置情報、収録信号なども入力として用いられるようにしてもよい。
 最後に、統合部71は、時間区間統合処理で得られた音源種別区間情報に対して区間平滑化処理を行うことで、最終的な音源種別区間情報を得る。
 例えばオブジェクト音源の種別ごとに、その種別のオブジェクト音源の音が発生したときに、その音が最低限持続する平均的な時間が平均最低持続時間として予め得られている。
 区間平滑化処理では、オブジェクト音源の音が検出された時間区間の長さが、平均最低持続時間以上となるように、細分化(分断)されてしまったオブジェクト音源の音の時間区間を接続する平滑化フィルタにより平滑化が行われる。
 換言すれば区間平滑化処理では、収録信号における同じ種別のオブジェクト音源の音が検出された、連続して並ぶ複数の時間区間が接続されて最終的な1つの時間区間とされる。このとき、接続される複数の時間区間には、時間幅が平均最低持続時間未満の時間区間が少なくとも1つ含まれている。
 例えば統合部71は、各オブジェクト音源の種別の平均最低持続時間に基づいて生成された平滑化フィルタを予め保持している。
 統合部71は、平滑化フィルタに基づいて、時間区間統合処理で得られた音源種別区間情報に対するフィルタリング(フィルタ処理)を区間平滑化処理として行い、最終的な音源種別区間情報を得て、信号処理部41に供給する。区間平滑化処理では、オブジェクト音源の種別、すなわち平均最低持続時間によっては、連続する複数フレームの音源種別区間情報に対してフィルタリングが行われることもある。
 また、統合部71は、得られた音源種別区間情報から音源種別情報を生成し、メタデータ生成部42に供給する。
 以上のようにして統合部71では、区間検出部32で得られた音源種別区間情報では除去(除外)しきれていなかった他のオブジェクトの音に関する情報を除去し、より高精度な音源種別区間情報を得ることができる。
 例えば区間検出部32では、上述したように収録信号に対して適宜DSやNBFが行われることがある。
 しかし、例えばDSでは、対象オブジェクトの音声が到来する方位の成分が十分に強調されないこともあり、そのような場合に他のオブジェクトの音の音量が大きいと、正しい音源種別区間情報を得ることができないことがある。
 また、例えばNBFにおいても、対象オブジェクトの近傍における、対象オブジェクトの音声が到来する方位と近い方位に他のオブジェクトがあり、対象オブジェクトと他のオブジェクトが略同時に発話した場合にも、正しい音源種別区間情報が得られないことがある。
 これに対して、統合部71では、対象オブジェクトに関する情報だけでなく、他のオブジェクトの運動情報や位置情報、音源種別区間情報も用いることで、より高精度な音源種別区間情報を得ることができる。
〈データ生成処理の説明〉
 収録システムが図8に示した構成とされる場合、各収録デバイス11では、図6を参照して説明した収録処理が行われ、サーバ12へと伝送データが送信される。
 すると、サーバ12では、図9に示すデータ生成処理が行われる。以下、図9のフローチャートを参照して、図8に示したサーバ12によるデータ生成処理について説明する。
 なお、ステップS71およびステップS72の処理は、図7のステップS41およびステップS42の処理と同様であるので、その説明は省略する。
 但し、ステップS71では、受信部31で伝送データから抽出された収録信号、運動情報、および位置情報は、統合部71にも供給される。
 また、ステップS72では、生成された音源種別区間情報が区間検出部32から統合部71へと供給される。
 ステップS73において統合部71は、区間検出部32および受信部31から供給された情報の統合を行う。
 すなわち、統合部71は、受信部31から供給された収録信号、運動情報、および位置情報と、区間検出部32から供給された音源種別区間情報とに基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行い、最終的な音源種別区間情報を得る。
 統合部71は、得られた最終的な音源種別区間情報を信号処理部41に供給するとともに、その最終的な音源種別区間情報から音源種別情報を生成し、メタデータ生成部42に供給する。
 このようにして音源種別区間情報が得られると、その後、ステップS74乃至ステップS76の処理が行われてデータ生成処理は終了するが、これらの処理は図7のステップS43乃至ステップS45の処理と同様であるので、その説明は省略する。
 以上のようにしてサーバ12は、複数の収録デバイス11から伝送データを受信し、それらの伝送データからオブジェクト音源データを生成して出力する。
 このとき、他のオブジェクトの情報も利用して対象オブジェクトの最終的な音源種別区間情報を生成することで、さらに高品質な目的音を得ることができる。
〈第3の実施の形態〉
〈収録システムの構成例〉
 また、以上においては音源種別区間情報の生成には収録信号や位置情報が用いられると説明したが、さらに映像情報が用いられるようにしてもよい。
 そのような場合、収録システムは、例えば図10に示すように構成される。なお、図10において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す収録システムは、収録デバイス11とサーバ12とを有している。
 この例では収録デバイス11は、マイクロホン21、動き計測部22、位置計測部23、撮影部101、収録部24、および伝送部25を有している。
 図10に示す収録デバイス11の構成は、新たに撮影部101を設けた点で図8に示した収録デバイス11の構成と異なり、その他の点では図8の収録デバイス11と同じ構成となっている。
 撮影部101は、小型なカメラからなり、例えばオブジェクトの位置を視点として、そのオブジェクトの一部を被写体として含む映像を撮影し、得られた映像情報(映像信号)を伝送部25に供給する。なお、映像情報に基づく映像には、オブジェクトが被写体として含まれていない場合もあり得る。
 伝送部25は、収録部24から供給された収録信号、運動情報、および位置情報と、撮影部101から供給された映像情報とを含む伝送データを生成し、サーバ12に送信する。
 また、サーバ12は受信部31、区間検出部32、統合部71、およびオブジェクト音源データ生成部33を有しており、オブジェクト音源データ生成部33には信号処理部41およびメタデータ生成部42が設けられている。
 すなわち、図10に示すサーバ12の構成は、図8に示したサーバ12の構成と同じであるが、図10に示すサーバ12では、受信部31で伝送データから抽出された映像情報が区間検出部32および統合部71に供給される。
 したがって、区間検出部32では、受信部31から供給された収録信号、運動情報、および映像情報に基づいて音源種別区間情報が生成される。
 例えば映像情報に基づく映像に、対象オブジェクトの一部が被写体として含まれている場合には、その対象オブジェクトの動作の検出に映像情報が利用される。
 具体的には、例えば映像情報に基づいて検出された対象オブジェクトの各時刻における動作に基づいて、音源種別区間情報が補正される。
 その他、例えば映像情報、運動情報、および収録信号がDNN等の識別器に代入されて演算が行われ、収録信号の各時刻における動作音の有無が得られるようにしてもよい。
 同様に、統合部71においても収録信号、運動情報、位置情報、映像情報、および音源種別区間情報に基づいて位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。
 このとき、映像情報は、区間検出部32における場合と同様に、対象オブジェクトの動作の検出や時間区間統合処理等に利用されてもよいし、対象オブジェクトの周囲に他のオブジェクトがいるか否かの検出、他のオブジェクトの動作の検出などに用いられるようにしてもよい。
〈収録処理の説明〉
 次に、図10に示した収録デバイス11とサーバ12の動作について説明する。
 まず、図11のフローチャートを参照して、収録デバイス11による収録処理について説明する。
 なお、ステップS101およびステップS102の処理は、図6のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
 ステップS103において撮影部101はオブジェクト、つまり収録デバイス11の周囲を被写体として撮影を行い、その結果得られた映像情報を伝送部25に供給する。
 伝送部25は、撮影部101から供給された映像情報と、収録部24から供給された収録信号、運動情報、および位置情報とを含む伝送データを生成する。
 伝送データが生成されると、その後、ステップS104およびステップS105の処理が行われて収録処理は終了するが、これらの処理は図6のステップS13およびステップS14の処理と同様であるので、その説明は省略する。
 以上のようにして収録デバイス11は、周囲の被写体を撮影し、得られた映像情報を含む伝送データを生成してサーバ12に送信する。このようにすることで、サーバ12では、運動情報や位置情報だけでなく映像情報も利用して、より高品質な目的音を得ることができるようになる。
〈データ生成処理の説明〉
 次に、図12のフローチャートを参照して、図10に示したサーバ12により行われるデータ生成処理について説明する。
 なお、ステップS131の処理は、図9のステップS71の処理と同様であるので、その説明は省略する。但し、ステップS131では、受信部31は伝送データから映像情報も抽出し、区間検出部32および統合部71に供給する。
 ステップS132において区間検出部32は、受信部31から供給された収録信号、運動情報、および映像情報に基づいて音源種別区間情報を生成し、統合部71に供給する。
 なお、ステップS132では、図9のステップS72と同様の処理が行われるが、ここでは映像情報が対象オブジェクトの動作の検出などに利用されて音源種別区間情報が生成される。
 ステップS133において統合部71は、区間検出部32および受信部31から供給された情報の統合を行い、最終的な音源種別区間情報を生成する。
 ステップS133では、図9のステップS73と同様の処理が行われるが、ここでは音源種別区間情報、収録信号、運動情報、および位置情報だけでなく、さらに映像情報も用いられて位置情報比較処理、時間区間統合処理、および区間平滑化処理が行われる。すなわち、例えば映像情報が参照オブジェクトの選択や相対方位情報の生成などに用いられる。
 このようにして、最終的な音源種別区間情報が得られると、その後、ステップS134乃至ステップS136の処理が行われてデータ生成処理は終了するが、これらの処理は図9のステップS74乃至ステップS76の処理と同様であるので、その説明は省略する。
 以上のようにしてサーバ12は、複数の収録デバイス11から伝送データを受信し、それらの伝送データからオブジェクト音源データを生成して出力する。
 このとき、映像情報も利用して対象オブジェクトの音源種別区間情報を生成することで、さらに高品質な目的音を得ることができる。
〈第4の実施の形態〉
〈収録システムの構成例〉
 また、図10に示した収録システムでは、各オブジェクトの位置を視点とした映像情報が利用される例について説明したが、各収録デバイス11を装着したオブジェクト、すなわち全てのオブジェクトがいる対象空間全体を被写体とした映像情報が利用されてもよい。
 そのような場合、収録システムは、例えば図13に示すように構成される。なお、図13において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図13に示す収録システムは収録デバイス11、撮影装置131、およびサーバ12を有しており、収録デバイス11およびサーバ12の構成は図8における場合と同じとなっている。
 撮影装置131は、例えばカメラなどからなり、収録デバイス11を装着したオブジェクトがいる対象空間全体を被写体として撮影し、その結果得られた映像情報をサーバ12に送信する。なお、撮影装置131による撮影は、収録デバイス11が収録を行っている間、つまりマイクロホン21による収音が行われている間、継続して行われる。
 また、サーバ12の受信部31は、収録デバイス11により送信された伝送データだけでなく、撮影装置131により送信された映像情報も受信する。
 受信部31は、受信した映像情報を統合部71に供給する。また、統合部71は、受信部31から供給された収録信号、運動情報、位置情報、および映像情報と、区間検出部32から供給された音源種別区間情報とに基づいて最終的な音源種別区間情報を生成する。
 この例では、統合部71において、映像情報は各オブジェクトの動作を検出するために用いられる。
 例えば統合部71には、各オブジェクトの位置情報も供給されることから、それらの位置情報を用いれば、映像情報に対する画像認識等により得られた映像上の各オブジェクトがどのオブジェクトであるかを特定することができる。また、映像情報に対する画像認識等から、各オブジェクトがどのような動作を行っているかを特定することができる。すなわち、各時刻においてオブジェクトからどのようなオブジェクト音源の音が発せられているかを特定することができる。
 統合部71は、このようにして特定された各オブジェクトの動作を時間区間統合処理等に用いて、最終的な音源種別区間情報を生成する。また、例えば映像情報が時間区間統合処理におけるDNN等の識別器での演算処理の入力として用いられてもよい。
 なお、区間検出部32においても、各オブジェクトの動作を検出するために映像情報が用いられるようにしてもよい。
〈データ生成処理の説明〉
 収録システムが図13に示した構成とされる場合、各収録デバイス11では、図6を参照して説明した収録処理が行われ、サーバ12へと伝送データが送信される。また、撮影装置131からサーバ12には、映像情報が送信される。
 すると、サーバ12では、図14に示すデータ生成処理が行われる。以下、図14のフローチャートを参照して、図13に示したサーバ12によるデータ生成処理について説明する。
 ステップS161において受信部31は、撮影装置131から送信されてきた映像情報を受信して統合部71に供給する。
 また、サーバ12には、収録デバイス11から伝送データが送信されてくるので、ステップS162およびステップS163の処理が行われて音源種別区間情報が生成される。
 なお、ステップS162およびステップS163の処理は、図9のステップS71およびステップS72の処理と同様であるので、その説明は省略する。
 ステップS164において統合部71は情報の統合を行う。
 すなわち、統合部71は、受信部31から供給された映像情報、収録信号、運動情報、および位置情報と、区間検出部32から供給された音源種別区間情報とに基づいて、位置情報比較処理、時間区間統合処理、および区間平滑化処理を行い、最終的な音源種別区間情報を得る。このとき、例えば映像情報が参照オブジェクトの選択等に用いられる。
 統合部71は、得られた最終的な音源種別区間情報を信号処理部41に供給するとともに、その最終的な音源種別区間情報から音源種別情報を生成し、メタデータ生成部42に供給する。
 このようにして音源種別区間情報が得られると、その後、ステップS165乃至ステップS167の処理が行われてデータ生成処理は終了するが、これらの処理は図9のステップS74乃至ステップS76の処理と同様であるので、その説明は省略する。
 以上のようにしてサーバ12は、複数の収録デバイス11から伝送データを受信するとともに、撮影装置131から映像情報を受信し、それらの伝送データおよび映像情報からオブジェクト音源データを生成して出力する。このように映像情報も利用することで、さらに高品質な目的音を得ることができる。
〈第5の実施の形態〉
〈収録システムの構成例〉
 なお、以上においてはサーバ12側で音源種別区間情報を生成する例について説明したが、収録デバイス11側で音源種別区間情報を生成するようにしてもよい。
 そのような場合、例えば図15に示すように、収録デバイス11側に上述した区間検出部32が設けられる。なお、図15において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図15に示す収録システムは、収録デバイス11およびサーバ12を有している。
 また、収録デバイス11はマイクロホン21、動き計測部22、位置計測部23、収録部24、区間検出部32、および伝送部25を有している。
 図15に示す収録デバイス11の構成は、新たに区間検出部32を設けた点で図8に示した収録デバイス11の構成と異なり、その他の点では図8の収録デバイス11と同じ構成となっている。
 区間検出部32は、収録部24から供給された収録信号および運動情報に基づいて、音源種別区間情報を生成し、得られた音源種別区間情報と、収録部24から供給された収録信号、運動情報、および位置情報とを伝送部25に供給する。
 伝送部25は、区間検出部32から供給された収録信号、運動情報、位置情報、および音源種別区間情報を含む伝送データを生成し、サーバ12へと送信する。
 また、サーバ12は受信部31、統合部71、およびオブジェクト音源データ生成部33を有しており、オブジェクト音源データ生成部33には信号処理部41およびメタデータ生成部42が設けられている。
 このサーバ12の構成は、区間検出部32が設けられていない点で図8に示したサーバ12と異なり、その他の点では図8に示したサーバ12と同じ構成となっている。
 図15に示す例では、サーバ12においては受信部31は、受信した伝送データから収録信号、運動情報、位置情報、および音源種別区間情報を抽出する。
 そして、受信部31は、統合部71に収録信号、運動情報、位置情報、および音源種別区間情報を供給し、信号処理部41に収録信号、運動情報、および位置情報を供給し、メタデータ生成部42に運動情報および位置情報を供給する。
 また、統合部71は、受信部31から供給された収録信号、運動情報、位置情報、および音源種別区間情報に基づいて、最終的な音源種別区間情報を生成して信号処理部41に供給するとともに、音源種別情報も生成し、メタデータ生成部42に供給する。
 このように収録デバイス11側で音源種別区間情報を生成することで、サーバ12の処理負荷を低減させるとともに、高品質な目的音を得ることができる。なお、図10や図13に示した収録システムにおいて、収録デバイス11側で音源種別区間情報を生成するようにしてもよい。
 以上のように、本技術によれば、複数の移動体(オブジェクト)が存在し、それらの移動体が音を発する環境下において、運動情報や位置情報、映像情報を利用することで、収録信号に含まれている対象オブジェクトの音と他のオブジェクトの音とを弁別することができる。
 これにより、各オブジェクト音源の種別ごとの音が含まれている時間区間を検出したり、オブジェクト音源の種別ごとの信号処理を実現したり、オブジェクトの動作状態の行動認識などが可能となる。
 例えばオブジェクト音源の種別ごとの音の時間区間として、歩行音や走行音、サッカーでのボールキック音、野球の打球音や捕球音、ダンスの拍手音や衣擦れ音、ステップ音などの時間区間を高精度に検出することができる。
 一般的にセンサ信号のみからは動作音を得ることはできず、また、マイクロホンの収録信号において対象オブジェクトと他のオブジェクトの同種の動作音を判別するには方位や、音声の話者性(個人性)に関する情報が必要となる。
 この点、本技術ではセンサ信号のみを用いる場合や、収録信号のみを用いる場合と比較して、より高精度にオブジェクト音源の音の時間区間を検出し、より品質のよいオブジェクト音源信号を得ることが可能である。
 具体的には、収録信号のみから動作音の時間区間を検出する場合に、対象オブジェクトと他のオブジェクトとが近接しているとする。
 そのような場合、対象オブジェクトの動作音と、他のオブジェクトの動作音とを区別するためには、音声における場合と同様に、マルチマイクロホンの活用により音源の方位を推定し、その方位を利用することになる。
 しかし、例えば歩行音などの動作音の時間区間が短い場合、また時間とともに音源の方位が変化する場合などには、どのオブジェクトの動作音であるかを区別することは困難であることが多い。
 一方、運動情報には対象オブジェクトの動作に基づく体動情報のみが含まれ、他のオブジェクトの動作に起因する情報は含まれていない。
 そのため、本技術のように収録信号と運動情報とを組み合わせて動作音の時間区間を検出すれば、対象オブジェクトの動作音の時間区間を高精度に検出することができる。
 例えば動作音として歩行音の時間区間を検出する場合、収録信号のみでは地面や靴の状態は検出精度に大きく影響するが、運動情報も組み合わせて利用することで、高精度に歩行音の時間区間を検出することができるようになる。
 また、本技術では、例えばスポーツや演劇などの収録コンテンツにおいて、オーディオ再生に有意なオブジェクト音源の音がある時間区間を検出し、不要な時間区間のオブジェクト音源信号を伝送しないようにすることができる。これにより、伝送したり記録したりするコンテンツに関する情報の情報量、特にオブジェクト音源信号の情報量や、後段における処理量を削減することができる。
 さらに、本技術では、オブジェクトごとや、オブジェクトのオブジェクト音源ごとに、オブジェクト音源信号が生成される。そのため、後段においてオブジェクト音源ごとに音像定位の設定を行うことができ、より高精度に音像を定位させることができる。
 また、本技術では、オブジェクト音源ごとにオブジェクト音源信号が生成されるので、例えばスポーツ放送において、音声は再生せずに動作音のみを再生するなど、一部のオブジェクト音源の種別の音のみを選択的に再生することができる。これにより、再生時の機能性を向上させることができる。
 その他、本技術によれば、スポーツの試合などのコンテンツの収録時にサーバ12でリアルタイムに処理が行われる場合、例えば現状、ビデオ判定が行われる場面において、有効な追加情報となる各選手の動作状態に関する情報を提供することができる。
 具体的には、例えば選手の動作状態に関する情報として、音源種別区間情報から所定の動作音の時間区間や音声の時間区間を示す情報を提供することができる。
 さらに、本技術は、コンテンツ等の収録に限らず、複数台の車両が路上に存在する状況や、複数のドローン等の飛行体が飛行している状況、複数のロボットが存在する状況など、様々な状況で活用することができる。
 例えば車両に収録デバイス11を設け、その収録デバイス11で得られた収録信号や運動情報などと、車両に搭載されたドライブレコーダで得られた情報を利用することで、他の車両との接触判定などを行うことも可能である。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える
 信号処理装置。
(2)
 前記時間区間の検出結果に基づいて、前記移動体の音声または動作音のオーディオ信号を前記収録信号から生成するデータ生成部をさらに備える
 (1)に記載の信号処理装置。
(3)
 前記データ生成部は、前記オーディオ信号と、前記移動体の位置を示す位置情報とを含むオブジェクト音源データを出力する
 (2)に記載の信号処理装置。
(4)
 前記データ生成部は、前記オーディオ信号と、前記移動体の向きを示す情報とを含むオブジェクト音源データを出力する
 (2)または(3)に記載の信号処理装置。
(5)
 前記データ生成部は、前記オーディオ信号と、前記オーディオ信号に基づく音の種別を示す音源種別情報とを含むオブジェクト音源データを出力する
 (2)乃至(4)の何れか一項に記載の信号処理装置。
(6)
 前記区間検出部は、前記移動体の前記収録信号および前記センサ信号と、前記他の移動体の前記収録信号または前記センサ信号とに基づいて、前記移動体が発した音の前記時間区間を検出する
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記区間検出部は、前記移動体から前記他の移動体までの距離に基づいて、前記移動体が発した音の前記時間区間を検出する
 (6)に記載の信号処理装置。
(8)
 前記区間検出部は、前記移動体の向きおよび前記他の移動体の位置に基づいて、前記移動体が発した音の前記時間区間を検出する
 (6)または(7)に記載の信号処理装置。
(9)
 前記区間検出部は、前記時間区間の検出結果に基づいて、所定時間幅未満の前記時間区間を含む、前記収録信号における同じ種別の音の連続して並ぶ複数の前記時間区間を接続することで、最終的な前記時間区間の検出結果を得る
 (6)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 前記区間検出部は、前記時間区間の検出結果に対する平滑化処理を行うことで、前記複数の前記時間区間を接続する
 (9)に記載の信号処理装置。
(11)
 前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号に対する音源分離を行うことで前記オーディオ信号を生成する
 (2)乃至(5)の何れか一項に記載の信号処理装置。
(12)
 前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号の一部または前記オーディオ信号の一部を他の信号に置き換えることで、最終的な前記オーディオ信号を生成する
 (2)乃至(5)の何れか一項に記載の信号処理装置。
(13)
 信号処理装置が、
 移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
 信号処理方法。
(14)
 移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 収録デバイス, 12 サーバ, 21 マイクロホン, 24 収録部, 25 伝送部, 31 受信部, 32 区間検出部, 33 オブジェクト音源データ生成部, 41 信号処理部, 42 メタデータ生成部, 71 統合部

Claims (14)

  1.  移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する区間検出部を備える
     信号処理装置。
  2.  前記時間区間の検出結果に基づいて、前記移動体の音声または動作音のオーディオ信号を前記収録信号から生成するデータ生成部をさらに備える
     請求項1に記載の信号処理装置。
  3.  前記データ生成部は、前記オーディオ信号と、前記移動体の位置を示す位置情報とを含むオブジェクト音源データを出力する
     請求項2に記載の信号処理装置。
  4.  前記データ生成部は、前記オーディオ信号と、前記移動体の向きを示す情報とを含むオブジェクト音源データを出力する
     請求項2に記載の信号処理装置。
  5.  前記データ生成部は、前記オーディオ信号と、前記オーディオ信号に基づく音の種別を示す音源種別情報とを含むオブジェクト音源データを出力する
     請求項2に記載の信号処理装置。
  6.  前記区間検出部は、前記移動体の前記収録信号および前記センサ信号と、前記他の移動体の前記収録信号または前記センサ信号とに基づいて、前記移動体が発した音の前記時間区間を検出する
     請求項1に記載の信号処理装置。
  7.  前記区間検出部は、前記移動体から前記他の移動体までの距離に基づいて、前記移動体が発した音の前記時間区間を検出する
     請求項6に記載の信号処理装置。
  8.  前記区間検出部は、前記移動体の向きおよび前記他の移動体の位置に基づいて、前記移動体が発した音の前記時間区間を検出する
     請求項6に記載の信号処理装置。
  9.  前記区間検出部は、前記時間区間の検出結果に基づいて、所定時間幅未満の前記時間区間を含む、前記収録信号における同じ種別の音の連続して並ぶ複数の前記時間区間を接続することで、最終的な前記時間区間の検出結果を得る
     請求項6に記載の信号処理装置。
  10.  前記区間検出部は、前記時間区間の検出結果に対する平滑化処理を行うことで、前記複数の前記時間区間を接続する
     請求項9に記載の信号処理装置。
  11.  前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号に対する音源分離を行うことで前記オーディオ信号を生成する
     請求項2に記載の信号処理装置。
  12.  前記データ生成部は、前記時間区間の検出結果に基づいて、前記収録信号の一部または前記オーディオ信号の一部を他の信号に置き換えることで、最終的な前記オーディオ信号を生成する
     請求項2に記載の信号処理装置。
  13.  信号処理装置が、
     移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
     信号処理方法。
  14.  移動体の周囲に他の移動体が存在する状態で、前記移動体の周囲の音を収音して得られた収録信号と、前記移動体に装着されたセンサにより出力されたセンサ信号とに基づいて、前記収録信号における前記移動体が発した音の時間区間を検出する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2020/033612 2019-09-18 2020-09-04 信号処理装置および方法、並びにプログラム WO2021054152A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE112020004387.8T DE112020004387T5 (de) 2019-09-18 2020-09-04 Signalverarbeitungsvorrichtung, -verfahren und-programm
US17/641,928 US20220335967A1 (en) 2019-09-18 2020-09-04 Signal processing apparatus, method, and program
JP2021546604A JPWO2021054152A1 (ja) 2019-09-18 2020-09-04
CN202080064274.0A CN114402390A (zh) 2019-09-18 2020-09-04 信号处理装置、方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019169093 2019-09-18
JP2019-169093 2019-09-18

Publications (1)

Publication Number Publication Date
WO2021054152A1 true WO2021054152A1 (ja) 2021-03-25

Family

ID=74883754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033612 WO2021054152A1 (ja) 2019-09-18 2020-09-04 信号処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20220335967A1 (ja)
JP (1) JPWO2021054152A1 (ja)
CN (1) CN114402390A (ja)
DE (1) DE112020004387T5 (ja)
WO (1) WO2021054152A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
JP2017205213A (ja) 2016-05-17 2017-11-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US11031013B1 (en) * 2019-06-17 2021-06-08 Express Scripts Strategic Development, Inc. Task completion based on speech analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2021054152A1 (ja) 2021-03-25
US20220335967A1 (en) 2022-10-20
DE112020004387T5 (de) 2022-06-09
CN114402390A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
US10045120B2 (en) Associating audio with three-dimensional objects in videos
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
CN112165590B (zh) 视频的录制实现方法、装置及电子设备
US20180295463A1 (en) Distributed Audio Capture and Mixing
EP3144776B1 (en) Customizing haptic feedback for live events
JP2010021854A (ja) 音源の位置検出方法及びシステム
CN108769400A (zh) 一种定位录音的方法及装置
Oldfield et al. Object-based audio for interactive football broadcast
JP5868991B2 (ja) 動画記録中の音声のオーディオ信号再生を向上させる方法およびアセンブリ
GB2582991A (en) Audio generation system and method
JP2021520760A (ja) 音源の位置特定
US20220345842A1 (en) Impulse response generation system and method
US9853758B1 (en) Systems and methods for signal mixing
WO2021054152A1 (ja) 信号処理装置および方法、並びにプログラム
CN111903143B (zh) 信号处理设备和方法以及计算机可读存储介质
WO2022085442A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
WO2021095563A1 (ja) 信号処理装置および方法、並びにプログラム
WO2018234618A1 (en) AUDIO SIGNAL PROCESSING
CN110049409B (zh) 用于全息影像的动态立体声调节方法及装置
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
TWI812247B (zh) 動作引導方法、系統、電子裝置及伺服器
JPWO2018211750A1 (ja) 情報処理装置および情報処理方法
JP7245034B2 (ja) 信号処理装置、信号処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20864999

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021546604

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20864999

Country of ref document: EP

Kind code of ref document: A1