JPWO2020066542A1 - 音響オブジェクト抽出装置及び音響オブジェクト抽出方法 - Google Patents

音響オブジェクト抽出装置及び音響オブジェクト抽出方法 Download PDF

Info

Publication number
JPWO2020066542A1
JPWO2020066542A1 JP2020548325A JP2020548325A JPWO2020066542A1 JP WO2020066542 A1 JPWO2020066542 A1 JP WO2020066542A1 JP 2020548325 A JP2020548325 A JP 2020548325A JP 2020548325 A JP2020548325 A JP 2020548325A JP WO2020066542 A1 JPWO2020066542 A1 JP WO2020066542A1
Authority
JP
Japan
Prior art keywords
acoustic
signal
acoustic signal
spectrum
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020548325A
Other languages
English (en)
Other versions
JP7405758B2 (ja
Inventor
ロヒス マース
ロヒス マース
スリカンス ナギセティ
スリカンス ナギセティ
チョンスン リム
チョンスン リム
江原 宏幸
宏幸 江原
明久 川村
明久 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2020066542A1 publication Critical patent/JPWO2020066542A1/ja
Application granted granted Critical
Publication of JP7405758B2 publication Critical patent/JP7405758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/343Circuits therefor using frequency variation or different frequencies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置。音響オブジェクト抽出装置(100)において、ビームフォーミング処理部(103−1),(103−2)は、マイクロホンアレイ(101−1)に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、マイクロホンアレイ(101−2)に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、共通成分抽出部(106)は、第1の音響信号のスペクトルと第2の音響信号のスペクトルとの類似度に基づいて、第1の音響信号及び第2の音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。共通成分抽出部(106)は、第1の音響信号及び第2の音響信号のスペクトルを複数の周波数区間に分割し、周波数区間毎に類似度を算出する。

Description

本開示は、音響オブジェクト抽出装置及び音響オブジェクト抽出方法に関する。
複数の音響ビームフォーマを用いて音響オブジェクト(例えば、空間オブジェクト音と呼ぶ)を抽出する方法に、例えば、2つの音響ビームフォーマから入力される信号を、フィルタバンクを用いてスペクトル領域に変換し、スペクトル領域においてクロススペクトル密度に基づいて音響オブジェクトに対応する信号を抽出する方法が提案されている(例えば、特許文献1を参照)。
特表2014−502108号公報
Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Collaborative blind source separation using location informed spatial microphones." IEEE signal processing letters (2013): 83-86. Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Encoding and communicating navigable speech soundfields." Multimedia Tools and Applications 75.9 (2016): 5183-5204.
しかしながら、音響オブジェクト音を抽出する方法についての検討は十分ではない。
本開示の非限定的な実施例は、音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置及び音響オブジェクト抽出方法の提供に資する。
本開示の一実施例に係る音響オブジェクト抽出装置は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。
本開示の一実施例に係る音響オブジェクト抽出方法は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。
なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の一実施例によれば、音響オブジェクト音の抽出性能を向上することができる。
本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
一実施の形態に係る音響オブジェクト抽出装置の一部の構成例を示すブロック図 一実施の形態に係る音響オブジェクト抽出装置の構成例を示すブロック図 マイクロホンアレイ及び音響オブジェクトの位置関係の一例を示す図 一実施の形態に係る共通成分抽出部の内部構成例を示すブロック図 一実施の形態に係るサブバンドの構成例を示す図 一実施の形態に係る変換関数の一例を示す図
以下、本開示の実施の形態について図面を参照して詳細に説明する。
[システムの概要]
本実施の形態に係るシステム(例えば、音響ナビゲーションシステム)は、少なくとも、音響オブジェクト抽出装置100を備える。
本実施の形態に係るシステムでは、例えば、音響オブジェクト抽出装置100は、複数の音響ビームフォーマを用いて、ターゲットとなる音響オブジェクトの信号(例えば、空間オブジェクト音)、及び、音響オブジェクトの位置を抽出し、音響オブジェクトに関する情報(例えば、信号情報及び位置情報を含む)を、他の装置(例えば、音場再生装置)(図示せず)に出力する。例えば、音場再生装置は、音響オブジェクト抽出装置100から出力される音響オブジェクトに関する情報を用いて、音響オブジェクトの再生(レンダリング)を行う(例えば、非特許文献1及び2を参照)。
なお、音場再生装置と音響オブジェクト抽出装置100とが離れた場所に設けられる場合、音響オブジェクトに関する情報は、圧縮及び符号化され、伝送チャネルを通じて音場再生装置へ伝送されてもよい。
図1は、本実施の形態に係る音響オブジェクト抽出装置100の一部の構成を示すブロック図である。図1に示す音響オブジェクト抽出装置100において、ビームフォーミング処理部103−1,103−2は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1音響信号を生成し、第2のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2音響信号を生成する。共通成分抽出部106は、第1音響信号のスペクトルと第2音響信号のスペクトルとの類似度に基づいて、第1音響信号及び第2音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。このとき、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルを複数の周波数区間(例えば、サブバンド又はセグメントと呼ぶ)に分割し、周波数区間毎に上記類似度を算出する。
[音響オブジェクト抽出装置の構成]
図2は、本実施の形態に係る音響オブジェクト抽出装置100の構成例を示すブロック図である。図2において、音響オブジェクト抽出装置100は、マイクロホンアレイ101−1,101−2と、到来方向推定部102−1,102−2と、ビームフォーミング処理部103−1,103−2と、相関確認部104と、三角測量部105と、共通成分抽出部106と、を含む。
マイクロホンアレイ101−1は、マルチチャネルの音響信号(又は、音声音響信号)を取得(例えば、録音)し、音響信号をデジタル信号(デジタルマルチチャネル音響信号)に変換して、到来方向推定部102−1及びビームフォーミング処理部103−1に出力する。
マイクロホンアレイ101−2は、マルチチャネルの音響信号を取得(例えば、録音)し、音響信号をデジタル信号(デジタルマルチチャネル音響信号)に変換して、到来方向推定部102−2及びビームフォーミング処理部103−2に出力する。
マイクロホンアレイ101−1及びマイクロホンアレイ101−2は、例えば、HOA(High-order Ambisonics)マイク(アンビソニックスマイクロホン)である。例えば、図3に示すように、マイクロホンアレイ101−1の位置(図3では「M1」と表す)と、マイクロホンアレイ101−2の位置(図3では「M2」と表す)との間の距離(マイクロホンアレイ間距離)を「d」で表す。
到来方向推定部102−1は、マイクロホンアレイ101−1から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ101−1に対する音響オブジェクト信号の到来方向を推定(換言すると、DOA(Direction of Arrival) estimation)する。例えば、到来方向推定部102−1は、図3に示すように、マイクロホンアレイ101−1(M1)に対するI個の音響オブジェクトの到来方向を示す到来方向情報(Dm1,1,…,Dm1,I)をビームフォーミング処理部103−1及び三角測量部105に出力する。
到来方向推定部102−2は、マイクロホンアレイ101−2から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ101−2に対する音響オブジェクト信号の到来方向を推定する。例えば、到来方向推定部102−2は、図3に示すように、マイクロホンアレイ101−2(M2)に対するI個の音響オブジェクトの到来方向を示す到来方向情報(Dm2,1,…,Dm2,I)をビームフォーミング処理部103−2及び三角測量部105に出力する。
ビームフォーミング処理部103−1は、到来方向推定部102−1から入力される到来方向情報(Dm1,1,…,Dm1,I)に基づいて各到来方向へのビームを形成し、マイクロホンアレイ101−1から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部103−1は、マイクロホンアレイ101−1に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向(例えば、I個の方向)の第1音響信号(S'm1,1,…,S'm1,I)を相関確認部104及び共通成分抽出部106に出力する。
ビームフォーミング処理部103−2は、到来方向推定部102−2から入力される到来方向情報(Dm2,1,…,Dm2,I)に基づいて各到来方向へのビームを形成し、マイクロホンアレイ101−2から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部103−2は、マイクロホンアレイ101−2に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向(例えば、I個の方向)の第2音響信号(S'm2,1,…,S'm2,I)を相関確認部104及び共通成分抽出部106に出力する。
相関確認部104は、ビームフォーミング処理部103−1から入力される第1音響信号(S'm1,1,…,S'm1,I)と、ビームフォーミング処理部103−2から入力される第2音響信号(S'm2,1,…,S'm2,I)との間の相関を確認(換言すると、correlation test)する。相関確認部104は、相関の確認結果に基づいて、第1音響信号及び第2音響信号において、同一の音響オブジェクトi(i=1〜Iの何れか)の信号である組み合わせを特定する。相関確認部104は、同一の音響オブジェクトの信号である組み合わせを示す組み合わせ情報(例えば、C1,…,CI)を、三角測量部105及び共通成分抽出部106に出力する。
例えば、第1音響信号(S'm1,1,…,S'm1,I)のうち、i番目(iは1〜Iの何れかの値)の音響オブジェクトに対応する音響信号を「S'm1,ci[0]」と表す。同様に、第2音響信号(S'm2,1,…,S'm2,I)のうち、i番目(iは1〜Iの何れかの値)の音響オブジェクトに対応する音響信号を「S'm2,ci[1]」と表す。この場合、i番目の音響オブジェクトに対応する第1音響信号及び第2音響信号の組み合わせ情報Ciは{ci[0], ci[1]}で構成される。
三角測量部105は、到来方向推定部102−1から入力される到来方向情報(Dm1,1,…,Dm1,I)、到来方向推定部102−2から入力される到来方向情報(Dm2,1,…,Dm2,I)、入力されるマイクロホンアレイ間距離情報(d)、及び、相関確認部104から入力される組み合わせ情報(C1〜CI)を用いて、音響オブジェクト(例えば、I個の音響オブジェクト)の位置を算出する。三角測量部105は、算出した位置を示す位置情報(例えば、p1,…,pI)を出力する。
例えば、図3において、第1番目(i=1)の音響オブジェクトの位置p1は、マイクロホンアレイ間距離dと、マイクロホンアレイ101−1(M1)に対する第1番目の音響オブジェクト信号の到来方向Dm1,c1[0]と、マイクロホンアレイ101−2(M2)に対する第1番目の音響オブジェクト信号の到来方向Dm2,c1[1]と、を用いた三角測量(triangulation)によって算出される。他の音響オブジェクトの位置についても同様である。
共通成分抽出部106は、ビームフォーミング処理部103−1から入力される第1音響信号(S'm1,1,…,S'm1,I)及びビームフォーミング処理部103−2から入力される第2音響信号(S'm2,1,…,S'm2,I)のうち、相関確認部104から入力される組み合わせ情報(C1〜CI)に示される組み合わせの2つの音響信号から、当該2つの音響信号に共通する成分(換言すると、各音響オブジェクトに対応する共通成分を含む信号)を抽出する。共通成分抽出部106は、抽出した音響オブジェクト信号(S'1,…,S'I)を出力する。
例えば、図3において、マイクロホンアレイ101−1(M1)から第1番目(i=1)の音響オブジェクトへの方向(実線矢印)の第1音響信号には、抽出対象である第1番目の音響オブジェクト以外に、他の音響オブジェクト(図示せず)又は雑音等が混ざっている可能性がある。同様に、図3において、マイクロホンアレイ101−2(M2)から第1番目(i=1)の音響オブジェクトへの方向(破線矢印)の第2音響信号には、抽出対象である第1番目の音響オブジェクト以外に、他の音響オブジェクト(図示せず)又は雑音等が混ざっている可能性がある。なお、第1番目の音響オブジェクト以外の他の音響オブジェクトについても同様である。
共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトル(換言すると、複数の音響ビームフォーマの出力)において共通成分を抽出し、第1番目(i=1)の音響オブジェクト信号S'1を出力する。例えば、共通成分抽出部106は、後述するスペクトルゲインの乗算(換言すると、重み付け処理)によって、第1音響信号及び第2音響信号のスペクトルにおいて、抽出対象の音響オブジェクトの成分を残留させ、他の音響オブジェクト又は雑音の成分を減衰させる。
三角測量部105から出力される位置情報(p1,…,pI)、及び、共通成分抽出部106から出力される音響オブジェクト信号(S'1,…,S'I)は、例えば、音場再生装置(図示せず)に出力され、音響オブジェクトの再生(レンダリング)に用いられる。
[共通成分抽出部106の動作]
次に、図1に示す共通成分抽出部106の動作の詳細について説明する。
図4は、共通成分抽出部106の内部構成例を示すブロック図である。図4において、共通成分抽出部106は、時間−周波数変換部161−1,161−2と、分割部162−1,162−2と、類似度算出部163と、スペクトルゲイン算出部164と、乗算部165−1,165−2と、スペクトル再構成部166と、周波数−時間変換部167と、を含む構成を採る。
時間−周波数変換部161−1には、例えば、組み合わせ情報Ci(iは1〜Iの何れか)に示されるci[0]に対応する第1音響信号S'm1,ci[0](t)が入力される。時間−周波数変換部161−1は、第1音響信号S'm1,ci[0](t)(時間領域信号)を周波数領域の信号(スペクトル)に変換する。時間−周波数変換部161−1は、得られた第1音響信号のスペクトルS'm1,ci[0](k, n)を分割部162−1に出力する。
なお、kは周波数インデックス(例えば、周波数bin番号)を示し、nは時間インデックス(例えば、音響信号を所定の時間間隔でフレーミングしたときのフレーム番号)を示す。
時間−周波数変換部161−2には、例えば、組み合わせ情報Ci(iは1〜Iの何れか)に示されるci[1]に対応する第2音響信号S'm2,ci[1](t)が入力される。時間−周波数変換部161−2は、第2音響信号S'm2,ci[1](t)(時間領域信号)を周波数領域の信号(スペクトル)に変換する。時間−周波数変換部161−2は、得られた第2音響信号のスペクトルS'm2,ci[1](k, n)を分割部162−2に出力する。
なお、時間−周波数変換部161−1,161−2における時間−周波数変換処理は、例えば、フーリエ変換処理(例えば、SFFT(Short-time Fast Fourier Transform:短時間フーリエ変換))でもよく、修正離散コサイン変換(MDCT(Modified Discrete Cosine Transform))でもよい。
分割部162−1は、時間−周波数変換部161−1から入力される第1音響信号のスペクトルS'm1,ci[0](k, n)を複数の周波数区分(以下、「サブバンド」と呼ぶ)に分割する。分割部162−1は、各サブバンドに含まれる第1音響信号のスペクトルS'm1,ci[0](k, n)で構成されるサブバンドスペクトル(SBm1,ci[0](sb, n))を類似度算出部163及び乗算部165−1に出力する。
なお、sbはサブバンド番号を示す。
分割部162−2は、時間−周波数変換部161−2から入力される第2音響信号のスペクトルS'm2,ci[1](k, n)を複数のサブバンドに分割する。分割部162−2は、各サブバンドに含まれる第2音響信号のスペクトルS'm2,ci[1](k, n)で構成されるサブバンドスペクトル(SBm2,ci[1](sb, n))を類似度算出部163及び乗算部165−2に出力する。
図5は、フレーム番号nのフレームにおける、第i番目の音響オブジェクトに対応する第1音響信号のスペクトルS'm1,ci[0](k, n)及び第2音響信号のスペクトルS'm2,ci[1](k, n)を複数のサブバンドに分割する例を示す。
図5に示す各サブバンドは、4つの周波数成分(例えば、周波数bin)から成るSegmentで構成される。
具体的には、サブバンド番号sb=0のサブバンド(Segment 1)におけるサブバンドスペクトル(SBm1,ci[0](0, n)、SBm2,ci[1](0, n))は、周波数インデックスk=0〜3の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。同様に、サブバンド番号sb=1のサブバンド(Segment 2)におけるサブバンドスペクトル(SBm1,ci[0](1, n)、SBm2,ci[1](1, n))は、周波数インデックスk=3〜6の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。また、サブバンド番号sb=2のサブバンド(Segment 3)におけるサブバンドスペクトル(SBm1,ci[0](2, n)、SBm2,ci[1](2, n))は、周波数インデックスk=6〜9の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。
ここで、図5に示すように、隣接するサブバンドにそれぞれ含まれる周波数成分の一部は重複(overlap)する。例えば、サブバンド番号sb=0及びsb=1のサブバンド間では、周波数インデックスk=3のスペクトル(S'm1,ci[0](3, n)、S'm2,ci[1](3, n))が重複している。また、サブバンド番号sb=1及びsb=2のサブバンド間では、周波数インデックスk=6のスペクトル(S'm1,ci[0](6, n)、S'm2,ci[1](6, n))が重複している。
このように、隣接するサブバンド間において一部の周波数成分を重複させることにより、共通成分抽出部106は、スペクトルの合成時(再構成時)において隣接するサブバンドの両端の周波数成分を重畳加算(Overlap and Add)して、サブバンド間の接続性(連続性)を改善できる。
なお、図5に示すサブバンド構成は一例であって、サブバンド数(換言すると、分割数)、サブバンドを構成する周波数成分の数(換言すると、サブバンドサイズ)等は、図5に示す値に限定されない。また、図5では、隣接するサブバンドにおいて1つの周波数成分が重複する場合について説明したが、サブバンド間で重複する周波数成分の数は1つに限定されず、2つ以上でもよい。
また、例えば、サブバンドサイズ(又はサブバンド幅)を奇数個の周波数成分(サンプル)とし、奇数個の周波数成分のうち中心の周波数成分を1.0とする左右対称窓をサブバンドスペクトルに乗算したものを上記サブバンドと定義してもよい。
または、サブバンド幅(例えば、周波数成分の数)を2n+1とし、例えば、サブバンド内の0〜n−1の周波数成分及びn+1〜2nの周波数成分を隣接サブバンドと重複する範囲とし、隣接するサブバンドは1周波数成分ずつずらしたものとしてもよい。また、各サブバンドで算出されるゲインはn成分(換言すると、中心の周波数成分)のみに乗算される。すなわち、各サブバンドにおける0〜n−1及びn+1〜2nの周波数成分に対するゲインは、対応する他のサブバンド(換言すると、各周波数成分が中心に位置するサブバンド)から算出される。この場合、隣接サブバンドと重複する範囲のスペクトルはゲイン算出にのみ用いられ、スペクトルの再構成時の重畳加算は必要なくなる。
また、サブバンド間で重複する周波数成分の数は、例えば、入力信号の特徴等に応じて可変に設定されてもよい。
図4において、類似度算出部163は、分割部162−1から入力される第1音響信号のサブバンドスペクトルと、分割部162−2から入力される第2音響信号のサブバンドスペクトルとの類似度を算出する。類似度算出部163は、サブバンド毎に算出した類似度を示す類似度情報をスペクトルゲイン算出部164に出力する。
例えば、図5では、類似度算出部163は、サブバンド番号sb=0のサブバンドにおいて、サブバンドスペクトルSBm1,ci[0](0, n)と、サブバンドスペクトルSBm2,ci[1](0, n)との類似度を算出する。換言すると、類似度算出部163は、サブバンド番号sb=0のサブバンドでは、第1音響信号の4つのスペクトルS'm1,ci[0](0, n)、S'm1,ci[0](1, n)、S'm1,ci[0](2, n)及びS'm1,ci[0](3, n)によって構成されるスペクトル形状(換言すると、ベクトル成分)と、第2音響信号の4つのスペクトルS'm2,ci[1](0, n)、S'm2,ci[1](1, n)、S'm2,ci[1](2, n)及びS'm2,ci[1](3, n)によって構成されるスペクトル形状(換言すると、ベクトル成分)と、の類似度を算出する。
類似度算出部163は、サブバンド番号sb=1及び2のサブバンドについても同様にして類似度をそれぞれ算出する。このように、類似度算出部163は、第1音響信号及び第2音響信号のスペクトルを分割した複数のサブバンド毎に類似度を算出する。
類似度の一例は、第1音響信号のサブバンドスペクトルと第2音響信号のサブバンドスペクトルとのエルミート角(Hermitian Angle)である。例えば、各サブバンドにおける、第1音響信号のサブバンドスペクトル(複素スペクトル)を「s1」と表し、第2音響信号のサブバンドスペクトル(複素スペクトル)を「s2」と表す。この場合、エルミート角θHは、次式で表される。
Figure 2020066542
例えば、エルミート角θHが小さいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は高く、エルミート角θHが大きいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は低い。
また、類似度の他の例は、サブバンドスペクトルs1及びs2の正規化相互相関(例えば、||s1 *s2|/(||s1||・||s2||)|)である。例えば、正規化相互相関の値が大きいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は高く、正規化相互相関の値が小さいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は低い。
なお、類似度は、エルミート角及び正規化相互相関に限定されず、他のパラメータでもよい。
図4において、スペクトルゲイン算出部164は、例えば、重み付け関数(又は変換関数)に基づいて、類似度算出部163から入力される類似度情報に示される類似度(例えば、エルミート角θH又は正規化相互相関)をスペクトルゲイン(換言すると、重み付け係数)に変換する。スペクトルゲイン算出部164は、サブバンド毎に算出されるスペクトルゲインGain(sb, n)を乗算部165−1,165−2に出力する。
乗算部165−1は、分割部162−1から入力される第1音響信号のサブバンドスペクトルSBm1,ci[0](sb, n)に、スペクトルゲイン算出部164から入力されるスペクトルゲインGain(sb, n)を乗算し(重み付けし)、乗算後のサブバンドスペクトルSB'm1,ci[0](sb, n)をスペクトル再構成部166に出力する。
乗算部165−2は、分割部162−2から入力される第2音響信号のサブバンドスペクトルSBm2,ci[1](sb, n)に、スペクトルゲイン算出部164から入力されるスペクトルゲインGain(sb, n)を乗算し(重み付けし)、乗算後のサブバンドスペクトルSB'm2,ci[1](sb, n)をスペクトル再構成部166に出力する。
例えば、スペクトルゲイン算出部164は、変換関数f(θH)=cosxH)を用いて、類似度(例えば、エルミート角)をスペクトルゲインに変換してもよい。または、スペクトルゲイン算出部164は、変換関数f(θH)=exp(-θH 2/2σ2)を用いて、類似度(例えば、エルミート角)をスペクトルゲインに変換してもよい。
例えば、図6に示すように、変換関数f(θH)=cosxH)においてx=10(すなわち、cos10H))の場合の特性と、変換関数f(θH)=exp(-θH 2/2σ2)においてσ=0.3の場合の特性とはほぼ同様の特性となる。なお、変換関数f(θH)=cosxH)におけるxの値は10に限定されず、他の値でもよい。また、変換関数f(θH)=exp(-θH 2/2σ2)におけるσの値は0.3に限定されず、他の値でもよい。
図6に示すように、エルミート角θHが小さいほど(類似度が高いほど)、スペクトルゲイン(gain value)は高くなり(例えば、1に近づき)、エルミート角θHが大きいほど(類似度が低いほど)、スペクトルゲインは低くなる(例えば、0に近づく)。
よって、共通成分抽出部106は、類似度が高いサブバンドほど、高い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトル成分を残留させ、類似度が低いサブバンドほど、低い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトルを減衰させる。これにより、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルにおける共通成分を抽出する。
なお、変換関数f(θH)=cosxH)ではxの値が大きいほど、又は、変換関数f(θH)=exp(-θH 2/2σ2)ではσの値が小さいほど、変換係数f(θH)の勾配が急になる。換言すると、θHが0から離れる距離(θHの変化量)が同じであれば、xの値が大きいほど又はσの値が小さいほど、変換係数f(θH)はより0に近くなり、サブバンドスペクトルは減衰されやすくなる。よって、xの値が大きいほど又はσの値が小さいほど、例えば、類似度が少しでも低くなると、スペクトルゲインが急速に小さくなり、対応するサブバンドの信号成分の減衰度合いがより大きくなる。
例えば、xの値が大きい場合又はσの値が小さい場合(変換関数の勾配が急になる場合)、サブバンドスペクトルにおいて少しでもターゲット以外の信号が混入していれば、類似度が低くなり、当該サブバンドスペクトルに対する減衰度合いは強くなる。よって、xの値が大きい場合又はσの値が小さい場合には、ターゲットとなる音響オブジェクト信号の抽出よりも、ターゲット以外の信号(例えば、雑音等)の減衰を優先的に行うことができる。
一方、xの値が小さい場合又はσの値が大きい場合(変換関数の勾配が緩い場合)、サブバンドスペクトルにターゲット以外の信号が混入していると、類似度は低くなるものの、当該サブバンドスペクトルに対する減衰度合いは弱くなる。よって、xの値が小さい場合又はσの値が大きい場合には、雑音等を減衰させることよりも、ターゲットとなる音響オブジェクト信号の保護を優先的に行うことができる。
このように、x又はσの値に応じて、抽出対象となる音響オブジェクトの信号成分の保護と、抽出対象以外の信号成分の低減との間にはトレードオフの関係がある。よって、共通成分抽出部106は、x又はσの値(換言すると変換関数の勾配を調整するパラメータ)を可変とし、適応的に制御することにより、例えば、抽出対象となる音響オブジェクト以外の信号成分の残留度合いを制御できる。
また、ここでは、類似度情報がエルミート角を示す場合について説明したが、類似度情報が正規化相互相関を示す場合についても同様に変換関数を適用してもよい。すなわち、共通成分抽出部106は、正規化相互相関C12=||s1 *s2|/(||s1||・||s2||)|として、変換関数f(C12)=(C12))を用いてもよい。
図4において、スペクトル再構成部166は、乗算部165−1から入力されるサブバンドスペクトルSB'm1,ci[0](sb, n)及び乗算部165−2から入力されるサブバンドスペクトルSB'm1,ci[1](sb, n)を用いて、音響オブジェクト(i番目のオブジェクト)の複素フーリエスペクトルを再構成し、得られた複素フーリエスペクトルS'i(k, n)を周波数−時間変換部167に出力する。
周波数−時間変換部167は、スペクトル再構成部166から入力される音響オブジェクトの複素フーリエスペクトルS'i(k, n)(周波数領域信号)を時間領域信号に変換する。周波数−時間変換部167は、得られた音響オブジェクト信号S'i(t)を出力する。
なお、周波数−時間変換部167における周波数−時間変換処理は、例えば、逆フーリエ変換処理(例えば、ISFFT(Inverse SFFT))でもよく、逆修正離散コサイン変換(IMDCT(Inverse MDCT))でもよい。
以上、共通成分抽出部106における動作について説明した。
このように、音響オブジェクト抽出装置100において、ビームフォーミング処理部103−1,103−2は、マイクロホンアレイ101−1に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1音響信号を生成し、マイクロホンアレイ101−2に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2音響信号を生成し、共通成分抽出部106は、第1音響信号のスペクトルと第2音響信号のスペクトルとの類似度に基づいて、第1音響信号及び第2音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。この際、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルを複数のサブバンドに分割し、サブバンド毎に類似度を算出する。
これにより、音響オブジェクト抽出装置100は、複数のビームによって得られる音響信号のスペクトルのうちのサブバンド単位のスペクトル形状に基づいて、複数のビームフォーマによって生成された音響信号から、音響オブジェクトに対応する共通成分を抽出できる。換言すると、音響オブジェクト抽出装置100は、スペクトルの微細構造を考慮した類似度に基づいて、共通成分の抽出をできる。
例えば、本実施の形態において、上述したように、図5では類似度が算出される単位は、4個の周波数成分を含むサブバンド単位である。よって、図5では、音響オブジェクト抽出装置100は、4個の周波数成分から構成される微小バンド内のスペクトル形状の類似度を算出し、スペクトル形状の類似度に応じてスペクトルゲインを算出する。
一方で、仮に、類似度を算出する単位が1つの周波数成分単位である場合(例えば、特許文献1を参照)、スペクトルゲインは、各周波数成分におけるスペクトルの振幅比に基づいて算出されることになる。1つの周波数成分同士での正規化相互相関は常に1.0となり、類似度を測る上では意味がない。このため、例えば、特許文献1ではクロススペクトルをビームフォーマ出力信号のパワースペクトルで正規化している。つまり、特許文献1では、2つのビームフォーマ出力信号の振幅比に相当するスペクトルゲインが算出される。
本実施の形態では、各周波数成分における振幅差(又は、振幅比)ではなく、各周波数成分におけるスペクトル形状の差(又は、類似度)に基づく抽出方法を用いる。これにより、音響オブジェクト抽出装置100は、特定の周波数成分が同じ振幅である2つの音が入力された場合でも、スペクトル形状が似ていない場合には、ターゲットとなるオブジェクト音とは異なると判断できるので、音響オブジェクト音の抽出性能を向上することができる。
これに対して、類似度を算出する単位が1つの周波数成分単位である場合には、ターゲットとなる音響オブジェクト音と、ターゲット以外の他の音との違いに関する情報は、当該1つの周波数成分における振幅の大きさの差しか得られない。
例えば、2つのビームフォーマ出力におけるターゲットとしている音響オブジェクト音ではない互いに異なる2つの音の信号レベル比が、ターゲットの位置から到来する音の信号レベル比と同様のケースでは、これらの振幅比が同様になる。このため、ターゲットの位置から到来した音であるのか、同様の振幅比となる異なる位置から到来した音であるのか、を区別して取り扱うことができない。
この場合、仮に、類似度を算出する単位が1つの周波数成分単位である場合には、ターゲットではない音の周波数成分が、ターゲットとしている音響オブジェクト音の周波数成分として抽出されてしまい、真にターゲットとしている音響オブジェクト音の位置の周波数成分として混入してしまうことになる。
これに対して、本実施の形態では、音響オブジェクト抽出装置100は、サブバンドを構成する複数(例えば、4つ)のスペクトル全体のスペクトル形状が一致しないと低い類似度を算出する。このため、音響オブジェクト抽出装置100では、スペクトル形状が一致する部分と一致しない部分とで算出されるスペクトルゲインの値に差がつきやすくなり、共通する周波数成分(換言すると、類似する周波数成分)がより強調される(残る)ようになる。よって、音響オブジェクト抽出装置100では、前述のケースにおいてもターゲットと異なる音と、ターゲットとしている音響オブジェクト音とを区別できる可能性が高くなる。
このように、本実施の形態では、音響オブジェクト抽出装置100は、サブバンド単位、換言すると、微細スペクトル形状の単位で共通成分の抽出を行うので、特定の周波数成分においてターゲットとなる音響オブジェクト音と、ターゲットとは異なる音との区別をつけられずにターゲットではない音の周波数成分がターゲットとする音響オブジェクト音に混入してしまうことを回避できる。よって、本実施の形態によれば、音響オブジェクト音の抽出性能を向上することができる。
例えば、音響オブジェクト抽出装置100では、入力信号のサンプリング周波数等の特徴に応じて、サブバンドのサイズ(換言すると、スペクトル形状の類似度を算出するバンド幅)を適切に設定することにより、主観品質の改善を図ることができる。
また、本実施の形態では、音響オブジェクト抽出装置100は、類似度からスペクトルゲインを変換する変換関数として非線形関数(例えば、図6を参照)を用いる。このとき、音響オブジェクト抽出装置100は、変換関数の勾配を調整するパラメータ(例えば、上述したx又はσの値)を設定することにより、変換関数の勾配(換言すると、雑音成分などの残留度合い)を制御できる。
これにより、本実施の形態では、例えば、類似度が少しでも小さくなるとスペクトルゲインが急速に小さくなるように(変換関数の勾配が急になるように)、パラメータ(例えばx又はσの値)を調整することにより、ターゲット信号以外の信号を大きく減衰できるので,ターゲット以外の信号成分をノイズとした場合のSN比を改善できる。
以上、本開示の実施の形態について説明した。
なお、上記実施の形態では、共通成分抽出部106において共通成分の抽出処理の対象となる第1音響信号及び第2音響信号の組み合わせについて、組み合わせ情報Ci(例えば、ci[0]及びci[1])を用いる場合について説明した。しかし、第1音響信号及び第2音響信号において同一の音響オブジェクトに対応する信号の組み合わせ(対応付け)は、組み合わせ情報Ciを用いる方法以外の他の方法によって特定されてもよい。例えば、ビームフォーミング処理部103−1及びビームフォーミング処理部103−2の双方において、複数の音響オブジェクトのそれぞれに対応する順に音響信号がソーティングされてもよい。これにより、ビームフォーミング処理部103−1及びビームフォーミング処理部103−2からは、同一の音響オブジェクトに対応した順に、第1音響信号及び第2音響信号がそれぞれ出力される。この場合、共通成分抽出部106は、ビームフォーミング処理部103−1及びビームフォーミング処理部103−2から出力される音響信号の順に、共通成分の抽出処理を行えばよい。よって、この場合、組み合わせ情報Ciは不要である。
また、上記実施の形態では、音響オブジェクト抽出装置100がマイクロホンアレイを2つ備える場合について説明したが、音響オブジェクト抽出装置100はマイクロホンアレイを3つ以上備えてもよい。
また、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
通信には、セルラーシステム、無線LANシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサ等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサが含まれる。
また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
本開示の実施例に係る音響オブジェクト抽出装置は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。
本開示の実施例に係る音響オブジェクト抽出装置において、隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する。
本開示の実施例に係る音響オブジェクト抽出装置において、前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第1の音響信号のスペクトル及び前記第2の音響信号のスペクトルにそれぞれ乗算し、前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である。
本開示の実施例に係る音響オブジェクト抽出方法は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。
2018年9月26日出願の特願2018−180688の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本開示の一実施例は、音場ナビゲーションシステムに有用である。
100 音響オブジェクト抽出装置
101−1,101−2 マイクロホンアレイ
102−1,102−2 到来方向推定部
103−1,103−2 ビームフォーミング処理部
104 相関確認部
105 三角測量部
106 共通成分抽出部
161−1,161−2 時間−周波数変換部
162−1,162−2 分割部
163 類似度算出部
164 スペクトルゲイン算出部
165−1,165−2 乗算部
166 スペクトル再構成部
167 周波数−時間変換部

Claims (4)

  1. 第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、
    前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、
    を具備し、
    前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する、
    音響オブジェクト抽出装置。
  2. 隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する、
    請求項1に記載の音響オブジェクト抽出装置。
  3. 前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第1の音響信号のスペクトル及び前記第2の音響信号のスペクトルにそれぞれ乗算し、
    前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である、
    請求項1に記載の音響オブジェクト抽出装置。
  4. 第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、
    前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、
    前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される、
    音響オブジェクト抽出方法。
JP2020548325A 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法 Active JP7405758B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018180688 2018-09-26
JP2018180688 2018-09-26
PCT/JP2019/035099 WO2020066542A1 (ja) 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Publications (2)

Publication Number Publication Date
JPWO2020066542A1 true JPWO2020066542A1 (ja) 2021-09-16
JP7405758B2 JP7405758B2 (ja) 2023-12-26

Family

ID=69953426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020548325A Active JP7405758B2 (ja) 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Country Status (4)

Country Link
US (1) US11488573B2 (ja)
EP (1) EP3860148B1 (ja)
JP (1) JP7405758B2 (ja)
WO (1) WO2020066542A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113311391A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3548706B2 (ja) * 2000-01-18 2004-07-28 日本電信電話株式会社 ゾーン別収音装置
JP3879559B2 (ja) 2002-03-27 2007-02-14 ソニー株式会社 ステレオマイクロホン装置
JP4247037B2 (ja) 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
JP4473829B2 (ja) 2006-02-28 2010-06-02 日本電信電話株式会社 収音装置、プログラム及びこれを記録した記録媒体
WO2012072787A1 (en) 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatially selective sound acquisition by acoustic triangulation
JP6065030B2 (ja) 2015-01-05 2017-01-25 沖電気工業株式会社 収音装置、プログラム及び方法
JP6540730B2 (ja) 2017-02-17 2019-07-10 沖電気工業株式会社 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP6834715B2 (ja) 2017-04-05 2021-02-24 富士通株式会社 更新処理プログラム、装置、及び方法

Also Published As

Publication number Publication date
EP3860148A1 (en) 2021-08-04
US11488573B2 (en) 2022-11-01
WO2020066542A1 (ja) 2020-04-02
EP3860148B1 (en) 2023-11-01
EP3860148A4 (en) 2021-11-17
JP7405758B2 (ja) 2023-12-26
US20210183356A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP6526083B2 (ja) 源信号分離のためのシステム及び方法
US10382849B2 (en) Spatial audio processing apparatus
CN103426435B (zh) 具有移动约束的通过独立分量分析的源分离
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN109791769A (zh) 使用自适应捕捉从麦克风阵列生成空间音频信号格式
JP5123595B2 (ja) 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
JP6987075B2 (ja) オーディオ源分離
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN112992121B (zh) 基于注意力残差学习的语音增强方法
JP5443547B2 (ja) 信号処理装置
JP7405758B2 (ja) 音響オブジェクト抽出装置及び音響オブジェクト抽出方法
Georgiou et al. Incorporating directivity in the Fourier pseudospectral time-domain method using spherical harmonics
CN111505569B (zh) 声源定位方法以及相关设备、装置
US11942097B2 (en) Multichannel audio encode and decode using directional metadata
Dehghan Firoozabadi et al. A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers
Biswas et al. FPGA based dual microphone speech enhancement
TW201506915A (zh) 針對空間中多音源進行萃取出單一音源的方法及裝置
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
CN116887129A (zh) 音频处理方法、装置、芯片、模组设备及存储介质
Khalil et al. Efficient speaker identification from speech transmitted over Bluetooth based system
CN117437930A (zh) 用于多通道语音信号的处理方法、装置、设备和存储介质
CN117388796A (zh) 一种基于多相滤波器的多声源高精度定位方法及系统
CN116881690A (zh) 一种基于球谐域信号增强网络模型的声源定位方法
Pan et al. Spatial soundfield recording using compressed sensing techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231214

R150 Certificate of patent or registration of utility model

Ref document number: 7405758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150