JPWO2018203471A1 - 符号化装置及び符号化方法 - Google Patents

符号化装置及び符号化方法 Download PDF

Info

Publication number
JPWO2018203471A1
JPWO2018203471A1 JP2019515692A JP2019515692A JPWO2018203471A1 JP WO2018203471 A1 JPWO2018203471 A1 JP WO2018203471A1 JP 2019515692 A JP2019515692 A JP 2019515692A JP 2019515692 A JP2019515692 A JP 2019515692A JP WO2018203471 A1 JPWO2018203471 A1 JP WO2018203471A1
Authority
JP
Japan
Prior art keywords
sound source
signal
sparse
sound field
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019515692A
Other languages
English (en)
Other versions
JP6811312B2 (ja
Inventor
江原 宏幸
宏幸 江原
明久 川村
明久 川村
カイ ウ
カイ ウ
スリカンス ナギセティ
スリカンス ナギセティ
スア ホン ネオ
スア ホン ネオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2018203471A1 publication Critical patent/JPWO2018203471A1/ja
Application granted granted Critical
Publication of JP6811312B2 publication Critical patent/JP6811312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音源推定部(101)は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、スパース音場分解部(102)は、空間のうちの音源が存在すると推定された第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、第1の粒度でスパース音場分解処理を行って、音響信号を音源信号と環境雑音信号とに分解する。【選択図】図2

Description

本開示は、符号化装置及び符号化方法に関する。
波面合成符号化技術として、波面合成符号化を時空間周波数領域で行う方法が提案されている(例えば、特許文献1を参照)。
また、立体音響に対して主要音源成分と環境音成分とに分離符号化する高能率符号化のモデル(例えば、特許文献2を参照)を波面合成に適用し、スパース音場分解(sparse sound field decomposition)を用いて、マイクロホンアレイで観測される音響信号を、少数の点音源(monopole source)と点音源以外の残差成分とに分離して波面合成を行う方法が提案されている(例えば、特許文献3を参照)。
米国特許第8,219,409号明細書 特表2015−537256号公報 特開2015−171111号公報
M. Cobos, A. Marti, and J. J. Lopez. "A modified SRP-PHAT functional for robust real-time sound source localization with scalable spatial sampling." IEEE Signal Processing Letters 18.1 (2011): 71-74 Koyama, Shoichi, et al. "Analytical approach to wave field reconstruction filtering in spatio-temporal frequency domain." IEEE Transactions on Audio, Speech, and Language Processing 21.4 (2013): 685-696
しかしながら、特許文献1では、音場情報を全て符号化するため、演算量が膨大となる。また、特許文献3では、スパース分解を用いて点音源を抽出する際に、分析対象となる空間内の点音源が存在し得る全ての位置(格子点(grig point))を用いた行列演算が必要となり、演算量が膨大となる。
本開示の一態様は、低演算量で音場のスパース分解を行うことができる符号化装置及び符号化方法の提供に資する。
本開示の一態様に係る符号化装置は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定する推定回路と、前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、を具備する構成を採る。
本開示の一態様に係る符号化方法は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の一態様によれば、低演算量で音場のスパース分解を行うことができる。
本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
実施の形態1に係る符号化装置の一部の構成例を示すブロック図 実施の形態1に係る符号化装置の構成例を示すブロック図 実施の形態1に係る復号装置の構成例を示すブロック図 実施の形態1に係る符号化装置の処理の流れを示すフロー図 実施の形態1に係る音源推定処理及びスパース音場分解処理の説明に供する図 実施の形態1に係る音源推定処理の説明に供する図 実施の形態1に係るスパース音場分解処理の説明に供する図 音場の空間全てに対してスパース音場分解処理を行う場合の説明に供する図 実施の形態2に係る符号化装置の構成例を示すブロック図 実施の形態2に係る復号装置の構成例を示すブロック図 実施の形態3に係る符号化装置の構成例を示すブロック図 実施の形態4の方法1に係る符号化装置の構成例を示すブロック図 実施の形態4の方法2に係る符号化装置の構成例を示すブロック図 実施の形態4の方法2に係る復号装置の構成例を示すブロック図
以下、本開示の実施の形態について図面を参照して詳細に説明する。
なお、以下では、符号化装置において、スパース分解を用いて点音源を抽出する際の分析対象となる空間(音場)内の点音源が存在する可能性のある位置を表す格子点数を「N」個とする。
また、符号化装置は、「M」個のマイクロホンを含むマイクロホンアレイを備える(図示せず)。
また、各マイクロホンで観測される音響信号を「y」(∈CM)と表す。また、音響信号yに含まれる、各格子点における音源信号成分(モノポール音源成分の分布)を「x」(∈CN)と表し、音源信号成分以外の残りの成分である環境雑音信号(残差成分)を「h」(∈CM)と表す。
すなわち、次式(1)に示すように、音響信号yは、音源信号xと環境雑音信号hとで表される。すなわち、符号化装置は、スパース音場分解において、マイクロホンアレイで観測される音響信号yを、音源信号xと環境雑音信号hとに分解する。
Figure 2018203471
なお、D(∈CM×N)は、各マイクロホンアレイと各格子点との間の伝達関数(例えば、グリーン関数)を要素とするM×Nの行列(dictionary matrix)である。行列Dは、例えば、符号化装置において、各マイクロホンと各格子点との位置関係に基づいて、少なくともスパース音場分解の前に求められていればよい。
ここで、スパース音場分解の対象となる空間において、ほとんどの格子点における音源信号成分xがゼロとなり、少数の格子点の音源信号成分xが非ゼロとなる特性(スパース性。sparsity constraint)を仮定する。例えば、スパース音場分解では、スパース性を利用して、次式(2)で示される基準を満たす音源信号成分xを得る。
Figure 2018203471
関数Jp,q(x)は、音源信号成分xのスパース性を生じさせるためのペナルティ関数を示し、λは、ペナルティと近似誤差とのバランスを取るパラメータである。
なお、本開示におけるスパース音場分解の具体的な処理については、例えば、特許文献3に示された方法を用いて行われればよい。ただし、本開示において、スパース音場分解の方法は、特許文献3に示された方法に限定されず、他の方法でもよい。
ここで、スパース音場分解アルゴリズム(例えば、M−FOCUSS/G−FOCUSS又は最小ノルム解に基づく分解など)では、分析対象となる空間内の全ての格子点を用いた行列演算(逆行列など複素行列演算)が必要となるため、点音源を抽出する場合には演算量が膨大になってしまう。特に、格子点の個数Nが多くなるほど、式(1)に示す音源信号成分xのベクトルの次元が大きくなり、演算量がより大きくなってしまう。
そこで、本開示の各実施の形態では、スパース音場分解の低演算量化を図る方法について説明する。
(実施の形態1)
[通信システムの概要]
本実施の形態に係る通信システムは、符号化装置(encoder)100及び復号装置(decoder)200を備える。
図1は、本開示の各実施の形態に係る符号化装置100の一部の構成を示すブロック図である。図1に示す符号化装置100において、音源推定部101は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、スパース音場分解部102は、空間のうちの音源が存在すると推定された第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、第1の粒度でスパース音場分解処理を行って、音響信号を音源信号と環境雑音信号とに分解する。
[符号化装置の構成]
図2は、本実施の形態に係る符号化装置100の構成例を示すブロック図である。図2において、符号化装置100は、音源推定部101と、スパース音場分解部102と、オブジェクト符号化部103と、空間時間フーリエ変換部104と、量子化器105と、を含む構成を採る。
図2において、符号化装置100のマイクロホンアレイ(図示せず)から音響信号yが音源推定部101及びスパース音場分解部102に入力される。
音源推定部101は、入力される音響信号yを分析(音源推定)して、音場(分析対象となる空間)の中から音源の存在するエリア(音源が存在する確率の高いエリア)(格子点のセット)を推定する。例えば、音源推定部101は、非特許文献1に示されたビームフォーミング(BF)を用いた音源推定方法を用いてもよい。また、音源推定部101は、スパース音場分解の分析対象となる空間におけるN個の格子点よりも粗い格子点(つまり、少ない格子点)での音源推定を行い、音源の存在する確率の高い格子点(及びその周囲)を選択する。音源推定部101は、推定したエリア(格子点のセット)を示す情報をスパース音場分解部102に出力する。
スパース音場分解部102は、スパース音場分解の分析対象となる空間のうち、音源推定部101から入力される情報に示される、音源が存在すると推定されたエリア内において、入力される音響信号に対してスパース音場分解を行って、音響信号を音源信号xと、環境雑音信号hとに分解する。スパース音場分解部102は、音源信号成分(monopole sources(near field))をオブジェクト符号化部103に出力し、環境雑音信号成分(ambience(far field))を空間時間フーリエ変換部104に出力する。また、スパース音場分解部102は、音源信号の位置(source location)を示す格子点情報をオブジェクト符号化部103に出力する。
オブジェクト符号化部103は、スパース音場分解部102から入力される音源信号及び格子点情報を符号化し、符号化結果をオブジェクトデータ(object signal)とメタデータのセットとして出力する。例えば、オブジェクトデータ及びメタデータは、オブジェクト符号化ビットストリーム(object bitstream)を構成する。なお、オブジェクト符号化部103において、音響信号成分xの符号化には既存の音響符号化方法を用いればよい。また、メタデータには、例えば、音源信号に対応する格子点の位置を表す格子点情報等が含まれる。
空間時間フーリエ変換部104は、スパース音場分解部102から入力される環境雑音信号に対して空間時間フーリエ変換を行い、空間時間フーリエ変換後の環境雑音信号(空間時間フーリエ係数、二次元フーリエ係数)を量子化器105に出力する。例えば、空間時間フーリエ変換部104は、特許文献1に示された二次元フーリエ変換を用いてもよい。
量子化器105は、空間時間フーリエ変換部104から入力される空間時間フーリエ係数を量子化及び符号化して、環境雑音符号化ビットストリーム(bitstream for ambience)として出力する。例えば、量子化器105において、特許文献1に示された量子化符号化方法(例えば、心理音響モデル(psycho-acoustic model))を用いてもよい。
なお、空間時間フーリエ変換部104及び量子化器105は、環境雑音符号化部と呼ばれてもよい。
オブジェクト符号化ビットストリーム及び環境雑音ビットストリームは、例えば、多重されて復号装置200へ送信される(図示せず)。
[復号装置の構成]
図3は、本実施の形態に係る復号装置200の構成を示すブロック図である。図3において、復号装置200は、オブジェクト復号部201と、波面合成部202と、環境雑音復号部(逆量子化器)203と、波面再合成フィルタ(Wavefield reconstruction filter)204と、逆空間時間フーリエ変換部205と、窓かけ部206と、加算部207と、を含む構成を採る。
図3において、復号装置200は、複数のスピーカから構成されるスピーカアレイを備える(図示せず)。また、復号装置200は、図2に示す符号化装置100からの信号を受信し、受信信号をオブジェクト符号化ビットストリーム(object bitstream)と環境雑音符号化ビットストリーム(ambience bitstream)とに分離する(図示せず)。
オブジェクト復号部201は、入力されるオブジェクト符号化ビットストリームを復号して、オブジェクト信号(音源信号成分)とメタデータとに分離し、波面合成部202に出力する。なお、オブジェクト復号部201は、図2に示す符号化装置100のオブジェクト符号化部103で用いた符号化方法の逆の処理により復号処理を行えばよい。
波面合成部202は、オブジェクト復号部201から入力されるオブジェクト信号、メタデータ、及び、別途入力又は設定されているスピーカ配置情報(loudspeaker configuration)を用いて、スピーカアレイの各スピーカからの出力信号を求め、求めた出力信号を加算器207に出力する。なお、波面合成部202における出力信号の生成方法は、例えば、特許文献3に示されている方法を用いてもよい。
環境雑音復号部203は、環境雑音符号化ビットストリームに含まれる二次元フーリエ係数を復号して、復号された環境雑音信号成分(ambience。例えば、二次元フーリエ係数)を波面再合成フィルタ204に出力する。なお、環境雑音復号部203は、図2に示す符号化装置100の量子化器105における符号化処理と逆の処理により復号処理を行えばよい。
波面再合成フィルタ204は、環境雑音復号部203から入力される環境雑音信号成分、及び、別途入力又は設定されているスピーカ配置情報(loudspeaker configuration)を用いて、符号化装置100のマイクロホンアレイで集音された音響信号を復号装置200のスピーカアレイから出力するべき信号に変換し、変換された信号を逆空間時間フーリエ変換部205に出力する。なお、波面再合成フィルタ204における出力信号の生成方法は、例えば、特許文献3に示されている方法を用いてもよい。
逆空間時間フーリエ変換部205は、波面再合成フィルタ204から入力される信号に対して逆空間時間フーリエ変換(Inverse space-time Fourier transform)を行い、スピーカアレイの各スピーカから出力されるべき時間信号(環境雑音信号)に変換する。逆空間時間フーリエ変換部205は、時間信号を窓かけ部206に出力する。なお、逆空間時間フーリエ変換部205における変換処理は、例えば、特許文献1に示されている方法を用いてもよい。
窓かけ部206は、逆空間時間フーリエ変換部205から入力される、各スピーカから出力されるべき時間信号(環境雑音信号)に対して窓かけ処理(Tapering windowing)を施して、フレーム間の信号をスムーズに接続する。窓かけ部206は、窓かけ処理後の信号を加算器207に出力する。
加算器207は、波面合成部202から入力される音源信号と、窓かけ部206から入力される環境雑音信号とを加算し、加算信号を最終的な復号信号として各スピーカに出力する。
[符号化装置100の動作]
以上の構成を有する符号化装置100における動作について詳細に説明する。
図4は、本実施の形態に係る符号化装置100の処理の流れを示すフロー図である。
まず、符号化装置100において、音源推定部101は、例えば、非特許文献1に示されたビームフォーミングに基づく方法を用いて、音場の中の音源が存在するエリアを推定する(ST101)。この際、音源推定部101は、スパース分解の分析対象となる空間において、スパース音場分解時に音源が存在すると仮定する格子点(位置)の粒度よりも粗い粒度で、音源が存在するエリア(coarse area)を推定(特定)する。
図5は、スパース分解の分析対象となる各格子点(つまり、音源信号成分xに対応)からなる空間S(surveillance enclosure)(つまり、音場の観測エリア)の一例を示す。なお、図5では空間Sを二次元で表すが実際の空間は三次元でもよい。
スパース音場分解は、図5に示す各格子点を単位として音響信号yを音源信号xと環境雑音信号hとに分離する。これに対して、図5に示すように、音源推定部101のビームフォーミングによる音源推定の対象となるエリア(coarse area)は、スパース分解の格子点よりも粗いエリアで表される。つまり、音源推定の対象となるエリアは、スパース音場分解の複数の格子点によって表される。換言すると、音源推定部101は、スパース音場分解部102が音源信号xを抽出する粒度よりも粗い粒度で音源の存在する位置を推定する。
図6は、音源推定部101が図5に示す空間Sにおいて音源が存在するエリアとして特定したエリア(identified coarse areas)の一例を示す。図6では、例えば、S23及びS35のエリア(coarse area)のエネルギが他のエリアのエネルギよりも高くなっているとする。この場合、音源推定部101は、音源(source object)が存在するエリアのセットSsubとして、S23及びS35を特定する。
次に、スパース音場分解部102は、音源推定部101で音源が存在すると推定されたエリア内の格子点についてスパース音場分解を行う(ST102)。例えば、音源推定部101において図6に示すエリア(Ssub=[S23,S35])が特定された場合、スパース音場分解部102は、図7に示すように、特定されたエリア(Ssub=[S23,S35])内におけるスパース音場分解の格子点についてスパース音場分解を行う。
例えば、音場推定部101で特定されたエリアSsub内の複数の格子点に対応する音源信号xを「xsub」と表し、行列D(M×N)のうち、Ssub内の複数の格子点と符号化装置100の複数のマイクロホンとの関係に対応する要素からなる行列を「Dsub」と表す。
この場合、スパース音場分解部102は、次式(3)のように、各マイクロホンで観測された音響信号yを、音源信号xsubと環境雑音信号hとに分解する。
Figure 2018203471
そして、符号化装置100(オブジェクト符号化部103、空間時間フーリエ変換部104、量子化部105)は、音源信号xsub及び環境雑音信号hを符号化し(ST103)、得られたビットストリーム(オブジェクト符号化ビットストリーム、環境雑音符号化ビットストリーム)を出力する(ST104)。これらの信号は復号装置200側へ送信される。
このように、本実施の形態では、符号化装置100において、音源推定部101は、スパース音場分解の対象となる空間において、スパース音場分解において音源が存在すると仮定する位置を示す格子点の粒度(第1の粒度)よりも粗い粒度(第2の粒度)で、音源が存在するエリアを推定する。そして、スパース音場分解部102は、空間のうちの音源が存在すると推定された、上記第2の粒度のエリア(coarse area)内において、マイクロホンアレイで観測される音響信号yに対して、上記第1の粒度でスパース音場分解処理を行って、音響信号yを音源信号xと環境雑音信号hとに分解する。
すなわち、符号化装置100は、音源が存在する確率の高いエリアを予備的に探索し、スパース音場分解の分析対象を、探索されたエリアに限定する。換言すると、符号化装置100は、スパース音場分解の適用範囲を、全ての格子点のうち、音源が存在する周辺の格子点に限定する。
上述したように、音場内に存在する音源は少数であることが仮定される。これにより、符号化装置100では、スパース音場分解の分析対象のエリアがより狭いエリアに限定されるので、全ての格子点についてスパース音場分解処理を行う場合と比較して、スパース音場分解処理の演算量を大幅に削減することができる。
例えば、図8は、全ての格子点に対してスパース音場分解を行う場合の様子を示す。図8では、図6と同様の位置に2つの音源が存在している。図8では、例えば、特許文献3に示される方法のように、スパース音場分解において、分析対象となる空間内の全ての格子点を用いた行列演算が必要となる。これに対して、図7に示すように、本実施の形態のスパース音場分解の分析対象となるエリアがSsubに削減されている。このため、スパース音場分解部102において、音源信号xsubのベクトルの次元が小さくなるので、行列Dsubに対する行列演算量が削減される。
よって、本実施の形態によれば、低演算量で音場のスパース分解を行うことができる。
また、例えば、図7のように行列Dsubの列数の削減によって劣決定系の条件(under-determined condition)が緩和されるので、スパース音場分解の性能を向上させることができる。
(実施の形態2)
[符号化装置の構成]
図9は、本実施の形態に係る符号化装置300の構成を示すブロック図である。
なお、図9において、実施の形態1(図2)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図9に示す符号化装置300は、実施の形態1の構成(図2)に対して、ビット配分部301及び切替部302を新たに備える。
ビット配分部301には、音源推定部101から、音場内に存在すると推定される音源の数(つまり、音源が存在すると推定されたエリア(coarse area)数)を示す情報が入力される。
ビット配分部301は、音源推定部101で推定された音源の数に基づいて、実施の形態1と同様のスパース音場分解を行うモード、及び、特許文献1に示される時空間スペクトル符号化を行うモードの何れを適用するかを決定する。例えば、ビット配分部301は、推定される音源数が所定数(閾値)以下の場合、スパース音場分解を行うモードに決定し、推定される音源数が所定数を超える場合に、スパース音場分解を行わずに、時空間スペクトル符号化を行うモードに決定する。
ここで、所定数としては、例えば、スパース音場分解による符号化性能が十分に得られないほどの音源数(つまり、スパース性が得られないほどの音源数)でもよい。または、所定数としては、ビットストリームのビットレートが決まっている場合には、当該ビットレートで送信可能なオブジェクトの数の上限値でもよい。
ビット配分部301は、決定したモードを示す切替情報(switching information)を切替部302、オブジェクト符号化部303、及び、量子化部305に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、復号装置400(後述する)へ送信される(図示せず)。
なお、切替情報は、決定したモードに限らず、オブジェクト符号化ビットストリームと、環境雑音符号化ビットストリームとのビット配分を示す情報でもよい。例えば、切替情報は、スパース音場分解を適用するモードでは、オブジェクト符号化ビットストリームに割り当てられるビット数を示し、スパース音場分解を適用しないモードでは、オブジェクト符号化ビットストリームに割り当てられるビット数がゼロであることを示してもよい。または、切替情報は、環境雑音符号化ビットストリームのビット数を示してもよい。
切替部302は、ビット配分部301から入力される切替情報(モード情報又はビット配分情報)に応じて、符号化モードに応じた音響信号yの出力先の切り替えを行う。具体的には、切替部302は、実施の形態1と同様のスパース音場分解を適用するモードの場合には音響信号yをスパース音場分解部102に出力する。一方、切替部302は、時空間スペクトル符号化を行うモードの場合には音響信号yを空間時間フーリエ変換部304に出力する。
オブジェクト符号化部303は、ビット配分部301から入力される切替情報に応じて、スパース音場分解を行うモードの場合(例えば、推定された音源数が閾値以下の場合)には、実施の形態1と同様にして音源信号に対してオブジェクト符号化を行う。一方、オブジェクト符号化部303は、時空間スペクトル符号化を行うモードの場合(例えば、推定された音源数が閾値を超える場合)には符号化を行わない。
空間時間フーリエ変換部304は、スパース音場分解を行うモードの場合にスパース音場分解部102から入力される環境雑音信号h、又は、時空間スペクトル符号化を行うモードの場合に切替部302から入力される音響信号yに対して、空間時間フーリエ変換を行い、空間時間フーリエ変換後の信号(二次元フーリエ係数)を量子化器305に出力する。
量子化器305は、ビット配分部301から入力される切替情報に応じて、スパース音場分解を行うモードの場合には、実施の形態1と同様にして二次元フーリエ係数の量子化符号化を行う。一方、量子化器305は、時空間スペクトル符号化を行うモードの場合には、特許文献1と同様にして二次元フーリエ係数の量子化符号化を行う。
[復号装置の構成]
図10は、本実施の形態に係る復号装置400の構成を示すブロック図である。
なお、図10において、実施の形態1(図3)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図10に示す復号装置400は、実施の形態1の構成(図3)に対して、ビット配分部401及び分離部402を新たに備える。
復号装置400は、図9に示す符号化装置300からの信号を受信し、切替情報(switching information)をビット配分部401に出力し、その他のビットストリームを分離部402に出力する。
ビット配分部401は、入力される切替情報に基づいて、受信したビットストリームにおけるオブジェクト符号化ビットストリームと環境雑音符号化ビットストリームとのビット配分を決定し、決定したビット配分情報を分離部402へ出力する。具体的には、ビット配分部401は、符号化装置300でスパース音場分解が行われた場合、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームにそれぞれ配分されているビット数を決定する。一方、ビット配分部401は、符号化装置300で時空間スペクトル符号化が行われた場合、オブジェクト符号化ビットストリームへのビットを配分せずに、環境雑音符号化ビットストリームにビットを配分する。
分離部402は、ビット配分部401から入力されるビット配分情報に従って、入力されるビットストリームを各種パラメータのビットストリームに分離する。具体的には、分離部402は、符号化装置300においてスパース音場分解が行われた場合には、実施の形態1と同様、ビットストリームを、オブジェクト符号化ビットストリームと環境雑音符号化ビットストリームとに分離し、オブジェクト復号部201及び環境雑音復号部203にそれぞれ出力する。一方、分離部402は、符号化装置300において時空間スペクトル符号化が行われた場合には、入力されるビットストリームを環境雑音復号部203へ出力し、オブジェクト復号部201には何も出力しない。
このように、本実施の形態では、符号化装置300は、音源推定部101において推定された音源の数に応じて、実施の形態1で説明したスパース音場分解を適用するか否かを決定する。
上述したように、スパース音場分解では、音場における音源のスパース性を仮定しているため、音源数が多い状況は、スパース音場分解の分析モデルとして最適でない場合がある。すなわち、音源の数が多くなると、音場における音源のスパース性が低下し、スパース音場分解を適用した場合には、分析モデルの表現能力又は分解性能が低下してしまう恐れがある。
これに対して、符号化装置300は、音場の数が多くなり(スパース性が弱くなり)、スパース音場分解によって良好な符号化性能が得られない場合には、例えば、特許文献1に示すような時空間スペクトル符号化を行う。なお、音場の数が多い場合の符号化モデルは、特許文献1に示すような時空間スペクトル符号化に限定されるものではない。
このように、本実施の形態によれば、音源の数に応じて符号化モデルを柔軟に切り替えることができるので、高能率な符号化を実現することができる。
なお、ビット配分部301には、音源推定部101から、推定された音源の位置情報が入力されてもよい。例えば、ビット配分部301は、音源の位置情報に基づいて、音源信号成分xと環境雑音信号hとのビット配分(又は、音源数の閾値)を設定してもよい。例えば、ビット配分部301は、音源の位置がマイクロホンアレイに対して正面の位置に近い位置であるほど、音源信号成分xのビット配分をより多くしてもよい。
(実施の形態3)
本実施の形態に係る復号装置は、実施の形態2に係る復号装置400と基本構成が共通するので、図10を援用して説明する。
[符号化装置の構成]
図11は、本実施の形態に係る符号化装置500の構成を示すブロック図である。
なお、図11において、実施の形態2(図9)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図11に示す符号化装置500は、実施の形態2の構成(図9)に対して、選択部501を新たに備える。
選択部501は、スパース音場分解部102から入力される音源信号x(スパース音源)のうちの一部の主要な音源(例えば、エネルギが大きい順に所定数の音源)を選択する。そして、選択部501は、選択した音源信号をオブジェクト信号(monopole sources)としてオブジェクト符号化部303に出力し、選択されなかった残りの音源信号を環境雑音信号(ambience)として空間時間フーリエ変換部502に出力する。
つまり、選択部501は、スパース音場分解部102で生成(抽出)された音源信号xの一部を、環境雑音信号hとして分類し直す。
空間時間フーリエ変換部502は、スパース音場分解が行われた場合、スパース音場分解部102から入力される環境雑音信号h、及び、選択部501から入力される環境雑音信号h(分類し直された音源信号)に対して時空間スペクトル符号化を行う。
このように、本実施の形態では、符号化装置500は、スパース音場分解部102で抽出された音源信号のうち、主要な成分を選択し、オブジェクト符号化することにより、オブジェクト符号化で利用可能なビット数に限りがある場合でも、より重要なオブジェクトに対するビット配分を確保することができる。これにより、スパース音場分解による全体的な符号化性能を向上させることができる。
(実施の形態4)
本実施の形態では、スパース音場分解によって得られた音源信号xと、環境雑音信号hとのビット配分を当該環境雑音信号のエネルギに応じて設定する方法について説明する。
[方法1]
本実施の形態の方法1に係る復号装置は、実施の形態2に係る復号装置400と基本構成が共通するので、図10を援用して説明する。
[符号化装置の構成]
図12は、本実施の形態の方法1に係る符号化装置600の構成を示すブロック図である。
なお、図12において、実施の形態2(図9)又は実施の形態3(図11)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図12に示す符号化装置600は、実施の形態2の構成(図9)に対して、選択部601及びビット配分更新部602を新たに備える。
選択部601は、実施の形態3の選択部501(図11)と同様、スパース音場分解部102から入力される音源信号xのうちの一部の主要な音源(例えば、エネルギが大きい順に所定数の音源)を選択する。この際、選択部601は、スパース音場分解部102から入力される環境雑音信号hのエネルギを算出し、環境雑音信号のエネルギが所定の閾値以下の場合には、環境雑音信号のエネルギが所定の閾値を超える場合よりも多くの音源信号xを、上記主要な音源としてオブジェクト符号化部303に出力する。選択部601は、音源信号xの選択結果に応じて、ビット配分の増減を示す情報をビット配分更新部602に出力する。
ビット配分更新部602は、選択部601から入力される情報に基づいて、オブジェクト符号化部303で符号化される音源信号に割り当てるビット数と、量子化器305において量子化される環境雑音信号に割り当てるビット数との配分を決定する。すなわち、ビット配分更新部602は、ビット配分部301の切替情報(ビット配分情報)を更新する。
ビット配分更新部602は、更新後のビット配分を示す切替情報をオブジェクト符号化部303及び量子化部305に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、復号装置400(図10)へ多重して送信される(図示せず)。
オブジェクト符号化部303及び量子化器305は、ビット配分更新部602から入力される切替情報に示されるビット配分に従って、音源信号x又は環境雑音信号hに対して符号化又は量子化をそれぞれ行う。
なお、エネルギが小さく、ビット配分が減らされた環境雑音信号に対しては、符号化が全く行われなくてもよく、復号側で所定の閾値レベルの環境雑音として疑似的に生成されてもよい。または、エネルギが小さい環境雑音信号に対して、エネルギ情報が符号化・伝送されてもよい。この場合、環境雑音信号に対するビット配分が必要となるが、エネルギ情報のみであれば環境雑音信号hを含む場合と比較して少ないビット配分で済む。
[方法2]
方法2では、上述したように環境雑音信号のエネルギ情報を符号化して伝送する構成を有する符号化装置、及び、復号装置の一例について説明する。
[符号化装置の構成]
図13は、本実施の形態の方法2に係る符号化装置700の構成を示すブロック図である。
なお、図13において、実施の形態1(図2)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図13に示す符号化装置700は、実施の形態1(図2)の構成に対して、切替部701、選択部702、ビット配分部703及びエネルギ量子化符号化部704を新たに備える。
符号化装置700において、スパース音場分解部102で得られる音源信号xは選択部702に出力され、環境雑音信号hは切替部701に出力される。
切替部701は、スパース音場分解部102から入力される環境雑音信号のエネルギを算出し、算出した環境雑音信号のエネルギが所定の閾値を超えるか否かを判断する。切替部701は、環境雑音信号のエネルギが所定の閾値以下の場合、環境雑音信号のエネルギを示す情報(ambience energy)をエネルギ量子化符号化部704に出力する。一方、切替部701は、環境雑音信号のエネルギが所定の閾値を超える場合、環境雑音信号を空間時間フーリエ変換部104に出力する。また、切替部701は、環境雑音信号のエネルギが所定の閾値を超えたか否かを示す情報(判断結果)を選択部702に出力する。
選択部702は、切替部701から入力される情報(環境雑音信号のエネルギが所定の閾値を超えたか否かを示す情報)に基づいて、スパース音源分離部102から入力される音源信号(スパース音源)の中から、オブジェクト符号化の対象となる音源数(選択する音源の数)を決定する。例えば、選択部702は、方法1に係る符号化装置600の選択部601と同様、環境雑音信号のエネルギが所定の閾値以下の場合にオブジェクト符号化対象として選択する音源数を、環境雑音信号のエネルギが所定の閾値を超えた場合にオブジェクト符号化対象として選択する音源数よりも多く設定する。
そして、選択部702は、決定した数の音源成分を選択し、オブジェクト符号化部103に出力する。この際、選択部702は、例えば、主要な音源(例えば、エネルギが大きい順に所定数の音源)から順に選択してもよい。また、選択部702は、選択されなかった残りの音源信号(monopole sources(non-dominant))を空間時間フーリエ変換部104に出力する。
また、選択部702は、決定した音源数、及び、切替部701から入力される情報をビット配分部703に出力する。
ビット配分部703は、選択部702から入力される情報に基づいて、オブジェクト符号化部103で符号化される音源信号に割り当てるビット数と、量子化器105において量子化される環境雑音信号に割り当てるビット数との配分を設定する。ビット配分部703は、ビット配分を示す切替情報をオブジェクト符号化部103及び量子化部105に出力する。また、切替情報は、オブジェクト符号化ビットストリーム及び環境雑音符号化ビットストリームとともに、後述する復号装置800(図14)へ多重して送信される(図示せず)。
エネルギ量子化符号化部704は、切替部701から入力される環境雑音エネルギ情報を量子化符号化して、符号化情報(ambience energy)を出力する。符号化情報は、環境雑音エネルギ符号化ビットストリームとして、オブジェクト符号化ビットストリーム、環境雑音符号化ビットストリーム及び切替情報とともに、後述する復号装置800(図14)へ多重して送信される(図示せず)。
なお、符号化装置700は、環境雑音エネルギが所定の閾値以下の場合には、環境雑音信号を符号化せずに、ビットレートが許容する範囲において音源信号を追加でオブジェクト符号化してもよい。
また、方法2に係る符号化装置は、図13に示す構成に加え、実施の形態2(図9)で説明したように音源推定部101で推定される音源数に応じてスパース音場分解と他の符号化モデルとを切り替える構成を備えてもよい。または、方法2に係る符号化装置は、図13に示す音源推定部101の構成を含まなくてもよい。
また、符号化装置700は、上述した環境雑音信号のエネルギとして、全てのチャネルのエネルギの平均値を算出してもよく、他の方法を用いてもよい。他の方法としては、例えば、環境雑音信号のエネルギとして、チャネル個別の情報を用いる方法、又は、全てのチャネルをサブグループに分け、各サブグループでの平均エネルギを求める方法等が挙げられる。この際、符号化装置700は、環境雑音信号のエネルギが閾値を超えるか否かの判断を、全てのチャネルの平均値を用いて行ってもよく、他の方法を用いる場合には、チャネル又はサブグループ毎に求めた環境雑音信号のエネルギのうち最大値を用いて行ってもよい。また、符号化装置700は、エネルギの量子化符号化として、全てのチャネルの平均エネルギを用いる場合にはスカラー量子化を適用してもよく、複数のエネルギを符号化する場合にはスカラー量子化又はベクトル量子化を適用してもよい。また、量子化・符号化効率を向上させるために、フレーム間相関を利用した予測量子化も有効である。
[復号装置の構成]
図14は、本実施の形態の方法2に係る復号装置800の構成を示すブロック図である。
なお、図14において、実施の形態1(図3)又は実施の形態2(図10)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、図14に示す復号装置800は、実施の形態2(図10)の構成に対して擬似環境雑音復号部801を新たに備える。
疑似環境雑音復号部801は、分離部402から入力される環境雑音エネルギ符号化ビットストリーム、及び、別途復号装置800が保持する疑似環境雑音源を用いて、疑似環境雑音信号を復号し、波面再合成フィルタ204に出力する。
なお、擬似環境雑音復号部801において、符号化装置700のマイクロホンアレイから復号装置800のスピーカアレイへの変換を考慮した処理を組み込んでおけば、波面再合成フィルタ204への出力をスキップして、逆空間時間フーリエ変換部205に出力するような復号処理とすることも可能である。
以上、方法1及び方法2について説明した。
このように、本実施の形態では、符号化装置600,700は、環境雑音信号のエネルギが小さい場合には、環境雑音信号を符号化するよりも、音源信号成分の符号化に可能な限り多くのビットを配分し直してオブジェクト符号化を行う。これにより、符号化装置600,700における符号化性能を向上させることができる。
また、本実施の形態によれば、符号化装置700のスパース音場分解部102で抽出された環境雑音信号のエネルギの符号化情報が復号装置800に送信される。復号装置800は、環境雑音信号のエネルギに基づいて、擬似環境雑音信号を生成する。これにより、環境雑音信号のエネルギが小さい場合には、環境雑音信号の代わりに、少ないビット配分で済むエネルギ情報を符号化する分、音源信号に対してより多くのビットを配分できるので、音響信号を効率良く符号化することができる。
以上、本開示の各実施の形態について説明した。
なお、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
本開示の符号化装置は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定する推定回路と、前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、を具備する。
本開示の符号化装置において、前記分解回路は、前記推定回路で前記音源が存在すると推定されたエリアの数が第1の閾値以下の場合に前記スパース音場分解処理を行い、前記エリアの数が前記第1の閾値を超える場合に前記スパース音場分解処理を行わない。
本開示の符号化装置において、前記エリアの数が前記第1の閾値以下の場合に、前記音源信号を符号化する第1の符号化回路と、前記エリアの数が前記第1の閾値以下の場合に前記環境雑音信号を符号化し、前記エリアの数が前記第1の閾値を超える場合に前記音響信号を符号化する第2の符号化回路と、をさらに具備する。
本開示の符号化装置において、前記分解回路で生成された音源信号のうちの一部をオブジェクト信号として出力し、前記分解回路で生成された音源信号のうちの残りを前記環境雑音信号として出力する選択回路、をさらに具備する。
本開示の符号化装置において、前記分解回路で生成された前記環境雑音信号のエネルギが第2の閾値以下の場合に選択される前記一部の音源信号の数は、前記環境雑音信号のエネルギが前記第2の閾値を超える場合に選択される前記一部の音源信号の数よりも多い。
本開示の符号化装置において、前記エネルギが前記第2の閾値以下の場合に、当該エネルギを示す情報を量子化符号化する量子化符号化回路、をさらに具備する。
本開示の符号化方法は、スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する。
本開示の一態様は、音声通信システムに有用である。
100,300,500,600,700 符号化装置
101 音源推定部
102 スパース音場分解部
103,303 オブジェクト符号化部
104,304,502 空間時間フーリエ変換部
105,305 量子化器
200,400,800 復号装置
201 オブジェクト復号部
202 波面合成部
203 環境雑音復号部
204 波面再合成フィルタ
205 逆空間時間フーリエ変換部
206 窓かけ部
207 加算器
301,401,703 ビット配分部
302,701 切替部
402 分離部
501,601,702 選択部
602 ビット配分更新部
704 エネルギ量子化符号化部
801 擬似環境雑音復号部

Claims (7)

  1. スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定する推定回路と、
    前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、
    を具備する符号化装置。
  2. 前記分解回路は、前記推定回路で前記音源が存在すると推定されたエリアの数が第1の閾値以下の場合に前記スパース音場分解処理を行い、前記エリアの数が前記第1の閾値を超える場合に前記スパース音場分解処理を行わない、
    請求項1に記載の符号化装置。
  3. 前記エリアの数が前記第1の閾値以下の場合に、前記音源信号を符号化する第1の符号化回路と、
    前記エリアの数が前記第1の閾値以下の場合に前記環境雑音信号を符号化し、前記エリアの数が前記第1の閾値を超える場合に前記音響信号を符号化する第2の符号化回路と、をさらに具備する、
    請求項2に記載の符号化装置。
  4. 前記分解回路で生成された音源信号のうちの一部をオブジェクト信号として出力し、前記分解回路で生成された音源信号のうちの残りを前記環境雑音信号として出力する選択回路、をさらに具備する、
    請求項1に記載の符号化装置。
  5. 前記分解回路で生成された前記環境雑音信号のエネルギが第2の閾値以下の場合に選択される前記一部の音源信号の数は、前記環境雑音信号のエネルギが前記第2の閾値を超える場合に選択される前記一部の音源信号の数よりも多い、
    請求項4に記載の符号化装置。
  6. 前記エネルギが前記第2の閾値以下の場合に、当該エネルギを示す情報を量子化符号化する量子化符号化回路、をさらに具備する、
    請求項5に記載の符号化装置。
  7. スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、
    前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する、
    符号化方法。
JP2019515692A 2017-05-01 2018-04-17 符号化装置及び符号化方法 Active JP6811312B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017091412 2017-05-01
JP2017091412 2017-05-01
PCT/JP2018/015790 WO2018203471A1 (ja) 2017-05-01 2018-04-17 符号化装置及び符号化方法

Publications (2)

Publication Number Publication Date
JPWO2018203471A1 true JPWO2018203471A1 (ja) 2019-12-19
JP6811312B2 JP6811312B2 (ja) 2021-01-13

Family

ID=64017030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019515692A Active JP6811312B2 (ja) 2017-05-01 2018-04-17 符号化装置及び符号化方法

Country Status (3)

Country Link
US (1) US10777209B1 (ja)
JP (1) JP6811312B2 (ja)
WO (1) WO2018203471A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044470A1 (ja) * 2019-09-02 2021-03-11 日本電気株式会社 波源方向推定装置、波源方向推定方法、およびプログラム記録媒体
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
US11664037B2 (en) * 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
CN115508449B (zh) * 2021-12-06 2024-07-02 重庆大学 基于超声导波多频稀疏的缺陷定位成像方法及其应用

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
JP6087856B2 (ja) * 2014-03-11 2017-03-01 日本電信電話株式会社 音場収音再生装置、システム、方法及びプログラム
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals

Also Published As

Publication number Publication date
US10777209B1 (en) 2020-09-15
US20200294512A1 (en) 2020-09-17
JP6811312B2 (ja) 2021-01-13
WO2018203471A1 (ja) 2018-11-08

Similar Documents

Publication Publication Date Title
JP6869322B2 (ja) 音場のための高次アンビソニックス表現を圧縮および圧縮解除する方法および装置
JP6811312B2 (ja) 符号化装置及び符号化方法
KR101220621B1 (ko) 부호화 장치 및 부호화 방법
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
JP2021060614A (ja) 高次アンビソニックス表現を圧縮および圧縮解除する方法および装置
JP5383676B2 (ja) 符号化装置、復号装置およびこれらの方法
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP6542269B2 (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
KR102460820B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
KR102327149B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
JPWO2009116280A1 (ja) ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
RU2715026C1 (ru) Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала
US9118805B2 (en) Multi-point connection device, signal analysis and device, method, and program
KR102433192B1 (ko) 압축된 hoa 표현을 디코딩하기 위한 방법 및 장치와 압축된 hoa 표현을 인코딩하기 위한 방법 및 장치
CA2982017A1 (en) Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
KR102363275B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
JP5340378B2 (ja) チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201214

R150 Certificate of patent or registration of utility model

Ref document number: 6811312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150