JPWO2018203471A1 - 符号化装置及び符号化方法 - Google Patents
符号化装置及び符号化方法 Download PDFInfo
- Publication number
- JPWO2018203471A1 JPWO2018203471A1 JP2019515692A JP2019515692A JPWO2018203471A1 JP WO2018203471 A1 JPWO2018203471 A1 JP WO2018203471A1 JP 2019515692 A JP2019515692 A JP 2019515692A JP 2019515692 A JP2019515692 A JP 2019515692A JP WO2018203471 A1 JPWO2018203471 A1 JP WO2018203471A1
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- sparse
- sound field
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 69
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 134
- 230000007613 environmental effect Effects 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000005284 excitation Effects 0.000 claims description 24
- 238000013139 quantization Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 22
- 239000011159 matrix material Substances 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000000926 separation method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000005404 monopole Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004613 tight binding model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
[通信システムの概要]
本実施の形態に係る通信システムは、符号化装置(encoder)100及び復号装置(decoder)200を備える。
図2は、本実施の形態に係る符号化装置100の構成例を示すブロック図である。図2において、符号化装置100は、音源推定部101と、スパース音場分解部102と、オブジェクト符号化部103と、空間時間フーリエ変換部104と、量子化器105と、を含む構成を採る。
図3は、本実施の形態に係る復号装置200の構成を示すブロック図である。図3において、復号装置200は、オブジェクト復号部201と、波面合成部202と、環境雑音復号部(逆量子化器)203と、波面再合成フィルタ(Wavefield reconstruction filter)204と、逆空間時間フーリエ変換部205と、窓かけ部206と、加算部207と、を含む構成を採る。
以上の構成を有する符号化装置100における動作について詳細に説明する。
この場合、スパース音場分解部102は、次式(3)のように、各マイクロホンで観測された音響信号yを、音源信号xsubと環境雑音信号hとに分解する。
[符号化装置の構成]
図9は、本実施の形態に係る符号化装置300の構成を示すブロック図である。
図10は、本実施の形態に係る復号装置400の構成を示すブロック図である。
本実施の形態に係る復号装置は、実施の形態2に係る復号装置400と基本構成が共通するので、図10を援用して説明する。
図11は、本実施の形態に係る符号化装置500の構成を示すブロック図である。
本実施の形態では、スパース音場分解によって得られた音源信号xと、環境雑音信号hとのビット配分を当該環境雑音信号のエネルギに応じて設定する方法について説明する。
本実施の形態の方法1に係る復号装置は、実施の形態2に係る復号装置400と基本構成が共通するので、図10を援用して説明する。
図12は、本実施の形態の方法1に係る符号化装置600の構成を示すブロック図である。
方法2では、上述したように環境雑音信号のエネルギ情報を符号化して伝送する構成を有する符号化装置、及び、復号装置の一例について説明する。
図13は、本実施の形態の方法2に係る符号化装置700の構成を示すブロック図である。
図14は、本実施の形態の方法2に係る復号装置800の構成を示すブロック図である。
101 音源推定部
102 スパース音場分解部
103,303 オブジェクト符号化部
104,304,502 空間時間フーリエ変換部
105,305 量子化器
200,400,800 復号装置
201 オブジェクト復号部
202 波面合成部
203 環境雑音復号部
204 波面再合成フィルタ
205 逆空間時間フーリエ変換部
206 窓かけ部
207 加算器
301,401,703 ビット配分部
302,701 切替部
402 分離部
501,601,702 選択部
602 ビット配分更新部
704 エネルギ量子化符号化部
801 擬似環境雑音復号部
Claims (7)
- スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定する推定回路と、
前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する分解回路と、
を具備する符号化装置。 - 前記分解回路は、前記推定回路で前記音源が存在すると推定されたエリアの数が第1の閾値以下の場合に前記スパース音場分解処理を行い、前記エリアの数が前記第1の閾値を超える場合に前記スパース音場分解処理を行わない、
請求項1に記載の符号化装置。 - 前記エリアの数が前記第1の閾値以下の場合に、前記音源信号を符号化する第1の符号化回路と、
前記エリアの数が前記第1の閾値以下の場合に前記環境雑音信号を符号化し、前記エリアの数が前記第1の閾値を超える場合に前記音響信号を符号化する第2の符号化回路と、をさらに具備する、
請求項2に記載の符号化装置。 - 前記分解回路で生成された音源信号のうちの一部をオブジェクト信号として出力し、前記分解回路で生成された音源信号のうちの残りを前記環境雑音信号として出力する選択回路、をさらに具備する、
請求項1に記載の符号化装置。 - 前記分解回路で生成された前記環境雑音信号のエネルギが第2の閾値以下の場合に選択される前記一部の音源信号の数は、前記環境雑音信号のエネルギが前記第2の閾値を超える場合に選択される前記一部の音源信号の数よりも多い、
請求項4に記載の符号化装置。 - 前記エネルギが前記第2の閾値以下の場合に、当該エネルギを示す情報を量子化符号化する量子化符号化回路、をさらに具備する、
請求項5に記載の符号化装置。 - スパース音場分解の対象となる空間において、前記スパース音場分解において音源が存在すると仮定する位置の第1の粒度よりも粗い第2の粒度で、音源が存在するエリアを推定し、
前記空間のうちの前記音源が存在すると推定された前記第2の粒度のエリア内において、マイクロホンアレイで観測される音響信号に対して、前記第1の粒度で前記スパース音場分解処理を行って、前記音響信号を音源信号と環境雑音信号とに分解する、
符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017091412 | 2017-05-01 | ||
JP2017091412 | 2017-05-01 | ||
PCT/JP2018/015790 WO2018203471A1 (ja) | 2017-05-01 | 2018-04-17 | 符号化装置及び符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018203471A1 true JPWO2018203471A1 (ja) | 2019-12-19 |
JP6811312B2 JP6811312B2 (ja) | 2021-01-13 |
Family
ID=64017030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019515692A Active JP6811312B2 (ja) | 2017-05-01 | 2018-04-17 | 符号化装置及び符号化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10777209B1 (ja) |
JP (1) | JP6811312B2 (ja) |
WO (1) | WO2018203471A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021044470A1 (ja) * | 2019-09-02 | 2021-03-11 | 日本電気株式会社 | 波源方向推定装置、波源方向推定方法、およびプログラム記録媒体 |
GB2587614A (en) * | 2019-09-26 | 2021-04-07 | Nokia Technologies Oy | Audio encoding and audio decoding |
US11664037B2 (en) * | 2020-05-22 | 2023-05-30 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same |
CN115508449B (zh) * | 2021-12-06 | 2024-07-02 | 重庆大学 | 基于超声导波多频稀疏的缺陷定位成像方法及其应用 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
US8219409B2 (en) * | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
WO2011013381A1 (ja) * | 2009-07-31 | 2011-02-03 | パナソニック株式会社 | 符号化装置および復号装置 |
US9736604B2 (en) * | 2012-05-11 | 2017-08-15 | Qualcomm Incorporated | Audio user interaction recognition and context refinement |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) * | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
JP6087856B2 (ja) * | 2014-03-11 | 2017-03-01 | 日本電信電話株式会社 | 音場収音再生装置、システム、方法及びプログラム |
CN105336335B (zh) * | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
US10152977B2 (en) * | 2015-11-20 | 2018-12-11 | Qualcomm Incorporated | Encoding of multiple audio signals |
-
2018
- 2018-04-17 US US16/499,935 patent/US10777209B1/en active Active
- 2018-04-17 WO PCT/JP2018/015790 patent/WO2018203471A1/ja active Application Filing
- 2018-04-17 JP JP2019515692A patent/JP6811312B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US10777209B1 (en) | 2020-09-15 |
US20200294512A1 (en) | 2020-09-17 |
JP6811312B2 (ja) | 2021-01-13 |
WO2018203471A1 (ja) | 2018-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6869322B2 (ja) | 音場のための高次アンビソニックス表現を圧縮および圧縮解除する方法および装置 | |
JP6811312B2 (ja) | 符号化装置及び符号化方法 | |
KR101220621B1 (ko) | 부호화 장치 및 부호화 방법 | |
JP4859670B2 (ja) | 音声符号化装置および音声符号化方法 | |
JP2021060614A (ja) | 高次アンビソニックス表現を圧縮および圧縮解除する方法および装置 | |
JP5383676B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
JP6542269B2 (ja) | 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 | |
KR102460820B1 (ko) | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 | |
KR102327149B1 (ko) | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 | |
JPWO2009116280A1 (ja) | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 | |
RU2715026C1 (ru) | Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала | |
US9118805B2 (en) | Multi-point connection device, signal analysis and device, method, and program | |
KR102433192B1 (ko) | 압축된 hoa 표현을 디코딩하기 위한 방법 및 장치와 압축된 hoa 표현을 인코딩하기 위한 방법 및 장치 | |
CA2982017A1 (en) | Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation | |
KR102363275B1 (ko) | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 | |
JP5340378B2 (ja) | チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6811312 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |