KR20200077601A - 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 - Google Patents
잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20200077601A KR20200077601A KR1020207017672A KR20207017672A KR20200077601A KR 20200077601 A KR20200077601 A KR 20200077601A KR 1020207017672 A KR1020207017672 A KR 1020207017672A KR 20207017672 A KR20207017672 A KR 20207017672A KR 20200077601 A KR20200077601 A KR 20200077601A
- Authority
- KR
- South Korea
- Prior art keywords
- rotation
- hoa
- channel
- signal
- audio signals
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000009467 reduction Effects 0.000 title abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000009466 transformation Effects 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 abstract description 35
- 238000005070 sampling Methods 0.000 abstract description 31
- 238000007906 compression Methods 0.000 description 21
- 230000006835 compression Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 19
- 230000003595 spectral effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 6
- 230000006837 decompression Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007907 direct compression Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 방법은 역 적응 DSHT를 이용하여 채널을 역상관(decorrelate)하는 단계(81) - 상기 역 적응 DSHT는 회전 동작(330) 및 역 DSHT(810)를 포함하고, 상기 회전 동작은 상기 iDSHT의 공간 샘플링 그리드를 회전함 -, 상기 역상관된 채널의 각각을 지각적으로 인코딩하는 단계(82), 회전 정보(SI)를 인코딩하는 단계 - 상기 회전 정보는 상기 회전 동작을 정의하는 파라미터를 포함함 -, 및 상기 지각적으로 인코딩된 오디오 채널 및 상기 인코딩된 회전 정보를 송신 또는 저장하는 단계를 포함한다.
Description
본 발명은 잡음 감소를 위한 다채널 HOA(higher order ambisonics) 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 HOA 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.
HOA는 다채널 음장 표현[4]이고 HOA 신호는 다채널 오디오 신호이다. 특정한 확성기 셋업 상의 소정의 다채널 오디오 신호 표현, 특히 HOA 표현의 재생은 통상 매트릭스화 동작으로 구성된 특수 렌더링을 요구한다. 디코딩후, 앰비소닉스(Ambisonics) 신호는 "매트릭스화"되고, 즉, 예를 들어 확성기의 실제 공간 위치에 대응하는 새로운 오디오 신호에 맵핑된다. 통상, 단일 채널들 간의 높은 상호 상관이 존재한다.
매트릭스화 동작후 코딩 잡음의 증가를 경험한다는 문제가 있다. 그 이유가 종래 기술에는 잘 알려지지 않은 것으로 나타난다. 이 효과는 또한 지각적 코더(perceptual coder)에 의한 압축 전에, 예를 들어, DSHT(discrete spherical harmonics transform)에 의해 HOA 신호를 공간 도메인으로 변형할 때 발생한다.
HOA 오디오 신호 표현의 압축을 위한 통상의 방법은 개별 앰비소닉스 계수 채널에 독립적인 지각적 코더를 적용하는 것이다[7]. 특히, 지각적 코더는 단지 각각의 개별 단일 채널 신호 내에서 발생하는 코딩 잡음 마스킹 효과를 고려한다. 그러나, 이러한 효과는 일반적으로 비선형이다. 이러한 단일 채널을 새로운 신호로 매트릭스화하면, 잡음 언마스킹(noise unmasking)이 발생할 가능성이 있다. 이 효과는 또한 HOA 신호가 지각적 코더에 의한 압축 전에 DSHT에 의해 공간 도메인으로 변형될 때 발생한다[8].
이러한 다채널 오디오 신호 표현의 송신 또는 저장은 통상 적절한 다채널 압축 기술을 요구한다. 통상, 채널 독립 지각적 디코딩은 I개의 디코딩 신호()를 J개의 새로운 신호()로 최종적으로 매트릭스화하기 전에 수행된다. 매트릭스화라는 용어는 디코딩 신호()를 가중 방식으로 가산 또는 혼합하는 것을 의미한다.
본 발명은 다채널 HOA 오디오 신호를 인코딩 및/또는 디코딩하여 잡음 감소를 얻는 개선책을 제공한다. 특히, 본 발명은 3D 오디오 레이트 압축을 위한 코딩 잡음 디마스킹(coding noise demasking)을 억제하는 방법을 제공한다.
본 발명은 (원치 않는) 잡음 언마스킹 효과를 최소화하는 aDSHT(adaptive Discrete Spherical Harmonics Transform)에 대한 기술을 기재한다. 또한, aDSHT가 압축 코더 아키텍쳐 내에서 통합될 수 있는 방법을 기재한다. 기재된 기술은 특히 적어도 HOA 신호에 대하여 유리하다. 본 발명의 하나의 이점은 송신될 사이드 정보의 양이 감소되는 것이다. 원리적으로, 회전 축 및 회전 각만이 송신될 필요가 있다. DSHT 샘플링 그리드는 송신되는 채널의 수만큼 간접적으로 시그널링될 수 있다. 이 사이드 정보의 양은 상관 매트릭스의 절반보다 많이 송신될 필요가 있는 KLT(Karhunen Loeve transform) 같은 다른 어프로치와 비교하여 매우 작다.
본 발명의 일 실시예에 따르면, 잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 방법은 역 적응 DSHT를 이용하여 채널을 역상관(decorrelate)하는 단계 - 상기 역 적응 DSHT는 회전 동작 및 역 DSHT(iDSHT)를 포함하고, 상기 회전 동작은 상기 iDSHT의 공간 샘플링 그리드를 회전함 -, 상기 역상관된 채널의 각각을 지각적으로 인코딩하는 단계, 회전 정보를 인코딩하는 단계 - 상기 회전 정보는 상기 회전 동작을 정의하는 파라미터를 포함함 -, 및 상기 지각적으로 인코딩된 오디오 채널 및 상기 인코딩된 회전 정보를 송신 또는 저장하는 단계를 포함한다. 역 적응 DSHT를 이용하여 채널을 역상관하는 단계는 원리적으로 공간 인코딩 단계이다.
본 발명의 일 실시예에 따르면, 감소된 잡음을 갖는 코딩된 다채널 HOA 오디오 신호를 디코딩하는 방법은 인코딩된 다채널 HOA 오디오 신호 및 채널 회전 정보를 수신하는 단계, 상기 수신된 데이터를 압축 해제하는 단계 - 지각적인 디코딩이 사용됨 -, 적응 DSHT(aDSHT)를 이용하여 각각의 채널을 공간적으로 디코딩하는 단계, 지각적으로 및 공간적으로 디코딩된 채널을 상관하는 단계 - 상기 회전 정보에 따른 상기 aDSHT의 공간 샘플링 그리드의 회전이 수행됨 -, 및 상기 지각적으로 및 공간적으로 디코딩되고 상관된 채널을 매트릭스화하는 단계 - 확성기 위치에 맵핑된 재생가능한 오디오 신호가 얻어짐 - 를 포함한다.
다채널 HOA 오디오 신호를 인코딩하는 장치가 청구항 11에 개시된다. 다채널 HOA 오디오 신호를 디코딩하는 장치가 청구항 12에 개시된다.
일 형태에 있어서, 컴퓨터 판독가능 매체는 컴퓨터가 상술한 단계를 포함하는 인코딩 방법 또는 상술한 단계를 포함하는 디코딩 방법을 수행하도록 하는 실행가능한 명령을 갖는다. 본 발명의 유리한 실시예는 종속 청구항, 다음의 설명 및 도면에 개시된다.
본 발명의 예시적인 실시예는 첨부된 도면을 참조하여 설명한다.
도 1은 M개의 계수의 블록을 레이트 압축하는 기지의 인코더 및 디코더를 나타내는 도면.
도 2는 종래의 DSHT(discrete spherical harmonics transform) 및 종래의 역 DSHT를 이용하여 HOA 신호를 공간 도메인으로 변환하는 기지의 인코더 및 디코더를 나타내는 도면.
도 3은 적응 DSHT 및 적응 역 DSHT를 이용하여 HOA 신호를 공간 도메인으로 변환하는 인코더 및 디코더를 나타내는 도면.
도 4는 테스트 신호를 나타내는 도면.
도 5는 인코더 및 디코더 형성 블록에 사용되는 코드북을 위한 구면 샘플링 위치의 예를 나타내는 도면.
도 6은 신호 적응 DSHT 형성 블록(pE 및 pD)를 나타내는 도면.
도 7은 본 발명의 제1 실시예를 나타내는 도면.
도 8은 인코딩 프로세스 및 디코딩 프로세스의 플로우챠트.
도 9는 본 발명의 제2 실시예를 나타내는 도면.
도 1은 M개의 계수의 블록을 레이트 압축하는 기지의 인코더 및 디코더를 나타내는 도면.
도 2는 종래의 DSHT(discrete spherical harmonics transform) 및 종래의 역 DSHT를 이용하여 HOA 신호를 공간 도메인으로 변환하는 기지의 인코더 및 디코더를 나타내는 도면.
도 3은 적응 DSHT 및 적응 역 DSHT를 이용하여 HOA 신호를 공간 도메인으로 변환하는 인코더 및 디코더를 나타내는 도면.
도 4는 테스트 신호를 나타내는 도면.
도 5는 인코더 및 디코더 형성 블록에 사용되는 코드북을 위한 구면 샘플링 위치의 예를 나타내는 도면.
도 6은 신호 적응 DSHT 형성 블록(pE 및 pD)를 나타내는 도면.
도 7은 본 발명의 제1 실시예를 나타내는 도면.
도 8은 인코딩 프로세스 및 디코딩 프로세스의 플로우챠트.
도 9는 본 발명의 제2 실시예를 나타내는 도면.
도 2는 역 DSHT를 이용하여 HOA 신호가 공간 도메인으로 변환되는 기지의 시스템을 나타낸다. 신호는 iDSHT(21), 레이트 압축(E1)/압축해제(D1)를 이용하여 변환되고 DSHT(24)를 이용하여 계수 도메인(S24)으로 재변환된다. 이와 다르게, 도 3은 본 발명의 일 실시예에 따른 시스템을 나타낸다. 기지의 솔루션의 DSHT 처리 블록은 역 적응 DSHT 및 적응 DSHT를 각각 제어하는 처리 블록(31, 34)으로 대체된다. 사이드 정보(SI)는 비트스트림(bs) 내에서 송신된다. 시스템은 다채널 HOA 오디오 신호를 인코딩하는 장치의 엘리먼트 및 다채널 HOA 오디오 신호를 디코딩하는 장치의 엘리먼트를 포함한다.
일 실시예에서, 잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 장치(ENC)는 역 적응 DSHT(iaDSHT)를 이용하여 채널(B)을 역상관(decorrelate)하는 역상관기(31)를 포함하고, 역 적응 DSHT는 회전 동작 유닛(311) 및 역 DSHT(iDSHT)(310)를 포함한다. 회전 동작 유닛은 iDSHT의 공간 샘플링 그리드를 회전한다. 역상관기(31)는 역상관된 채널(Wsd) 및 회전 정보를 포함하는 사이드 정보(SI)를 제공한다. 또한, 장치는 역상관된 채널(Wsd)의 각각을 지각적으로 인코딩하는 지각적 인코더(32) 및 회전 정보를 인코딩하는 사이드 정보 인코더(321)를 포함한다. 회전 정보는 상기 회전 동작을 정의하는 파라미터를 포함한다. 지각적 인코더(32)는 지각적으로 인코딩된 오디오 채널 및 인코딩된 회전 정보를 제공하여 데이터 레이트를 감소시킨다. 마지막으로, 인코딩 장치는, 지각적으로 인코딩된 오디오 채널 및 인코딩된 회전 정보로부터 비트스트림(bs)을 생성하고 비스스트림(bs)를 송신 또는 저장하는 인터페이스 수단(320)을 포함한다.
감소된 잡음을 갖는 다채널 HOA 오디오 신호를 디코딩하는 장치(DEC)는 인코딩된 다채널 HOA 오디오 신호 및 채널 회전 정보를 수신하는 인터페이스 수단(330) 및 수신된 데이터를 압축 해제하고 각각의 채널을 지각적으로 디코딩하는 지각적 디코더를 포함하는 압축 해제 모듈(33)을 포함한다. 압축 해제 모듈(33)은 지각적으로 디코딩되고 회복된 채널(W'sd) 및 회복된 사이드 정보(SI')를 제공한다. 또한, 디코딩 장치는 적응 DSHT(aDSHT)를 이용하여 지각적으로 디코딩된 채널(W'sd)을 상관하는 상관기(34) - DSHT 및 상기 회전 정보에 따른 DSHT의 공간 샘플링 그리드의 회전이 수행됨 - 및 지각적으로 디코딩되고 상관된 채널을 매트릭스화하는 믹서(MX)- 확성기 위치에 맵핑된 재생가능 오디오 신호가 얻어짐 - 를 포함한다. 적어도 aDSHT는 상관기(34) 내의 DSHT 유닛(340)에서 수행될 수 있다. 일 실시예에서, 공간 샘플링 그리드의 회전은, 원리적으로 본래의 DSHT 샘플링 포인트를 재산출하는 그리드 회전 유닛(341)에서 수행된다. 다른 실시예에서, 회전은 DSHT 유닛(340) 내에서 수행된다.
다음에서, 언마스킹(unmasking)을 정의하고 기술하는 수학적 모델이 주어진다. 주어진 이산 시간 다채널 신호가 I개의 채널()로 구성되는 것으로 가정하고, 여기서, m은 시간 샘플 인덱스를 나타낸다. 개별 신호는 실수(real value) 또는 복소수일 수 있다. 시간 샘플 인덱스()에서 시작하는 M개의 샘플의 프레임을 고려하고, 개별 신호는 정지된 것으로 가정한다. 해당 샘플은
여기서,
(·)T는 전치(transposition)를 나타낸다. 해당 경험 상관 매트릭스(empirical correlation matrix)는
으로 주어지고, 여기서,
(·)H는 조인트 복소 공액 및 전치(joint complex conjugation and transposition)를 나타낸다.
에 따라 정확한(true) 샘플 매트릭스(X) 및 코딩 잡음 컴포넌트(E)로 구성되고,
여기서,
및
이다.
각각의 채널이 독립적으로 코딩된 것으로 가정되므로, 코딩 잡음 신호()는 i=1, ..., I에 대하여 서로 독립적인 것으로 가정할 수 있다. 잡음 신호는 제로 평균이라는 특성 및 가정을 이용하여, 잡음 신호의 경험 상관 매트릭스는 다음과 같이 대각선 매트릭스로 주어진다.
을 갖는 대각 매트릭스를 나타낸다. 추가의 필수적인 가정은, 미리 정의된 신호 대 잡음비(SNR)가 각 채널에 대하여 만족하도록 코딩이 수행된다는 것이다. 일반성을 잃지 않고, 미리 정의된 SNR이 각각의 채널에 대하여 동일한 것으로 가정, 즉, 모든 에 대하여,
이고,
이다.
로 표현될 수 있고,
이고,
이다.
그러나, 코딩 잡음 때문에, 매트릭스화된 신호의 샘플 매트릭스는
로 주어지고, 여기서, N은 매트릭스화된 잡음 신호의 샘플을 포함하는 매트릭스이다. 이는
와 같이 표현될 수 있고,
여기서,
는 시간 샘플 인덱스(m)에서의 모든 매트릭스화된 잡음 신호의 벡터이다.
수학식 11을 이용하여, 매트릭스화된 무잡음 신호의 경험 상관 매트릭스는 다음과 같이 표현될 수 있다.
마찬가지로, 수학식 15로, 매트릭스화된 잡음 신호의 경험 상관 매트릭스는 다음과 같이 기재된다.
결과적으로,
에 의해 정의된 매트릭스화된 신호의 경험 SNR은
로서 수학식 19 및 수학식 22를 이용하여 다시 표현될 수 있다.
여기서,
수학식 7 및 수학식 9가 모든 채널에 대해 상수 SNR(SNRx)을 갖는다는 가정으로부터 기인하는 특성
을 이용함으로써, 결국 매트릭스화된 신호의 경험 SNR에 대한 원하는 수학식을 얻는다:
이 수학식으로부터, 이 SNR은 신호 상관 매트릭스()의 대각선 및 비대각선 성분에 의존하는 항과의 승산에 의해 미리 정의된 SNR(SNRx)로부터 얻어지는 것을 알 수 있다. 특히, 가 제로 매트릭스가 되도록 신호(xi(m))가 서로 비상관(uncorrelated)되면, 매트릭스화된 신호의 경험 SNR은 미리 정의된 SNR과 동일하고, 즉, 이면, 모든 에 대하여,
이고, 여기서, 는 I개의 행 및 열을 갖는 제로 매트릭스를 나타낸다. 즉, 신호(xi(m))가 상관되면, 매트릭스화된 신호의 경험 SNR은 미리 정의된 SNR로부터 벗어날 수 있다. 최악의 경우, 가 SNRx보다 매우 낮을 수 있다. 이 현상은 여기서 매트릭스화에서 잡음 언마스킹(noise unmasking)이라 한다.
다음 섹션은 HOA에 대한 간략한 소개가 주어지고 처리될 신호(데이터 레이트 압축)을 정의한다.
HOA는 음원에서 자유로운 것으로 가정되는 콤팩트한 관심 영역 내의 음장(sound field)의 기술(description)에 기초한다. 이 경우, (구면 좌표 내의) 관심 영역 내의 위치() 및 시간(t)에서의 음압(p(t, x))의 시공간 작용은 동차 파동 방정식(homogeneous wave equation)에 의해 물리적으로 완전히 결정된다. 시간에 대하여 음압의 푸리에 변환, 즉,
수학식 32에서, cs는 음속을 나타내고 는 각파수(angular wave number)이다. 또한, jn(·)은 제1종 및 차수 n의 구면 베셀 함수(spherical Bessel function)을 나타내고, 는 차수 n 및 디그리(degree) m의 SH를 나타낸다.
SH는 일반적으로 복소수 함수들이라는 점에 유의해야 한다. 그러나, 이들의 적절한 선형 조합에 의해, 실수 함수(real valued functions)를 얻고 이들 함수에 대하여 전개를 수행할 수 있다.
수학식 32에서 압력 음장 기술(pressure sound field description)과 관련하여 음장은
으로서 정의될 수 있고, 여기서, 음장 또는 진폭 밀도[9] 는 각파수 및 각 방향()에 의존한다. 음장은 원거리 음장/근거리 음장, 불연속(discrete)/연속 소스로 구성될 수 있다[1]. 음장 계수()는 [1]에 의해 음장 계수()에 관련될 수 있다:
HOA 도메인 내의 신호는 음장 또는 음장 계수의 역 푸리에 변환으로서 주파수 도메인 또는 시간 도메인에 표현될 수 있다. 다음의 설명은 유한 수의 음장 계수
의 시간 도메인 표현의 사용을 가정할 것이다.
수학식 33 내의 무한 급수는 n=N에서 절단(truncation)된다. 절단은 공간 밴드폭 제한에 대응한다. 계수(또는 HOA 채널)의 수는
(3D에 대하여)
또는 2D만의 기술들(2D only descriptions)에 대하여 로 주어진다. 계수()는 확성기에 의한 후속의 재생을 위해 하나의 시간 샘플(m)의 오디오 정보를 포함한다. 이들은 저장되거나 송신되고 따라서 데이터 레이트 압축의 대상이 된다.
및 매트릭스(B)에 의한 M개의 시간 샘플의 블록
으로 표현될 수 있다.
음장의 2차원 표현은 원형 조화 함수(circular harmonics)를 이용한 전개에 의해 도출될 수 있다. 이것은 의 고정 경사, 계수의 상이한 가중 및 계수()에 대한 감소된 세트를 이용하여 상기 제시된 일반적인 설명의 특수 경우로서 간주된다. 따라서, 다음의 모든 고려사항은 2D 표현에 적용되고, 구(sphere)라는 용어는 원(circle)이라는 용어로 대체될 필요가 있다.
다음은 HOA 계수 도메인으로부터 공간 채널 기반 도메인으로의 변환 또는 그 반대를 설명한다. 수학식 33은 유닛 구상의 l개의 이산 공간 샘플 위치()에 대한 시간 도메인 HOA 계수를 이용하여 재기입될 수 있다:
에 의해 정의될 수 있다.
여기서, DSHT{}는 이산 구면 조화 변환(Discrete Spherical Harmonics Transform)을 나타낸다. 해당 역 변환은 계수 신호를 공간 도메인으로 변환하여 채널 기반 신호를 형성하고 수학식 40은
이 된다.
주어진 계수(B)로 시작하고 경우만 관심있기 때문에 이산 구면 조화 변환의 이 정의는 HOA 데이터의 데이터 레이트 압축에 관한 고려사항에 대하여 충분하다. 이산 구면 조화 변환의 더 엄격한 정의는 [2] 내에서 주어진다. DSHT에 대한 적절한 구면 샘플 위치 및 이러한 위치를 도출하는 절차는 [3], [4], [6], [5]에서 재검토될 수 있다. 샘플링 그리드의 예는 도 5에 도시된다.
특히, 도 5는 블록(pE, pD)을 형성하는 인코더 및 디코더에서 사용되는 코드북에 대한 구면 샘플링 위치의 예, 즉, 도 5a)에서 , 도 5b)에서 , 도 5c)에서 및 도 5d)에서 를 나타낸다.
다음에서, HOA 계수 데이터의 레이트 압축 및 잡음 언마스킹이 기재된다. 먼저, 테스트 신호가 정의되어 이하에서 사용되는 임의의 특성을 강조한다.
매트릭스(Bg)는 수학식 42와 유사하고 인코딩 벡터()는 방향()에서 평가된 공액 복소수(conjugate complex) SH로 구성된다(실수 SH가 사용되면, 공액이 효과가 없다). 테스트 신호(Bg)는 HOA 신호의 가장 간단한 경우로서 간주될 수 있다. 더 많은 복소수 신호는 이러한 신호 중의 다수의 중첩(superposition)으로 구성된다.
HOA 채널의 직접 압축에 관하여, 다음은 HOA 계수 채널이 압축될 때 잡음 언마스킹이 발생하는 이유를 나타낸다. HOA 데이터(B)의 실제 블록의 계수 채널의 직접 압축 및 압축해제는 수학식 4와 유사한 코딩 잡음(E)을 유입할 것이다:
여기서, 디코딩 매트릭스()(및 ) 및 매트릭스()는 L개의 스피커 신호의 M개의 시간 샘플을 유지한다. 이것은 수학식 14와 유사하다. 상술한 모든 고려사항을 적용하여, 스피커 채널(l)의 SNR은 (수학식 29과 유사한)
의 비대각선 엘리먼트를 유지한다.
디코딩 매트릭스(A)가 영향을 받지 않음에 따라, 임의의 스피커 레이아웃으로 디코딩할 수 있어야 하기 때문에, 매트릭스()는 대각선이 되어 을 얻을 필요가 있다. 수학식 45 및 수학식 49로, (B=Bg)는 일정한 스칼라값()을 갖는 비대각선이 된다. 와 비교하여, 스피커 채널에서의 신호 대 잡음비()는 감소한다. 그러나, 소스 신호(g) 또는 스피커 레이아웃 중의 어느 것도 인코딩 스테이지에서 통상 알려져 있지 않기 때문에, 계수 채널의 직접적인 손실 압축은 특히 낮은 데이터 레이트에 대하여 제어불가능한 언마스킹 효과로 이어질 수 있다.
다음은 DSHT를 이용한 후에 HOA 계수가 공간 도메인에서 압축될 때 잡음 언마스킹이 발생하는 이유를 설명한다.
HOA 계수 데이터(B)의 현재 블록은 수학식 40에서 주어진 바와 같이 구면 조화 변환을 이용한 압축 전에 공간 도메인으로 변환되고,
역 변환 매트릭스()는 공간 샘플 위치 및 공간 신호 매트릭스()에 관련된다. 이들은 압축 및 압축 해제되고, 양자화 잡음에는 (수학식 4에 유사하게) 수학식 5에 따른 코딩 잡음 성분(E)이 부가된다:
모든 공간 채널에 대해 상수인 SNR(SNRSd)을 가정한다. 신호는 특성(41): 을 갖는 변환 매트릭스()를 이용하여 계수 도메인 수학식 42로 변환된다. 계수()의 새로운 블록은
이 된다.
여기서, A는 를 갖는 혼합 매트릭스가 된다. 수학식 53은 수학식 14와 유사한 것으로 간주되어야 한다. 다시 상술한 모든 고려사항을 적용하여, 스피커 채널(l)의 SNR은 (수학식 29와 유사한)
의 비대각선 엘리먼트를 유지한다.
(임의의 확성기 레이이웃으로 렌더링할 수 있어야 하기 때문에) AD에 영향을 줄 방법이 없고 따라서 A에 영향을 줄 방법이 없기 때문에, 는 원하는 SNR을 유지하기 위하여 거의 대각선이 될 필요가 있다: 수학식 45로부터 간단한 테스트 신호를 이용하여 는
가 되고, 는 상수이다. 고정된 구면 조화 변환(고정된 )를 이용하면, 는 단지 매우 드문 경우에만 대각선이 되어 나빠질 수 있고, 상술한 바와 같이, 항()은 계수 신호 공간 특성에 의존한다. 따라서, 구면 도메인 내의 HOA 계수의 낮은 레이트 손실 압축은 SNR 및 제어불가능한 언마스킹 효과의 감소로 이어질 수 있다.
본 발명의 기본 아이디어는 HOA 입력 신호의 공간 특성과 관련된 DSHT의 공간 샘플링 그리드의 회전 및 DSHT 자체로 구성되는 적응 DSHT(aDSHT)를 이용하여 잡음 언마스킹 효과를 최소화하는 것이다.
HOA 계수()(수학식 36)의 수에 매칭하는 다수의 구면 위치()를 갖는 신호 적응 DSHT(aDSHT)가 이하에 기재된다. 먼저, 종래의 비적응 DSHT에서처럼 디폴트 구면 샘플 그리드가 선택된다. M개의 시간 샘플의 블록에 대하여, 구면 샘플 그리드는 항
의 로그가 최소화되도록 회전되고, 여기서, 는 (매트릭스 행 인덱스(l) 및 열 인덱스(j)를 갖는) 의 엘리먼트의 절대값이고 는 의 대각선 엘리먼트이다. 이것은 수학식 54의 항()을 최소화하는 것과 동일하다.
가시화하면, 이 프로세스는 도 4에 도시된 바와 같이 단일 공간 샘플 위치가 가장 강한 소스 방향에 매칭하는 방식으로 DSHT의 구면 샘플링 그리드의 회전에 대응한다. 수학식 45(B=Bg)로부터 간단한 테스트 신호를 이용하여, 수학식 55의 항(WSd)이 1을 제외하고 0과 근접한 모든 엘리먼트를 갖는 벡터()가 된다는 것을 알 수 있다. 결과적으로, 는 거의 대각선이 되고 원하는 SNR(SNRSd)이 유지될 수 있다.
도 4는 공간 도메인으로 변환된 테스트 신호(Bg)를 나타낸다. 도 4a)에서, 디폴트 샘플링 그리드가 사용되었고, 도 4b)에서, aDSHT의 회전된 그리드가 사용되었다. 공간 채널의 (dB 단위의) 관련된 값은 대응하는 샘플 위치 주변의 보로노이(Voronoi) 셀의 칼라/그레이 변화로 도시된다. 공간 구조의 각각의 셀은 샘플링 포인트를 나타내고 셀의 밝기/어두움은 신호 강도를 나타낸다. 도 4b)에서 알 수 있는 바와 같이, 가장 강한 소스 방향을 찾고 샘플링 그리드는 사이드 중의 하나(즉, 단일 공간 샘플 위치)가 가장 강한 소스 방향에 매칭하도록 회전되었다. 이 사이드는 (강한 소스 방향에 대응한) 백색으로 도시되지만, 다른 사이드는 (낮은 소스 방향에 대응하여) 어둡다. 도 4a)에서, 즉, 회전 전에, 가장 강한 소스 방향에 매칭하지 않는 사이드는 없고, 몇 개의 사이드는 거의 그레이이고, 이는 각각의 샘플링 포인트에서 상당한(그러나 최대는 아닌) 강도의 오디오 신호가 수신되는 것을 의미한다.
다음은 압축 인코더 및 디코더 내에서 사용되는 aDSHT의 주요 형성 블록을 설명한다.
인코더 및 디코더 처리 형성 블록(pE 및 pD)의 세부사항은 도 6에 도시된다. 양 블록은 DSHT를 위한 기본인 구면 샘플링 위치 그리드의 동일 코드북을 소유한다. 초기에, 계수()의 수는 공통 코드북에 따라 위치를 갖는 모듈(pE)에서 기본 그리드를 선택하는데 사용된다. 는 초기화를 위해 블록(pD)으로 송신되어 도 3에 지시된 바와 같이 동일한 기본 샘플링 위치 그리드를 선택해야 한다. 기본 샘플링 그리드는 매트릭스()로 기술되고, 여기서, 는 단위 구 상의 위치를 정의한다. 상술한 바와 같이, 도 5는 기본 그리드의 예를 나타낸다.
회전 탐색 블록(형성 블록 '최상의 회전 탐색')(320)으로의 입력은 계수 매트릭스(B)이다. 형성 블록은 수학식 57의 값이 최소가 되도록 기본 샘플링 그리드를 회전시키는 것을 책임진다. 회전은 '축-각(axis-angle)' 표현으로 표현되고, 이 회전과 관련된 압축된 축() 및 회전 각()은 사이드 정보(SI)로서 이 형성 블록으로 출력된다. 회전 축()은 원점으로부터 유닛 구 상의 위치로의 단위 벡터로 기술될 수 있다. 구면 좌표에서, 이는 송신할 필요가 없는 1의 암시적 관련 반경을 갖는 2개의 각()로 표현될 수 있다. 3개의 각()이 양자화되고 이전에 사용된 값의 재사용을 시그널링하여 사이드 정보(SI)를 생성하는 특수 탈출 패턴(special escape pattern)으로 엔트로피 코딩된다.
형성 블록 ' 형성'(330)은 회전 축 및 각을 및 으로 디코딩하고 이 회전을 기본 샘플링 그리드()에 적용하여 회전된 그리드()를 도출한다. 이는 벡터()로부터 도출된 iDSHT 매트릭스 를 출력한다.
디코딩 처리 블록(pD)의 형성 블록 ' 형성'(350)은 회전 축 및 각을 수신하여 및 으로 디코딩하고 이 회전을 기본 샘플링 그리드()에 적용하여 회전된 그리드()를 도출한다. iDSHT 매트릭스 는 벡터( )로 도출되고 DSHT 매트릭스()는 디코딩 측 상에서 산출된다.
다음에서, 압축 코덱의 전체 아키텍쳐를 포함하는 다양한 유리한 실시예가 기재된다. 제1 실시예는 단일 aDSHT를 사용한다. 제2 실시예는 스펙트럼 밴드에서 다수의 aDSHT를 사용한다.
제1(기본) 실시예가 도 7에 도시된다. 계수 채널(b(m))의 인덱스(m)을 갖는 HOA 시간 샘플은 먼저 버퍼(71)에 저장되어 M개의 샘플 및 시간 인덱스(μ)의 블록을 형성한다. B(μ)는 상술한 바와 같이 형성 블록(pE)(72) 내의 적응 iDSHT를 이용하여 공간 도메인으로 변환된다. 공간 신호 블록()은, AAC 또는 mp3 인코더 또는 단일 AAC 다채널 인코더( 채널)처럼, 오디오 압축 모노 인코더(73)에 입력된다. 비트스트림(S73)은 통합된 사이드 정보(SI) 또는 단일 다채널 비트스트림을 갖는 다수의 인코더 비트스트림 프레임의 멀티플렉싱된 프레임으로 구성되고, 사이드 정보(SI)는 보조 데이터로서 바람직하게 통합된다.
각각의 압축 디코더 형성 블록은 일 실시예에서 비트스트림을 비트스트림 및 사이드 정보(SI)로 디멀티플렉싱하고(S73) 비트스트림을 모노 디코더로 공급하여 그들을 M개의 샘플을 갖는 공간 오디오 채널로 디코딩하여 블록()을 형성하고 및 SI를 pD에 공급하는 디멀티플렉서(D1)를 포함한다. 비트스트림이 멀티플렉싱되지 않는 다른 실시예에서, 압축 디코더 형성 블록은, 비트스트림을 수신하여 그것을 다채널 신호()로 디코딩하고 SI를 디팩킹(depack)하고 및 SI를 pD에 공급하는 수신기(74)를 포함한다.
는 디코더 처리 블록(pD)(75)에서 SI를 갖는 적응 DSHT를 이용하여 계수 도메인으로 변환되어 HOA 신호(B(μ))의 블록을 형성하고, 이는 버퍼(76)에 저장되어 계수(b(m))의 시간 신호를 형성하도록 디프레이밍(deframe)된다.
상술한 제1 실시예는 소정의 조건 하에서 2개의 결점을 가질 수 있다. 첫째로, 공간 신호 분배의 변경 때문에, 이전의 블록으로부터(즉, 블록(μ)으로부터 블록(μ+1)까지)의 블록킹 아티팩트(blocking artifact)이 존재할 수 있다. 두번째로, 동시에 1보다 많은 강한 신호가 존재할 수 있고 aDSHT의 역상관 효과는 꽤 작다.
양 결점은 주파수 도메인에서 동작하는 제2 실시예에서 어드레싱된다. aDSHT가 스케일 팩터 밴드 데이터에 적용되어 다수의 주파수 밴드 데이터를 조합한다. 블록킹 아티팩트는 OLA(overlay add) 처리로 TFT(Time to Frequency Transform)의 중첩 블록에 의해 회피된다. 개선된 신호 역상관은 SIj를 송신하기 위하여 데이터 레이트에서의 증가된 오버헤드를 희생하여 J개의 스펙트럼 밴드 내에서 본 발명을 사용함으로써 달성될 수 있다.
도 9에 도시된 바와 같이, 제2 실시예의 임의의 더 많은 세부사항이 이하에 기재된다: 신호(b(m))의 각각의 계수 채널은 TFT(912)된다. 널리 사용되는 TFT에 대한 예는 MDCT(Modified Cosine Transform)이다. TFT 프레이밍 유닛(911)에서, 50% 중첩 데이터 블록(블록 인덱스(μ))이 구성된다. TFT 블록 변환 유닛(912)은 블록 변환을 수행한다. 스펙트럼 밴딩 유닛(913)에서, TFT 주파수 밴드가 결합되어 J개의 새로운 스펙트럼 밴드 및 관련 신호(Bj(μ))()를 형성하고, 여기서, KJ는 밴드(j) 내의 주파수 계수의 수를 나타낸다. 이들 스펙트럼 밴드는 복수의 처리 블록(914)에서 처리된다. 이들 스펙트럼 밴드의 각각에 대하여 신호() 및 사이드 정보(SIj)를 생성하는 하나의 처리 블록(pEj)이 존재한다. 스펙트럼 밴드는 (AAC/mp3 스케일 팩터 밴드처럼) 손실있는 오디오 압축 방법의 스펙트럼 밴드와 매칭하거나 매우 거친 그래뉼러리티를 가질 수 있다. 후자의 경우, TFT 블록이 없이 채널 독립 손실 오디오 압축(915)은 밴딩(banding)을 재배치할 필요가 있다. 처리 블록(914)은 각각의 오디오 채널에 일정한 비트 레이트를 할당하는 주파수 도메인 내의 다채널 오디오 인코더처럼 동작한다. 비트스트림은 비트스트림 팩킹 블록(916)에서 포맷화된다.
디코더는 비트스트림(적어도 그 일부)를 수신하거나 저장하고 이를 디팩킹(921)하여 TFT 없이 채널 독립 오디오 디코딩을 위해 오디오 데이터를 다채널 오디오 디코더(922)에 공급하고 사이드 정보(SIj)를 복수의 디코딩 처리 블록(pDj)(923)에 공급한다. TFT없이 채널 독립 오디오 디코딩을 위한 오디오 디코더(922)는 오디오 정보를 디코딩하고 디코딩 처리 블록(pDj)(923)으로의 입력으로서 J개의 스펙트럼 밴드 신호()를 포맷화하고, 이들 신호는 HOA 계수 도메인으로 변환되어 를 형성한다. 스펙트럼 디밴딩 블록(924)에서, J개의 스펙트럼 밴드는 재그룹화되어 TFT의 밴딩에 매칭한다. 이들은 iTFT 및 OLA 블록(925)에서 시간 도메인으로 변환되고, 이는 블록 중첩 OLA(overlay add) 처리를 이용한다. 마지막으로, iTFT 및 OLA 블록(925)의 출력은 TFT 디프레이밍 블록(926)에서 디프레이밍되어 신호()를 생성한다.
본 발명은 SNR 증가가 채널 간의 상호 상관으로부터 기인한다는 결과에 기초한다. 지각적인 코더는 단지 각각의 개별 단일 채널 신호 내에 발생하는 코딩 잡음 마스킹 효과를 고려한다. 그러나, 이러한 효과는 일반적으로 비선형이다. 따라서, 이러한 단일 채널을 새로운 신호로 매트릭스화하면, 잡음 언마스킹이 발생할 가능성이 있다. 이것은 매트릭스화 동작 후에 통상 코딩 잡음이 증가하는 이유이다.
본 발명은 원치않는 잡음 언마스킹 효과를 최소화하는 적응 DSHT에 의해 채널의 역상관을 제안한다. aDSHT는 압축 코더 및 디코더 아키텍쳐 내에서 통합된다. 이는 DSHT의 공간 샘플링 그리드를 HOA 입력 신호의 공간 특성으로 조절하는 회전 동작을 포함하기 때문에 적응적이다. aDSHT는 적응 회전 및 실제 종래의 DSHT를 포함한다. 실제 DSHT는 종래 기술에 기재된 바와 같이 구성될 수 있는 매트릭스이다. 적응 회전이 매트릭스에 적용되고, 이는 채널간 상관의 최소화로 이어지고, 그러므로, 매트릭스화후 SNR 증가의 최소화로 이어진다. 회전 축 및 각은 분석적이지 않게 자동화된 탐색 동작에 의해 탐색된다. 회전 축 및 각은 디코딩 후 및 매트릭스화 전의 재상관을 가능하게 하기 위하여 인코딩 및 송신되고, 역 적응 DSHT(iaDSHT)가 사용된다.
일 실시예에서, TTF 및 스펙트럼 밴딩이 수행되고 aDSHT/iaDSHT가 독립적으로 각각의 스펙트럼 밴드에 적용된다.
도 8a)는 본 발명의 일 실시예에서 잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 방법의 플로우챠트를 나타낸다. 도 8b)는 본 발명의 일 실시예에서 잡음 감소를 위한 다채널 HOA 오디오 신호를 디코딩하는 방법의 플로우챠트를 나타낸다.
도 8a)에 도시된 실시예에서, 잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 방법은 역 적응 DSHT을 이용하여 채널을 역상관하는 단계(81) - 역 적응 DSHT는 회전 동작 및 역 DSHT(812)를 포함하고, 회전 동작은 iDSHT의 공간 샘플링 그리드를 회전함(811) -, 역상관된 채널의 각각을 지각적으로 인코딩하는 단계(82), (사이드 정보(SI)로서) 회전 정보를 인코딩하는 단계(83) - 회전 정보는 상기 회전 동작을 정의하는 파라미터를 포함함 -, 및 지각적으로 인코딩된 오디오 채널 및 인코딩된 회전 정보를 송신 또는 저장하는 단계(84)를 포함한다.
일 실시예에서, 역 적응 DSHT는 초기 디폴트 구면 샘플 그리드를 선택하는 단계, 가장 강한 소스 방향을 결정하는 단계, M개의 시간 샘플의 블록에 대하여 구면 샘플 그리드를 회전하여 단일 공간 샘플 위치가 가장 강한 소스 방향에 매칭하도록 하는 단계를 포함한다.
일 실시예에서, 구면 샘플 그리드는 항:
의 로그가 최소화되도록 회전되고, 여기서, 는 (매트릭스 행 인덱스(l) 및 열 인덱스(j)를 갖는) 의 엘리먼트의 절대값이고 는 의 대각선 엘리먼트이고, 여기서, 이고 는 오디오 채널의 수×블록 처리 샘플의 수 매트릭스이고, 는 aDSHT의 결과이다.
도 8b)에 도시된 실시예에서, 감소된 잡음을 갖는 코딩된 다채널 HOA 오디오 신호를 디코딩하는 방법은 (사이드 정보(SI) 내의) 다채널 HOA 오디오 신호 및 채널 회전 정보를 수신하는 단계(85), 수신된 데이터를 압축 해제하는 단계(86) - 지각적 디코딩이 사용됨 -, 적응 DSHT를 이용하여 각 채널을 공간적으로 디코딩하는 단계(87) - DSHT(872) 및 상기 회전 정보에 따른 DSHT의 공간 샘플링 그리드의 회전(871)이 수행되고 지각적으로 디코딩된 채널이 역상관됨 -, 및 지각적으로 디코딩되고 역상관된 채널을 매트릭스화하는 단계(88) - 확성기 위치에 맵핑된 재생가능 오디오 신호가 얻어짐 - 를 포함한다.
일 실시예에서, 적응 DSHT는 적응 DSHT에 대한 초기 디폴트 구면 샘플 그리드를 선택하는 단계 및 M개의 시간 샘플의 블록에 대하여 상기 회전 정보에 따라 구면 샘플 그리드를 회전하는 단계를 포함한다.
일 실시예에서, 회전 정보는 3개의 각, 즉, 으로 구성된 벡터이고, 여기서, 는 구면 좌표 내의 1의 암시적 반경을 갖는 회전 축에 대한 정보를 정의하고, 는 이 축 주변의 회전 각을 정의한다.
일 실시예에서, 각은 양자화되고 사이드 정보(SI)를 생성하는 이전의 값의 재사용을 시그널링하는(즉, 지시하는) 탈출 패턴(escape pattern)(즉, 전용 비트 패턴)으로 엔트로피 코딩된다.
일 실시예에서, 잡음 감소를 위한 다채널 HOA 오디오 신호를 인코딩하는 장치는 역 적응 DSHT를 이용하여 채널을 역상관하는 역상관기 - 역 적응 DSHT는 회전 동작 및 역 DSHT(iDSHT)를 포함하고, 회전 동작은 iDSHT의 공간 샘플링 그리드를 회전함 -, 역상관된 채널의 각각을 지각적으로 인코딩하는 지각적 인코더, 회전 정보를 인코딩하는 사이드 정보 인코더 - 회전 정보는 상기 회전 동작을 정의하는 파라미터를 포함함 -, 및 지각적으로 인코딩된 오디오 채널 및 인코딩된 회전 정보를 송신 또는 저장하는 인터페이스를 포함한다.
일 실시예에서, 감소된 잡음을 갖는 다채널 HOA 오디오 신호를 디코딩하는 장치는 인코딩된 다채널 HOA 오디오 신호 및 채널 회전 정보를 수신하는 인터페이스 수단(330), 각각의 채널을 지각적으로 디코딩하는 지각적 디코더를 이용하여 수신된 데이터를 압축 해제하는 압축 해제 모듈(33), 지각적으로 디코딩된 채널을 재상관하는 상관기(34) - DSHT 및 상기 회전 정보에 따른 DSHT의 공간 샘플링 그리드의 회전이 수행됨 -, 및 지각적으로 디코딩되고 상관된 채널을 매트릭스화하는 믹서 - 확성기 위치에 맵핑된 재생가능 오디오 신호가 얻어짐 - 를 포함한다. 원리적으로, 상관기(34)는 공간 디코더로서 동작한다.
일 실시예에서, 감소된 잡음을 갖는 다채널 HOA 오디오 신호를 디코딩하는 장치는 인코딩된 다채널 HOA 오디오 신호 및 채널 회전 정보를 수신하는 인터페이스 수단(330), 각각의 채널을 지각적으로 디코딩하는 지각적 디코더로 수신된 데이터를 압축 해제하는 압축 해제 모듈(33), aDSHT를 이용하여 지각적으로 디코딩된 채널을 상관하는 상관기(34) - DSHT 및 상기 회전 정보에 따른 DSHT의 공간 샘플링 그리드의 회전이 수행됨 -, 및 지각적으로 디코딩되고 상관된 채널을 매트릭스화하는 믹서(MX) - 확성기 위치에 맵핑된 재생가능 오디오 신호가 얻어짐 - 를 포함한다.
일 실시예에서, 디코딩 장치 내의 적응 DSHT는 적응 DSHT에 대한 초기 디폴트 구면 샘플 그리드를 선택하는 수단, M개의 시간 샘플의 블록에 대하여 상기 회전 정보에 따라 디폴트 구면 샘플 그리드를 회전하는 회전 처리 수단, 및 회전된 구면 샘플 그리드에 대하여 DSHT를 수행하는 변환 처리 수단을 포함한다.
일 실시예에서, 디코딩 장치 내의 상관기(34)는 적응 DSHT를 이용하여 각 채널을 동시에 공간적으로 디코딩하는 복수의 공간 디코딩 유닛(922)를 포함하고, 스펙트럼 디밴딩을 수행하는 스펙트럼 디밴딩 유닛(924) 및 OLA(overlay Add) 처리로 역 TFT를 수행하는 iTFT 및 OLA 유닛(925)를 더 포함하고, 스펙트럼 디밴딩 유닛은 iTFT 및 OLA 유닛에 그 출력을 제공한다.
모든 실시예에서, 감소된 잡음이라는 용어는 적어도 코딩 잡음 언마스킹의 회피에 관한 것이다.
오디오 신호의 지각적 코딩은 오디오의 인간 지각에 적응되는 코딩을 의미한다. 오디오 신호를 지각적으로 코딩할 때, 양자화는 통상 베이스밴드 오디오 신호 샘플에 대하여 수행되지 않고 오히려 인간 지각에 관련된 개별 주파수 밴드에서 수행된다는 것에 유의해야 한다. 그러므로, 신호 전력 및 양자화 잡음 간의 비는 개별 주파수 밴드마다 변할 수 있다. 그러므로, 지각적 코딩은 통상 리던던시 및/또는 무관(irrelevancy) 정보의 감소를 포함하지만, 공간 코딩은 통상 채널 간의 공간 관계에 관한 것이다.
상술한 기술은 KLT(Karhunen-Loeve-Transformation)를 이용하는 역상관에 대한 대안으로서 간주될 수 있다. 본 발명의 하나의 이점은 딱 3개의 각을 포함하는 사이드 정보의 양의 강한 감소이다. KLT는 사이드 정보로서 블록 상관 매트릭스의 계수를 요구하고, 따라서, 상당히 많은 데이터를 요구한다. 또한, 여기에 개시된 기술은 다음의 처리 블록으로 진행할 때 천이 아티팩트(transition artifact)를 감소시키기 위하여 비틀기(tweaking)(또는 미세 조정(fine-tuning)을 허용한다. 이것은 후속의 지각적 코딩의 압축 품질에 유리하다.
표 1은 aDSHT 및 KLT 간의 직접 비교를 제공한다. 약간의 유사성이 존재하지만, aDSHT는 KLT보다 상당한 이점을 제공한다.
sDSHT | KLT | |
정의 | B는 (N+1)2 행(계수) 및 T 열(시간 샘플)을 갖는 N차 HOA 신호 매트릭스; W는 (N+1)2 행(채널) 및 T 열(시간 샘플)을 갖는 공간 매트릭스 | |
인코더, 공간 변환 | 역 aDSHT |
KLT |
변환 매트릭스 | 인코더 및 디코더에 알려진 (N+1)2 구면 샘플 위치를 갖는 규칙적인 구면 샘플링 그리드가 선택된다. 이 그리드는 축() 및 회전각() 주위를 회전하고, 이는 이전에 도출되었다(이하의 리마크 참조). 그 그리드의 모드 매트릭스()가 생성된다(즉, 이들 위치의 구면 조화): (또는 공간 채널의 수가 (N+1)2 보다 커지면 를 갖는 더 일반적인). 변환 매트릭스는 회전된 구면 그리드의 역 모드 매트릭스이다. 회전은 신호 구동되고 처리 블록마다 업데이트된다. | 공분산 매트릭스: 를 형성. 고유치 분해: A의 대각선의 고유치 및 KH 내에 배치된 관련된 고유 벡터를 갖고, 임의의 직교 변환 내에서 처럼 KKH=1를 갖는다. 변환 매트릭스는 처리 블록마다 신호(B)로부터 도출된다. |
송신될 사이드 정보 | 축() 및 회전각()이 예를 들어 3개의 값()으로서 코딩된다. | C의 엘리먼트의 절반보다 많음(즉, 값) 또는 K(즉, (N+1)4 값) |
손실있는 분해 공간 신호 | 공간 신호는 손실 코딩된다(코딩 잡음(Ecod)). T개의 샘플의 블록은 로서 배치된다. | 공간 신호는 손실 코딩된다(코딩 잡음()). T개의 샘플들의 블록은 로서 배치된다. |
디코더, 역 공간 변환 | ||
리마크 | 일 실시예에서, 그리드는 샘플링 위치가 B 내의 가장 강한 신호 방향에 매칭하도록 회전한다. KLT에 대하여 이용가능한 것처럼, 공분산 매트릭스의 분석이 사용될 수 있다. 실제로, 더 간단하고 계산적으로 덜 복잡하기 때문에, 블록마다 원활하게 회전을 적응/변경하도록 하는 신호 트랙킹 모델이 이용될 수 있고, 이는 손실있는 (지각적인) 코딩 블록 내의 블록킹 아티팩트의 생성을 피한다. |
본 발명의 기본적인 신규한 특징이 바람직한 실시예에 적용되는 것으로 도시되고, 기재되고 지시되지만, 개시된 장치의 형태 및 세부 사항 및 그 동작에 있어서 기재된 장치 및 방법의 다양한 생략 및 대체 및 변경이 본 발명의 사상을 벗어나지 않고 통상의 기술자에 의해 가능하다. 실질적으로 동일한 방식으로 실질적으로 동일한 기능을 수행하여 동일한 결과를 달성하는 이들 엘리먼트의 모든 조합이 본 발명의 범위 내에 있다. 기재된 하나의 실시예로부터 다른 실시예로의 엘리먼트의 대체가 또한 의도되고 고려된다.본 발명은 예로서 단순히 기재되고 본 발명의 범위를 벗어나지 않고 세부사항의 변경이 가능함을 이해할 것이다.
설명 및 (적절하다면) 청구범위 및 도면에 개시된 각각의 특징은 독립적으로 또는 임의의 적절한 조합으로 제공될 수 있다.
적절하다면, 특징은 하드웨어, 소프트웨어 또는 그 조합으로 구현될 수 있다. 적용가능하다면, 접속은 무선 접속 또는 유선 접속으로 구현될 수 있고, 반드시 직접이거나 전용은 아닐 수 있다.
청구범위에 나타내는 참조 번호는 단지 예시적인 것으로 청구범위의 범위에 대한 제한적 효과를 갖지 않는다.
인용 문헌
Claims (6)
- 인코딩된 HOA(higher order ambisonics) 오디오 신호들을 디코딩하는 방법으로서,
상기 인코딩된 HOA 오디오 신호들 및 회전 정보를 수신하는 단계;
상기 인코딩된 HOA 오디오 신호들에 대응하는 HOA 표현들을 결정하기 위해 지각적인 디코딩에 기초하여 상기 인코딩된 HOA 오디오 신호들을 압축 해제하는 단계;
상기 회전 정보와 연관된 구면 샘플 그리드의 회전에 기초하여 회전된 변환을 결정하는 단계; 및
상기 회전된 변환 및 상기 HOA 표현에 기초하여 회전된 HOA 표현을 결정하는 단계
를 포함하는 방법. - 제1항에 있어서,
상기 회전된 변환은:
디폴트 구면 샘플 그리드를 선택하고;
M개의 시간 샘플들의 블록에 대하여, 회전된 구면 샘플 그리드를 결정하기 위해 회전 정보에 기초하여 상기 디폴트 구면 샘플 그리드를 회전시키고; 그리고
상기 회전된 구면 샘플 그리드에 대한 모드 매트릭스를 결정하는 것에 기초하여 결정되는, 방법. - 인코딩된 HOA 오디오 신호들을 디코딩하는 장치로서,
상기 인코딩된 HOA 오디오 신호들 및 회전 정보를 수신하기 위한 수신기; 및
디코더를 포함하고, 상기 디코더는:
상기 인코딩된 HOA 오디오 신호들에 대응하는 HOA 표현들을 결정하기 위해 지각적인 디코딩에 기초하여 상기 인코딩된 HOA 오디오 신호들을 압축 해제하고;
상기 회전 정보와 연관된 구면 샘플 그리드의 회전에 기초하여 회전된 변환을 결정하고; 그리고
상기 회전된 변환 및 상기 HOA 표현에 기초하여 회전된 HOA 표현을 결정하도록 구성되는, 장치. - 제4항에 있어서,
상기 디코더는 새로운 변환을 위한 디폴트 구면 샘플 그리드의 선택; M개의 시간 샘플들의 블록에 대하여, 회전된 구면 샘플 그리드를 결정하기 위한 상기 회전 정보에 따른 상기 디폴트 구면 샘플 그리드의 회전; 및 상기 회전된 구면 샘플 그리드에 대한 모드 매트릭스의 결정에 기초하여 상기 회전된 변환을 결정하도록 구성되는, 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020207034592A KR102340930B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12305861.2A EP2688066A1 (en) | 2012-07-16 | 2012-07-16 | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
EP12305861.2 | 2012-07-16 | ||
PCT/EP2013/065032 WO2014012944A1 (en) | 2012-07-16 | 2013-07-16 | Method and apparatus for encoding multi-channel hoa audio signals for noise reduction, and method and apparatus for decoding multi-channel hoa audio signals for noise reduction |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157000876A Division KR102126449B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034592A Division KR102340930B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200077601A true KR20200077601A (ko) | 2020-06-30 |
KR102187936B1 KR102187936B1 (ko) | 2020-12-07 |
Family
ID=48874263
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034592A KR102340930B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020247018653A KR20240091351A (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020157000876A KR102126449B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020207017672A KR102187936B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020217041058A KR20210156311A (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207034592A KR102340930B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020247018653A KR20240091351A (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
KR1020157000876A KR102126449B1 (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217041058A KR20210156311A (ko) | 2012-07-16 | 2013-07-16 | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (4) | US9460728B2 (ko) |
EP (4) | EP2688066A1 (ko) |
JP (4) | JP6205416B2 (ko) |
KR (5) | KR102340930B1 (ko) |
CN (6) | CN107403626B (ko) |
TW (4) | TWI674009B (ko) |
WO (1) | WO2014012944A1 (ko) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
JP6279569B2 (ja) | 2012-07-19 | 2018-02-14 | ドルビー・インターナショナル・アーベー | マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置 |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US10499176B2 (en) | 2013-05-29 | 2019-12-03 | Qualcomm Incorporated | Identifying codebooks to use when coding spatial components of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US20150127354A1 (en) * | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
EP2879408A1 (en) * | 2013-11-28 | 2015-06-03 | Thomson Licensing | Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition |
US9489955B2 (en) * | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
EP2922057A1 (en) | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
KR102201961B1 (ko) * | 2014-03-21 | 2021-01-12 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
EP3120352B1 (en) | 2014-03-21 | 2019-05-01 | Dolby International AB | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
EP2934025A1 (en) * | 2014-04-15 | 2015-10-21 | Thomson Licensing | Method and device for applying dynamic range compression to a higher order ambisonics signal |
KR102201027B1 (ko) * | 2014-03-24 | 2021-01-11 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스 |
CN103888889B (zh) * | 2014-04-07 | 2016-01-13 | 北京工业大学 | 一种基于球谐展开的多声道转换方法 |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) * | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
EP2960903A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
KR20230162157A (ko) * | 2014-06-27 | 2023-11-28 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
CN117636885A (zh) | 2014-06-27 | 2024-03-01 | 杜比国际公司 | 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法 |
US9922657B2 (en) * | 2014-06-27 | 2018-03-20 | Dolby Laboratories Licensing Corporation | Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
US9838819B2 (en) * | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
EP2980789A1 (en) | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
US9736606B2 (en) * | 2014-08-01 | 2017-08-15 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US9984693B2 (en) | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
EP3007167A1 (en) * | 2014-10-10 | 2016-04-13 | Thomson Licensing | Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field |
US20180082693A1 (en) * | 2015-04-10 | 2018-03-22 | Thomson Licensing | Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation |
WO2017085140A1 (en) * | 2015-11-17 | 2017-05-26 | Dolby International Ab | Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal |
HK1221372A2 (zh) * | 2016-03-29 | 2017-05-26 | 萬維數碼有限公司 | 種獲得空間音頻定向向量的方法、裝置及設備 |
CN109416912B (zh) * | 2016-06-30 | 2023-04-11 | 杜塞尔多夫华为技术有限公司 | 一种对多声道音频信号进行编码和解码的装置和方法 |
GB2554446A (en) * | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Spatial audio signal format generation from a microphone array using adaptive capture |
EP3616196A4 (en) * | 2017-04-28 | 2021-01-20 | DTS, Inc. | AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS |
CN110832884B (zh) * | 2017-07-05 | 2022-04-08 | 索尼公司 | 信号处理装置和方法以及计算机可读存储介质 |
US10944568B2 (en) * | 2017-10-06 | 2021-03-09 | The Boeing Company | Methods for constructing secure hash functions from bit-mixers |
US10714098B2 (en) * | 2017-12-21 | 2020-07-14 | Dolby Laboratories Licensing Corporation | Selective forward error correction for spatial audio codecs |
CN111210831B (zh) * | 2018-11-22 | 2024-06-04 | 广州广晟数码技术有限公司 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
EP3915106A1 (en) * | 2019-01-21 | 2021-12-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
US11388416B2 (en) * | 2019-03-21 | 2022-07-12 | Qualcomm Incorporated | Video compression using deep generative models |
US11729406B2 (en) * | 2019-03-21 | 2023-08-15 | Qualcomm Incorporated | Video compression using deep generative models |
IL289261B2 (en) | 2019-07-02 | 2024-07-01 | Dolby Int Ab | Methods, devices and systems for displaying, encoding and interpreting discontinuous directional data |
CN110544484B (zh) * | 2019-09-23 | 2021-12-21 | 中科超影(北京)传媒科技有限公司 | 高阶Ambisonic音频编解码方法及装置 |
CN110970048B (zh) * | 2019-12-03 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001275197A (ja) * | 2000-03-23 | 2001-10-05 | Seiko Epson Corp | 音源選択方法および音源選択装置並びに音源選択制御プログラムを記録した記録媒体 |
GB2379147B (en) * | 2001-04-18 | 2003-10-22 | Univ York | Sound processing |
FR2847376B1 (fr) * | 2002-11-19 | 2005-02-04 | France Telecom | Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede |
DE10328777A1 (de) * | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
US8238561B2 (en) * | 2005-10-26 | 2012-08-07 | Lg Electronics Inc. | Method for encoding and decoding multi-channel audio signal and apparatus thereof |
WO2007104882A1 (fr) * | 2006-03-15 | 2007-09-20 | France Telecom | Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal |
EP2070390B1 (en) * | 2006-09-25 | 2011-01-12 | Dolby Laboratories Licensing Corporation | Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
FR2916079A1 (fr) * | 2007-05-10 | 2008-11-14 | France Telecom | Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes |
FR2916078A1 (fr) * | 2007-05-10 | 2008-11-14 | France Telecom | Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes |
WO2009081406A2 (en) * | 2007-12-26 | 2009-07-02 | Yissum, Research Development Company Of The Hebrew University Of Jerusalem | Method and apparatus for monitoring processes in living cells |
EP2094032A1 (en) * | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
BRPI0910511B1 (pt) * | 2008-07-11 | 2021-06-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para decodificar e codificar um sinal de áudio |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
GB2478834B (en) * | 2009-02-04 | 2012-03-07 | Richard Furse | Sound system |
FR2943867A1 (fr) * | 2009-03-31 | 2010-10-01 | France Telecom | Traitement d'egalisation de composantes spatiales d'un signal audio 3d |
US9020152B2 (en) * | 2010-03-05 | 2015-04-28 | Stmicroelectronics Asia Pacific Pte. Ltd. | Enabling 3D sound reproduction using a 2D speaker arrangement |
WO2011117399A1 (en) * | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
NZ587483A (en) * | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
US9271081B2 (en) * | 2010-08-27 | 2016-02-23 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2560161A1 (en) * | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
CN103165136A (zh) * | 2011-12-15 | 2013-06-19 | 杜比实验室特许公司 | 音频处理方法及音频处理设备 |
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
-
2012
- 2012-07-16 EP EP12305861.2A patent/EP2688066A1/en not_active Withdrawn
-
2013
- 2013-07-12 TW TW106123691A patent/TWI674009B/zh active
- 2013-07-12 TW TW109108444A patent/TWI723805B/zh active
- 2013-07-12 TW TW102125017A patent/TWI602444B/zh active
- 2013-07-12 TW TW108124752A patent/TWI691214B/zh active
- 2013-07-16 CN CN201710829638.XA patent/CN107403626B/zh active Active
- 2013-07-16 KR KR1020207034592A patent/KR102340930B1/ko active IP Right Grant
- 2013-07-16 EP EP20208589.0A patent/EP3813063A1/en active Pending
- 2013-07-16 KR KR1020247018653A patent/KR20240091351A/ko active Application Filing
- 2013-07-16 CN CN201380036698.6A patent/CN104428833B/zh active Active
- 2013-07-16 CN CN201710829639.4A patent/CN107424618B/zh active Active
- 2013-07-16 KR KR1020157000876A patent/KR102126449B1/ko active IP Right Grant
- 2013-07-16 WO PCT/EP2013/065032 patent/WO2014012944A1/en active Application Filing
- 2013-07-16 CN CN201710829636.0A patent/CN107591160B/zh active Active
- 2013-07-16 CN CN201710829605.5A patent/CN107591159B/zh active Active
- 2013-07-16 KR KR1020207017672A patent/KR102187936B1/ko active IP Right Grant
- 2013-07-16 US US14/415,571 patent/US9460728B2/en active Active
- 2013-07-16 CN CN201710829618.2A patent/CN107403625B/zh active Active
- 2013-07-16 EP EP13740235.0A patent/EP2873071B1/en active Active
- 2013-07-16 EP EP17205327.4A patent/EP3327721B1/en active Active
- 2013-07-16 KR KR1020217041058A patent/KR20210156311A/ko active Application Filing
- 2013-07-16 JP JP2015522077A patent/JP6205416B2/ja active Active
-
2016
- 2016-09-26 US US15/275,699 patent/US9837087B2/en active Active
-
2017
- 2017-08-24 US US15/685,252 patent/US10304469B2/en active Active
- 2017-09-04 JP JP2017169358A patent/JP6453961B2/ja active Active
-
2018
- 2018-12-13 JP JP2018233042A patent/JP6676138B2/ja active Active
-
2019
- 2019-05-20 US US16/417,480 patent/US10614821B2/en active Active
-
2020
- 2020-03-11 JP JP2020041510A patent/JP6866519B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2469742A2 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
KR20120070521A (ko) * | 2010-12-21 | 2012-06-29 | 톰슨 라이센싱 | 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
Jorge TREVINO, et al. High order Ambisonic decoding method for irregular loudspeaker arrays. Proceedings of 20th International Congress on Acoustics. 2010. pp. 23-27. * |
Robert E. Davis, et al. A Simple and Efficient Method for Real-Time Computation and Transformation of Spherical Harmonic based Sound Fields. Audio Engineering Society. 2012.10.26. * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102126449B1 (ko) | 잡음 감소를 위한 다채널 hoa 오디오 신호를 인코딩하는 방법 및 장치와, 잡음 감소를 위한 다채널 hoa 오디오 신호를 디코딩하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |