KR20200091880A - 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 - Google Patents
양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR20200091880A KR20200091880A KR1020207017247A KR20207017247A KR20200091880A KR 20200091880 A KR20200091880 A KR 20200091880A KR 1020207017247 A KR1020207017247 A KR 1020207017247A KR 20207017247 A KR20207017247 A KR 20207017247A KR 20200091880 A KR20200091880 A KR 20200091880A
- Authority
- KR
- South Korea
- Prior art keywords
- parameter
- parameters
- quantized
- encoded
- spreading
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 150
- 238000013139 quantization Methods 0.000 title claims description 123
- 230000007480 spreading Effects 0.000 claims abstract description 233
- 238000009792 diffusion process Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 240000007594 Oryza sativa Species 0.000 claims description 2
- 235000007164 Oryza sativa Nutrition 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 235000009566 rice Nutrition 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 25
- 238000012935 Averaging Methods 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 230000002123 temporal effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 7
- 230000007123 defense Effects 0.000 description 6
- 238000004091 panning Methods 0.000 description 5
- CXENHBSYCFFKJS-OXYODPPFSA-N (Z,E)-alpha-farnesene Chemical compound CC(C)=CCC\C(C)=C\C\C=C(\C)C=C CXENHBSYCFFKJS-OXYODPPFSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 229910052709 silver Inorganic materials 0.000 description 3
- 239000004332 silver Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
확산 파라미터들(diffuseness parameters) 및 방향 파라미터들(direction parameters)을 포함하는 방향성 오디오 코딩(directional audio coding) 파라미터들을 인코딩 하기 위한 장치에 있어서, 상기 방향 파라미터들 및 상기 확산 파라미터들을 양자화하기 위한 파라미터 양자화기(parameter quantizer) (210); 양자화된 방향 파라미터들 및 양자화된 확산 파라미터들을 인코딩하기 위한 파라미터 인코더(parameter encoder) (220); 및 인코딩된 방향 파라미터들 및 인코딩된 확산 파라미터들에 대한 정보를 포함하는 인코딩된 파라미터 표현을 발생시키기 위한 출력 인터페이스(output interface) (230)를 포함하는, 장치.
Description
본 발명은 본 발명은 오디오 신호 처리에 관한 것으로, 특히 DirAC 메타 데이터와 같은 방향성 오디오 코딩 파라미터의 효율적인 코딩 스킴(scheme)에 관한 것이다.
본 발명은 공간 오디오 처리(spatial audio processing)를 위한 지각적으로 유도되는 기술(perceptually motivated technique)인 방향성 오디오 코딩(Directional Audio Coding; DirAC)에 의해 수행된 3D오디오 씬 분석(3D audio scene analysis)으로부터 공간 메타데이터를 코딩하기 위한 낮은 비트 레이트 코딩 솔루션을 제안하는 것을 목표로 한다.
오디오 씬(audio scene)을 3차원으로 전송하는 것은 일반적으로 많은 양의 전송할 데이터를 낳는 여러 채널들을 처리하는 것을 요구한다. 방향성 오디오 코딩(DirAC) 기술[1]은 상기 오디오 씬을 분석하고 그것을 파라미터에 의해 표현하기 위한 효율적인 접근법이다. DirAC은 주파수 대역 당 측정된 확산 및 도달 방향(direction of arrival; DOA)에 기초하여 사운드 필드(sound field)의 지각적으로 유도된 표현(perceptually motivated representation)을 사용한다. 한 시간 순간(one time instant)에 그리고 하나의 임계 대역(critical band)에 대해, 청각 시스템의 공간 해상도는 방향에 대해 하나의 큐를 및 인터-오럴 코히어런스(inter-aural coherence)에 대해 다른 하나의 큐를 디코딩하는 것으로 제한된다는 가정에 기초한다. 공간적 사운드는 비 방향성 확산 스트림(non-directional diffuse stream) 및 방향성 비 확산 스트림(directional non-diffuse stream)이라는 두 개의 스트림을 교차 페이딩(cross-fading)함으로써 주파수 영역에서 재생(reproduction)된다.
본 발명은 낮은 비트 레이트로 몰입형 오디오 콘텐트(immersive audio content)의 전송을 달성하기 위한 상기 DirAC 사운드 표현 및 재생에 기초한 3D 오디오 코딩 방법을 개시한다.
DirAC은 지각적으로 유도되는 공간 사운드 재생이다. 하나의 순간 및 하나의 임계 대역에 대해, 상기 청각 시스템의 공간 해상도는 방향에 대해 하나의 큐를 및 인터-오럴 코히어런스(inter-aural coherence)에 대해 다른 하나의 큐를 디코딩하는 것으로 제한된다고 가정된다.
이러한 가정에 기초하여, DirAC은 비 방향성 확산 스트림(non-directional diffuse stream) 및 방향성 비 확산 스트림(directional non-diffuse stream)이라는 두 개의 스트림을 교차 페이딩(cross-fading)함으로써 하나의 주파수 대역에서 공간 사운드를 나타낸다. 상기 DirAC 처리는 도 10a 및 10b에 도시된 바와 같이 분석 및 합성이라는 두 가지 단계들(phases)로 수행된다.
DirAC 분석 단계에서 B-포맷의 1차 일치 마이크로폰(first-order coincident microphone)이 입력으로 간주되고 사운드의 도달의 방향 및 확산은 주파수 도메인에서 분석된다.
DirAC 합성 단계에서, 사운드는 비 확산 스트림과 확산 스트림의 두 스트림으로 나뉜다. 상기 비 확산 스트림은 벡터 베이스 진폭 패닝(vector base amplitude panning; VBAP)[2]을 사용하여 수행될 수 있는 진폭 패닝을 사용하여 점 소스(point sources)로서 재생된다. 상기 확산 스트림은 엔벨롭먼트(envelopment)의 감각(sensation)을 담당하고 상호 역 상관된 신호들(mutually decorrelated signals)을 라우드 스피커들(loudspeakers)로 전달함으로써 생성된다.
다음에서 공간 메타 데이터(spatial metadata) 또는 DirAC 메타 데이터라고도 하는 상기 DirAC파라미터들은 확산과 방향의 튜플들(tuples)로 구성된다. 방향은 방위각과 고도 두 개의 각에 의해 구면 좌표로 표시될 수 있고, 확산은 0과 1사이 스칼라 팩터(factor)이다.
도 10a는 B-포맷 입력 신호(B-format input signal)를 수신하는 필터 뱅크(filter bank)(130)를 도시한다. 에너지 분석(132) 및 강도 분석(intensity analysis)(134)이 수행된다. 136에 표시된 에너지 결과들에 대한 시간 평균화(temporal averaging) 및 138에 표시된 강도 결과들에 대한 시간 평균화가 수행되고, 평균 데이터로부터, 110에서 표시된 바와 같이 개별적 시간/주파수 빈들(bins)에 대한 확산 값들이 계산된다. 필터 뱅크(130)의 시간 또는 주파수 해상도로 주어진 상기 시간/주파수 빈들에 대한 방향 값들은 블록(120)에 의해 계산된다.
도 10b에 도시된 DirAC 합성(synthesis)에서, 분석 필터 뱅크(analysis filter bank) (431)가 다시 사용된다. 가상 마이크로폰 처리 블록(virtual microphone processing block)(421)이 적용되고, 상기 가상 마이크로폰들은, 예를 들어, 5.1 라우드 스피커 셋업(loudspeaker setup)의 라우드 스피커 위치에 대응한다. 상기 확산 메타 데이터는 대응하는 처리 블록(422) 및 블록 (423)에 표시된 VBAP (벡터 기반 진폭 패닝) 이득 테이블에 의해 처리된다. 라우드 스피커 평균화 블록(loudspeaker averaging block)(424)은 이득 평균화를 수행하도록 구성되고, 대응하는 정규화 블록(normalization block)(425)은 개별 최종 라우드 스피커 신호에서 대응하는 정의된 라우드니스 레벨들(loudness levels)을 갖도록 적용된다. 블록(426)에서 마이크로폰 보상(microphone compensation)이 수행된다.
결과적인 신호들(resulting signals)은 한편, 역 상관 단계(decorrelation stage)를 포함하는 확산 스트림(diffuse stream)(427)을 발생시키기 위해 사용되고, 추가적으로, 비 확산 스트림(non-diffuse stream)(428)이 또한 발생된다. 상기 두 스트림 모두는 대응하는 부 대역(sub-band)에 대해 가산기(429)에서 더해지고, 블록(431)에서, 다른 부 대역들과의 가산(addition), 즉, 주파수-시간 변환이 수행된다. 따라서, 블록(431)은 또한 합성 필터 뱅크(synthesis filter bank)인 것으로 간주될 수 있다. 특정 라우드 스피커 셋업으로부터 다른 채널들에 대해서도 유사한 처리 동작들이 수행되고, 다른 채널에 대해서는 블록(421)에서의 가상 마이크로폰의 셋업이 상이할 것이다.
DirAC 분석 단계에서 B-포맷의 제1차 일치 마이크로폰은 입력으로 간주되고 사운드의 확산 및 도달 방향은 주파수 영역에서 분석된다.
상기 DirAC 합성 단계에서, 사운드는 상기 비확산 스트림과 상기 확산 스트림의 두 스트림으로 나뉜다. 상기 비확산 스트림은 벡터베이스 진폭 패닝 (vector base amplitude panning; VBAP)을 사용하여 수행될 수 있는 진폭 패닝(amplitude panning)을 사용하여 점 소스들(point sources)로 재생(reproduced)된다[2]. 상기 확산 스트림은 엔벨롭먼트(envelopment)의 감각을 담당하고 및 상호 역 상관된 신호들을 상기 라우드 스피커로 전달함으로써 생성된다.
다음에서 공간 메타 데이터 또는 DirAC 메타 데이터라고도 하는 DirAC 파라미터들은 확산 및 방향의 튜플로 구성된다. 방향은 방위각과 고도 두 개의 각에 의해 구면 좌표로 표시될 수 있고, 확산은 0과 1사이 스칼라 팩터(factor)이다.
STFT가 일반적으로 여러 논문에서 권장되며 인접한 분석 윈도우(analysis windows) 사이에서 50%의 오버랩을 갖는 20ms의 시간 해상도를 가진 시간-주파수 변환으로 간주되는 경우, DirAC 분석은 48kHz로 샘플링된 입력에 대해 초당 288000 값들을 생성할 것이고, 이는 각(angles)이 8비트로 양자화되는 경우 약 2.3 Mbit/s의 총 비트 레이트에 대응한다. 데이터의 양은 낮은 비트 레이트 공간 오디오 코딩(low bit-rate spatial audio coding)을 달성하기에 적합하지 않고, 상기 DirAC 메타 데이터의 효율적인 코딩 방식이 필요하다.
메타 데이터 감소에 관한 이전의 연구는 주로 텔레컨퍼런스 시나리오(teleconference scenarios)에 중점을 두었고, DirAC의 역량은 파라미터들의 최소 데이터 속도를 허용하기 위해 크게 감소했다 [4]. 실제로, 2D 오디오 씬(2D audio scene)만을 재생하기 위해 방향 분석을 수평 평면의 방위로 제한하는 것이 제안된다. 더 나아가, 확산 및 방위각은 최대 7kHz로 전송되고 광대역 스피치(wideband speech)로의 통신이 제한된다. 마지막으로, 배경 노이즈에 걸쳐 복수의 스피치와 다중 오디오 소스들을 고려할 때 일반적으로 충분하지 않은 상기 합성 단계에서 단지 상기 확산 스트림을 때때로 턴 온(turn-on) 또는 턴-오프(turn-off)하는 것에 의해 상기 확산은 하나 또는 두개의 비트들로 개략적으로(coarsely) 양자화된다. [4]에서, 상기 방위는 3비트들로 양자화되고 및 스피커의 경우 상기 소스(source)는 매우 정적인 위치를 갖는다고 가정했다. 따라서, 파라미터들은 50ms 업데이트 빈도(frequency)로만 전송된다. 이러한 많은 강력한 가정들에 기초하여, 비트들에 대한 요구는 약 3 kbit/s로 감소될 수 있다.
본 발명의 목적은 개선된 공간 오디오 코딩 개념을 제공하는 것이다.
이 목적은 청구항 제1항의 방향성 오디오 코딩 파라미터를 인코딩하기 위한 장치, 청구항 제28항의 방향성 오디오 코딩 파라미터를 인코딩하는 방법, 청구항 제29항의 인코딩된 오디오 신호를 디코딩하기 위한 디코더, 청구항 제46항의 디코딩 방법 또는 제 47 항의 컴퓨터 프로그램에 의해 달성될 수 있다.
일 측면에 따르면, 본 발명은 한편으로는 상기 확산 파라미터들과 다른 한편으로는 상기 방향 파라미터들이 상이한 해상도로 제공되고 상이한 해상도를 갖는 상이한 파라미터들이 상기 인코딩된 방향성 오디오 코딩 파라미터들을 획득하기 위해 양자화되고 인코딩 될 때 한편으로는 높아진 품질과 동시에 다른 한편으로는 공간 오디오 코딩 파라미터들을 인코딩하기 위한 감소된 비트 레이트가 획득된다는 것을 발견하는 것에 기초한다.
일 실시예에서, 상기 확산 파라미터들에 대한 상기 시간 또는 주파수 해상도는 상기 방향 파라미터들의 상기 시간 또는 주파수 해상도보다 낮다. 다른 실시예에서, 주파수에 대한 그룹화(grouping)뿐만 아니라 시간에 따른 그룹화가 수행된다. 오리지널 확산/방향성 오디오 코딩 파라미터들(original diffuseness/directional audio coding parameters)은 예를 들어, 고해상도 시간/주파수 빈들에 대해 높은 해상도로 계산되고, 그룹화 및 바람직하게는 평균화를 갖는 그룹화는 낮은 시간 또는 주파수 해상도로 결과적인 확산 파라미터(resulting diffuseness)를 계산하고 중간 시간 또는 주파수 해상도로 결과적인 방향성 파라미터(resulting directional parameter)를 계산하기 위해 수행된다, 즉, 확산 파라미터에 대한 시간 또는 주파수 해상도와 오리지널 로우 파라미터들(original raw parameters)이 계산된 오리지널 높은 해상도 사이의 시간 또는 주파수 해상도로 계산하기 위해 수행된다.
실시예들에서, 상기 제1 및 제2 시간 해상도들이 상이하고, 상기 제1 및 제2 주파수 해상도들이 동일하거나, 또는 그 반대이다, 즉, 상기 제1 및 제2 주파수 해상도들은 상이하지만 제1 및 제2 시간 해상도들은 동일하다. 다른 실시예에서, 상기 제1 및 제2 시간 해상도들은 모두 상이하고 상기 제1 및 제2 주파수 해상도들 또한 상이하다. 따라서, 상기 제1 시간 또는 주파수 해상도(first time or frequency resolution)는 또한 제1 시간-주파수 해상도(first time-frequency resolution)로 간주될 수 있고 상기 제2 시간 또는 주파수 해상도(second time or frequency resolution)는 또는 제2 시간-주파수 해상도(second time-frequency resolution)로 간주될 수 있다.
다른 실시예에서, 상기 확산 파라미터들의 그룹화는 가중 가산으로 수행되며, 상기 가중 가산에 대한 가중 계수는 상기 오디오 신호의 파워에 기초하여 결정되어 시간/주파수 빈이 더 높은 파워를 갖거나, 또는 일반적으로 상기 오디오 신호에 대한 더 높은 진폭 관련 치수(amplitude-related measure)은 분석될 상기 신호가 더 낮은 파워 또는 더 낮은 에너지 관련 치수(energy-related measure)를 갖는 시간/주파수 빈에 대한 확산 파라미터보다 결과에 더 큰 영향을 미친다.
상기 그룹화된 방향성 파라미터들의 계산을 위해 투폴드 가중 평균화(two-fold weighted averaging)를 수행하는 것이 추가적으로 바람직하다. 상기 투폴드 가중 평균화는 시간/주파수 빈들로부터의 방향성 파라미터들이 상기 오리지널 신호(original signal)의 파워가 상기 시간/주파수 빈에서 상당히 높을 때 최종 결과에 더 큰 영향을 미치는 방식으로 수행된다. 동시에, 대응하는 빈에 대한 확산 값은 또한 고려되므로, 결국, 높은 확산과 관련된 시간/주파수 빈으로부터의 방향성 파라미터는 시간/주파수 빈들 모두에서 파워가 동일할 때, 낮은 확산을 갖는 방향성 파라미터에 비해 결과에 대한 영향이 더 낮다.
각각의 프레임이 특정 수의 대역으로 구성되고, 각각의 대역이 상기 파라미터들이 계산된 적어도 2개의 오리지널 주파수 빈들(original frequency bins)을 포함하는 프레임들에서 상기 파라미터들의 처리를 수행하는 것이 바람직한다. 상기 대역들의 대역폭, 즉, 오리지널 주파수 빈들의 수는 대역 수가 증가함에 따라 증가하고, 이로써 더 높은 주파수 대역들은 더 낮은 주파수 대역들보다 넓다. 바람직한 실시예들에서, 대역 및 프레임 당 확산 파라미터들의 수는 1인 반면, 프레임 및 대역 당 방향성 파라미터들의 수는 예를 들어 2 또는 4와 같이 2보다 크다는 것이 밝혀졌다. 확산 및 방향성 파라미터들에 대해 동일한 주파수 해상도, 그러나 다른 시간 해상도가 유용하다는 것이 발견되었다, 즉, 프레임의 상기 확산 파라미터들 및 상기 방향성 파라미터들에 대한 대역들의 수는 서로 동일하다. 이러한 그룹화된 파라미터들은 양자화기(quantizer) 및 인코더 프로세서에 의해 양자화되고 인코딩된다.
본 발명의 제2 측면에 따르면, 상기 공간 오디오 코딩 파라미터들에 대한 개선된 처리 개념을 제공하는 것의 목적은 상기 확산 파라미터 및 상기 방향 파라미터를 양자화하기 위한 파라미터 양자화기 및 상기 양자화된 방향 파라미터들 및 상기 양자화된 확산 파라미터들을 인코딩 하기 위해 후속 연결된 파라미터 인코더 및 인코딩된 방향 파라미터들 및 인코딩된 확산 파라미터들에 대한 정보를 포함하는 상기 인코딩된 파라미터 표현을 발생시키기 위한 대응하는 출력 인터페이스에 의해 달성된다. 따라서, 양자화 및 후속 엔트로피 코딩에 의해, 상당한 데이터 레이트 감소(data rate reduction)가 획득된다.
상기 인코더에 입력되는 상기 확산 파라미터들 및 상기 방향 파라미터들은 높은 해상도 확산/방향 파라미터들(diffuseness/direction parameters)이거나 그룹화 또는 비 그룹화된(grouped or non-grouped) 낮은 해상도 방향성 오디오 코딩 파라미터들(directional audio coding parameters)일 수 있다. 바람직한 파라미터 양자화기의 한 특징은 방향 파라미터들을 양자화하기 위한 상기 양자화 정확성(quantization precision)이 동일한 시간/주파수 영역과 관련된 상기 확산 파라미터의 상기 확산 값으로부터 도출된다는 것이다. 따라서, 상기 제2 측면의 하나의 특징에서, 높은 확산을 갖는 확산 파라미터들과 관련된 상기 방향 파라미터들은 낮은 확산을 나타내는 확산 파라미터를 갖는 시간/주파수 영역들과 관련된 방향 파라미터들과 비교하여 덜 정확하게 양자화된다.
상기 확산 파라미터들 자체는 로우 코딩 모드(raw coding mode)에서 엔트로피 코딩될 수 있거나, 또는 프레임의 대역에 대한 확산 파라미터가 프레임 전체에서 동일한 값을 가질 때 단일 값 인코딩 모드에서 인코딩 될 수 있다. 다른 실시예들에서, 상기 확산 값들은 두 개의 연속적인 값들 전용 절차(two consecutive values only procedure)로 인코딩 될 수 있다.
제2 측면의 다른 특징은 상기 방향 파라미터들이 방위/고도 표현으로 변환된다는 것이다. 이 특징에서, 상기 고도 값은 상기 방위 값의 상기 양자화 및 인코딩을 위한 상기 알파벳(alphabet)을 결정하는데 사용된다. 바람직하게는, 상기 방위 알파벳은 상기 고도가 단위 구의 영 각(zero angle) 또는 일반적으로 적도 각(equator angle)을 나타낼 때 가장 큰 양의 상이한 값을 갖는다. 상기 방위 알파벳에서 가장 적은 양의 값들은 상기 고도가 상기 단위 구의 북극 또는 남극을 나타내는 경우이다. 따라서, 상기 알파벳 값들은 상기 적도로부터 계산된 상기 고도 각의 절대 값이 증가함에 따라 감소한다.
상기 고도 값은 대응하는 확산 값으로부터 결정된 양자화 정확성으로 양자화되고, 한편으로 상기 양자화 알파벳 및 다른 한편으로는 상기 양자화 정확성은 일반적으로 대응하는 방위 값들의 엔트로피 코딩 및 상기 양자화를 결정한다.
따라서, 가능한 한 많은 무관한 것(irrelevance)을 제거하고, 동시에, 상기 단위 구의 상기 적도에 비해 상기 정확성이 그리 높지 않은 상기 단위 구의 상기 남극 또는 북극과 같은 다른 영역과 달리 그렇게 할 가치가 있는 영역에 높은 해상도 또는 높은 정확성을 적용하는 효율적이고 파라미터 적합한(parameter-adapted) 처리가 수행된다.
상기 제1 측면에 따라 동작하는 상기 디코더 측은 임의의 종류의 디코딩을 수행하고 상기 인코딩된 또는 디코딩된 방향 파라미터들 및 상기 인코딩된 또는 디코딩된 확산 파라미터들로 대응하는 역 그룹화(de-grouping)를 수행한다. 따라서, 파라미터 해상도 변환(parameter resolution conversion)은 상기 인코딩된 또는 디코딩된 방향성 오디오 코딩 파라미터로부터 오디오 씬(audio scene)의 렌더링을 수행하기 위해 오디오 렌더러(audio renderer)에 의해 마지막으로 사용되는 해상도로 상기 해상도를 높이기 위해 수행된다. 상기 해상도 변환의 과정에서, 한편으로는 상기 확산 파라미터 및 다른 한편으로 상기 방향 파라미터에 대해 상이한 해상도 변환이 수행된다.
상기 확산 파라미터들은 일반적으로 낮은 해상도로 인코딩 되고, 따라서 하나의 확산 파라미터는 높은 해상도 표현을 획득하기 위해 여러 번 복사되거나 곱해져야 한다. 한편, 상기 방향성 파라미터들의 상기 해상도는 이미 상기 인코딩된 오디오 신호의 상기 확산 파라미터들의 상기 해상도보다 더 크기 때문에, 확산 파라미터에 비해 덜 자주 곱해지거나 덜 자주 복사되어야 한다.
일 실시예에서, 상기 복사된(copied) 또는 곱해진(multiplied) 방향성 오디오 코딩 파라미터들은 그대로 적용되거나 또는 주파수 및/또는 시간에 걸쳐 강하게 변화하는 파라미터들에 의해 야기되는 아티팩트들(artifacts)을 피하기 위해 평활화(smoothed) 또는 저역 통과 필터링(low pass filtered)되는 것과 같이 처리된다. 그러나, 바람직한 실시예에서, 상기 해상도 변환된 파라미터의 데이터(resolution-converted parametric data)의 적용은 스펙트럼의 도메인(spectral domain)에서 수행되므로, 상기 주파수 도메인으로부터 상기 시간 도메인으로의 상기 렌더링된 오디오 신호의 상기 대응하는 주파수-시간 변환은 합성 필터 뱅크들(synthesis filter banks)에 일반적으로 포함되는 특징인 가산 절차(add procedure) 및 바람직하게 적용된 오버랩으로 인해 고유의 평균화(inherent averaging)를 수행한다.
상기 제2 측면에 따른 상기 디코더 측에서, 한편으로는 엔트로피 코딩 및 다른 한편으로는 양자화에 관해 상기 인코더 측에서 수행되는 특정 절차들은 실행 취소(undone)된다. 상기 대응하는 방향 파라미터와 관련된 상기 전형적으로 양자화된 또는 역 양자화된 확산 파라미터들로부터 상기 디코더 측 상의 상기 역 양자화 정확성을 결정하는 것이 바람직하다.
상기 대응하는 확산 값 및 관련 역 양자화 정확성으로부터 상기 고도 파라미터에 대한 상기 알파벳을 결정하는 것이 바람직하다. 상기 제2 측면이 상기 양자화된 또는 바람직하게는 역 양자화된 고도 파라미터의 값에 기초하여 상기 방위 파라미터에 대한 역 양자화 알파벳의 결정을 수행하는 것이 바람직하다.
상기 제2 측면에 따르면, 한편으로는 로우 코딩 모드(raw coding mode) 또는 다른 한편으로는 엔트로피 코딩 모드가 상기 인코더 측에서 수행되고 더 적은 수의 비트들을 초래하는 상기 모드는 상기 인코더 내에서 선택되고 몇몇 부가 정보를 통해 상기 디코더로 시그널링 된다. 일반적으로, 상기 로우 인코딩 모드(raw encoding mode)는 항상 높은 확산 값들과 관련된 방향성 파라미터에 대해 수행되는 반면, 상기 엔트로피 코딩 모드는 더 낮은 확산 값들과 관련된 방향성 파라미터들에 대해 시도된다. 로우 코딩을 갖는 상기 엔트로피 코딩 모드에서, 상기 방위 및 고도 값들은 구 인덱스로 병합되고, 상기 구 인덱스는 2진 코드 또는 펑쳐드 코드(punctured code)를 사용하여 인코딩 되고, 상기 디코더 측에서 상기 엔트로피 코딩은 그에 따라 실행 취소된다.
모델링(modeling) 과정이 있는 상기 엔트로피 코딩 모드에서, 프레임에 대한 평균 고도 및 방위 값이 계산되고, 이들 평균 값들에 대한 잔존 값들(residual values)이 실제로 계산된다. 따라서, 일종의 예측이 수행되고 상기 예측 잔존 값들(prediction residual values), 즉, 고도 및 방위에 대한 거리가 엔트로피 코딩 된다. 이를 위해, 바람직하게는 부호 있는 거리들 및 평균값들과 더불어, 상기 인코더 측에서 결정되고 인코딩된 골롬-라이스(Golomb-Rice) 파라미터에 의존하여 확장된 골롬-라이스 절차를 수행하는 것이 바람직하다. 모델링 과정이 있는 엔트로피 코딩, 즉, 이 디코딩 모드가 상기 디코더에서 상기 부가 정보 평가에 의해 시그널링 되고 결정되자 마자 상기 디코더 측에서 상기 확장된 골롬-라이스 절차를 갖는 상기 디코딩이 상기 인코딩된 평균들, 상기 인코딩된 바람직하게 부호 있는 거리들 및 고도 및 방위에 대한 상기 대응하는 골롬-라이스 파라미터들을 사용하여 수행된다.
본 발명의 바람직한 실시 예는 첨부 도면과 관련하여 이후에 논의된다.
도 1a 제1 측면 또는 제2 측면의 인코더 측의 바람직한 실시예를 도시한다;
도 1b 제1 측면 또는 제2 측면의 디코드 측의 바람직한 실시예를 도시한다;
도 2a 제1 측면에 따른 인코딩을 위한 장치의 바람직한 실시예를 도시한다;
도 2b 도 2a의 파라미터 계산기의 바람직한 구현을 도시한다;
도 2c 확산 파라미터의 계산을 위한 추가 구현을 도시한다;
도 2d 도 2a의 파라미터 계산기(100)의 추가 바람직한 구현을 도시한다;
도 3a 높은 시간 또는 주파수 해상도를 갖는 분석 필터 뱅크(analysis filter bank)(도 1b의 430 또는 도 1a의 130)에 의해 획득된 것으로서 시간/주파수 표현을 도시한다;
도 3b 낮은 시간 또는 주파수 해상도 및, 특히, 프레임 당 단일 확산 파라미터의 특정 낮은 시간 해상도를 갖는 확산 그룹화(diffuseness grouping)의 구현을 도시한다;
도 3c 5개의 대역들 다른 한편으로는 4개의 시간 영역들 다른 한편으로는 결과적으로 20 시간/주파수 영역들을 갖는 방향 파라미터들에 대한 중간 해상도(medium resolution)의 바람직한 도시를 도시한다;
도 3d 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 갖는 출력 비트 스트림을 도시한다;
도 4a 제2 측면에 따라 방향성 오디오 코딩 파라미터들을 인코딩하기 위한 장치를 도시한다;
도 4b 인코딩된 확산 파라미터들의 계산을 위한 파라미터 인코더 및 파라미터 양자화기의 바람직한 구현을 도시한다;
도 4c 상이한 요소들(elements)의 협력과 관련하여 도 4a 인코더의 바람직한 구현을 도시한다;
도 4d 바람직한 실시예에서 양자화를 위해 적용된 단위 구의 준 균일 커버리지(quasi-uniform coverage)를 도시한다;
도 5a 상이한 인코딩 모드들에서 동작하는 도 4a의 파라미터 인코더의 동작에 대한 개요를 도시한다;
도 5b 도 5a의 두 모드에 대한 방향 인덱스들의 전처리(pre-processing)를 도시한다;
도 5c 바람직한 실시예에서 제1 코딩 모드를 도시한다;
도 5d 제2 코딩 모드의 바람직한 실시예를 도시한다;
도 5e GR 인코딩 절차를 사용하여 대응하는 평균들 및 부호 있는 거리들의 엔트로피 인코딩의 바람직한 구현을 도시한다;
도 5f 상기 최적 골롬-라이스 파라미터의 결정을 위한 바람직한 실시예를 도시한다;
도 5g 도 5e의 블록(279)에 표시된 바와 같이 재정렬된 부호 있는 거리들의 인코딩을 위한 확장된 골롬-라이스 절차의 구현을 도시한다;
도 6a 도 4a의 상기 파라미터 양자화기의 구현을 도시한다;
도 6b 상기 인코더 측 구현에서 특정 측면에서 또한 사용되는 상기 파라미터 역 양자화기에 대한 기능들의 바람직한 구현을 도시한다;
도 6c 상기 로우 방향 인코딩 절차(raw direction encoding procedure)의 구현에 대한 개요를 도시한다;
도 6d 방위 및 고도에 대한 상기 평균 방향에 대한 역 양자화 및 양자화 및 상기 계산의 구현을 도시한다;
도 6e 상기 평균 고도 및 방위 데이터의 투영을 도시한다;
도 6f 고도 및 방위에 대한 상기 거리들의 계산을 도시한다;
도 6g 모델링 과정이 있는 상기 엔트로피 인코딩 모드에서 상기 평균 방향의 인코딩에 대한 개요를 도시한다;
도 7a 상기 제1 측면에 따른 인코딩된 오디오 신호를 디코딩 하기 위한 디코더를 도시한다;
도 7b 도 7a의 파라미터 해상도 변환기(parameter resolution converter) 및 후속 오디오 렌더링의 바람직한 구현을 도시한다;
도 8a 상기 제2 측면에 따른 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다;
도 8b 일 실시예에서 상기 인코딩된 확산 파라미터들에 대한 개략적 비트 스트림 표현(schematic bitstream representation)을 도시한다;
도 8c 상기 로우 인코딩 모드가 선택된 경우의 상기 비트 스트림의 구현을 도시한다;
도 8d 상기 다른 인코딩 모드, 즉 모델링 과정이 있는 상기 엔트로피 인코딩 모드가 선택된 경우의 개략적 비트 스트림을 도시한다;
도 8e 상기 역 양자화 정확성이 시간/주파수 영역에 대한 상기 확산에 기초하여 정해지는 파라미터 양자화기 및 상기 파라미터 디코더의 바람직한 구현을 도시한다;
도 8f 파라미터 역 양자화기 및 상기 파라미터 디코더의 바람직한 구현을 도시하고, 여기서 상기 고도 알파벳은 상기 역 양자화 정확성으로부터 결정되고 상기 방위 알파벳은 상기 시간/주파수 영역에 대한 상기 고도 데이터 및 상기 역 양자화 정확성에 기초하여 결정된다;
도 8g 상기 두 개의 상이한 디코딩 모드들을 도시하는 도 8a의 상기 파라미터 디코더에 대한 개요를 도시한다;
도 9a 상기 로우 인코딩 모드가 활성화된 경우 디코딩 동작을 도시한다;
도 9b 모델링 과정이 있는 상기 엔트로피 디코딩 모드가 활성화된 경우 상기 평균 방향의 디코딩을 도시한다;
도 9c 모델링 과정이 있는 상기 디코딩 모드가 활성화된 경우 상기 고도 및 방위의 재구성(reconstruction) 및 상기 후속 역 양자화를 도시한다;
도 10a 잘 알려진 DirAC 분석기를 도시한다; 및
도 10b 잘 알려진 DirAC 합성기를 도시한다.
도 1a 제1 측면 또는 제2 측면의 인코더 측의 바람직한 실시예를 도시한다;
도 1b 제1 측면 또는 제2 측면의 디코드 측의 바람직한 실시예를 도시한다;
도 2a 제1 측면에 따른 인코딩을 위한 장치의 바람직한 실시예를 도시한다;
도 2b 도 2a의 파라미터 계산기의 바람직한 구현을 도시한다;
도 2c 확산 파라미터의 계산을 위한 추가 구현을 도시한다;
도 2d 도 2a의 파라미터 계산기(100)의 추가 바람직한 구현을 도시한다;
도 3a 높은 시간 또는 주파수 해상도를 갖는 분석 필터 뱅크(analysis filter bank)(도 1b의 430 또는 도 1a의 130)에 의해 획득된 것으로서 시간/주파수 표현을 도시한다;
도 3b 낮은 시간 또는 주파수 해상도 및, 특히, 프레임 당 단일 확산 파라미터의 특정 낮은 시간 해상도를 갖는 확산 그룹화(diffuseness grouping)의 구현을 도시한다;
도 3c 5개의 대역들 다른 한편으로는 4개의 시간 영역들 다른 한편으로는 결과적으로 20 시간/주파수 영역들을 갖는 방향 파라미터들에 대한 중간 해상도(medium resolution)의 바람직한 도시를 도시한다;
도 3d 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 갖는 출력 비트 스트림을 도시한다;
도 4a 제2 측면에 따라 방향성 오디오 코딩 파라미터들을 인코딩하기 위한 장치를 도시한다;
도 4b 인코딩된 확산 파라미터들의 계산을 위한 파라미터 인코더 및 파라미터 양자화기의 바람직한 구현을 도시한다;
도 4c 상이한 요소들(elements)의 협력과 관련하여 도 4a 인코더의 바람직한 구현을 도시한다;
도 4d 바람직한 실시예에서 양자화를 위해 적용된 단위 구의 준 균일 커버리지(quasi-uniform coverage)를 도시한다;
도 5a 상이한 인코딩 모드들에서 동작하는 도 4a의 파라미터 인코더의 동작에 대한 개요를 도시한다;
도 5b 도 5a의 두 모드에 대한 방향 인덱스들의 전처리(pre-processing)를 도시한다;
도 5c 바람직한 실시예에서 제1 코딩 모드를 도시한다;
도 5d 제2 코딩 모드의 바람직한 실시예를 도시한다;
도 5e GR 인코딩 절차를 사용하여 대응하는 평균들 및 부호 있는 거리들의 엔트로피 인코딩의 바람직한 구현을 도시한다;
도 5f 상기 최적 골롬-라이스 파라미터의 결정을 위한 바람직한 실시예를 도시한다;
도 5g 도 5e의 블록(279)에 표시된 바와 같이 재정렬된 부호 있는 거리들의 인코딩을 위한 확장된 골롬-라이스 절차의 구현을 도시한다;
도 6a 도 4a의 상기 파라미터 양자화기의 구현을 도시한다;
도 6b 상기 인코더 측 구현에서 특정 측면에서 또한 사용되는 상기 파라미터 역 양자화기에 대한 기능들의 바람직한 구현을 도시한다;
도 6c 상기 로우 방향 인코딩 절차(raw direction encoding procedure)의 구현에 대한 개요를 도시한다;
도 6d 방위 및 고도에 대한 상기 평균 방향에 대한 역 양자화 및 양자화 및 상기 계산의 구현을 도시한다;
도 6e 상기 평균 고도 및 방위 데이터의 투영을 도시한다;
도 6f 고도 및 방위에 대한 상기 거리들의 계산을 도시한다;
도 6g 모델링 과정이 있는 상기 엔트로피 인코딩 모드에서 상기 평균 방향의 인코딩에 대한 개요를 도시한다;
도 7a 상기 제1 측면에 따른 인코딩된 오디오 신호를 디코딩 하기 위한 디코더를 도시한다;
도 7b 도 7a의 파라미터 해상도 변환기(parameter resolution converter) 및 후속 오디오 렌더링의 바람직한 구현을 도시한다;
도 8a 상기 제2 측면에 따른 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다;
도 8b 일 실시예에서 상기 인코딩된 확산 파라미터들에 대한 개략적 비트 스트림 표현(schematic bitstream representation)을 도시한다;
도 8c 상기 로우 인코딩 모드가 선택된 경우의 상기 비트 스트림의 구현을 도시한다;
도 8d 상기 다른 인코딩 모드, 즉 모델링 과정이 있는 상기 엔트로피 인코딩 모드가 선택된 경우의 개략적 비트 스트림을 도시한다;
도 8e 상기 역 양자화 정확성이 시간/주파수 영역에 대한 상기 확산에 기초하여 정해지는 파라미터 양자화기 및 상기 파라미터 디코더의 바람직한 구현을 도시한다;
도 8f 파라미터 역 양자화기 및 상기 파라미터 디코더의 바람직한 구현을 도시하고, 여기서 상기 고도 알파벳은 상기 역 양자화 정확성으로부터 결정되고 상기 방위 알파벳은 상기 시간/주파수 영역에 대한 상기 고도 데이터 및 상기 역 양자화 정확성에 기초하여 결정된다;
도 8g 상기 두 개의 상이한 디코딩 모드들을 도시하는 도 8a의 상기 파라미터 디코더에 대한 개요를 도시한다;
도 9a 상기 로우 인코딩 모드가 활성화된 경우 디코딩 동작을 도시한다;
도 9b 모델링 과정이 있는 상기 엔트로피 디코딩 모드가 활성화된 경우 상기 평균 방향의 디코딩을 도시한다;
도 9c 모델링 과정이 있는 상기 디코딩 모드가 활성화된 경우 상기 고도 및 방위의 재구성(reconstruction) 및 상기 후속 역 양자화를 도시한다;
도 10a 잘 알려진 DirAC 분석기를 도시한다; 및
도 10b 잘 알려진 DirAC 합성기를 도시한다.
본 발명은 DirAC 메타 데이터의 압축을 임의의 종류의 시나리오로 일반화한다. 본 발명은 DirAC 기반 공간 오디오 인코더 및 디코더가 도시된 도 1a 및 도 1b에 도시된 공간 코딩 시스템에 적용된다.
상기 인코더는 일반적으로 상기 공간 오디오 씬(spatial audio scene)을 B-포맷으로 분석한다. 대안적으로, DirAC 분석은 오디오 객체 또는 멀티 채널 신호와 같은 다른 오디오 포맷들 또는 임의의 공간 오디오 포맷들의 조합을 분석하도록 조정될 수 있다. 상기 DirAC 분석은 상기 입력 오디오 씬으로부터 파라미터의 표현(parametric representation)을 추출한다. 시간-주파수 단위당 측정된 확산 및 도달 방향(direction of arrival; DOA)은 상기 파라미터들을 형성한다. 상기 DirAC 분석 뒤에 낮은 비트 레이트 파라미터의 표현을 획득하기 위해 상기 DirAC 파라미터들을 양자화하고 인코딩 하는 공간 메타 데이터 인코더(spatial metadata encoder)가 이어진다. 후자의 모듈은 본 발명의 주제이다.
상기 파라미터들과 함께, 상이한 소스들 또는 오디오 입력 신호들로부터 도출된 다운 믹스 신호(down-mix signal)는 종래의 오디오 코어-코더(audio core-coder)에 의한 전송을 위해 코딩된다. 바람직한 실시예에서, 상기 다운 믹스 신호를 코딩하기 위해 EVS 오디오 코더(EVS audio coder)가 바람직하지만, 본 발명은이 코어 코더에 제한되지 않으며 임의의 오디오 코어 코더에 적용될 수 있다. 상기 다운 믹스 신호는 전송 채널(transport channels)이라 불리는 상이한 채널들로 구성된다: 상기 신호는 예를 들어, 목표 비트 레이트에 따라 모노포닉 다운-믹스(monophonic down-mix), 스테레오 쌍(stereo pair) 또는 B- 포맷 신호를 구성하는 4개의 계수 신호들(coefficient signals)일 수 있다. 상기 코딩된 공간 파라미터들 및 상기 코딩된 오디오 비트 스트림은 통신 채널을 통해 전송되기 전에 다중화(multiplexed) 된다.
상기 디코더에서, 상기 전송 채널들은 상기 코어 디코더(core-decoder)에 의해 디코딩 되는 반면, 상기 DirAC 메타 데이터는 상기 디코딩된 전송 채널과 함께 상기 DirAC 합성으로 전송되기 전에 먼저 디코딩된다. 상기 DirAC 합성은 다이렉트 사운드 스트림(direct sound stream)의 재생(reproduction)과 다이렉트 사운드 스트림의 확산 사운드 스트림(diffuse sound stream)과의 혼합을 제어하기 위해 상기 디코딩된 메타 데이터를 사용한다. 상기 재생된 음장(sound field)은 임의의 라우드 스피커 층(arbitrary loudspeaker layout)에서 재생되거나 임의의 순서로 앰비 소닉스 포맷(Ambisonics format)(HOA/FOA)으로 발생될 수 있다.
상기 B- 포맷 입력 신호와 같은 오디오 신호를 인코딩하기 위한 오디오 인코더가 도 1a에 도시되어 있다. 상기 오디오 인코더는 DirAC 분석기(100)를 포함한다. DirAC 분석기 (100)는 분석 필터 뱅크(analysis filter bank)(130), 확산 추정기(diffuseness estimator) (110) 및 방향 추정기(direction estimator) (120)를 포함할 수 있다. 상기 확산 데이터 및 상기 방향 데이터는 공간 메타 데이터 인코더 (200)로 출력되고, 최종적으로 라인(250)에서 인코딩된 메타 데이터를 출력한다. 상기 B-포맷 신호는 또한 상기 입력 신호로부터 바람직하게는 EVS(향상된 보이스 서비스(Enhanced Voice Services)) 인코더인 오디오 인코더(150)에서 이어서 인코딩 되는 모노 또는 스테레오 전송 오디오 신호를 발생시키는 빔 형성기/신호 선택기(beam former/signal selector)(140)로 전달될 수 있다. 상기 인코딩된 오디오 신호는 170에서 출력된다. 250에 표시된 상기 인코딩된 코딩 파라미터는 공간 메타 데이터 디코더 (300)에 입력된다. 인코딩된 오디오 신호 (170)는 바람직한 실시예에서 및 인코더 측 구현에 따라 EVS 디코더로서 구현되는 오디오 디코더 (340)에 입력된다.
상기 디코딩된 전송 신호는 디코딩된 방향성 오디오 코딩 파라미터들과 함께 DirAC 합성기 (400)에 입력된다. 도 1b에 도시된 실시예에서, 상기 DirAC 합성기는 출력 합성기(output synthesizer) (420), 분석 필터 뱅크 (430) 및 합성 필터 뱅크 (440)를 포함한다. 합성 필터 뱅크(400)의 출력에서, 라우드 스피커로 전달될 수 있거나 대안적으로 1 차 앰비 소닉스 (first order Ambisonics; FOA) 또는 고차 앰비 소닉스(high order Ambisonics; HOA) 포맷과 같은 임의의 다른 포맷의 오디오 신호일 수 있는 디코딩된 멀티 채널 신호(decoded multichannel signal)(450)는 획득된다. 당연히, MPS (MPEG Surround) 데이터 또는 SAOC (공간 오디오 객체 코딩(Spatial Audio Object Coding)) 데이터와 같은 임의의 다른 파라미터의 데이터(parametric data)는 모노 채널(mono-channel) 또는 스테레오 채널(stereo-channel)인 전송 채널과 함께 발생될 수 있다.
일반적으로, 상기 출력 합성기는 분석 필터 뱅크(460)에 의해 결정되는 각각의 시간 주파수 빈에 대해 한편으로 방향 오디오 신호(direct audio signal)를, 및 다른 한편으로 확산 오디오 신호(diffuse audio signal)를 계산함으로써 동작한다. 상기 방향 오디오 신호는 상기 확산 파라미터에 기초하여 결정된 상기 시간/주파수 빈에 대한 상기 최종 오디오 신호의 상기 확산 오디오 신호와 상기 방향 오디오 신호 사이 관계 및 상기 방향 파라미터들에 기초하여 계산되고, 이로써 높은 확산 파라미터를 갖는 시간/주파수 빈은 높은 양의 상기 확산 신호와 낮은 양의 상기 직접 신호를 갖는 출력 신호를 낳는 반면, 낮은 확산을 갖는 시간/주파수 빈은 높은 양의 상기 직접 신호를 갖고 낮은 양의 상기 확산 신호를 갖는 출력 신호를 낳는다.
도 2a는 제1 측면에 따른 확산 파라미터들 및 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터를 인코딩하기 위한 장치를 도시한다. 상기 장치는 제1 시간 또는 주파수 해상도로 상기 확산 파라미터를 계산하고 제2 시간 또는 주파수 해상도로 상기 방향 파라미터를 계산하기 위한 파라미터 계산기(parameter calculator)(100)를 포함한다. 상기 장치는 250에 도시된 상기 확산 파라미터 및 상기 방향 파라미터의 양자화 및 인코딩된 표현을 발생시키기 위한 양자화기 및 인코더 프로세서(encoder processor)(200)를 포함한다. 파라미터 계산기 (100)는 도 1a의 요소들(elements)(110, 120, 130)을 포함할 수 있고, 여기서 상이한 파라미터들은 제1 또는 제2 시간 또는 주파수 해상도에서 이미 계산된다.
대안적으로, 바람직한 구현은 도 2b에 도시되어 있다. 여기서, 상기 파라미터 계산기 및 특히,도 1a의 블록 (110, 120)은 도 2b의 항목(130)에 도시된 바와 같이 구성되는데, 즉 이들은 제3 또는 제4 일반적으로 높은 시간 또는 주파수 해상도로 파라미터들을 계산한다. 그룹화 동작이 수행된다. 상기 확산 파라미터들을 계산하기 위해, 상기 제1 시간 또는 주파수 해상도로 상기 확산 파라미터 표현을 획득하도록 블록(141)에서 도시된 바와 같이 그룹화 및 평균화가 수행되고, 상기 방향 파라미터들의 계산을 위해, 상기 제2 시간 또는 주파수 해상도로 상기 방향 파라미터 표현을 획득하도록 블록(142)에서 그룹화(및 평균화)가 수행된다.
상기 확산 파라미터 및 상기 방향 파라미터는 상기 제2 시간 또는 주파수 해상도가 상기 제1 시간 또는 주파수 해상도와 다르고 상기 제1 시간 해상도가 상기 제2 시간 해상도보다 낮거나 상기 제2 주파수 해상도가 상기 제1 주파수 해상도보다 크도록 또는, 대안적으로, 상기 제1 시간 해상도가 상기 제2 시간 해상도 보자 낮고 상기 제1 주파수 해상도가 상기 제2 주파수 해상도와 같도록 계산된다.
일반적으로, 상기 확산 파라미터들 및 상기 방향 파라미터들은 한 세트의 주파수 대역들에 대해 계산되며, 여기서 더 낮은 중심 주파수를 갖는 대역은 더 높은 중심 주파수를 갖는 대역보다 좁다. 도 2b와 관련하여 이미 논의된 바와 같이, 파라미터 계산기(100)는 제3 시간 또는 주파수 해상도를 갖는 초기 확산 파라미터들을 획득하도록 구성되고, 파라미터 계산기(100)는 또한 제4 시간 또는 주파수 해상도를 갖는 초기 방향 파라미터들을 획득하도록 구성되며, 여기서 일반적으로 상기 제3 및 제4 시간 또는 주파수 해상도들은 서로 동일하다.
그 후, 상기 파라미터 계산기는 상기 제3 시간 또는 주파수 해상도가 상기 제1 시간 또는 주파수 해상도보다 높도록, 즉 해상도 감소(resolution reduction)가 수행되도록 상기 초기 확산 파라미터들을 그룹화하고 평균화하도록 구성된다. 상기 파라미터 계산기는 또한 상기 제4 시간 또는 주파수 해상도가 상기 제2 시간 또는 주파수 해상도보다 높도록, 즉 해상도 감소가 수행되도록 상기 초기 방향 파라미터를 그룹화하고 평균화하도록 구성된다. 바람직하게는, 주파수 해상도의 상기 제3 시간은 각각의 초기 확산 파라미터가 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈과 관련되도록 일정한 시간 해상도이다. 상기 제4 시간 또는 주파수 해상도는 또한 각각의 초기 방향 파라미터는 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈과 관련되도록 일정한 주파수 해상도이다.
상기 파라미터 계산기는 제1 복수의 타임 슬롯들과 관련된 제1 복수의 확산 파라미터들에 대해 평균하도록 구성된다. 파라미터 계산기 (100)는 또한 상기 제2 복수의 주파수 빈들과 관련된 제2 복수의 확산 파라미터들에 대해 평균하도록 구성되고, 상기 파라미터 계산기는 또한 제3 복수의 타임 슬롯들과 관련된 제3 복수의 방향 파라미터에 대해 평균하도록 구성되거나 상기 파라미터 계산기는 또한 제4 복수의 주파수 빈들과 관련된 제4 복수의 방향 파라미터들에 대해 평균하도록 구성된다.
도 2c 및 도 2d와 관련하여 논의될 바와 같이, 파라미터 계산기 (100)는 더 높은 진폭 관련 치수(amplitude-related measure)를 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터가 더 낮은 진폭 관련 치수를 갖는 입력 신호 부분으로부터 도출된 방향 파라미터 또는 확산 파라미터에 비해 더 높은 가중 팩터(weighting factor)를 사용하여 가중되는 가중 평균 계산(weighted average calculation)을 수행하도록 구성된다. 파라미터 계산기(100)는 도 2c, 항목(143)에 도시된 바와 같이 상기 제3 또는 상기 제4 시간 또는 주파수 해상도에서 빈당 상기 진폭 관련 치수 및 143을 계산하도록 구성된다. 블록 (144)에서, 각 빈에 대한 가중 팩터들이 계산되고, 블록 (145)에서, 개별 빈들에 대한 상기 확산 파라미터들이 블록 (145)에 입력되는 가중 가산(weighted addition)과 같은 가중 조합(weighted combination)을 사용하여 그룹화 및 평균화가 수행된다. 블록(145)의 출력에서, 이후에 블록(146)에서 정규화될 수 있는 상기 제1 시간 또는 주파수 해상도를 갖는 상기 확산 파라미터가 획득되지만, 이 절차는 단지 선택적이다.
도 2d는 상기 제2 해상도를 갖는 상기 방향 파라미터의 계산을 도시한다. 블록(146)에서, 상기 진폭 관련 치수는 도 2c의 항목(143)과 유사하게 상기 제3 또는 제4 해상도에서 빈마다 계산된다. 블록 (147)에서, 가중 팩터들은 각 빈에 대해 계산되지만, 블록 (147)으로부터 획득된 진폭 관련 치수에 의존할뿐만 아니라 도 2d에 도시된 바와 같이 빈마다 대응하는 확산 파라미터를 사용한다. 따라서, 동일한 진폭 관련 치수에 대해, 더 낮은 확산에 대해 더 높은 팩터가 일반적으로 계산된다. 블록 (148)에서, 가산과 같은 가중 조합을 사용하여 그룹화 및 평균화가 수행되고, 선택적인 블록 (146)에 도시된 바와 같이 결과가 정규화될 수 있다. 따라서, 블록 (146)의 출력에서, 상기 방향 파라미터는 방위 값 및 고도 값을 갖는 극 좌표 형태로 쉽게 변환될 수 있는 카테시안(Cartesian) 벡터와 같은 2차원 또는 3차원에 대응하는 단위 벡터로서 획득된다.
도 3a는도 1a 및 도 1b의 필터 뱅크 분석 (430)에 의해 획득되거나 도 1b의 필터 뱅크 합성 (440)에 의해 적용된 바와 같은 시간/주파수 래스터(time/frequency raster)를 도시한다. 일 실시예에서, 전체 주파수 범위는 60 개의 주파수 대역으로 분리되고 프레임은 추가적으로 16개의 타임 슬롯을 갖는다. 상기 높은 시간 또는 주파수 해상도는 바람직하게는 제3 또는 제4 높은 시간 또는 주파수 해상도이다. 따라서, 60 개의 주파수 대역 및 16 개의 시간 슬롯으로부터 시작하여, 프레임 당 960 개의 시간/주파수 타일들(time/frequency tiles) 또는 빈들이 획득된다.
도 3b는 확산 값들에 대한 상기 제1 시간 또는 주파수 해상도 표현을 획득하기 위해 상기 파라미터 계산기에 의해, 특히 도 2b의 블록 (141)에 의해 수행되는 상기 해상도 감소(resolution reduction)를 도시한다. 이 실시예에서, 전체 주파수 대역폭은 5 개의 그룹화 대역과 단일 시간 슬롯으로 분리된다. 따라서, 하나의 프레임에 대해, 결국, 각각의 프레임 당 5 개의 확산 파라미터만을 획득한 다음, 추가로 양자화 및 인코딩된다.
도 3c는 도 2b의 블록 (142)에 의해 수행되는 대응하는 절차를 도시한다. 하나의 방향 파라미터가 각각의 빈에 대해 계산되는도 3a로부터의 상기 높은 해상도 방향 파라미터들은 도 3c에서 상기 중간 해상도 표현으로 그룹화되고 평균화 되며, 여기서 하나는, 각 프레임에 대해, 5개의 주파수 대역들을 갖지만, 도3a와 대조적으로, 이제 4개의 타임 슬롯들을 갖는다. 따라서, 결국, 하나의 프레임은 20개의 방향 파라미터들, 즉, 상기 방향 파라미터들에 대해 프레임 당 20 그룹화된 빈들 및 도 3b의 상기 확산 파라미터들에 대해 프레임 당 5개의 그룹화된 빈들만을 수신한다. 바람직한 실시예에서, 주파수 대역 에지들(frequency band edges)은 그 상단 에지에서 배타적이다.
도 3b 및 도 3c를 비교할 때, 상기 제1 대역에 대한 상기 확산 파라미터, 즉, 확산 파라미터 1은 상기 제1 대역에 대한 4 개의 방향 파라미터들에 대응하거나 그들과 관련됨에 유의해야한다. 후술할 바와 같이, 상기 제1 대역의 모든 상기 방향 파라미터들에 대한 상기 양자화 정확성은 상기 제1 대역에 대한 상기 확산 파라미터에 의해, 또는 예를 들어 상기 제5 대역에 대한 상기 방향 파라미터들에 대한, 즉, 상기 제5 대역을 커버하는 상기 대응하는 4개의 방향 파라미터들에 대한 상기 양자화 정확성에 의해 결정되고, 상기 제 5대역의 상기 4개의 시간 슬롯들은 상기 제5 대역에 대한 상기 단일 확산 파라미터(single diffuseness parameter)에 의해 결정된다.
따라서, 단일 확산 파라미터만이 대역마다 구성되는 이 실시예에서, 하나의 대역의 모든 방향 파라미터들은 동일한 양자화/역 양자화 정확성을 갖는다. 후술할 바와 같이, 방위 파라미터를 양자화 및 인코딩하기 위한 상기 알파벳은 오리지널/양자화된/역 양자화된 고도 파라미터의 값에 의존한다. 따라서, 각각의 대역에 대한 각각의 방향 파라미터가 동일한 양자화/역 양자화 파라미터를 갖지만, 도 3c의 각각의 그룹화된 빈 또는 시간/주파수 영역에 대한 각각의 방위 파라미터는 양자화 및 인코딩을 위해 상이한 알파벳을 가질 수 있다.
도 2a의 250에 도시된 상기 양자화기 및 인코더 프로세서 (200)에 의해 발생된 결과적인 비트 스트림은 도 3d에 보다 상세히 도시되어 있다. 상기 비트 스트림은 상기 제1 해상도 및 상기 제2 해상도를 나타내는 해상도 표시 (260)를 포함할 수 있다. 그러나, 상기 제1 해상도 및 상기 제2 해상도가 상기 인코더 및 상기 디코더에 의해 고정적으로 설정될 때, 상기 해상도 표시는 필요하지 않다. 항목 (261, 262)은 대응하는 대역들에 대한 인코딩된 확산 파라미터들을 도시한다. 도 3d는 5개의 대역만을 도시하므로, 5 개의 확산 파라미터 만이 인코딩된 데이터 스트림에 포함된다. 항목 (363, 364)은 인코딩된 방향 파라미터들을 도시한다. 상기 제1 대역의 경우, 4개의 인코딩된 방향 파라미터들이 있고, 여기서 상기 방향 파라미터들의 상기 제1 인덱스는 상기 대역을 나타내고 상기 제2 파라미터는 상기 시간 슬롯을 나타낸다. 상기 제3 대역 및 상기 제4 타임 슬롯, 즉 도 3c의 우측 상단 주파수 빈(upper right frequency bin)에 대한 상기 방향 파라미터는 DIR54로서 표시된다.
다음으로, 추가 바람직한 구현이 상세히 논의된다.
시간-주파수 분해(Time-frequency decomposition)
DirAC에서는 분석과 합성이 모두 주파수 영역에서 수행된다. 상기 시간-주파수 분석 및 합성은 STFT (단기 푸리에 변환(short-term Fourier Transform))와 같은 다양한 블록 변환들 또는 QMF (복합 변조 쿼드러처 미러 필터 뱅크(complex-modulated Quadrature Mirror Filterbank))와 같은 필터 뱅크들을 사용하여 수행될 수 있다. 바람직한 실시예에서, 우리는 상기 DirAC 처리와 상기 코어 인코더 사이에서 프레이밍(framing)을 공유하는 것을 목표로 한다. 상기 코어 인코더는 바람직하게는 3GPP EVS 코덱에 기초하기 때문에, 20ms의 프레이밍이 요구된다. 더 나아가, 앨리어싱에 대한 강건성 및 시간 및 주파수 해상도와 같은 중요한 기준은 DirAC의 매우 활동적인 시간-주파수 처리와 관련이 있다. 상기 시스템은 통신용으로 설계되었으므로 상기 알고리즘 지연은 또 다른 중요한 측면이다.
이러한 모든 이유로, 복합 변조 저 지연 필터 뱅크 (Complex modulated low-delay filterbank ; CLDFB)가 바람직한 선택이다. 상기 CLDFB는 1.25ms의 시간 해상도를 가지고, 20ms 프레임을 16 개의 타임 슬롯으로 나눈다. 상기 주파수 해상도는 400Hz이고, 이는 상기 입력 신호가 (fs/2)/400 주파수 대역으로 분해(decomposed)된다는 것을 의미한다. 상기 필터 뱅크 동작은 다음 공식에 의해 일반적인 형태로 설명된다.
여기서 및 는 각각 실수 및 허수 서브 대역(sub-band) 값들이고, 는 인 상기 서브 대역 시간 인덱스이고 는 -1인 상기 서브 대역 인덱스이다. 상기 분석 프로토타입 는 에 의존하는 적응적 길이(adaptive length)를 갖는 비대칭 저역 통과 필터이다. 의 길이는 로 주어지고, 이는 상기 필터가 변환(transformation)을 위해 10 개의 연속 블록에 걸쳐 있음을 의미한다.
예를 들어, CLDFB는 48kHz로 샘플링된 신호를 프레임 당 60x16 = 960 시간 주파수 타일들로 분해한다. 분석 및 합성 후 지연은 다른 프로토타입 필터들을 선택함으로써 조정될 수 있다. 5ms의 지연 (분석 및 합성)은 전달된 품질(delivered quality)과 생성된 지연(engendered delay) 사이에서 좋은 절충안인 것으로 밝혀졌다. 각 시간-주파수 타일에 대해 확산과 방향이 계산된다.
DirAC 파라미터 추정(DirAC parameter estimation)
각 주파수 대역에서, 사운드의 확산과 함께 사운드의 도착 방향(direction of arrival)이 추정된다. 입력 B- 포맷 성분 의 상기 시간-주파수 분석으로부터, 압력 및 속도 벡터는 다음과 같이 결정될 수 있다.
여기서 i는 상기 입력의 인덱스이고, n 및 k는 시간-주파수 타일의 상기 시간 및 주파수 인덱스들이고, 는 카테시안 단위 벡터들(Cartesian unit vectors)을 나타낸다. 및 는 상기 DirAC 파라미터들, 즉 DOA 및 상기 강도 벡터(intensity vector) 계산을 통한 확산을 계산하는데 필요하다.
상기 음장의 확산은 0에서 1 사이의 값들을 갖는 사운드 강도와 에너지 밀도 사이의 비율로서 정의된다.
상기 도달 방향은 상기 B- 포맷 입력의 에너지 분석에 의해 결정되고 상기 강도 벡터(intensity vector)의 반대 방향으로 정의될 수 있다. 상기 방향은 카테시안 좌표로 정의되지만, 단위 반지름, 방위각 및 고도각으로 정의된 구 좌표로 쉽게 변환될 수 있다.
전체적으로, 상기 파라미터 값들이 각각의 시간-주파수 타일에 대해 비트로 직접 변환되는 경우, 방위각, 고도각, 및 확산의 3가지 값들이 코딩되어야 한다. 그런 다음 상기 메타 데이터는 CLDFB의 예에서 프레임 당 2880 개의 값들, 즉 초당 144000 개의 값으로 구성된다. 낮은 비트 레이트 코딩을 달성하기 위해서는 이 엄청난 양의 데이터가 대폭 줄어들 필요가 있다.
DirAC 메타데이터의 그룹화 및 평균화(Grouping and averaging of DirAC Metadata)
파라미터들의 수를 줄이기 위해, 각각의 시간-주파수 타일에서 계산된 상기 파라미터들은 먼저 주파수 파라미터 대역을 따라 그리고 여러 타임 슬롯에 걸쳐 그룹화되고 평균화 된다. 상기 그룹화는 확산과 방향 사이에서 디커플링(decoupled)되며, 이는 본 발명의 중요한 측면이다. 실제로, 상기 디커플링(decoupling)은 확산이 방향보다 음장의 장기적인 특성(longer term characteristic)을 유지한다는 사실을 이용하는데, 이는 반응성이 더 큰 공간적 큐이다.
상기 파라미터 대역은 대략 등가 직사각형 대역폭 (Equivalent Rectangular Bandwidth; ERB) 스케일의 정수배를 따르는 주파수 대역의 불균일(non-uniform) 및 오버랩하지 않는(non-overlapping) 분해(decomposition)를 구성한다. 기본적으로 9배 ERB 스케일은 16kHz의 오디오 대역폭에 대해 총 5 개의 파라미터 대역에 적용된다.
확산은 다음과 같이 계산된다.
여기서 는 인덱스들 (t, k)의 상기 시간-주파수 타일에서 측정되고 의 거듭제곱으로 올린 상기 입력 신호의 상기 에너지이고, 는 인덱스들 (n, k)의 상기 시간-주파수 타일에서 측정된 상기 입력 신호의 상기 확산이고, 여기서 는 주파수 대역 인덱스로 상기 파라미터 대역들의 한계를 정의하고, 는 시간 슬롯들 인덱스들에서 시간에 따른 그룹화의 한계를 정의한다. 예를 들어, 5개의 파라미터들과 1개의 시간 그룹에 대해 테이블이 다음과 같이 정의될 수 있다.
카테시안 좌표의 상기 방향 벡터는 다음과 같이 계산된다.
여기서 는 인덱스들 (t, k)의 상기 시간-주파수 타일에서 측정되고 의 거듭제곱으로 올린 상기 입력 신호의 상기 에너지이고, 는 인덱스들 (n, k)의 상기 시간-주파수 타일에서 측정된 상기 입력 신호의 상기 확산이고, 는 3차원 카테시안 좌표에서 인덱스들 (n, k)의 상기 시간-주파수 타일에서 측정된 상기 방향이고, 여기서 는 주파수 대역 인덱스들(frequency band indices)로 상기 파라미터 대역들의 한계를 정의하고, 은 시간 슬롯들 인덱스들(time slots indices)에서 시간에 따른 그룹화의 한계를 정의한다. 예를 들어, 5개의 파라미터들 대역들 및 4개의 시간 그룹들에 대해 테이블은 다음과 같이 정의될 수 있다.
상기 파라미터 는 파라미터들 평균화를 위해 수행된 상기 가중 합(weighting sum)에서 파워 기반 가중(power-based weights)을 압축 또는 확장할 수 있게 한다. 바람직한 모드에서, 이다.
일반적으로 이 값은 음수가 아닌 실수(a real non-negative number)일 수 있고 1보다 작은 지수(exponent)도 유용할 수 있다. 예를 들어 0.5 (제곱근)는 더 높은 진폭 관련 신호(higher amplitude-related signals)에 더 많은 가중치를 부여하지만 1 또는 1 이상의 지수와 비교할 때 더 적당하다.
이어서, 본 발명의 제2 측면의 바람직한 실시예가 논의된다. 도 4a는 추가의 제2 측면에 따른 확산 파라미터들 및 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터들을 인코딩하기 위한 장치를 도시한다. 상기 장치는 제1 측면에 대해 논의된 상기 그룹화된 파라미터들 또는 그룹화되지 않았거나 다르게 그룹화된 파라미터들을 그 입력에서 수신하는 파라미터 양자화기 (210)를 포함한다.
따라서, 양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 인코딩하기 위한 파라미터 양자화기(210) 및 후속적으로 연결된 파라미터 인코더(220)는 예를 들어 도 1a의 블록(200) 내의 인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들에 대한 정보를 포함하는 인코딩된 파라미터 표현을 발생시키기 위한 출력 인터페이스와 함께 포함된다. 도 2a의 상기 양자화기 및 인코더 프로세서 (200)는 예를 들어, 파라미터 인코더 (220) 및 파라미터 양자화기 (210)와 관련하여 이후에 논의되는 바와 같이 구현될 수 있지만, 상기 양자화기 및 인코더 프로세서 (200)는 상기 제1 측면에 대해 또한 다른 방식으로 구현될 수 있다.
바람직하게는, 도 4a의 파라미터 양자화기(210)는 확산 인덱스들(diffuseness indices)을 생성하기 위해 불 균일 양자화기를 사용하여 도 4b의 231에 도시된 바와 같이 상기 확산 파라미터를 양자화하도록 구성된다. 도 4a의 파라미터 인코더 (220)는 항목(232)에 도시된 바와 같이 구성된다. 즉, 단일 모드를 사용할 수도 있거나 또는 두 가지 상이한 모드만 사용할 수도 있지만, 바람직하게는 세 가지 상이한 모드들을 사용하여 프레임에 대해 획득된 상기 확산 값들을 엔트로피 코딩하도록 구성된다. 하나의 모드는 개별 확산 값이 예를 들어 이진 코드 또는 펑쳐드 이진 코드(punctured binary code)를 사용하여 인코딩 되는 방식으로 행해지는 로우 모드(raw mode)이다. 대안적으로, 각각의 차이 및 오리지널 절대 값(original absolute value)이 로우 모드를 사용하여 인코딩 되도록 차등 인코딩(differential encoding)이 수행될 수 있다. 그러나, 동일한 프레임이 모든 주파수 대역에 걸쳐 동일한 확산(diffuseness)을 가지며 하나의 값 전용 코드(one value only code)가 사용될 수 있는 상황이 될 수 있다. 다시, 대안적으로, 상기 상황은 확산에 대한 연속적인 값들, 즉 하나의 프레임에서 연속 확산 인덱스(consecutive diffuseness indexes)만이 존재하고, 그 후 블록 (232)에 도시된 바와 같이 제3 인코딩 모드가 적용될 수 있는 상황일 수 있다.
도 4c는 도 4a의 파라미터 양자화기(210)의 구현을 도시한다. 도 4a의 파라미터 양자화기(210)는 233에 도시된 바와 같이 상기 방향 파라미터를 극 형식(polar form)으로 변환하도록 구성된다. 블록 (234)에서, 빈에 대한 양자화 정확성이 결정된다. 상기 빈은 오리지널 높은 해상도 빈(original high resolution bin)이거나 대안적으로, 바람직하게는 낮은 해상도 그룹화된 빈일 수 있다.
도 3b 및 도 3c와 관련하여 이전에 논의된 바와 같이, 각각의 대역은 동일한 확산 값을 갖지만 4 개의 상이한 방향 값을 갖는다. 전체 대역, 즉 대역 내의 모든 방향 파라미터들에 대해 동일한 양자화 정확성이 결정된다. 블록 (235)에서, 블록 (233)에 의해 출력된 상기 고도 파라미터는 상기 양자화 정확성을 사용하여 양자화된다. 상기 고도 파라미터를 양자화하기 위한 상기 양자화 알파벳은 또한 블록(234)에서 결정된 바와 같이 상기 빈에 대해 상기 양자화 정확성으로부터 또한 획득되는 것이 바람직하다.
상기 방위 각을 처리하기 위해, 상기 방위 알파벳(azimuth alphabet)은 상기 대응하는 (그룹화 된) 시간/주파수 빈에 대한 상기 고도 정보로부터 결정된다(236). 고도 정보는 상기 양자화된 고도 값, 상기 오리지널 고도 값 또는 상기 양자화된 및 다시 역 양자화된 고도 값일 수 있는데, 후자의 값, 즉 상기 양자화되고 다시 역 양자화된 고도 값은 인코더 측에서 및 디코더 측에서 동일한 상황을 갖기 위해 바람직하다. 블록 (237)에서, 상기 방위 파라미터는 이 시간/주파수 빈에 대한 상기 알파벳으로 양자화된다. 도 3b와 관련하여 전술한 바와 같이 대역의 동일한 양자화 정확성을 가질 수 있지만, 방향 파라미터와 관련된 각각의 개별 그룹화된 시간/주파수 빈에 대해 상이한 방위각 알파벳을 가질 수 있다.
DirAC 메타데이터 코딩(Metadata coding)
각 프레임에 대해 DirAC 공간 파라미터들(spatial parameters)은 주파수에 걸쳐 대역으로 구성된 그리드 상에서 계산되고, 각각의 주파수 대역 에 대해 시간 슬롯들은 다수의 동일한 크기의 시간 그룹들로 그룹화 된다. 확산 파라미터는 각각의 주파수 대역에 대해 보내지고, 방향 파라미터는 각각의 주파수 대역의 각각의 시간 그룹에 대해 보내진다.
확산 파라미터들의 양자화(Quantization of diffuseness parameters)
각각의 확산 파라미터 는 상기 확산 인덱스를 생성하는 불균일 양자화기(non-uniform quantizer)를 사용하여 이산 레벨들 중 하나로 양자화된다. 예를 들어, 상기 양자화기는 MPS 표준에서 사용되는 ICC 양자화 테이블로부터 도출될 수 있고, 이 임계치들 및 재구성 레벨들 (reconstruction levels)은 generate_diffuseness_quantizer 함수에 의해 계산된다.
바람직하게는, 상기 ICC 양자화 테이블로부터의 상기 음이 아닌 값들만이 icc = [1.0, 0.937, 0.84118, 0.60092, 0.36764, 0.0]으로 사용되고, 오리지널 8개 중 6개의 레벨만을 포함한다. 0.0의 ICC는 1.0의 확산에 대응하고, 1.0의 ICC는 0.0의 확산에 대응하기 때문에, y 좌표 세트는 y = 1.0-icc로 생성되고 x 좌표 세트는 x = [0.0, 0.2, 0.4, 0.6, 0.8, 1.0]에 대응한다. 팬와이즈 큐빅 에르미트 보간 다항식(Panwise Cubic Hermite Interpolating Polynomial; PCHIP)으로 알려진 형태 보존 구간 큐빅 보간 방법(shape-preserving piecewise cubic interpolation method)은 x와 y로 정의된 점들의 세트를 통과하는 곡선을 도출하는 데 사용된다. 상기 확산 양자화기(diffuseness quantizer)의 단계의 수는 diff_alph이고, 이는 제안된 구현에서는 8이지만, 상기 ICC 양자화 테이블의 총 레벨 수 8과는 관련이 없다.
0.0부터 1.0까지(또는 사운드 렌더링을 고려하여 순수한 확산의 경우 1.0을 피할 때 1.0에 가깝지만 1.0보다 작음) x_보간된(x_interpolated) 동일 간격의 좌표 diff_alph의 새로운 세트가 발생되고, 상기 커브에서 상기 대응하는 y 값들은 상기 재구성 값들로서 사용되고, 이러한 재구성 값들은 비 선형적 간격을 두고 있다. 연속적인 x_ 보간된 값들 사이의 중간 점들이 또한 발생되고, 상기 커브의 상기 대응하는 y 값들은 임계 값들로서 사용되어 어떤 값들이 특정 확산 인덱스에 매핑되는지와 그에 따른 재구성 값을 결정한다. 상기 제안된 구현의 경우 generate_diffuseness_quantizer 함수에 의해 계산된 상기 발생된 재구성(reconstruction) 및 임계 값들(5 자리로 반올림)은 다음과 같다.
reconstructions = [0.0, 0.03955, 0.08960, 0.15894, 0.30835, 0.47388, 0.63232, 0.85010]
thresholds = [0.0, 0.01904, 0.06299, 0.11938, 0.22119, 0.39917, 0.54761, 0.73461, 2.0]
큰 임계 값(2.0)의 범위를 벗어난 플레이스홀더(placeholder)가 임계치의 끝에 추가되어 검색을 더 쉽게 한다. 예를 들어, 특정 대역 b에 대해, diff(b) = 0.33이라면, thresholds[4] <= diff(b) < thresholds[5] 이고, 따라서 diff_idx(b) = 4이고, 상기 대응하는 재구성 값은 reconstructions[4] = 0.30835 이다.
위의 절차는 상기 확산 값들에 대한 비선형 양자화기의 가능한 선택 중 하나이다.
확산 파라미터들의 엔트로피 코딩(Entropy coding of diffuseness parameters)
EncodeQuasiUniform(value, alphabet_sz) 함수는 펑쳐드 코드(punctured code)를 사용하여 준 균일 확률(quasi-uniform probability)로 를 인코딩하기 위해 사용된다. 의 경우, 다수의 가장 작은 것들은 비트들을 사용하여 인코딩되고, 나머지는 비트들을 사용하여 인코딩된다. 가 2의 거듭제곱인 경우, 이진 코딩이 결과로 나온다.
그들의 값들에 따라, 상기 양자화된 발산 인덱스들은 로우 코딩(raw coding), 하나의 값 전용(one value only), 및 두 개의 연속적인 값들 전용(two consecutive values only)의 상기 3개의 가능한 방법들 중 하나를 사용하여 엔트로피 코딩 된다. 상기 제1 비트(diff_use_raw_coding)는 상기 로우 코딩 방법이 사용되었는지 여부를 나타낸다. 로우 코딩의 경우, 각각의 확산 인덱스 값은 상기 EncodeQuasiUniform함수를 사용하여 인코딩된다.
모든 인덱스 값들이 동일하면, 상기 하나의 값 전용 방법이 사용된다. 제2 비트(diff_have_unique_value)는 상기 방법을 나타내기 위해 사용되고, 그 다음 상기 고유 값(unique value)은 상기 EncodeQuasiUniform함수를 사용하여 인코딩된다. 모든 인덱스 값들이 두 개의 연속적인 값들로만 구성된 경우, 상기 두 개의 연속적인 값들 전용 방법이 사용되고, 상기 제2 비트에 의해 나타난다. 상기 두 개의 값들 중 더 작은 것은 그것의 알파벳 크기가 로 감소된 것을 고려하여 상기 EncodeQuasiUniform함수를 사용하여 인코딩된다. 그리고 나서, 각각의 값에 대해, 해당 값과 최소 값 간 차이가 하나의 비트를 사용하여 인코딩된다.
바람직한 EncodeQuasiUniform(value, alphabet_sz) 함수는 펑쳐드 코드라고 불리는 것을 구현한다. 이는 수도 코드에 의해 다음과 같이 정의될 수 있다.
bits = floor(log2(alphabet_sz))
thresh = 2 ^ (bits + 1) - alphabet_sz
if (value < thresh)
write_bits(value, bits)
else
write_bits(value + thresh, bits + 1)
alphabet_sz가 2의 거듭제곱인 경우, alphabet_sz = 2 ^ bits, 이고 thresh = 2 ^ bits이고, 따라서 else 분기(else branch)는 절대 사용되지 않고, 이진 코딩이 된다. 그렇지 않으면, 상기 제1 임계 가장 작은 값들(first thresh smallest values)은 bits 비트를 갖는 이진 코드를 사용하여 인코딩 되고, 나머지는, value = thresh로 시작하여, bits + 1 비트를 갖는 이진 코드를 사용하여 인코딩된다. bits + 1 비트를 사용하여 인코딩된 상기 제1 이진 코드는 value + thresh = thresh + thresh = thresh * 2인 값을 가지고, 따라서 상기 디코더는 상기 제1 bits 비트만을 읽고 그 값을 thresh와 비교함으로써 추가 비트를 하나 더 읽을 필요가 있는지 알아낼 수 있다. 상기 디코딩 함수, DecodeQuasiUniform(alphabet_sz)는 수도 코드로 다음과 같이 정의될 수 있다.
bits = floor(log2(alphabet_sz))
thresh = 2 ^ (bits + 1) - alphabet_sz
value = read_bits(bits)
if (value >= thresh)
value = (value * 2 + read_bits(1)) - thresh
return value
방향 파라미터들의 극 좌표로의 변환(Conversion of direction parameters to polar coordinates)
이 되도록 정규화된 각각의 3차원 방향 벡터 는 함수 DirectionVector2AzimuthElevation를 사용하여 고도각 및 방위각 로 구성되는 극 표현으로 변환된다. 상기 극좌표에서 정규화된 방향 벡터로의 역방향 변환(reverse direction conversion)은 AzimuthElevation2DirectionVector 함수를 사용하여 수행된다.
방향 파라미터들의 양자화(Quantization of direction parameters)
고도 및 방위 쌍으로서 표현되는 방향은 추가로 양자화된다. 각각의 양자화 확산 인덱스 레벨에 대해, 요구되는 각 정확성(required angular precision)은 로서 구성 벡터로부터 선택되고 상기 단위 구 상에 준 균일하게 분포된 양자화 점들(quasi-uniformly distributed quantization points)의 세트를 발생시키기 위해 사용된다.
상기 각도 간격(angle spacing) 값 deg_req는 상기 확산 diff(b)로부터 계산되는 것이 아니라 상기 확산 인덱스 diff_idx(b)로부터 계산되는 것이 바람직하다. 따라서, 가능한 확산 인덱스마다 하나씩 diff_alph 가능한 deg_req 값이 있다. 상기 디코더 측에서, 상기 오리지널 확산 diff(b)은 이용 가능하지 않고, 상기 확산 인덱스 diff_idx(b)만이 이용 가능하고, 이는 인코더에서와 같은 동일한 각도 간격 값(angle spacing value)을 선택하는데 사용될 수 있다. 제안된 구현에서 상기 각도 간격 테이블은 다음과 같다.
angle_spacing_table = [5.0, 5.0, 7.5, 10.0, 18.0, 30.0, 45.0, 90.0]
상기 단위 구 상에 상기 준 균일하게 분포된 포인들(quasi-uniformly distributed points)은 몇 가지 중요한 바람직한 특성들을 만족시키는 방식으로 발생된다. 상기 점들은 X, Y 및 Z 축을 기준으로 대칭 적으로 분포되어야 한다. 상기 가장 가까운 점으로의 주어진 방향의 상기 양자화 및 정수 인덱스에 매핑하는 것은 일정한 시간 동작(constant time operation)이어야 한다. 마지막으로, 상기 정수 인덱스 및 역 양자화로부터 방향으로 상기 구 상의 대응하는 점을 계산하는 것은 상기 구 상의 총 점들의 수에 대해 일정한 또는 로그 시간 동작(logarithmic time operation)이어야 한다.
수평면 상의 점들에 대한 축과 관련하여 직교 축(orthogonal axis)이 상기 현재 평면 상의 상기 단위 구와 교차하는 두 개의 점들이 있는 유형, 및 어떤 점들도 없는 유형의 두 가지 유형의 대칭이 있다. 임의의 수평면에 대한 예로서, 3가지 가능한 경우들이 있다. 점들의 수가 8과 같은 4의 배수인 경우, X (왼쪽-오른쪽(left-right)) 축에 대해 대칭이 있고 Y축 상에 90 및 270도에 두 점이 있으며 Y(앞-뒤(front-back)) 축에 대한 대칭과 두 개의 점이 X 축 상에서 0과 180도에 있다. 점들의 수가 6과 같은 2의 배수뿐인 경우, X축에 대해서는 대칭이 있지만, Y축 상의 90 및 270도에 점들이 없고, Y축에 대해 대칭이 있고 X축 상의 0 및 180도에 두개의 점들이 있다. 마지막으로, 점들의 수가 5와 같은 임의의 정수인 경우, X축에 대해서는 대칭이 있지만 Y축 상의 90 및 270도에는 점들이 없고, Y축에 대해 대칭이 없다.
바람직한 실시예에서, 모든 수평면에서 0, 90, 180 및 270 도의 점들을 갖는 것은 (모든 양자화된 고도에 대응하는) 심리 음향학적(psychoacoustic) 관점에서 유용한 것으로 간주되었고, 각각의 수평면 상의 점들의 수가 항상 4의 배수임을 내포한다. 그러나, 특정 응용에 따라, 각각의 수평면 상의 점들의 수에 대한 조건은 2의 배수 또는 임의의 정수로 완화될 수 있다.
추가적으로, 바람직한 실시예에서, 각각의 고도에 대해 “오리지널” 방위 점은 항상 0 도 우선 방향(privileged direction)(전방으로)으로 존재한다. 이 속성은 각각의 고도에 대해 0도 방향 대신 상기 방위 점들이 그것에 관하여 분포된 상태에서 미리 계산된 양자화 오프셋 각도를 개별적으로 선택함으로써 완화될 수 있다. 그것은 양자화 전에 상기 오프셋을 더하고 역 양자화 후에 그것을 감산함으로써 쉽게 구현될 수 있다.
상기 요구되는 각 정확성은 이고 90도의 제수(divisor)여야 한다. 그렇지 않으면 실제 사용 전에 로 계산된다. 예를 들어, 상기 가능한 값들의 리스트는 이다. 상기 고도 각 은 단계 크기(step size) 로 균일하게 양자화되고, 양자화 인덱스들 중 하나인 를 생성하고, 여기서 이다. 상기 인덱스는 의 역 양자화 고도에 대응한다. 마찬가지로, 알파벳 크기에만 기초하여, 양자화에 대해 이고, 역 양자화에 대해 이다.
적도에서, 상기 방위 각은 단계 크기 로 균일하게 양자화되고, 양자화 인덱스들 중 하나인 를 생성한다. 다른 고도들에 대해, 두 개의 연속적인 점들 사이 코드 길이(chord length)에 대응하는 상기 단위 구의 중심으로부터 볼 수 있는 수평 각도 간격(horizontal angle spacing)은 상기 고도에 위치한 상기 수평 원의 호 길이로 근사될 수 있다. 따라서, 상기 수평 원 상 90도에 대응하는 점들의 수는, 적도 원에 대해, 그 반지름과 비례하여 줄어들고, 이로써 두 개의 연속적인 점들 사이의 상기 호의 길이는 거의 모든 곳에서 동일하게 유지된다. 극점들에서, 점들의 전체 수는 1이 된다.
상기 고도에 대응하는 양자화 인덱스들이 있고, 여기서 이다. 상기 대응하는 양자화 인덱스는 이고, 여기서 의 결과적인 값은 0으로 대체된다. 상기 인덱스는 의 역 양자화된 방위에 대응한다. 참고로, 인 극점들을 제외하면, 상기 극 주변의 가장 작은 값들은 에 대해 및 나머지에 대해 이다.
각각의 수평면 상의 점들의 수에 대한 조건이 2의 배수만 되도록 완화된다면, 상기 방위 알파벳은 상기 적도면 상에 180도에 대응하는 가 있기 때문에 이 된다. 점들의 수에 대한 조건이 임의의 정수가 되도록 완화된다면, 상기 방위 알파벳은 상기 적도면 상의 360도에 대응하는 가 있기 때문에 이 된다. 두 경우 모두, 이고 가 정수이기 때문에 상기 적도면 상의 점들의 수는 항상 4의 배수이다.
전술한 상기 양자화 및 역 양자화 프로세스는 각각 상기 QuantizeAzimuthElevation 및 DequantizeAzimuthElevation 함수를 사용하여 달성된다.
바람직하게는, round(x) 함수는 x를 가장 가까운 정수로 반올림하며, 보통 round(x) = floor(x + 0.5)와 같이 고정 소수점으로 구현된다. 1.5와 같이 정수 사이의 중간 값인 타이(ties)에 대한 반올림은 여러 가지 방법으로 수행될 수 있다. 상기 정의는 + 무한대로 타이를 반올림한다(1.5는 2로 반올림되고 2.5는 3으로 반올림). 부동 소수점 구현은 일반적으로 정수 함수로의 네이티브 반올림(native rounding)을 갖고 짝수 정수로 타이를 반올림한다(1.5는 2로 반올림, 2.5는 2로 반올림).
“단위 구의 준 균일 커버리지(Quasi Uniform Coverage of the Unit Sphere)”로 표시된 도 4d는 15도 각 정확성(angular precision)을 사용하여 상기 단위 구의 준 균일 커버리지의 예를 도시하고, 상기 양자화된 방향들을 보여준다. 상기 3D 뷰(view)는 위에서 바라본 것이고, 더 나은 시각화를 위해 상반구만이 도시되어 있고, 연결하는 나선 점선(connecting dotted spiral line)은 단지 동일한 수평 원이나 면으로부터 상기 점들의 더 쉬운 시각적 식별을 위한 것이다.
다음으로, 상기 양자화된 방향 파라미터들, 즉 상기 양자화된 고도 인덱스들 및 상기 양자화된 방위 인덱스를 인코딩하기 위한 도 4a의 파라미터 인코더 (220)의 바람직한 구현이 도시된다. 도 5a에 도시된 바와 같이, 상기 인코더는 프레임의 확산 값들에 대하여 각 프레임을 분류하도록(240) 구성된다. 블록 (240)은 도 3b 실시예에서 상기 프레임에 대한 5 개의 확산 값들뿐인 상기 확산 값들을 수신한다. 상기 프레임이 낮은 확산 값들로만 구성된 경우, 상기 낮은 확산 인코딩 모드 (241)가 적용된다. 프레임 내의 상기 5개의 확산 값들이 높은 확산 값들뿐이면, 높은 확산 인코딩 모드 (242)가 적용된다. 상기 프레임의 상기 확산 값들이 상기 확산 임계치 ec_max의 위와 아래 모두에 있다고 결정되면, 혼합 확산 인코딩 모드(mixed diffuseness encoding mode)(243)가 적용된다. 상기 낮은 확산 인코딩 모드(241)과 높은 확산 인코딩 모드(242) 모두에서, 및 또한 상기 낮은 확산 대역들에 대해, 혼합 확산 프레임과 관련하여, 한편으로 상기 로우 코딩 및 다른 한편으로는 상기 엔트로피 코딩이 시도된다, 즉, 244a, 244b 및 244c에 나타난 바와 같이 수행된다. 그러나, 혼합 확산 프레임의 상기 높은 확산 대역들에 대해, 로우 코딩 모드는 244d에 도시된 바와 같이 항상 사용된다.
상기 상이한 인코딩 모드들, 즉, 상기 로우 코딩 모드 및 상기 엔트로피 코딩 모드 (모델링 과정이 있는)가 사용되는 경우, 결과는 상기 양자화된 인덱스들을 인코딩하기 위한 더 적은 수의 비트를 낳는 상기 모드를 선택하는 인코더 콘트롤러(encoder controller)에 의해 선택된다. 이는 245a, 245b 및 245c에 나타나있다.
다른 한편으로, 모든 프레임들 및 대역들에 대해 상기 로우 코딩 모드만을 사용할 수 있거나, 또는 모든 대역들에 대해 상기 모델링 과정이 있는 엔트로피 코딩 모드만을 사용할 수 있거나, 또는 상기 인덱스들을 코딩하기 위해 허프만 코딩 모드(Huffman coding mode) 또는 콘텍스트 적응(context adaption)이 있는 또는 없는 산술 코딩 모드(arithmetic coding mode)와 같은 임의의 다른 코딩 모드를 사용할 수 있다.
블록들(245a, 245b 및 245c)에서 선택된 절차의 결과에 따라, 부가 정보(side information)는 블록들(246a, 246b)에 도시된 바와 같이 전체 프레임에 대해 설정되거나 또는 대응하는 대역들, 즉 블록 (246c)의 상기 낮은 확산 대역들에 대해서만 설정된다. 대안적으로, 상기 부가 정보는 또한 항목(246c)의 경우에 전체 프레임에 대해 설정될 수 있다. 이 경우, 상기 부가 정보가 상기 전체 프레임에 대해 설정되더라도 상기 디코더는 그럼에도 불구하고 혼합 확산 프레임이 있다는 점 및 비록 상기 프레임에 대한 상기 부가 정보가 모델링 과정이 있는 엔트로피 인코딩을 나타내더라도 상기 혼합 확산 프레임에서 높은 확산 값을 갖는 대역들에 대한 상기 방향 파라미터들이 상기 로우 코딩 모드로 인코딩된다는 점을 결정하도록 상기 디코더 내에서만 상기 높은 확산 대역들의 결정이 수행될 수 있다.
바람직한 실시예에서, diff_alph = 8 이다. 그런 다음, 상기 ec_max 임계 값은 큰 테스트 코퍼스(test corpus)에서 평균 압축 크기를 최소화하는 수단에 의해 5로 선택된다. 상기 임계 값 ec_max은 현재 프레임의 상기 확산 인덱스들에 대한 값들의 범위에 따라 다음 모드에서 사용된다.
- 낮은 내지 중간 확산 프레임들에 대해, 여기서 diff_idx(b) <= ec_max이고, 모든 대역들b에 대해, 모든 방향들은 로우(raw) 및 엔트로피 코딩 모두를 사용하여 인코딩 되고 최고가 선택되며 하나의 비트에 의해 부가 정보로 표시된다(위에서 dir_use_raw_coding로 식별됨);
- 혼합 확산 프레임들에 대해, 여기서 diff_idx(b) <= ec_max이고, 일부 대역들 b에 대해, 이러한 대역들에 대응하는 상기 방향들은 상기 제1 경우와 틀림 없이 인코딩된다; 그러나, 다른 높은 확산 대역들 b에 대해, 여기서 diff_idx(b) > ec_max이고, 이러한 다른 대역들에 대응하는 상기 방향들은 항상 로우(raw)로서 인코딩된다(높은 확산을 갖는 방향들과 낮은 내지 중간 확산을 갖는 방향들의 엔트로피 코딩 통계가 혼합되는 것을 피하기 위해, 이 또한 매우 대략적으로 양자화된다);
- 높은 확산 프레임들에 대해, 여기서 diff_idx(b) > ec_max이고, 모든 대역들 b에 대해, 상기 ec_max 임계치는 현재 프레임에 대해 ec_max = diff_alph로 미리 설정되고(상기 확산 인덱스들이 방향들 전에 코딩되기 때문에, 상기 설정은 상기 디코더 측에서 동일하게 미리 수행될 수 있다), 따라서 이 경우는 제1 경우로 감소된다.
도 5b는 두 모드 모두에 대한 방향 인덱스들의 바람직하지만 선택적인 전처리(preprocessing)를 도시한다. 두 모드 모두에 대해, 상기 양자화된 인덱스들, 즉, 상기 양자화된 방위 인덱스들 및 상기 양자화된 고도 인덱스들은 블록(247)에서 부호 있는 값들을 낳는 고도/방위 인덱스들의 변환으로 처리되고, 여기서 영 인덱스(zero index)는 영의 고도 또는 방위 각에 대응한다. 양/음의 값들의 인터리빙(interleaving)을 포함하는 부호 없는 값들로의 후속 변환(248)은 상기 재정렬된 부호 없는 방위/고도 인덱스들(reordered unsigned azimuth/elevation indexes)의 보다 간결한 표현을 갖기 위해 수행된다.
도 5c는 제1 코딩 모드 (260)의 바람직한 구현, 즉 모델링 과정이 없는 로우 코딩 모드를 도시한다. 상기 전처리된 방위/고도 인덱스들은 두 인덱스를 단일 구 인덱스로 병합하기 위해 블록 (261)에 입력된다. 상기 연관된 확산 인덱스, 즉, deg_req 로부터 도출된 상기 양자화 정확성에 기초하여, EncodeQuasiUniform 또는 (펑쳐드) 2진 코드와 같은 인코딩 함수로 인코딩이 수행된다(262). 따라서,천제 프레임에 대한 또는 대역들에 대한 인코딩된 구 정확성이 획득된다. 상기 전체 프레임에 대한 상기 인코딩된 구 인덱스들은 상기 로우 코딩이 선택되는 낮은 확산 전용 프레임(low diffuseness only frame)의 경우, 또는 다시 상기 로우 코딩이 선택되는 높은 확산 전용 프레임(high diffuseness only frame)에서 획득되거나 또는 프레임의 높은 확산 대역들만에 대한 상기 인코딩된 구 인덱스들은 도 5a의 243에 나타난 혼합 확산 프레임의 경우에 획득되고, 여기서 상기 다른 대역들에 대해, 낮은 또는 중간 확산과 함께, 모델링 과정이 있는 엔트로피 코딩과 같은 제2 인코딩 모드가 선택된다.
도 5d는 예를 들어 모델링 과정이 있는 엔트로피 코딩 모드일 수 있는 상기 제2 인코딩 모드를 도시한다. 예를 들어, 도 5a에 도시된 바와 같이 혼합 확산 프레임에 대해 분류된 전처리된 인덱스들은 240에서 고도 인덱스들, 고도 알파벳들, 방위 인덱스들, 방위 알파벳들과 같은 대응하는 양자화 데이터를 수집하는 블록 (266)에 입력되고, 상기 데이터는 프레임에 대해 별도의 벡터들로 수집된다. 블록(267)에서, 평균은 이후 논의될 바와 같이, 역 양자화 및 대응하는 벡터 변환으로부터 도출된 정보에 기초하여 고도 및 방위에 대해 명백하게 계산된다. 이들 평균 값들은 블록(268)에 나타난 프레임에서 사용되는 상기 가장 높은 각 정확성으로 양자화된다. 블록(269)에 도시된 바와 같이 예측된 고도 및 방위 인덱스들은 상기 평균 값들로부터 발생되고, 상기 예측된 고도 및 방위 인덱스들과 관련된 및 상기 오리지널 인덱스들로부터의 고도 및 방위에 대한 부호 있는 거리들은 계산되고 선택적으로 다른 작은 값들의 간격으로 감소된다.
도 5e에 도시된 바와 같이,도 5d에 도시된 예측값들을 도출하기 위한 투영 동작(projection operation)을 사용하여 상기 모델링 동작에 의해 발생된 데이터는 엔트로피 인코딩된다. 도 5e에 도시된 상기 인코딩 동작은 최종적으로 상기 대응하는 데이터로부터 인코딩 비트들을 발생시킨다. 블록(271)에서, 방위 및 고도에 대한 상기 평균값들은 부호있는 값들로 변환되고, 보다 간단한 표현을 위해 특정 재정렬(certain reordering)(272)이 수행되고, 상기 평균값들은 상기 고도 평균 비트들(274) 및 상기 방위 평균 비트들을 발생시키기 위해 이진 코드 또는 펑쳐드 이진 코드로 인코딩된다(273). 블록(275)에서, 골롬-라이스 파라미터는 도 5f에 도시된 바와 같이 결정되고, 상기 파라미터는 또한 277에 도시된 방위에 대한 다른 골롬-라이스 파라미터 및 고도에 대한 상기 골롬-라이스 파라미터를 갖기 위해 블록(276)에 도시된 (펑쳐드) 이진 코드로 인코딩된다. 블록 (278)에서, 블록 (270)에 의해 계산된 상기 (감소된) 부호있는 거리들은 재정렬된 다음 280에 나타난 상기 인코딩된 고도 거리들 및 방위 거리들을 갖기 위해 279에 도시된 상기 확장된 골롬-라이스 방법으로 인코딩된다.
도 5f는 블록(275)에서 상기 골롬-라이스 파라미터의 결정을위한 바람직한 구현을 도시하며, 이는 상기 고도 골롬-라이스 파라미터 또는 상기 방위 골롬-라이스 파라미터의 결정 모두를 위해 수행된다. 블록(281)에서, 상기 대응하는 해당 골롬-라이스 파라미터에 대한 간격이 결정된다. 블록(282)에서, 모든 감소된 부호있는 거리들에 대한 총 비트 수는 각각의 후보 값에 대해 계산되고, 블록(283)에서 가장 작은 수의 비트를 낳는 상기 후보 값은 방위 또는 고도 처리 중 하나에 대한 골롬-라이스 파라미터로서 선택된다.
이어서,도 5e의 블록(279)의 절차, 즉 확장된 골롬-라이스 방법을 추가로 도시하기 위해 도 5g가 논의된다. 상기 선택된 골롬-라이스 파라미터(p)에 기초하여, 고도 또는 방위에 대한 상기 거리 인덱스는 블록(284)의 우측에 도시된 바와 같이 최상위 부분(most significant part; MSP) 및 최하위 부분(least significant part; LSP)로 분리된다. 블록(285)에서, 상기 MSP가 가능한 최대 값인 경우에, 상기 MSP 부분의 터미네이팅 제로 비트(terminating zero bit)가 제거되고, 블록(286)에서, 상기 결과는 (펑쳐드) 이진 코드로 인코딩된다.
상기 LSP 부분은 또한 287에 도시된 (펑쳐드) 이진 코드로 인코딩된다. 따라서, 라인 (288 및 289)에서, 고도 또는 방위에 대한 상기 대응하는 인코딩된 감소된 부호 있는 거리들을 함께 표현하는 상기 최상위 부분 MSP에 대한 인코딩된 비트들 및 상기 최하위 부분 LSP에 대한 인코딩된 비트들이 획득된다.
도 8d는 인코딩된 방향에 대한 예를 도시한다. 모드 비트(mode bit)(806)는 예를 들어 모델링 과정이 있는 엔트로피 인코딩 모드(entropy encoding mode with modeling)를 나타낸다. 항목(808a)은 상기 방위 평균 비트들을 나타내고, 항목(808b)은 도 5e의 항목(274)과 관련하여 이전에 논의된 바와 같은 고도 평균 비트들을 나타낸다. 골롬-라이스 방위 파라미터 (808c) 및 골롬-라이스 고도 파라미터 (808d)는 또한 항목(277)과 관련하여 이전에 논의된 것에 대응하는 도 8d의 상기 비트 스트림의 인코딩된 형태에 포함된다. 상기 인코딩된 고도 거리들 및 상기 인코딩된 방위 거리들(808e 및 808f)은 288 및 289에서 획득된 바와 같이 또는 도 5e 및 도 5g의 항목 (280)과 관련하여 이전에 논의된 바와 같이 상기 비트 스트림에 포함된다. 항목 (808g)은 추가의 고도/방위 거리들에 대한 추가 페이로드 비트들(payload bits)을 도시한다. 상기 고도 및 방위에 대한 평균들 및 고도 및 방위에 대한 상기 골롬-라이스 파라미터들은 각 프레임에 대해 한 번만 요구되지만 또한 상기 프레임이 상당히 길거나 상기 신호 통계들이 프레임 내에서 크게 변하는 경우, 필요하다면, 프레임에 대해 두 번 계산될 수 있다.
도 8c는 상기 모드 비트가 도 5c, 블록(260)에 의해 정의된 바와 같이 로우 코딩을 나타내는 경우 상기 비타 스트림을 도시한다. 상기 모드 비트(806)는 상기 로우 코딩 모드를 나타내고 항목(808)은 상기 구 인덱스들에 대한 상기 페이로드 비트들, 즉, 도 5c의 블록(262)의 결과를 나타낸다.
방향 파라미터들의 엔트로피 코딩(Entropy coding of direction parameters)
양자화된 방향을 코딩할 때, 상기 방향 인덱스는 항상 상기 방위 인덱스 전에 먼저 코딩 된다. 상기 현재 구성(current configuration)이 상기 수평 적도 평면(horizontal equatorial plane)만을 고려하는 경우, 상기 고도에 대해 아무것도 코딩 되지 않고 어디에서나 0으로 간주된다.
코딩하기 전에, 부호 있는 값들은 ReorderGeneric 함수에 의해 구현되는 로서 상기 양수 및 음수들을 부호 없는 수들에 인터리빙하는(interleaves) 일반 재정렬 변환(generic reordering transformation)을 사용하여 부호 없는 값들에 매핑된다. 상기 표현(expression)은 이 참인 경우 1로 평가되고, 이 거짓인 경우 0으로 평가된다.
다수의 더 작은 부호 없는 값들이 한 비트 적게 더 효율적으로 코딩되기 때문에, 상기 EncodeQuasiUniform 함수를 사용하여, 이미 부호가 없는 상기 고도 및 방위 인덱스들 모두는 부호가 있는 것으로 변환되어 영의 부호 있는 인덱스 값은 영의 고도 또는 방위 각에 대응하고 그 후에만 ReorderGeneric 함수가 적용된다. 먼저 부호 있는 것으로 변환하는 것에 의해, 상기 영 값은 가능한 값들의 상기 부호 있는 간격의 중간에 위치하고, 상기 ReorderGeneric 함수를 적용한 후 결과적인 부호 없는 재정렬된 고도 인덱스 값(resulting unsigned reordered elevation index value)은 이고, 결과적인 부호 없는 재정렬된 방위 인덱스 값(resulting unsigned reordered azimuth index value)은 이다.
모델링 과정이 없는 로우 코딩의 경우, 상기 두 개의 부호 없는 재정렬된 인덱스들은 단일 부호 없는 구 인덱스(single unsigned sphere index) 에 병합되고, 여기서 상기 함수는 보다 작은 상기 부호 없는 재정렬된 고도 인덱스들에 대응하는 모든 방위 알파벳들 의 합을 계산한다. 예를 들어, 인 경우, 여기서 (고도 0도)은 를 갖고, (고도 -90도)은을 갖고, 및 (고도 90도)는 를 갖는데, 는 값 을 취한다. 상기 현재 구성이 상기 수평 적도 평면만을 고려하면, 는 항상 0이고 상기 부호 없는 구 인덱스는 로 단순화된다. 일반적으로, 상기 구 상의 점들의 전체 수(total number of points on the sphere) 또는 구 점 카운트(sphere point count)는 이다.
상기 부호 없는 구 인덱스 는 상기 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 엔트로피 코딩의 경우, 모델링을 통해, 상기 양자화된 방향들은 두 개의 카테고리로 그룹화된다. 첫 번째는 엔트로피 코딩된 확산 인덱스들에 대한 양자화된 방향들을 포함하고, 두 번째는 로우 코딩된 확산 인덱스들 에 대한 상기 양자화된 방향들을 포함하고, 여기서 는 에 기초하여 선택적으로 선택된 임계치이다. 이 접근법은 상기 잔존하는 것들(residuals)의 통계들이 혼합되는 것을 피하기 위해, 낮은 내지 중간 확산을 갖는 주파수 대역들이 또한 프레임에 존재할 때, 높은 확산을 갖는 주파수 대역들을 엔트로피 코딩에서 암시적으로 배제한다. 혼합 확산 프레임의 경우, 로우 코딩은 항상 높은 확산을 갖는 주파수 대역들에 대해 사용된다. 그러나, 모든 주파수 대역들이 높은 확산 을 갖는 경우, 모든 주파수 대역들에 대해 엔트로피 코딩을 가능하게 하기 위해 상기 임계치는 미리 로 설정된다.
엔트로피 코딩된 양자화된 방향들의 상기 제1 카테고리의 경우, 상기 대응하는 고도 인덱스들 , 고도 알파벳들 , 방위 인덱스들 , 및 방위 알파벳들 은 추가 처리를 위해 별도 벡터들로 수집된다.
방향 벡터로 다시 엔트로피 코딩 되는 각각의 양자화된 방향들을 변환하고, 재정규화(renormalization)를 포함하는 상기 방향 벡터들의 모드(mode), 중간(median), 또는 평균(mean) 중 하나를 계산하고, 및 상기 평균 방향 벡터를 평균 고도 및 방위로 변환함으로써, 평균 방향 벡터들이 도출된다. 이러한 두 개의 값들은 엔트로피 코딩된 상기 양자화된 방향들에 의해 사용되는 최고의 각 정확성을 사용하여 양자화되고, 이는 대개 최소 확산 인덱스 에 대응하는 요구되는 각 정확성이다.
엔트로피 코딩 될 각각의 방향에 대해, 상기 역 양자화된 평균 고도 및 방위 는 예측된 고도 및 방위 인덱스들을 획득하기 위해 그 방향의 정확성을 사용하여 투영된다(projected). 고도 인덱스 의 경우, 로부터 도출될 수 있는 그것의 정확성은 상기 투영된 평균 고도 인덱스 를 계산하는데 사용된다. 상기 대응하는 방위 인덱스 의 경우, 로부터 도출될 수 있는 상기 고도에 위치한 상기 수평 원(horizontal circle) 상의 그것의 정확성은 상기 투영된 평균 방위 인덱스 를 계산하는데 사용된다.
예측된 고도 및 방위 인덱스들을 획득하기 위한 상기 투영은 몇 가지 동등한 방법으로 계산될 수 있다. 고도에 대해, 이고, 이는 로 단순화될 수 있다. 비트 정확 동작(bit-exact operation)을 용이하게 하기 위해, 이전 공식은 나누기를 포함하여 정수만 사용하여 로 다시 작성될 수 있다. 방위에 대해, 이고, 이는 로 쉽게 단순화될 수 있다. 비트 정확 동작을 용이하게 하기 위해, 이전 공식은 나누기를 포함하여 정수만 사용하여로 다시 작성될 수 있다. 극점에서, 여기서 이고, 우리는 항상 을 갖고 을 바로 설정한다.
상기 부호 있는 거리 는 각각의 고도 인덱스 및 대응하는 그것의 사이 차이로 계산된다. 추가적으로, 상기 차이가 간격 내의 값들을 생성하기 때문에, 그들은 모듈러 연산(modular arithmetic)에서와 같이 너무 작은 값들에 대해 를 더하고 너무 큰 값들에 대해 를 감산함으로써 상기 간격 로 줄어든다. 에 비례해 상기 줄어든 거리가 랩 어라운드(wrap-around)를 사용하여 해석되는 경우, 값들을 포함하는 상기 부호 없는 알파벳까지 모든 값을 생성할 수 있다.
마찬가지로, 상기 부호 있는 거리 는 각각의 방위 인덱스 및 대응하는 간 차이로 계산된다. 상기 차이 동작(difference operation)은 간격 내의 값들을 생성하고, 이는 너무 작은 값들에 대해 를 더하고 너무 큰 값들에 대해 를 감산함으로써 간격 로 줄어든다. 일 때, 상기 방위 인덱스는 항상 이고 아무것도 코딩 될 필요가 없다.
그들의 값들에 따라, 상기 양자화된 고도 및 방위 인덱스들은 로우 코딩 또는 엔트로피 코딩의 2 가지 가능한 방법들 중 하나를 사용하여 코딩될 수 있다. 상기 제1 비트(dir_use_raw_coding)는 상기 로우 코딩 방법이 사용되는지 여부를 나타낸다. 로우 코딩의 경우, 상기 병합된 단일 부호 없는 구 인덱스들(single unsigned sphere indexes)은 상기 EncodeQuasiUniform 함수를 사용하여 직접적으로(directly) 코딩된다.
엔트로피 코딩은 여러 부분으로 구성된다. 확산 인덱스들 에 대응하는 모든 상기 양자화된 고도 및 방위 인덱스들은 로우 코딩과 같이 코딩 된다. 그리고, 다른 것들의 경우, 상기 고도 부분은 먼저 코딩되고, 상기 방위 부분이 다음에 코딩된다.
상기 고도 부분은 상기 평균 고도 인덱스, 골롬-라이스 파라미터, 및 상기 감소된 부호 있는 고도 거리들의 3 가지 구성요소들로 구성된다. 상기 평균 고도 인덱스는 부호 있는 것으로 변환되고, 이로써 상기 영 값(zero value)은 가능한 값들의 상기 부호 있는 간격의 상기 중간에 있고, 상기 ReorderGeneric 함수가 적용되고, 및 결과는 상기 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 상기 고도 인덱스들의 상기 알파벳 크기들 중 최대에 따른 알파벳 크기를 갖는 상기 골롬-라이스 파라미터는 상기 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 마지막으로, 각각의 감소된 부호 있는 고도 거리(reduced signed elevation distance) 에 대해, 를 생성하기 위해 상기 ReorderGeneric 함수가 적용되고, 및 결과는 위에 나타난 파라미터를 갖는 상기 확장된 골롬-라이스 방법을 사용하여 코딩 된다.
예를 들어, 사용된 최고 각 정확성(best angular precision) 이 5도인 경우, 상기 고도 알파벳 크기 의 최대는 일 것이다. 이 경우, 상기 골롬-라이스 파라미터 값들(아래 골롬-라이스 방법의 설명에서 로 표시)은 간격 로 제한된다. 일반적으로, 상기 골롬-라이스 파라미터의 가장 큰 잠재적으로 유용한 값은 이고, 이는 상기 EncodeQuasiUniform 함수를 사용하여 로우 코딩함으로써 생성되는 것들보다 약간 길거나 같은 길이의 이진 코드 워드들(binary codewords)을 생성한다. 상기 골롬-라이스 파라미터의 최적 값은 상기 확장된 골롬-라이스 방법을 사용하여 코딩될 모든 값들에 대한 총 비트 크기를, 상기 간격 내의 각각의 값에 대해, 코딩 없이 효율적으로 계산하고, 및 가장 작은 비트 크기를 제공하는 하나를 선택함으로써 선택된다.
상기 방위 부분 또한 상기 평균 방위 인덱스, 골롬-라이스 파라미터, 및 상기 감소된 부호 있는 방위 인덱스들의 3가지 구성요소들로 구성된다. 상기 평균 방위 인덱스 는 부호 있는 것으로 변환되고, 이로써 상기 영 값은 가능한 값들의 상기 부호 있는 간격의 중간에 있고, 상기 ReorderGeneric 함수가 적용되고, 및 결과는 상기 EncodeQuasiUniform 함수를 사용하여 코딩된다. 상기 방위 인덱스들의 상기 알파벳 크기의 최대에 따른 알파벳 크기를 갖는 상기 골롬-라이스 파라미터는 상기 EncodeQuasiUniform 함수를 사용하여 코딩된다. 마지막으로, 각각의 감소된 부호 있는 방위 거리 에 대해, 상기 ReorderGeneric 함수는 를 생성하기 위해 적용되고, 및 결과는 위에 나타난 파라미터를 갖는 상기 확장된 골롬-라이스 방법을 사용하여 코딩된다.
예를 들어, 사용된 최고 각 정확성 이 5도인 경우, 상기 방위 알파벳 크기 의 최대는 일 것이다. 이 경우, 상기 골롬-라이스 파라미터 값들(아래 골롬-라이스 방법의 설명에서 로 표시)은 간격 로 제한된다. 상기 골롬-라이스 파라미터 의 최적 값은 상기 확장된 골롬-라이스 방법을 사용하여 코딩될 모든 값들에 대한 총 비트 크기를, 상기 간격 내의 각각의 값에 대해, 효율적으로 계산하고, 및 가장 작은 비트 크기를 제공하는 하나를 선택함으로써 선택된다.
효율적인 엔트로피 코딩을 위해 고려해야 할 중요한 특성은 각각의 재정렬된 감소된 고도 거리 은 정확하게 상기 오리지널 고도 인덱스 값 의 이고 상기 대응하는 확산 인덱스 에 의존하는 다른 알파벳 크기를 가질 수 있다는 것이다. 또한, 각각의 재정렬된 감소된 방위 거리 은 정확하게 상기 오리지널 방위 인덱스 값 의 이고, 그것의 수평 원(horizontal circle)의 대응하는 과 상기 확산 인덱스 모두에 의존하는 다른 알파벳 크기를 가질 수 있다.
정수 파라미터를 갖는 상기 존재하는 골롬-라이스 엔트로피 코딩 방법은 부호 없는 정수 를 코딩하기 위해 사용된다. 먼저, 는 비트로 최하위 부분으로 분할되고, 이고, 및 최상위 부분은 이다. 상기 최상우 부분은 하나의 비트 및 터미네이팅 제로 비트(terminating zero bit)를 사용하여 1진법(unary)으로 코딩 되고, 최하위 부분은 2진법으로 코딩 된다.
임의의 큰 정수(arbitrarily large integers)가 코딩될 수 있기 때문에, 코딩될 실제 값이 알려진 및 비교적 작은 알파벳 크기를 가질 때 일부 코딩 효율이 손실될 수 있다. 다른 단점은 전송 오류(transmission error) 또는 의도적으로 생성된 유효하지 않은 비트 스트림(purposely created invalid bitstream)의 경우, 범위를 벗어난 값 또는 유효하지 않은 값을 디코딩하거나 매우 많은 수의 1 비트를 읽을 수 있다는 가능성이다.
상기 확장된 골롬-라이스 방법은 값들의 벡터를 코딩하기 위해, 알려진 및 잠재적으로 다른 알파벳 크기를 갖는, 기존의 골롬-라이스 방법에 대한 세 가지 개선점들을 결합한다. 먼저, 최상위 부분의 상기 알파벳 크기는 로 계산될 수 있다. 최상위 부분의 최대 가능한 값(maximum possible value)이 코딩된 경우, , 상기 터미네이팅 제로 비트는 제거될 수 있고, 이 조건이 상기 디코드 측에서 암시적으로 검출될 수 있기 때문에, 상기 수정(modification)은 상기 존재하는 제한된 골롬-라이스 방법(Limited Golomb-Rice method)이다. 추가적으로, 동일한 경우에 대해 일 때, 로 계산될 수 있는 최하위 부분의 상기 알파벳 크기는 보다 작을 수 있고, 비트를 이용한 이진 코딩 대신 상기 EncodeQuasiUniform 함수를 사용하는 것을 허용한다. 이는 또한 특정 값 가 보다 작은 알파벳 를 갖는 경우에 유용하다. 마지막으로, 일 때 상기 제한된 골롬-라이스 방법은 또는 비트의 하나의 길이만을 갖는 코덱들(codes) 또는 및 비트의 두 개의 길이만을 갖는 코덱들을 생성한다.
상기 EncodeQuasiUniform 함수는 최대 2개의 길이에 대해 최적이므로, 따라서 대신 사용된다.
일 때 최상위 부분에 대한 상기 제한된 골롬-라이스의 상기 코드 워드들은 0, 10, 11이기 때문에, 3의 임계치는 특별히 선호되는 값이다. 따라서, 상기 코드의 총 길이는 1+p, 2+p, 및 2+p이고, 여기서 p는 최하위 부분에 대한 비트들의 수이다. 펑쳐드 코드가 항상 최대 2개의 길이에 대해 최적이기 때문에, 대신 사용되고, 최상위 부분과 최하위 부분 모두를 대체한다.
또한, 상기 함수 EncodeQuasiUniform이 상기 알파벳 크기가 2의 거듭제곱일 때 암시적으로 이진 코드인 정확하게 펑쳐드 코드라는 점이 개설(outlined)된다. 일반적으로, 펑쳐드 코드는 주어진 알파벳 크기에 따라 최적이고 고유하게 결정된다. 이는 하나 또는 두 개의 길이의 코드만을 생성한다. 3개 또는 그 이상의 연속적인 코드 길이에 대해, 상기 가능한 코드들은 더 이상 준 균일(quasi-uniform)하지 않고, 각각의 길이의 가능한 코덱들의 수에 대해 다른 선택들이 있다.
본 발명은 상기의 정확한 설명으로 제한되지 않는다. 대안적으로, 본 발명은 프레임 간 예측 코딩 방식의 형태로 쉽게 확장될 수 있고, 여기서 각각의 파라미터 대역에 대해 평균 방향 벡터는 전체 현재 프레임에 대한 단일 평균 벡터를 계산하고 부가 정보로서 그것을 코딩하기 보다는 시간에 걸쳐 이전 방향 벡터들을 사용하여 현재 프레임으로부터 및 또한 선택적으로 이전 프레임으로부터 계산된다. 상기 솔루션은 코딩에서 더 효율적이지만 가능한 패킷 손실에 대해 덜 강건하다(less robust)는 장점을 가질 것이다.
도 6a 내지 6g는 전술한 바와 같이 상기 인코더에서 수행되는 추가 절차들을 도시한다. 도 6a는 양자화 고도 함수(quantize elevation function) (210a), 양자화 방위 함수(quantize azimuth function) (210b) 및 역 양자화 고도 함수(dequantize elevation function) (210c)로 구성된 파라미터 양자화기 (210)의 일반적인 개요를 도시한다. 도 6a의 바람직한 실시예는 양자화 되고 다시 역 양자화된 고도 값 q_el에 의존하는 방위 함수(azimuth function) (210c)를 갖는 상기 파라미터 양자화기를 도시한다.
도 6c는 상기 인코더에 대해 도 6a와 관련하여 이전에 논의된 바와 같이 상기 고도를 역 양자화하기 위한 대응하는 역 양자화기(dequantizer)를 도시한다. 그러나, 도 6b 실시예는 또한 도 8a의 항목 (840)에 도시된 상기 역 양자화기에 유용하다. 역 양자화 정확성(dequantization precision) deg_req에 기초하여, 한편으로는 상기 고도 인덱스 및 다른 한편으로는 상기 방위 인덱스는 최종적으로 상기 역 양자화된 고도 값 q_el 및 상기 역 양자화된 방위 값 q_az를 획득하기 위해 역 양자화된다. 도 6c는 제1 인코딩 모드, 즉 도 5c의 항목들(260 내지 262)과 관련하여 논의된 상기 로우 코딩 모드를 도시한다. 도 6c는 247a에서 고도 데이터의 부호 있는 값으로의 변환 및 247b에서 방위 데이터의 부호 있는 값으로의 대응하는 변환을 도시하는 도 5b에서 논의된 상기 전처리를 추가로 도시한다. 구 점 카운트 절차(sphere point count procedure)는 양자화 또는 역 양자화 정확성에 기초하여 상기 구 알파벳(sphere alphabet)을 계산하기 위해 블록 (248c)에서 수행된다. 블록 (261)에서, 두 개의 인덱스를 단일 구 인덱스로 병합하는 것이 수행되고, 블록 (262)의 상기 인코딩은 이진 또는 펑쳐드 코드로 수행되고, 여기서, 상기 구 인덱스뿐만 아니라 대응하는 역 양자화 정확성에 대한 구 알파벳은 도 5c에 도시된 바와 같이 도출된다.
도 6d는 모델링 과정이 있는 상기 엔트로피 코딩 모드에 대해 수행되는 상기 절차를 도시한다. 항목(267a)에서, 상기 방위 및 고도 데이터의 역 양자화는 상기 대응하는 인덱스들 및 상기 역 양자화 정확성에 기초하여 수행된다. 상기 역 양자화된 값들로부터 방향 벡터를 계산하기 위해 상기 역 양자화된 값들이 블록 (267b)에 입력된다. 블록(267c)에서, 평균화 벡터를 얻기 위해 상기 대응하는 임계치 미만의 연관된 확산 인덱스를 갖는 벡터들에 대해 평균화가 수행된다. 블록(267d)에서, 상기 방향 평균 방향 벡터(direction average direction vector)는 다시 고도 평균 및 방위 평균으로 다시 변환되고, 이 값들은 블록(268e)에 의해 결정된 바와 같이 최고 정확성을 사용하여 양자화된다. 이 양자화는 268a, 268b에 도시되어 있고, 상기 양자화는 알파벳이 평균값에 대한 양자화 정확성에 의해 결정되는 대응하는 양자화된 인덱스들 및 양자화 알파벳들을 초래하고, 여기서 상기 알파벳들은 상기 평균 값에 대한 상기 양자화 정확성의 수단들에 의해 결정된다. 블록들(268c 및 268d)에서, 고도 및 방위에 대한 역 양자화 평균값을 얻기 위해 역 양자화가 다시 수행된다.
도 6e에서, 투영된 고도 평균은 블록(269a)에서 계산되고 상기 투영된 방위각 평균은 블록 (269b)에서 계산된다. 즉, 도 6e는 도 5d의 블록(269)의 바람직한 구현을 도시한다. 도 6e에 도시된 바와 같이, 블록 (269a, 269b)은 바람직하게는 고도 및 방위에 대한 양자화된 그리고 다시 역 양자화된 평균값들을 수신한다. 대안적으로, 양자화 및 다시 역 양자화를 갖는 절차가 상기 인코더 측 및 상기 디코더 측의 상태와의 더 높은 호환성(compatibility) 및 정확성(precision)을 위해 바람직하지만, 블록(267d)의 출력에 대해 상기 투영이 또한 직접 수행될 수 있다.
도 6f에서, 바람직한 실시예에서 도 5d의 블록 (270)에 대응하는 절차가 도시되어 있다. 블록 (278a, 278b)에서,도 5d의 블록 (270)에서 불리는 것과 같은 “거리들” 또는 대응하는 차이들은 상기 오리지널 인덱스들 및 상기 투영된 인덱스들 사이에서 계산된다. 대응하는 간격 감소(interval reduction)는 고도에 대해 블록 (270c) 및 방위 데이터에 대해 270d에서 수행된다. 블록 (270e, 270f)에서의 재정렬에 이어서, 도 5e 내지 5g와 관련하여 전술한 바와 같이 상기 확장된 골롬-라이스 인코딩 될 데이터가 획득된다.
도 6g는 상기 고도 평균 및 상기 방위 평균에 대한 인코딩된 비트를 발생시키기 위해 수행되는 절차에 관한 추가 세부 사항을 도시한다. 블록(271a 및 271b)은 고도 및 방위 평균 데이터의 부호 있는 데이터로의 변환을 도시하고, 상기 다음 ReorderGeneric 함수는 블록(272a 및 272b)의 두 종류의 데이터에 대해 도시되어 있다. 항목들(273a 및 273b)은 상기 논의된 인코드 쿼시 유니폼(encode quasi-uniform) 함수와 같은 (펑쳐드) 이진 코드를 사용하여 상기 데이터의 상기 인코딩을 도시한다.
도 7a는 인코딩된 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 제1 측면에 따른 디코더를 도시하고, 상기 인코딩된 방향성 오디오 코딩 파라미터들은 인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함한다. 상기 장치는 제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터들 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터들을 획득하기 위해 인코딩된 방향성 오디오 코딩 파라미터들을 디코딩하기 위한 파라미터 프로세서(parameter processor)(300)를 포함한다. 파라미터 프로세서 (300)는 디코딩된 확산 파라미터들 또는 디코딩된 방향 파라미터들을 변환된 확산 파라미터들 또는 변환된 방향 파라미터들로 변환하기 위해 파라미터 해상도 변환기(parameter resolution converter)(710)에 연결된다. 대안적으로, 헤지 라인(hedged line)으로 도시된 바와 같이, 파라미터 해상도 변환기(710)는 인코딩된 파라미터의 데이터(parametric data)로 상기 파라미터 해상도 처리를 이미 수행할 수 있고, 상기 변환된 인코딩된 파라미터는 파라미터 해상도 변환기(710)로부터 파라미터 프로세서 (300)로 전송된다. 이 후자의 경우에, 파라미터 프로세서 (300)는 상기 처리된, 즉 디코딩된 파라미터들을 오디오 렌더러(audio renderer)(420)에 직접 공급한다. 그러나, 상기 디코딩된 확산 파라미터들 및 상기 디코딩된 방향 파라미터로 상기 파라미터 해상도 변환을 수행하는 것이 바람직하다.
상기 디코딩된 방향 및 확산 파라미터들은 이들이 오디오 렌더러(420)에 제공될 때 일반적으로 제3 또는 제4 시간 또는 주파수 해상도를 가지며, 여기서 상기 제3 또는 제4 해상도는 이들이 파라미터 프로세서(300)에 의해 출력될 때 이들 파라미터들에 대해 고유한 해상도보다 크다.
파라미터 해상도 변환기 (710)는 상기 디코딩된 확산 파라미터들 및 상기 디코딩된 방향 파라미터들에 고유한 시간 또는 주파수 해상도가 서로 다르고, 일반적으로, 상기 디코딩된 확산 파라미터들은 상기 디코딩된 방향 파라피터들에 비해 더 낮은 시간 또는 주파수 해상도를 갖기 때문에, 상기 디코딩된 확산 파라미터들 및 상기 디코딩된 방향 파라미터들로 상이한 파라미터 해상도 변환을 수행하도록 구성된다. 도 3a 내지 도 3c와 관련하여 전술한 바와 같이, 오디오 렌더러(420)에 의해 사용되는 최고 해상도는 도 3b에 도시된 해상도이고, 도 3c에 도시된 중간 해상도는 상기 디코딩된 방향 파라미터들에 고유한 해상도이고 상기 디코딩된 확산 파라미터들에 고유한 상기 낮은 해상도는 도 3b에 도시된 것이다.
도 3a 내지 3c는 3 개의 매우 특정한 시간 또는 주파수 해상도를 도시하는 예들일 뿐이다. 높은 시간 또는 주파수 해상도, 중간 해상도 및 낮은 해상도가 존재한다는 점에서 동일한 경향을 갖는 임의의 다른 시간 또는 주파수 해상도 또한 본 발명에 의해 적용될 수있다. 도 3b 및 도 3c의 예에 도시된 바와 같이, 이들 해상도가 모두 동일한 주파수 해상도를 갖지만 다른 시간 해상도를 갖거나 그 반대의 경우, 시간 또는 주파수 해상도는 다른 시간 또는 주파수 해상도보다 낮다. 이 예에서, 상기 주파수 해상도는 도 3b 및 도 3c에서 동일하지만, 도 3c에서 시간 해상도가 더 높고, 이로써 도 3c는 중간 해상도를 도시하고 도 3b는 낮은 해상도를 도시한다.
제3 또는 제4 높은 타임 또는 주파수 해상도에서 동작하는 오디오 렌더러 (420)의 결과는 도 1b와 관련하여 이미 논의된 바와 같이 이어서 시간 도메인 멀티 채널 오디오 신호 (450)를 발생시키는 스펙트럼/시간 변환기(440)로 전달된다. 스펙트럼/시간 변환기(440)는 오디오 렌더러(420)에 의해 생성된 스펙트럼 도메인으로부터의 데이터를 라인(line)(450)상의 시간 도메인으로 변환한다. 오디오 렌더러 (420)가 동작하는 스펙트럼 도메인은 프레임에 대해 제1 수의 시간 슬롯들 및 제2 수의 주파수 대역들을 포함한다. 프레임은 상기 제1 수 및 상기 제2 수의 곱셈 결과(multiplication result)와 동일한 다수의 시간/주파수 빈을 포함하고, 상기 제1 수 및 제2 수는 제3 시간 또는 주파수 해상도, 즉, 높은 시간 또는 주파수 해상도를 정의한다.
해상도 변환기 (710)는 상기 제1 시간 또는 주파수 해상도와 관련된 확산 파라미터로부터 적어도 4 개의 확산 파라미터들을 생성하도록 구성되고, 여기서 이들 확산 파라미터 중 2 개는 시간 상으로 인접한 시간/주파수 빈들에 대한 것이고, 적어도 4개의 확산 파라미터들 중 다른 2개는 주파수 상으로 인접한 시간/주파수 빈들에 대한 것이다.
상기 확산 파라미터들에 대한 상기 시간 또는 주파수 해상도가 상기 방향 파라미터들보다 낮기 때문에, 상기 파라미터 해상도 변환기는 디코딩된 확산 파라미터에 대해 다수의 변환된 확산 파라미터들 및 디코딩된 방향 파라미터에 대해 제2 다수의 변환된 방향 파라미터들을 생성하도록 구성되고, 여기서 상기 제2 다수(second multitude)는 상기 제1 다수보다 높다.
도 7b는 상기 파라미터 해상도 변환기에 의해 수행되는 바람직한 절차를 도시한다. 블록 (721)에서, 파라미터 해상도 변환기(710)는 프레임에 대한 상기 확산/방향 파라미터들을 획득한다. 블록 (722)에서, 적어도 4개의 높은 해상도 시간/주파수 빈에 복사 동작(copying operation) 또는 상기 확산 파라미터들의 곱(multiplication)이 수행된다. 블록 (723)에서, 평활화(smoothing) 또는 저역 통과 필터링(low pass filtering)과 같은 선택적인 처리가 높은 해상도 표현인 곱해진 파라미터들(multiplied parameters)에 대해 수행된다. 블록(724)에서, 상기 높은 해상도 파라미터들은 대응하는 높은 해상도 시간/주파수 빈들에서 대응하는 오디오 데이터에 적용된다.
도 8a는 제1 측면에 따른 인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함하는 인코딩된 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더의 바람직한 구현을 도시한다. 상기 인코딩된 오디오 신호는 입력 인터페이스에 입력된다. 입력 인터페이스(800)는 상기 인코딩된 오디오 신호를 수신하고, 상기 인코딩된 오디오 신호로부터 상기 인코딩된 확산 파라미터들 및 상기 인코딩된 방향 파라미터들을, 일반적으로 프레임 단위로 분리한다. 상기 데이터는 상기 인코딩된 파라미터들로부터, 상기 양자화된 방향 파라미터들이, 예를 들어, 방위 인덱스들 및 고도 인덱스들인 양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 발생시키는 파라미터 디코더(parameter decoder) (820)에 입력된다. 상기 데이터는 상기 양자화된 확산 파라미터들 및 상기 양자화된 방향 파라미터들로부터, 역 양자화된 확산 파라미터들 및 역 양자화된 방향 파라미터들을 결정하기 위해 파라미터 역 양자화기(parameter dequantizer) (840)에 입력된다. 상기 데이터는 하나의 오디오 포맷을 다른 오디오 포맷으로 변환하는데 사용될 수 있거나 오디오 신호를 멀티 채널 신호 또는 앰비 소닉스 표현(Ambisonics representation), MPS 표현 또는 SAOC 표현과 같은 다른 표현으로 렌더링하는데 사용될 수 있다.
블록 (840)에 의해 출력된 상기 역 양자화된 파라미터들은 블록 (710)에서 도 7a와 관련하여 전술한 바와 같이 선택적 파라미터 해상도 변환기(optional parameter resolution converter)에 입력될 수 있다. 변환되거나 변환되지 않은 파라미터들은 도 8a에 도시된 오디오 렌더러 (420, 440)에 입력될 수 있다. 상기 인코딩된 오디오 신호가 인코딩된 전송 신호(encoded transport signal)를 추가로 포함하는 경우, 입력 인터페이스 (800)는 상기 인코딩된 오디오 신호로부터 상기 인코딩된 전송 신호를 분리하고 이 데이터를 도 8b와 관련하여 이미 논의된 오디오 전송 신호 디코더(audio transport signal decoder)(340)로 공급하도록 구성된다. 결과는 오디오 렌더러 (420)를 공급하는 시간-스펙트럼 변환기(time-spectrum converter)(430)에 입력된다. 오디오 렌더러 (420)가 도 1b에 도시된 바와 같이 구현될 때, 상기 시간 도메인으로의 변환은 도 1b의 합성 필터 뱅크 (440)를 사용하여 수행된다.
도 8b는 상기 인코딩된 확산 파라미터들을 나타내는 비트 스트림으로 일반적으로 구성된 상기 인코딩된 오디오 신호의 일부를 도시한다. 상기 확산 파라미터들은 도 8b에 도시되고 이전에 논의된 3 개의 상이한 모드를 나타내기 위한 바람직하게는 2 개의 모드 비트(two mode bits)(802)와 관련되어 있다. 상기 확산 파라미터들에 대한 상기 인코딩된 데이터는 페이로드 데이터(payload data)(804)를 포함한다.
상기 방향 파라미터들에 대한 상기 비트 스트림 부분들은 이전에 논의된 바와 같이 도 8c 및 도 8d에 도시되어 있고, 여기서 도 8c는 상기 로우 코딩 모드가 선택된 상황을 나타내고, 도 8d는 모델링 과정이 있는 상기 엔트로피 디코딩 모드(entropy decoding mode)가 상기 모드 비트 또는 모드 플래그(mode flag)(806)에 의해 선택/표시되는 상황을 도시한다.
도 8a의 파라미터 디코더 (820)는 블록 (850)에 표시된 바와 같이 시간/주파수 영역에 대한 상기 확산 페이로드 데이터를 디코딩하도록 구성되고, 상기 시간/주파수 영역은 바람직한 실시예에서 상기 낮은 해상도를 갖는 시간/주파수 영역이다. 블록 (851)에서, 상기 시간/주파수 영역에 대한 역 양자화 정확성이 결정된다. 이 역 양자화 정확성에 기초하여, 도 8e의 블록 (852)은 상기 확산 파라미터가 연관된 상기 시간/주파수 영역에 대해 동일한 상기 역 양자화 정확성을 사용하여 상기 방향 파라미터들의 디코딩 및/또는 역 양자화를 도시한다. 도 8e의 출력은 도 3c의 하나의 대역에 대한 것과 같은, 즉, 도시된 예에서, 프레임의 하나의 대역에 대한 네 개의 방향 파라미터들과 같은 상기 시간/주파수 영역에 대한 디코딩된 방향 파라미터들의 세트이다.
도 8f는 상기 디코더, 특히, 도 8a의 파라미터 디코더 (820) 및 파라미터 역 양자화기 (840)의 다른 특징을 도시한다. 상기 역 양자화 정확성이 확산 파라미터에 기초하여 결정되는지 또는 다른 곳에서 명시적으로 시그널링되거나(signaled) 결정되는지에 관계없이, 블록 (852a)은 시간/주파수 영역에 대한 시그널링된 역 양자화 정확성으로부터 고도 알파벳의 결정을 나타낸다. 블록(852b)에서, 상기 고도 데이터는 블록(852b)의 출력에서 역 양자화된 고도 파라미터들을 얻기 위해 상기 시간/주파수 영역에 대한 상기 고도 알파벳을 사용하여 디코딩되고 선택적으로 역 양자화된다. 블록(852c)에서, 상기 시간/주파수 영역에 대한 방위 알파벳은 또한, 도 4d의 상기 단위 구의 상기 준 균일 커버리지(quasi-uniform coverage)와 관련하여 전술한 상황을 반영하기 위해 블록(851)으로부터의 상기 역 양자화 정확성으로부터뿐만 아니라 상기 양자화된 또는 역 양자화된 고도 데이터로부터 또한 결정된다. 블록(852d)에서, 상기 방위 알파벳으로 상기 방위 데이터의 디코딩 및 선택적으로 역 양자화가 상기 시간/주파수 영역에 대해 수행된다.
제2 측면에 따른 본 발명은 바람직하게는 이들 2 개의 특징을 결합하지만, 상기 2 개의 특징, 즉, 도 8a 중 하나 또는 도 8f의 다른 하나는 또한 서로 별도로 적용될 수 있다.
도 8g는 로우 디코딩 모드가 선택되었는지 여부에 따른 상기 파라미터 디코딩 개요(parameter decoding overview) 또는 도 8c 및 도 8d에서 논의된 모드 비트 (806)에 의해 표시되는 모델링 과정이 있는 디코딩 모드를 도시한다. 로우 디코딩이 적용되는 경우, 대역에 대한 상기 구 인덱스들은 862에서 나타난 바와 같이 디코딩되고, 상기 대역에 대한 상기 양자화된 방위/고도 파라미터들은 블록 (864)에 나타난 바와 같이 상기 디코딩된 구 인덱스들로부터 계산된다.
모델링 과정이 있는 디코딩이 모드 비트 (806)에 의해 나타날 때, 대역/프레임에서의 상기 방위/고도 데이터에 대한 평균은 블록 (866)에 의해 나타난 바와 같이 디코딩된다. 블록 (868)에서, 상기 대역에서의 상기 방위/고도 정보에 대한 거리가 디코딩되고, 블록 (870)에서, 상기 대응하는 양자화된 고도 및 방위 파라미터들은 일반적으로 가산 동작(addition operation)을 사용하여 계산된다.
상기 로우 디코딩 모드 또는 모델링 과정이 있는 상기 디코딩 모드의 적용 여부에 관계없이, 상기 디코딩된 방위/고도 인덱스는 도 8a의 840 및 블록 (874)에 도시된 바와 같이 역 양자화되고(872), 상기상기 대역에 대해 결과는 카테시안 좌표로 변환될 수있다. 대안적으로, 상기 방위 및 고도 데이터가 상기 오디오 렌더러에서 직접 사용될 수 있는 경우, 블록 (874)에서의 그러한 변환은 필요하지 않다. 어떻든 카테시안 좌표로의 변환이 수행되는 경우 상기 변환 전 또는 후에 임의의 잠재적으로 사용되는 파라미터 해상도 변환(parameter resolution conversion)이 적용될 수 있다.
이어서, 참조는 또한 상기 디코더의 추가적인 바람직한 구현과 관련하여 도 9a 내지 9c에 대해 이루어진다. 도 9a는 블록 (862)에 도시된 상기 디코딩 동작을 도시한다. 도 8e 또는 도 8f의 블록 (851)에 의해 결정된 상기 역 양자화 정확성에 따라, 블록 (248c)의 기능적 구 점 카운트(functionality sphere point count)는 인코딩 동안 또한 적용된 실제 구 알파벳(actual sphere alphabet)을 결정하기 위해 수행된다. 상기 구 인덱스에 대한 비트는 블록 (862)에서 디코딩되고 2개의 인덱스들로의 분해는 864a에 도시된 바와 같이 수행되고 도 9a에 더 상세히 제공된다. 블록 (864d, 864e)에서의 재정렬 함수들(Reordering functions) (864b, 864c) 및 대응하는 변환 함수들(conversion functions)은 도 8g의 블록 (872)에서 상기 다음 역 양자화(subsequent dequantization)를 위한 상기 대응하는 알파벳들, 상기 방위 인덱스들 및 상기 고도 인덱스들을 최종적으로 얻기 위해 수행된다.
도 9b는 다른 디코딩 모드, 즉 모델링 과정이 있는 디코딩 모드에 대한 대응하는 절차를 도시한다. 블록 (866a)에서, 상기 평균들에 대한 상기 역 양자화 정확성은 상기 인코더 측에 대해 이전에 논의된 것과 같이 계산된다. 상기 알파벳들은 블록 (866b)에서 계산되고 및 블록들 (866c 및 866d)에서 도 8d의 대응하는 비트들(808a, 808b)이 디코딩된다. 재정렬 함수들(866e, 866f)은 상기 인코더 측에서 수행되는 대응하는 동작을 실행 취소(undo)하거나 모방(mimic)하기 위해 후속 변환 동작들(subsequent conversion operations)(866g, 866h)에서 수행된다.
도 9c는 바람직한 실시예에서 상기 완전한 역 양자화 동작(complete dequantization operation)(840)을 추가로 도시한다. 블록 (852a)은 도 8f와 관련하여 이미 논의된 바와 같이 상기 고도 알파벳을 결정하고, 상기 방위 알파벳의 대응하는 계산은 또한 블록 (852c)에서 수행된다. 투영 계산 동작(projection calculation operation)(820a, 820e)은 또한 고도 및 방위에 대해 수행된다. 고도(820b) 및 방위(820f)에 대한 재정렬 절차(Reorder procedures)가 또한 수행되고, 상기 대응하는 가산 동작들(addition operations)(820c, 820g)이 또한 수행된다. 고도에 대한 블록들 (820d) 및 방위에 대한 820h에서의 대응하는 간격 감소(interval reduction)가 또한 수행되고, 블록 (840a 및 840b)에서 고도의 역 양자화가 수행된다. 도 9c는 이 절차가 특정 순서, 즉 상기 고도 데이터가 먼저 처리되고 상기 역 양자화된 고도 데이터에 기초하여 상기 방위 데이터의 상기 디코딩 및 역 양자화가 본 발명의 바람직한 실시예에서 수행됨을 암시한다는 것을 도시한다.
이어서, 바람직한 실시예의 장점(Advantages) 및 이점(Benefits)이 요약된다.
ㆍ
상기 모델의 일반성(generality)을 손상시키지 않으면서 DirAC에 의해 발생된 공간 메타 데이터(spatial metadata)의 효율적인 코딩. DirAC을 낮은 비트 레이트 코딩 스킴(scheme)에 통합하는 데 핵심적인 요소(key-enabler)이다.
ㆍ
다른 시간 (또는 선택적으로 주파수) 해상도로 상기 방향 및 확산 파라미터들의 그룹화 및 평균화 : 확산은 방향보다 음장(sound field)의 장기적인 특성(longer term characteristic)을 유지하기 때문에 방향보다 긴 시간에 걸쳐 평균화 된다.
ㆍ
X, Y 및 Z 좌표 축에 대해 완전히 대칭인 3D 구의 준 균일한 동적 커버리지(Quasi-uniform dynamic coverage) 및 임의의 원하는 각 해상도가 가능하다.
ㆍ
양자화 및 역 양자화 동작들은 일정한 복잡성이다 (가장 가까운 코드 벡터를 검색할 필요가 없다).
ㆍ
하나의 양자화된 점 인덱스의 인코딩 및 디코딩은 상기 구 상의 총 양자화된 점들의 수에 대하여 일정하거나 최대(at most) 로그 복잡성을 갖는다.
ㆍ
한 프레임에 대한 전체 DirAC 공간 메타 데이터의 최악의 엔트로피 코딩 크기는 항상 로우 코딩의 크기보다 2 비트만 더 많은 것으로 제한된다.
ㆍ
잠재적으로 상이한 알파벳 크기를 갖는 심볼들의 벡터를 코딩하는 데 최적인 확장된 골롬-라이스 코딩 방법.
ㆍ
방향들의 효율적인 엔트로피 코딩을 위해 평균 방향을 사용하여 상기 양자화된 평균 방향을 최고 해상도로부터 각 방위 및 고도의 해상도로 매핑한다.
ㆍ
혼합 확산 프레임들에 대해 미리 정의된 임계치를 넘는 높은 확산을 갖는 방향들에 대해 항상 로우 코딩을 사용한다.
ㆍ
해당 확산의 함수로 각 방향에 대한 각 해상도를 사용한다.
본 발명의 제1 측면은 제1 및 제2 시간 또는 주파수 해상도 및 그와 같은 값의 다음 양자화 및 인코딩으로 확산 파라미터들 및 방향 파라미터들을 처리하는 것에 관한 것이다. 상기 제1 측면은 추가적으로 상이한 시간/주파수 해상도를 갖는 파라미터의 그룹화를 나타낸다. 추가 측면은 그룹화 내에서 진폭-치수 관련 가중치(amplitude-measure related weighting)를 수행하는 것과 관련되고, 추가의 부가적인 측면(further additional aspect)은 대응하는 가중치에 대한 기초로서 대응하는 확산 파라미터들을 사용하여 방향 파라미터들의 평균화 및 그룹화를 위한 가중치에 관한 것이다. 상기 측면들은 또한 제1 클레임 세트(claim set)에서 설명되고 상세화된다.
동봉된 예들의 세트에서 다음에 더 자세히 설명되는 본 발명의 제2 측면은 양자화 및 코딩을 수행하는 것에 관한 것이다. 이 측면은 상기 제1 측면에 요약된 특징들 없이 수행될 수 있거나 또는 상기 제1 측면에 상세히 설명된 대응하는 특징들과 함께 사용될 수 있다.
따라서, 청구 범위 및 예들의 세트에서 상세히 설명되고 청구 범위 및 예들의 상이한 종속항에서 상세히 설명된 바와 같은 모든 상이한 측면들은 서로 독립적으로 사용될 수 있거나 함께 사용될 수 있고 가장 바람직한 실시예에 있어서, 청구 범위 세트의 모든 측면들이 예들의 세트의 모든 측면들과 함께 사용되는 것이 특히 바람직하다.
예들의 상기 세트는 다음 예들을 포함한다.
1.
확산 파라미터들(diffuseness parameters) 및 방향 파라미터들(direction parameters)을 포함하는 방향성 오디오 코딩(directional audio coding) 파라미터들을 인코딩 하기 위한 장치에 있어서,
제1시간 또는 주파수 해상도(frequency resolution)로 상기 확산 파라미터들을 계산하기 위한 및 제2시간 또는 주파수 해상도로 상기 방향 파라미터들을 계산하기 위한 파라미터 계산기 (a parameter calculator) (100); 및
상기 방향 파라미터들 및 상기 확산 파라미터들의 양자화되고 인코딩된 표현을 생성하기 위한 양자화기 및 인코더 프로세서(quantizer and encoder processor)(200)를 포함하는, 장치.
2.
예1에 있어서, 상기 파라미터 계산기(100)는 상기 제2 시간 또는 주파수 해상도가 상기 제1 시간 또는 주파수 해상도와 다르도록 상기 확산 파라미터들 및 상기 방향 파라미터들을 계산하도록 구성된, 장치.
3.
예1 또는 2에 있어서, 상기 파라미터 계산기(100)는 상기 제1 시간 해상도가 상기 제2 시간 해상도 보다 낮거나, 또는 상기 제2 주파수 해상도가 상기 제1 주파수 해상도보다 크거나, 또는 상기 제1 시간 해상도가 상기 제2 시간 해상도 보다 낮고 상기 제1 주파수 해상도가 상기 제2 주파수 해상도와 같도록 상기 확산 파라미터들 및 상기 방향 파라미터들을 계산하도록 구성된, 장치.
4.
예1 내지 예3 중 하나에 있어서,
상기 파라미터 계산기(100)는 주파수 대역들의 세트에 대한 상기 확산 파라미터들 및 상기 방향 파라미터들을 계산하도록 구성되고, 낮은 중심 주파수를 갖는 대역은 높은 중심 주파수를 갖는 대역 보다 더 좁은, 장치.
5.
예1 내지 예4 중 하나에 있어서,
상기 파라미터 계산기(100)는 제3 시간 또는 주파수 해상도를 갖는 초기 확산 파라미터들을 획득하고 제4 시간 또는 주파수 해상도를 갖는 초기 방향 파라미터들을 획득하도록 구성되고, 및
상기 파라미터 계산기(100)는 상기 제3 시간 또는 주파수 해상도가 상기 제1 시간 또는 주파수 해상도보다 높도록 상기 초기 확산 파라미터들을 그룹화하고 평균화하도록 구성되거나, 또는
상기 파라미터 계산기(100)는 상기 제4 시간 또는 주파수 해상도가 상기 제2 시간 또는 주파수 해상도 보다 높도록 상기 초기 방향 파라미터들을 그룹화하고 평균화하도록 구성된, 장치.
6.
예5에 있어서,
상기 제3 시간 도는 주파수 해상도 및 상기 제4 시간 또는 주파수 해상도는 서로 동일한, 장치.
7.
예5 또는 6에 있어서,
각각의 초기 확산 파라미터가 동일한 크기를 갖는 주파수 빈 또는 시간 슬롯과 연관되도록 상기 제3 시간 해상도 또는 주파수 해상도는 일정한 시간 또는 주파수 해상도이거나, 또는
각각의 초기 방향 파라미터가 동일한 크기를 갖는 주파수 빈 또는 시간 슬롯과 연관되도록 상기 제4 시간 또는 주파수 해상도는 일정한 시간 또는 주파수 해상도이고, 및
상기 파라미터 계산기(100)는 상기 제1 복수의 시간 슬롯들과 관련된 제1 복수의 확산 파라미터들에 대해 평균화하도록 구성되거나, 또는
상기 파라미터 계산기(100)는 상기 제2 복수의 주파수 빈들과 관련된 제2 복수의 확산 파라미터들에 대해 평균화하도록 구성되거나, 또는
상기 파라미터 계산기(100)는 상기 제3 복수의 시간 슬롯들과 관련된 제3 복수의 방향 파라미터들에 대해 평균화하도록 구성되거나, 또는
상기 파라미터 계산기(100)는 상기 제4 복수의 주파수 빈들과 관련된 제4 복수의 방향 파라미터들에 대해 평균화하도록 구성된, 장치.
8.
예5 내지 7 중 하나에 있어서,
상기 파라미터 계산기(100)는 더 높은 진폭 관련 치수(amplitude-related measure)를 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터가 더 낮은 진폭 관련 치수를 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터에 비해 더 높은 가중 팩터를 사용하여 가중되는, 가중 평균(weighted average)을 사용하여 평균화 하도록 구성된, 장치.
9.
예 8에 있어서,
상기 진폭 관련 치수는 상기 시간 부분 또는 상기 주파수 부분의 파워 또는 에너지 또는 상기 시간 부분 또는 상기 주파수 부분의 1과 같거나 다른 음수가 아닌 실수에 의해 거듭제곱 되는(exponentiated) 파워 또는 에너지인, 장치.
10.
예5 내지 9 중 하나에 있어서,
상기 파라미터 계산기(100)는 상기 제1 또는 상기 제2 시간 또는 주파수 해상도에 대응하는 입력 신호의 시간 부분으로부터 도출된 진폭-관련 치수와 관련하여 상기 확산 파라미터 또는 상기 방향 파라미터가 정규화 되도록 상기 평균화를 수행하도록 구성된, 장치.
11.
예5 내지 9 중 하나에 있어서,
상기 파라미터 계산기(100)는 가중 평균화를 사용하여 상기 초기 방향 파라미터들을 그룹화 및 평균화하도록 구성되고, 더 낮은 확산을 나타내는 제1 확산 파라미터를 갖는 제1 시간 부분과 관련 있는 상기 제1 방향 파라미터는 더 높은 확산을 나타내는 제2 확산 파라미터를 갖는 제2 시간 부분과 관련 있는 제2 방향 파라미터 보다 더 강하게 가중되는, 장치.
12.
예1 내지 11 중 하나에 있어서,
상기 파라미터 계산기(100)는 상기 초기 방향 파라미터들 각각이 둘 또는 세 개의 방향들의 각각에 대한 구성요소를 갖는 카테시안 벡터를 포함하도록 상기 초기 방향 파라미터들을 계산하도록 구성되고, 상기 파라미터 계산기(100)는 상기 카테시안 벡터의 각각의 개별 구성요소에 대해 상기 평균화를 개별적으로 수행하도록 구성되거나, 또는 상기 구성요소들은 방향 파라미터에 대한 상기 카테시안 벡터의 제곱 구성요소들(squared components)의 합이 1(unity)과 같도록 정규화 되는, 장치.
13.
예1 내지 12 중 하나에 있어서, 복수의 입력 채널들을 갖는 입력 신호를 각 입력 채널에 대한 시간-주파수 표현으로 분해하기(decomposing) 위한 시간-주파수 분해기(time-frequency decomposer)를 더 포함하거나, 또는
상기 시간-주파수 분해기는 복수의 입력 채널들을 갖는 상기 입력 신호를 상기 제3 시간 또는 주파수 해상도 또는 상기 제4 시간 또는 주파수 해상도를 갖는 각 입력 채널에 대한 시간-주파수 표현으로 분해하도록 구성되는, 장치.
14.
예6 내지 13 중 하나에 있어서,
상기 시간-주파수 분해기는 각 서브 대역 신호(sub-band signal)에 대한 복소 값들(complex values)을 낳는 변조된 필터 뱅크(modulated filter bank)를 포함하고, 상기 각 서브 대역 신호는 주파수 대역 및 프레임 당 복수의 시간 슬롯들을 갖는, 장치.
15.
예1 내지 14 중 하나에 있어서,
상기 장치는 스토리지 또는 디코더로의 전송을 위해 상기 제1 또는 상기 제2 시간 또는 주파수 해상도의 표시를 상기 양자화된 및 인코딩된 표현으로 연관시키도록 구성되는, 장치.
16.
예1 내지 15 중 하나에 있어서, 상기 확산 파라미터들 및 상기 방향 파라미터들의 양자화된 및 인코딩된 표현을 발생시키기 위한 상기 양자화기 및 인코더 프로세서(200)는 상기 확산 파라미터들 및 상기 방향 파라미터들을 양자화하기 위한 파라미터 양자화기 및 상기 첨부된 청구항 제1항 내지 제26항 중 어느 하나에 정의된 바와 같은 양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 인코딩하기 위한 파라미터 인코더를 포함하는, 장치.
17.
확산 파라미터들 및 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터들을 인코딩하는 방법에 있어서,
제2 시간 또는 주파수 해상도를 갖는 상기 방향 파라미터들을 계산하기 위한 및 제1 시간 또는 주파수 해상도를 갖는 상기 확산 파라미터들을 계산하는 단계; 및
상기 확산 파라미터들 및 상기 방향 파라미터들의 양자화 되고 인코딩된 표현을 발생시키는 단계를 포함하는, 방법.
18.
인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더에 있어서,
제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터들을 획득하도록 상기 인코딩된 방향성 오디오 코딩 파라미터들을 디코딩하기 위한 파라미터 프로세서(300); 및
상기 인코딩된 또는 디코딩된 확산 파라미터들 또는 상기 인코딩된 또는 디코딩된 방향 파라미터들을 제3 시간 또는 주파수 해상도를 갖는 변환된 확산 파라미터들 또는 변환된 방향 파라미터들로 변환하기 위한 파라미터 해상도 변환기(parameter resolution converter)(710)를 포함하고, 상기 제3 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도 또는 상기 제2 시간 또는 주파수 해상도와 다르거나 또는 상기 제1 시간 또는 주파수 해상도 및 상기 제2 시간 또는 주파수 해상도와 다른, 디코더.
19.
예18에 있어서, 스펙트럼의 도메인(spectral domain)에서 동작하는 오디오 렌더러(audio renderer)(420)를 더 포함하고, 상기 스펙트럼의 도메인은, 프레임에 대해, 시간 슬롯들의 제1 수 및 주파수 대역들의 제2 수를 포함하고, 이로써 프레임은 상기 제1 수 및 상기 제2 수의 곱셈 결과와 동일한 시간/주파수 빈들의 수를 포함하고, 상기 제1 수 및 상기 제2 수는 상기 제3 시간 또는 주파수 해상도를 정의하는, 디코더.
20.
예18 또는 19에 있어서, 스펙트럼의 도메인에서 동작하는 오디오 렌더러(420)을 더 포함하고, 상기 스펙트럼 도메인은, 프레임에 대해, 시간 슬롯들의 제1 수 및 주파수 대역들의 제2 수를 포함하고, 이로써 프레임은 상기 제1 수와 상기 제2 수의 곱셈 결과와 동일한 시간/주파수 빈들의 수를 포함하고, 상기 제1 수 및 상기 제2 수는 제4 시간-주파수 해상도를 정의하고, 상기 제4 시간 또는 주파수 해상도는 상기 제3 시간 또는 주파수 해상도와 같거나 더 높은, 디코더.
21.
예18 내지 20 중 하나에 있어서,
상기 제1 시간 또는 주파수 해상도는 상기 제2 시간 또는 주파수 해상도 보다 더 낮고, 및
상기 파라미터 해상도 변환기(parameter resolution converter)(710)는 디코딩된 확산 파라미터로부터, 변환된 확산 파라미터들의 제1 다수(multitude)를 발생시키고 및 디코딩된 방향 파라미터로부터, 변환된 방향 파라미터들의 제2 다수를 발생시키도록 구성되고, 상기 제2 다수는 상기 제1 다수 보다 크다.
22.
예18 내지 21 중 하나에 있어서,
상기 인코딩된 오디오 신호는 프레임들의 시퀀스를 포함하고, 각 프레임은 주파수 대역들로 구성되고, 각 프레임은 주파수 대역 당 단 하나의 인코딩된 확산 파라미터 및 주파수 대역 당 적어도 두 개의 시간-순차 방향 파라미터들(time-sequential direction parameters)을 포함하고, 및
상기 파라미터 해상도 변환기(710)는 상기 디코딩된 확산 파라미터들을 상기 주파수 대역 내 모든 시간 빈들에 연관시키거나 또는 상기 프레임의 상기 주파수 대역에 포함된 각각의 시간/주파수 빈에 연관시키도록 구성되고, 및
상기 주파수 대역의 상기 적어도 두 개의 방향 파라미터들 중 하나를 시간 빈들의 제1 그룹 및 상기 주파수에 포함된 각각의 시간/주파수 빈에 연관시키도록, 및 상기 적어도 두 개의 방향 파라미터들의 제2 디코딩된 방향 파라미터를 상기 시간 빈들의 제2 그룹 및 상기 주파수 대역에 포함된 각각의 시간/주파수 빈에 연관시키도록 구성되고, 상기 제2 그룹은 상기 제1 그룹 내 상기 시간 빈들 중 어느 것도 포함하지 않는,
디코더.
23.
예18 내지 22 중 하나에 있어서, 상기 인코딩된 오디오 신호는 인코딩된 오디오 전송 신호를 포함하고, 상기 디코더는
디코딩된 오디오 신호를 획득하도록 상기 인코딩된 전송 오디오 신호를 디코딩하기 위한 오디오 디코더(340), 및
상기 디코딩된 오디오 신호를 상기 제3 시간 또는 주파수 해상도를 갖는 주파수 표현으로 변환하기 위한 시간/주파수 변환기(time/frequency converter)(430)를 포함하는, 디코더.
24.
예18 내지 23 중 하나에 있어서,
합성 스펙트럼 표현(synthesis spectrum representation)을 획득하기 위해, 상기 변환된 확산 파라미터들 및 상기 변환된 방향 파라미터들을 상기 제3 시간 또는 주파수 해상도의 오디오 신호의 스펙트럼 표현(spectral representation)에 적용하기 위한 오디오 렌더러(420); 및
상기 제3 시간 또는 주파수 해상도의 상기 해상도 보다 더 높은 시간 해상도를 갖는 합성된 시간 도메인 공간 오디오 신호(synthesized time domain spatial audio signal)를 획득하도록 상기 제3 또는 제4 시간 또는 주파수 해상도에서 상기 합성 스펙트럼 표현을 변환하기 위한 스펙트럼/시간 변환기(440)를 포함하는, 디코더.
25.
예18 내지 24 중 하나에 있어서,
상기 파라미터 해상도 변환기(710)는 복사 동작(copying operation)을 사용하여 디코딩된 방향 파라미터를 곱하거나(multiply) 또는 복사 동작을 사용하여 디코딩된 확산 파라미터를 곱하거나 또는 곱해진 방향 파라미터들의 세트 또는 곱해진 확산 파라미터들의 세트를 저역 통과 필터링(low pass filter) 하도록 구성된, 디코더.
26.
예18 내지 25 중 하나에 있어서,
상기 제2 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도와 다른, 디코더.
27.
예18 내지 26 중 하나에 있어서,
상기 제1 시간 해상도는 상기 제2 시간 해상도보다 낮거나, 또는 상기 제2 주파수 해상도는 상기 제1 주파수 해상도 보다 크거나, 또는 상기 제1 시간 해상도는 상기 제2 시간 해상도 보다 낮고 상기 제1 주파수 해상도는 상기 제2 주파수 해상도와 동일한, 디코더.
28.
예 18 내지 27 중 하나에 있어서,
상기 파라미터 해상도 변환기(710)는 상기 디코딩된 확산 파라미터들 및 디코딩된 방향 파라미터들을 대역들의 세트에 대한 대응하는 수의 주파수 인접 변환된 파라미터들(frequency adjacent converted parameters)로 곱하도록 구성되고, 더 낮은 중심 주파수를 갖는 대역은 더 높은 중심 주파수를 갖는 대역 보다 적은 곱해진 파라미터들을 수신하는, 디코더.
29.
예18 내지 28 중 하나에 있어서,
상기 파라미터 프로세서(300)는 상기 프레임에 대한 양자화된 확산 파라미터를 획득하도록 상기 인코딩된 오디오 신호의 프레임에 대한 인코딩된 확산 파라미터를 디코딩하도록 구성되고, 및 상기 파라미터 프로세서(300)는 상기 양자화된 또는 역 양자화된 확산 파라미터를 사용하여 상기 프레임에 대한 적어도 하나의 방향 파라미터의 상기 역 양자화에 대한 역 양자화 정확성을 결정하도록 구성되고, 및
상기 파라미터 프로세서는 상기 역 양자화 정확성을 사용하여 양자화된 방향 파라미터를 역 양자화하도록 구성된, 디코더.
30.
예18 내지 29 중 하나에 있어서,
상기 파라미터 프로세서(300)는 역 양자화를 위해 상기 파라미터 프로세서(300)에 의해 사용될, 역 양자화 정확성으로부터, 상기 프레임에 대한 인코딩된 방향 파라미터를 디코딩하기 위한 디코딩 알파벳을 결정하도록 구성되고, 및
상기 파라미터 프로세서(300)는 상기 결정된 디코딩 알파벳을 사용하여 상기 인코딩된 파라미터를 디코딩하고 및 역 양자화된 방향 파라미터를 결정하도록 구성된, 디코더.
31.
예18 내지 30 중 하나에 있어서,
상기 파라미터 프로세서(300)는 상기 방향 파라미터를 역 양자화하기 위해 상기 파라미터 프로세서(300)에 의해 사용되는 역 양자화 정확성으로부터, 인코딩된 고도 파라미터의 상기 처리를 위한 고도 알파벳을 결정하고 및 상기 고도 알파벳을 사용하여 획득된 고도 인덱스로부터, 방위 알파벳을 결정하도록 구성되고,및
상기 파라미터 프로세서(300)는 상기 방위 알파벳을 사용하여 인코딩된 방위 파라미터를 역 양자화하도록 구성된, 디코더.
32.
인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 방법에 있어서,
제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터들을 획득하기 위해 상기 인코딩된 방향성 오디오 코딩 파라미터들을 디코딩하는 단계(300); 및
상기 인코딩된 또는 디코딩된 확산 파라미터들 또는 상기 인코딩된 또는 디코딩된 방향 파라미터들을 제3 시간 또는 주파수 해상도를 갖는 변환된 확산 파라미터들 또는 변환된 방향 파라미터들로 변환하는 단계(710)를 포함하고, 상기 제3 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도 또는 상기 제2 시간 또는 주파수 해상도와 다르거나 또는 상기 제1 시간 또는 주파수 해상도 및 상기 제2 시간 또는 주파수 해상도와 다른, 방법.
33.
컴퓨터 또는 프로세서 상에서 실행될 때, 예17 내지 32의 상기 방법을 수행하기 위한 컴퓨터 프로그램.
파라미터 표현을 포함하는 독창적으로(inventively) 인코딩된 오디오 신호는 디지털 스토리지 매체 또는 비-일시적 스토리지 매체에 저장될 수 있거나 또는 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 무선 전송 매체에 전송될 수 있다.
일부 측면들은 장치와 관련하여 설명되었지만, 이들 측면들은 또한 상기 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 콘텍스트에서 설명된 측면들은 또한 대응하는 장치의 대응하는 특징 또는 항목 또는 대응하는 블록의 설명을 나타낸다.
특정 구현 요구사항들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 상기 구현은 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 스토리지 매체를 사용하여 수행될 수 있고, 이는 상기 각 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력(또는 협력할 수 있다)한다.
본 발명에 따른 일부 실시예들은 여기에 기술된 방법들 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 상기 프로그램 코드는 상기 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 상기 프로그램 코드는 예를 들어 기계 판독 가능 캐리어 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 캐리어 또는 비-일시적 스토리지 매체에 저장된, 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램을 포함한다.
다시 말해서, 본 발명의 방법의 실시예는, 따라서, 상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 상기 독창적인 방법들의 추가 실시예는 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 거기에 저장된 상기 컴퓨터 프로그램을 포함하는 데이터 캐리어 (또는 디지털 스토리지 매체 또는 컴퓨터 판독 가능 매체)이다.
따라서, 상기 독창적인 방법들의 추가 실시예는 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 상기 데이터 스트림 또는 신호들 상기 시퀀스는 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 여기에 설명된 상기 방법들 중 하나를 수행하도록 구성되거나 구성된 처리 수단들(processing means), 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
추가의 실시예는 여기에 설명된 상기 방법들 중 하나를 수행하기 위해 상기 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그램 가능 논리 디바이스 (예를 들어 필드 프로그램 가능 게이트 어레이)는 여기에 설명된 상기 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능 게이트 어레이(field programmable gate array)는 여기에 설명된 상기 방법들 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
전술한 실시예들은 단지 본 발명의 원리를 설명하기 위한 것일 뿐이다. 여기에 설명된 세부 사항들, 배열의 변형 및 수정은 당업자에게 명백할 것이다. 그러므로, 임박한(impending) 특허 청구의 범위에 의해서만 제한되고 여기의 실시예들의 설명 및 기술의 방식에 의해 제시된 특정 세부 사항에 의해 제한되는 것은 아니다.
참조들
[1] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamki, “Directional audio coding - perception-based reproduction of spatial sound(방향성 오디오 코딩 - 공간 사운드의 인식 기반 재생)”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] V. Pulkki, “Virtual source positioning using vector base amplitude panning(벡터 베이스 진폭 패닝을 사용한 가상 소스 포지셔닝)”, J. Audio Eng. Soc., 45(6):456-466, June 1997.
[3] J. Ahonen and V. Pulkki, “Diffuseness estimation using temporal variation of intensity vectors(강도 벡터의 시간적 변동을 이용한 확산 추정)”, in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, New Paltz, 2009.
[4] T. Hirvonen, J. Ahonen, and V. Pulkki, “Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference(시청각 텔레컨퍼런스에 적용되는 방향성 오디오 코딩의 메타 데이터에 대한 지각적 압축 방법들)”, AES 126th Convention, 2009, May 7-10, Munich, Germany.
Claims (47)
- 확산 파라미터들(diffuseness parameters) 및 방향 파라미터들(direction parameters)을 포함하는 방향성 오디오 코딩(directional audio coding) 파라미터들을 인코딩 하기 위한 장치에 있어서,
상기 방향 파라미터들 및 상기 확산 파라미터들을 양자화하기 위한 파라미터 양자화기(parameter quantizer) (210);
양자화된 방향 파라미터들 및 양자화된 확산 파라미터들을 인코딩하기 위한 파라미터 인코더(parameter encoder) (220); 및
인코딩된 방향 파라미터들 및 인코딩된 확산 파라미터들에 대한 정보를 포함하는 인코딩된 파라미터 표현을 발생시키기 위한 출력 인터페이스(output interface) (230)를 포함하는, 장치.
- 제1항에 있어서, 상기 파라미터 양자화기(210)는 확산 인덱스들(diffuseness indices)을 생산하기 위해 비 균일(non-uniform) 양자화기를 사용하여 상기 확산 파라미터들을 양자화하도록 구성된, 장치.
- 제2항에 있어서, 상기 파라미터 양자화기(210)는 상기 비 균일 양자화기의 재구성 레벨들(reconstruction levels) 및 임계치들을 획득하기 위해 채널 간 일관성 양자화 테이블(inter-channel coherence quantization table)을 사용하여 상기 비 균일 양자화기를 도출하도록 구성된, 장치.
- 제1항 내지 제3항 중 한 항에 있어서,
상기 파라미터 인코더(220)는
인코딩 알파벳(encoding alphabet)이 2의 거듭제곱인 크기를 가지는 경우 이진 코드를 사용하여 로우 코딩(raw coding) 모드에서 상기 양자화된 확산 파라미터들을 인코딩하거나, 또는
상기 인코딩 알파벳이 2의 거듭제곱과 다른 경우 펑쳐드 코드(punctured code)를 사용하여 상기 로우 코딩 모드에서 상기 양자화된 확산 파라미터들을 인코딩하거나, 또는
상기 로우 코딩 모드로부터 하나의 값에 대한 코드 워드(code word) 및 제1 특정 표시(first specific indication)를 사용하여 하나의 값 전용 모드(one value only mode)에서 상기 양자화된 확산 파라미터들을 인코딩하거나, 또는
상기 연속적인 값들 중 작은 값과 실제 값(actual value) 또는 각 실제 값 사이 차이에 대한 비트, 상기 두 개의 연속적인 값들 중 작은 값에 대한 코드 및 제2 특정 표시(second specific indication)를 사용하여 두 개의 연속적인 값들 전용 모드(two consecutive values only mode)에서 상기 양자화된 확산 파라미터들을 인코딩하도록 구성된, 장치.
- 제4항에 있어서,
상기 파라미터 인코더(220)는, 시간 부분(time portion) 또는 주파수 부분(frequency portion)과 관련된 모든 확산 값들에 대해, 상기 코딩 모드가 상기 로우 코딩 모드, 상기 하나의 값 전용 모드 또는 상기 두 개의 연속적인 값들 전용 모드인지 여부를 결정하도록 구성되고,
상기 로우 모드(raw mode)는 두 개의 비트들 중 하나를 사용하여 시그널링 되고, 상기 하나의 값 전용 모드는 제1 값을 갖는 상기 두개의 비트들 중 다른 하나를 사용하여 시그널링 되고, 및 상기 두 개의 연속적인 값 전용 모드는 제2 값을 갖는 상기 두 개의 비트들 중 다른 하나를 사용하여 시그널링 되는, 장치.
- 제1항 내지 제5항 중 한 항에 있어서, 상기 파라미터 양자화기(210)는
각각의 방향 파라미터에 대해, 두 개 또는 세 개의 구성요소들을 갖는 카테시안 벡터(Cartesian vector)를 수신하고, 및
상기 카테시안 벡터를 방위 값(azimuth value) 및 고도 값(elevation value)을 갖는 표현으로 변환하도록 구성된, 장치.
- 제1항 내지 제6항 중 한 항에 있어서,
상기 파라미터 양자화기(210)는 상기 방향 파라미터의 상기 양자화에 대해, 양자화 정확성(quantization precision)을 결정하도록 구성되고, 상기 양자화 정확성은 상기 방향 파라미터와 관련된 확산 파라미터에 의존하고, 이로써 낮은 확산 파라미터(lower diffuseness parameter)와 관련된 방향 파라미터가 높은 확산 파라미터(higher diffuseness parameter)와 관련된 방향 파라미터보다 더 정확하게 양자화 되는, 장치.
- 제7항에 있어서,
상기 파라미터 양자화기(210)는 상기 양자화 정확성을 결정하도록 구성되고,
이로써 상기 양자화된 점들(quantized points)은 단위 구(unit sphere) 상에 준 균일하게(quasi-uniformly) 분포되거나, 또는
이로써 상기 양자화된 점들은 x축, y축 또는 z축에 대해 대칭적으로 분포되거나, 또는
정수 인덱스(integer index)에 매핑하는 것(mapping)에 의한 상기 몇몇 가장 가까운 양자화 점들 중 하나 또는 상기 가장 가까운 양자화 점으로의 주어진 방향의 양자화는 일정한 시간 동작(time operation)이거나, 또는
이로써 방향으로의 양자화 및 상기 정수 인덱스로부터 상기 구 상의 대응하는 점의 상기 계산은 상기 구(sphere) 상의 점들의 상기 전체 개수에 대한 일정한 또는 로그 시간 동작인, 장치.
- 제6항, 제7항 또는 제8항에 있어서,
상기 파라미터 양자화기(210)는 음의 값과 양의 값을 갖는 상기 고도 각(elevation angle)을 부호 없는 양자화 인덱스들(unsigned quantization indices)의 세트로 양자화하도록 구성되고, 양자화 인덱스들의 제1 그룹은 음의 고도 각들을 나타내고, 양자화 인덱스들의 제2 그룹은 양의 고도 각들을 나타내는, 장치.
- 제1항 내지 제9항 중 한 항에 있어서,
상기 파라미터 양자화기(210)는 다수의 가능한 양자화 인덱스들을 사용하여 방위각을 양자화하도록 구성되고, 상기 다수의 양자화 인덱스들은 더 낮은 고도 각들에서 더 높은 고도 각들로 감소하고 이로써 제1 크기를 갖는 제1 고도 각에 대한 가능한 양자화 인덱스들(first number of possible quantization indices)의 상기 제1 수가 제2 크기를 갖는 제2 고도 각에 대한 가능한 양자화 인덱스들의 제2 수 보다 높고, 상기 제2 크기는 상기 제1 크기보다 절대값이 더 큰, 장치.
- 제10항에 있어서, 상기 파라미터 양자화기(210)는 상기 방위각 관련 확산 값으로부터 요구되는 정확성을 결정하고,
상기 요구되는 정확성을 사용하여 상기 방위각 관련 고도 각을 양자화하고, 및
상기 양자화된 고도 각을 사용하여 상기 방위각을 양자화하도록 구성된,
장치.
- 제1항 내지 제11항 중 한 항에 있어서,
상기 양자화된 방향 파라미터는 양자화된 고도 각 및 양자화된 방위 각을 갖고, 상기 파라미터 인코더(220)는 상기 양자화된 방위 각을 먼저 인코딩 하도록 구성되고, 그리고 나서 상기 양자화된 방위 각을 인코딩 하도록 구성된, 장치.
- 제1항 내지 제12항 중 한 항에 있어서,
상기 양자화된 방향 파라미터들은 방위 각과 고도 각들의 쌍에 대한 부호 없는 인덱스들(unsigned indices)을 포함하고,
상기 파라미터 인코더(220)는 상기 부호 없는 인덱스들을 부호 있는 인덱스들(signed indices)로 변환하고, 이로써 영 각(zero angle)을 나타내는 인덱스는 가능한 값들의 부호 있는 간격의 중간에 위치되고 및,
상기 파라미터 인코더(220)는 양수 및 음수를 부호 없는 수들로 인터리빙하기(interleave) 위해 상기 부호 있는 인덱스들로의 재정렬 변환(reordering transformation)을 수행하도록 구성된, 장치.
- 제1항 내지 제13항 중 한 항에 있어서,
상기 양자화된 방향 파라미터들은 재정렬된 또는 비 재정렬된(non-reordered) 부호 없는 방위 및 고도 인덱스들을 포함하고, 및
상가 파라미터 인코더(220)는 상기 쌍의 상기 인덱스들을 구 인덱스(sphere index)로 병합하고, 및
상기 구 인덱스의 로우 코딩(raw coding)을 수행하도록 구성된, 장치.
- 제14항에 있어서,
상기 파라미터 인코더(220)는 상기 현재 재정렬된 또는 비 재정렬된 방위 인덱스 및 구 오프셋(sphere offset)으로부터 상기 구 인덱스를 도출하도록 구성되고, 및
상기 구 오프셋은 상기 현재 재정렬된 또는 비 재정렬된 고도 인덱스 보다 작은 재정렬된 또는 비 재정렬된 고도 인덱스들에 대응하는 방위 알파벳들(azimuth alphabets)의 합으로부터 도출되는, 장치.
- 제1항 내지 제15항 중 한 항에 있어서,
상기 파라미터 인코더(220)는 임계치 보다 낮거나 같은 확산 값들과 관련된 양자화된 방향 파라미터들에 대해 엔트로피 코딩(entropy coding)을 수행하고 상기 임계치보다 큰 확산 값들과 관련된 양자화된 방향 파라미터들에 대해 로우 코딩을 수행하도록 구성된, 장치.
- 제16항에 있어서,
상기 파라미터 인코더(220)는 상기 확산 파라미터들의 상기 양자화 및 양자화 알파벳을 사용하여 동적으로 상기 임계치를 결정하거나, 또는 상기 파라미터 인코더(220)는 상기 확산 파라미터들의 상기 양자화 알파벳에 기초하여 상기 임계치를 결정하는, 장치.
- 제1항 내지 제17항 중 한 항에 있어서,
상기 파라미터 양자화기(210)는 양자화된 방향 파라미터로서, 상기 방위 인덱스들과 관련된 방위 알파벳들, 방위 인덱스들, 상기 고도 인덱스들과 관련된 고도 알파벳들 및 고도 인덱스들을 결정하도록 구성되고,
상기 파라미터 인코더(220)는
입력 신호의 주파수 부분 또는 시간 부분에 대한 양자화된 방향 벡터들로부터 평균 방향 벡터를 도출하고,
상기 주파수 부분 또는 상기 시간 부분에 대한 상기 벡터들의 최고의 각 정확성을 사용하여 상기 평균 방향 벡터를 양자화하고, 및
상기 양자화된 평균 방향 벡터를 인코딩하거나, 또는
상기 출력 인터페이스(230)은 추가적인 부가 정보로서 상기 인코딩된 파라미터 표현에 상기 인코딩된 평균 방향 벡터를 입력하도록 구성된, 장치.
- 제18항에 있어서,
상기 파라미터 인코더(220)는 상기 평균 방향 벡터를 사용하여 예측된 방위 인덱스들 및 예측된 고도 인덱스들을 계산하고, 및
상기 예측된 방위 인덱스들과 상기 방위 인덱스들 사이 및 상기 예측된 고도 인덱스들과 상기 고도 인덱스들 사이 상기 부호 있는 거리들을 계산하도록 구성된, 장치.
- 제19항에 있어서,
상기 파라미터 인코더(220)는 큰 값에 대한 값을 빼고(subtracting) 작은 값에 대한 값을 더함으로써 상기 부호 있는 거리들을 감소된 간격으로 변환하도록 구성된, 장치.
- 제1항 내지 제20항 중 한 항에 있어서,
상기 파라미터 인코더(220)는 상기 양자화된 방향 파라미터들이 엔트로피 코딩 모드 또는 로우 코딩 모드 중 하나에 의해 인코딩 되었는지 여부를 결정하도록 구성되고, 상기 출력 인터페이스(230)은 상기 인코딩된 파라미터 표현에 대응하는 표시(indication)를 도입하도록 구성된, 장치.
- 제1항 내지 제21항 중 한 항에 있어서,
상기 파라미터 인코더(220)는 골롬-라이스 방법(Golomb-Rice method) 또는 그 변형을 사용하여 엔트로피 코딩을 수행하도록 구성된, 장치.
- 제18항 내지 제22항 중 한 항에 있어서, 상기 파라미터 인코더(220)는
대응하는 영 값(zero value)이 가능한 값들의 부호 있는 간격의 중간에 있도록 상기 평균 방향 벡터의 구성요소들을 부호 있는 표현으로 변환하고,
양수와 음수를 부호 없는 수들로 인터리빙하기 위해 상기 부호 있는 값들의 재정렬 변환을 수행하고,
상기 평균 방향 벡터의 인코딩된 구성요소들을 획득하기 위해 인코딩 함수를 사용하여 결과를 인코딩하고; 및
상기 방향 벡터의 대응하는 구성요소에 대한 알파벳 크기들의 최대에 따른 알파벳 크기를 사용하여 골롬-라이스 파라미터를 인코딩 하도록 구성된,
장치.
- 제19항 내지 제23항 중 한 항에 있어서,
상기 파라미터 인코더(220)는 양수 및 음수를 부호 없는 수들에 인터리빙 하기 위해 상기 부호 있는 거리들 또는 감소된 부호 있는 거리들의 재정렬 변환을 수행하도록 구성되고,
상기 파라미터 인코더(220)는 골롬-라이스 방법 또는 그 변형을 사용하여 상기 재정렬된 부호 있는 거리들 또는 재정렬된 감소된 부호 있는 거리들을 인코딩하도록 구성된,
장치.
- 제24항에 있어서, 상기 파라미터 인코더(220)는
코딩될 값의 최하위 부분과 최상위 부분을 결정하는 단계;
상기 최상위 부분에 대한 알파벳을 계산하는 단계;
상기 최하위 부분에 대한 알파벳을 계산하는 단계; 및
상기 최상위 부분에 대한 상기 알파벳을 사용하여 1진법(unary)으로 상기 최상위 부분(most significant part)을 인코딩하고 상기 최하위 부분(least significant part)에 대한 상기 알파벳을 사용하여 2진법으로 상기 최하위 부분을 인코딩하는 단계;
를 사용하여 골롬-라이스 방법 또는 그 변형을 적용하도록 구성된, 장치.
- 제1항 내지 제25항 중 한 항에 있어서,
상기 파라미터 인코더(220)는 코딩될 값의 최하위 부분과 최상위 부분을 결정하는 단계; 및 상기 최상위 부분에 대한 알파벳을 계산하는 단계를 사용하여 골롬-라이스 방법 또는 그 변형을 적용하도록 구성되고,
상가 최상위 부분의 상기 알파벳이 3과 같은 미리 결정된 값 보다 작거나 같은 경우 인코드쿼시유니폼 방법(EncodeQuasiUniform method)은 상기 전체 값을 인코딩 하기 위해 사용되고, 예시적인 인코드쿼시유니폼 방법은, 펑쳐드 코드(punctured code)와 같이, 두 개의 길이만을 갖는 코드들 또는 하나의 길이만의 코드들을 생산하거나, 또는
상기 인코딩 알파벳이 2의 거듭제곱의 크기를 갖는 경우 2진 코드를 사용하여 로우 코딩 모드에서 상기 최하위 부분을 인코딩하거나, 또는 상기 인코딩 알파벳이 2의 거듭제곱과 다른 경우 펑쳐드 코드를 사용하여 상기 로우 코딩 모드에서 상기 최하위 부분을 인코딩하도록 구성된,
장치.
- 제1항 내지 제26항 중 한 항에 있어서, 제1 시간 또는 주파수 해상도로 상기 확산 파라미터들을 계산하고 상기 예들 1내지 15 중 어느 하나에서 정의된 바와 같이 제2 시간 또는 주파수 해상도로 상기 방향 파라미터들을 계산하기 위한 파라미터 계산기를 더 포함하는, 장치.
- 확산 파라미터들 및 방향 파라미터들을 포함하는 방향성 오디오 코딩 파라미터들을 인코딩하는 방법에 있어서,
상기 확산 파라미터들 및 상기 방향 파라미터들을 양자화하는 단계;
양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 인코딩하는 단계; 및
인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들에 대한 정보를 포함하는 인코딩된 파라미터 표현을 생성하는 단계를 포함하는, 방법.
- 인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함하는 인코딩된 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 디코더에 있어서,
상기 인코딩된 오디오 신호를 수신하고 상기 인코딩된 오디오 신호로부터 상기 인코딩된 확산 파라미터들 및 상기 인코딩된 방향 파라미터를 분리하기 위한 입력 인터페이스 (800);
양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 획득하기 위해 상기 인코딩된 확산 파라미터들 및 상기 인코딩된 방향 파라미터들을 디코딩하기 위한 파라미터 디코더(820); 및
상기 양자화된 확산 파라미터들 및 상기 양자화된 방향 파라미터들로부터 역 양자화된(dequantized) 확산 파라미터들 및 역 양자화된 방향 파라미터들을 결정하기 위한 파라미터 역 양자화기(840)를 포함하는, 디코더.
- 제29항에 있어서,
상기 입력 인터페이스(800)는 상기 인코딩된 오디오 신호에 포함된 코딩 모드 표시(coding mode indication) (806)로부터, 상기 파라미터 디코더(820)가 상기 인코딩된 방향 파라미터들을 디코딩하기 위해 로우 디코딩 모드(raw decoding mode)인 제1 디코딩 모드를 사용할지 또는 상기 제1 디코딩 모드와 다르고 모델링 과정이 있는 디코딩 모드(decoding mode with modeling)인 제2 디코딩 모드를 사용할지 여부를 결정하도록 구성된, 디코더.
- 제29항 또는 제30항에 있어서,
상기 파라미터 디코더(820)는 상기 프레임에 대해 양자화된 확산 파라미터를 획득하기 위해 상기 인코딩된 오디오 신호의 프레임에 대해 인코딩된 확산 파라미터(804)를 디코딩하도록 구성되고,
상기 양자화기(840)는 상기 양자화된 또는 역 양자화된 확산 파라미터를 사용하여 상기 프레임에 대해 적어도 하나의 방향 파라미터의 상기 역 양자화를 위한 역 양자화 정확성을 결정하도록 구성되고,
상기 파라미터 역 양자화기(840)는 상기 역 양자화 정확성을 사용하여 양자화된 방향 파라미터를 역 양자화하도록 구성된, 디코더.
- 제29항, 제30항 또는 제31항에 있어서,
상기 파라미터 디코더(820)는 역 양자화 정확성(dequantization precision)으로부터, 상기 프레임에 대해 상기 인코딩된 방향 파라미터를 디코딩하기 위한 디코딩 알파벳(decoding alphabet)을 결정하도록 구성되고, 및
상기 파라미터 디코더(820)는 상기 양자화된 방향 파라미터를 얻기 위해 상기 디코딩 알파벳을 사용하여 상기 인코딩된 방향 파라미터를 디코딩 하도록 구성된, 디코더.
- 제29항 내지 제32항 중 한 항에 있어서,
상기 파라미터 디코더(820)는 상기 인코딩된 방향 파라미터로부터 양자화된 구 인덱스(quantized sphere index)를 도출하고, 및 상기 양자화된 구 인덱스를 양자화된 고도 인덱스 및 상기 양자화된 방위 인덱스로 분해(decompose)하도록 구성된, 디코더.
- 제29항 내지 제33항 중 한 항에 있어서,
상기 파라미터 디코더(820)는
역 양자화 정확성(dequantization precision)으로부터, 고도 알파벳(elevation alphabet)을 결정하거나, 또는
양자화된 고도 파라미터(quantized elevation parameter) 또는 역 양자화된 고도 파라미터(dequantized elevation parameter)로부터, 방위 알파벳(azimuth alphabet)을 결정하도록 구성된,
디코더.
- 제29항 내지 제34항 중 한 항에 있어서, 상기 파라미터 디코더(820)는
상기 인코딩된 방향 파라미터들로부터, 양자화된 고도 파라미터를 디코딩 하고, 및 상기 인코딩된 방향 파라미터들로부터, 양자화된 방위 파라미터를 디코딩 하도록 구성되고,
상기 파라미터 역 양자화기(840)는 상기 양자화된 고도 파라미터 또는 역 양자화된 고도 파라미터로부터, 방위 알파벳을 결정하도록 구성되고, 상기 방위 알파벳의 크기는 제2 절대 고도 각(absolute elevation angle)의 고도를 나타내는 고도 데이터와 비교하여 제1 절대 고도 각의 고도를 나타내는 고도 데이터에 대해 더 크고, 상기 제2 절대 고도 각은 상기 제1 절대 고도 각보다 크고, 및
상기 파라미터 디코더(820)는 양자화된 방위 파라미터를 생성하기 위해 상기 방위 알파벳을 사용하도록 구성되거나, 또는 상기 파라미터 역 양자화기는 상기 양자화된 방위 파라미터를 역 양자화하기 위해 상기 방위 알파벳을 사용하도록 구성되는,
디코더.
- 제29항 내지 제35항 중 한 항에 있어서,
상기 입력 인터페이스(800)는 상기 인코딩된 오디오 신호의 디코딩 모드 표시(806)로부터 모델링 과정이 있는 디코딩 모드를 결정하도록 구성되고,
상기 파라미터 디코더(820)는 평균 고도 인덱스 또는 평균 방위 인덱스를 획득하도록 구성되는,
디코더.
- 제36항에 있어서, 상기 파라미터 디코더(820)는 프레임에 대한 양자화된 확산 인덱스로부터, 상기 프레임에 대한 역 양자화 정확성을 결정하고(851),
상기 프레임에 대한 상기 역 양자화 정확성으로부터, 고도 평균 알파벳(elevation average alphabet) 또는 방위 평균 알파벳(azimuth average alphabet)을 결정하고(852a),
상기 고도 평균 알파벳 및 상기 인코딩된 오디오 신호의 비트들(808b)을 사용하여 상기 평균 고도 인덱스(average elevation index)를 계산하거나, 또는 상기 방위 평균 알파벳 및 상기 인코딩된 오디오 신호의 비트들(808a)을 사용하여 상기 평균 방위 인덱스(average azimuth index)를 계산하도록 구성된,
디코더.
- 제36항 또는 제37항에 있어서,
상기 파라미터 디코더(820)는 디코딩된 고도 골롬-라이스 파라미터(elevation Golomb-Rice parameter)를 획득하기 위해 상기 인코딩된 오디오 신호의 특정 비트들(808c)을 디코딩하고, 및 디코딩된 고도 거리들(elevation distances)을 획득하기 위해 상기 인코딩된 오디오 신호의 추가 비트들(808c)를 디코딩 하도록 구성되고,
상기 파라미터 디코더(820)는 디코딩된 방위 골롬-라이스 파라미터(azimuth Golomb-Rice parameter)를 획득하기 위해 상기 인코딩된 오디오 신호의 특정 비트들(808a)을 디코딩 하고, 디코딩된 방위 거리들을 획득하기 위해 상기 인코딩된 오디오 신호의 추가 비트들(808f)을 디코딩 하도록 구성되고,
상기 파라미터 디코더(820)는 상기 고도 평균 인덱스 및 상기 디코딩된 고도 거리들 및 상기 고도 골롬-라이스 파라미터로부터 양자화된 고도 파라미터들을 계산하거나, 또는 상기 방위 평균 인덱스 및 상기 디코딩된 방위 거리들 및 상기 방위 골롬-라이스 파라미터로부터 양자화된 방위 파라미터들을 계산하도록 구성된,
디코더.
- 제29항 내지 제38항 중 한 항에 있어서, 상기 파라미터 디코더(820)는 양자화된 확산 파라미터 (850)를 얻기 위해 상기 인코딩된 오디오 신호로부터 시간 및 주파수 부분에 대한 확산 파라미터를 디코딩하도록 구성되고,
상기 파라미터 역 양자화기(840)는 상기 양자화된 또는 역 양자화된 확산 파라미터로부터 역 양자화 정확성을 결정하도록(851) 구성되고,
상기 파라미터 디코더 (820)는 상기 역 양자화 정확성 (852a)으로부터 고도 알파벳을 도출하고 상기 프레임의 상기 시간 및 주파수 부분에 대한 양자화된 고도 파라미터를 획득하기 위해 상기 고도 알파벳을 사용하도록 구성되고, 및
상기 역 양자화기는 상기 프레임의 상기 시간 및 주파수 부분에 대한 역 양자화된 고도 파라미터를 획득하기 위해 상기 고도 알파벳을 사용하여 상기 양자화된 고도 파라미터를 역 양자화하도록 구성된,
디코더.
- 제29항 내지 제39항 중 한 항에 있어서,
상기 파라미터 디코더(820)는 양자화된 고도 파라미터를 획득하기 위해 인코딩된 방향 파라미터를 디코딩하도록 구성되고,
상기 파라미터 역 양자화기(840)는 상기 양자화된 고도 파라미터 또는 역 양자화된 고도 파라미터로부터 방위 알파벳을 결정하도록(852c) 구성되고, 및
상기 파라미터 디코더(820)는 상기 방위 알파벳 (852d)을 사용하여 양자화된 방위 파라미터를 계산하도록 구성되거나, 또는 상기 파라미터 역 양자화기 (840)는 상기 방위 알파벳을 사용하여 상기 양자화된 방위 파라미터를 역 양자화하도록 구성되는,
디코더.
- 제29항 내지 제40항 중 한 항에 있어서, 상기 파라미터 역 양자화기(840)는
역 양자화 정확성을 사용하여 고도 알파벳을 결정하고(852a), 및
상기 고도 알파벳을 사용하여 생성된 상기 양자화된 또는 역 양자화된 고도 파라미터 및 상기 역 양자화 정확성을 사용하여 방위 알파벳을 결정(852c)하도록 구성되고,
상기 파라미터 디코더(820)는 양자화된 고도 파라미터를 획득하도록 상기 인코딩된 방향 파라미터를 디코딩하기 위해 상기 고도 알파벳을 사용하고 양자화된 방위 파라미터를 획득하도록 상기 인코딩된 방향 파라미터를 디코딩하기 위해 상기 방위 알파벳을 사용하도록 구성되거나, 또는 상기 파라미터 역 양자화기(840)는 상기 고도 알파벳을 사용하여 상기 양자화된 고도 파라미터를 역 양자화하고 상기 방위 알파벳을 사용하여 상기 양자화된 방위 파라미터를 역 양자화하도록 구성된,
디코더.
- 제33항에 있어서, 상기 파라미터 디코더(820)는
상기 평균 고도 인덱스 또는 평균 방위 인덱스를 사용하여 예측된 고도 인덱스 또는 예측된 방위 인덱스를 계산하고, 및
방위 또는 고도 파라미터에 대한 거리를 획득하기 위해 골롬-라이스 디코딩 동작, 또는 그 변형을 수행하고, 및
상기 양자화된 고도 인덱스 또는 상기 양자화된 방위 인덱스를 획득하기 위해 상기 평균 고도 인덱스 또는 상기 평균 방위 인덱스에 상기 방위 또는 고도 파라미터에 대한 상기 거리를 더하도록 구성된,
디코더.
- 제29항 내지 제42항 중 한 항에 있어서,
상기 역 양자화된 확산 파라미터의 시간/주파수 해상도 또는 상기 역 양자화된 방위 또는 고도 파라미터의 시간 또는 주파수 해상도 또는 상기 역 양자화된 방위 파라미터 또는 역 양자화된 고도 파라미터로부터 도출된 파라미터의 표현(parametric representation)을 목표 시간 또는 주파수 해상도로 변환하기 위한 상기 파라미터 해상도 변환기(parameter resolution converter)(710), 및
디코딩된 멀티 채널 오디오 신호(decoded multi-channel audio signal)를 획득하기 위해 상기 목표 시간 또는 주파수 해상도의 상기 방향 파라미터들 및 상기 확산 파라미터들을 오디오 신호에 적용하기 위한 오디오 렌더러(audio renderer)(420)를 더 포함하는, 디코더.
- 제43항에 있어서,
상기 멀티 채널 오디오 신호를 스펙트럼 도메인 표현(spectral domain representation)으로부터 상기 목표 시간 또는 주파수 해상도(target time or frequency resolution)의 상기 시간 해상도 보다 더 높은 시간 해상도를 갖는 시간 도메인 표현으로 변환하기 위한 스펙트럼/시간 변환기(spectrum/time converter)(440)를 포함하는, 디코더.
- 제29항 내지 제44항 중 한 항에 있어서,
상기 인코딩된 오디오 신호는 인코딩된 전송 신호(encoded transport signal)를 포함하고, 상기 입력 인터페이스(800)는 상기 인코딩된 전송 신호를 추출하도록 구성되고,
상기 디코더는 상기 인코딩된 전송 신호를 디코딩하기 위해 전송 신호 오디오 디코더(transport signal audio decoder)(340)를 포함하고,
상기 디코더는 디코딩된 전송 신호를 스펙트럼 표현으로 변환하기위한 시간/스펙트럼 변환기 (430)를 더 포함하고,
상기 디코더는 상기 역 양자화된 확산 파라미터들 및 상기 양자화된 방향 파라미터들을 사용하여 멀티 채널 오디오 신호를 렌더링하기 위한 오디오 렌더러(audio renderer)(420, 440)를 포함하고, 및
상기 디코더는 렌더링된 오디오 신호를 시간 도메인 표현으로 변환하기위한 스펙트럼/시간 변환기(440)를 더 포함하는, 디코더.
- 인코딩된 확산 파라미터들 및 인코딩된 방향 파라미터들을 포함하는 인코딩된 방향성 오디오 코딩 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 방법에 있어서,
상기 인코딩된 오디오 신호를 수신하고 상기 인코딩된 오디오 신호로부터 상기 인코딩된 확산 파라미터들 및 상기 인코딩된 방향 파라미터를 분리하는 단계(800);
양자화된 확산 파라미터들 및 양자화된 방향 파라미터들을 획득하기 위해 상기 인코딩된 확산 파라미터들 및 상기 인코딩된 방향 파라미터들을 디코딩하는 단계(820); 및
상기 양자화된 확산 파라미터들 및 상기 양자화된 방향 파라미터들로부터 역 양자화된(dequantized) 확산 파라미터들 및 역 양자화된 방향 파라미터들을 결정하는 단계(840)를 포함하는, 방법.
- 컴퓨터 또는 프로세서 상에서 실행될 때, 제28항 또는 제46항의 상기 방법을 수행하기 위한 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020237024617A KR20230110842A (ko) | 2017-11-17 | 2018-11-16 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17202393.9 | 2017-11-17 | ||
EP17202393 | 2017-11-17 | ||
PCT/EP2018/081623 WO2019097018A1 (en) | 2017-11-17 | 2018-11-16 | Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237024617A Division KR20230110842A (ko) | 2017-11-17 | 2018-11-16 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200091880A true KR20200091880A (ko) | 2020-07-31 |
KR102599743B1 KR102599743B1 (ko) | 2023-11-08 |
Family
ID=60515115
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207017280A KR102535997B1 (ko) | 2017-11-17 | 2018-11-16 | 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법 |
KR1020237024617A KR20230110842A (ko) | 2017-11-17 | 2018-11-16 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
KR1020207017247A KR102599743B1 (ko) | 2017-11-17 | 2018-11-16 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207017280A KR102535997B1 (ko) | 2017-11-17 | 2018-11-16 | 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법 |
KR1020237024617A KR20230110842A (ko) | 2017-11-17 | 2018-11-16 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
Country Status (19)
Country | Link |
---|---|
US (5) | US11367454B2 (ko) |
EP (3) | EP4113512A1 (ko) |
JP (5) | JP7175980B2 (ko) |
KR (3) | KR102535997B1 (ko) |
CN (4) | CN111656442B (ko) |
AR (2) | AR113525A1 (ko) |
AU (2) | AU2018368588B2 (ko) |
BR (2) | BR112020011026A2 (ko) |
CA (2) | CA3083891C (ko) |
ES (1) | ES2930374T3 (ko) |
FI (1) | FI3711047T3 (ko) |
MX (2) | MX2020005045A (ko) |
PL (1) | PL3711047T3 (ko) |
PT (1) | PT3711047T (ko) |
RU (2) | RU2763155C2 (ko) |
SG (2) | SG11202004389VA (ko) |
TW (3) | TWI759240B (ko) |
WO (2) | WO2019097017A1 (ko) |
ZA (2) | ZA202003476B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB202110499D0 (en) | 2020-07-23 | 2021-09-01 | Hyosung Tns Inc | Bundle module of medium deposit device |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112020011026A2 (pt) | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
GB2572761A (en) | 2018-04-09 | 2019-10-16 | Nokia Technologies Oy | Quantization of spatial audio parameters |
GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
EP3881560B1 (en) | 2018-11-13 | 2024-07-24 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
GB2585187A (en) * | 2019-06-25 | 2021-01-06 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
CN116978387A (zh) | 2019-07-02 | 2023-10-31 | 杜比国际公司 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
GB2586214A (en) * | 2019-07-31 | 2021-02-17 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
GB2586586A (en) | 2019-08-16 | 2021-03-03 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
GB2586461A (en) * | 2019-08-16 | 2021-02-24 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
CN110660401B (zh) * | 2019-09-02 | 2021-09-24 | 武汉大学 | 一种基于高低频域分辨率切换的音频对象编解码方法 |
GB2587196A (en) * | 2019-09-13 | 2021-03-24 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
CA3153767A1 (en) * | 2019-09-25 | 2021-04-01 | Panasonic Intellectual Property Corporation Of America | Encoder, decoder, encoding method, and decoding method |
GB2590651A (en) | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | Combining of spatial audio parameters |
GB2590650A (en) | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | The merging of spatial audio parameters |
GB2590913A (en) | 2019-12-31 | 2021-07-14 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
GB2592896A (en) * | 2020-01-13 | 2021-09-15 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
GB2595883A (en) * | 2020-06-09 | 2021-12-15 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
GB2595871A (en) * | 2020-06-09 | 2021-12-15 | Nokia Technologies Oy | The reduction of spatial audio parameters |
GB2598104A (en) * | 2020-08-17 | 2022-02-23 | Nokia Technologies Oy | Discontinuous transmission operation for spatial audio parameters |
GB2598773A (en) * | 2020-09-14 | 2022-03-16 | Nokia Technologies Oy | Quantizing spatial audio parameters |
GB202014572D0 (en) * | 2020-09-16 | 2020-10-28 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
CN116762127A (zh) * | 2020-12-15 | 2023-09-15 | 诺基亚技术有限公司 | 量化空间音频参数 |
KR20230133341A (ko) * | 2021-01-18 | 2023-09-19 | 노키아 테크놀로지스 오와이 | 공간 오디오 파라미터들의 변환 |
CN117395591A (zh) * | 2021-03-05 | 2024-01-12 | 华为技术有限公司 | Hoa系数的获取方法和装置 |
CA3212985A1 (en) * | 2021-03-22 | 2022-09-29 | Mikko-Ville Laitinen | Combining spatial audio streams |
WO2022223133A1 (en) * | 2021-04-23 | 2022-10-27 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
WO2023147864A1 (en) | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
FR3132811A1 (fr) * | 2022-02-14 | 2023-08-18 | Orange | Codage et décodage de coordonnées sphériques utilisant un dictionnaire de quantification sphérique optimisé |
WO2023179846A1 (en) * | 2022-03-22 | 2023-09-28 | Nokia Technologies Oy | Parametric spatial audio encoding |
WO2024208420A1 (en) | 2023-04-05 | 2024-10-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor, audio processing system, audio decoder, method for providing a processed audio signal representation and computer program using a time scale modification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
WO2014135235A1 (en) * | 2013-03-05 | 2014-09-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446037B1 (en) * | 1999-08-09 | 2002-09-03 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
US6678647B1 (en) * | 2000-06-02 | 2004-01-13 | Agere Systems Inc. | Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution |
FR2810476B1 (fr) | 2000-06-14 | 2002-10-11 | De Palluel Darcel Vince Crette | Balises multifonctions d'emissions/reception et/ou de reemissions, des signaux codes ou non par emetteurs recepteurs d'ondes avec capteurs realises en technologie mikrotelec |
JP4396233B2 (ja) | 2003-11-13 | 2010-01-13 | パナソニック株式会社 | 複素指数変調フィルタバンクの信号分析方法、信号合成方法、そのプログラム及びその記録媒体 |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
JP2006003580A (ja) * | 2004-06-17 | 2006-01-05 | Matsushita Electric Ind Co Ltd | オーディオ信号符号化装置及びオーディオ信号符号化方法 |
JP4640020B2 (ja) * | 2005-07-29 | 2011-03-02 | ソニー株式会社 | 音声符号化装置及び方法、並びに音声復号装置及び方法 |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
EP1852848A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt GmbH | Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream |
EP2082397B1 (en) * | 2006-10-16 | 2011-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
US8290167B2 (en) * | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US8908873B2 (en) * | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
ATE500588T1 (de) | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
US8897359B2 (en) * | 2008-06-03 | 2014-11-25 | Microsoft Corporation | Adaptive quantization for enhancement layer video coding |
CN102138176B (zh) | 2008-07-11 | 2013-11-06 | 日本电气株式会社 | 信号分析装置、信号控制装置及其方法 |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
EP2449795B1 (en) * | 2009-06-30 | 2017-05-17 | Nokia Technologies Oy | Positional disambiguation in spatial audio |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
US8897455B2 (en) | 2010-02-18 | 2014-11-25 | Qualcomm Incorporated | Microphone array subset selection for robust noise reduction |
US20130003998A1 (en) * | 2010-02-26 | 2013-01-03 | Nokia Corporation | Modifying Spatial Image of a Plurality of Audio Signals |
ES2656815T3 (es) * | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
EP2656640A2 (en) | 2010-12-22 | 2013-10-30 | Genaudio, Inc. | Audio spatialization and environment simulation |
WO2012125855A1 (en) * | 2011-03-16 | 2012-09-20 | Dts, Inc. | Encoding and reproduction of three dimensional audio soundtracks |
CN102760437B (zh) * | 2011-04-29 | 2014-03-12 | 上海交通大学 | 实时声道控制转换的音频解码装置 |
CN104054126B (zh) * | 2012-01-19 | 2017-03-29 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9384741B2 (en) * | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
TWI615834B (zh) * | 2013-05-31 | 2018-02-21 | Sony Corp | 編碼裝置及方法、解碼裝置及方法、以及程式 |
US20150127354A1 (en) * | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
US20150332682A1 (en) * | 2014-05-16 | 2015-11-19 | Qualcomm Incorporated | Spatial relation coding for higher order ambisonic coefficients |
CN106023999B (zh) * | 2016-07-11 | 2019-06-11 | 武汉大学 | 用于提高三维音频空间参数压缩率的编解码方法及系统 |
GB2554446A (en) * | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Spatial audio signal format generation from a microphone array using adaptive capture |
US10483913B2 (en) * | 2017-07-13 | 2019-11-19 | Qualcomm Incorporated | Low power crystal oscillator |
CN109274969B (zh) * | 2017-07-17 | 2020-12-22 | 华为技术有限公司 | 色度预测的方法和设备 |
BR112020011026A2 (pt) | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
GB2577698A (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
-
2018
- 2018-11-16 BR BR112020011026-4A patent/BR112020011026A2/pt unknown
- 2018-11-16 CA CA3083891A patent/CA3083891C/en active Active
- 2018-11-16 WO PCT/EP2018/081620 patent/WO2019097017A1/en active Search and Examination
- 2018-11-16 JP JP2020526994A patent/JP7175980B2/ja active Active
- 2018-11-16 RU RU2020119762A patent/RU2763155C2/ru active
- 2018-11-16 PT PT188039853T patent/PT3711047T/pt unknown
- 2018-11-16 KR KR1020207017280A patent/KR102535997B1/ko active IP Right Grant
- 2018-11-16 WO PCT/EP2018/081623 patent/WO2019097018A1/en active Search and Examination
- 2018-11-16 SG SG11202004389VA patent/SG11202004389VA/en unknown
- 2018-11-16 FI FIEP18803985.3T patent/FI3711047T3/fi active
- 2018-11-16 MX MX2020005045A patent/MX2020005045A/es unknown
- 2018-11-16 CN CN201880086690.3A patent/CN111656442B/zh active Active
- 2018-11-16 CA CA3084225A patent/CA3084225C/en active Active
- 2018-11-16 EP EP22192222.2A patent/EP4113512A1/en active Pending
- 2018-11-16 BR BR112020011035-3A patent/BR112020011035A2/pt unknown
- 2018-11-16 PL PL18803985.3T patent/PL3711047T3/pl unknown
- 2018-11-16 CN CN201880086689.0A patent/CN111656441B/zh active Active
- 2018-11-16 SG SG11202004430YA patent/SG11202004430YA/en unknown
- 2018-11-16 KR KR1020237024617A patent/KR20230110842A/ko not_active Application Discontinuation
- 2018-11-16 AU AU2018368588A patent/AU2018368588B2/en active Active
- 2018-11-16 CN CN202410748798.1A patent/CN118609580A/zh active Pending
- 2018-11-16 CN CN202311255126.9A patent/CN117351970A/zh active Pending
- 2018-11-16 ES ES18803985T patent/ES2930374T3/es active Active
- 2018-11-16 EP EP18803985.3A patent/EP3711047B1/en active Active
- 2018-11-16 JP JP2020526987A patent/JP7175979B2/ja active Active
- 2018-11-16 MX MX2020005044A patent/MX2020005044A/es unknown
- 2018-11-16 AU AU2018368589A patent/AU2018368589B2/en active Active
- 2018-11-16 KR KR1020207017247A patent/KR102599743B1/ko active IP Right Grant
- 2018-11-16 EP EP18803987.9A patent/EP3711048A1/en active Pending
- 2018-11-16 RU RU2020119761A patent/RU2763313C2/ru active
- 2018-11-19 TW TW110129069A patent/TWI759240B/zh active
- 2018-11-19 TW TW107141081A patent/TWI752281B/zh active
- 2018-11-19 TW TW107141079A patent/TWI708241B/zh active
- 2018-11-20 AR ARP180103392A patent/AR113525A1/es active IP Right Grant
- 2018-11-20 AR ARP180103391A patent/AR113524A1/es active IP Right Grant
-
2020
- 2020-05-06 US US16/867,856 patent/US11367454B2/en active Active
- 2020-05-11 US US16/871,223 patent/US11783843B2/en active Active
- 2020-06-10 ZA ZA2020/03476A patent/ZA202003476B/en unknown
- 2020-06-10 ZA ZA2020/03473A patent/ZA202003473B/en unknown
-
2022
- 2022-01-10 US US17/571,970 patent/US12106763B2/en active Active
- 2022-01-12 JP JP2022003012A patent/JP7372360B2/ja active Active
- 2022-08-24 JP JP2022133236A patent/JP2022171686A/ja active Pending
-
2023
- 2023-08-28 US US18/456,670 patent/US12112762B2/en active Active
- 2023-10-18 JP JP2023179870A patent/JP2024003010A/ja active Pending
-
2024
- 2024-04-24 US US18/644,449 patent/US20240274139A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
WO2014135235A1 (en) * | 2013-03-05 | 2014-09-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
Non-Patent Citations (2)
Title |
---|
Jukka Ahonen, Ville Pulkki. Diffuseness estimation using temporal variation of intensity vectors. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. 2009.10.18.* * |
Robert M. Gray, et al. Quantization. IEEE transactions on information theory, 1998.10.* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB202110499D0 (en) | 2020-07-23 | 2021-09-01 | Hyosung Tns Inc | Bundle module of medium deposit device |
GB2602854A (en) | 2020-07-23 | 2022-07-20 | Hyosung Tns Inc | Bundle module of medium deposit device |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102599743B1 (ko) | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
A107 | Divisional application of patent | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) |