KR20220062599A - 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 - Google Patents

공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 Download PDF

Info

Publication number
KR20220062599A
KR20220062599A KR1020227012049A KR20227012049A KR20220062599A KR 20220062599 A KR20220062599 A KR 20220062599A KR 1020227012049 A KR1020227012049 A KR 1020227012049A KR 20227012049 A KR20227012049 A KR 20227012049A KR 20220062599 A KR20220062599 A KR 20220062599A
Authority
KR
South Korea
Prior art keywords
audio signal
spatial audio
bits
quantization resolution
encoded
Prior art date
Application number
KR1020227012049A
Other languages
English (en)
Inventor
아드리아나 바실라체
Original Assignee
노키아 테크놀로지스 오와이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 테크놀로지스 오와이 filed Critical 노키아 테크놀로지스 오와이
Publication of KR20220062599A publication Critical patent/KR20220062599A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

수단을 포함하는 장치로서, 수단은, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터(spatial audio signal directional metadata parameter)를 생성하고, 제 1 양자화 해상도(203)에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터(108)를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수(217)보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값(217) 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록 구성되고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수(217) 이하가 되도록 결정된다.

Description

공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
본 출원은 음장 관련 파라미터 인코딩(sound-field related parameter encoding)을 위한, 그러나 오디오 인코더(encoder) 및 디코더(decoder)를 위한 시간-주파수 도메인 방향 관련 파라미터 인코딩(time-frequency domain direction related parameter encoding)을 위한 것만은 아닌, 장치 및 방법에 관련된다.
파라미터적 공간적 오디오 처리(parametric spatial audio processing)는 파라미터의 세트를 사용하여 소리의 공간적 측면이 기술되는 오디오 신호 처리의 분야이다. 예를 들어, 마이크 어레이로부터의 파라미터적 공간적 오디오 캡처에서, 주파수 대역 내의 소리의 방향과, 주파수 대역 내의 캡처된 소리의 방향성(directional) 및 비방향성(non-directional) 부분 간의 비율과 같은 파라미터의 세트를 마이크 어레이 신호로부터 추정하는 것은 전형적이고 효과적인 선택이다. 이들 파라미터는 마이크 어레이의 위치에서의 캡처된 소리의 지각적(perceptual) 공간적 속성을 잘 기술한다고 알려져 있다. 이들 파라미터는 이에 따라 공간적 소리의 합성에서, 바이노럴로(binaurally) 헤드폰을 위해, 라우드스피커를 위해, 또는 다른 포맷, 예컨대 앰비소닉스(Ambisonics)로 활용될 수 있다.
이와 같이 주파수 대역에서의 방향 및 직류 대 총 에너지 비율(direct-to-total energy ratio)은 공간적 오디오 캡처를 위해 특히 효과적인 파라미터화이다.
주파수 대역 내의 방향 파라미터 및 주파수 대역 내의 에너지 비율 파라미터(소리의 방향성을 나타냄)로 이루어진 파라미터 세트는 오디오 코덱을 위한 (간섭성(coherence), 확산 간섭성(spread coherence), 방향의 수, 거리 등과 같은 다른 파라미터를 또한 포함할 수 있는) 공간적 메타데이터로서 또한 활용될 수 있다. 예를 들어, 이들 파라미터는 마이크 어레이 캡처된 오디오 신호(microphone-array captured audio signal)로부터 추정될 수 있고, 예를 들어 공간적 메타데이터와 함께 전달될 마이크 어레이 신호로부터 스테레오 신호가 생성될 수 있다. 스테레오 신호는, 예를 들어, AAC 인코더로써, 인코딩될 수가 있다. 디코더는 오디오 신호를 PCM 신호로 디코딩하고, 공간적 출력, 예를 들어 바이노럴 출력(binaural output)을 획득하기 위해 (공간적 메타데이터를 사용하여) 주파수 대역 내의 소리를 처리할 수 있다.
전술된 솔루션은 (가령, 모바일 전화, VR 카메라, 독립형(stand-alone) 마이크 어레이에서) 마이크 어레이로부터의 캡처된 공간적 소리를 인코딩하는 데에 특히 적합하다. 그러나, 그러한 인코더가 마이크 어레이 캡처된 신호가 아닌 또한 다른 입력 타입, 예를 들어, 라우드스피커 신호, 오디오 객체 신호(audio object signal), 또는 앰비소닉 신호(Ambisonic signal)를 갖는 것이 바람직할 수 있다.
공간적 메타데이터 추출을 위해 1차 앰비소닉스(First-Order Ambisonics) 입력을 분석하는 것은 방향성 오디오 코딩(Directional Audio Coding: DirAC) 및 조화 평면파 전개(Harmonic planewave expansion: Harpex)에 관련된 과학 문헌에서 철저히 문서화되었다. 이는 FOA 신호(더 정확하게는: 그것의 변형인 B 포맷 신호(B-format signal))를 직접적으로 제공하는 마이크로폰 어레이가 존재하고 따라서 그러한 입력을 분석하는 것이 당 분야에서의 연구의 초점이었기 때문이다.
인코더를 위한 추가의 입력은 또한 멀티채널(multi-channel) 라우드스피커 입력, 예컨대 5.1 또는 7.1 채널 서라운드(surround) 입력이다.
그러나, 고려되는 시간/주파수 서브대역 각각에 대한 메타데이터의 방향성 요소는 최종적인 방향(resulting direction)의 고도 및 방위각(및 1-확산도인 에너지 레이트)을 포함할 수 있다. 이러한 방향성 요소의 양자화는 현재 연구 주제이다.
제 1 측면에 따라서, 수단을 포함하는 장치가 제공되며, 수단은, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터(spatial audio signal directional metadata parameter)를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록 구성되고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용하는 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함할 수 있다.
공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 결정하는 것을 포함할 수 있다.
결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 2 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용해서 고정 레이트 인코딩된, 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 2 양자화 해상도 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것을 포함할 수 있다.
수단은, 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 1 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 엔트로피 인코딩된 인덱스; 및 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 2 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 고정 레이트 인코딩된 인덱스를 출력 혹은 저장하도록 더 구성될 수 있다.
수단은, 엔트로피 인코딩된 인덱스가 고정 레이트 인코딩된 인덱스보다 우선하도록, 인코딩된 인덱스를 정렬하도록 더 구성될 수 있다.
수단은, 제 1 양자화 해상도 또는 제 2 양자화 해상도가 사용될 때 식별자를 생성하도록 더 구성될 수 있다.
제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 제 3 양자화 해상도를 사용하는 고정 레이트 인코딩에 사용되는 비트의 수에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 3 양자화 해상도가 항상 결정된 비트의 수 이하인 것으로 결정하는 것과, 제 3 양자화 해상도를 사용하는 매핑에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함할 수 있다.
수단은, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 선택적으로 인코딩된 인덱스를 출력하도록 더 구성될 수 있다.
수단은, 제 3 양자화 해상도가 결정될 때 식별자를 생성하도록 더 구성될 수 있다.
제 2 측면에 따라서, 수단을 포함하는 장치가 제공되며, 수단은, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성되고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 수단은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - , 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하도록 구성된다.
수단은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정하도록 더 구성될 수 있다.
공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 추가 양자화 해상도를 결정하는 것을 포함할 수 있다.
수단은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 감소된 비트 양자화 해상도를 결정하도록 더 구성될 수 있다.
수단은, 양자화 해상도에 기초해서, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스로부터 고도 및 방위각 값 중 적어도 하나로의 매핑을 생성하도록 구성될 수 있다.
제 3 측면에 따라서, 방법이 제공되며, 이는, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 단계와, 제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 단계와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하는 단계와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하는 단계와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 단계와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 단계를 포함하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용하는 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함한다.
공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 결정하는 것을 포함한다.
결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 2 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용해서 고정 레이트 인코딩된, 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 양자화 해상도 사용하는 것에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것을 포함할 수 있다.
이 방법은, 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 1 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 엔트로피 인코딩된 인덱스; 및 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 2 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 고정 레이트 인코딩된 인덱스를 출력 혹은 저장하는 단계를 더 포함할 수 있다.
이 방법은, 엔트로피 인코딩된 인덱스가 고정 레이트 인코딩된 인덱스보다 우선하도록, 인코딩된 인덱스를 정렬하는 단계를 더 포함할 수 있다.
이 방법은, 제 1 양자화 해상도 또는 제 2 양자화 해상도가 사용될 때 식별자를 생성하는 단계를 더 포함할 수 있다.
제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 제 3 양자화 해상도를 사용하는 고정 레이트 인코딩에 사용되는 비트의 수에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 3 양자화 해상도가 항상 결정된 비트의 수 이하인 것으로 결정하는 것과, 제 3 양자화 해상도를 사용하는 매핑에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함할 수 있다.
이 방법은, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 선택적으로 인코딩된 인덱스를 출력하는 단계를 더 포함할 수 있다.
이 방법은, 제 3 양자화 해상도가 결정될 때 식별자를 생성하는 단계를 더 포함할 수 있다.
제 4 측면에 따라서, 방법이 제공되며, 이는, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하는 단계와, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하는 단계와, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하는 단계를 포함하고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 이 방법은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하는 단계 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - 와, 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하는 단계와, 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작지 않을 때에는, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하는 단계를 포함할 수 있다.
이 방법은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정하는 단계를 더 포함할 수 있다.
공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 추가 양자화 해상도를 결정하는 것을 포함할 수 있다.
이 방법은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 감소된 비트 양자화 해상도를 결정하는 단계를 더 포함할 수 있다.
이 방법은, 양자화 해상도에 기초해서, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스로부터 고도 및 방위각 값 중 적어도 하나로의 매핑을 생성하는 단계를 더 포함할 수 있다.
제 5 측면에 따라서, 적어도 하나의 프로세서, 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치가 제공되며, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서를 이용해서, 장치로 하여금 적어도, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하게 하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용하는 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함할 수 있다.
공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 결정하는 것을 포함할 수 있다.
결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 2 양자화 해상도를 결정하는 것과, 제 1 양자화 해상도를 사용해서 고정 레이트 인코딩된, 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 2 양자화 해상도 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것을 포함할 수 있다.
장치는, 또한 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 1 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 엔트로피 인코딩된 인덱스; 및 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 제 2 양자화 해상도를 사용한 매핑에 기초해서 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 고정 레이트 인코딩된 인덱스를 출력 혹은 저장할 수 있다.
장치는, 또한 엔트로피 인코딩된 인덱스가 고정 레이트 인코딩된 인덱스보다 우선하도록, 인코딩된 인덱스를 정렬할 수 있다.
장치는, 제 1 양자화 해상도 또는 제 2 양자화 해상도가 사용될 때 식별자를 생성할 수 있다.
제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은, 제 3 양자화 해상도를 사용하는 고정 레이트 인코딩에 사용되는 비트의 수에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 3 양자화 해상도가 항상 결정된 비트의 수 이하인 것으로 결정하는 것과, 제 3 양자화 해상도를 사용하는 매핑에 기초한 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 인덱스를 선택적으로 인코딩하는 것을 포함할 수 있다.
장치는, 고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 고정 레이트 인코딩 또는 엔트로피 인코딩을 사용해서 선택적으로 인코딩된 인덱스를 출력할 수 있다.
장치는, 제 3 양자화 해상도가 결정될 때 식별자를 생성할 수 있다.
제 6 측면에 따라서, 적어도 하나의 프로세서, 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치가 제공되며, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서를 이용해서, 장치로 하여금 적어도, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성되고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 수단은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - , 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하게 한다.
장치는 또한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정할 수 있다.
장치는 또한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 추가 양자화 해상도를 결정하는 것은, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 추가 양자화 해상도를 결정할 수 있다.
장치는 또한 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 감소된 비트 양자화 해상도를 결정할 수 있다.
장치는 또한 양자화 해상도에 기초해서, 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스로부터 고도 및 방위각 값 중 적어도 하나로의 매핑을 생성할 수 있다.
제 7 측면에 따라서, 장치가 제공되며, 이는 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하도록 구성된 생성 회로와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하도록 구성된 생성 회로와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하도록 구성된 비교 회로와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하도록 구성된 출력 혹은 저장 회로와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록 구성된 생성 회로와, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록 구성된 생성 회로를 포함하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 8 측면에 따라서, 장치가 제공되며, 이는 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하도록 구성된 수신 회로와, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하도록 구성된 수신 회로와, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성된 디코딩 회로를 포함하고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 장치는, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하도록 구성된 디코딩 회로 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - 와, 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하도록 구성된 디코딩 회로를 포함한다.
제 9 측면에 따라서, 명령어를 포함하는 컴퓨터 프로그램[또는 프로그램 명령어를 포함하는 컴퓨터 판독 가능 매체]이 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하게 하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 10 측면에 따라서, 명령어를 포함하는 컴퓨터 프로그램[또는 프로그램 명령어를 포함하는 컴퓨터 판독 가능 매체]이 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성되고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 수단은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - , 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하게 한다.
제 11 측면에 따라서, 프로그램 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체가 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하게 하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 12 측면에 따라서, 프로그램 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체가 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성되고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 수단은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - , 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하게 한다.
제 13 측면에 따라서, 장치가 제공되며, 이는, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 수단과, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 수단과, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하는 수단과, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장 하는 수단과, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 수단과, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록 구성된 회로를 생성하는 수단을 포함하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 14 측면에 따라서, 장치가 제공되며, 이는, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하는 수단과, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하는 수단과, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하는 수단을 포함하고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하는 수단 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - 과, 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하는 수단과, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하는 수단을 포함한다.
제 15 측면에 따라서, 프로그램 명령어를 포함하는 컴퓨터 판독 가능 매체가 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 작으면, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고, 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 결정된 비트의 수보다 크고, 결정된 비트의 수와 제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수 사이의 차이가 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하게 하고, 제 3 양자화 해상도는, 제 3 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 결정된 비트의 수 이하가 되도록 결정된다.
제 16 측면에 따라서, 프로그램 명령어를 포함하는 컴퓨터 판독 가능 매체가 제공되며, 이는 장치로 하여금 적어도, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고, 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록 구성되고, 식별자가 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 수단은, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 제 1 부분은 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - , 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 결정된 비트의 수와 사이의 차이가 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하며, 그렇지 않으면, 추가 양자화 해상도에 기초한 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 제 2 부분을 디코딩하게 한다.
위에서 기술된 바와 같은 방법의 행위를 수행하는 수단을 포함하는 장치.
위에서 기술된 바와 같은 방법의 행위를 수행하도록 구성된 장치.
컴퓨터로 하여금 위에서 기술된 바와 같은 방법을 수행하게 하기 위한 프로그램 명령어를 포함하는 컴퓨터 프로그램.
매체 상에 저장된 컴퓨터 프로그램 제품은 장치로 하여금 본 문서에서 기술된 바와 같은 방법을 수행하게 할 수 있다.
전자 디바이스는 본 문서에서 기술된 바와 같은 장치를 포함할 수 있다.
칩셋은 본 문서에서 기술된 바와 같은 장치를 포함할 수 있다.
본 출원의 실시예는 업계의 사정과 연관된 문제를 다루는 것을 목표로 한다.
본 출원을 더욱 이해할 수 있도록, 첨부된 도면을 예로서 참조한다.
도 1은 몇몇 실시예를 구현하기에 적합한 장치의 시스템을 도식적으로 도시한다.
도 2는 몇몇 실시예에 따른 메타데이터 인코더를 도식적으로 도시한다.
도 3은, 일부 실시예에 따른, 도 2에 도시된 바와 같은 에너지 비율 인코딩 및 양자화 해상도 결정 동작의 흐름도를 도시한다.
도 4a 내지 도 4c는 일부 실시예에 따른 도 2에 도시된 바와 같은 방향 인덱스 생성 및 방향 인덱스 인코딩 동작의 흐름도를 도시한다.
도 5는 일부 실시예에 따른 도 4a 내지 도 4c에 도시된 바와 같은 방향 인덱스의 엔트로피 인코딩의 흐름도를 도시한다.
도 6은 일부 실시예에 따른 도 4a 내지 도 4c에 도시된 방향 인덱스의 엔트로피 인코딩의 추가 흐름도를 도시한다.
도 7은 일부 실시예에 따른 메타데이터 디코더를 개략적으로 도시한다.
도 8은 일부 실시예에 따른, 도 7에 도시된 메타데이터 디코더 동작의 흐름도를 도시한다.
도 9는 도시된 장치를 구현하기에 적합한 예시적인 장치를 개략적으로 도시한다.
이하에서는, 효과적인 공간 분석 파생 메타데이터 파라미터를 제공하기에 적절한 장치 및 가능한 메커니즘을 자세히 설명한다. 이하의 설명에서는 다중-채널 마이크 구현예에 관하여 다중-채널 시스템이 설명된다. 그러나, 이상에서 설명한 바와 같이, 입력 포맷은 다중-채널 스피커, 앰비소닉(FOA/HOA) 등과 같은 임의의 적절한 입력 형식이 될 수 있다. 일부 실시예에서 채널 위치는 마이크의 위치에 기초할 수도 있고, 혹은 가상의 위치 또는 방향이라는 것을 이해할 수 있다. 또한, 예시 시스템의 출력은 다중-채널 스피커 배열이다. 그러나 출력은 스피커 이외의 수단을 통해 사용자에게 제공될 수도 있다는 것을 이해할 수 있다. 또한, 다중-채널 스피커 신호는 2 이상의 재생 장치 오디오 신호로 일반화될 수 있다.
메타데이터는 고려되는 각 시간/주파수 서브대역에 대해, 적어도 고도, 방위각 및 최종적인 방향의 에너지 레이트로 구성된다. 방향 파라미터 성분인 방위각과 고도는 오디오 데이터로부터 추출되고 주어진 양자화 해상도로 양자화된다. 최종 인덱스는 효율적인 전송을 위해 더 압축되어야 한다. 높은 비트레이트(bitrate)의 경우, 메타데이터의 고품질 무손실 인코딩이 필요하다.
이하에서 설명되는 개념은, 후속하는 획득된 비트레이트의 초기 양자화 및 인코딩이 코덱에 의해 허용되는 비트레이트보다 큰 상황에서, 메타데이터의 인코딩 및 양자화된 표현의 품질을 개선하는 것이다. 이 실시예에서, 엔트로피 코딩 비트의 임의의 재추정이나 수정에 대한 임의의 추가적인 시그널링 없이, 중간 양자화 해상도를 획득하는 방법이 제안된다. 따라서 고정 레이트 인코딩을 사용하는 서브대역에 대해서만 감소가 수행되고, 출력할 비트스트림을 기록할 때 서브대역를 재정렬하는 방식으로 암시적인 시그널링이 구현된다.
이는 일부 실시예에서, 인코딩될 변수의 값을 감소시키는 방법으로 추가로 구현될 수도 있다. 일부 실시예에서 이 감소는 더 많은 수의 심볼이 있는 경우 구현될 수 있다. 이러한 변경은, 사용 가능한 심볼 수로부터 인코딩될 인덱스를 감산하고, 최종적인 차이를 인코딩함으로써 수행될 수 있다. 일부 실시예에서, 방위각 표현의 경우에, 이것은, 후방으로 바이어스되어 위치된 오디오 소스를 갖는 것에 대응한다. 나아가, 일부 실시예에서 이 변경은 모든 인덱스가 짝수인지 또는 모든 인덱스가 홀수인지를 체크하고, 그 값을 2로 나눈 값을 인코딩함으로써 구현될 수도 있다. 고도 표현의 경우, 일부 실시예에서 이것은, 오디오 소스가 주로 오디오 장면의 상부 또는 하부에 위치되는 경우에 대응한다.
일부 실시예에서, 예를 들어 IVAS 코덱 내에서 MASA 메타데이터의 인코딩은, 각각의 시간 주파수 타일에 대한 양자화된 에너지 비율의 값에 기초해서 방향성 데이터에 대한 비트 수를 먼저 추정하도록 구성된다. 또한, 원래 양자화 해상도의 엔트로피 인코딩이 테스트된다. 최종적인 합계가 사용 가능한 비트 수보다 크다면, 사용 가능한 비트 수에 맞도록 각 시간 주파수 타일에 대해서 비트 수를 비례적으로 감소시킬 수 있지만, 비트 레이트가 허용하는 경우에는(예를 들어 비트 레이트가 더 높음), 양자화 해상도를 굳이 조정하지는 않는다.
도 1에는 본 출원의 실시예를 구현하기 위한 예시적인 장치 및 시스템이 도시되어 있다. 시스템(100)은 '분석' 부분(121) 및 '합성' 부분(131)으로써 도시되어 있다. '분석' 부분(121)은 멀티-채널 스피커 신호를 수신하는 것부터 메타데이터 및 다운믹스 신호의 인코딩까지의 부분이고, '합성' 부분(131)은 인코딩된 메타데이터 및 다운믹스 신호의 디코딩부터 (예를 들어 멀티-채널 스피커 형태로 된) 재생성된(re-generated) 신호의 제시(presentation)까지의 부분이다.
시스템(100) 및 '분석' 부분(121)에의 입력은 멀티-채널 신호(102)이다. 다음의 예에서 마이크 채널 신호 입력이 기술되지만, 다른 실시예에서 임의의 적합한 입력(또는 합성 멀티-채널) 포맷이 구현될 수도 있다. 예를 들어 몇몇 실시예에서 공간적 분석기(spatial analyser) 및 공간적 분석은 인코더 외부에 구현될 수 있다. 예를 들어 몇몇 실시예에서 오디오 신호와 연관된 공간적 메타데이터는 별개의 비트스트림으로서 인코더에 제공될 수 있다. 몇몇 실시예에서 공간적 메타데이터는 공간적 (방향) 인덱스 값의 세트로서 제공될 수 있다.
멀티채널 신호는 다운믹서(103)에, 그리고 분석 프로세서(analysis processor)(105)에 전달된다. 몇몇 실시예에서, 다운믹서(103)는 멀티-채널 신호를 수신하고, 이 신호를 결정된 수의 채널로 다운믹스해서 다운믹스 신호(104)를 출력하도록 구성된다. 예를 들어 다운믹서(103)는 멀티-채널 신호의 2 오디오 채널 다운믹스를 생성하도록 구성될 수 있다. 결정된 채널의 수는 임의의 적합한 개수의 채널일 수 있다. 몇몇 실시예에서 다운믹서(103)는 선택적인 것으로, 이 예에서 멀티-채널 신호는, 다운믹스 신호와 동일한 방식으로 인코더(107)에 처리되지 않고 전달된다.
몇몇 실시예에서 분석 프로세서(105)는 멀티-채널 신호를 수신하고, 이 신호를 분석해서, 멀티-채널 신호와 연관된, 그리고 따라서 다운믹스 신호(104)와 연관된 메타데이터(106)를 생성하도록 더 구성된다. 분석 프로세서(105)는, 각각의 시간-주파수 분석 기간 동안, 방향 파라미터(108)와 에너지 비율 파라미터(110)(그리고 일부 실시예에서, 간섭성(coherence) 파라미터 및 확산성 파라미터)를 포함할 수 있는 메타데이터를 생성하도록 구성될 수 있다. 방향 및 에너지 비율은 몇몇 실시예에서 공간적 오디오 파라미터로 간주될 수 있다. 다시 말해 공간적 오디오 파라미터는 멀티-채널 신호(또는 일반적으로 둘 이상의 재생 오디오 신호)에 의해 생성된 음장을 특징짓는 것을 목표로 하는 파라미터를 포함한다.
몇몇 실시예에서 생성된 파라미터는 주파수 대역마다 상이할 수 있다. 그러므로 예를 들어 대역 X에서는 파라미터 모두가 생성되어 전송되는 반면, 대역 Y에서는 파라미터 중 오직 하나만 생성되어 전송되며, 나아가 대역 Z에서는 어떤 파라미터도 생성되거나 전송되지 않는다. 이것의 현실적인 예는 가장 높은 대역과 같은 몇몇 주파수 대역에 대해 파라미터 중 일부가 지각적(perceptual) 이유로 요구되지 않는다는 것일 수 있다. 다운믹스 신호(104) 및 메타데이터(106)는 인코더(107)에 전해질 수 있다.
인코더(107)는 다운믹스(혹은 다른) 신호(104)를 수신하고 이들 오디오 신호의 적합한 인코딩을 생성하도록 구성된 오디오 인코더 코어(audio encoder core)(109)를 포함할 수 있다. 인코더(107)는 몇몇 실시예에서 (적어도 하나의 프로세서 상에 및 메모리 상에 저장된 적합한 소프트웨어를 가동하는) 컴퓨터이거나, 대안적으로, 예를 들어, FPGA 또는 ASIC을 활용하는 특정 디바이스일 수 있다. 인코딩은 임의의 적합한 방안을 사용하여 구현될 수 있다. 인코더(107)는 나아가 메타데이터를 수신하고 정보의 인코딩된 또는 압축된 형태를 출력하도록 구성된 메타데이터 인코더/양자화기(111)를 포함할 수 있다. 몇몇 실시예에서 인코더(107)는 또한, 점선에 의해 도 1에 도시된 송신 또는 저장 전에, 인코딩된 다운믹스 신호 내의 메타데이터를 인터리빙하거나(interleave), 단일의 데이터 스트림으로 다중화하거나(multiplex) 임베딩할(embed) 수 있다. 다중화는 임의의 적합한 방안을 사용하여 구현될 수 있다.
디코더 측에서, 수신된 혹은 취득된 데이터(스트림)는 디코더/역다중화기(demultiplexer)(133)에 의해 수신될 수 있다. 디코더/역다중화기(133)는 인코딩된 스트림을 역다중화하고 오디오 인코딩된 스트림을 다운믹스 신호를 획득하기 위해 오디오 신호를 디코딩하도록 구성된 다운믹스 추출기(135)에 전할 수 있다. 유사하게 디코더/역다중화기(133)는 인코딩된 메타데이터를 수신하고 메타데이터를 생성하도록 구성된 메타데이터 추출기(metadata extractor)(137)를 포함할 수 있다. 디코더/역다중화기(133)는 몇몇 실시예에서 (적어도 하나의 프로세서 상에 및 메모리 상에 저장된 적합한 소프트웨어를 가동하는) 컴퓨터이거나, 대안적으로, 예를 들어, FPGA 또는 ASIC을 활용하는 특정 디바이스일 수 있다.
디코딩된 메타데이터 및 다운믹스 오디오 신호는 합성 프로세서(synthesis processor)(139)에 전달될 수 있다.
시스템(100) '합성' 부분(131)은 또한 다운믹스 신호 및 메타데이터를 수신하고 다운믹스 신호 및 메타데이터에 기반하여 멀티-채널 신호(110)(이는, 용례에 따라서, 멀티-채널 라우드스피커 포맷이거나 몇몇 실시예에서 임의의 적합한 출력 포맷, 예컨대 바이노럴 또는 앰비소닉스 신호일 수 있음)의 형태로 된 합성된 공간적 오디오를 임의의 적합한 포맷으로 재생성하도록 구성된 합성 프로세서(139)를 보여준다.
따라서 요컨대 우선 시스템(분석 부분)은 멀티-채널 오디오 신호를 수신하도록 구성된다. 이후에 시스템(분석 부분)은 다운믹스를 생성하거나 혹은 (예를 들어 오디오 신호 채널의 일부를 선택함으로써) 적합한 전송 오디오 신호를 생성하도록 구성된다. 이후에 시스템은 다운믹스(혹은 더 일반적으로는 전송) 신호를 저장/전송을 위해 인코딩하도록 구성된다. 이후에, 시스템은 인코딩된 다운믹스 및 메타데이터를 저장/송신할 수 있다. 시스템은 인코딩된 다운믹스 및 메타데이터를 취득/수신할 수 있다. 이후에, 시스템은 인코딩된 다운믹스 및 메타데이터 파라미터로부터 다운믹스 및 메타데이터를 추출하도록, 예를 들어 인코딩된 다운믹스 및 메타데이터 파라미터를 역다중화하고 디코딩하도록 구성된다.
시스템(합성 부분)은 추출된 멀티-채널 오디오 신호 및 메타데이터에 기초해서 출력 멀티-채널 오디오 신호를 합성하도록 구성된다.
도 2를 참조해서, 몇몇 실시예에 따른 (도 1에 도시된 바와 같은) 예시적인 분석 프로세서(105) 및 메타데이터 인코더/양자화기(111)가 더 상세히 기술된다.
분석 프로세서(105)는 몇몇 실시예에서 시간-주파수 도메인 변환기(201)를 포함한다.
몇몇 실시예에서 시간-주파수 도메인 변환기(201)는 멀티-채널 신호(102)를 수신하고 입력 시간 도메인 신호를 적합한 시간-주파수 신호로 변환하기 위해서 단시간 푸리에 변환(Short Time Fourier Transform: STFT)과 같은 적합한 시간 대 주파수 도메인 변환(time to frequency domain transform)을 적용하도록 구성된다. 이런 시간-주파수 신호는 공간적 분석기(203)에, 그리고 신호 분석기(205)에 전해질 수 있다.
그러므로 예를 들어 시간-주파수 신호(202)는
si(b, n)
에 의해 시간-주파수 도메인 표현으로 표현될 수 있는데, 여기서 b는 주파수 빈(bin) 인덱스이고 n은 시간-주파수의 블록 (프레임) 인덱스이고 i는 채널 인덱스이다. 다른 표현에서, n은 원래의 시간-도메인 신호보다 더 낮은 샘플링 레이트(sampling rate)를 가진 시간 인덱스로서 간주될 수 있다. 이들 주파수 빈은 빈 중 하나 이상을 대역 인덱스 k = 0,..., K-1의 부대역으로 그룹화하는 부대역으로 그룹화될 수 있다. 각각의 부대역 k는 최저 빈 bk,low 및 최고 빈 bk,high를 갖고, 부대역은 bk,low부터 bk,high까지의 모든 빈을 포함한다. 부대역의 폭은 임의의 적합한 분포를 근사화할 수 있다. 예를 들어 등가 사각 대역폭(Equivalent Rectangular Bandwidth: ERB) 스케일 또는 바크(Bark) 스케일이다.
몇몇 실시예에서 분석 프로세서(105)는 공간적 분석기(203)를 포함한다. 공간적 분석기(203)는 시간-주파수 신호(202)를 수신하고 이 신호에 기반하여 방향 파라미터(108)를 추정하도록 구성될 수 있다. 방향 파라미터는 임의의 오디오 기반 '방향' 판정에 기반하여 판정될 수 있다.
예를 들어 몇몇 실시예에서 공간적 분석기(203)는 둘 이상의 신호 입력으로써 방향을 추정하도록 구성된다. 이는 '방향'을 추정하는 가장 단순한 구성을 나타내는데, 훨씬 더 많은 신호로써 더 복잡한 처리가 수행될 수 있다.
그러므로 공간적 분석기(203)는 오디오 신호의 프레임 내의 각각의 주파수 대역 및 시간적인 시간-주파수의 블록에 대해 적어도 하나의 방위각 및 고도를 제공하도록 구성될 수 있는데, 방위각
Figure pct00001
및 고도
Figure pct00002
로 표기된다. 방향 파라미터(108)는 또한 방향 인덱스 생성기(205)에 전해질 수 있다.
공간적 분석기(203)는 에너지 비율 파라미터(110)를 판정하도록 또한 구성될 수 있다. 에너지 비율은 방향으로부터 도달하는 것으로 간주되는 오디오 신호의 에너지일 수 있다. 직류 대 총 에너지 비율 r(k,n)은, 가령, 방향성 추정치의 안정성 측정(stability measure)을 사용하여, 또는 임의의 상관 측정(correlation measure), 또는 비율 파라미터를 획득하는 임의의 다른 적합한 방법을 사용하여, 추정될 수 있다. 에너지 비율은 에너지 비율 평균 생성기/양자화 해상도 결정기(211)로 전달질 수 있다.
따라서 요컨대 분석 프로세서는 시간 도메인 멀티-채널 또는 다른 포맷, 예컨대 마이크로폰 또는 앰비소닉 오디오 신호를 수신하도록 구성된다.
이에 이어서 분석 프로세서는 분석을 위한 적합한 시간-주파수 도메인 신호를 생성하기 위해 시간 도메인 대 주파수 도메인 변환(가령 STFT)을 적용하고 이후에 방향 및 에너지 비율 파라미터를 판정하기 위해 방향 분석을 적용할 수 있다.
이후에 분석 프로세서는 판정된 파라미터를 출력하도록 구성될 수 있다.
여기에서 방향 및 비율이 각각의 시간 인덱스 n에 대해 표현되나, 몇몇 실시예에서 파라미터는 몇 개의 시간 인덱스에 걸쳐 조합될 수 있다. 주파수 축에 대해서도 마찬가지인데, 표출된 바와 같이, 몇 개의 주파수 빈 b의 방향은 몇 개의 주파수 빈 b로 이루어진 대역 k 내의 하나의 방향 파라미터에 의해 표현될 수가 있다. 본 문서에서의 논의된 공간적 파라미터 전부에 대해서도 마찬가지이다.
도 2에 도시된 바와 같이, 메타데이터 인코더/양자화기(111)는 몇몇 실시예에 따라서 도시되어 있다.
전술한 바와 같이, 오디오 공간적 메타데이터는 각각의 부대역에 대한 방위, 고도 및 에너지 비율 데이터로 구성된다. MASA 포맷에서, 방향 데이터는 16비트로 표시되는데, 방위각이 대략 9비트로 표시되고 고도가 7비트로 표시된다. 에너지 비율은 8비트로 표시된다. 각 프레임에 N=5개의 부대역 및 M=4개의 시간 블록이 있으므로, 각 프레임에 대한 압축되지 않은 메타데이터를 저장하는 데 (16+8)xMxN 비트가 필요하다. 더 높은 주파수 해상도 버전에서는 20개 또는 24개의 주파수 부대역이 있을 수 있다. 다음 예에서 MASA 형식 비트 할당이 사용되지만, 다른 실시예는 다른 비트 할당, 또는 부대역 또는 시간 블록 선택으로 구현될 수도 있으며, 이들은 단지 대표적인 예일 뿐이다. 메타데이터 인코더/양자화기(111)는 에너지 비율 평균 생성기/양자화 해상도 결정기(211)를 포함할 수 있다.
에너지 비율 평균 생성기/양자화 해상도 결정기(211)는 에너지 비율을 수신하고, 이를 분석해서, 이로부터 비율의 적절한 인코딩을 생성한다. 예를 들어, 결정된 에너지 비율(예를 들어, 직접 에너지 비율 대 총 에너지 비율, 나아가, 확산 에너지 비율 대 총 에너지 비율, 및 나머지 에너지 비율 대 총 에너지 비율)을 수신하고 이를 인코딩/양자화한다. 이러한 인코딩된 포맷은 인코더(217)로 전달될 수 있다.
일부 실시예에서 에너지 비율 평균 생성기/양자화 해상도 결정기(211)는 결정된 비트 수를 사용해서 각각의 에너지 비율 값을 인코딩하도록 구성된다. 예를 들어 N=5개의 부대역이 존재하는 상기 경우, 각 에너지 비율 값을 인코딩하는 데 3비트가 사용된다. 따라서 에너지 비율 평균 생성기/양자화 해상도 결정기(211)는 각 부대역에 대해, 3비트를 사용하는 스칼라 비균일 양자화를 적용하도록 구성될 수 있다. 나아가, 에너지 비율 평균 생성기/양자화 해상도 결정기(211)는 모든 시간-주파수(TF) 블록에 대해 모든 에너지 비율 값의 전송/저장을 제어하는 대신, 인코더에 전달되어서 전송/저장될, 부대역당 하나의 가중 평균 값만 생성하도록 구성된다.
일부 실시예에서, 이 평균은, 각각의 TF 블록의 총 에너지 및 더 많은 에너지를 갖는 부대역에 기초하여 적용될 가중을 고려함으로써 계산된다.
나아가, 에너지 비율 평균 생성기/양자화 해상도 결정기(211)는, 프레임의 모든 시간-주파수의 블록에 대한 방향 파라미터의 양자화 해상도(즉, 고도 및 방위각 값에 대한 양자화 해상도)를 결정하도록 구성된다. 이 비트 할당은 예를 들어 bits_dir0[0:N-1][0:M-1]에 의해 정의될 수 있고, 방향 분석기/인덱스 생성기(215)로 전달될 수 있다.
도 3에 도시된 바와 같이, 에너지 비율 평균 생성기/양자화 분해능 결정기(211)의 동작이 요약될 수 있다. 제 1 단계는 도 3에 단계 301로 도시된 바와 같이, 비율 값을 수신하는 단계이다. 이후, 도 3의 단계 303에서 부대역 루프가 시작된다. 도 3의 단계 305에 도시된 바와 같이, 부대역 루프는, 결정된 비트 수(예를 들어, 3)를 사용해서, 시간 블록 내의 모든 값에 대한 에너지 비율 값의 가중 평균에 기초한 에너지 비율 값을 나타내는 제 1 동작을 포함한다(이 가중은 오디오 신호의 에너지 값에 의해 결정됨). 이후, 제 2 동작은, 도 3의 단계 307에 도시된 바와 같이, 에너지 비율의 값에 기초해서 현재 부대역의 모든 시간 블록에 대해 방위각 및 고도의 양자화 해상도를 결정하는 것이다. 이 루프는 도 3의 단계 309에서 종료된다.
이것은 또한 다음과 같이 의사 코드(pseudocode)로 표현낼 수 있다.
1. 각 부대역에 대해 i=1:N
a. 3비트를 사용해서 대응하는 에너지 비율 값을 인코딩한다.
b. 현재 부대역의 모든 시간 블록에 대한 방위각과 고도의 양자화 해상도를 설정한다. 양자화 해상도는 에너지 비율, bits_dir0[0:N-1][0:M-1]의 값에 의해 주어진 미리 정의된 수의 비트를 허용함으로써, 설정된다.
2. End for
메타데이터 인코더/양자화기(111)는 방향 분석기/인덱스 생성기(215)를 포함할 수 있다. 방향 분석기/인덱스 생성기(215)는 방향 파라미터((예컨대 방위각
Figure pct00003
및 고도
Figure pct00004
(108)) 및 양자화 비트 할당을 수신하고, 이로부터 양자화된 출력을 생성하도록 구성된다. 몇몇 실시예에서 양자화는 결정된 양자화 해상도로 정의된 룩업 테이블에 의해 정의되는, '표면' 구(sphere) 상의 링(ring) 내에 배열된 구 그리드(spherical grid)를 형성하는 구의 배열에 기초한다. 다시 말해 구 그리드는 더 작은 구로써 구를 커버하고 더 작은 구의 중심을 거의 등거리(equidistant) 방향의 그리드를 정의하는 포인트로서 간주한다는 아이디어를 사용한다. 따라서 임의의 적합한 인덱싱(indexing) 알고리즘에 따라 인덱싱될 수 있는 중심 포인트 둘레에, 더 작은 구가 원뿔(cone) 또는 입체각(solid angle)을 정의하고 있다. 본 명세서에서 구 양자화(spherical quantization)가 기술되나 선형 또는 비선형의 임의의 적합한 양자화가 사용될 수 있다.
예를 들어 일부 실시예에서, 방향 파라미터(방위각 및 고도)에 대한 비트는 테이블 bits_direction[]에 따라 할당되고; 에너지 비율이 인덱스 i를 갖는 경우에, 방향에 대한 비트 수는 bits_direction[i]이다.
Figure pct00005
상이한 비트 해상도의 방향 양자화기의 구조는 다음 변수로 주어진다.
Figure pct00006
Figure pct00007
'no_theta'는, 적도를 포함한, 방향의 구(sphere of directions)에 있어서의 '북반구'에서의 고도 값의 수에 대응한다. 'no_phi'는 각 양자화기의 각 고도에서 방위각 값의 수에 대응한다.
예를 들어 5비트의 경우, [0, 30, 60, 90]에 대응하는 4개의 고도 값 및 4-1=3개의 음수 고도 값 [-30, -60, -90]이 있다. 제 1 고도 값 0의 경우에는, 12개의 등거리 방위각 값이 있고, 고도 값 30 및 -30의 경우에는, 7개의 등거리 방위각 값이 있는 등이다.
4 비트에 대응하는 구조를 제외한 모든 양자화 구조는 고도 값의 수 'no_theta' 나누어진, 90도로 주어진 연속적인 고도 값들 사이의 차이를 갖는다. 이것은 예시적인 것으로, 다른 적절한 배포가 구현될 수도 있다. 예를 들어, 일부 실시예에서, 적도 아래에는 점이 없을 수 있는 4비트의 구형 그리드가 구현될 수도 있다. 유사하게 3 비트 분포가 구에 확산될 수도 있고 적도에만 국한될 수도 있다. 이러한 방식으로 인덱스는 방향 파라미터의 고정 속도 인코딩으로 간주될 수 있다.
방향 분석기/인덱스 생성기(215)는 방향 인덱스를 결정한 이후에, 방위각 및 고도 인덱스를 엔트로피 인코딩하도록 구성될 수 있다. 엔트로피 코딩은 한 번에 하나의 주파수 부대역에 대해 구현되고, 이 부대역에 대한 모든 시간 서브프레임을 인코딩한다. 이것은 예를 들어, 현재 부대역의 시간 서브프레임에 대응하는 4개의 값에 대해, 최상의 GR 순서가 결정된다는 것을 의미한다. 또한, 본 명세서에서 설명된 바와 같이, 하나의 부대역에 대한 값을 인코딩하는 방법이 여러가지 있을 때, 이하 설명되는 바와 같이 그 방법 중 하나가 선택된다. 일부 실시예에서 방위각 및 고도 인덱스의 엔트로피 인코딩은 골롬 라이스(Golomb Rice) 파라미터에 대해 2개의 가능한 값을 갖는 골롬 라이스 인코딩 방법을 사용해서 구현될 수 있다. 일부 실시예에서, 엔트로피 코딩은 또한 임의의 적절한 엔트로피 코딩 기술(예를 들어, Huffman, 산술 코딩 등)을 사용해서 구현될 수도 있다.
방향 분석기/인덱스 생성기(215)는 고정 레이트 및 엔트로피 인코딩된 방향 인덱스(이 예에서 고도 및 방위각 인덱스)를 갖고, 부대역 각각에 대해서, 엔트로피 코딩(EC) 방식에 의해 사용되는 비트 수를 고정 레이트 인코딩 방식과 비교해서, 부대역 각각에 대해서 더 적은 수의 비트를 사용하는 인코딩 방식을 선택한다. 따라서 bits_EC는, 고정 레이트 인코딩이 사용되는지 또는 가변 레이트 인코딩이 사용되는지 여부에 관계없이 각 부대역에서 사용되는 비트의 합이다. 고정 레이트 인코딩이 사용되는 부대역의 경우, 각 방향에 대해 사용되는 비트 수는 bits_dirO[i][j]로 지정되고, 여기서 'i'는 부대역의 인덱스이고 "j"는 시간 서브프레임의 인덱스이다.
엔트로피 인코딩 이후 각각의 부대역에 대한 비트는
Figure pct00008
이후, 시간 블록 또는 프레임을 인코딩하는 데 사용되는 비트 수를 사용 가능한 비트 수와 비교한다. 예를 들어, 일부 실시예에서 시간 블록 또는 프레임(bits_EC)을 인코딩하는 데 사용되는 비트 수와 이용 가능한 비트 사이의 차이인 델타 값이 계산될 수 있다.
일부 실시예에서, 방향 분석기/인덱스 생성기(215)는 차이 값(델타)이 음수인지 여부를 결정하도록 구성된다. 즉, 인코딩된 방향 인덱스(고정 레이트 및 엔트로피 인코딩된 부대역 모두 사용)에 대한 비트 수가 사용 가능한 비트 수보다 많은지 여부이다.
사용되는 비트의 수가 이용 가능한 비트보다 많지 않은 경우(즉 델타가 양수이거나 음수가 아닌 경우), 인코더(217)는 (bits_EC) 인코딩된 방향 인덱스를 사용해서, 어느 서브프레임이 엔트로피 인코딩되고 어느 것이 고정 레이트 인코딩되는지 시그널링하도록 구성된다. 예를 들어, 일부 실시예에서, 인코더는 EC+고정 레이트(EC+Fixed rate) 방법이 사용된다는 것을 나타내도록 1비트를 시그널링하도록 구성되고, 이후에 부대역이 고정 레이트인지 혹은 엔트로피 인코딩되는지 여부를 나타내기 위해 부대역당 1비트가 사용된다. 이후, 인코딩된 부대역이 그룹화된다. 예를 들어, 엔트로피 인코딩된 부대역이 그룹화되고, 고정 레이트 인코딩된 부대역이 이어진다.
이것은 예를 들어 도 4a에 도시되어 있으며, 여기서 단계 309 이후의 초기 동작은, bits_dir0[0:N-1][0:M-1]에 의해 설정된 양자화 해상도에 기초해서 방향 인덱스(방위각 및 고도)를 결정하는 동작으로, 환언하면, 도 4a의 단계 400에 도시된 바와 같이, 고정 레이트 인코딩을 수행한다.
인덱스를 생성하고 다음 동작은, 도 4a의 단계 401에 도시된 바와 같이, 방향 인덱스를 엔트로피 인코딩하는 것이다.
모든 부대역에 대해서 엔트로피 인코딩되고 고정 레이트 인코딩된 형식을 생성한 이후에, 도 4a의 단계 403에 도시된 바와 같이, 각각의 부대역에 대해서 어느 것이 더 적은 수의 비트를 사용하는지에 대한 옵션이 선택되며, 시간 블록 또는 프레임에 대해서 사용되는 비트가 결정된다(bit_EC와 같은).
이후, 도 4a의 단계 405에 도시된 바와 같이, 사용되는 비트와 사용 가능한 비트 사이의 차이가 결정된다(델타=bits_EC-bits_available).
다음 동작은 도 4a의 단계 407에 도시된 바와 같이, 인코딩된 방향 인덱스에 대한 비트 수가 사용 가능한 비트보다 많은지(즉, 델타가 음수인지) 여부를 결정하는 동작일 수 있다.
결정한 결과, 인코딩된 방향 인덱스의 비트 수가 사용 가능한 비트보다 많지 않다면(즉, 델타 값이 음수가 아니거나 양수임)인 경우, 도 4a의 단계 408에 도시된 바와 같이, 인코딩된 방향 인덱스가 사용되며 더 나아가 이 선택이 시그널링된다(즉, 어느 서브프레임이 엔트로피 인코딩되고 어느 것이 고정 레이트 인코딩되는지 시그널링하도록 생성된 표시자). 몇몇 실시예에서, EC 선택 방식이 사용된다는 것을 시그널링하는데 1 비트를 사용하고, 어느 것이 고정 레이트 인코딩되는지 또는 어느 것이 엔트로피 인코딩되는지를 나타내는데 부대역당 1비트를 사용하며, 이후에 모든 엔트로피 인코딩된 부대역이 먼저 비트스트림에 패킹되고 나서 고정 레이트 인코딩된 부대역이 패킹되는 방식으로 인코딩된 메타데이터를 그룹화한다.
인코딩된 방향 인덱스의 비트 수가 사용 가능한 비트보다 많은(즉 델타가 음수임) 일부 실시예에서, 방향 분석기/인덱스 생성기(215)는 인코딩된 방향 인덱스에 사용되는 비트 수가 양자화 해상도 감소 임계값만큼 사용가능한 비트보다 많은지 여부를 결정하도록 구성된다. 일부 실시예에서 양자화 해상도 감소 임계값은, 고정 레이트 인코딩된 부대역의 수, 양자화 품질이 크게 저하되기 이전의 각각의 시간-주파수 타일(혹은 시간-주파수의 블록)으로부터 감산될 수 있는 비트의 수 및 블록 내의 서브 프레임의 수에 기초해서 계산될 수 있다. 예를 들어, 일부 실시예에서, 사용될 수 있는 최소 비트 수는 3이다(임의의 다른 적절한 수의 최소 비트가 사용될 수도 있다). 이것은 델타>=FRB*BM*M으로 표현될 수 있는데, 여기서 FRB=서브프레임의 고정 레이트 부대역(Fixed Rate Sub-band)의 수이고, BM=각 TF 타일로부터 감산될 수 있는 비트의 최대 수이며, M=시간 블록 또는 시간 서브-프레임이다.
결정한 결과, 차이가 양자화 해상도 감소 임계값보다 작은 경우, 방향 분석기/인덱스 생성기(215)는 양자화 해상도를 수정함으로써 고정 레이트 인코딩에 사용되는 비트 수를 재계산하도록 구성된다. 일부 실시예에서, 양자화 해상도는 고정 레이트 인코딩된 부대역의 각각의 TF 타일에 대해 최대 BM 비트 감소까지(즉, 사용될 비트의 최소 수에 도달할 때까지) 그리고 그 프레임에 대한 비트 수가 사용 가능한 비트 수로 감소될 때까지, 감소된다. 일부 실시예에서, 이 감소는 한 번에 TF당 1비트로 수행되고, TF의 양자화 해상도가 균일하게 영향을 받게 한다. 또한 일부 실시예에서 이 감소는 낮은 부대역으로부터 높은 부대역으로 적용된다. 이 감소는, 양자화 분해능 감소의 끝에, 시간 블록에 대해 사용된 비트의 수가 bits_EC가 아니라 bits_EC1이 되게 하는 것이다. 환언하면, 감소는 'bits_EC1'이 'bits_available'에 대응하게 하는 것이다.
고정 레이트 서브프레임에 대한 양자화 해상도를 적용한 이후에, 인코더(217)는 (bits_EC1) 인코딩된 방향 인덱스를 사용해서, 어느 서브프레임이 엔트로피 인코딩되고 어느 서브프레임이 고정 레이트 인코딩되는지를 시그널링하도록 구성된다. 예를 들어, 일부 실시예에서, 인코더는 EC+고정 레이트 방식이 사용된다는 것을 나타내기 위해 1비트를 시그널링하도록 구성되고, 또한 부대역이 고정 레이트 인코딩되는지 또는 엔트로피 인코딩되는지 여부를 나타내기 위해 부대역당 1비트가 사용된다. 이후 인코딩된 부대역들이 그룹화된다. 예를 들어, 엔트로피 인코딩된 부대역이 그룹화되고, 고정 레이트 인코딩된 부대역이 후속한다.
결정 결과, 차이가 양자화 해상도 감소 임계값 이상인 경우, 방향 분석기/인덱스 생성기(215)는 양자화에 대한 비트 수 bits_dir1[0:N-1][0:M-1]의 할당을 감소시켜서, 할당된 비트의 합이 에너지 비율을 인코딩한 이후 남은 사용 가능한 비트 수와 같게 하도록 구성된다.
또한, 방향 분석기/인덱스 생성기(215)는 에너지 비율을 인코딩한 이후 감소된 수의 사용 가능한 비트를 사용해서 부대역 인코딩을 시작하도록 구성될 수 있다. 이것은, 고정 레이트와 가변(엔트로피 인코딩) 형식이 모두 다시 인코딩된다는 점에서, 위의 양자화 해상도 감소와는 상이하다.
감소된 레이트 인코딩된 방향 인덱스 및 고정 레이트 인코딩된 부대역의 시그널링된 사용은, 이후에 인코더(217)에서 인코딩될 수 있다. 환언하면, 부대역이 엔트로피 방식을 사용해서 인코딩되었는지 또는 고정 레이트 방식을 사용하여 인코딩되었는지 여부를 시그널링하는데 하나의 비트가 사용될 수 있고, 인코딩된 부대역에 대한 비트가 송신된다.
이것은, 예를 들어 도 4b에서 단계 407 이후에, 도 4b의 단계 409에 도시된 바와 같이, 차이가 양자화 해상도 감소 임계값만큼 이용 가능한 비트보다 많은지를 결정하는 동작이 있다.
차이가 양자화 해상도 감소 임계값보다 작은 경우, 이 방법은 도 4b의 단계 410에 도시된 바와 같이 고정 레이트 인코딩된 부대역에 대한 양자화 해상도를 수정하는 방식으로 고정 레이트 부대역를 인코딩하기 위한 비트의 수를 재계산하도록 구성된다(즉, 엔트로피 인코딩된 부대역은 변경하지 않음).
고정 레이트 부대역을 인코딩하기 위한 비트 수를 재계산하고 나서, 도 4b의 단계 412에 도시된 바와 같이, 인코딩된 방향 인덱스가 어디에 사용되는지를(수정된 양자화 해상도 고정 레이트 서브-프레임을 사용해서) 그리고 또한 선택된 신호를 나타내는 비트가 출력된다(환언하면, 어떤 서브프레임이 엔트로피 인코딩되고 어떤 서브프레임이 고정 레이트 인코딩되는지를 시그널링하도록 생성된 식별자). 일부 실시예에서 1비트를 사용하여 EC 선택 방식이 사용된다는 것을 시그널링하고, 부대역당 1비트를 사용해서 어느 것이 고정 인코딩되고 어느 것이 엔트로피 인코딩되는지를 나타내고, 이후 모든 엔트로피 인코딩된 부대역이 먼저 비트스트림에 패킹되게 하고 이어서 수정된 해상도 고정 레이트 인코딩된 부대역이 나중에 패킹되게 하는 방식으로 인코딩된 메타데이터를 그룹화한다.
일부 실시예에서, 각 부대역에 대한 루프를 시작하여 끝에서 두번째 부대역 N-1까지 행함으로써 감소된 비트레이트 인코딩이 구현될 수 있다. 이 루프 내에서, 현재 부대역에 대해 허용된 비트 수 bits_allowed=sum(bits_dir1[i][0:M-1])가 결정된다. 이후, 방향 분석기/인덱스 생성기(215)는 현재 부대역에 대해 허용된 비트 수를 결정하고 나서, 감소된 할당된 비트의 수 bits_fixed=bits_allowed로 고정 레이트 인코딩을 사용해서 인덱스를 인코딩하도록 구성될 수 있다.
방향 분석기/인덱스 생성기(215)는 이후에 고정 레이트 인코딩을 선택하거나, 혹은 더 적은 비트를 사용하는 방식으로, 즉 bits_fixed과 bits_ec 중 가장 낮은 것을 선택하는 방식에 기초해서, 엔트로피 코딩을 사용하도록 구성될 수 있다. 또한, 방향 분석기/인덱스 생성기(215)는 1비트를 사용해서 2개의 인코딩 방식 중 어느 것이 선택되었는지를 나타내도록 구성될 수 있다. 따라서 부대역을 인코딩하는데 사용되는 비트 수는 nb=min(bits_fixed, bits_ec)+1이다.
이후, 방향 분석기/인덱스 생성기(215)는 허용된 비트에 대해서 이용 가능한 비트가 있는지 여부를, 즉, diff=allowed_bits-nb>0인지를 결정하도록 구성될 수 있다. 사용 가능한 비트의 수와 부대역에서 사용되는 비트의 수 사이에 차이가 있는 경우, 이 차이 diff는 예를 들어 bits_dir1[i+1:N-1][0_M-1]을 업데이트함으로써 이후 부대역에 배포될 수 있고, 그렇지 않으면, 방향 분석기/인덱스 생성기(215)는 다음 부대역 할당 bits_dir1[i+1][0]에서 한 비트를 감산하도록 구성될 수 있다.
최종 부대역 N에 대해서는, 방향 분석기/인덱스 생성기(215)는 고정 레이트 인코딩 방식 및 bits_dir1[N-1][0:M-1] 비트를 사용해서 방향 인덱스를 인코딩하도록 구성될 수 있다.
도 4c에서, 이러한 감소된 비트 레이트 동작(즉, 도 4b의 단계 413)이 예시적인 흐름도로서 도시될 수 있다. 제 1 단계는, 도 4c의 단계 421에 도시된 바와 같이 1부터 끝에서 두번째 (N-1) 부대역까지 부대역에 대한 루프를 시작하는 것이다.
루프 내에서, 도 4c의 단계 423에 도시된 바와 같이 현재 부대역에 대해 인코딩에 허용된의 비트 수가 결정된다.
이후 도 4c의 단계 425에 도시된 바와 같이 감소된 비트 수를 사용해서 인덱스를 인코딩하기 위해 고정 레이트 인코딩 방법이 사용된다.
도 4c의 단계 427에 도시된 바와 같이, 고정 레이트 인코딩 또는 엔트로피 인코딩 중에서, 어느 방식이 더 적은 비트를 사용하는지에 따라서 선택되고, 이 선택은 또한 단일 비트로 표시될 수 있다.
허용된 비트 수와 선택된 인코딩에 의해 사용되는 비트 수 사이의 차이에 기초해서 사용 가능한 나머지 비트가 있는지 여부를 결정하는 것과, 이 나머지 비트를 이후의 부대역 할당으로 재분배하는 것이 도 4c의 단계 429에 도시되어 있다.
도 4c의 단계 431에 도시된 바와 같이, 이후 이 루프는 완료되고 다음 부대역에 대해 반복될 수 있다.
마지막으로, 도 4c의 단계 433에 도시된 바와 같이, 나머지 비트의 할당을 사용해서 고정 레이트 방식을 통해 마지막 부대역이 인코딩된다.
이 방식은 다음과 같이 요약될 수 있다.
1 . 각각의 부대역에 대해서 i=1:N
a. 에너지 비율 값을 인코딩
b. 인코딩된 에너지 비율 값에 기초해서 양자화 해상되에 기초한 방향 인덱스를 결정(현재 부대역의 시간 블록 모두에 대해서)
3. End for
4. 방향 인덱스를 엔트로피 인코딩
5. 각 부대역에 대해서, 고정 속도(인덱스)와 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부를 선택하고, 사용되는 블록 비트를 결정
6. 사용되는 블록 비트가 사용 가능한 비트보다 많다면,
a. 사용되는 블록 비트와 사용 가능한 비트 사이의 차이가 양자화 해상도 수정 임계값보다 작은 경우
i. 고정 레이트 인코딩된 부대역의 양자화 해상도를 수정함으로써 사용되는 비트를 재계산
ⅱ. 시그널링된 방식, 시그널링된 선택에 기초해서 출력을 생성하고, 고정 레이트(수정된 양자화 해상도)를 사용해서 인코딩되었는지 또는 엔트로비 방식을 사용해서 인코딩되었는지에 기초해서 부대역을 그룹화
b. Else
i. 에너지 비율을 인코딩한 이후에 허용된 비트의 수 bits_dir1[0:N-1][0:M-1]를 감소시켜서, 허용된 비트의 수를 사용 가능한 비트의 수와 같게 함
ⅱ. 각각의 부대역에 대해서 i=1:N-1를 인코딩
1. 현재 부대역에 대해서 허용된 비트를 계산 : bits_allowed= sum(bits_dir1 [i][0:M-1])
2. 감소된 허용된 수의 비트를 이용한 고정 레이트 인코딩 bits_fixed=bits_allowed을 사용해서 혹은 엔트로피 코딩 bits_ec을 사용해서 방향 파라미터 인덱스를 인코딩하고; 적은 비트를 사용하는 것을 선택하고, 하나의 비트를 사용해서 그 방식을 표현 : nb=min(bits_fixed, bits_ec)+1;
3. 허용된 비트에 관한 이용 가능한 비트가 있는 경우; (if diff=allowed_bits-nb>0)
a. bits_dir1[i+1:N-1][0_M-1]를 업데이트함으로써 차이 diff를 이어지는 부대역에 재분배
4. Else
a. bits_dir1[i+1][0]로부터 하나의 비트를 감산
5. End if
ⅲ. End for
iv. bits_dir1[N-1][0:M-1] 비트를 사용해서 고정 레이트 방식으로 마지막 부대역의 방향 파라미터 인덱스를 인코딩
c. End if
7. Else
8. 시그널링된 방식, 시그널링된 선택에 기초해서 출력을 생성하고, 고정 레이트를 사용해서 인코딩되었는지 또는 엔트로비 방식을 사용해서 인코딩되었는지에 기초해서 부대역을 그룹화
9. End
일부 구현예에서, 고도 및 방위각 값의 엔트로피 인코딩의 최적화는 별도로 수행될 수 있고, 도 5 및 6과 관련하여 이하에서 더 상세히 설명된다.
예를 들어, 도 5와 관련해서, 일부 실시예에서 방향 인덱스를 엔트로피 인코딩하는 데 필요한 비트 수를 감소시키기 위해서, 일련의 인덱스 체크 및 최적화가 적용되는 예가 도시되어 있다.
일부 실시예에서, 방향 인덱스 결정은 도 5의 단계 501에 도시된 바와 같이 시작된다. 이 예에서 도시된 인덱스 결정을 엔트로피 인코딩하는 데 필요한 비트는 고도 인덱스 결정이다. 그러나, 후술하는 바와 같이, 이 방식은 방위각 인덱스 결정에도 적용될 수 있다.
일부 실시예에서, 도 5의 단계 503에 도시된 바와 같이, 0의 고도(또는 방위각) 값이 0의 인덱스를 갖고 증가하는 인덱스 값이 증가하는 양수 및 음수 고도(방위각) 값에 할당되는 방식으로, 매핑이 생성된다.
도 5의 단계 505에 도시된 바와 같이, 매핑을 생성한 다음, 매핑은 오디오 소스에 적용된다(예를 들어, 룩업 테이블에 기초해서 코드워드 출력을 생성하는 형태로).
도 5의 단계 507에 도시된 바와 같이, 일부 실시예에서, 인덱스가 생성된 이후에, 모든 인덱스가 동일한 반구 내에 위치되는지 여부를 결정하는 체크가 수행된다.
모든 인덱스가 동일한 반구 내에 위치하는 경우, 도 5의 단계 509에 도시된 바와 같이, 인덱스 값은 2로 나눌 수 있고(반올림 포함), 인덱스가 모두 어느 반구에 위치했는지를 나타내는 식별자가 생성되고, 이후에 이 값을 엔트로피 인코딩한다.
모든 인덱스가 동일한 반구 내에 있지 않은 경우, 도 5의 단계 510에 도시된 바와 같이, 평균 제거된(mean removed) 엔트로피 인코딩이 인덱스에 적용될 수 있다. 평균 제거된 엔트로피 인코딩은, 인코딩될 서브프레임에 대한 평균 인덱스 값을 먼저 제거한 다음, 인덱스를 양수로 다시 매핑하고 나서, 골롬 라이스 인코딩과 같은 적절한 엔트로피 인코딩으로 인코딩하도록 구성될 수 있다.
엔트로피 인코딩을 적용한 이후에, 일부 실시예에서, 도 5의 단계 511에 도시된 바와 같이, 모든 시간 서브프레임이 동일한 고도(방위각) 값 또는 인덱스를 갖는지를 결정하는 체크가 행해질 수 있다.
모든 시간 서브프레임이 동일한 고도(방위각) 값 또는 인덱스를 갖는 경우 도 5의 단계 513에 도시된 바와 같이, 고도(방위각) 값 또는 인덱스의 배수를 나타내는 표시자가 생성되고 그렇지 않으면 방법은 단계 517로 직접 넘어간다.
다음 동작은, 도 5의 단계 517에 도시된 바와 같이, 엔트로피 인코딩된 인덱스 및 임의의 식별자 비트에 필요한 비트의 수를 제공하는 것이다.
예를 들어, 고도 값과 관련해서, 도메인 [-90; 90]의 코드북으로부터 고도의 인덱스가 결정될 수 있으며, 이는 값이 0인 고도가 인덱스 0을 갖는 코드워드를 리턴하고, 대안적으로 증가하는 인덱스를 0 고도 값으로부터 이격된 양수 및 음수 코드워드에 할당하도록 형성된다.
따라서, 일부 실시예의 예로서, 인덱스 {6, 4, 2, 0, 1, 3, 5}를 생성하는 코드워드 {-90, -60, -30, 0, 30, 60, 90}를 가진 코드북이 구현된다. 이러한 인덱싱을 통해서, 일반적인 의미에서 더 가능성이 높은 방향에 대해 더 낮은 값의 인덱스를 생성한다(실제 예에서는 방향이 적도 근처에 있는 경우). 또 다른 관찰은, 오디오 소스가 적도로부터 더 멀리 떨어져 있는 경우(더 높은 값 인덱스에 대응), 이들은 모두 적도 위에 있거나 모두 적도 아래에 있는 경향이 있다는 것이다.
일부 실시예에서, 인코더는 모든 오디오 소스가 적도 위에 있는지(또는 모든 오디오 소스가 적도 아래에 있는지) 체크하도록 구성될 수 있으며, 이것이 부대역에 대한 모든 시간 서브프레임에 대한 경우인 경우, 더 효율적으로 인코딩될 수 있는 더 작은 값의 인덱스를 생성하기 위해 인덱스를 2로 나누는 경우이다.
일부 실시예에서, 고도 인덱스에 대한 비트 수의 추정은 C에서 다음과 같이 구현될 수 있다.
Figure pct00009
Figure pct00010
Figure pct00011
모든 시간 서브프레임에 대해 고도 값이 동일한 특별한 경우도 체크되어서 시그널링된다.
위의 예에서 mean_removed_GR() 함수는 인코딩될 서브프레임에 대한 평균 인덱스 값을 먼저 제거한 다음, 인덱스를 양수로 다시 매핑하고 나서 골롬 라이스 인코딩으로 인코딩하도록 구성될 수 있다. 이것은 예를 들어 C 언어에서 다음과 같이 구현될 수 있다.
Figure pct00012
Figure pct00013
함수 odd_even_mean_removed_GR()는 모든 인덱스가 홀수인지 또는 모두 짝수인지 먼저 체크하고, 그 존재를 시그널링하도록 구성되며, 반으로 나눈 인덱스를 인코딩한 이후의 타입(홀수 또는 짝수)을 나타낸다.
Figure pct00014
Figure pct00015
일부 실시예에서 일련의 엔트로피 인코딩 최적화 동작이 수행되고, 이후 가장 낮은 값이 선택된다. 이것은 예를 들어 방위각 값의 인코딩과 관련하여 도 6에 도시된 바와 같을 수 있다. 일부 실시예에서, 방향 인덱스 결정은 도 6의 단계 601에 도시된 바와 같이 시작된다.
일부 실시예에서, 도 6의 단계 603에 도시된 바와 같이, 0의 방위각 값이 0의 인덱스를 갖고, 증가하는 인덱스 값이 증가하는 양의 방위각 값 및 음의 방위각 값에 할당되는 방식으로, 맵핑이 생성된다.
맵핑을 생성한 이후에, 이 맵핑은 도 6의 단계 605에 도시된 바와 같이, 오디오 소스에 적용된다(예를 들어, 룩업 테이블에 기초해서 코드워드 출력을 생성하는 형태로).
이 예에서, 방위각의 인덱스는 추가 코드북으로부터 결정될 수 있다. 이 예에서, 방위각에 대한 0 값은 전면 방향일 수 있는 기준 방향에 대응하고, 양수 값은 왼쪽이고 음수 값은 오른쪽이다. 이 예에서, 방위각 값의 인덱스는, 값 (-150, -120, -90, -60, -30, 0, 30, 60, 90, 120, 150, 180)에 다음 인덱스 (10, 8, 6, 4, 2, 0, 1, 3, 5, 7, 9, 11)가 할당되는 방식으로, 할당된다. 일부 실시예에서, 방위각(좌측/우측 포지셔닝에 대응)에 대해 홀수/짝수 방식이 체크될 수 있다.
이 예에서 더 높은 인덱스 값은 '캡처 환경'의 후방 또는 뒤로부터의 값에 할당된다.
일부 실시예에서 서브프레임의 방위각 인덱스의 인코딩은 다음에 기초하여 수행될 수 있다:
1. 현재 부대역에 대해 인코딩될 방위각 인덱스의 수를 결정(도 6의 단계 607에 바와 같이)
2. 현재 부대역의 타일에 대한 최대 심볼의 수를 구함(도 6의 단계 609에 바와 같이)
3. 임계값보다 더 많은 심볼이 있는 경우(도 6의 단계 611에 도시된 바와 같이)
a. 상보 값 no_symb-index_azimuth에 의해 제공된 값의 인코딩을 체크함으로써 방위각 값을 인코딩한다(도 6의 단계 613에 도시된 바와 같이)
i. 이전에 했던 바와 같이 인덱스를 인코딩하는 경우의 비트 수를 추정한다. 평균 제거된 차수 선택적(mean removed order selective) 골롬 라이스 코딩을 사용한다. GR 차수는 2 또는 3일 수 있다. GR 차수는 심볼 수의 디폴트 범위에 따라서 다른 값으로 설정될 수 있다.
ⅱ. 평균 제거된 차수 선택적 GR 코딩을 사용해서 상보 인덱스를 인코딩하는 경우의 비트의 수를 추정한다.
ⅲ. 더 적은 수의 비트를 사용하는 인코딩 방식을 사용하고, 한 비트를 사용해서 어떤 방식이 사용되는지 시그널링한다.
4. Else
a. 차수 1 또는 2를 가진 평균 제거된 GR 코딩을 사용해서 방위각 인덱스를 인코딩(도 6의 단계 615에 도시된 바와 같이)
5. End
6. 최소 제거된 GR 코딩이 더 양호한 출력을 생성하는지 및 더 양호한 출력이 이를 사용하는지 체크(도 6의 단계 607에 도시된 바와 같이)
C 언어에서 인코딩은 다음과 같다.
Figure pct00016
Figure pct00017
Figure pct00018
Figure pct00019
}
도 7에는, 도 2에 도시된 바와 같이 인코더에 의해 인코딩된 메타데이터를 디코딩하기에 적합한 예시적인 메타데이터 추출기(137)가 도시되어 있다.
일부 실시예에서, 메타데이터 추출기(137)는, 인코딩된 신호를 수신하고 인코딩된 에너지 비율 값을 에너지 비율 디코더(703)로 출력하며, 시그널링 비트를 엔트로피 코딩 모드 검출기(705) 및 부대역 검출기(707)로 출력해서, 인코딩된 인덱스를 인덱스 디코더(709)로 출력하게 하도록 구성된 디멀티플렉서(701)를 포함한다.
메타데이터 추출기(137)는, 인코딩된 에너지 비율을 수신하고, 인코딩된 에너지 비율을 디코딩해서 디코딩된 에너지 비율을 생성하도록 구성된 에너지 비율 디코더(703)를 더 포함할 수 있다. 디코딩된 에너지 비율(704)이 출력될 수 있다. 에너지 비율 디코더(703)는 또한 인코딩된 에너지 비율 값에 기초하여 에너지 비율 기반 양자화 해상도 값(708)을 생성하고, 이것을 인덱스 디코더 및 방향 인덱스-방향 값(AZ/EL) 변환기(711)에 전달할 수 있다.
메타데이터 추출기(137)는 또한 엔트로피 코딩(EC) 모드 검출기(705)를 포함할 수 있다. EC 모드 검출기는, 블록이 모두 고정 레이트 모드로 인코딩되었는지 여부(블록이 인코딩된 인덱스 값을 포함해서 및 따라서 엔트로피 디코딩이 필요하지 않은지 여부) 또는 이 블록에 대해 엔트로피 고정 속도 하이브리드 인코딩이 구현되었는지 여부를 나타내는, 블록의 제 1 비트를 판독할 수 있다.
따라서, 엔트로피 코딩 모드 검출기(705)는 제 1 비트(모드 식별자)에 기초해서 인덱스 디코더(709)를 제어하도록 구성될 수 있다.
메타데이터 추출기(137)는 또한 부대역 검출기(707)를 포함할 수 있다. 부대역 검출기(707)는, 블록에서 블록에 대해서, 어떤 부대역이 고정 레이트 방식에 따라 인코딩되었고 어떤 부대역이 엔트로피 방식에 따라 인코딩되었는지를 나타내는 다음 비트(예를 들어, 5개의 부대역이 있는 경우, 5개의 비트가 있음)를 판독할 수 있다.
따라서, 부대역 검출기(707)는 판독 비트(부대역 식별자)에 기초해서 인덱스 디코더(709)를 제어하도록 구성될 수 있다.
메타데이터 추출기(137)는 인덱스 디코더(709)를 더 포함할 수 있다. 부대역에 대한 메타데이터 인코딩된 값을 수신한 인덱스 디코더(709)는, 부대역 검출기(707) 및 엔트로피 모드 검출기(705)에 의해 제어될 수 있다.
따라서 예를 들어 인덱스 디코더(709)는, 모드 식별자가 하이브리드 모드가 디스에이블된다는 것을 나타내는 경우, 메타데이터 인코딩된 값을 고정 레이트 디코딩하도록 구성될 수 있다.
나아가, 인덱스 디코더(709)는 부대역 식별자에 기초해서 엔트로피 인코딩된 부대역을 디코딩하도록 구성될 수 있다. 엔트로피 값을 판독하고 디코딩하면, 사용 가능한 비트와 판독 비트(식별자 비트 및 엔트로피 인코딩된 방향 인덱스 비트) 사이의 차이가 결정된다. 인덱스 디코더(709)는, 이 차이가 에너지 비율 기반 양자화 해상도 값(708)에 기초해서 나머지 인코딩된 부대역을 고정 레이트 인코딩하는 데 필요한 비트 수보다 작은지 여부를 결정하도록 더 구성된다. 환언하면, 차이 (bits_available-bits_read)<sum(bits_dir0[i][j]) 여부가 결정되고, 여기서 i=고정 레이트 인코딩된 부대역의 인텍스이고, j=0:M-1이다.
차이가 에너지 비율 기반 양자화 해상도 값(708)에 기초해서 할당된 비트 수보다 작은 경우, 인덱스 디코더는 고정 레이트 부대역에 대한 양자화 해상도 수정을 사용해서 인코딩이 구현되었는지 여부를 결정하도록 구성되고, 디코딩은 인코더에서 구현된 것과 동일한 방식으로 결정된 감소된 양자화 해상도에 기초해서 고정 레이트 부대역에 대해 수행된다. 차이가 정확하다면, 원래 해상도는 고정 속도 부대역를 디코딩하는 데 사용된다.
이후 디코딩된 방향 파라미터(712)가 출력될 수 있다.
따라서, 일부 실시예에서 두 가지 감소 레벨이 있을 수 있다.
더 미세한 감소 레벨(차이가 충분히 작은 경우)은 다음과 같이 시그널링된다:
각 시간-주파수의 블록에 대한 원래 비트 수는 에너지 양자화 비율에 의해 결정된다. 먼저 부대역이 EC 또는 고정 속도 인코딩을 사용하고 있다는 것이 시그널링된다. EC 인코딩된 부대역이 먼저 기입되었다면, 이를 판독해서 그것이 얼마나 많은 비트를 사용했는지 알 수 있다. 또한 고정 레이트 인코딩된 부대역에 대해 이용 가능한 비트 수 및 미리 결정된 비트 수가 알려져 있다. 사전 결정된 비트 수 + EC 인코딩된 부대역의 비트가 사용 가능한 비트에 적합한 경우, 모두 양호하므로, 감소가 없고, 적합하지지 않으면 약간의 감소가 있다.
더 개략적인(coarser) 혹은 더 "엄격한(harsher)" 감소의 경우, 비트 할당이 사용 가능한 비트 제한 수로 감소되었는지 여부를, 시작 부분에 1비트가 전송되어서 디코더에나타낸다(단계 411에 해당).
예를 들어 도 8은 도 7에 도시된 메타데이터 추출기의 동작을 흐름도로 보여준다.
따라서, 방법은 도 8의 단계 801에 도시된 바와 같이 인코딩된 데이터를 수신하는 단계를 포함한다.
인코딩된 데이터는 도 8의 단계 803에 도시된 바와 같이 역다중화된다.
이후, EC 모드 시그널링 비트가 판독되어서, 하이브리드 엔트로피 코딩 방식이 사용되었는지 여부를 결정하고, 도 8의 단계 805에 도시된 바와 같이, 미세-EC 모드(또는 개략적-EC 모드) 인코딩이 사용되었는지 여부를 결정한다.
EC 모드 시그널링 비트가 개략적 레이트 감소가 적용되었다는 것을 나타내는 경우, 디코딩은 도 8의 단계 806에 도시된 바와 같이, 레이트 감소 기반 디코딩(일부 실시예에서는 개략적 레이트 감소 에너지 비율 양자화 해상도를 구현함)에만 기초해서 수행된다.
EC 모드 시그널링 비트가 하이브리드 엔트로피 고정 속도 인코딩이 사용되었다는 것과, 미세 레이트 감소(양자화 해상도만 수정)가 필요한지 또는 속도 감소가 필요하지 않은지를 나타내는 경우, 도 8의 단계 807에 도시된 바와 같이, 다음 동작은 부대역 시그널링 비트를 판독해서 어느 부대역이 엔트로피 인코딩되었고 어느 부대역이 고정 레이트 인코딩되었는지를 결정하는 것이다.
도 8의 단계 809에 도시된 바와 같이, 그룹화된 엔트로피 인코딩된 부대역 비트가 판독되고 디코딩되어서, 원래 에너지 비율 양자화 해상도에 기초한 방향으로 변환될 수 있는 방향 인덱스를 생성한다.
다음 동작은, 도 8의 단계 811에 도시된 바와 같이, 블록에 사용 가능한 비트와 판독된 비트(시그널링 및 EC 인코딩된 비트) 사이의 차이가, 원래 에너지 비율 양자화 해상도에 따라 나머지 고정 레이트 비트를 인코딩하는 데 필요한 비트 수보다 작은지 여부를 결정하는 것이다.
이 차이가 필요한 비트 수보다 작은 경우, 도 8의 단계 813에 도시된 바와 같이, 수정된 양자화 해상도 방법에 기초해서 '미세(fine)' 레이트 감소 인코딩에 대한 디코딩이 수행될 수 있다.
이 차이가 필요한 비트 수 이상(또는 동일)인 경우, 도 8의 단계 812에 도시된 바와 같이, 원래의 양자화 해상도 방법에 기초해서 인코딩에 대한 디코딩이 수행될 수 있다.
도 9에 관해서, 분석 또는 합성 디바이스로서 사용될 수 있는 예시적인 전자 디바이스가 도시된다. 디바이스는 임의의 적합한 전자 디바이스 또는 장치일 수 있다. 예를 들어 몇몇 실시예에서 디바이스(1400)는 모바일 디바이스, 사용자 장비, 태블릿 컴퓨터, 컴퓨터, 오디오 재생 장치 등이다.
몇몇 실시예에서 디바이스(1400)는 적어도 하나의 프로세서 또는 중앙 처리 유닛(1407)을 포함한다. 프로세서(1407)는 분 문서에 기술된 바와 같은 방법과 같은 다양한 프로그램 코드를 실행하도록 구성될 수 있다.
몇몇 실시예에서 디바이스(1400)는 메모리(1411)를 포함한다. 몇몇 실시예에서 적어도 하나의 프로세서(1407)는 메모리(1411)에 연결된다. 메모리(1411)는 임의의 적합한 저장 수단일 수 있다. 몇몇 실시예에서 메모리(1411)는 프로세서(1407) 상에 구현가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션(program code section)을 포함한다. 나아가 몇몇 실시예에서 메모리(1411)는 데이터, 예를 들어 본 문서에 기술된 바와 같은 실시예에 따라 처리되었거나 처리될 데이터를 저장하기 위한 저장된 데이터 섹션(stored data section)을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션 내에 저장된 데이터는 메모리-프로세서 연결을 통해 필요할 때마다 프로세서(1407)에 의해 인출될 수 있다.
몇몇 실시예에서 디바이스(1400)는 사용자 인터페이스(1405)를 포함한다. 사용자 인터페이스(1405)는 몇몇 실시예에서 프로세서(1407)에 커플링될 수 있다. 몇몇 실시예에서 프로세서(1407)는 사용자 인터페이스(1405)의 동작을 제어하고 사용자 인터페이스(1405)로부터 입력을 수신할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 사용자로 하여금, 예를 들어 키패드(keypad)를 통해, 디바이스(1400)에 명령을 입력할 수 있도록 할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 사용자로 하여금 디바이스(1400)로부터 정보를 획득할 수 있도록 할 수 있다. 예를 들어 사용자 인터페이스(1405)는 디바이스(1400)로부터 사용자에 정보를 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 정보가 디바이스(1400)에 입력될 수 있게 하는 것 및 또한 디바이스(1400)의 사용자에게 정보를 디스플레이하는 것 양자 모두가 가능한 터치 스크린 또는 터치 인터페이스를 포함할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 본 문서에 기술된 바와 같은 위치 결정기와의 통신을 위한 사용자 인터페이스일 수 있다.
몇몇 실시예에서 디바이스(1400)는 입력/출력 포트(input/output port)(1409)를 포함한다. 입력/출력 포트(1409)는 몇몇 실시예에서 송수신기(transceiver)를 포함한다. 그러한 실시예에서 송수신기는 프로세서(1407)에 커플링되고, 예를 들어 무선 통신 네트워크를 통해, 다른 장치 또는 전자 디바이스와의 통신을 가능하게 하도록 구성될 수 있다. 송수신기 또는 임의의 적합한 송수신기 또는 송신기 및/또는 수신기 수단은 몇몇 실시예에서 배선 또는 유선 커플링을 통해 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.
송수신기는 임의의 적합한 알려진 통신 프로토콜에 의해 추가의 장치와 통신할 수 있다. 예를 들어 몇몇 실시예에서 송수신기는 적합한 범용 모바일 전기통신 시스템(Universal Mobile Telecommunications System: UMTS) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 로컬 영역 네트워크(Wireless Local Area Network: WLAN) 프로토콜, 적합한 단거리 무선 주파수 통신 프로토콜, 예컨대 블루투스(Bluetooth), 또는 적외선 데이터 통신 경로(Infrared Data Communication Pathway: IRDA)를 사용할 수 있다.
송수신기 입력/출력 포트(1409)는 신호를 수신하고 몇몇 실시예에서 적합한 코드를 실행하는 프로세서(1407)를 사용함으로써 본 문서에 기술된 바와 같은 파라미터를 판정하도록 구성될 수 있다.
일반적으로, 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직(logic) 또는 이의 임의의 조합으로 구현될 수 있다. 예를 들어, 몇몇 양상은 하드웨어로 구현될 수 있는 반면에, 다른 양상은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있는데, 다만 발명은 이에 한정되지 않는다. 발명의 다양한 양상이 블록도, 흐름도로서, 또는 어떤 다른 그림 표현을 사용하여 예시되고 기술될 수 있으나, 본 문서에 기술된 이들 블록, 장치, 시스템, 기법 또는 방법은, 비한정적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 일반 목적 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스, 또는 이의 어떤 조합으로 구현될 수 있음이 잘 이해된다.
이 발명의 실시예는, 프로세서 개체 내에서와 같은, 모바일 디바이스의 데이터 프로세서에 의해 실행가능한 컴퓨터 소프트웨어에 의해, 또는 하드웨어에 의해, 또는 소프트웨어 및 하드웨어의 조합에 의해 구현될 수 있다. 또한 이 점에서 도면에서와 같은 로직 흐름의 임의의 블록은 프로그램 단계, 또는 상호연결된 로직 회로, 블록 및 기능, 또는 프로그램 단계 및 로직 회로, 블록 및 기능의 조합을 나타낼 수 있음에 유의하여야 한다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블록과 같은 물리적 매체, 하드 디스크 또는 플로피 디스크와 같은 자기적 매체, 그리고 예를 들어 DVD 및 이의 데이터 변형인 CD와 같은 광학적 매체 상에 저장될 수 있다.
메모리는 국소적인 기술적 환경에 적합한 임의의 타입의 것일 수 있고 반도체 기반 메모리 디바이스, 자기적 메모리 디바이스 및 시스템, 광학적 메모리 디바이스 및 시스템, 고정형(fixed) 메모리 및 탈거가능(removable) 메모리와 같은 임의의 적합한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 국소적인 기술적 환경에 적합한 임의의 타입의 것일 수 있고, 비한정적인 예로서, 일반 목적 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(Digital Signal Processor: DSP), 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit: ASIC), 멀티 코어 프로세서 아키텍처(multi-core processor architecture)에 기반한 게이트 레벨 회로 및 프로세서 중 하나 이상을 포함할 수 있다.
발명의 실시예는 집적 회로 모듈과 같은 다양한 컴포넌트에서 실시될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판 상에서 에칭되고(etched) 형성될 준비가 된 반도체 회로 설계로 변환하기 위해 복합적이고 강력한 소프트웨어 툴이 이용가능하다.
캘리포니아 마운틴 뷰(Mountain View)의 시놉시스 사(Synopsys, Inc.) 및 캘리포니아 산호세(San Jose)의 케이던스 디자인(Cadence Design)에 의해 제공되는 것과 같은 프로그램은 사전저장된 설계 모듈의 라이브러리뿐만 아니라 잘 수립된 설계 규칙을 사용하여 도전체(conductor)를 자동적으로 라우팅하고(route) 반도체 칩 상에 컴포넌트를 위치시킨다. 일단 반도체 회로에 대한 설계가 완료되었으면, 표준화된 전자 포맷(가령, Opus, GDSII 또는 유사한 것)으로 된 결과적인 설계는 반도체 제조 설비 또는 제조를 위한 "팹"(fab)으로 보내질 수 있다.
전술한 설명은 이 발명의 예시적인 실시예의 완전하고 유익한 설명을 예시적이고 비한정적인 예로서 제공하였다. 그러나, 첨부된 도면 및 부기된 청구항과 함께 판독되는 경우에, 전술한 설명에 비추어 볼 때 당업자에게 다양한 수정 및 적응이 명백하게 될 수 있다. 그러나, 이 발명의 교시의 모든 그러한 및 유사한 수정은 부기된 청구항에서 정의되는 바와 같은 이 발명의 범위 내에 여전히 속할 것이다.

Claims (17)

  1. 수단을 포함하는 장치로서, 상기 수단은,
    시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터(spatial audio signal directional metadata parameter)를 생성하고,
    제 1 양자화 해상도에 기초한 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하며,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하고,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 결정된 비트의 수보다 작으면, 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하며,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 상기 결정된 비트의 수보다 크고, 상기 결정된 비트의 수와 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하고,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 상기 결정된 비트의 수보다 크고, 상기 결정된 비트의 수와 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수 사이의 차이가 상기 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하도록
    구성되고,
    상기 제 3 양자화 해상도는, 상기 제 3 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 상기 결정된 비트의 수 이하가 되도록 결정되는,
    장치.
  2. 제 1 항에 있어서,
    상기 제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 것은,
    상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 제 1 양자화 해상도를 결정하는 것과,
    상기 제 1 양자화 해상도를 사용하는 상기 매핑에 기초해서 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과,
    고정 레이트 인코딩과 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 상기 고정 레이트 인코딩 또는 상기 엔트로피 인코딩을 사용해서 상기 인덱스를 선택적으로 인코딩하는 것
    을 포함하는,
    장치.
  3. 제 2 항에 있어서,
    상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 상기 제 1 양자화 해상도를 결정하는 것은, 상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 상기 제 1 양자화 해상도를 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 결정하는 것을 포함하는,
    장치.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 결정된 비트의 수와 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은,
    상기 공간 오디오 신호 방향성 메타데이터 파라미터의 상기 값과 인덱스 값 사이의 매핑을 위한 상기 제 2 양자화 해상도를 결정하는 것과,
    상기 제 1 양자화 해상도를 사용해서 고정 레이트 인코딩된, 상기 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 상기 제 2 양자화 해상도를 사용한 상기 매핑에 기초해서 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것
    을 포함하는,
    장치.
  5. 제 4 항에 있어서,
    상기 수단은,
    상기 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 상기 제 1 양자화 해상도를 사용한 상기 매핑에 기초해서 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 상기 엔트로피 인코딩된 인덱스; 및
    상기 공간 오디오 신호 방향성 메타데이터 파라미터에 대한 상기 제 2 양자화 해상도를 사용한 상기 매핑에 기초해서 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 상기 고정 레이트 인코딩된 인덱스
    를 출력 혹은 저장하도록 더 구성되는,
    장치.
  6. 제 5 항에 있어서,
    상기 수단은, 상기 엔트로피 인코딩된 인덱스가 상기 고정 레이트 인코딩된 인덱스보다 우선하도록, 상기 인코딩된 인덱스를 정렬하도록 더 구성되는,
    장치.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 수단은, 상기 제 1 양자화 해상도 또는 상기 제 2 양자화 해상도가 사용될 때 식별자를 생성하도록 더 구성되는
    장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 제 3 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 것은,
    상기 제 3 양자화 해상도를 사용하는 고정 레이트 인코딩에 사용되는 비트의 수에 기초한 상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 상기 제 3 양자화 해상도가 항상 상기 결정된 비트의 수 이하인 것으로 결정하는 것과,
    상기 제 3 양자화 해상도를 사용하는 상기 매핑에 기초한 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스를 생성하는 것과,
    상기 고정 레이트 인코딩과 상기 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 상기 고정 레이트 인코딩 또는 상기 엔트로피 인코딩을 사용해서 상기 인덱스를 선택적으로 인코딩하는 것
    을 포함하는,
    장치.
  9. 제 8 항에 있어서,
    상기 수단은, 상기 고정 레이트 인코딩과 상기 엔트로피 인코딩 중 어느 것이 더 적은 수의 비트를 사용하는지 여부에 기초해서 상기 고정 레이트 인코딩 또는 상기 엔트로피 인코딩을 사용해서 선택적으로 인코딩된 인덱스를 출력하도록 더 구성되는,
    장치.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 수단은, 상기 제 3 양자화 해상도가 결정될 때 식별자를 생성하도록 더 구성되는,
    장치.
  11. 수단을 포함하는 장치로서, 상기 수단은,
    시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하고,
    상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하며,
    상기 식별자가 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하도록
    구성되고,
    상기 식별자가 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 상기 수단은,
    추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 상기 제 1 부분은 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - ,
    상기 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 상기 결정된 비트의 수와 사이의 차이가 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 상기 제 2 부분을 디코딩하며,
    상기 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 상기 결정된 비트의 수와 사이의 차이가 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작지 않을 때에는, 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 상기 제 2 부분을 디코딩하도록
    구성되는,
    장치.
  12. 제 11 항에 있어서,
    상기 수단은, 상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 상기 추가 양자화 해상도를 결정하도록 더 구성되는,
    장치.
  13. 제 12 항에 있어서,
    상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 상기 인덱스 값 사이의 매핑을 위한 상기 추가 양자화 해상도를 결정하는 것은, 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 에너지 비율 값에 기초해서 상기 추가 양자화 해상도를 결정하는 것을 포함하는,
    장치.
  14. 제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 수단은, 상기 공간 오디오 신호 방향성 메타데이터 파라미터의 값과 인덱스 값 사이의 매핑을 위한 상기 감소된 비트 양자화 해상도를 결정하도록 더 구성되는,
    장치.
  15. 제 11 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 수단은, 상기 양자화 해상도에 기초해서, 상기 공간 오디오 신호 방향성 메타데이터 파라미터와 연관된 인덱스로부터 고도 및 방위각 값 중 적어도 하나로의 매핑을 생성하도록 구성되는,
    장치.
  16. 방법으로서,
    시간-주파수의 블록에 대한 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 단계와,
    제 1 양자화 해상도에 기초해서 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 생성하는 단계와,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수를, 결정된 비트의 수에 대해서 비교하는 단계와,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 결정된 비트의 수보다 작으면, 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터를 출력 혹은 저장하는 단계와,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 상기 결정된 비트의 수보다 크고, 상기 결정된 비트의 수와 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수 사이의 차이가 결정된 임계값 이내에 있으면, 제 2 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 단계와,
    상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수가 상기 결정된 비트의 수보다 크고, 상기 결정된 비트의 수와 상기 제 1 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 상기 비트의 수 사이의 차이가 상기 결정된 임계값 보다 크면, 제 3 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터를 생성하는 단계
    를 포함하고,
    상기 제 3 양자화 해상도는, 상기 제 3 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 파라미터에 사용되는 비트의 수가 항상 상기 결정된 비트의 수 이하가 되도록 결정되는,
    방법.
  17. 방법으로서,
    시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 수신하는 단계와,
    상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었는지 여부를 나타내도록 구성된 식별자를 수신하는 단계와,
    상기 식별자가 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되었다는 것을 나타내는 경우, 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초해서 디코딩하는 단계와,
    상기 식별자가 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터가, 항상 결정된 비트의 수 이하인 양자화 해상도에 기초하여 인코딩되지 않았다는 것을 나타내는 경우, 상기 방법은,
    상기 시간-주파수의 블록에 대한 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 1 부분을 추가 양자화 해상도에 기초해서 디코딩하고 - 상기 제 1 부분은 상기 추가 양자화 해상도에 기초해서 상기 시간-주파수의 블록에 대한 엔트로피 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함함 - ,
    상기 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 상기 결정된 비트의 수와 사이의 차이가 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작을 때에는, 감소된 비트의 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 상기 제 2 부분을 디코딩하는 단계와,
    상기 제 1 부분을 인코딩하기 위해 사용되는 비트의 수와 상기 결정된 비트의 수와 사이의 차이가 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 상기 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터의 제 2 부분을 인코딩하는데 필요한 비트의 수보다 작지 않을 때에는, 상기 추가 양자화 해상도에 기초한 상기 시간-주파수의 블록에 대한 고정 레이트 인코딩된 공간 오디오 신호 방향성 메타데이터 파라미터를 포함하는 상기 제 2 부분을 디코딩하는 단계
    를 더 포함하는,
    방법.
KR1020227012049A 2019-09-13 2020-09-09 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 KR20220062599A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1913274.5A GB2587196A (en) 2019-09-13 2019-09-13 Determination of spatial audio parameter encoding and associated decoding
GB1913274.5 2019-09-13
PCT/FI2020/050578 WO2021048468A1 (en) 2019-09-13 2020-09-09 Determination of spatial audio parameter encoding and associated decoding

Publications (1)

Publication Number Publication Date
KR20220062599A true KR20220062599A (ko) 2022-05-17

Family

ID=68315272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227012049A KR20220062599A (ko) 2019-09-13 2020-09-09 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정

Country Status (8)

Country Link
US (1) US20220343928A1 (ko)
EP (2) EP4365896A3 (ko)
JP (1) JP7405962B2 (ko)
KR (1) KR20220062599A (ko)
CN (1) CN114365218A (ko)
GB (1) GB2587196A (ko)
MX (1) MX2022002895A (ko)
WO (1) WO2021048468A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022223133A1 (en) * 2021-04-23 2022-10-27 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
GB2615607A (en) 2022-02-15 2023-08-16 Nokia Technologies Oy Parametric spatial audio rendering
WO2023179846A1 (en) 2022-03-22 2023-09-28 Nokia Technologies Oy Parametric spatial audio encoding
WO2024110006A1 (en) 2022-11-21 2024-05-30 Nokia Technologies Oy Determining frequency sub bands for spatial audio parameters
WO2024111300A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 音データ作成方法及び音データ作成装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
KR100682890B1 (ko) * 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
JP5235684B2 (ja) * 2006-02-24 2013-07-10 フランス・テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
US9715880B2 (en) * 2013-02-21 2017-07-25 Dolby International Ab Methods for parametric multi-channel encoding
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
EP3297298B1 (en) * 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
MX2020005045A (es) * 2017-11-17 2020-08-20 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando cuantificacion y codificacion entropica.
EP3762923A1 (en) * 2018-03-08 2021-01-13 Nokia Technologies Oy Audio coding
GB2575632A (en) * 2018-07-16 2020-01-22 Nokia Technologies Oy Sparse quantization of spatial audio parameters

Also Published As

Publication number Publication date
EP4029015A4 (en) 2024-01-24
US20220343928A1 (en) 2022-10-27
JP2022548038A (ja) 2022-11-16
EP4029015A1 (en) 2022-07-20
GB2587196A (en) 2021-03-24
EP4365896A2 (en) 2024-05-08
EP4365896A3 (en) 2024-05-22
WO2021048468A1 (en) 2021-03-18
GB201913274D0 (en) 2019-10-30
JP7405962B2 (ja) 2023-12-26
MX2022002895A (es) 2022-04-06
CN114365218A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
TWI708241B (zh) 使用不同時間/頻率解析度編碼或解碼方向性音訊寫碼參數之設備及方法
US11676612B2 (en) Determination of spatial audio parameter encoding and associated decoding
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
KR102587641B1 (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
KR20220128398A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩
WO2020016479A1 (en) Sparse quantization of spatial audio parameters
WO2020260756A1 (en) Determination of spatial audio parameter encoding and associated decoding
KR20220062621A (ko) 공간적 오디오 파라미터 인코딩 및 관련 디코딩
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
US20240212696A1 (en) Determination of spatial audio parameter encoding and associated decoding
RU2797457C1 (ru) Определение кодирования параметров пространственного звука и соответствующего декодирования
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
US20240127828A1 (en) Determination of spatial audio parameter encoding and associated decoding
WO2023179846A1 (en) Parametric spatial audio encoding
CA3237983A1 (en) Spatial audio parameter decoding
KR20230069173A (ko) 공간 오디오 파라미터 양자화
EP3948861A1 (en) Determination of the significance of spatial audio parameters and associated encoding
EP4162487A1 (en) Spatial audio parameter encoding and associated decoding