KR102587641B1 - 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 - Google Patents

공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 Download PDF

Info

Publication number
KR102587641B1
KR102587641B1 KR1020217016353A KR20217016353A KR102587641B1 KR 102587641 B1 KR102587641 B1 KR 102587641B1 KR 1020217016353 A KR1020217016353 A KR 1020217016353A KR 20217016353 A KR20217016353 A KR 20217016353A KR 102587641 B1 KR102587641 B1 KR 102587641B1
Authority
KR
South Korea
Prior art keywords
index
value
codebook
subband
coherence
Prior art date
Application number
KR1020217016353A
Other languages
English (en)
Other versions
KR20210089184A (ko
Inventor
아드리아나 바실라체
미코-빌 라이티넨
Original Assignee
노키아 테크놀로지스 오와이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1817807.9A external-priority patent/GB2578603A/en
Priority claimed from GBGB1903850.4A external-priority patent/GB201903850D0/en
Application filed by 노키아 테크놀로지스 오와이 filed Critical 노키아 테크놀로지스 오와이
Publication of KR20210089184A publication Critical patent/KR20210089184A/ko
Application granted granted Critical
Publication of KR102587641B1 publication Critical patent/KR102587641B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호의 프레임의 부대역을 위한 값을 수신하고(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하고, 적어도 하나의 벡터를 이산 코사인 변환하고(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단을 포함하는 장치.

Description

공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
본 출원은 음장 관련 파라미터 인코딩(sound-field related parameter encoding)을 위한, 그러나 오디오 인코더(encoder) 및 디코더(decoder)를 위한 시간-주파수 도메인 방향 관련 파라미터 인코딩(time-frequency domain direction related parameter encoding)을 위한 것만은 아닌, 장치 및 방법에 관련된다.
파라미터적 공간적 오디오 처리(parametric spatial audio processing)는 파라미터의 세트를 사용하여 소리의 공간적 측면이 기술되는 오디오 신호 처리의 분야이다. 예를 들어, 마이크로폰 어레이(microphone array)로부터의 파라미터적 공간적 오디오 캡처(capture)에서, 주파수 대역 내의 소리의 방향과, 주파수 대역 내의 캡처된 소리의 방향성(directional) 및 비방향성(non-directional) 부분 간의 비율과 같은 파라미터의 세트를 마이크로폰 어레이 신호로부터 추정하는 것은 전형적이고 효과적인 선택이다. 이들 파라미터는 마이크로폰 어레이의 위치에서의 캡처된 소리의 지각적(perceptual) 공간적 속성을 잘 기술한다고 알려져 있다. 이들 파라미터는 이에 따라 공간적 소리의 합성(synthesis)에서, 바이노럴로(binaurally) 헤드폰을 위해, 라우드스피커(loudspeaker)를 위해, 또는 다른 포맷, 예컨대 앰비소닉스(Ambisonics)로 활용될 수 있다.
이와 같이 주파수 대역에서의 방향 및 직류 대 총 에너지 비율(direct-to-total energy ratio)은 공간적 오디오 캡처를 위해 특히 효과적인 파라미터화이다.
주파수 대역 내의 방향 파라미터 및 주파수 대역 내의 에너지 비율 파라미터(소리의 방향성을 나타냄)로 이루어진 파라미터 세트는 오디오 코덱(codec)을 위한 (간섭성(coherence), 확산 간섭성(spread coherence), 방향의 수, 거리 등과 같은 다른 파라미터를 또한 포함할 수 있는) 공간적 메타데이터(metadata)로서 또한 활용될 수 있다. 예를 들어, 이들 파라미터는 마이크로폰 어레이 캡처된 오디오 신호(microphone-array captured audio signal)로부터 추정될 수 있고, 예를 들어 공간적 메타데이터와 함께 전달될 마이크로폰 어레이 신호로부터 스테레오 신호가 생성될 수 있다. 스테레오 신호는, 예를 들어, AAC 인코더로써, 인코딩될 수가 있다. 디코더는 오디오 신호를 PCM 신호로 디코딩하고, 공간적 출력, 예를 들어 바이노럴 출력(binaural output)을 획득하기 위해 (공간적 메타데이터를 사용하여) 주파수 대역 내의 소리를 처리할 수 있다.
전술된 솔루션은 (가령, 모바일 전화, VR 카메라, 독립형(stand-alone) 마이크로폰 어레이에서) 마이크로폰 어레이로부터의 캡처된 공간적 소리를 인코딩하는 데에 특히 적합하다. 그러나, 그러한 인코더가 마이크로폰 어레이 캡처된 신호가 아닌 또한 다른 입력 타입, 예를 들어, 라우드스피커 신호, 오디오 객체 신호(audio object signal), 또는 앰비소닉 신호((Ambisonic signal)를 갖는 것이 바람직할 수 있다.
공간적 메타데이터 추출을 위해 1차 앰비소닉스(First-Order Ambisonics) 입력을 분석하는 것은 방향성 오디오 코딩(Directional Audio Coding: DirAC) 및 조화 평면파 전개(Harmonic planewave expansion: Harpex)에 관련된 과학 문헌에서 철저히 문서화되었다. 이는 FOA 신호(더 정확히는: 그것의 변형인 B 포맷 신호(B-format signal))를 직접적으로 제공하는 마이크로폰 어레이가 존재하고 따라서 그러한 입력을 분석하는 것이 당 분야에서의 연구의 초점이었기 때문이다.
인코더를 위한 추가의 입력은 또한 멀티채널(multi-channel) 라우드스피커 입력, 예컨대 5.1 또는 7.1 채널 서라운드(surround) 입력이다.
그러나 메타데이터의 성분(component)에 관해서 압축(compression)이 현재의 탐구 주제이다.
제1 양상에 따라, 오디오 신호의 프레임(frame)의 부대역(sub-band)을 위한 값을 수신하고(값은 각각의 부대역을 위한 적어도 하나의 방위각(azimuth) 값, 적어도 하나의 고도(elevation) 값, 적어도 하나의 에너지 비율(energy ratio) 값 및 적어도 하나의 확산(spread) 및/또는 서라운드(surround) 간섭성(coherence) 값을 포함함), 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북(codebook)을 결정하고, 적어도 하나의 벡터를 이산 코사인 변환하고(discrete cosine transforming)(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단을 포함하는 장치가 제공된다.
프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 수단은 또한, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값의 가중 평균(weighted average)을 나타내는 인덱스(index)를 획득하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포(distribution)의 측정(measure)이 결정된 임계 값(determined threshold value) 이상인지를 판정하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지에 대한 판정 및 인덱스에 기반하여 코드북을 선택하기 위한 것일 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지에 대한 판정 및 인덱스에 기반하여 코드북을 선택하는 수단은 또한 인덱스에 기반하여 코드북을 위한 코드워드(codeword)의 개수를 선택하기 위한 것일 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차(average absolute difference), 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 표준 편차(standard deviation) 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산(variance) 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한, 이산 코사인 변환된 벡터의 제1 개수가 부대역에 따름을 판정하고, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 인코딩하기 위한 것일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한, 부대역의 인덱스에 기반하여 스칼라 양자화하기(scalar quantizing) 위한 코드북을 결정하고(각각의 코드북은 결정된 개수의 코드워드를 포함함), 결정된 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 생성하고, 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스(mean removed index)를 생성하고, 평균의 제거된 인덱스를 엔트로피 인코딩하기(entropy encoding) 위한 것일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한, 정의된 개수의 코드워드를 가진 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 결정하고(코드북은 또한 벡터의 부대역 인덱스에 기반함), 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 결정하고, 평균의 제거된 인덱스를 엔트로피 인코딩하기 위한 것일 수 있다.
평균의 제거된 인덱스를 엔트로피 인코딩하는 수단은 또한 평균의 제거된 인덱스를 골롬-라이스(Golomb-Rice) 인코딩하기 위한 것일 수 있다.
수단은 또한, 이산 코사인 변환된 벡터의 인코딩된 제1 개수의 성분을 저장하고/거나 송신하기 위한 것일 수 있다.
수단은 또한, 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하기에 적합한 적어도 하나의 에너지 비율 값 인덱스를 생성하기 위해, 적어도 하나의 에너지 비율 값을 스칼라 양자화하기 위한 것일 수 있다.
수단은 또한, 비트(bit)의 타겟 개수(target number), 인코딩 전 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하기 위한 비트의 개수의 추정치(estimate), 적어도 하나의 에너지 비율 값 인덱스를 나타내는 비트의 개수, 그리고 평균의 제거된 인덱스의 엔트로피 인코딩을 나타내는 비트의 개수에 기반하여 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기 위한 잔존하는 비트의 개수를 추정하고, 잔존하는 비트의 개수에 기반하여 적어도 하나의 방위각 값 인덱스 및 적어도 하나의 고도 값 인덱스를 생성하기 위해 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기(각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것은 적어도 하나의 방위각 값 인덱스에 기반함) 위한 것일 수 있다.
제2 양상에 따라, 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하고(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함), 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하고, 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하고(inverse discrete cosine transforming)(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하기(parsing) 위한 수단을 포함하는 장치가 제공된다.
적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 수단은 또한, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지를 판정하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하기 위한 것일 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하는 수단은 또한 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하기 위한 것일 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차, 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 디코딩하는 수단은 또한, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 디코딩하고, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 추가의 성분을 디코딩하고, 디코딩된 제1 성분 및 추가의 성분을 역 코사인 변환하기 위한 것일 수 있다.
제3 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것과, 적어도 하나의 벡터를 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것을 포함하는 방법이 제공된다.
프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것은, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값의 가중 평균을 나타내는 인덱스를 획득하는 것과, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지를 판정하는 것과, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 인덱스에 기반하여 코드북을 선택하는 것을 더 포함할 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 인덱스에 기반하여 코드북을 선택하는 것은 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하는 것을 더 포함할 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차, 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 표준 편차 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것은, 이산 코사인 변환된 벡터의 제1 개수가 부대역에 따름을 판정하는 것, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 인코딩하는 것을 더 포함할 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것은, 부대역의 인덱스에 기반하여 스칼라 양자화하기 위한 코드북을 결정하는 것(각각의 코드북은 결정된 개수의 코드워드를 포함함)과, 결정된 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 생성하는 것과, 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 생성하는 것과, 평균의 제거된 인덱스를 엔트로피 인코딩하는 것을 더 포함할 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것은, 정의된 개수의 코드워드를 가진 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 결정하는 것(코드북은 또한 벡터의 부대역 인덱스에 기반함)과, 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 결정하는 것과, 평균의 제거된 인덱스를 엔트로피 인코딩하는 것을 더 포함할 수 있다.
평균의 제거된 인덱스를 엔트로피 인코딩하는 것은 평균의 제거된 인덱스를 골롬-라이스 인코딩하는 것을 더 포함할 수 있다.
방법은, 이산 코사인 변환된 벡터의 인코딩된 제1 개수의 성분을 저장하고/거나 송신하는 것을 더 포함할 수 있다.
방법은, 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하기에 적합한 적어도 하나의 에너지 비율 값 인덱스를 생성하기 위해, 적어도 하나의 에너지 비율 값을 스칼라 양자화하는 것을 더 포함할 수 있다.
방법은, 비트의 타겟 개수, 인코딩 전 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하기 위한 비트의 개수의 추정치, 적어도 하나의 에너지 비율 값 인덱스를 나타내는 비트의 개수, 그리고 평균의 제거된 인덱스의 엔트로피 인코딩을 나타내는 비트의 개수에 기반하여 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기 위한 잔존하는 비트의 개수를 추정하는 것, 잔존하는 비트의 개수에 기반하여 적어도 하나의 방위각 값 인덱스 및 적어도 하나의 고도 값 인덱스를 생성하기 위해 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하는 것(각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것은 적어도 하나의 방위각 값 인덱스에 기반함)을 더 포함할 수 있다.
제4 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함)과, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 것과, 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하는 것을 포함하는 방법이 제공된다.
적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 것은, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지를 판정하는 것과, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하는 것을 더 포함할 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값보다 더 크거나 같은지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하는 것은 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하는 것을 더 포함할 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차, 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 디코딩하는 것은, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 디코딩하는 것과, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 추가의 성분을 디코딩하는 것과, 디코딩된 제1 성분 및 추가의 성분을 역 코사인 변환하는 것을 더 포함할 수 있다.
제5 측면에 따라, 적어도 하나의 프로세서 및 적어도 하나의 메모리(컴퓨터 프로그램 코드를 포함함)를 포함하는 장치가 제공되는데, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서로써, 장치로 하여금 적어도, 오디오 신호의 프레임의 부대역을 위한 값을 수신하고(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하고, 적어도 하나의 벡터를 이산 코사인 변환하고(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하게 하도록 구성된다.
프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하게 되는 장치는 또한, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값의 가중 평균을 나타내는 인덱스를 획득하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지를 판정하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 인덱스에 기반하여 코드북을 선택하게 될 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 인덱스에 기반하여 코드북을 선택하게 되는 장치는 또한, 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하게 될 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차, 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 표준 편차 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하게 되는 장치는 또한, 이산 코사인 변환된 벡터의 제1 개수가 부대역에 따름을 판정하고, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 인코딩하게 될 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하게 되는 장치는 또한, 부대역의 인덱스에 기반하여 스칼라 양자화하기 위한 코드북을 결정하고(각각의 코드북은 결정된 개수의 코드워드를 포함함), 결정된 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 생성하고, 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 생성하고, 평균의 제거된 인덱스를 엔트로피 인코딩하게 될 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하게 되는 장치는 또한, 정의된 개수의 코드워드를 가진 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 결정하고(코드북은 또한 벡터의 부대역 인덱스에 기반함), 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 결정하고, 평균의 제거된 인덱스를 엔트로피 인코딩하게 될 수 있다.
평균의 제거된 인덱스를 엔트로피 인코딩하게 되는 장치는 또한 평균의 제거된 인덱스를 골롬-라이스 인코딩하게 될 수 있다.
장치는 또한, 이산 코사인 변환된 벡터의 인코딩된 제1 개수의 성분을 저장하고/거나 송신하게 될 수 있다.
장치는 또한, 각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하기에 적합한 적어도 하나의 에너지 비율 값 인덱스를 생성하기 위해, 적어도 하나의 에너지 비율 값을 스칼라 양자화하게 될 수 있다.
장치는 또한, 비트의 타겟 개수, 인코딩 전 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하기 위한 비트의 개수의 추정치, 적어도 하나의 에너지 비율 값 인덱스를 나타내는 비트의 개수, 그리고 평균의 제거된 인덱스의 엔트로피 인코딩을 나타내는 비트의 개수에 기반하여 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기 위한 잔존하는 비트의 개수를 추정하고, 잔존하는 비트의 개수에 기반하여 적어도 하나의 방위각 값 인덱스 및 적어도 하나의 고도 값 인덱스를 생성하기 위해 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하게(각각의 부대역을 위한 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것은 적어도 하나의 방위각 값 인덱스에 기반함) 될 수 있다.
제6 측면에 따라, 적어도 하나의 프로세서 및 적어도 하나의 메모리(컴퓨터 프로그램 코드를 포함하)를 포함하는 장치가 제공되는데, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서로써, 장치로 하여금 적어도, 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하고(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함), 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하고, 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하고(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함), 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하게 하도록 구성된다.
적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하게 되는 장치는 또한, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지를 판정하고, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하게 될 수 있다.
프레임에 대한 부대역을 위한 적어도 하나의 방위각 인덱스의 분포의 측정이 결정된 임계 값 이상인지의 판정 및 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 선택하게 되는 장치는 또한 적어도 하나의 에너지 비율 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하게 될 수 있다.
분포의 측정은, 연이은 방위각 값 간의 평균 절대차, 부대역 내의 평균 방위각 값에 대한 평균 절대차, 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 및 프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 분산 중 하나일 수 있다.
결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 디코딩하게 되는 장치는 또한, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 디코딩하고, 코드북에 기반하여 제1 개수의 이산 코사인 변환된 벡터 성분 중의 추가의 성분을 디코딩하고, 디코딩된 제1 성분 및 추가의 성분을 역 코사인 변환하게 될 수 있다.
제7 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 수단(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하는 수단과, 적어도 하나의 벡터를 이산 코사인 변환하는 수단(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단을 포함하는 장치가 제공된다.
제8 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 수단(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함)과, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 수단과, 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하는 수단(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)과, 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하는 수단을 포함하는 장치가 제공된다.
제9 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 명령어를 포함하는 컴퓨터 프로그램(또는 프로그램 명령어를 포함하는 컴퓨터 판독가능 매체)이 제공된다: 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것.
제10 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 명령어를 포함하는 컴퓨터 프로그램(또는 프로그램 명령어를 포함하는 컴퓨터 판독가능 매체)이 제공된다: 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함); 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하는 것.
제11 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 프로그램 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체가 제공된다: 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것.
제12 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 프로그램 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체가 제공된다: 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함); 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하는 것.
제13 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 값을 수신하도록 구성된 수신 회로부(circuitry)(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)와, 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하도록 구성된 결정 회로부와, 적어도 하나의 벡터를 이산 코사인 변환하도록 구성된 변환 회로부(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)와, 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하도록 구성된 인코딩 회로부를 포함하는 장치가 제공된다.
제14 측면에 따라, 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하도록 구성된 획득 회로부(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함)와, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하도록 구성된 결정 회로부와, 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하도록 구성된 변환 회로부(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함)와, 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하도록 구성된 파싱 회로부를 포함하는 장치가 제공된다.
제15 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 프로그램 명령어를 포함하는 컴퓨터 판독가능 매체가 제공된다: 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 프레임에 대한 각각의 부대역을 위한 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 인코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 결정된 코드북에 기반하여 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 것.
제16 측면에 따라, 장치로 하여금 적어도 다음을 수행하게 하기 위한 프로그램 명령어를 포함하는 컴퓨터 판독가능 매체가 제공된다: 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 것(값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 포함함); 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 방위각 인덱스에 기반하여 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 것; 적어도 하나의 벡터를 생성하기 위해 적어도 하나의 확산 및/또는 서라운드 간섭성 인덱스를 역 이산 코사인 변환하는 것(적어도 하나의 벡터는 프레임에 대한 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 포함함); 및 각각의 부대역을 위한 적어도 하나의 확산 및/또는 서라운드 간섭성 값을 생성하기 위해 벡터를 파싱하는 것.
위에서 기술된 바와 같은 방법의 행위를 수행하는 수단을 포함하는 장치.
위에서 기술된 바와 같은 방법의 행위를 수행하도록 구성된 장치.
컴퓨터로 하여금 위에서 기술된 바와 같은 방법을 수행하게 하기 위한 프로그램 명령어를 포함하는 컴퓨터 프로그램.
매체 상에 저장된 컴퓨터 프로그램 제품은 장치로 하여금 본 문서에서 기술된 바와 같은 방법을 수행하게 할 수 있다.
전자 디바이스는 본 문서에서 기술된 바와 같은 장치를 포함할 수 있다.
칩셋은 본 문서에서 기술된 바와 같은 장치를 포함할 수 있다.
본 출원의 실시예는 업계의 사정과 연관된 문제를 다루는 것을 목표로 한다.
본 출원의 더 나은 이해를 위해, 첨부된 도면에 대해 예로서 참조가 이제 행해질 것인데,
도 1은 몇몇 실시예를 구현하기에 적합한 장치의 시스템을 도식적으로 도시하고,
도 2는 몇몇 실시예에 따른 메타데이터 인코더를 도식적으로 도시하고,
도 3은 몇몇 실시예에 따라 도 2에 도시된 바와 같은 메타데이터 인코더의 동작의 흐름도를 도시하고,
도 4는 몇몇 실시예에 따라 도 2에 도시된 바와 같은 간섭성 인코더를 도식적으로 도시하고,
도 5는 몇몇 실시예에 따라 도 4에 도시된 바와 같은 간섭성 인코더의 동작의 흐름도를 도시하고,
도 6은 몇몇 실시예에 따라 제1 및 추가의 간섭성 성분을 인코딩하는 간섭성 인코더의 동작의 흐름도를 도시하고,
도 7은 몇몇 추가의 실시예에 따라 제1 및 추가의 간섭성 성분을 인코딩하는 간섭성 인코더의 추가의 동작의 흐름도를 도시하고,
도 8은 몇몇 실시예에 따라 간섭성 디코딩에 관한 메타데이터 디코더를 도식적으로 도시하고,
도 9는 몇몇 실시예에 따라 도 8에 도시된 바와 같은 메타데이터 디코더의 동작의 흐름도를 도시하고,
도 10은 도시된 장치를 구현하기에 적합한 예시적인 디바이스를 도식적으로 도시한다.
다음은 효과적인 공간적 분석 도출된 메타데이터 파라미터의 제공을 위한 적합한 장치 및 가능한 메커니즘을 더 상세히 기술한다. 다음의 논의에서 멀티채널 마이크로폰 구현에 관해서 멀티채널 시스템이 논의된다. 그러나 위에서 논의된 바와 같이 입력 포맷은 임의의 적합한 입력 포맷, 예컨대 멀티채널 라우드스피커 앰비소닉 (FOA/HOA) 등일 수 있다. 몇몇 실시예에서, 채널 위치는 마이크로폰의 위치 또는 가상의(virtual) 위치 또는 방향에 기반함이 이해된다. 나아가 예시적인 시스템의 출력은 멀티채널 라우드스피커 배열(multi-channel loudspeaker arrangement)이다. 그러나 출력은 라우드스피커가 아닌 수단을 통해 사용자에게 렌더링될(rendered) 수 있음이 이해된다. 나아가 멀티채널 라우드스피커 신호는 둘 이상의 재생(playback) 오디오 신호이도록 일반화될 수 있다.
메타데이터는, 각각의 고려되는 시간-주파수 블록(time-frequency block)(시간-주파수 부대역(time-frequency subband))에 대해, 적어도 방향(고도, 방위각), 결과적인 방향의 에너지 비율 및 결과적인 방향의 확산 간섭성 성분으로 이루어진다. 추가로, 방향과 관계없이, 서라운드 간섭성이 각각의 시간-주파수 블록에 대해 판정되고 포함될 수 있다. 모든 이 데이터는 디코더에서 공간적 신호를 재구성할(reconstruct) 수 있기 위해서 인코더에 의해 인코딩되고 송신(되거나 저장)된다.
코덱의 전형적인 전반적 동작 비트레이트(bitrate)는 메타데이터의 송신/저장을 위해 3.0kbps, 4.0kbps, 8kbps 또는 10kbps를 남겨둔다. 방향 파라미터 및 에너지 비율 성분의 인코딩은 전에 검토되었으나, 간섭성 데이터를 인코딩하는 것은 고찰되지 않았고 더 낮은 비트레이트에서 제거되며 송신되거나 저장되지 않는다.
이하에서 논의되는 바와 같은 개념은 각각의 시간-주파수 블록에 대해 방향 및 에너지 비율 파라미터와 더불어 간섭성 파라미터를 인코딩하는 것이다. 다음의 예에서 인코딩은 이산 코사인 변환 도메인에서 수행되고, 현재의 부대역 인덱스와, 현재의 에너지 비율 및 방위각 값에 달려 있다. DCT 변환은 그것이 저복잡도 구현을 위해 최적화되므로 다음의 실시예에서 선택되었으나, 다른 시간-주파수 도메인 변환이 대신 적용되고 사용될 수 있다.
몇몇 실시예에서 고정 비트레이트 코딩 접근법은, 프레임당 전반적인 비트레이트가 고정되도록, 상이한 세그먼트 간에 압축될 데이터를 위한 인코딩 비트를 분포시키는 가변 비트레이트 코딩과 조합될 수 있다. 시간 주파수 블록 내에서, 비트는 주파수 부대역 간에 이전될(transferred) 수 있다.
도 1에 관해서 출원의 실시예를 구현하기 위한 예시적인 장치 및 시스템이 도시된다. 시스템(100)은 '분석'(analysis) 부분(121) 및 '합성'(synthesis) 부분(131)으로써 도시된다. '분석' 부분(121)은 멀티채널 라우드스피커 신호를 수신하는 것부터 메타데이터 및 다운믹스(downmix) 신호의 인코딩까지의 부분이고 '합성' 부분(131)은 인코딩된 메타데이터 및 다운믹스 신호의 디코딩부터 (예를 들어 멀티채널 라우드스피커 형태로 된) 재생성된(re-generated) 신호의 제시(presentation)까지의 부분이다.
시스템(100) 및 '분석' 부분(121)에의 입력은 멀티채널 신호(102)이다. 다음의 예에서 마이크로폰 채널 신호 입력이 기술되나, 다른 실시예에서 임의의 적합한 입력(또는 합성 멀티채널) 포맷이 구현될 수 있다. 예를 들어 몇몇 실시예에서 공간적 분석기(spatial analyser) 및 공간적 분석은 인코더 외부에 구현될 수 있다. 예를 들어 몇몇 실시예에서 오디오 신호와 연관된 공간적 메타데이터는 별개의 비트스트림(bit-stream)으로서 인코더에 제공될 수 있다. 몇몇 실시예에서 공간적 메타데이터는 공간적 (방향) 인덱스 값의 세트로서 제공될 수 있다.
멀티채널 신호는 전송 신호 생성기(transport signal generator)(103)에, 그리고 분석 프로세서(analysis processor)(105)에 전해진다.
몇몇 실시예에서 전송 신호 생성기(103)는 멀티채널 신호를 수신하고 결정된 개수의 채널을 포함하는 적합한 전송 신호를 생성하고 전송 신호(104)를 출력하도록 구성된다. 예를 들어 전송 신호 생성기(103)는 멀티채널 신호의 2 오디오 채널 다운믹스를 생성하도록 구성될 수 있다. 결정된 개수의 채널은 임의의 적합한 개수의 채널일 수 있다. 전송 신호 생성기는 몇몇 실시예에서 다른 식으로, 예를 들어, 빔포밍(beamforming) 기법에 의해 입력 오디오 신호를 결정된 개수의 채널로 선정하거나 조합하고 이를 전송 신호로서 출력하도록 구성된다.
몇몇 실시예에서 전송 신호 생성기(103)는 선택적이며 이 예에서 전송 신호와 동일한 방식으로 인코더(107)에 멀티채널 신호가 처리되지 않고 전해진다.
몇몇 실시예에서 분석 프로세서(105)는 멀티채널 신호를 수신하고, 멀티채널 신호와 연관된, 그리고 그래서 전송 신호(104)와 연관된 메타데이터(106)를 산출하기 위해 신호를 분석하도록 또한 구성된다. 분석 프로세서(105)는, 각각의 시간-주파수 분석 간격(interval)에 대해, 방향 파라미터(108)와 에너지 비율 파라미터(110)와 간섭성 파라미터(112)(그리고 몇몇 실시예에서 확산성(diffuseness) 파라미터)를 포함할 수 있는 메타데이터를 생성하도록 구성될 수 있다. 방향, 에너지 비율 및 간섭성 파라미터는 몇몇 실시예에서 공간적 오디오 파라미터로 간주될 수 있다. 다시 말해 공간적 오디오 파라미터는 멀티채널 신호(또는 일반적으로 둘 이상의 재생 오디오 신호)에 의해 생성된 음장을 특징짓는 것을 목표로 하는 파라미터를 포함한다.
몇몇 실시예에서 생성된 파라미터는 주파수 대역마다 상이할 수 있다. 그러므로 예를 들어 대역 X에서 파라미터 전부가 생성되고 송신되는 반면, 대역 Y에서 파라미터 중 오직 하나가 생성되고 송신되며, 나아가 대역 Z에서 어떤 파라미터도 생성되거나 송신되지 않는다. 이것의 현실적인 예는 가장 높은 대역과 같은 몇몇 주파수 대역에 대해 파라미터 중 일부가 지각적 이유로 요구되지 않는다는 것일 수 있다. 전송 신호(104) 및 메타데이터(106)는 인코더(107)에 전해질 수 있다.
인코더(107)는 전송(예를 들어 다운믹스) 신호(104)를 수신하고 이들 오디오 신호의 적합한 인코딩을 생성하도록 구성된 오디오 인코더 코어(audio encoder core)(109)를 포함할 수 있다. 인코더(107)는 몇몇 실시예에서 (적어도 하나의 프로세서 상에 및 메모리 상에 저장된 적합한 소프트웨어를 가동하는) 컴퓨터이거나, 대안적으로, 예를 들어, FPGA 또는 ASIC을 활용하는 특정 디바이스일 수 있다. 인코딩은 임의의 적합한 방안을 사용하여 구현될 수 있다. 인코더(107)는 나아가 메타데이터를 수신하고 정보의 인코딩된 또는 압축된 형태를 출력하도록 구성된 메타데이터 인코더/양자화기(111)를 포함할 수 있다. 몇몇 실시예에서 인코더(107)는 또한, 점선에 의해 도 1에 도시된 송신 또는 저장 전에, 인코딩된 다운믹스 신호 내의 메타데이터를 인터리빙하거나(interleave), 단일의 데이터 스트림으로 다중화하거나(multiplex) 임베딩할(embed) 수 있다. 다중화는 임의의 적합한 방안을 사용하여 구현될 수 있다.
디코더 측에서, 수신되거나 인출되는(retrieved) 데이터 (스트림)는 디코더/역다중화기(demultiplexer)(133)에 의해 수신될 수 있다. 디코더/역다중화기(133)는 인코딩된 스트림을 역다중화하고 오디오 인코딩된 스트림을 전송 신호를 획득하기 위해 오디오 신호를 디코딩하도록 구성된 전송 추출기(transport extractor)(135)에 전할 수 있다. 유사하게 디코더/역다중화기(133)는 인코딩된 메타데이터를 수신하고 메타데이터를 생성하도록 구성된 메타데이터 추출기(metadata extractor)(137)를 포함할 수 있다. 디코더/역다중화기(133)는 몇몇 실시예에서 (적어도 하나의 프로세서 상에 및 메모리 상에 저장된 적합한 소프트웨어를 가동하는) 컴퓨터이거나, 대안적으로, 예를 들어, FPGA 또는 ASIC을 활용하는 특정 디바이스일 수 있다.
디코딩된 메타데이터 및 전송 오디오 신호는 합성 프로세서(synthesis processor)(139)에 전해질 수 있다.
시스템(100) '합성' 부분(131)은 또한 전송 및 메타데이터를 수신하고 전송 신호 및 메타데이터에 기반하여 멀티채널 신호(110)(이는, 용례에 따라서, 멀티채널 라우드스피커 포맷이거나 몇몇 실시예에서 임의의 적합한 출력 포맷, 예컨대 바이노럴 또는 앰비소닉스 신호일 수 있음)의 형태로 된 합성된 공간적 오디오를 임의의 적합한 포맷으로 재생성하도록 구성된 합성 프로세서(139)를 보여준다.
따라서 요컨대 우선 시스템(분석 부분)은 멀티채널 오디오 신호를 수신하도록 구성된다.
이후에 시스템(분석 부분)은 (예를 들어 오디오 신호 채널의 일부를 선택하거나 다운믹스함으로써) 적합한 전송 오디오 신호를 생성하도록 구성된다.
이후에 시스템은 전송 신호 및 메타데이터를 저장/송신을 위해 인코딩하도록 구성된다.
이것 이후에 시스템은 인코딩된 전송 및 메타데이터를 저장/송신할 수 있다.
시스템은 인코딩된 전송 및 메타데이터를 인출/수신할 수 있다.
이후에 시스템은 인코딩된 전송 및 메타데이터 파라미터로부터 전송 및 메타데이터를 추출하도록, 예를 들어 인코딩된 전송 및 메타데이터 파라미터를 역다중화하고 디코딩하도록 구성된다.
시스템(합성 부분)은 추출된 전송 오디오 신호 및 메타데이터에 기반하여 출력 멀티채널 오디오 신호를 합성하도록 구성된다.
도 2에 관해서 몇몇 실시예에 따라 (도 1에 도시된 바와 같은) 예시적인 분석 프로세서(105) 및 메타데이터 인코더/양자화기(111)가 더 상세히 기술된다.
분석 프로세서(105)는 몇몇 실시예에서 시간-주파수 도메인 변환기(201)를 포함한다.
몇몇 실시예에서 시간-주파수 도메인 변환기(201)는 멀티채널 신호(102)를 수신하고 입력 시간 도메인 신호를 적합한 시간-주파수 신호로 변환하기 위해서 단시간 푸리에 변환(Short Time Fourier Transform: STFT)과 같은 적합한 시간 대 주파수 도메인 변환(time to frequency domain transform)을 적용하도록 구성된다. 이런 시간-주파수 신호는 공간적 분석기(203)에, 그리고 신호 분석기(205)에 전해질 수 있다.
그러므로 예를 들어 시간-주파수 신호(202)는
si(b, n)
에 의해 시간-주파수 도메인 표현으로 표현될 수 있는데, 여기서 b는 주파수 빈(bin) 인덱스이고 n은 시간-주파수 블록 (프레임) 인덱스이고 i는 채널 인덱스이다. 다른 표현에서, n은 원래의 시간-도메인 신호보다 더 낮은 샘플링 레이트(sampling rate)를 가진 시간 인덱스로서 간주될 수 있다. 이들 주파수 빈은 빈 중 하나 이상을 대역 인덱스 k = 0,..., K-1의 부대역으로 그룹화하는 부대역으로 그룹화될 수 있다. 각각의 부대역 k는 최저 빈 bk,low 및 최고 빈 bk,high를 갖고, 부대역은 bk,low부터 bk,high까지의 모든 빈을 포함한다. 부대역의 폭은 임의의 적합한 분포를 근사화할 수 있다. 예를 들어 등가 사각 대역폭(Equivalent Rectangular Bandwidth: ERB) 스케일 또는 바크(Bark) 스케일이다.
몇몇 실시예에서 분석 프로세서(105)는 공간적 분석기(203)를 포함한다. 공간적 분석기(203)는 시간-주파수 신호(202)를 수신하고 이 신호에 기반하여 방향 파라미터(108)를 추정하도록 구성될 수 있다. 방향 파라미터는 임의의 오디오 기반 '방향' 판정에 기반하여 판정될 수 있다.
예를 들어 몇몇 실시예에서 공간적 분석기(203)는 둘 이상의 신호 입력으로써 방향을 추정하도록 구성된다. 이는 '방향'을 추정하는 가장 단순한 구성을 나타내는데, 훨씬 더 많은 신호로써 더 복잡한 처리가 수행될 수 있다.
그러므로 공간적 분석기(203)는 오디오 신호의 프레임 내의 각각의 주파수 대역 및 시간적인 시간-주파수 블록에 대해 적어도 하나의 방위각 및 고도를 제공하도록 구성될 수 있는데, 방위각 및 고도 으로 표기된다. 방향 파라미터(108)는 또한 방향 인덱스 생성기(205)에 전해질 수 있다.
공간적 분석기(203)는 에너지 비율 파라미터(110)를 판정하도록 또한 구성될 수 있다. 에너지 비율은 방향으로부터 도달하는 것으로 간주될 수 있는 오디오 신호의 에너지의 판정이라고 간주될 수 있다. 직류 대 총 에너지 비율 r(k,n)은, 가령, 방향성 추정치의 안정성 측정(stability measure)을 사용하여, 또는 임의의 상관 측정(correlation measure), 또는 비율 파라미터를 획득하는 임의의 다른 적합한 방법을 사용하여, 추정될 수 있다. 에너지 비율은 에너지 비율 인코더(energy ratio encoder)(207)에 전해질 수 있다.
공간적 분석기(203)는 나아가 양자 모두 시간-주파수 도메인에서 분석되는 서라운딩 간섭성 ( )확산 간섭성 ( )을 포함할 수 있는 다수의 간섭성 파라미터(112)를 판정하도록 구성될 수 있다. 확산 간섭성 파라미터는 0부터 1까지의 값을 가질 수 있다. 0의 확산 간섭성 값은 포인트 소스(point source)를 나타내는데, 다시 말해, 멀티 라우드스피커 시스템을 사용하여 오디오 신호를 재현하는 경우에 소리는 가능한 한 적은 수의 라우드스피커로써 재현되어야 한다(예를 들어 방향이 중앙인 경우에 오직 중앙 라우드스피커). 확산 간섭성의 값이 증가함에 따라, 값 0.5에서, 에너지가 중앙 및 이웃 라우드스피커 간에 고르게 확산될 때까지 더 많은 에너지가 중앙 라우드스피커 주위의 다른 라우드스피커에 확산된다. 확산 간섭성의 값이 0.5를 넘어 증가함에 따라, 값 1에서, 중앙 라우드스피커 내에 어떤 에너지도 없고, 모든 에너지가 이웃 라우드스피커 내에 있을 때까지 중앙 라우드스피커 내의 에너지는 감소된다. 서라운딩 간섭성 파라미터는 0부터 1까지의 값을 갖는다. 1의 값은 모든(또는 거의 모든) 라우드스피커 채널 간에 간섭성이 있음을 의미한다. 0의 값은 모든(또는 거의 모든) 라우드스피커 채널 간에 어떤 간섭성도 있지 않음을 의미한다. 이는 영국 출원 제1718341.9 및 PCT 출원 PCT/FI2018/050788에서 더 설명된다.
따라서 요컨대 분석 프로세서는 시간 도메인 멀티채널 또는 다른 포맷, 예컨대 마이크로폰 또는 앰비소닉 오디오 신호를 수신하도록 구성된다.
이에 이어서 분석 프로세서는 분석을 위한 적합한 시간-주파수 도메인 신호를 생성하기 위해 시간 도메인 대 주파수 도메인 변환(가령 STFT)을 적용하고 이후에 방향 및 에너지 비율 파라미터를 판정하기 위해 방향 분석을 적용할 수 있다.
이후에 분석 프로세서는 판정된 파라미터를 출력하도록 구성될 수 있다.
여기에서 방향, 에너지 비율 및 간섭성 파라미터가 각각의 시간 인덱스 n에 대해 표현되나, 몇몇 실시예에서 파라미터는 몇 개의 시간 인덱스에 걸쳐 조합될 수 있다. 주파수 축에 대해서도 마찬가지인데, 표출된 바와 같이, 몇 개의 주파수 빈 b의 방향은 몇 개의 주파수 빈 b로 이루어진 대역 k 내의 하나의 방향 파라미터에 의해 표현될 수가 있다. 본 문서에서의 논의된 공간적 파라미터 전부에 대해서도 마찬가지이다.
몇몇 실시예에서 방향성 데이터는 각각의 방위각 파라미터가 대략적으로 9개 비트 상에, 그리고 고도가 7개 비트 상에 나타내어지도록 16개 비트를 사용하여 나타내어질 수 있다. 그러한 실시예에서 에너지 비율 파라미터는 8개 비트 상에 나타내어질 수 있다. 각각의 프레임에 대해 N=5개 부대역 및 M=4개 시간 주파수(Time Frequency: TF) 블록이 있을 수 있다. 그러므로 이 예에서 각각의 프레임에 대해 압축되지 않은 방향 및 에너지 비율 메타데이터를 저장하는 데에 필요한 (16+8)xMxN개 비트가 있다. 각각의 TF 블록을 위한 간섭성 데이터는 0 및 1 사이의 부동소수점 표현(floating point representation)일 수 있고 원래 8개 비트 상에 나타내어질 수 있다.
또한 도 2에 도시된 바와 같이 몇몇 실시예에 따라 예시적인 메타데이터 인코더/양자화기(111)가 도시된다.
메타데이터 인코더/양자화기(111)는 방향 인코더(205)를 포함할 수 있다. 방향 인코더(205)는 방향 파라미터(예컨대 방위각 및 고도 (108)(그리고 몇몇 실시예에서 예상되는 비트 할당(expected bit allocation))를 수신하고 이로부터 적합한 인코딩된 출력을 생성하도록 구성된다. 몇몇 실시예에서 인코딩은 결정된 양자화 해상도(quantization resolution)에 의해 정의된 룩업 테이블(look up table)에 의해 정의되는, '표면' 구(sphere) 상의 링(ring) 내에 배열된 구 그리드(spherical grid)를 형성하는 구의 배열에 기반한다. 다시 말해 구 그리드는 더 작은 구로써 구를 커버하고 더 작은 구의 중심을 거의 등거리(equidistant) 방향의 그리드를 정의하는 포인트로서 간주하는 착상을 사용한다. 따라서 더 작은 구는 임의의 적합한 인덱싱(indexing) 알고리즘에 따라 인덱싱될 수 있는 중심 포인트 둘레의 원뿔(cone) 또는 입체각(solid angle)을 정의한다. 여기에서 구 양자화(spherical quantization)가 기술되나 선형 또는 비선형의 임의의 적합한 양자화가 사용될 수 있다.
나아가 몇몇 실시예에서 방향 인코더(205)는 방위각 파라미터 값의 분산을 판정하고 이것을 간섭성 인코더(209)에 전하도록 구성된다.
인코딩된 방향 파라미터는 이후에 조합기(combiner)(211)에 전해질 수 있다.
메타데이터 인코더/양자화기(111)는 에너지 비율 인코더(207)를 포함할 수 있다. 에너지 비율 인코더(207)는 에너지 비율을 수신하고 부대역 및 시간-주파수 블록에 대해 에너지 비율을 압축하기 위한 적합한 인코딩을 결정하도록 구성된다. 예를 들어 몇몇 실시예에서 에너지 비율 인코더(207)는 각각의 에너지 비율 파라미터 값을 인코딩하는 데에 3개 비트를 사용하도록 구성된다.
나아가 몇몇 실시예에서 모든 TF 블록에 대해 모든 에너지 비율 값을 송신하거나 저장하기보다, 부대역당 오직 하나의 가중 평균 값이 송신되거나 저장된다. 평균은 각각의 시간 블록의 총 에너지를 고려함(따라서 더 많은 에너지를 갖는 부대역의 값을 선호함)써 판정될 수 있다.
그러한 실시예에서 양자화된 에너지 비율 값은 주어진 부대역의 모든 TF 블록에 대해 동일하다.
몇몇 실시예에서 에너지 비율 인코더(207)는 또한 양자화된(인코딩된) 에너지 비율 값을 조합기(211)에, 그리고 간섭성 인코더(209)에 전하도록 구성된다.
메타데이터 인코더/양자화기(111)는 간섭성 인코더(209)를 포함할 수 있다. 간섭성 인코더(209)는 간섭성 값을 수신하고 부대역 및 시간-주파수 블록에 대해 간섭성 값을 압축하기 위한 적합한 인코딩을 결정하도록 구성된다. 용인가능한 오디오 합성 결과를 산출하기 위해 간섭성 파라미터 값을 위한 3비트 정밀도 값이 발표되었으나 그래도 이는 (프레임당 예시적인 8개 부대역 및 5개 TF 블록에서) 모든 TF 블록에 대해 간섭성 데이터를 위한 총 3x20 비트를 요구할 것이다.
이하에 기술되는 바와 같이 몇몇 실시예에서 인코딩은 DCT 도메인에서 구현되며, 현재의 부대역 인덱스, 그리고 현재의 에너지 비율 및 방위각 값에 좌우될 수 있다.
인코딩된 간섭성 파라미터 값은 이후에 조합기(211)에 전해질 수 있다.
메타데이터 인코더/양자화기(111)는 조합기(211)를 포함할 수 있다. 조합기는 인코딩된(또는 양자화된/압축된) 방향성 파라미터, 에너지 비율 파라미터 및 간섭성 파라미터를 수신하고, 적합한 출력(예를 들어 전송 신호와 조합되거나 전송 신호와는 별개로 송신되거나 저장될 수 있는 메타데이터 비트 스트림)을 생성하기 위해 이들을 조합하도록 구성된다.
도 3에 관해서 몇몇 실시예에 따라 도 2에 도시된 바와 같은 메타데이터 인코더/양자화기의 예시적인 동작이 도시된다.
초기 동작은 단계(301)에 의해 도 3에 도시된 바와 같이 메타데이터(예컨대 방위각 값, 고도 값, 에너지 비율, 간섭성 등)를 획득하는 것이다.
이후에 방향성 값(고도, 방위각)은 단계(303)에 의해 도 3에 도시된 바와 같이 (예를 들어 구 양자화, 또는 임의의 적합한 압축을 적용함으로써) 압축되거나 인코딩될 수 있다.
에너지 비율 값은 단계(305)에 의해 도 3에 도시된 바와 같이 (예를 들어 부대역당 가중 평균을 생성하고 이후에 이들을 3비트 값으로서 양자화함으로써) 압축되거나 인코딩된다.
간섭성 값은 또한 단계(307)에 의해 도 3에 도시된 바와 같이 (예를 들어 이하에서 나타내어진 바와 같이 DCT 도메인에서 인코딩함으로써) 압축되거나 인코딩된다.
인코딩된 방향성 값, 에너지 비율, 간섭성 값은 이후에 단계(305)에 의해 도 3에 도시된 바와 같이 인코딩된 메타데이터를 생성하기 위해 조합된다.
도 4에 관해서 도 2에 도시된 바와 같은 예시적인 간섭성 인코더(209)가 도시된다.
몇몇 실시예에서 간섭성 인코더(209)는 간섭성 벡터 생성기(401)를 포함한다. 간섭성 벡터 생성기(401)는 0 및 1 사이의 8비트 부동 소수점 표현일 수 있는 간섭성 값(112)을 수신하도록 구성된다.
간섭성 벡터 생성기(401)는 각각의 부대역에 대해 간섭성 값의 벡터를 생성하도록 구성된다. 그러므로 M개의 시간-주파수 블록이 있는 예에서 이후에 간섭성 벡터 생성기(401)는 간섭성 데이터의 M차원 벡터(402)를 생성하도록 구성된다.
간섭성 데이터 벡터(402)는 이산 코사인 변환기(403)에 출력된다.
몇몇 실시예에서 간섭성 인코더(209)는 이산 코사인 변환기를 포함한다. 이산 코사인 변환기는 M차원 간섭성 데이터 벡터(402)를 수신하고 벡터를 이산 코사인 변환(Discrete Cosine Transform: DCT)하도록 구성될 수 있다.
DCT를 수행하기 위한 임의의 적합한 방법이 구현될 수 있다. 예를 들어 몇몇 실시예에서 벡터는 부대역에 대응하는 간섭성의 4차원 벡터를 포함한다. 그러면 벡터 이되 차수 4의 DCT 행렬과의 행렬 곱셈은 다음과 등가이다:
여기서
이는 DTC 변환을 위한 동작의 개수를 28로부터 14로 감소시킨다.
DCT 간섭성 벡터(404)는 이후에 벡터 인코더(405)에 출력될 수 있다.
몇몇 실시예에서 간섭성 인코더(209)는 벡터 인코더(405)를 포함한다. 벡터 인코더(405)는 DCT 간섭성 벡터(404)를 수신하고 그것을 적합한 코드북을 사용함으로써 인코딩하도록 구성된다.
몇몇 실시예에서 벡터 인코더(405)는 코드북 결정기(codebook determiner)(415)를 포함한다. 코드북 결정기는 인코딩된/양자화된 에너지 비율(412) 및 양자화된 방위각의 분산(414)(이는 도 2에 도시된 바와 같은 에너지 비율 인코더 및 방향 인코더로부터 판정될 수 있음)을 수신하고 DCT 간섭성 벡터 값에 적용하기 위해 적합한 코드북을 결정하도록 구성된다.
몇몇 실시예에서 제1 DCT 파라미터의 인코딩은 추가의 DCT 파라미터의 인코딩과는 상이한 방식으로 구현된다. 이는 제1 및 추가의 DCT 파라미터가 상당히 상이한 분포를 갖기 때문이다. 나아가 제1 DCT 파라미터의 분포는 또한 두 인자에 달려 있다: 현재의 부대역을 위한 에너지 비율 값 및 현재의 부대역 내의 방위각의 분산.
몇몇 실시예에서 (그리고 이전에 논의된 바와 같이) 각각의 에너지 비율 값을 인코딩하는 데에 3개 비트가 사용되고 부대역당 오직 하나의 가중 평균 값이 생성되고 송신(되고/거나 저장)된다. 이는 양자화된 에너지 비율 값이 주어진 부대역의 모든 TF 블록에 대해 동일함을 의미한다.
나아가 부대역 내의 양자화된 방위각의 분산이 (결정된 임계 아래인) 매우 작은 것인지 또는 임계보다 더 큰 것인지에 기반하여 방위각의 분산은 제1 DCT 파라미터의 분포에 영향을 미친다.
몇몇 실시예에서 나아가 부대역의 수가 l_N으로 선택된다. 예를 들어 몇몇 실시예에서 l_N=3이다. 그러한 실시예에서, 선택된 부대역 한도까지의 부대역은 제1 개수의 이차적(secondary) DCT 파라미터를 사용하여 인코딩되고 나머지 부대역은 제2 개수의 이차적 DCT 파라미터를 사용하여 인코딩된다. 몇몇 실시예에서 제1 개수는 1이고 제2 개수는 2이다. 다시 말해 몇몇 실시예에서 벡터 인코더는 부대역 <=l_N 은 DCT 변환된 벡터의 처음 2개 성분(하나는 일차적(primary)이고 하나는 이차적임)을 인코딩하고 부대역 >l_N은 DCT 변환된 벡터의 처음 3개의 성분(하나는 일차적이고 두 개는 이차적임)을 인코딩하도록 구성된다. 이들 두 추가적인 성분은 2차원 벡터 양자화기로써 인코딩될 수 있거나, 그것들은 제2의 DCT 파라미터의 N차원 벡터 양자화기에 가외의 차원으로서 추가되고 한꺼번에 모든 이차적 파라미터의 인코딩을 위해 (N+2)차원 벡터 양자화기를 사용할 수가 있다.
간섭성 파라미터의 인코딩의 개관이 흐름도인 도 6에 도시된다.
제1 동작은 단계(501)에 의해 도 6에 도시된 바와 같이 간섭성 파라미터 값을 획득하는 것이다.
프레임에 대한 간섭성 파라미터 값을 획득하였으면 다음 동작은 단계(503)에 의해 도 6에 도시된 바와 같이 각각의 부대역을 위한 M차원 간섭성 벡터를 생성하는 것이다.
M차원 간섭성 벡터는 이후에, 단계(505)에 의해 도 6에 도시된 바와 같이, 예를 들어 이산 코사인 변환(Discrete Cosine Transform: DCT)을 사용하여, 변환된다.
이후에 DCT 표현은 단계(507)에 의해 도 6에 도시된 바와 같이, 결정된 부대역 선택 값 아래 및 값 위의 부대역으로 구분된다. 다시 말해 처리되고 있는 현재의 부대역이 l_N 이하인지 또는 l_N보다 큰지를 판정하는 것이다.
이후에 l_N 이하의 부대역을 위한 M차원 간섭성 벡터에 대한 DCT 표현은 도 6 단계(509)에서 도시된 바와 같이 DCT 변환된 벡터의 처음 2개 성분을 인코딩함으로써 인코딩된다.
이후에 l_N보다 큰 부대역을 위한 M차원 간섭성 벡터에 대한 DCT 표현은 도 6 단계(511)에서 도시된 바와 같이 DCT 변환된 벡터의 처음 3개 성분을 인코딩함으로써 인코딩된다.
이는 예를 들어 다음의 의사코드(pseudocode) 형태로서 요약될 수 있다.
For 각각의 부대역 i=1:N
간섭성 데이터의 M차원 벡터는 DCT 변환됨
If i<=l_N
DCT 변환된 벡터의 처음 2개 성분을 인코딩함
Else
DCT 변환된 벡터의 처음 3개 성분을 인코딩함
End if
End for
도 5에 관해서 몇몇 실시예에 따라 벡터 인코더(405)가 더 상세히 도시되는데 벡터 인코더(405)는 입력으로서 DCT 간섭성 벡터(404)를 수신하는 것으로 도시된다.
벡터 인코더는 몇몇 실시예에서 DCT 차수 0 확산 간섭성 비트 인코딩 추정기(또는 제1/일차적 DCT 간섭성 파라미터 추정기)(451)를 포함한다.
DCT 차수 0 확산 간섭성 비트 인코딩 추정기(또는 제1/일차적 DCT 간섭성 파라미터 추정기)(451)는 DCT 간섭성 벡터(404)를 수신하고 이로부터 간섭성 값 모두가 넌-널(non-null)인지를 판정하도록 구성된다. 적어도 하나의 간섭성 값이 넌-널인 경우에 DCT 차수 0 확산 간섭성 비트 인코딩 추정기는, 조인트 인코딩(joint encoding)을 위해, 확산 간섭성을 위한 차수 0의 DCT 파라미터의 인코딩을 위한 비트의 개수를 로 추정하도록 구성되는데, 여기서 는 부대역 i의 양자화된 에너지 비율의 인덱스이고 len_cb_dct0[] = { 7, 6, 5, 4, 4, 4, 3, 2 }이다.
이 추정은 코드북 결정기(415)에 전해진다.
벡터 인코더는 나아가 몇몇 실시예에서 DCT 차수 1(그리고 계속해서 2) 확산 간섭성 인코더(또는 추가의/이차적 DCT 간섭성 파라미터 인코더)(455)를 포함할 수 있다. DCT 차수 1(그리고 계속해서 2) 확산 간섭성 인코더(455)는 DCT 간섭성 벡터(404)를 수신하고 이로부터, 양자화된 인덱스의 평균의 제거된 인덱스를 위해 골롬 라이스 코딩을 사용하여, 확산 간섭성을 위한 차수 1(그리고 추가의 이차적 파라미터를 인코딩하는 부대역에 대해 계속해서 2)의 DCT 파라미터를 인코딩하도록 구성된다. 몇몇 실시예에서 인덱스는 부대역의 인덱스에 따라서 코드북 내의 스칼라 양자화로부터 획득된다. 코드워드의 개수는 모든 부대역에 대해 동일한데, 예를 들어 5개의 코드워드이다.
출력되는 인코딩된 DCT 차수 1(그리고 계속해서 2) 인코딩된 확산 간섭성 파라미터는 인코딩된 간섭성 벡터(404)의 일부로서 출력되도록 준비될 수 있다.
벡터 인코더는 나아가 몇몇 실시예에서 서라운드 간섭성 인코더(457)를 포함할 수 있다. 서라운드 간섭성 인코더(457)는 서라운드 간섭성 파라미터를 수신하고 이로부터 서라운드 간섭성 파라미터를 인코딩하고 서라운드 간섭성을 위한 비트의 개수를 계산하도록 구성된다. 몇몇 실시예에서 서라운드 간섭성 인코더(457)는 부대역당 하나의 서라운드 간섭성 값을 송신하도록 구성된다. 에너지 비율의 인코딩에 관해서 기술된 바와 같은 방식으로, 값은 몇몇 실시예에서 부대역의 시간-주파수 블록의 가중 평균으로서 획득될 수 있는데, 가중치는 신호 에너지에 의해 결정된다.
몇몇 실시예에서 평균화된 서라운드 간섭성 값은 길이(코드워드의 개수)가 에너지 비율 인덱스에 달려 있는 코드북으로써 스칼라 양자화된다(인덱스: 0,1, 2, 3, 4, 5, 6, 7에 대해 2, 3, 4, 5, 6, 7, 8, 8개 코드워드). 인덱스는 몇몇 실시예에서 평균의 제거된 값에 대해 골롬 라이스 인코더를 사용하여 또는 사용되는 코드워드의 개수를 고려하는 조인트 인코딩에 의해 인코딩된다(다시 말해 엔트로피 코딩, 예컨대 GR 코딩, 아니면 조인트 코딩(이에 기반하여 값을 더 적은 수의 비트로서 인코딩함)을 선택함).
몇몇 실시예에서 (일차적 확산 간섭성을 인코딩하기 위해) 추정되고 (이차적 확산 및 서라운드 간섭성 파라미터를 인코딩하는 데에) 사용되는 비트의 총 개수가 판정되고 이로부터 방향성 파라미터를 인코딩하기 위해 이용가능한 비트의 잔존하는 개수가 판정된다. 이는 예를 들어 수학적으로 다음으로서 판정될 수 있다
ED=B-(EPSC+SSC+SC+EP)
여기서 ED는 이용가능한 비트의 잔존 개수이고, B는 원래의 비트 타겟이고, EPSC는 일차적 확산 간섭성 파라미터를 인코딩하기 위한 비트의 추정된 개수이고, SSC는 이차적 확산 간섭성 파라미터를 인코딩하기 위해 사용되는 비트의 개수이고, SC는 서라운드 간섭성 파라미터를 인코딩하기 위해 사용되는 비트의 개수이고, EP는 에너지 비율을 인코딩하기 위해 사용되는 비트의 개수이다.
이용가능한 비트의 잔존 개수는 방향 인코더에 전해지고 (예를 들어 위에서 언급된 바와 같이) 임의의 적합한 인코딩 방법에 따라 방향 파라미터를 인코딩하는 데에 사용될 비트의 개수를 판정하는 데에 사용될 수 있다.
나아가 몇몇 실시예에서 벡터 인코더는 이전에 논의된 바와 같은 코드북 결정기(415)를 더 포함할 수 있다. 몇몇 실시예에서 코드북 결정기(415)는 DCT 차수 0 확산 간섭성 파라미터를 인코딩하기 위한 비트의 개수의 추정치 및 나아가 인코딩된/양자화된 에너지 비율(412) 및 방위각의 인코딩된 분산(414)을 수신하도록 구성된다. 코드북 결정기(415)는 이들 입력으로부터 DCT 차수 0 확산 간섭성 파라미터의 인코딩을 위한 적합한 코드북을 결정할 수 있다. 이 결정은 몇몇 실시예에서 에너지 비율 및 양자화된 방위각 값(현재의 부대역을 위한 양자화된 방위각 값의 분산)에 기반한다. 만일 부대역을 위한 방위각의 분산이 결정된 임계(가령 임계는 30임)보다 더 낮은 경우 제1의 결정된 코드북이 사용되고, 그렇지 않은 경우 다른 결정된 코드북이 사용된다. 몇몇 실시예에서 (에너지 비율을 위한 8개의 인덱스 및 주어진 임계에 관련하여 방위각 분산을 위한 2개의 가능성이 있음에 기반하여) 차수 0의 DCT 계수를 위한 총 16개의 코드북이 있다.
선택된 코드북은 DCT 차수 0 확산 간섭성 인코더(453)에 전해진다.
나아가 몇몇 실시예에서 벡터 인코더는 DCT 차수 0 확산 간섭성 인코더(453)를 더 포함할 수 있다. 결정된 코드북 및 DCT 간섭성 벡터를 수신한 DCT 차수 0 확산 간섭성 인코더(453)는 DCT 차수 0 확산 간섭성을 인코딩하는 데에 코드북을 사용하고 이를 인코딩된 간섭성 벡터(404)로서 출력되도록 전하도록 구성된다.
도 7에 관해서 몇몇 실시예에 따라 (점선의 좌측 상에 도시된 바와 같이) 에너지 비율 파라미터 및 방향 파라미터의, 그리고 (점선의 우측 상에서) 간섭성 파라미터의 인코딩을 위한 방법의 흐름도가 도시된다.
몇몇 실시예에서 에너지 비율은 단계(601)에 의해 도 7에 도시된 바와 같이 값당 3 비트를 사용하여, 그리고 최적화된 스칼라 양자화(Scalar Quantization: SQ) 방법을 사용함으로써 인코딩된다.
이후 만일 적어도 하나의 간섭성 값이 넌-널이면 단계(603)에 의해 도 7에 도시된 바와 같이 확산 간섭성을 위한 차수 0의 DCT 파라미터의 인코딩을 위한 비트의 개수가 추정된다. 그렇지 않고 만일 출력이 모두 0이면 값이 0임을 시그널링하기 위해 하나의 비트를 발신할 뿐이다.
나아가 방법은 단계(605)에 의해 도 7에 도시된 바와 같이 양자화된 인덱스의 평균의 제거된 인덱스를 위해 골롬 라이스 코딩을 사용하여, 확산 간섭성을 위한 차수 1의 DCT 파라미터를 인코딩하는 것을 포함할 수 있다. 위에서 논의된 바와 같은 인덱스는 몇몇 실시예에서 부대역의 인덱스에 따라서 코드북 내의 스칼라 양자화로부터 획득된다. 코드워드의 개수는 모든 부대역에 대해 동일하다(예를 들어 5).
추가적으로 몇몇 실시예에서 방법은 단계(607)에 의해 도 7에 도시된 바와 같이 서라운드 간섭성을 인코딩하고 이를 위한 비트의 개수를 계산하는 것을 더 포함한다. 몇몇 실시예에서 위에서 논의된 바와 같이 부대역당 하나의 서라운드 간섭성 값이 송신된다. 나아가 몇몇 실시예에서 값은, 단계(601)에서와 같이 에너지 비율을 위해 사용되는 방법과 유사한 방식으로, 부대역의 시간-주파수 블록의 가중 평균으로서(가중치는 신호 에너지임) 획득된다. 평균화된 서라운드 간섭성 값은 이후에 길이(코드워드의 개수)가 에너지 비율 인덱스에 달려 있는 코드북으로써 스칼라 양자화된다(인덱스: 0,1, 2, 3, 4, 5, 6, 7에 대해 2, 3, 4, 5, 6, 7, 8, 8개 코드워드). 인덱스는 평균의 제거된 값에 대해 골롬 라이스 인코딩에 의해 또는 사용되는 코드워드의 개수를 고려하는 조인트 인코딩에 의해 인코딩된다.
몇몇 실시예에서 방법은 단계(609)에 의해 도 7에 도시된 바와 같이 방향 파라미터를 인코딩하기 위한 비트의 잔존하는 개수를 계산하는 것을 포함한다.
방향 파라미터를 인코딩하기 위한 비트의 잔존하는 개수를 판정하였으면 단계(611)에 의해 도 7에 도시된 바와 같이 방향 파라미터는 인코딩된다.
나아가 방법은 단계(613)에 의해 도 7에 도시된 바와 같이 에너지 비율 및 양자화된 방위각 값(현재의 부대역을 위한 양자화된 방위각 값의 분산)에 따라서 코드북을 사용하여, 확산 간섭성을 위한 차수 0의 DCT 계수를 인코딩하는 것을 포함한다. 이 결정은 에너지 비율 값 범위를 위한 두 가능한 코드북 중 하나 또는 다른 것을 선택하는 것에 기반할 수 있는데, 선택은 부대역을 위한 방위각의 분산이 임계 값보다 낮음(또는 높음)에 기반한다. 그러한 방식으로 차수 0의 DCT 계수를 위한 총 16개의 코드북이 있을 수 있다(에너지 비율을 위한 8개의 인덱스 및 주어진 임계에 관련하여 방위각 분산을 위한 2개의 가능성).
이 동작은 다음에 의해 코드로 표현될 수 있다
도 8에 관해서 몇몇 실시예에 따라 간섭성 값의 추출 및 디코딩의 관점에서 디코더(133)의 일부로서 예시적인 메타데이터 추출기(137)가 도시된다.
몇몇 실시예에서 인코딩된 데이터스트림은 역다중화기에 전해진다. 역다중화기는 인코딩된 방향 인덱스, 에너지 비율 인덱스 및 간섭성 인덱스를 추출하며 또한 몇몇 실시예에서 다른 메타데이터 및 전송 오디오 신호(도시되지 않음)를 추출할 수 있다.
에너지 비율 인덱스는 에너지 비율 인코더에 의해 구현된 에너지 비율의 인코딩의 역을 수행함으로써 프레임에 대해 에너지 비율을 생성하기 위해 에너지 비율 디코더에 의해 디코딩될 수 있다. 나아가 에너지 비율 인덱스는 간섭성 DCT 벡터 생성기에 (그리고 몇몇 실시예에서 코드북 결정기(815)에) 전해질 수 있다.
방향 인덱스는 방향 인코더에 의해 구현된 방향 값의 인코딩의 역을 수행하도록 구성된 방향 디코더에 의해 디코딩될 수 있다. 몇몇 실시예에서 방향 값을 디코딩하였으면 방위각 값의 분산이 판정되고 간섭성 DCT 벡터 생성기에 (그리고 몇몇 실시예에서 코드북 결정기(815)에) 출력된다.
메타데이터 추출기(137)는 몇몇 실시예에서 간섭성 DCT 벡터 생성기(801)(그리고 몇몇 실시예에서 코드북 결정기(815))를 포함한다. 간섭성 DCT 벡터 생성기(801)는 인코딩된 간섭성 값(800)을 수신하고 나아가 인코딩된 에너지 비율(812) 및 (디코딩된) 방위각 값의 분산(814)을 수신하도록 구성된다. 이들 값에 기반하여 코드북이 선택되거나 결정된다(예를 들어 코드북 결정기(815)는 간섭성 인코더(209)로부터의 코드북 결정기(415)와 동일할 수 있음).
코드북을 결정하였으면 수신된 인코딩된 간섭성 인덱스는 이후에 확산 간섭성 값 및 서라운드 간섭성 값을 위한 적합한 DCT 간섭성 벡터(802)를 생성하기 위해 간섭성 인코더에서 사용되는 인코딩 방법의 역을 사용하여 디코딩된다. DCT 간섭성 벡터(802)는 이후에 역 이산 코사인 변환기(inverse discrete cosine transformer)(803)에 전해진다.
메타데이터 추출기(137)는 몇몇 실시예에서 역 이산 코사인 변환기(803)를 포함한다. 역 이산 코사인 변환기(803)는 (디코딩된) DCT 간섭성 벡터(802)를 수신하고 벡터 디코더(805)에 출력되는 간섭성 벡터(804)를 생성하도록 구성된다.
메타데이터 추출기(137)는 몇몇 실시예에서 벡터 디코더(805)를 포함한다. 벡터 디코더(805)는 디코딩된 간섭성 벡터(804)를 수신하고 이로부터 부대역을 위한 간섭성 파라미터(806)를 추출하도록 구성된다.
도 9에 관해서 확산 간섭성 파라미터의 디코딩을 위한 방법의 흐름도가 도시된다.
제1 동작은 단계(901)에 의해 도 9에 도시된 바와 같이 인코딩된 확산 간섭성 값을 획득하는 것(예를 들어 수신하는 것 또는 인출하는 것)이다.
인코딩된 확산 간섭성 값을 획득하였으면 이후에 다음 동작은 (각각의) 부대역에 대해: 단계(903)에 의해 도 9에 도시된 바와 같이 제1 DCT 확산 간섭성 파라미터 인덱스(일차적 DCT 파라미터)를 판독하는 것이다.
인코딩된 확산 간섭성 값을 획득하는 것에 더해 도 9에 도시되지 않으나, 인코딩된 서라운드 간섭성 값, 인코딩된 에너지 비율 및 인코딩된 방위각 및 고도 값이 획득된다.
인코딩된 에너지 비율 및 인코딩된 방위각 및 고도 값은 인코더에서 수행된 인코딩 프로세스의 역을 적용함으로써 디코딩된다. 에너지 비율이 먼저 디코딩된다. 확산 간섭성 DCT 인덱스를 위해 사용되는 비트의 개수는 에너지 비율 값에 기반하여 알려진다. 확산 간섭성의 0차 DCT 파라미터를 인코딩하기 위해 송신된 인덱스는 먼저 판독되며 방위각 값의 디코딩 후에만 디코딩될 수 있다.
나아가 인코딩된 서라운드 간섭성 값은 인코더에서의 인코딩 프로세스의 역을 적용하는 것에 기반하여 디코딩된다. 이는 예를 들어 에너지 비율 값에 기반하여 적합한 코드북을 선택하는 것을 수반한다.
다음 동작은 양자화된 에너지 비율 및 방위각의 디코딩된 양자화된 분산에 기반하여 제1 DCT 확산 간섭성 파라미터를 위한 코드북을 결정하는 것이다. 코드북을 결정하였으면 단계(905)에 의해 도 9에 도시된 바와 같이 제1 DCT 확산 간섭성 파라미터 인덱스가 디코딩된다.
다음 동작은 단계(907)에 의해 도 9에 도시된 바와 같이 디코딩되고 있는 현재의 부대역이 인코더에서 사용된 부대역 값(l_N) 이하인지를 판정하는 것이다.
디코딩되고 있는 현재의 부대역이 인코더에서 사용된 부대역 값(l_N) 이하인 경우이면 다음 (제1 이차적) DCT 확산 간섭성 파라미터가 판독되고 단계(909)에 의해 도 9에 도시된 바와 같이 인코더에서 구현된 인코딩의 역을 사용하여 디코딩된다.
디코딩되고 있는 현재의 부대역이 인코더에서 사용된 부대역 값(l_N)보다 큰 경우이면 다음 두 (제1 및 제2 이차적) DCT 확산 간섭성 파라미터가 판독되고 단계(911)에 의해 도 9에 도시된 바와 같이 인코더에서 구현된 인코딩의 역을 사용하여 디코딩된다.
2개(또는 3개)의 DCT 파라미터를 디코딩하였으면 다음 동작은 단계(913)에 의해 도 9에 도시된 바와 같이 디코딩된 벡터를 생성하기 위해 파라미터에 대해 역 DCT를 수행하는 것이다.
디코딩된 벡터는 이후에 부대역을 위한 시간-주파수 블록 확산 간섭성 값으로서 판독될 수 있다. 다음 동작은 단계(915)에 의해 도 9에 도시된 바와 같이 모든 부대역이 디코딩되었는지를 체크하는 것이다.
디코딩될 다른 부대역이 있는 경우에 동작은 단계(903)으로 되돌아갈 수 있다.
모든 부대역이 디코딩된 경우이면 단계(917)에 의해 도 9에 도시된 바와 같이 다음 프레임 디코딩이 시작될 수 있다(다시 말해 동작은 단계(901)로 되돌아감).
도 10에 관해서 분석 또는 합성 디바이스로서 사용될 수 있는 예시적인 전자 디바이스가 도시된다. 디바이스는 임의의 적합한 전자 디바이스 또는 장치일 수 있다. 예를 들어 몇몇 실시예에서 디바이스(1400)는 모바일 디바이스(mobile device), 사용자 장비(user equipment), 태블릿 컴퓨터(tablet computer), 컴퓨터, 오디오 재생 장치 등이다.
몇몇 실시예에서 디바이스(1400)는 적어도 하나의 프로세서 또는 중앙 처리 유닛(central processing unit)(1407)을 포함한다. 프로세서(1407)는 분 문서에 기술된 바와 같은 방법과 같은 다양한 프로그램 코드를 실행하도록 구성될 수 있다.
몇몇 실시예에서 디바이스(1400)는 메모리(1411)를 포함한다. 몇몇 실시예에서 적어도 하나의 프로세서(1407)는 메모리(1411)에 커플링된다. 메모리(1411)는 임의의 적합한 저장 수단일 수 있다. 몇몇 실시예에서 메모리(1411)는 프로세서(1407) 상에 구현가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션(program code section)을 포함한다. 나아가 몇몇 실시예에서 메모리(1411)는 데이터, 예를 들어 본 문서에 기술된 바와 같은 실시예에 따라 처리되었거나 처리될 데이터를 저장하기 위한 저장된 데이터 섹션(stored data section)을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션 내에 저장된 데이터는 메모리-프로세서 커플링을 통해 필요할 때마다 프로세서(1407)에 의해 인출될 수 있다.
몇몇 실시예에서 디바이스(1400)는 사용자 인터페이스(1405)를 포함한다. 사용자 인터페이스(1405)는 몇몇 실시예에서 프로세서(1407)에 커플링될 수 있다. 몇몇 실시예에서 프로세서(1407)는 사용자 인터페이스(1405)의 동작을 제어하고 사용자 인터페이스(1405)로부터 입력을 수신할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 사용자로 하여금, 예를 들어 키패드(keypad)를 통해, 디바이스(1400)에 명령을 입력할 수 있도록 할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 사용자로 하여금 디바이스(1400)로부터 정보를 획득할 수 있도록 할 수 있다. 예를 들어 사용자 인터페이스(1405)는 디바이스(1400)로부터 사용자에 정보를 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 정보가 디바이스(1400)에 입력될 수 있게 하는 것 및 또한 디바이스(1400)의 사용자에게 정보를 디스플레이하는 것 양자 모두가 가능한 터치 스크린 또는 터치 인터페이스를 포함할 수 있다. 몇몇 실시예에서 사용자 인터페이스(1405)는 본 문서에 기술된 바와 같은 위치 결정기와의 통신을 위한 사용자 인터페이스일 수 있다.
몇몇 실시예에서 디바이스(1400)는 입력/출력 포트(input/output port)(1409)를 포함한다. 입력/출력 포트(1409)는 몇몇 실시예에서 송수신기(transceiver)를 포함한다. 그러한 실시예에서 송수신기는 프로세서(1407)에 커플링되고, 예를 들어 무선 통신 네트워크를 통해, 다른 장치 또는 전자 디바이스와의 통신을 가능하게 하도록 구성될 수 있다. 송수신기 또는 임의의 적합한 송수신기 또는 송신기 및/또는 수신기 수단은 몇몇 실시예에서 배선 또는 유선 커플링을 통해 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.
송수신기는 임의의 적합한 알려진 통신 프로토콜에 의해 추가의 장치와 통신할 수 있다. 예를 들어 몇몇 실시예에서 송수신기는 적합한 범용 모바일 전기통신 시스템(Universal Mobile Telecommunications System: UMTS) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 로컬 영역 네트워크(Wireless Local Area Network: WLAN) 프로토콜, 적합한 단거리 무선 주파수 통신 프로토콜, 예컨대 블루투스(Bluetooth), 또는 적외선 데이터 통신 경로(Infrared Data Communication Pathway: IRDA)를 사용할 수 있다.
송수신기 입력/출력 포트(1409)는 신호를 수신하고 몇몇 실시예에서 적합한 코드를 실행하는 프로세서(1407)를 사용함으로써 본 문서에 기술된 바와 같은 파라미터를 판정하도록 구성될 수 있다. 나아가 디바이스는 합성 디바이스에 송신될 적합한 다운믹스 신호 및 파라미터 출력을 생성할 수 있다.
몇몇 실시예에서 디바이스(1400)는 합성 디바이스의 적어도 일부로서 이용될 수 있다. 이와 같이 입력/출력 포트(1409)는 다운믹스 신호를, 그리고 몇몇 실시예에서 본 문서에 기술된 바와 같은 캡처 디바이스 또는 처리 디바이스에서 판정된 파라미터를 수신하고, 적합한 코드를 실행하는 프로세서(1407)를 사용함으로써 적합한 오디오 신호 포맷 출력을 생성하도록 구성될 수 있다. 입력/출력 포트(1409)는 임의의 적합한 오디오 출력에, 예를 들어 멀티채널 스피커 시스템 및/또는 헤드폰 또는 유사한 것에 커플링될 수 있다.
일반적으로, 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직(logic) 또는 이의 임의의 조합으로 구현될 수 있다. 예를 들어, 몇몇 양상은 하드웨어로 구현될 수 있는 반면에, 다른 양상은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있는데, 다만 발명은 이에 한정되지 않는다. 발명의 다양한 양상이 블록도, 흐름도로서, 또는 어떤 다른 그림 표현을 사용하여 예시되고 기술될 수 있으나, 본 문서에 기술된 이들 블록, 장치, 시스템, 기법 또는 방법은, 비한정적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 일반 목적 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스, 또는 이의 어떤 조합으로 구현될 수 있음이 잘 이해된다.
이 발명의 실시예는, 프로세서 개체 내에서와 같은, 모바일 디바이스의 데이터 프로세서에 의해 실행가능한 컴퓨터 소프트웨어에 의해, 또는 하드웨어에 의해, 또는 소프트웨어 및 하드웨어의 조합에 의해 구현될 수 있다. 또한 이 점에서 도면에서와 같은 로직 흐름의 임의의 블록은 프로그램 단계, 또는 상호연결된 로직 회로, 블록 및 기능, 또는 프로그램 단계 및 로직 회로, 블록 및 기능의 조합을 나타낼 수 있음에 유의하여야 한다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블록과 같은 물리적 매체, 하드 디스크 또는 플로피 디스크와 같은 자기적 매체, 그리고 예를 들어 DVD 및 이의 데이터 변형인 CD와 같은 광학적 매체 상에 저장될 수 있다.
메모리는 국소적인 기술적 환경에 적합한 임의의 타입의 것일 수 있고 반도체 기반 메모리 디바이스, 자기적 메모리 디바이스 및 시스템, 광학적 메모리 디바이스 및 시스템, 고정형(fixed) 메모리 및 탈거가능(removable) 메모리와 같은 임의의 적합한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 국소적인 기술적 환경에 적합한 임의의 타입의 것일 수 있고, 비한정적인 예로서, 일반 목적 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(Digital Signal Processor: DSP), 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit: ASIC), 멀티 코어 프로세서 아키텍처(multi-core processor architecture)에 기반한 게이트 레벨 회로 및 프로세서 중 하나 이상을 포함할 수 있다.
발명의 실시예는 집적 회로 모듈과 같은 다양한 컴포넌트에서 실시될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판 상에서 에칭되고(etched) 형성될 준비가 된 반도체 회로 설계로 변환하기 위해 복합적이고 강력한 소프트웨어 툴이 이용가능하다.
캘리포니아 마운틴 뷰(Mountain View)의 시놉시스 사(Synopsys, Inc.) 및 캘리포니아 산호세(San Jose)의 케이던스 디자인(Cadence Design)에 의해 제공되는 것과 같은 프로그램은 사전저장된 설계 모듈의 라이브러리뿐만 아니라 잘 수립된 설계 규칙을 사용하여 도전체(conductor)를 자동적으로 라우팅하고(route) 반도체 칩 상에 컴포넌트를 위치시킨다. 일단 반도체 회로에 대한 설계가 완료되었으면, 표준화된 전자 포맷(가령, Opus, GDSII 또는 유사한 것)으로 된 결과적인 설계는 반도체 제조 설비 또는 제조를 위한 "팹"(fab)으로 보내질 수 있다.
전술한 설명은 이 발명의 예시적인 실시예의 완전하고 유익한 설명을 예시적이고 비한정적인 예로서 제공하였다. 그러나, 첨부된 도면 및 부기된 청구항과 함께 판독되는 경우에, 전술한 설명에 비추어 볼 때 당업자에게 다양한 수정 및 적응이 명백하게 될 수 있다. 그러나, 이 발명의 교시의 모든 그러한 및 유사한 수정은 부기된 청구항에서 정의되는 바와 같은 이 발명의 범위 내에 여전히 속할 것이다.

Claims (32)

  1. 오디오 신호의 프레임(frame)의 부대역(sub-band)을 위한 값을 수신 - 상기 값은 각각의 부대역을 위한 적어도 하나의 방위각(azimuth) 값, 적어도 하나의 고도(elevation) 값, 적어도 하나의 에너지 비율(energy ratio) 값, 및 적어도 하나의 간섭성(coherence) 값을 포함하되, 상기 적어도 하나의 간섭성 값은 적어도 하나의 확산 간섭성 값 또는 적어도 하나의 서라운드 간섭성 값 또는 둘 모두를 포함함 - 하는 수단,
    프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값의 분산(variance)에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북(codebook)을 결정하는 수단,
    적어도 하나의 벡터를 이산 코사인 변환(discrete cosine transforming) - 상기 적어도 하나의 벡터는 상기 프레임에 대한 부대역을 위한 상기 적어도 하나의 간섭성 값을 포함함 - 하는 수단,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단을 포함하는
    장치.
  2. 제1항에 있어서,
    프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값 및 상기 적어도 하나의 방위각 값의 상기 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 수단은 또한,
    상기 프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값의 가중 평균(weighted average)을 나타내는 인덱스(index)를 획득하고,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정(measure)이 결정된 임계 값 이상인지를 판정하고,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 인덱스에 기반하여 상기 코드북을 선택하기 위한 것인,
    장치.
  3. 제2항에 있어서,
    프레임에 대한 부대역을 위한 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 인덱스에 기반하여 상기 코드북을 선택하는 수단은 또한, 상기 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하기 위한 것인,
    장치.
  4. 제1항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한,
    상기 이산 코사인 변환된 벡터의 상기 제1 개수는 상기 부대역에 따름을 판정하고,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 인코딩하기 위한 것인,
    장치.
  5. 제4항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한,
    부대역의 인덱스에 기반하여 스칼라 양자화하기(scalar quantizing) 위한 코드북을 결정 - 각각의 코드북은 결정된 개수의 코드워드를 포함함 - 하고,
    상기 결정된 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 생성하고,
    상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 상기 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스(mean removed index)를 생성하고,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하기(entropy encoding) 위한 것인,
    장치.
  6. 제4항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 수단은 또한,
    정의된 개수의 코드워드를 가진 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 판정 - 상기 코드북은 또한 상기 벡터의 부대역 인덱스에 기반함 - 하고,
    상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 상기 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 판정하고,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하기 위한 것인,
    장치.
  7. 제5항에 있어서,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하는 수단은 또한 상기 평균의 제거된 인덱스를 골롬-라이스(Golomb-Rice) 인코딩하기 위한 것인,
    장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 이산 코사인 변환된 벡터의 상기 인코딩된 제1 개수의 성분을 저장하거나 송신하기 위한 수단을 더 포함하는,
    장치.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 상기 코드북을 결정하기에 적합한 적어도 하나의 에너지 비율 값 인덱스를 생성하기 위해, 상기 적어도 하나의 에너지 비율 값을 스칼라 양자화하는 수단을 더 포함하는,
    장치.
  10. 제5항 또는 제6항에 있어서,
    비트의 타겟 개수(target number), 인코딩 전 상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하기 위한 비트의 개수의 추정치, 적어도 하나의 에너지 비율 값 인덱스를 나타내는 비트의 개수 및 상기 평균의 제거된 인덱스의 상기 엔트로피 인코딩을 나타내는 비트의 개수에 기반하여 상기 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기 위한 잔존하는 비트의 개수를 추정하는 수단, 및
    잔존하는 비트의 상기 개수에 기반하여 기반하여 적어도 하나의 방위각 값 인덱스 및 적어도 하나의 고도 값 인덱스를 생성하기 위해 상기 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하는 수단
    을 더 포함하되,
    각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 상기 코드북을 결정하는 것은 상기 적어도 하나의 방위각 값 인덱스에 기반하는,
    장치.
  11. 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득 - 상기 값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 간섭성 인덱스를 포함하되, 상기 적어도 하나의 간섭성 인덱스는 적어도 하나의 확산 간섭성 인덱스 또는 적어도 하나의 서라운드 간섭성 인덱스 또는 둘 모두를 포함함 - 하는 수단,
    적어도 하나의 방위각 값을 제공하기 위해 상기 적어도 하나의 방위각 인덱스를 디코딩하는 수단,
    상기 적어도 하나의 에너지 비율 인덱스 및 상기 적어도 하나의 방위각 값의 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 수단,
    적어도 하나의 벡터를 생성하기 위해 상기 적어도 하나의 간섭성 인덱스를 역 이산 코사인 변환(inverse discrete cosine transforming) - 상기 적어도 하나의 벡터는 상기 프레임에 대한 부대역을 위한 적어도 하나의 간섭성 값을 포함하되, 상기 적어도 하나의 간섭성 값은 적어도 하나의 확산 간섭성 값 또는 적어도 하나의 서라운드 간섭성 값 또는 둘 모두를 포함함 - 하는 수단, 및
    각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 생성하기 위해 상기 벡터를 파싱(parsing)하는 수단을 포함하는
    장치.
  12. 제11항에 있어서,
    상기 적어도 하나의 에너지 비율 인덱스 및 상기 적어도 하나의 방위각 값의 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 수단은 또한,
    프레임에 대한 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지를 판정하고,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 상기 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 선택하기 위한 것인,
    장치.
  13. 제12항에 있어서,
    프레임에 대한 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 상기 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 선택하는 것은 또한 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 위한 코드워드의 개수를 선택하기 위한 것인,
    장치.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 디코딩하는 것은 또한,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 디코딩하고,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 추가의 성분을 디코딩하고,
    상기 디코딩된 제1 성분 및 추가의 성분을 역 코사인 변환하기 위한 것인,
    장치.
  15. 오디오 신호의 프레임의 부대역을 위한 값을 수신하는 단계 - 상기 값은 각각의 부대역을 위한 적어도 하나의 방위각 값, 적어도 하나의 고도 값, 적어도 하나의 에너지 비율 값 및 적어도 하나의 간섭성 값을 포함하되, 상기 적어도 하나의 간섭성 값은 적어도 하나의 확산 간섭성 값 또는 적어도 하나의 서라운드 간섭성 값 또는 둘 모두를 포함함 - 와,
    프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값 및 적어도 하나의 방위각 값의 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 단계와,
    적어도 하나의 벡터를 이산 코사인 변환하는 단계 - 상기 적어도 하나의 벡터는 상기 프레임에 대한 부대역을 위한 상기 적어도 하나의 간섭성 값을 포함함 - 와,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 단계를 포함하는
    방법.
  16. 제15항에 있어서,
    프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값 및 상기 적어도 하나의 방위각 값의 상기 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 코드북을 결정하는 단계는 또한,
    상기 프레임에 대한 각각의 부대역을 위한 상기 적어도 하나의 에너지 비율 값의 가중 평균을 나타내는 인덱스를 획득하는 단계와,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지를 판정하는 단계와,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 인덱스에 기반하여 상기 코드북을 선택하는 단계를 포함하는,
    방법.
  17. 제16항에 있어서,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 인덱스에 기반하여 상기 코드북을 선택하는 단계는 또한,
    상기 인덱스에 기반하여 코드북을 위한 코드워드의 개수를 선택하는 단계를 포함하는,
    방법.
  18. 제15항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 단계는 또한,
    상기 이산 코사인 변환된 벡터의 상기 제1 개수는 상기 부대역에 따름을 판정하는 단계와,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 인코딩하는 단계를 포함하는,
    방법.
  19. 제18항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 단계는 또한,
    부대역의 인덱스에 기반하여 스칼라 양자화하기 위한 코드북을 결정하는 단계 - 각각의 코드북은 결정된 개수의 코드워드를 포함함 - 와,
    상기 결정된 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 생성하는 단계와,
    상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 상기 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 생성하는 단계와,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하는 단계를 포함하는,
    방법.
  20. 제18항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하는 단계는 또한,
    정의된 개수의 코드워드를 가진 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 적어도 하나의 추가의 인덱스를 판정 - 상기 코드북은 또한 상기 벡터의 부대역 인덱스에 기반함 - 하는 단계와,
    상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 나머지 성분을 위한 상기 적어도 하나의 추가의 인덱스에 기반하여 평균의 제거된 인덱스를 판정하는 단계와,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하는 단계를 포함하는,
    방법.
  21. 제19항에 있어서,
    상기 평균의 제거된 인덱스를 엔트로피 인코딩하는 단계는 또한 상기 평균의 제거된 인덱스를 골롬-라이스(Golomb-Rice) 인코딩하는 단계를 포함하는,
    방법.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 이산 코사인 변환된 벡터의 상기 인코딩된 제1 개수의 성분을 저장하거나 송신하는 단계를 더 포함하는,
    방법.
  23. 제15항 내지 제21항 중 어느 한 항에 있어서,
    각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 상기 코드북을 결정하기에 적합한 적어도 하나의 에너지 비율 값 인덱스를 생성하기 위해, 상기 적어도 하나의 에너지 비율 값을 스칼라 양자화하는 단계를 더 포함하는,
    방법.
  24. 제19항 또는 제20항에 있어서,
    비트의 타겟 개수, 인코딩 전 상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 인코딩하기 위한 비트의 개수의 추정치, 적어도 하나의 에너지 비율 값 인덱스를 나타내는 비트의 개수 및 상기 평균의 제거된 인덱스의 상기 엔트로피 인코딩을 나타내는 비트의 개수에 기반하여 상기 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하기 위한 잔존하는 비트의 개수를 추정하는 단계와,
    잔존하는 비트의 상기 개수에 기반하여 기반하여 적어도 하나의 방위각 값 인덱스 및 적어도 하나의 고도 값 인덱스를 생성하기 위해 상기 적어도 하나의 방위각 값 및 적어도 하나의 고도 값을 인코딩하는 단계를 더 포함하되, 각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 인코딩하기 위한 상기 코드북을 결정하는 단계는 상기 적어도 하나의 방위각 값 인덱스에 기반하는,
    방법.
  25. 오디오 신호의 프레임의 부대역을 위한 인코딩된 값을 획득하는 단계 - 상기 값은 각각의 부대역을 위한 적어도 하나의 방위각 인덱스, 적어도 하나의 고도 인덱스, 적어도 하나의 에너지 비율 인덱스 및 적어도 하나의 간섭성 인덱스를 포함하되, 상기 적어도 하나의 간섭성 인덱스는 적어도 하나의 확산 간섭성 인덱스 또는 적어도 하나의 서라운드 간섭성 인덱스 또는 둘 모두를 포함함 - 와,
    적어도 하나의 방위각 값을 제공하기 위해 상기 적어도 하나의 방위각 인덱스를 디코딩하는 단계와,
    상기 적어도 하나의 에너지 비율 인덱스 및 상기 적어도 하나의 방위각 값의 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 단계와,
    적어도 하나의 벡터를 생성하기 위해 상기 적어도 하나의 간섭성 인덱스를 역 이산 코사인 변환하는 단계 - 상기 적어도 하나의 벡터는 상기 프레임에 대한 부대역을 위한 적어도 하나의 간섭성 값을 포함하되, 상기 적어도 하나의 간섭성 값은 적어도 하나의 확산 간섭성 값 또는 적어도 하나의 서라운드 간섭성 값 또는 둘 모두를 포함함 - 와,
    각각의 부대역을 위한 상기 적어도 하나의 간섭성 값을 생성하기 위해 상기 벡터를 파싱하는 단계를 포함하는
    방법.
  26. 제25항에 있어서,
    상기 적어도 하나의 에너지 비율 인덱스 및 상기 적어도 하나의 방위각 값의 분산에 기반하여 각각의 부대역을 위한 상기 적어도 하나의 간섭성 인덱스를 디코딩하기 위한 코드북을 결정하는 단계는 또한,
    프레임에 대한 부대역을 위한 상기 적어도 하나의 방위각 값의 분산의 측정이 결정된 임계 값 이상인지를 판정하는 단계와,
    프레임에 대한 상기 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 상기 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 선택하는 단계를 포함하는,
    방법.
  27. 제26항에 있어서,
    프레임에 대한 부대역을 위한 상기 적어도 하나의 방위각 값의 상기 분산의 상기 측정이 결정된 임계 값 이상인지의 상기 판정 및 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 선택하는 단계는 또한 상기 적어도 하나의 에너지 비율 인덱스에 기반하여 상기 코드북을 위한 코드워드의 개수를 선택하는 단계를 포함하는,
    방법.
  28. 제25항 내지 제27항 중 어느 한 항에 있어서,
    상기 결정된 코드북에 기반하여 상기 이산 코사인 변환된 벡터의 제1 개수의 성분을 디코딩하는 단계는 또한,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 제1 성분을 디코딩하는 단계와,
    상기 코드북에 기반하여 상기 제1 개수의 이산 코사인 변환된 벡터 성분 중의 추가의 성분을 디코딩하는 단계와,
    상기 디코딩된 제1 성분 및 추가의 성분을 역 코사인 변환하는 단계를 포함하는,
    방법.
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
KR1020217016353A 2018-10-31 2019-10-01 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정 KR102587641B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1817807.9A GB2578603A (en) 2018-10-31 2018-10-31 Determination of spatial audio parameter encoding and associated decoding
GB1817807.9 2018-10-31
GBGB1903850.4A GB201903850D0 (en) 2019-03-21 2019-03-21 Determination of spatial audio parameter encoding and associated decoding
GB1903850.4 2019-03-21
PCT/FI2019/050704 WO2020089510A1 (en) 2018-10-31 2019-10-01 Determination of spatial audio parameter encoding and associated decoding

Publications (2)

Publication Number Publication Date
KR20210089184A KR20210089184A (ko) 2021-07-15
KR102587641B1 true KR102587641B1 (ko) 2023-10-10

Family

ID=70462154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217016353A KR102587641B1 (ko) 2018-10-31 2019-10-01 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정

Country Status (9)

Country Link
US (1) US12009001B2 (ko)
EP (1) EP3874492B1 (ko)
JP (1) JP7213364B2 (ko)
KR (1) KR102587641B1 (ko)
CN (1) CN112997248A (ko)
ES (1) ES2968494T3 (ko)
FI (1) FI3874492T3 (ko)
PT (1) PT3874492T (ko)
WO (1) WO2020089510A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
US12073842B2 (en) * 2019-06-24 2024-08-27 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
GB2592896A (en) * 2020-01-13 2021-09-15 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
WO2022129672A1 (en) * 2020-12-15 2022-06-23 Nokia Technologies Oy Quantizing spatial audio parameters
WO2022223133A1 (en) * 2021-04-23 2022-10-27 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
GB2624874A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding
CN118314908A (zh) * 2023-01-06 2024-07-09 华为技术有限公司 场景音频解码方法及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374237B2 (en) 2001-03-02 2013-02-12 Dolby Laboratories Licensing Corporation High precision encoding and decoding of video images
US6735254B2 (en) 2001-06-29 2004-05-11 Qualcomm, Inc. DCT compression using Golomb-Rice coding
KR100519260B1 (ko) * 2002-02-21 2005-10-06 주식회사 애드일렉코 고속 최적화된 무선마이크 장치 및 그 제어방법
WO2005098825A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatuses thereof
BRPI0605857A (pt) * 2005-04-19 2007-12-18 Coding Tech Ab quantização dependente de energia para a codificação eficiente de parámetros de áudio espacial
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
US20070094035A1 (en) 2005-10-21 2007-04-26 Nokia Corporation Audio coding
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
PT2684190E (pt) 2011-03-10 2016-02-23 Ericsson Telefon Ab L M Preenchimento de sub-vectores não codificados em sinais de aúdio codificados por transformação
US9659569B2 (en) * 2013-04-26 2017-05-23 Nokia Technologies Oy Audio signal encoder
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
CN107221334B (zh) * 2016-11-01 2020-12-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572761A (en) 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
GB2575305A (en) 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2577698A (en) 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
GB2578603A (en) * 2018-10-31 2020-05-20 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719. 2008.06.*
On spatial metadata for IVAS spatial audio input format. 3GPP TSG-SA4#98 meeting S4?180462, https://www.3gpp.org/dynareport?code=TDocExMtg--S4-98--19569.htm. 2018.04.09.*

Also Published As

Publication number Publication date
EP3874492A4 (en) 2022-08-10
FI3874492T3 (fi) 2024-01-08
JP7213364B2 (ja) 2023-01-26
WO2020089510A1 (en) 2020-05-07
PT3874492T (pt) 2024-01-09
CN112997248A (zh) 2021-06-18
EP3874492B1 (en) 2023-12-06
US20210407525A1 (en) 2021-12-30
KR20210089184A (ko) 2021-07-15
US12009001B2 (en) 2024-06-11
ES2968494T3 (es) 2024-05-09
JP2022509440A (ja) 2022-01-20
EP3874492A1 (en) 2021-09-08

Similar Documents

Publication Publication Date Title
KR102587641B1 (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
EP3861548B1 (en) Selection of quantisation schemes for spatial audio parameter encoding
CN112639966A (zh) 空间音频参数编码和关联解码的确定
KR20220062599A (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
US20240185869A1 (en) Combining spatial audio streams
KR20220128398A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩
WO2020260756A1 (en) Determination of spatial audio parameter encoding and associated decoding
KR20200140874A (ko) 공간 오디오 파라미터의 양자화
GB2578603A (en) Determination of spatial audio parameter encoding and associated decoding
US20230335143A1 (en) Quantizing spatial audio parameters
US20240046939A1 (en) Quantizing spatial audio parameters
JPWO2020089510A5 (ko)
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
KR102664650B1 (ko) 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩
KR20230133341A (ko) 공간 오디오 파라미터들의 변환
KR20230135665A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정
CN116508332A (zh) 空间音频参数编码和相关解码

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant