KR102535997B1

KR102535997B1 - 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법

Info

Publication number: KR102535997B1
Application number: KR1020207017280A
Authority: KR
Inventors: 기욤 훅스; 위르겐 헤레; 파비앙 쿠치; 스테판 돌라; 마르쿠스 뮬트러스; 올리버 티르가르텐; 올리버 뷔볼트; 플로린 기도; 슈테판 바이엘; 볼프강 예거
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2017-11-17
Filing date: 2018-11-16
Publication date: 2023-05-23
Also published as: AU2018368588B2; US20230410819A1; CN117351970A; FI3711047T3; TWI708241B; PL3711047T3; CN111656441B; AU2018368588A1; TW201923750A; ZA202003476B; TWI752281B; US11367454B2; TW202145197A; JP2021503628A; US20220130404A1; JP2024003010A; JP2021503627A; TWI759240B; US20200273473A1; JP2022171686A

Abstract

확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하는 장치는 제1 시간 또는 주파수 해상도로 확산 파라미터를 계산하고 제2 시간 또는 주파수 해상도로 방향 파라미터를 계산하기 위한 파라미터 계산기(100); 및 확산 파라미터 및 방향 파라미터의 양자화 및 인코딩된 표현을 생성하기 위한 양자화기 및 인코더 프로세서(200)를 포함한다.

Description

상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법

본 발명은 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법에 관한 것이다.

[1] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan. [2] V. Pulkki, "Virtual source positioning using vector base amplitude panning", J. Audio Eng. Soc., 45(6):456-466, June 1997. [3] J. Ahonen and V. Pulkki, "Diffuseness estimation using temporal variation of intensity vectors", in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, New Paltz, 2009. [4] T. Hirvonen, J. Ahonen, and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126th Convention, 2009, May 7-10, Munich, Germany.

본 발명은 오디오 신호 프로세싱, 특히 DirAC 메타 데이터와 같은 지향성 오디오 코딩 파라미터(directional audio coding parameter)의 효율적인 코딩 방식에 관한 것이다.
본 발명은 공간 오디오 프로세싱(spatial audio processing)을 위한 지각적으로 동기화된 기술인 지향성 오디오 코딩(Directional Audio Coding)(DirAC)에 의해 수행된 3D 오디오 장면 분석(audio scene analysis)으로부터 공간 메타 데이터를 코딩하기 위한 낮은 비트 레이트 코딩 솔루션(low bit-rate coding solution)을 제안하는 것을 목표로 한다.
오디오 장면을 3 차원으로 전송하려면 일반적으로 많은 양의 데이터를 전송하는 여러 채널을 처리해야 한다. 지향성 오디오 코딩(DirAC) 기술 [1]은 오디오 장면을 분석하고 이를 파라메트릭 방식(parametrically)으로 표현하기 위한 효율적인 접근 방식이다. DirAC는 도달 방향(direction of arrival)(DOA)과 주파수 대역 당 측정된 확산(diffuseness)에 기초한 음장(sound field)의 지각적으로 동기 부여된 표현을 사용한다. 한 순간(one time instant)에 그리고 하나의 임계 대역에 대해, 청각 시스템(auditory system)의 공간 해상도는 방향에 대한 하나의 큐와 청각간 일관성(inter-aural coherence)에 대한 다른 하나의 큐를 디코딩 하는 것으로 제한된다는 가정에 기초한다. 공간 사운드는 두 개의 스트림을 교차 페이딩(cross-fading) 하여 주파수 도메인에서 재생된다: 비 방향성 확산 스트림(non-directional diffuse stream) 및 방향성 비확산 스트림(directional non-diffuse stream).
본 발명은 낮은 비트 레이트로 몰입형(immersive) 오디오 컨텐츠의 전송을 달성하기 위한 DirAC 사운드 표현 및 재생에 기초한 3D 오디오 코딩 방법을 개시한다. DirAC는 지각적으로 동기 부여된 공간 사운드 재생이다. 한 순간에 그리고 하나의 임계 대역에 대해, 청각 시스템의 공간 해상도는 방향에 대한 하나의 큐 및 청각간 일관성에 대한 다른 하나의 큐를 디코딩 하는 것으로 제한된다고 가정된다.
이러한 가정을 기반으로 DirAC는 두 개의 스트림을 교차 페이딩 하여 하나의 주파수 대역에서 공간 사운드를 나타낸다: 비 방향성 확산 스트림 및 방향성 비확산 스트림. DirAC 프로세싱은 두 단계로 수행된다: 도 10a 및 10b에 도시된 바와 같이 분석 및 합성.
DirAC 분석 단계에서, B 포멧의 1 차 일치 마이크로폰은 입력으로 간주되며 사운드의 확산 및 도달 방향은 주파수 도메인에서 분석된다.
DirAC 합성 단계에서, 사운드는 비확산 스트림과 확산 스트림의 두 스트림으로 나뉜다. 비확산 스트림은 벡터 베이스 진폭 패닝(vector base amplitude panning)(VBAP)을 사용하여 수행될 수 있는 진폭 패닝을 사용하여 포인트 소스로 재생된다 [2]. 확산 스트림(diffuse stream)은 엔벨로프의 감각(sensation of envelopment)을 담당하고 상호 역상관 신호(decorrelated signal)를 스피커로 전달함으로써 생성된다.
이하에서 공간 메타 데이터 또는 DirAC 메타 데이터라고도 하는 DirAC 파라미터는 확산 및 방향의 튜플(tuple)로 구성된다. 방향은 방위(azimuth)와 고도(elevation)의 두 각도로 구면 좌표로 표시할 수 있으며 확산은 0과 1 사이의 스칼라 계수(scalar factor)이다.
도 10a는 B 포맷 입력 신호를 수신하는 필터 뱅크(filter bank)(130)를 도시한다. 에너지 분석(energy analysis)(132) 및 강도 분석(intensity analysis)(134)이 수행된다. 136에 표시된 에너지 결과에 대한 시간 평균(temporal averaging) 및 138에 표시된 강도 결과에 대한 시간 평균이 수행되고, 평균 데이터로부터, 개별 시간/주파수 빈(bin)에 대한 확산 값(diffuseness value)은 110에 표시된 대로 계산된다. 필터 뱅크(filter bank)(130)의 시간 또는 주파수 해상도에 의해 주어진 시간/주파수 빈에 대한 방향 값은 블록(block) 120에 의해 계산된다.
도 10b에 도시된 DirAC 합성에서, 다시 분석 필터 뱅크(analysis filter bank)(431)가 사용된다. 가상 마이크로폰 프로세싱 블록(virtual microphone processing block) 421이 적용되며, 여기서 가상 마이크로폰은 예를 들어 5.1 라우드 스피커 셋업의 라우드 스피커 위치에 대응한다. 확산 메타 데이터는 확산에 대한 대응하는 프로세싱 블록(processing block) 422 및 블록 423에 표시된 VBAP(벡터 기반 진폭 패닝(ector based amplitude panning)) 이득 테이블에 의해 프로세싱 된다. 라우드 스피커 평균화 블록(loudspeaker averaging block) 424는 이득 평균화를 수행하도록 구성되고, 대응하는 정규화 블록(normalization block) 425은 개별 최종 라우드 스피커 신호에서 대응하는 정의된 라우드니스 레벨을 갖도록 적용된다. 블록 426에서 마이크로폰 보상(microphone compensation)이 수행된다.
반면에, 결과적인 신호는 역상관 단계를 포함하는 확산 스트림(a diffuse stream)(427)을 생성하기 위해 사용되며, 또한, 비확산 스트림(non-diffuse stream)(428)도 생성된다. 두 스트림 모두 대응하는 서브 대역(sub-band)에 대한 가산기(adder)(429)에 추가되고, 블록 431에서, 다른 서브 대역과의 추가, 즉 주파수-시간 변환이 수행된다. 따라서, 블록 431은 또한 합성 필터 뱅크 인 것으로 간주될 수 있다. 특정 라우드 스피커 설정으로부터 다른 채널들에 대해서도 유사한 프로세싱 동작이 수행되는데, 다른 채널에 대해서는 블록 421에서의 가상 마이크로폰의 설정이 상이할 것이다.
DirAC 분석 단계에서, B 포멧의 1 차 일치 마이크로폰(coincident microphone)는 입력으로 간주되며 사운드의 확산 및 도달 방향은 주파수 도메인에서 분석된다.
DirAC 합성 단계에서 사운드는 두 개의 스트림으로 나뉜며, 비확산 스트림(non-diffuse stream) 및 확산 스트림(diffuse stream). 비확산 스트림은 벡터 베이스 진폭 패닝(VBAP)을 사용하여 수행될 수 있는 진폭 패닝을 사용하여 포인트 소스로 재생된다 [2]. 확산 스트림은 엔벨로프의 감각을 담당하고 상호 역상관 신호를 스피커로 전달함으로써 생성된다.
이하에서 공간 메타 데이터 또는 DirAC 메타 데이터라고도 하는 DirAC 파라미터는 확산 및 방향의 튜플로 구성된다. 방향은 방위과 고도의 두 각도로 구면 좌표로 표시할 수 있으며 확산은 0과 1 사이의 스칼라 계수이다.
일반적으로 여러 논문에서 권장되는, STFT가 20ms의 시간 해상도를 가지고 인접한 분석창 사이에 50 %의 겹침이 있는 시간-주파수 변환으로 간주되는 경우, DirAC 분석은 48kHz로 샘플링 된 입력에 대해 초당 288000 값을 생성하는데, 이는 각도가 8 비트에서 약 2.3Mbit/s의 총 비트 레이트로 양자화되는 경우에 해당한다. 데이터 양이 낮은 비트 레이트 공간 오디오 코딩을 달성하기에 적합하지 않은 경우, 그러면 DirAC 메타 데이터의 효율적인 코딩 방식이 필요하다.
메타 데이터 축소에 관한 이전의 작업은 주로 전화 회의 시나리오에 초점을 맞추었고, 여기서 DirAC의 기능은 파라미터의 최소 데이터 속도를 허용하기 위해 크게 감소했다 [4]. 실제로, 2D 오디오 장면만을 재생하기 위해 방향 분석을 수평 평면에서의 방위로 제한하는 것이 제안된다. 또한 확산 및 방위는 최대 7kHz까지만 전송되므로 광대역 스피치로의 통신이 제한된다. 마지막으로, 확산은 하나 또는 두 개의 비트에서 대략적으로 양자화되어 합성 단계에서 때때로 확산 스트림을 켜거나 끄게 되는데, 이는 여러 오디오 소스와 배경 잡음에 대한 단일 음성 이상을 고려할 때 일반적이지 않다. [4]에서, 방위는 3 비트로 양자화 되었으며, 이 경우 스피커는 소스가 매우 정적인 위치에 있다고 가정했다. 따라서 파라미터는 50ms 업데이트 빈도로만 전송된다. 이러한 많은 강력한 가정에 기초하여, 비트에 대한 요구는 약 3 kbit/s로 감소될 수 있다.
본 발명의 목적은 개선된 공간 오디오 코딩 개념을 제공하는 것이다.
이 목적은 청구항 제1항의 지향성 오디오 코딩 파라미터를 인코딩 하기 위한 장치, 제17항의 지향성 오디오 코딩 파라미터를 인코딩 하는 방법, 제18항의 인코딩된 오디오 신호를 디코딩 하기 위한 디코더, 제33항을 디코딩 하는 방법 또는 제34항의 컴퓨터 프로그램을 포함하는 컴퓨터 판독 가능 매체에 의해 달성된다.
일 양태에 따르면, 본 발명은 한편으로는 개선된 품질과 동시에, 한편으로는 확산 파라미터 다른 한편으로는 방향 파라미터(direction parameter)가 다른 해상도로 제공될 때 다른 한편으로는 공간 오디오 코딩 파라미터를 인코딩 하기 위한 감소된 비트 레이트가 얻어지고, 상이한 해상도를 갖는 상이한 파라미터는 인코딩된 지향성 오디오 코딩 파라미터를 획득하기 위해 양자화 및 인코딩된다.
일 실시예에서, 확산 파라미터에 대한 시간 또는 주파수 해상도는 방향 파라미터의 시간 또는 주파수 해상도 보다 낮다. 다른 실시예에서, 주파수뿐만 아니라 시간에 따른 그룹화도 수행된다. 원래의 확산/지향성 오디오 코딩 파라미터는 예를 들어 높은 해상도 시간/주파수 빈과 같은 높은 해상도로 계산되고, 낮은 시간 또는 주파수 해상도로 확산 파라미터 결과를 계산하고 중간 시간 또는 주파수 해상도로 방향 파라미터 결과를 계산하기 위하여, 즉, 시간 또는 주파수 해상도가 확산 파라미터에 대한 시간 또는 주파수 해상도와 원래의 원시 파라미터가 계산된 원래의 높은 해상도 사이에 있는 경우, 평균화를 통한 그룹화 및 바람직한 그룹화가 수행된다.
일 실시예에서, 제1 및 제2 시간 해상도(resolution)는 상이하고 제1 및 제2 주파수 해상도는 동일하거나 그 반대로, 즉 제1 및 제2 주파수 해상도는 상이하지만 제1 및 제2 시간 해상도는 동일하다. 다른 실시예에서, 제1 및 제2 시간 해상도는 다르고 제1 및 제2 주파수 행상도도 다르다. 이런 이유로, 제1 시간 또는 주파수 해상도(first time or frequency resolution)는 또한 제1 시간-주파수 해상도로 간주될 수 있고, 제2 시간 또는 주파수 해상도(second time or frequency resolution)는 또한 제2 시간-주파수 해상도로 간주될 수 있다.
다른 실시예에서, 확산 파라미터의 그룹화는 가중 가산으로 수행되며, 가중 가산에 대한 가중 계수(weighting factor)는 오디오 신호의 전력에 기초하여 결정되며, 따라서 오디오 신호에 대해 더 높은 전력 또는 일반적으로 더 높은 진폭 관련 측정을 갖는 시간/주파수 빈은, 분석될 신호가 더 낮은 파워 및 더 낮은 에너지 관련 측정을 가지는, 시간/주파수 빈에 대한 확산 파라미터 보다 결과에 높은 영향력을 갖는다.
그룹화 된 방향 파라미터의 계산을 위해 2 배 가중 평균화를 수행하는 것이 추가로 바람직하다. 이 2 중 가중 평균화는 시간/주파수 빈의 방향 파라미터가 이 시간/주파수 빈에서 원래 신호의 전력이 상당히 높을 때 최종 결과에 더 큰 영향을 미치는 방식으로 수행된다. 동시에 해당 빈의 확산 값도 고려되어 결국에는, 높은 확산을 갖는 시간/주파수 빈으로부터의 방향 파라미터는 전력이 시간/주파수 빈에서 동일할 때, 낮은 확산을 갖는 방향 파라미터에 비해 최종 결과에 대한 영향이 더 낮다.
각각의 프레임이 특정 수의 대역으로 구성되고, 각각의 대역이 2 개 이상의 원래 주파수 빈을 포함하며, 여기서 파라미터가 계산된 프레임에서 파라미터의 프로세싱을 수행하는 것이 바람직하다. 대역의 대역폭, 즉 원래 주파수 빈의 수는 대역 수가 증가함에 따라 증가하므로 고주파수 대역은 저주파수 대역 보다 넓다. 바람직한 실시예에서, 대역 및 프레임 당 확산 파라미터의 수는 1 인 반면, 프레임 및 대역 당 방향 파라미터의 수는 예를 들어 4와 같이 2 이상 또는 2 보다 크다는 것이 밝혀졌다. 확산 및 방향 파라미터에 대해 동일한 주파수 해상도, 상이한 시간 해상도가 유용하다는 것이 밝혀졌다. 즉, 프레임 내의 확산 파라미터 및 방향 파라미터에 대한 대역의 수는 서로 동일하다. 이러한 그룹화 된 파라미터는 양자화기 및 인코더 프로세서(quantizer and encoder processor)에 의해 양자화 및 인코딩된다.
본 발명의 제2 양태에 따르면, 공간 오디오 코딩 파라미터에 대한 개선된 프로세싱 개념을 제공하는 목적은 확산 파라미터 및 방향 파라미터를 양자화 하기 위한 파라미터 양자화기 및 양자화된 확산 파라미터 및 양자화된 방향 파라미터를 인코딩 하기 위해 후속적으로 연결된 파라미터 인코더와 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터에 대한 정보를 포함하는 인코딩된 파라미터 표현을 생성하기 위한 대응하는 출력 인터페이스에 의해 달성된다. 따라서, 양자화 및 후속 엔트로피 코딩에 의해, 상당한 데이터 레이트 감소가 얻어진다.
인코더에 입력되는 확산 파라미터 및 방향 파라미터는 높은 해상도 확산/방향 파라미터 또는 그룹화되거나 그룹화되지 않은 낮은 해상도 지향성 오디오 코딩 파라미터 일 수 있다. 바람직한 파라미터 양자화기의 하나의 특징은 방향 파라미터(direction parameter)를 양자화 하기 위한 양자화 정밀도가 동일한 시간/주파수 영역과 연관된 확산 파라미터의 확산 값으로부터 도출된다는 것이다. 따라서, 제2 양태의 하나의 특징에서, 높은 확산을 갖는 확산 파라미터와 연관된 방향 파라미터는 낮은 확산을 나타내는 확산 파라미터를 갖는 시간/주파수 영역과 연관된 방향 파라미터와 비교하여 덜 정확하게 양자화된다.
확산 파라미터 자체는 원시 코딩 모드(raw coding mode)에서 엔트로피 인코딩 될 수 있거나, 프레임의 대역에 대한 확산 파라미터가 프레임 전체에 걸쳐 동일한 값을 가질 때 단일 값 인코딩 모드에서 인코딩 될 수 있다. 다른 실시예에서, 확산 값은 2 개의 연속적인 값만의 절차로 인코딩 될 수 있다.
제2 양태의 른 특징은 방향 파라미터가 방위/고도 표현으로 변환된다는 것이다. 이 특징에서, 고도 값은 방위 값의 양자화 및 인코딩을 위한 알파벳을 결정하는데 사용된다. 바람직하게는, 방위는 고도가 단위 구체(unit sphere)의 0 각 또는 일반적으로 적도 각도를 나타낼 때 가장 큰 양의 다른 값을 갖는다. 방위 알파벳에서 가장 작은 값은 고도가 단위 구체의 북극 또는 남극을 나타내는 경우이다. 따라서, 적도에서 카운트 된 고도 각도(elevation angle)의 절대 값이 증가함에 따라 알파벳 값이 감소한다.
이 고도 값(elevation value)은 대응하는 확산 값으로부터 결정된 양자화 정밀도로 양자화되고, 한편으로는 양자화 알파벳 및 다른 한편으로는 양자화 정밀도는 대응하는 방위 값(azimuth value)의 양자화 및 전형적으로 엔트로피 코딩을 결정한다.
따라서, 가능한 한 관련성이 없는 것을 제거하고 동시에 가치가 있는 영역에 높은 해상도 또는 높은 정밀도를 적용하는 효율적이고 파라미터에 적합한 프로세싱이 수행되며, 반면에 단위 구체의 북극 또는 남극과 같은 다른 영역에서는 단위 구체의 적도에 비해 정밀도가 그리 높지 않다.
제1 양태에 따라 동작하는 디코더 측은 임의의 종류의 디코딩을 수행하고, 인코딩된 또는 디코딩된 확산 파라미터 및 인코딩된 또는 디코딩된 방향 파라미터로 대응하는 디 그룹핑을 수행한다. 따라서, 인코딩 또는 디코딩된 지향성 오디오 코딩 파라미터로부터 오디오 렌더러(audio renderer)에 의해 오디오 장면의 렌더링을 수행하기 위해 최종적으로 사용되는 해상도로 해상도를 향상시키기 위해 파라미터 해상도 변환이 수행된다. 이 해상도 변환 과정에서, 한편으로는 확산 파라미터 및 다른 한편으로는 방향 파라미터에 대해 상이한 해상도 변환이 수행된다. 확산 파라미터는 일반적으로 낮은 해상도로 인코딩 되며, 따라서 높은 해상도 표현을 얻으려면 하나의 확산 파라미터가 여러 번 곱해지거나 복사되어야 한다. 반면에, 방향 파라미터의 해상도가 인코딩된 오디오 신호의 확산 파라미터의 해상도 보다 이미 크기 때문에, 대응하는 방향 파라미터는 확산 파라미터와 비교하여 덜 자주 복사되거나 덜 자주 곱해져야 한다.
일 실시예에서, 복사 또는 곱해진 지향성 오디오 코딩 파라미터는 주파수 및/또는 시간에 따라 크게 변화하는 파라미터에 의해 야기되는 아티팩트(artifact)를 피하기 위해 평활화(smoothed) 또는 저역 통과 필터링과 같이 프로세싱 되거나 그대로 프로세싱 됨으로써 적용된다. 그러나, 바람직한 실시예에서, 해상도 변환된 파라메트릭 데이터의 적용은 스펙트럼 도메인에서 수행되고, 주파수 도메인으로부터 시간 도메인으로의 렌더링 된 오디오 신호의 대응하는 주파수-시간 변환은 합성 필터 뱅크(synthesis filter bank)에 전형적으로 포함되는 특징인 바람직하게 적용되는 오버랩 및 추가 절차로 인해 고유한 평균화를 수행한다.
제2 양태에 따른 디코더 측에서, 한편으로는 엔트로피 코딩 및 다른 한편으로는 양자화와 관련하여 인코더 측에서 수행되는 특정 절차는 실행 취소된다. 대응하는 방향 파라미터와 관련된 전형적으로 양자화된 또는 역 양자화된 확산 파라미터로부터 디코더 측에서의 양자화 정밀도를 결정하는 것이 바람직하다.
대응하는 확산 값 및 관련 역 양자화 정밀도로부터 고도 파라미터에 대한 알파벳을 결정하는 것이 바람직하다. 또한, 제2 양태는 양자화된 또는 바람직하게는 양자화된 고도 파라미터의 값에 기초하여 방위 파라미터에 대한 양자화 알파벳의 결정을 수행하는 것이 바람직하다.
제2 양태에 따르면, 한편으로는 원시 코딩 모드 또는 다른 한편으로는 엔트로피 코딩 모드가 인코더 측에서 수행되고, 더 적은 수의 비트를 초래하는 모드가 인코더 내에서 선택되고 일부 부가 정보를 통해 디코더에 시그널링 된다. 일반적으로, 원시 인코딩 모드는 항상 높은 확산 값과 관련된 방향 파라미터에 대해 수행되는 반면, 엔트로피 코딩 모드는 낮은 확산 값과 관련된 방향 파라미터에 대해 시도된다. 원시 코딩이 있는 엔트로피 코딩 모드에서, 방위 및 고도 값은 구체 인덱스(sphere index)로 병합되고 구체 인덱스는 이진 코드 또는 천공된 코드(punctured code)를 사용하여 인코딩 되고, 디코더 측에서 이 엔트로피 코딩은 그에 따라 취소된다.
모델링 엔트로피 코딩 모드에서, 프레임에 대한 평균 고도 및 방위 값이 계산되고, 이들 평균 값에 대한 잔존 값(residual value)이 실제로 계산된다. 그러므로, 예측의 종류가 수행되고 예측 잔존 값, 즉 고도 및 방위 거리는 엔트로피 인코딩된다. 이 목적을 위해, 바람직하게 부호 있는 거리 및 평균값 외에, 인코더 측에서 결정되고 인코딩된 골롬-리스 파라미터에 의존하는 확장된 골롬-라이스 절차(Golomb-Rice procedure)를 수행하는 것이 바람직하다. 모델링을 통한 엔트로피 코딩, 즉 이 디코딩 모드가 디코더에서 부가 정보 평가(side information evaluation)에 의해 시그널링 되고 결정되는 즉시 디코더 측 상에, 확장된 골롬-라이스 절차를 이용한 디코딩은 고도 및 방위에 대한 인코딩된 평균, 인코딩된 바람직하게 부호 있는 거리 및 대응하는 골롬-라이스 파라미터를 사용하여 수행된다.

본 발명의 바람직한 실시예는 첨부 도면과 관련하여 이후에 논의된다:
도 1a는 제1 양태 또는 제2 양태의 인코더 측의 바람직한 실시예를 도시한다;
도 1b는 제1 양태 또는 제2 양태의 디코더 측의 바람직한 실시예를 도시한다;
도 2a는 제1 양태에 따른 인코딩 장치의 바람직한 실시예를 도시한다;
도 2b는도 2a의 파라미터 계산기의 바람직한 구현을 도시한다;
도 2c는 확산 파라미터의 계산을 위한 추가 구현을 도시한다.
도 2d는 도 2a의 파라미터 계산기(100)의 다른 바람직한 구현을 도시한다.
도 3a는 높은 시간 또는 주파수 해상도로 도 1a의 분석 필터 뱅크(130) 또는 도 1b의 430에 의해 획득된 시간/주파수 표현을 도시한다;
도 3b는 낮은 시간 또는 주파수 해상도, 특히 프레임 당 단일 확산 파라미터의 특정 낮은 시간 해상도를 갖는 확산 그룹화의 구현을 도시한다;
도 3c는 한편으로는 5 개의 대역을 가지고 다른 한편으로는 20개의 시간/주파수 영역을 야기하는 4 개의 시간 영역을 갖는 방향 파라미터에 대한 중간 해상도의 바람직한 예시를 도시한다;
도 3d는 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 갖는 출력 비트 스트림을 도시한다;
도 4a는 제2 양태에 따라 지향성 오디오 코딩 파라미터를 인코딩 하기 위한 장치를 도시한다;
도 4b는 인코딩된 확산 파라미터의 계산을 위한 파라미터 양자화기 및 파라미터 인코더의 바람직한 구현을 도시한다;
도 4c는 상이한 요소의 협력과 관련하여 도 4a 인코더의 바람직한 구현을 도시한다;
도 4d는 바람직한 실시예에서 양자화를 위해 적용된 단위 구체의 준 균일(quasi-uniform) 커버리지를 도시한다;
　도 5a는 상이한 인코딩 모드에서 동작하는 도 4a의 파라미터 인코더의 동작에 대한 개요를 도시한다;
도 5b는 도 5a의 두 모드에 대한 방향 인덱스의 사전 프로세싱을 도시한다;
도 5c는 바람직한 실시예에서의 제1 코딩 모드를 도시한다;
도 5d는 제2 코딩 모드의 바람직한 실시예를 도시한다;
도 5e는 GR 인코딩 절차를 사용하여 부호 있는 거리 및 대응하는 평균의 엔트로피 인코딩의 바람직한 구현을 도시한다;
도 5f는 최적 골롬-라이스(Golomb-Rice) 파라미터의 결정을 위한 바람직한 실시예를 도시한다;
도 5g는 도 5e의 블록 279에 표시된 바와 같이 재정렬 된 부호 있는 거리의 인코딩을 위한 확장된 골롬-라이스 절차의 구현을 도시한다;
도 6a는도 4a의 파라미터 양자화기의 구현을 도시한다;
도 6b는 인코더 측 구현에서 특정 양태에서 또한 사용되는 파라미터 역 양자화기에 대한 기능의 바람직한 구현을 도시한다;
도 6c는 원시 방향 인코딩 절차의 구현에 대한 개요를 도시한다;
도 6d는 방위 및 고도에 대한 평균 방향에 대한 계산 및 양자화 및 역 양자화의 구현을 도시한다;
도 6e는 평균 고도 및 방위 데이터의 투영을 도시한다;
도 6f는 고도 및 방위에 대한 거리의 계산을 도시한다;
도 6g는 모델링에 의해 엔트로피 인코딩 모드에서 평균 방향의 인코딩에 대한 개요를 도시한다;
도 7a는 제1 양태에 따라 인코딩된 오디오 신호를 디코딩 하기 위한 디코더를 도시한다;
도 7b는 도 7a의 파라미터 해상도 변환기 및 후속 오디오 렌더링의 바람직한 구현을 도시한다;
도 8a는 제2 양태에 따라 인코딩된 오디오 신호를 디코딩 하기 위한 디코더를 도시한다;
도 8b는 일 실시예에서 인코딩된 확산 파라미터에 대한 개략적인 비트 스트림 표현을 도시한다;
도 8c는 원시 인코딩 모드가 선택된 경우의 비트 스트림의 구현을 도시한다;
도 8d는 다른 인코딩 모드, 즉 모델링을 갖는 엔트로피 인코딩 모드가 선택된 경우의 개략적인 비트 스트림을 도시한다;
도 8e는 파라미터 디코더 및 파라미터 역 양자화기의 바람직한 구현을 도시하며, 여기서 역 양자화 정밀도는 시간/주파수 영역에 대한 확산에 기초하여 결정된다;
도 8f는 파라미터 디코더 및 파라미터 역양자화기의 바람직한 구현을 도시하고, 여기서 고도 알파벳은 역 양자화 정밀도로부터 결정되고 방위 알파벳은 역 양자화 정밀도 및 시간/주파수 영역에 대한 고도 데이터에 기초하여 결정된다;
도 8g는 2 개의 상이한 디코딩 모드를 나타내는 도 8a의 파라미터 디코더에 대한 개요를 도시한다;
도 9a는 원시 인코딩 모드가 활성화된 경우의 디코딩 동작을 도시한다;
도 9b는 모델링을 갖는 엔트로피 디코딩 모드가 활성화될 때 평균 방향의 디코딩을 도시한다;
도 9c는 모델링을 갖는 디코딩 모드가 활성화될 때의 고도 및 방위의 재구성 및 후속적인 역 양자화를 도시한다;
도 10a는 공지된 DirAC 분석기를 도시한다; 및
도 10b는 공지된 DirAC 합성기를 도시한다.

본 발명은 DirAC 메타 데이터의 압축을 임의의 종류의 시나리오로 일반화한다. 본 발명은 도 1a 및 도 1b에 도시된 공간 코딩 시스템(spatial coding system)에 적용되며, 여기서 DirAC 기반 공간 오디오 인코더 및 디코더가 묘사된다.
인코더는 일반적으로 공간 오디오 장면을 B 포멧(B-format)으로 분석한다. 대안적으로, DirAC 분석은 오디오 객체 또는 다중 채널 신호와 같은 다른 오디오 포맷 또는 임의의 공간 오디오 포맷의 조합을 분석하도록 조정될 수 있다. DirAC 분석은 입력 오디오 장면(input audio scene)에서 파라메트릭 표현(parametric representation)을 추출한다. 시간-주파수 단위당 측정된 도달 방향(direction of arrival)(DOA) 및 확산이 파라미터를 형성한다. DirAC 분석 다음에는 공간 메타 데이터 인코더가 사용되며, 이 메타 데이터 인코더는 DirAC 파라미터를 양자화 및 인코딩 하여 낮은 비트 레이트 파라미터 표현을 얻는다. 후자의 모듈은 본 발명의 주제이다.
파라미터와 함께, 상이한 소스 또는 오디오 입력 신호로부터 도출된 다운 믹스 신호(down-mix signal)는 종래의 오디오 코어-코더(core-coder)에 의한 전송을 위해 코딩된다. 바람직한 실시예에서, 다운 믹스 신호를 코딩하기 위해 EVS 오디오 코더가 바람직하지만, 본 발명은 이 코어-코더에 제한되지 않으며 임의의 오디오 코어-코더에 적용될 수 있다. 다운 믹스 신호는 전송 채널이라 불리는 상이한 채널로 구성된다: 신호는 예를 들어, 목표 비트 레이트에 따라 B 포맷 신호, 스테레오 페어 또는 모노포닉 다운 믹스(core-coder)를 구성하는 4 개의 계수 신호일 수 있다. 코딩 된 공간 파라미터 및 코딩 된 오디오 비트 스트림은 통신 채널을 통해 전송되기 전에 다중화 된다.
디코더에서, 운송 채널(transport channel)은 코어 디코더에 의해 디코딩 되는 반면, DirAC 메타 데이터는 디코딩된 운송 채널과 함께 DirAC 합성(synthesis)으로 전달되기 전에 먼저 디코딩된다. DirAC 합성은 다이렉트 사운드 스트림의 재생과 확산 사운드 스트림과의 혼합을 제어하기 위해 디코딩된 메타 데이터를 사용한다. 재생된 음장(sound field)은 임의의 라우드 스피커 레이아웃에서 재생되거나 임의의 순서로 앰비소닉스 포멧(Ambisonics format)(HOA/FOA)으로 생성될 수 있다.
B 포맷 입력 신호와 같은 오디오 신호를 인코딩 하기 위한 오디오 인코더가 도 1a에 도시되어 있다. 오디오 인코더는 DirAC 분석기(analyzer)(100)를 포함한다. DirAC 분석기(100)는 분석 필터 뱅크(analysis filter bank)(130), 확산 추정기(diffuseness estimator)(110) 및 방향 추정기(direction estimator)(120)를 포함할 수 있다. 확산 데이터 및 방향 데이터는 공간 메타 데이터 인코더(spatial metadata encoder)(200)로 출력되고, 최종적으로 라인 250에서 인코딩된 메타 데이터를 출력한다. B 포맷 신호는 또한 입력 신호로부터, 바람직하게는 EVS(Enhanced Voice Services) 인코더 인 오디오 인코더(audio encoder)(150)로 인코딩된 모노 또는 스테레오 운송 오디오 신호를 생성하는 빔 형성기/신호 선택기(beam former/signal selector)(140)로 전달될 수 있다. 인코딩된 오디오 신호는 170에서 출력된다. 250으로 표시된 인코딩된 코딩 파라미터는 공간 메타 데이터 디코더(spatial metadata decoder)(300)에 입력된다. 인코딩된 오디오 신호(encoded audio signal)(170)는 바람직한 실시예에서 그리고 인코더 측 구현에 따라 EVS 디코더로서 구현되는 오디오 디코더(audio decoder)(340)에 입력된다.
디코딩된 전송 신호는 디코딩된 지향성 오디오 코딩 파라미터와 함께 DirAC 합성기(synthesizer)(400)에 입력된다. 도 1b에 도시된 실시예에서, DirAC 합성기는 출력 합성기(output synthesizer)(420), 분석 필터 뱅크(analysis filter bank)(430) 및 합성 필터 뱅크(synthesis filter bank)(440)를 포함한다. 합성 필터 뱅크(synthesis filter bank)(400)의 출력에서, 디코딩된 다중 채널 신호(decoded multichannel signal)(450)는 라우드 스피커로 전달될 수 있거나 대안적으로 1 차 앰비소닉스(FOA) 또는 고차 앰비소닉스(HOA) 포맷과 같은 다른 포맷의 오디오 신호일 수 있는 획득된다. 당연히, MPS(MPEG Surround) 데이터 또는 SAOC(Spatial Audio Object Coding) 데이터와 같은 다른 파라메트릭 데이터(parametric data)는 모노 채널 또는 스테레오 채널 인 전송 채널과 함께 생성될 수 있다.
일반적으로, 출력 분석기는 분석 필터 뱅크(430)에 의해 결정된 바와 같이 각각의 시간-주파수 빈에 대해, 한편으로는 직접 오디오 신호 및 다른 한편으로는 확산 오디오 신호를 계산함으로써 동작한다. 다이렉트 오디오 신호는 이 시간/주파수 빈에 대한 최종 오디오 신호의 방향 파라미터 및 다이렉트 오디오 신호와 확산 오디오 신호 사이의 관계에 기초하여 계산되며, 확산 파라미터에 기초하여 결정되므로, 높은 확산 파라미터를 갖는 시간/주파수 빈은 많은 양의 확산 신호 및 적은 양의 직접 신호를 갖는 출력 신호를 초래하게 되며, 반면에 낮은 확산을 갖는 시간/주파수 빈은 많은 양의 직접 신호 및 적은 양의 확산 신호를 갖는 출력 신호를 초래한다.
도 2a는 제1 양태에 따른 확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하기 위한 장치를 도시한다. 장치는 제1 시간 또는 주파수 해상도로 확산 파라미터를 계산하고 제2 시간 또는 주파수 해상도로 방향 파라미터를 계산하기 위한 파라미터 계산기(parameter calculator)(100)를 포함한다. 이 장치는 250에 도시된 확산 파라미터 및 방향 파라미터의 양자화 및 인코딩된 표현(quantized and encoded representation)을 생성하기 위한 양자화기 및 인코더 프로세서(encoder processor)(200)를 포함한다. 파라미터 계산기(100)는 도 1a의 요소(110, 120, 130)를 포함할 수 있고, 여기서 서로 다른 파라미터는 제1 또는 제2 시간 또는 주파수 해상도에서 이미 계산된다.
대안적으로, 바람직한 구현은 도 2b에 도시되어 있다. 여기서, 파라미터 계산기, 특히 도 1a의 블록 110, 120은 도 2b의 항목(item)(130)에 도시된 바와 같이 구성되는데, 즉 이들은 제3 또는 제4의 전형적으로 높은 시간 또는 주파수 해상도로 파라미터를 계산한다. 그룹화 작업이 수행된다. 확산 파라미터를 계산하기 위해, 제1 시간 또는 주파수 해상도로 확산 파라미터 표현을 획득하기 위해 블록 141에 도시된 바와 같이 그룹화 및 평균화가 수행되고, 방향 파라미터의 계산을 위해, 제2 시간 또는 주파수 해상도에서 방향 파라미터 표현을 획득하기 위해 그룹화(및 평균화)가 블록 142에서 수행된다.
확산 파라미터 및 방향 파라미터가 계산되어, 제2 시간 또는 주파수 해상도가 제1 시간 또는 주파수 해상도와 다르고 제1 시간 해상도가 제2 시간 해상도 보다 낮거나 또는 제2 주파수 해상도는 제1 주파수 해상도 보다 크거나, 또는 대안적으로, 제1 시간 해상도가 제2 시간 해상도 보다 낮고 제1 주파수 해상도는 제2 주파수 해상도와 동일하다.
일반적으로, 확산 파라미터 및 방향 파라미터는 주파수 대역 세트(set of frequency band)에 대해 계산되며, 여기서 더 낮은 중심 주파수를 갖는 대역은 더 높은 중심 주파수를 갖는 대역 보다 좁다. 도 2b와 관련하여 이미 논의된 바와 같이, 파라미터 계산기(100)는 제3 시간 또는 주파수 해상도를 갖는 초기 확산 파라미터를 획득하도록 구성되고, 파라미터 계산기(100)는 또한 전형적으로 제3 및 제4 시간 또는 주파수를 갖는 제4 시간 또는 주파수 해상도를 갖는 초기 방향 파라미터를 획득하도록 구성되고, 여기서, 일반적으로, 제3 및 제4 시간 또는 주파수 해상도는 서로 동일하다.
그 후, 파라미터 계산기는 제3 시간 또는 주파수 해상도가 제1 시간 또는 주파수 해상도 보다 높도록, 즉 해상도 감소가 수행되도록 초기 확산 파라미터를 그룹화하고 평균화하도록 구성된다. 파라미터 계산기는 또한 제4 시간 또는 주파수 해상도가 제2 시간 또는 주파수 해상도 보다 높도록, 즉 해상도 감소가 수행되도록 초기 방향 파라미터를 그룹화하고 평균화하도록 구성된다. 바람직하게, 제3 시간 또는 주파수 해상도는 일정한 시간 해상도이므로, 각각의 초기 확산 파라미터는 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈(time slot or a frequency bin)과 연관된다. 제4 시간 또는 주파수 해상도는 또한 일정한 주파수 해상도이므로, 각각의 초기 방향 파라미터는 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈과 연관된다.
파라미터 계산기는 제1 복수의 시간 슬롯과 관련된 제1 복수의 확산 파라미터에 대해 평균화하도록 구성된다. 파라미터 계산기(100)는 또한 제2 복수의 주파수 빈과 관련된 제2 복수의 확산 파라미터에 대해 평균화하도록 구성되고, 파라미터 계산기는 또한 제3 복수의 시간 슬롯과 관련된 제3 복수의 방향 파라미터에 대해 평균화하도록 구성되거나 파라미터 계산기는 또한 4 개의 복수의 주파수 빈과 관련된 제4 복수의 방향 파라미터에 대해 평균화하도록 구성된다.
도 2c 및 도 2d와 관련하여 논의될 바와 같이, 파라미터 계산기(parameter calculator)(100)는 높은 진폭 관련 측정을 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터가 낮은 진폭 관련 측정을 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터에 비해 높은 가중 계수를 사용하여 가중되는 곳에서, 가중 평균 계산을 수행하도록 구성된다. 파라미터 계산기(100)는 도 2c의 항목 143에 도시된 바와 같이, 제3 또는 제4 시간 또는 주파수 해상도에서 빈 당 진폭 관련 측정을 계산하도록 구성된다. 블록 144에서, 각 빈에 대한 가중 계수가 계산되고, 블록 145에서, 개별 빈에 대한 확산 파라미터가 블록 145에 입력되는 가중 가산과 같은 가중 조합을 사용하여 그룹화 및 평균화가 수행된다. 블록 145의 출력에서, 제1 시간 또는 주파수 해상도를 갖는 확산 파라미터가 획득되고, 이는 블록 146에서 후속하여 정규화 될 수 있으나 이 절차는 단지 선택적이다.
도 2d는 제2 해상도에 의한 방향 파라미터의 계산을 도시한다. 블록 146에서, 진폭 관련 측정 값은 도 2c의 항목 143과 유사하게 제3 또는 제4 해상도에서 빈마다 계산된다. 블록 147에서, 가중 계수는 각각의 빈에 대해 계산되지만, 블록 147로부터 획득된 진폭 관련 측정에 의존할뿐만 아니라 도 2d에 도시된 빈마다 대응하는 확산 파라미터를 사용한다. 따라서 동일한 진폭 관련 측정의 경우, 일반적으로 낮은 확산율에 대해 더 높은 계수가 계산된다. 블록 148에서, 그룹화 및 평균화는 가산과 같은 가중 조합을 사용하여 수행되며, 결과는 선택적 블록 146에 도시된 바와 같이 정규화 될 수 있다. 따라서, 블록 146의 출력에서, 방향 파라미터는 방위 값 및 고도 값을 갖는 극좌표 형태로 쉽게 변환될 수 있는 카테시안 벡터(Cartesian vector)와 같은 2 차원 또는 3 차원 영역에 대응하는 단위 벡터로서 획득된다.
도 3a는 도 1a 및 도 1b의 필터 뱅크 분석(430)에 의해 획득되거나 도 1b의 필터 뱅크 합성(440)에 의해 적용되는 시간/주파수 래스터(time/frequency raster)를 도시한다. 일 실시예에서, 전체 주파수 범위는 60 개의 주파수 대역으로 분리되며 프레임에는 16 개의 시간 슬롯이 추가로 있다. 이 높은 시간 또는 주파수 해상도는 바람직하게는 제3 또는 제4 높은 시간 또는 주파수 해상도이다. 따라서, 60 개의 주파수 대역 및 16 개의 시간 슬롯으로부터 시작하여, 프레임 당 960 개의 시간/주파수 타일 또는 빈이 얻어진다.
도 3b는 확산 값에 대한 제1 시간 또는 주파수 해상도 표현을 획득하기 위해 파라미터 계산기, 특히 도 2b의 블록 141에 의해 수행되는 해상도 감소를 도시한다. 이 실시예에서, 전체 주파수 대역폭은 5 개의 그룹화 대역과 단일 시간 슬롯으로 분리된다. 따라서, 하나의 프레임에 대해, 결국, 각각의 프레임 당 5 개의 확산 파라미터 만을 획득한 다음, 추가로 양자화 및 인코딩된다.
도 3c는 도 2b의 블록 142에 의해 수행되는 대응 절차를 도시한다. 하나의 방향 파라미터가 각각의 빈에 대해 계산되는 도 3a의 높은 해상도 방향 파라미터는 중간 해상도 표현으로 도 3c에서 그룹화되고 평균화되며, 여기서 하나는 각 프레임마다 5 개의 주파수 대역을 갖지만, 도 3a와 대조된다 이제 네 개의 시간 슬롯이 있습니다. 따라서, 결국, 하나의 프레임은 20 개의 방향 파라미터, 즉 방향 파라미터에 대해 프레임 당 20 개의 그룹화 된 빈을 수신하고 도 3b의 확산 파라미터에 대해 프레임 당 5 개의 그룹화 된 빈을 수신한다. 바람직한 실시예에서, 주파수 대역 에지는 그 상단 에지에서 배타적이다.
도 3b 및 도 3c를 비교할 때, 제1 대역에 대한 확산 파라미터, 즉, 확산 파라미터 1은 제1 대역에 대한 4 개의 방향 파라미터에 대응하거나 그들과 관련됨에 유의해야 한다. 나중에 설명하겠지만, 제1 대역의 모든 방향 파라미터에 대한 양자화 정밀도는 제1 대역에 대한 확산 파라미터에 의해 결정되거나, 예시적으로, 제5 대역에 대한 방향 파라미터, 즉 제5 대역을 커버하는 대응하는 4 개의 방향 파라미터 및 제5 대역의 4 개의 시간 슬롯에 대한 양자화 정밀도는 제5 대역에 대한 단일 확산 파라미터에 의해 결정된다.
따라서, 이 실시예에서, 대역 당 단일 확산 파라미터 만이 구성되는 경우, 한 대역의 모든 방향 파라미터는 동일한 양자화/역 양자화 정밀도를 갖는다. 이후에 설명되는 바와 같이, 방위 파라미터를 양자화 및 인코딩 하기 위한 알파벳은 원래/양자화된/역 양자화된 고도 파라미터의 값에 의존한다. 따라서, 각각의 대역에 대한 각각의 방향 파라미터는 동일한 양자화/역 양자화 파라미터를 갖지만, 도 3c의 각 그룹화 된 빈 또는 시간/주파수 영역에 대한 각 방위 파라미터는 양자화 및 인코딩을 위해 상이한 알파벳을 가질 수 있다.
도 2a의 250에 도시된 양자화기 및 인코더 프로세서(200)에 의해 생성된 결과적인 비트 스트림은 도 3d에 보다 상세히 도시되어 있다. 비트 스트림은 제1 해상도 및 제2 해상도를 나타내는 해상도 표식(indication)(260)을 포함할 수 있다. 그러나, 제1 해상도 및 제2 해상도가 인코더 및 디코더에 의해 고정적으로 설정될 때, 이 해상도 표식은 필요하지 않다. 항목 261, 262은 대응하는 대역에 대한 인코딩된 확산 파라미터를 예시한다. 도 3d는 5 개의 대역 만 나타내므로, 인코딩된 데이터 스트림에는 5 개의 확산 파라미터 만이 포함된다. 항목 363, 364는 인코딩된 방향 파라미터를 예시한다. 제1 대역에는 네 가지 인코딩된 방향 파라미터가 있으며, 여기서 방향 파라미터의 제1 색인은 대역을 나타내고 제2 파라미터는 시간 슬롯을 나타낸다. 제3 대역 및 제4 시간 슬롯, 즉 도 3c의 우측 상단 주파수 빈에 대한 방향 파라미터는 DIR54로 표시된다.
후속하여, 추가 바람직한 구현이 상세하게 논의된다.
시간-주파수 분해(Time-frequency decomposition)
DirAC에서는 분석과 합성이 모두 주파수 도메인에서 수행된다. 시간-주파수 분석 및 합성은 단기 푸리에 변환(short-term Fourier Transform)(STFT)와 같은 다양한 블록 변환 또는 복합 변조 쿼드러처 미러 필터 뱅크(complex-modulated Quadrature Mirror Filterbank)(QMF)와 같은 필터 뱅크를 사용하여 수행할 수 있다. 바람직한 실시예에서, 우리는 DirAC 프로세싱과 코어 인코더 사이의 프레이밍을 공유하는 것을 목표로 한다. 코어 인코더는 바람직하게는 3GPP EVS 코덱에 기초하기 때문에, 20ms의 프레이밍이 요구된다. 또한 시간 및 주파수 해상도 및 에일리어싱(aliasing)에 대한 견고성과 같은 중요한 기준은 DirAC의 매우 활동적인 시간-주파수 프로세싱과 관련이 있다. 시스템은 통신용으로 설계되었으므로 알고리즘 지연은 또 다른 중요한 양태다.
이 모든 이유로, 콤플랙스 변조 저지연 필터 뱅크(Complex modulated low-delay filterbank)(CLDFB)가 선호되는 선택이다. CLDFB의 시간 해상도는 1.25ms이며 20ms 프레임을 16 개의 시간 슬롯으로 나눈다. 주파수 해상도는 400Hz이므로 입력 신호가(fs/2)/400 주파수 대역으로 분해된다. 필터 뱅크 작동은 다음 공식에 의해 일반적인 형태로 설명된다:

,
여기서, X_CR 및 X_CI는 각각 실수와 허수 서브 대역 값이고, t는 서브 대역 시간 인덱스로 0≤t≤15 이고, k는 서브 대역 인덱스로 0≤k≤L_C-1 이다. 분석 프로토 타입 w_c는 S_HP에 따라 길이가 적응되는 비대칭 저역 통과 필터이다.

에 의해 주어진 w_c의 길이는 필터가 변환을 위해 10 개의 연속 블록에 걸쳐 있음을 의미한다.
예를 들어, CLDFB는 48kHz로 샘플링 된 신호를 프레임 당 60x16 = 960 시간-주파수 타일로 분해한다. 다른 프로토 타입 필터를 선택하여 분석 및 합성 후 지연을 조정할 수 있다. 5ms의 지연(분석 및 합성)은 전달된 품질과 생성된 지연 사이에서 좋은 절충안인 것으로 밝혀졌다. 각 시간-주파수 타일에 대해 확산과 방향이 계산된다.
DirAC 파라미터 추정(DirAC parameter estimation)
각 주파수 대역에서, 사운드의 확산 방향과 함께 사운드의 도착 방향이 추정된다. 입력 B 포맷 성분 wⁱ(n), xⁱ(n), yⁱ(n), zⁱ(n)의 시간-주파수 분석에서 압력 및 속도 벡터는 다음과 같이 결정될 수 있다.
Pⁱ(n, k) = Wⁱ(n, k)
Uⁱ(n, k) = Xⁱ(n, k) e_x + Yⁱ(n, k) e_y + Zⁱ(n, k) e_z
여기서, i는 입력의 인덱스이고, n 및 k는 시간-주파수 타일의 시간 및 주파수 인덱스이며, e_x, e_y, e_z는 직교 단위 벡터(Cartesian unit vector)를 나타낸다.
P(n, k) 및 U(n, k)는 DirAC 파라미터, 즉 DOA 및 강도 벡터 계산을 통한 확산을 계산하는 데 필요하다:

,
여기서,

는 복소 컨주게이션(complex conjugation)을 나타낸다. 결합된 음장의 확산은 다음으로 주어진다:

여기서, E{. }는 순간 평균화 연산을 나타내고, c는 음의 속도 및 E(k, n) 음장 에너지는 다음으로 주어진다:

음장의 확산은 0에서 1 사이의 값을 갖는 사운드 강도와 에너지 밀도 사이의 비율로 정의된다.
도착 방향(DOA)은 벡터 방향 direction(n, k)에 의해서 표현되고, 다음으로 정의된다.

도달 방향은 B 포맷 입력의 에너지 분석에 의해 결정되며 강도 벡터의 반대 방향으로 정의될 수 있다. 방향은 직교 좌표(Cartesian coordinate)로 정의되지만 단일 반지름, 방위 각도 및 고도 각도로 정의된 구형 좌표(spherical coordinate)로 쉽게 변환할 수 있다.
전체적으로, 파라미터 값이 각 시간-주파수 타일(time-frequency tile)에 대해 비트로 직접 변환되면, 방위 각도, 고도 각도 및 확산의 3 가지 값을 코딩 해야 한다. 그런 다음 메타 데이터는 CLDFB의 예에서 프레임 당 2880 개의 값, 즉 초당 144000 개의 값으로 구성된다. 낮은 비트 레이트 코딩을 달성하려면 이 엄청난 양의 데이터를 대폭 줄여야 한다.
DirAC 메타 데이터 그룹화 및 평균화(Grouping and averaging of DirAC Metadata)
파라미터 수를 줄이려면, 각각의 시간-주파수 타일에서 계산된 파라미터는 먼저 주파수 파라미터 대역을 따라 그리고 여러 시간 슬롯에 걸쳐 그룹화되고 평균화 된다. 그룹화는 확산과 방향 사이에서 분리되며, 이는 본 발명의 중요한 양태다. 실제로, 디커플링은 확산이 방향 보다 음장의 장기적인 특성을 유지한다는 사실을 이용하는데, 이는 반응성이 더 큰 공간적 큐(spatial cue)이다.
파라미터 대역은 대략 등가 직사각형 대역폭(Equivalent Rectangular Bandwidth)(ERB) 스케일의 정수배에 따라 주파수 대역의 불균일 및 겹치지 않는 분해를 구성한다. 기본적으로 9 배속 ERB 스케일은 16kHz의 오디오 대역폭에 대해 총 5 개의 파라미터 대역에 적용된다. 확산은 다음과 같이 계산된다:

여기서, power(n, k)^α는 indices(t, k)의 시간-주파수 타일에서 측정되고 α의 거듭 제곱으로 증가된 입력 신호의 에너지이며, diffusess(n, k)은 시간-주파수 타일 인덱스(n, k)에서 측정된 입력 신호의 확산이다. 여기서, band_diff[]는 주파수 대역 인덱스로 파라미터 대역의 한계를 정의하고, slot_diff[]는 시간 슬롯 인덱스에서 시간에 따른 그룹화의 한계를 정의한다. 예를 들어, 5 개의 파라미터 대역과 1 개의 시간 그룹에 대해 테이블을 다음과 같이 정의할 수 있다:
slot_diff= [0,16]
band_diff= [0,1,3,7,15,60]
직교 좌표의 방향 벡터는 다음과 같이 계산된다:

여기서, power(n, k)^α는 indice(t, k)의 시간-주파수 타일에서 측정되고 α의 거듭 제곱으로 증가된 입력 신호의 에너지이고, diffuseness(n,k)는 시간-주파수 타일 indices(n,k)에서 측정된 입력 신호의 확산이고, 및 direction(n, k)은 3 차원 카테시안 좌표에서 indices(n, k)의 시간-주파수 타일에서 측정된 방향이고, 및 band_dv[]는 주파수 대역 인덱스로 파라미터 대역의 한계를 정의하고, 및 slot_dv []는 시간 슬롯 인덱스에서 시간에 따른 그룹화의 한계를 정의한다. 예를 들어, 5 개의 파라미터 대역과 4 개의 시간 그룹에 대해 테이블을 다음과 같이 정의할 수 있다:
slot_dv = [0,4,8,12,16]
band_dv = [0,1,3,7,15,60]
파라미터 α는 파라미터 평균화를 위해 수행된 가중치 합에서 전력 기반 가중치를 압축 또는 확장할 수 있게 한다. 선호 모드에서는 α = 1 이다.
일반적으로 이 값은 음수가 아닌 실제 값일 수 있다. 1 보다 작은 인덱스도 유용할 수 있다. 예를 들어, 0.5(제곱근)는 더 높은 진폭 관련 신호에 더 많은 가중치를 부여하지만 1 또는 1 이상의 인덱스와 비교할 때 더 적당하다.
그룹화 및 평균화한 후, 결과 방향 벡터 dv[g, b]는 더 이상 일반적인 단위 벡터가 아닙니다. 따라서 정규화가 필요하다.

후속하여, 본 발명의 제2 양태의 바람직한 실시예가 논의된다. 도 4a는 추가의 제2 양태에 따른 확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하기 위한 장치를 도시한다. 장치는 제1 양태에 대해 논의된 그룹화된 파라미터 또는 그룹화되지 않았거나 다르게 그룹화된 파라미터를 그 입력에서 수신하는 파라미터 양자화기(210)를 포함한다.
그리하여, 양자화된 확산 파라미터 및 양자화된 방향 파라미터를 인코딩 하기 위한 파라미터 양자화기(210) 및 후속하여 연결된 파라미터 인코더(220)는 예를 들어 도 1a의 블록 200 내의 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터에 대한 정보를 포함하는 인코딩된 파라미터 표현을 생성하기 위한 출력 인터페이스와 함께 포함된다. 도 2a의 양자화기 및 인코더 프로세서(200)는 예를 들어, 파라미터 양자화기(210) 및 파라미터 인코더(220)와 관련하여 이후에 논의되는 바와 같이 구현될 수 있다. 양자화기 및 인코더 프로세서(200)는 또한 제1 양태에 대해 임의의 다른 방식으로 구현될 수 있다.
바람직하게, 도 4a의 파라미터 양자화기(210)는 확산 인덱스를 생성하기 위해 불균일 양자화기를 사용하여 도 4b의 231에 도시된 바와 같이 확산 파라미터를 양자화 하도록 구성된다.
도 4a의 파라미터 인코더(220)는 항목 232에 도시된 바와 같이 구성되는데, 즉 단일 모드가 사용될 수 있거나 단지 2 개의 상이한 모드 만이 사용될 수 있지만 바람직하게는 3 개의 다른 모드를 사용하여 프레임에 대해 획득된 확산 값을 엔트로피 인코딩 하도록 구성된다. 하나의 모드는 각각의 개별 확산 값이 예를 들어 이진 코드 또는 천공된 이진 코드를 사용하여 인코딩 되는 방식으로 행해지는 원시 모드이다. 대안적으로, 차동 인코딩(differential encoding)은 각각의 차이 및 원래 절대 값이 원시 모드를 사용하여 인코딩 되도록 수행될 수 있다. 그러나, 동일한 프레임이 모든 주파수 대역에 걸쳐 동일한 확산을 가지며 하나의 값만 코드가 사용될 수 있는 상황이 될 수 있다. 다시, 대안적으로, 상황은 확산에 대한 연속적인 값, 즉 하나의 프레임에서 연속 확산 인덱스 만이 존재하고, 그 후 블록 232에 도시된 바와 같이 제3 인코딩 모드가 적용될 수 있는 상황일 수 있다.
도 4c는 도 4a의 파라미터 양자화기(210)의 구현을 도시한다. 도 4a의 파라미터 양자화기(210)는 233에 도시된 바와 같이 방향 파라미터를 극형으로 변환하도록 구성된다. 블록 234에서, 빈에 대한 양자화 정밀도가 결정된다. 이 빈(bin)은 원래의 높은 해상도 빈이거나 대안적으로, 바람직하게는 낮은 해상도 그룹화 된 빈 일 수 있다.
도 3b 및 도 3c와 관련하여 이전에 논의된 바와 같이, 각각의 대역은 동일한 확산 값을 갖지만 4 개의 상이한 방향 값을 갖는다. 전체 대역, 즉 대역 내의 모든 방향 파라미터에 대해 동일한 양자화 정밀도가 결정된다. 블록 235에서, 블록 233에 의해 출력된 고도 파라미터는 양자화 정밀도를 사용하여 양자화된다. 상승 파라미터를 양자화 하기 위한 양자화 알파벳은 또한 블록 234에서 결정된 바와 같이 빈에 대한 양자화 정밀도로부터 획득되는 것이 바람직하다.
방위 값을 프로세싱 하기 위해, 방위 알파벳은 대응하는(그룹화 된) 시간/주파수 빈에 대한 고도 정보로부터 결정된다(236). 고도 정보는 양자화된 고도 값, 원래 고도 값 또는 양자화된, 다시 역 양자화된 고도 값일 수 있는데, 후자의 값, 즉 양자화 되고 다시 양자화된 고도 값은 인코더 측 상에서 및 디코더 측에서 동일한 상황을 갖기 위해 바람직하다. 블록 237에서, 방위 파라미터는 이 시간/주파수 빈에 대한 알파벳으로 양자화된다. 도 3b와 관련하여 이전에 논의된 바와 같은 대역의 양자화 정밀도를 가질 수 있지만, 그럼에도 불구하고 방향 파라미터와 관련된 각각의 개별 그룹화 된 시간/주파수 빈에 대해 서로 다른 방위 알파벳을 가질 수 있다.
DirAC 메타 데이터 코딩(DirAC Metadata coding)
각 프레임에 대해, DirAC 공간 파라미터는 주파수에서 nband 대역으로 구성된 그리드에서 계산되며, 각 주파수 대역 b에 대해, num_slots 시간 슬롯은 동일한 크기의 nblocks(b) 시간 그룹으로 그룹화된다. 각 주파수 대역에 대한 확산 파라미터 및 각 주파수 대역의 시간 그룹에 대한 방향 파라미터가 전송된다.
예를 들어, num_slots = 16, nbands = 5 이고 nblocks(b) = 4 인 경우, 이는 프레임 당 5 개의 확산 파라미터 및 20 개의 방향 파라미터를 발생시키며, 이는 추가 양자화 및 엔트로피 코딩 될 것이다.
확산 파라미터의 정량화(Quantization of diffuseness parameters)
확산 인덱스 diff_idx(b)를 생성하는 비 균일 양자화기를 사용하여, 각각의 확산 파라미터 diff(b)는 diff_alph 불연속 레벨 중 하나로 양자화된다. 예를 들어, 양자화기는 MPS 표준에 사용된 ICC 양자화 테이블로부터 도출될 수 있으며, 임계 값 및 재구성 레벨은 generate_diffuseness_quantizer 함수에 의해 계산된다.
바람직하게는, ICC 양자화 테이블로부터의 음이 아닌 값만이 icc = [1.0, 0.937, 0.84118, 0.60092, 0.36764, 0.0]으로 사용되며, 원래 8에서 단지 6 레벨을 포함한다. ICC 0.0은 확산 1.0에 해당하고 ICC 1.0은 확산 0.0에 해당하므로, y 좌표 세트는 x = [0.0, 0.2, 0.4, 0.6, 0.8, 1.0]과 같은 x 좌표 세트와 함께 y = 1.0-icc로 생성된다. 조각 큐빅 허르밋 보간 다항식(Piecewise Cubic Hermite Interpolating Polynomial)(PCHIP)으로 알려진 형상 보존 조각 별 입방형 보간법(shape-preserving piecewise cubic interpolation method)은 x와 y로 정의된 점 집합을 통과하는 곡선을 도출하는 데 사용된다. 확산 양자화기의 단계 수는 diff_alph이며, 제안된 구현에서 8이나, 그러나 ICC 양자화 테이블의 총 레벨 수, 이 또한 8, 과는 관련이 없다.
0.0에서 1.0(또는 사운드 렌더링을 고려하여 순수한 확산의 경우를 피할 때 1.0에 가깝지만 1.0 보다 작음))의 균등하게 이격된 좌표 x_interpolated의 새로운 diff_alph 세트가 생성되고, 곡선의 해당 y 값이 재구성 값으로 사용되며, 이러한 재구성 값은 비선형 간격이다. 　연속적인 x_interpolated 값 사이의 중간 지점도 생성되며, 곡선의 대응하는 y 값은 어떤 값이 특정 확산 인덱스에 매핑 되고 따라서 재구성 값에 매핑 되는지를 결정하기 위해 임계 값으로 사용된다. 제안된 구현의 경우, generate_diffuseness_quantizer 함수로 계산된 생성된 재구성 및 임계 값(5 자리로 반올림)은 다음과 같다:
재구성(reconstruction) = [0.0, 0.03955, 0.08960, 0.15894, 0.30835, 0.47388, 0.63232, 0.85010]
임계 값(threshold) = [0.0, 0.01904, 0.06299, 0.11938, 0.22119, 0.39917, 0.54761, 0.73461, 2.0]
검색을 간단하게 만들기 위해 플레이스 홀더(placeholder) 범위를 벗어난 큰 임계 값(2.0)이 임계 값 끝에 추가된다. 예를 들어, 특정 대역 b에 대해 diff(b) = 0.33이면 임계 값 [4] <= diff(b) < 임계 값 [5], 따라서 diff_idx(b) = 4, 및 해당 재구성 값은 재구성 [4] = 0.30835이다.
위의 절차는 확산 값에 대한 비선형 양자화기의 가능한 선택 중 하나다.
확산 파라미터의 엔트로피 코딩(Entropy coding of diffuseness parameters)
EncodeQuasiUniform(value, alphabet_sz) 함수는 천공된 코드를 사용하여 준 균일 확률(quasi-uniform probability)로 값을 인코딩 하는 데 사용된다. 값(value) ∈ {0, ... , alphabet_sz-1}의 경우, 가장 작은 숫자는 [log₂alpbabet_sz 비트를 사용하여 인코딩 되고, 나머지는 [log₂alpbabet_sz] + 1 비트 를 사용하여 인코딩된다. alpbabet_sz가 2의 거듭 제곱 인 경우 이진 코딩 결과이다.
그들의 가치에 따라, 양자화된 확산 인덱스는 3 가지 이용 가능한 방법 중 하나를 사용하여 엔트로피 코딩 될 수 있다: 원시 코딩, 하나의 값만, 및 2 개의 연속적인 값만. 제1 비트(diff_use_raw_coding)는 원시 코딩 방법의 사용 여부를 나타낸다. 원시 코딩의 경우 각 확산 인덱스 값은 EncodeQuasiUniform 함수를 사용하여 인코딩된다.
모든 인덱스 값이 같으면 하나의 값만 사용된다. 제2 비트(diff_have_unique_value)를 사용하여 이 방법을 표시한 다음 고유 값(unique value)이 EncodeQuasiUniform 함수를 사용하여 인코딩된다. 모든 인덱스 값이 두 개의 연속 값으로 만 구성된 경우, 두 개의 연속 값만의 방법이 사용되며, 위의 제2 비트로 표시된다. 두 개의 연속 값 중 작은 값은 알파벳 크기가 diff_alph-1로 줄어든 것을 고려하여 EncodeQuasiUniform 함수를 사용하여 인코딩된다. 그런 다음 각 값에 대해, 해당 값과 최소값의 차이가 1 비트를 사용하여 인코딩된다.
선호하는 EncodeQuasiUniform(value, alphabet_sz) 함수는 천공된 코드를 구현한다. 의사 코드(pseudo-code)에서 다음과 같이 정의할 수 있다:
bits = floor(log2(alphabet_sz))
thresh = 2 ^(bits + 1) - alphabet_sz
if(value < thresh)
write_bits(value, bits)
else
write_bits(value + thresh, bits + 1)
alphabet_sz가 2의 거듭 제곱이면, alphabet_sz = 2 ^ 비트 및 임계(thresh) = 2 ^ 비트이므로 다른 분기(else branch)는 절대 사용되지 않으며, 이진 코딩 결과이다. 그렇지 않으면, 제1 임계 값이 가장 작은 값은 비트 비트를 갖는 이진 코드를 사용하여 인코딩 되고 나머지 값은 비트 = 1 비트를 갖는 이진 코드를 사용하여 인코딩된다. 비트 + 1 비트를 사용하여 인코딩된 제1 이진 코드는 값(value) + 임계(thresh) = 임계(thresh) + 임계(thresh) = 임계(thresh) * 2를 가지므로, 디코더는 제1 비트 비트 만 읽고 그 값을 thresh와 비교하여 알아낼 수 있으며, 필요하면 하나 더 추가 비트를 읽는다. 디코딩 함수 DecodeQuasiUniform(alphabet_sz)는 의사 코드에서 다음과 같이 정의할 수 있다.
bits = floor(log2(alphabet_sz))
thresh = 2 ^(bits + 1) - alphabet_sz
value = read_bits(bits)
if(value >= thresh)
value =(value * 2 + read_bits(1)) - thresh
return value
방향 파라미터를 극좌표로 변환(Conversion of direction parameters to polar coordinates)
dv [0]² + dv [1]² + dv [2]² = 1이 되도록 정규화 된 각 3 차원 방향 벡터 dv는 DirectionVector2AzimuthElevation 함수를 사용하여 고도 각도 el∈[-90,90]이고 방위 각도 az∈ [0,360]로 구성된 극좌표 표현으로 변환된다. 극좌표에서 정규화 된 방향 벡터로의 역방향 변환은 AzimuthElevation2DirectionVector 함수를 사용하여 수행된다.
방향 파라미터의 정량화(Quantization of direction parameters)
고도와 방위 페어로 표시되는 방향이 추가로 양자화된다. 각각의 양자화된 확산 인덱스 레벨에 대해, 필요한 각도 정밀도는 angle_spacing 구성 벡터에서 deg_req = angle_spacing(diff_idx(b))로 선택된다. 단위 구체에 준 균일하게 분포된 양자화 포인트의 세트를 생성하는데 사용된다.
각도 간격 값 deg_req은 확산 diff(b)로부터 계산되는 것이 아니라 확산 diff_idx(b)로부터 계산되는 것이 바람직하다. 따라서, 가능한 확산 인덱스 마다 하나씩 diff_alph 가능한 deg_req 값이 있다. 디코더 측에서, 원래 확산 diff(b)는 이용 가능하지 않으며, 확산 인덱스 diff_idx(b)만이 이용 가능하며, 이는 인코더에서와 같은 동일한 각도 간격 값을 선택하는데 사용될 수 있다. 제안된 구현에서 각도 간격 테이블은 다음과 같다:
angle_spacing_table = [5.0, 5.0, 7.5, 10.0, 18.0, 30.0, 45.0, 90.0]
단위 구체 상에 준 균일하게 분포된 점들은 몇 가지 중요한 바람직한 특성을 만족시키는 방식으로 생성된다. 포인트는 X, Y 및 Z 축을 기준으로 대칭적으로 분포되어야 한다. 주어진 방향을 가장 가까운 지점으로 양자화하고 정수 인덱스에 매핑 하는 것은 일정한 시간 연산이어야 한다. 마지막으로, 정수 인덱스 및 역 양자화에서 방향으로 구체의 해당 포인트를 계산하는 것은 구체 상의 전체 포인트 수에 대해 일정하거나 로그 시간 연산이어야 한다.
수평면의 점에 대한 축과 관련하여 두 가지 유형의 대칭이 있다. 직교 축이 현재 평면의 단위 구체와 교차하고 포인트가 없는 두 포인트가 있다. 임의의 수평면의 예로 3 가지 경우가 있다. 포인트의 수가 8과 같이 4의 배수 인 경우, X(왼쪽 오른쪽) 축에 대해 대칭이 있고 Y 축에 90 및 270도에 두 개의 포인트가 있고, Y(전방) 축에 대해 대칭이 있고 X 축에 0 및 180도에 두 개의 포인트가 있다. 포인트 수가 6과 같이 2의 배수 인 경우, X 축에 대해 대칭이 있지만 Y 축에는 90 및 270도에 포인트가 없고, Y 축에 대해 대칭이 있고 X 축에 0과 180도에 두 개의 포인트가 있다. 마지막으로, 포인트 수가 5와 같은 임의의 정수인 경우, X 축에 대해 대칭이 있지만 Y 축에 90도 및 270 도에 포인트가 없고, Y 축에 대해 대칭이 없다.
바람직한 실시예에서, 모든 수평면에서 0, 90, 180 및 270 도의 포인트를 갖는 것은(모든 양자화된 고도에 해당) 심리 음향 학적 관점에서 유용한 것으로 간주되었으며, 각 수평면의 포인트 수는 항상 4의 배수임을 암시한다. 그러나 특정 응용 프로그램에 따라, 각 수평면의 포인트 수에 대한 조건은 2의 배수 또는 임의의 정수로 완화될 수 있다.
또한, 바람직한 실시예에서, 각 고도에 대해 "원점" 방위 포인트는 항상 0 도의 특권 방향(privileged direction)(전방으로)으로 존재한다. 이 속성은 각 고도에 대해 사전 계산된 양자화 오프셋 각도를 개별적으로 선택하여 0도 방향 대신 방위를 기준으로 분산시켜 완화할 수 있습니다. 양자화 전에 오프셋을 추가하고 역 양자화 후 감산함으로써 쉽게 구현될 수 있다.
필요한 각도 정밀도는 deg_req이며 90 도의 제수(divisor)여야 한다. 그렇지 않으면, 실제 사용 전에 deg_req = 90 ÷ [90 ÷ deg_req]로 다시 계산된다. 예를 들어, 가능한 값 목록은 {90,45,30,22.5,18,15,12.86,11.25,10, ... , 5, ??}이다. 고도 각도 el는 균일하게 양자화 되며, 단계 크기는 deg_req이며, el_idx = round(el ÷ deg_req) + n_point를 생성하고, el_alph = 2n_points + 1 양자화 인덱스의 하나, 여기서 n_points = [90 ÷ deg_req]. 이 인덱스는 q_el =(el_idx - n_points) deg_req의 양자화된 고도에 대응한다. 마찬가지로, 알파벳 크기만의 근거로, 양자화를 위해 el_idx = round((((el + 90) ÷ 180) (el_alph - 1)) 및 역 양자화를 위해 q_el =(el_idx ÷ (el_alph - 1)180-90.
적도에서, 방위 각도 az는 단계 크기 deg_req로 균일하게 양자화 되어, 4n_points 양자화 인덱스 중 하나 인 az_idx를 생성한다. 다른 고도의 경우, 두 개의 연속 포인트 사이의 현 길이에 해당하는 단위 구체의 중심에서 볼 때의 수평 각도 간격은 q_el 고도에 위치한 수평 원의 호 길이로 근사할 수 있다. 따라서, 이 수평 원에서 90도에 해당하는 포인트의 수는 적도 원에 비해 반지름에 비례하여 줄어들어 두 개의 연속 포인트 사이의 호 길이는 거의 모든 곳에서 동일하게 유지된다. 극점에서 총 포인트 수는 1이 된다.
az _alph = max(4round(radius_lenn_points), 1) q_el의 고도에 대응하는 양자화 인덱스가 있으며, 여기서 radius_len = cos(q_el) 이다. 대응하는 양자화 인덱스는 az _idx = round((az χ 360) az_alph)이며, 여기서 az_alph의 결과 값은 0으로 대체된다. 이 인덱스는 q _az = az_idx(360 χ az_alph)의 역 양자화된 방위에 대응한다. 참고로, az_alph = 1 인 극점을 제외하면 극 근처의 가장 작은 값은 deg_req = 90 및 deg_req = 45의 경우 az_alph = 4이고 나머지는 모두 az_alph = 8이다.
각 수평면의 포인트 수에 대한 조건이 2의 배수로 완화되는 경우, 적도면 상에 180도에 해당하는 2n_points가 있기 때문에 방위 알파벳은 az_alph = max(2round(radius_len(2n_points)), 1)이 된다. 포인트의 수에 대한 조건이 임의의 정수로 완화되는 경우, 적도면 상에 360도에 해당하는 4n_points가 있기 때문에 방위 알파벳은 az_alph = max(round(radius_len(4n_points)), 1)이 된다. 두 경우 모두 적도면 상에서 radius_len = 1 및 n_points는 정수이므로 포인트 개수는 항상 4의 배수이다.
상술한 양자화 및 역 양자화 프로세싱은 각각 QuantizeAzimuthElevation 및 DequantizeAzimuthElevation 함수를 사용하여 달성된다. 바람직하게는, round(x) 함수는 x를 가장 가까운 정수로 반올림하며, 보통 round(x) = floor(x + 0.5)와 같이 고정 소수점으로 구현된다.
1.5와 같이 정수 사이의 중간 값인 타이 반올림(rounding for ties)은 여러 가지 방법으로 수행할 수 있다. 위의 정의는 + 반올림한다(1.5는 2로 반올림 되고 2.5는 3으로 반올림). 부동 소수점 구현(Floating-point implementation)에는 일반적으로 정수 함수로의 원래 반올림(native rounding), 짝수 정수로의 타이 반올림(1.5는 2로 반올림, 2.5는 2로 반올림)이 있다.
"단위 구체의 준 균일 커버리지(Quasi Uniform Coverage of the Unit Sphere)"로 표시된 도 4d는 15도 각도 정밀도를 사용하여 단위 구체의 준 균일 커버리지의 사례를 도시하며, 양자화된 방향을 도시한다. 3D 뷰는 위에서부터, 더 나은 시각화를 위해 상단 반구체 만 그려지며, 연결된 나선형 선은 동일한 수평 원 또는 평면에서 포인트를 쉽게 시각적으로 식별하기 위한 것이다.
후속하여, 양자화된 방향 파라미터, 즉 양자화된 고도 인덱스 및 양자화된 방위 인덱스를 인코딩 하기 위한 도 4a의 파라미터 인코더(220)의 바람직한 구현이 도시되어 있다. 도 5a에 도시된 바와 같이, 인코더는 프레임의 확산 값에 대하여 각 프레임(240)을 분류하도록 구성된다. 블록 240은 도 3b 실시예에서 프레임에 대한 5 개의 확산 값인 확산 값을 수신한다. 프레임이 낮은 확산 값만으로 구성되는 경우, 낮은 확산 인코딩 모드(low diffuseness encoding mode)(241)가 적용된다. 프레임에서 5 개의 확산 값이 단지 높은 확산 값이면, 높은 확산 인코딩 모드(high diffuseness encoding mode)(242)가 적용된다. 프레임에서 확산 값이 확산 임계치 ec_max의 아래 및 아래 둘 다에 있다고 결정되면, 혼합 확산 인코딩 모드(mixed diffuseness encoding mode)(243)가 적용된다. 낮은 확산 인코딩 모드(241) 및 높은 확산 인코딩 모드(242) 및 혼합 확산 프레임에 대한 낮은 확산 대역 모두에서, 한편으로 원시 코딩 및 다른 한편으로 엔트로피 인코딩이 시도되는데, 즉 244a, 244b 및 244c에 표시된 바와 같이 수행된다. 그러나, 혼합 확산 프레임에서 높은 확산 대역의 경우, 원시 코딩 모드는 항상 244d에 나타낸 바와 같이 사용된다.
서로 다른 인코딩 모드, 즉 원시 코딩 모드와 엔트로피 코딩 모드(모델링 포함)가 사용되는 경우, 결과는 양자화된 인덱스를 인코딩 하기 위해 더 적은 수의 비트를 초래하는 모드를 선택하는 인코더 제어기(encoder controller)에 의해 선택된다. 이것은 245a, 245b 및 245c에 표시되어 있다.
반면에, 하나는 모든 프레임 및 대역에 대해 원시 코딩 모드만을 사용하거나, 모든 대역에 대한 모델링과 함께 엔트로피 코딩 모드만을 사용하거나, 또는 허프만 코딩 모드 또는 컨텍스트 적응이 있거나 없는 산술 코딩 모드와 같은 인덱스를 코딩 하기 위한 다른 코딩 모드를 사용할 수 있다.
블록 245a, 245b 및 245c에서 선택된 절차의 결과에 따라, 부가 정보(side information)는 블록 246a, 246b에 도시된 바와 같이 전체 프레임에 대해 설정되거나 또는 대응하는 대역, 즉 블록 246c의 낮은 확산 대역에 대해서만 설정된다. 대안적으로, 부가 정보는 또한 항목 246c의 경우에 전체 프레임에 대해 설정될 수 있다.
이 경우, 높은 확산 대역의 결정은 디코더에서만 수행될 수 있고, 부가 정보가 전체 프레임에 대해 설정되더라도, 그럼에도 불구하고, 디코더는 혼합 확산 프레임이 존재하고 비록 프레임에 대한 부가 정보가 모델링을 갖는 엔트로피 인코딩 모드를 나타내더라도 이 혼합 확산 프레임에서 높은 확산 값을 갖는 대역에 대한 방향 파라미터는 원시 인코딩 모드로 인코딩된다고 결정하게 된다.
바람직한 실시예에서, diff_alph = 8이다. 그런 다음, 큰 테스트 모음(corpus)에서 평균 압축 크기를 최소화하여 ec_max 임계 값을 5로 선택했다. 이 임계 값 ec_max는 현재 프레임의 확산 인덱스 값 범위에 따라 다음 모드에서 사용된다.
- 모든 대역 b에 대해 diff_idx(b) <= ec_max 인 낮은에서 중간까지의 확산 프레임의 경우, 모든 방향은 원시 및 엔트로피 코딩 모두를 사용하여 인코딩 되고 최선이 선택되고 부가 정보로서 1 비트로 표시된다(상기에서 dir_use_raw_coding으로 식별됨);
- diff_idx(b) <= ec_max 인 혼합 확산 프레임의 경우 일부 대역 b에 대하여, 이들 대역에 대응하는 방향은 제1 경우와 동일하게 인코딩 되고; 그러나 diff_idx(b)> ec_max 인 다른 높은 확산 대역 b의 경우, 이 다른 대역에 해당하는 방향은 항상 원시로 인코딩된다(매우 대략 양자화되는, 확산이 낮거나 중간인 확산 방향을 갖는 방향의 엔트로피 코딩 통계를 혼합하는 것을 피하기 위해);
- 모든 대역 b에 대해 diff_idx(b)> ec_max 인 높은 확산 프레임의 경우, ec_max 임계 값은 현재 프레임에 대해 ec_max = diff_alph로 미리 설정된다(확산 인덱스는 방향 전에 코딩 되기 때문에, 이 설정은 디코더 측에서 동일하게 미리 수행될 수 있다), 따라서 이 경우는 제1 경우로 줄어든다.
도 5b는 두 모드 모두에 대한 방향 인덱스의 바람직하지만 선택적인 사전 프로세싱을 도시한다. 두 모드 모두에서, 양자화된 방향 인덱스, 즉, 양자화된 방위 인덱스 및 양자화된 고도 인덱스는 블록 247에서 고도/방위 인덱스의 변환으로 부호 있는 값을 생성하도록 프로세싱 되며, 여기서 제로 인덱스는 고도 또는 방위 각도 0의 각도에 대응한다. 양/음의 값의 인터리빙을 포함하는 부호 없는 값으로의 후속 변환(subsequent conversion)(248)은 재정렬 된 부호 없는 방위/고도 인덱스의 보다 컴팩트 한 표현을 갖기 위해 수행된다.
도 5c는 제1 코딩 모드(260)의 바람직한 구현, 즉 모델링 없이 원시 코딩 모드를 도시한다. 사전 프로세싱 된 방위/고도 인덱스는 단일 구체 인덱스로 두 인덱스를 병합하기 위해 블록 261에 입력된다. 관련된 확산 인덱스, 즉 deg_req로부터 유도된 양자화 정밀도에 기초하여, EncodeQuasiUniform 또는(천공된) 이진 코드와 같은 인코딩 기능을 갖는 인코딩이 수행된다(262). 그러므로, 대역 또는 전체 프레임에 대한 인코딩된 구체 인덱스가 획득된다. 전체 프레임에 대한 인코딩된 구체 인덱스는 원시 코딩이 선택된 낮은 확산 만의 프레임 또는 높은 확산 만의 프레임의 경우에 얻어지며, 도 5a의 243에 도시된 혼합 확산 프레임의 경우에, 원시 코딩이 선택되거나 프레임의 높은 확산 대역에 대해서만 인코딩된 구체 인덱스가 획득되며, 다른 대역의 경우, 낮은 또는 중간 확산, 모델링을 통한 엔트로피 코딩과 같은 제2 인코딩 모드가 선택된다.
도 5d는 예를 들어 모델링을 갖는 엔트로피 코딩 모드 일 수 있는 이 제2 인코딩 모드를 도시한다. 예를 들어, 240에서 도 5a에 도시된 바와 같이 혼합 확산 프레임에 대해 분류된 사전 프로세싱 된 인덱스는 고도 인덱스, 고도 알파벳, 방위 인덱스, 방위 알파벳과 같은 대응하는 양자화 데이터를 수집하는 블록 266에 입력되고, 데이터는 프레임에 대해 별도의 벡터로 수집된다. 블록 267에서, 평균화는 후술하는 바와 같이 역 양자화 및 대응하는 벡터 변환으로부터 도출된 정보에 기초하여 고도 및 방위에 대해 명확하게 계산된다. 이들 평균값은 블록 268에 표시된 프레임에서 사용된 최고의 각도 정밀도로 양자화된다. 블록 269에 도시된 바와 같이 예측된 고도 및 방위 인덱스가 평균값으로부터 생성되고, 원래의 인덱스로부터의 고도 및 방위에 대한 부호 있는 거리가 예측된 고도 및 방위 인덱스와 관련하여 계산되고 선택적으로 다른 작은 간격의 값으로 감소된다.
도 5e에 도시된 바와 같이, 도 5d에 도시된 예측값(prediction value)을 도출하기 위한 투영 동작(projection operation)을 사용하여 모델링 동작에 의해 생성된 데이터는 엔트로피 인코딩된다. 도 5e에 도시된 이 인코딩 동작은 최종적으로 대응하는 데이터로부터 인코딩 비트를 생성한다. 블록 271에서, 방위 및 고도의 평균값이 부호 있는 값으로 변환되고, 보다 간단한 표현을 위해 특정 재정렬(272)이 수행되고, 이들 평균값은 고도 평균 비트(274) 및 방위 평균 비트를 생성하기 위해 이진 코드 또는 천공된 이진 코드로 인코딩된다(273). 블록 275에서, 골롬-라이스(Golomb-Rice) 파라미터는 도 5f에 도시된 바와 같이 결정되며, 그리고 이 파라미터는 또한 277에 도시된 고도에 대한 골롬-라이스 파라미터 및 277에 예시된 방위에 대한 다른 골롬-라이스 파라미터를 갖기 위해 블록 276에 도시된(천공) 이진 코드로 인코딩된다. 블록 278에서, 블록 270에 의해 계산된(감소된) 부호 있는 거리는 재정렬된 다음 인코딩된 고도 거리 및 방위 거리를 280으로 나타내기 위해 279에 도시된 확장된 골롬-라이스 방법으로 인코딩된다.
도 5f는 블록 275에서 골롬-라이스 파라미터의 결정을 위한 바람직한 구현을 도시하며, 이는 고도 골롬-라이스 파라미터 또는 방위 골롬-라이스 파라미터의 결정을 위해 수행된다. 블록 281에서, 해당 골롬-라이스 파라미터에 대한 간격이 결정된다. 블록 282에서, 모든 감소된 부호 있는 거리에 대한 총 비트 수는 각각의 후보 값에 대해 계산되고, 블록 283에서, 가장 작은 수의 비트를 초래하는 후보 값은 방위 또는 고도 프로세싱을 위한 골롬-라이스 파라미터로서 선택된다.
후속하여, 도 5e의 블록 279의 절차, 즉 확장된 골롬-라이스 방법을 추가로 설명하기 위해 도 5g가 논의된다. 선택된 골롬-라이스 파라미터 p에 기초하여, 블록 284의 우측에 도시된 바와 같이 고도 또는 방위에 대한 거리 인덱스는 최상위 부분(most significant part) MSP와 최하위 부분(least significant part) LSP로 분리된다. 블록 285에서, MSP가 가능한 최대 값 인 경우에, MSP 부분의 종료 제로 비트가 제거되고, 블록 286에서 결과는(천공된) 이진 코드로 인코딩된다.
LSP 부분은 또한 287에 도시된(천공된) 이진 코드로 인코딩된다. 따라서, 라인 288과 라인 289에서, 최상위 부분 MSP에 대한 인코딩된 비트 및 최하위 부분 LSP에 대한 인코딩된 비트은 함께 고도 또는 방위에 대한 대응하는 인코딩된 감소된 부호 있는 거리와 함께 나타낸다.
도 8d는 인코딩된 방향에 대한 예를 도시한다. 모드 비트(806)는 예를 들어 모델링을 갖는 엔트로피 인코딩 모드를 나타낸다. 항목 808a는 방위 평균 비트를 도시하고, 항목 808b는 도 5e의 항목 274와 관련하여 이전에 논의된 바와 같은 고도 평균 비트를 도시한다. 골롬-라이스 방위 파라미터(808c) 및 골롬-라이스 고도 파라미터(808d)는 또한 항목 277과 관련하여 이전에 논의된 것에 대응하여 도 8d의 비트 스트림에 인코딩된 형태로 포함된다. 인코딩된 고도 거리 및 인코딩된 방위 거리(808e 및 808f)는 288 및 289에서 획득된 바와 같이 또는 도 5e 및 도 5g의 항목 280과 관련하여 이전에 논의된 바와 같이 비트 스트림에 포함된다. 항목 808g은 추가 고도/방위 거리에 대한 추가 페이로드(payload) 비트를 도시한다. 고도와 방위에 대한 평균 및 고도와 방위에 대한 골롬-라이스 파라미터는 각 프레임에 대해 한 번만 필요하며, 그러나 필요한 경우 프레임이 꽤 길거나 신호 통계가 프레임 내에서 크게 변경되는 경우 프레임에 대해 두 번 계산될 수도 있다.
도 8c는 모드 비트가 도 5c, 블록 260에 의해 정의된 원시 코딩을 나타낼 때의 비트 스트림을 도시한다. 모드 비트(806)는 낮은 코딩 모드를 나타내고, 아이템(808)은 구체 인덱스에 대한 페이로드 비트, 즉 도 5c의 블록 262의 결과를 나타낸다.
방향 파라미터의 엔트로피 코딩(Entropy coding of direction parameters)
양자화된 방향을 코딩 할 때, 방위 인덱스 az_idx 전에 고도 인덱스 el_idx가 항상 먼저 코딩 된다. 현재 구성에서 수평 적도 평면 만 고려하면 고도에 대해 아무것도 코딩 되지 않으며 어디에서나 0으로 간주된다.
코딩하기 전에, 부호 있는 값은 일반 재정렬 변환을 사용하여 부호 없는 값에 매핑 된다. 이 순서는 양수와 음수를 부호 없는 숫자로 u_val = 2| s_val |-(s_val <0), ReorderGeneric 함수로 구현된다. 표현(조건)은 조건이 참이면 1로 평가되고 조건이 거짓이면 0으로 평가된다.
EncodeQuasiUniform 함수를 사용하여 더 작은 부호 없는 값을 더 효율적으로 코딩 하기 때문에 1 비트 이하로 이미 부호 없는 고도 및 방위 인덱스가 모두 부호 있는 것으로 변환되어 부호 있는 인덱스 값이 0이된다. 고도 또는 방위는 0이고, 그 후에 만 ReorderGeneric 함수가 적용된다. 먼저 부호 있는 것으로 변환하여, 0 값은 가능한 값의 부호 있는 간격의 중간에 위치하며 ReorderGeneric 함수를 적용한 후 부호 없는 재정렬된 고도 인덱스 값은 el_idx_r = ReorderGeneric(el_idx-el_alph ÷ 2)이고, 및 결과 부호 없는 재정렬 된 방위 인덱스 값은 az_idx_r = ReorderGeneric(az_idx-az_alph·(az_idx≥z_alph ÷ 2))이다.
모델링 없이 원시 코딩의 경우, 두 개의 부호 없는 재정렬된 인덱스는 하나의 부호 없는 구체 인덱스 shpere_idx = sphere_offsets(deg_req, el_idx_r) + az_idx_r에 병합되고, 여기서 sphere_offsets 함수는 el_idx_r 보다 작은 부호 없는 재정렬된 고도 인덱스에 대응하는 모든 방위 알파벳 az_alph의 합을 계산한다. 예를 들어, deg_req = 90 인 경우, el_idx_r = 0(고도 0도)은 z_alph = 4, el_idx_r = 1(고도 -90도)는 az_alph = 1, 및 el_idx_r = 2(고도 90도)는 az_alph = 1, sphere_offsets(90,2)는 4 + 1 이다. 현재 구성에서 수평 적도 평면 만 고려하면 el_idx_r은 항상 0이며 부호 없는 구체 인덱스는 sphere_idx = az_idx_r로 단순화된다. 일반적으로 구체 상의 총 포인트 수 또는 구체 포인트 카운트는 sphere_alph = sphere_offsets(deg_req, el_alph + 1)이다.
부호 없는 구체 인덱스 shpere_idx는 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 엔트로피 코딩의 경우, 모델링을 통해 양자화된 방향은 두 가지 범주로 그룹화 된다. 첫 번째는 엔트로피 코딩 된 확산 인덱스 diff_idx(b) ≤ ec_max에 대한 양자화된 방향을 포함하고, 두 번째는 원시 코드 된 확산 인덱스 diff_idx(b) > ec_max에 대한 양자화된 방향을 포함하며, 여기서 ec_max는 diff_alph에 따라 최적으로 선택된 임계 값이다. 이 접근법은 잔존의 혼합 통계를 피하기 위해 낮은에서 중간까지의 확산을 갖는 주파수 대역이 또한 프레임에 존재할 때, 높은 확산을 갖는 주파수 대역을 엔트로피 코딩에서 암시적으로 배제한다. 혼합 확산 프레임의 경우, 원시 코딩은 항상 높은 확산을 갖는 주파수 대역에 사용된다. 그러나, 모든 주파수 대역이 높은 확산, diff_idx(b) > ec_max를 갖는 경우, 모든 주파수 대역에 대한 엔트로피 코딩을 가능하게 하기 위해 임계 값이 미리 ec_max = diff_alph로 설정된다.
엔트로피 코딩 된 양자화된 방향의 첫 번째 카테고리의 경우, 해당 고도 인덱스 el_idx, 고도 알파벳 el_alph, 방위 인덱스 az_idx 및 방위 알파벳 az_alph는 추가 프로세싱을 위해 별도의 벡터로 수집된다.
엔트로피 코딩 된 각각의 양자화된 방향을 방향 벡터로 다시 변환하고, 재 정규화를 포함하는 방향 벡터의 평균, 중간 또는 모드를 계산하고, 평균 방향 벡터를 평균 고도 el_avg 및 방위 az_avg 로 변환함으로써 평균 방향 벡터가 도출된다. 이 두 값은 deg_req_avg로 표시되는 엔트로피 코딩 된 양자화된 방향에 의해 사용되는 최고의 각도 정밀도 deg_req를 사용하여 양자화 되며, 이는 일반적으로 최소 확산 인덱스 min(diff_idx(b))에 대응하는 각도 정밀도 이며, 여기서 b∈{0, ... ,nbands-1}이고 diff_idx(b) ≤ ec_max 이다.
deg_req_avg에서 도출된 해당 n_points_avg 값을 사용하여, el_avg가 정상적으로 양자화 되어 el_avg_idx 및 el_ avg_alph를 생성하고, 그러나 az_avg는 적도에서 정밀도를 사용하여 양자화되어, az_avg_idx 및 az_avg_alph = 4·n_point_avg를 생성한다.
엔트로피 코딩 될 각 방향에 대해, 양자화된 평균 고도 q_el_avg 및 방위 q_az_avg는 예측된 고도 및 방위 인덱스를 획득하기 위해 해당 방향의 정밀도를 사용하여 투영된다. 고도 인덱스 el_idx의 경우, el_alph에서 파생될 수 있는 정밀도는 투영된 평균 고도 인덱스 el_avg_idx_p를 계산하는 데 사용된다. 대응하는 방위 인덱스 az_idx의 경우, az_alph에서 파생될 수 있는 q_el 고도에 위치된 수평 원 상의 정밀도는 투영된 평균 방위 인덱스 az_avg_idx_p를 계산하는 데 사용된다.
예측된 고도 및 방위 인덱스를 획득하기 위한 투영은 몇 가지 동등한 방법으로 계산될 수 있다. 고도의 경우, el_avg_idx_p =

는 el_avg_idx_p =

으로 쉽게 단순화될 수 있다. 정확한 비트 연산을 위해, el_avg_idx_p =(2·el_avg_idx(el_alph-1) +(el_avg_alph-1)) div(2·(el_avg_alph-1))와 같이 나누기를 포함한 정수만 사용하여 이전 수식을 다시 작성할 수 있다. 방위의 경우, az_avg_idx_p =

mod az_alph는 az_avg_idx_p =

mod az_alph으로 쉽게 단순화될 수 있다. 정확한 비트 작동을 위해, az_avg_idx_p =((2az_avg_idxaz_alph+az_avg_alph) div(2az_avg_alph)) mod az_alph와 같이 나누기를 포함한 정수 전용 수학을 사용하여 이전 수식을 다시 작성할 수 있다. az_alph = 1 인 극점에는, 항상 az_idx = 0이고 az_avg_idx_p = 0을 직접 설정한다.
부호 있는 거리 el_idx_dist는 각 고도 인덱스 el_idx와 이에 대응하는 el_avg_idx_p의 차이로 계산된다. 또한 차이가 {-el_alph + 1, ... , el_alph-1} 간격으로 값을 생성하기 때문에, 그 값은 너무 작은 값에 대해 el_alph를 더하고 모듈형 산술에서와 같이 너무 큰 값에 대해 el_alph를 빼서 {-[el"＼ _ "alph ÷ 2], ... , [el"＼ _ "alph ÷ 2]} 간격으로 줄어든다. el_avg_idx_p에 대한 이렇게 축소된 거리가 랩 어라운드(wrap-around)를 사용하여 해석되면, el_alph 값을 포함하는 부호 없는 알파벳에서 모든 값을 생성할 수 있다.
비슷하게, 부호 있는 거리 az_idx_dist는 각 방위 az_idx와 해당 az_avg_idx_p의 차이로 계산된다. 차이 연산은 {-az_alph + 1, ... , az_alph-1} 간격에서 값을 생성하며, 이는 너무 작은 값에 대해 az_alph를 더하고 너무 큰 값에 대해 az_alph를 빼서 {-az_alph ÷ 2, ... , az_alph χ 2-1} 간격으로 줄어든다. az_alph = 1 인 경우, 방위 인덱스는 항상 az_idx = 0이므로 코딩 할 필요가 없다.
그들의 값에 따라, 양자화된 고도 및 방위 인덱스는 이용 가능한 2 가지 방법 중 하나를 사용하여 코딩 될 수 있다: 원시 코딩 또는 엔트로피 코딩. 제1 비트(dir_use_raw_coding)는 원시 코딩 방법의 사용 여부를 나타낸다. 원시 코딩의 경우, 병합된 sphere_index 단일 부호 없는 구체 인덱스는 EncodeQuasiUniform 함수를 사용하여 직접 코딩 된다.
엔트로피 코딩은 여러 부분으로 구성된다. 확산 인덱스 diff_idx(b) > ec_max에 대응하는 모든 양자화된 고도 및 방위 인덱스는 원시 코딩과 같이 코딩 된다. 그런 다음 다른 부분의 경우, 고도 부분을 먼저 엔트로피 코딩 한 다음 방위 부분을 코딩한다.
고도 부분은 평균 고도 인덱스, 골룸-라이스 파라미터 및 감소된 부호 있는 고도 거리의 세 가지 구성 요소로 구성된다. 평균 고도 인덱스 el_avg_idx는 부호 있는 것으로 변환되어 0 값은 가능한 값의 부호 있는 간격의 중간에 있고 ReorderGeneric 함수가 적용되고, 및 결과는 EncodeQuasiUniform 함수를 사용하여 코딩 된다.
고도 인덱스의 최대 알파벳 크기에 따라 알파벳 크기를 갖는 골롬-라이스 파라미터는 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 마지막으로, 감소된 각 고도 거리 el_idx_dist에 대하여, ReorderGeneric 함수는 el_idx_dist_r을 생성하기 위해 적용되며 결과는 위에 표시된 파라미터와 함께 Extended Golomb-Rice 방법을 사용하여 코딩 된다.
예를 들어, 사용된 최고의 각도 정밀도 deg_req_min이 5 도인 경우, 그러면 최대 고도 알파벳 크기 el_alph는 el_alph_max = 290 ÷ deg_req_min + 1 = 37이 된다. 이 경우, 골롬-라이스 파라미터 값(아래 골롬-라이스 방법 설명에서 p로 표시)은 간격 {0,1,2,3,4}로 제한된다. 일반적으로, 골롬-라이스 파라미터의 잠재적으로 유용한 최대 값은 log₂ el_alph_max-1 이고, EncodeQuasiUniform 함수를 사용하여 원시 코딩으로 생성된 것 보다 길이가 약간 긴 이진 코드 워드를 생성한다. 골롬-라이스 파라미터 el_gr_param의 최적 값은 위의 간격에 있는 각 값에 대해 코딩 된 모든 el_idx_dist_r 값의 총 크기(비트)를 코딩하지 않고 효율적으로 계산하여 선택한다. 확장된 골롬-라이스 방법을 사용하고 비트 크기가 가장 작은 방법을 선택한다.
방위 부분은 또한 평균 방위 인덱스, 골롬-라이스 파라미터 및 감소된 부호 있는 방위 거리의 세 가지 구성 요소로 구성된다. 평균 방위 인덱스 az_avg_idx는 부호 있는 것으로 변환되어 0 값이 가능한 값의 부호 있는 간격 중간에 있고 ReorderGeneric 함수가 적용되며, 및 결과는 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 방위 인덱스의 최대 알파벳 크기에 따라 알파벳 크기를 갖는 골롬-라이스 파라미터는 EncodeQuasiUniform 함수를 사용하여 코딩 된다. 　마지막으로, 각각의 감소된 부호 있는 방위 거리 az_idx_dist에 대해, ReorderGeneric 함수는 az_idx_dist_r을 생성하기 위해 적용되며, 결과는 위에 표시된 파라미터와 함께 확장된 골롬-라이스 방법을 사용하여 코딩 된다.
예를 들어, 사용된 최고의 각도 정밀도 deg_req_min이 5 도인 경우, 그러면 최대 방위 알파벳 크기 az_alph는 az_alph_max = 4·[90 ÷ deg_req_min] = 72가 된다. 이 경우, 골롬-라이스 파라미터 값(아래 골롬-라이스 방법 설명에서 p로 표시)은 간격 {0,1,2,3,4,5}로 제한된다. 골롬-라이스 파라미터 az_gr_param의 최적 값은 위 간격의 각 값에 대해, 확장된 골롬-라이스 방법을 사용하여 코딩 되어야 할 모든 az_idx_dist_r 값에 대해 비트의 전체 크기를 효율적으로 계산하여 선택되며, 및 비트 크기가 가장 작은 방법을 선택한다.
효율적인 엔트로피 코딩을 위해 고려해야 할 중요한 특성은 각각의 재정렬된 감소된 고도 거리 el_idx_dist_r이 다른 알파벳 크기를 가질 수 있다는 것이다. 이것은 정확히 원래 고도 인덱스 값 el_idx의 el_alph이며, 해당 확산 인덱스 diff_idx(b)에 의존한다. 또한, 각각의 재정렬된 감소된 방위 거리 az_idx_dist_r은 알파벳 크기가 다를 수 있으며, 이는 정확히 원래 방위 인덱스 값 az_idx의 az_alph이며, 및 수평 원의 대응하는 q_el 및 확산 인덱스 diff_idx(b)에 의존한다.
정수 파라미터가 p≥0 인 기존 골롬-라이스 엔트로피 코딩 방법은 부호 없는 정수 u를 코딩하는 데 사용된다. 먼저, u는 p 비트, u_lsp u mod 2^p 및 최상위 부분 u_msp = u ÷ 2^p를 갖는 최하위 부분으로 분할된다. 최상위 부분은 u_msp 1 비트 및 종료 0 비트를 사용하여 단항으로 코딩 되며, 가장 중요하지 않은 부분은 2 진으로 코딩 된다.
임의로 큰 정수를 코딩 할 수 있기 때문에, 코딩 될 실제 값이 공지되고 비교적 작은 알파벳 크기를 가질 때 일부 코딩 효율이 손실될 수 있다. 다른 단점은 전송 오류 또는 의도적으로 생성된 유효하지 않은 비트 스트림 인 경우, 범위를 벗어난 값 또는 유효하지 않은 값을 디코딩 하거나 매우 많은 수의 1 비트를 읽을 수 있다는 가능성이다.
확장된 골롬-라이스 방법은 기존의 골롬-라이스 방법에 비해 세 가지 개선된 기능을 결합하여 각각 알려진 다른 잠재적으로 알파벳 크기 u_alph로 값 벡터를 코딩 한다. 먼저, 최상위 부분의 알파벳 크기는 u_msp_alph = u_alph ÷ 2^p로 계산할 수 있다. 최상위 부분의 가능한 최대 값이 코딩 되면 u_msp_alph-1, 이 조건은 디코더 측에서 암시적으로 검출될 수 있기 때문에 종료 제로 비트가 제거될 수 있으며, 그 변형은 기존의 제한된 골롬-라이스 방법이다. 또한, 같은 경우에 u_msp = u_msp_alph-1, u_alph-(u_msb_alph-1)2^p로 계산할 수 있는 최하위 부분 u_lsp의 알파벳 크기는 더 작을 수 있다. p 보다 2 진수 코딩 대신 EncodeQuasiUniform 함수를 사용할 수 있다. 이는 특정 값 u에 알파벳 u_alph가 2^p 보다 작은 경우에도 유용하다. 마지막으로, u_msp_alph≤3 일 때, 제한된 골롬-라이스 방법은 p 또는 p + 1 비트 길이가 하나 인 코드 또는 p + 1 및 p + 2 비트의 길이가 두 개인 코드를 생성한다. EncodeQuasiUniform 함수는 최대 2 개의 길이에 대해 최적이므로 대신 사용된다.
3의 임계 값은 u_msp_alph 3 일 때 최상위 부분에 대한 제한된 골롬-라이스의 코드 워드가 0, 10, 11이므로 특별히 선호되는 값이다; 따라서, 코드의 총 길이는 1 + p, 2 + p 및 2 + p이며, 여기서 p는 최하위 부분에 대한 비트 수이다; 천공된 코드는 항상 최대 2 개의 길이에 대해 최적이기 때문에 최상위 부분과 최하위 부분을 대신하여 대신 사용된다.
또한, EncodeQuasiUniform 함수는 정확히 천공된 코드이며, 알파벳 크기가 2의 거듭 제곱 인 경우 암시적으로 이진 코드가 된다. 일반적으로, 천공된 코드는 알파벳 크기에 따라 최적이고 고유하게 결정된다; 하나 또는 두 개의 길이의 코드 만 생성한다; 3 개 이상의 연속적인 코드 길이에 대해, 가능한 코드는 더 이상 유사하지 않으며 각 길이의 가능한 코드의 수에 대해 다른 선택이 있다.
본 발명은 상기의 정확한 설명으로 제한되지 않는다. 대안적으로, 본 발명은 프레임 간 예측 코딩 방식(inter-frame predictive coding scheme)의 형태로 쉽게 확장될 수 있으며, 각각의 파라미터 대역에 대해, 평균 방향 벡터는, 전체 현재 프레임에 대한 단일 평균 방향 벡터를 계산하고 이를 부가 정보로서 양자화 및 코딩하는 대신에, 현재 프레임 및 또는 선택적으로 이전 프레임으로부터 시간에 걸쳐 이전 방향 벡터를 사용하여 계산된다. 이 솔루션은 코딩에서 더 효율적일 수 있지만 가능한 패킷 손실에 대해 덜 견고하다는 장점을 가질 것이다.
도 6a 내지 6g는 전술한 바와 같이 인코더에서 수행되는 추가 절차를 도시한다. 도 6a는 양자화 고도 함수(210a), 양자화 방위 함수(210b) 및 역 양자화 고도 함수(210c)로 구성된 파라미터 양자화기(210)의 일반적인 개요를 도시한다. 도 6a의 바람직한 실시예는 양자화된 다시 역 양자화된 고도 값(q_el)에 의존하는 방위 함수(210c)를 갖는 파라미터 양자화기를 도시한다.
도 6c는 인코더에 대해도 6a와 관련하여 이전에 논의된 바와 같이 상승을 역 양자화 하기 위한 대응하는 역 양자화기를 도시한다. 그러나, 도 6b 실시예는 또한 도 8a의 항목(840)에 도시된 역 양자화기에 유용하다. 역 양자화 정밀도 deg_req에 따라, 한편으로는 역 양자화된 고도 값(q_el) 및 역 양자화된 방위 값(q_az)을 최종적으로 획득하기 위해 한편으로는 고도 인덱스 및 다른 한편으로는 방위 인덱스가 역 양자화된다. 도 6c는 제1 인코딩 모드, 즉 도 5c의 항목 260 내지 262와 관련하여 논의된 원시 코딩 모드를 도시한다. 도 6c는 247a에서 고도 데이터의 부호 있는 값으로의 변환 및 247b에서의 방위 데이터의 부호 있는 값으로의 대응하는 변환을 나타내는 도 5b에서 논의된 사전 프로세싱을 추가로 도시한다. 재정렬은 248a에 표시된 고도와 248b에 표시된 방위에 대해 수행된다. 구체 포인트 카운트 절차(sphere point count procedure)는 양자화 또는 역 양자화 정밀도에 기초하여 구체 알파벳을 계산하기 위해 블록 248c에서 수행된다. 블록 261에서, 두 인덱스를 단일 구체 인덱스로 병합하는 것이 수행되고, 블록 262의 인코딩은 이 구체 인덱스뿐만 아니라 대응하는 역 양자화 정밀도를 위한 구체 알파벳으로 이진 또는 천공된 이진 코드로 수행된다. 도 5c에 도시된 바와 같이 도출된다.
도 6d는 모델링에 의한 엔트로피 코딩 모드에 대해 수행되는 절차를 도시한다. 항목 267a에서, 방위 및 고도 데이터의 역 양자화는 대응하는 인덱스 및 역 양자화 정밀도에 기초하여 수행된다. 역 양자화된 값으로부터 방향 벡터를 계산하기 위해 역 양자화된 값이 블록 267b에 입력된다. 블록 267c에서, 평균화 벡터를 획득하기 위해 대응하는 임계치 미만의 연관된 확산 인덱스를 갖는 벡터에 대해 평균화가 수행된다. 블록 267d에서, 방향 평균 방향 벡터는 다시 고도 평균 및 방위 평균으로 다시 변환되고, 이들 값은 블록 268e에 의해 결정된 바와 같이 최고 정밀도를 사용하여 양자화된다. 이 양자화는 268a, 268b에 도시되어 있으며, 양자화는 알파벳이 평균값에 대한 양자화 정밀도에 의해 결정되는 대응하는 양자화된 인덱스 및 양자화 알파벳을 초래한다. 블록 268c 및 268d에서, 고도 및 방위에 대한 역 양자화 평균값을 획득하기 위해 역 양자화가 다시 수행된다.
도 6e에서, 투영된 고도 평균은 블록 269a에서 계산되고 투영된 방위 평균은 블록 269b에서 계산되며, 즉, 도 6e는 도 5d의 블록 269의 바람직한 구현을 도시한다. 도 6e에 도시된 바와 같이, 블록 269a, 269b은 바람직하게는 고도 및 방위에 대한 양자화된 및 다시 역 양자화된 평균값을 수신한다. 대안적으로, 투영은 또한 블록 267d의 출력에서 직접 수행될 수 있고, 양자화 및 다시 역 양자화를 갖는 절차는 인코더 측 및 디코더 측의 상태와의 높은 정밀도 및 호환성을 위해 바람직하다.
도 6f에서, 바람직한 실시예에서, 절차는 도 5d의 블록 270에 대응하여 도시되어 있다. 블록 278a, 278b에서, 도 5d의 블록 270에서 호출될 때 대응하는 차이 또는 "거리"는 원래 인덱스와 투영된 인덱스 사이에서 계산된다. 대응하는 구간 감소는 고도에 대한 블록 270c 및 방위 데이터에 대하여 270d에서 수행된다. 블록 270e, 270f에서의 재정렬에 이어서, 도 5e 내지 도 5g와 관련하여 전술한 바와 같이 확장된 골롬-라이스 인코딩 될 데이터가 얻어진다.
도 6g는 고도 평균 및 방위 평균에 대한 인코딩된 비트를 생성하기 위해 수행되는 절차에 관한 추가 세부 사항을 도시한다. 블록 271a 및 271b는 고도 및 방위 평균 데이터의 부호 있는 데이터로의 변환을 도시하고, 후속하여 블록 272a 및 272b의 두 종류의 데이터에 대해 ReorderGeneric 함수가 도시되어 있다. 항목 273a 및 273b은 상기 논의된 인코딩 준 균일 함수와 같은(천공된) 이진 코드를 사용하여 이 데이터의 인코딩을 예시한다.
도 7a는 인코딩된 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하기 위한 제1 양태에 따른 디코더를 도시하였고, 인코딩된 지향성 오디오 코딩 파라미터는 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함한다. 장치는 제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터를 획득하기 위해 인코딩된 지향성 오디오 코딩 파라미터를 디코딩 하기 위한 파라미터 프로세서(parameter processor)(300)를 포함한다.
파라미터 프로세서(300)는 디코딩된 확산 파라미터 또는 디코딩된 방향 파라미터를 변환된 확산 파라미터 또는 변환된 방향 파라미터로 변환하기 위해 파라미터 해상도 변환기(parameter resolution converter)(710)에 연결된다. 대안적으로, 헤지 라인(hedged line)으로 표시된 것처럼, 파라미터 해상도 변환기(710)는 인코딩된 파라메트릭 데이터(parametric data)로 파라미터 해상도 프로세싱을 이미 수행할 수 있고 변환된 인코딩된 파라미터는 파라미터 해상도 변환기(710)로부터 파라미터 프로세서(300)로 전송된다. 후자의 경우, 파라미터 프로세서(300)는 프로세싱 된, 즉 디코딩된 파라미터를 오디오 렌더러(audio renderer)(420)에 직접 공급한다. 그러나, 디코딩된 확산 파라미터 및 디코딩된 방향 파라미터로 파라미터 해상도 변환을 수행하는 것이 바람직하다.
디코딩된 방향 및 확산 파라미터는 전형적으로 이들이 오디오 렌더러(420)에 제공될 때 제3 또는 제4 시간 또는 주파수 해상도를 가지며, 여기서 제3 또는 제4 해상도는 파라미터 프로세서(300)에 의해 출력될 때 이들 파라미터에 고유한 해상도 보다 크다.
파라미터 해상도 변환기(710)는 디코딩된 확산 파라미터 및 디코딩된 방향 파라미터에 고유한 시간 또는 주파수 해상도가 서로 다르기 때문에, 디코딩된 확산 파라미터 및 디코딩된 방향 파라미터로 상이한 파라미터 해상도 변환을 수행하도록 구성된다. 전형적으로, 디코딩된 확산 파라미터는 디코딩된 방향 파라미터와 비교하여 더 낮은 시간 또는 주파수 해상도를 갖는다. 도 3a 내지 3c와 관련하여 전술한 바와 같이, 오디오 렌더러(420)에 의해 사용되는 최고 해상도는 도 3b에 도시된 해상도이고, 도 3c에 도시된 중간 해상도는 디코딩된 방향 파라미터에 고유 한 해상도이고, 디코딩된 확산 파라미터에 고유한 낮은 해상도는 도 3b에 도시된 것이다.
도 3a 내지 3c는 3 개의 매우 특정한 시간 또는 주파수 해상도를 나타내는 예일뿐이다. 높은 시간 또는 주파수 해상도, 중간 해상도 및 낮은 해상도가 존재한다는 점에서 동일한 경향을 갖는 상이한 시간 또는 주파수 해상도도 본 발명에 의해 적용될 수 있다. 도 3b 및 도 3c의 예에 도시된 바와 같이, 이들 해상도가 모두 동일한 주파수 해상도를 갖지만 상이한 시간 해상도를 갖거나 그 반대의 경우, 시간 또는 주파수 해상도는 상이한 시간 또는 주파수 해상도 보다 낮다. 이 예에서는, 주파수 해상도는 도 3b와 도 3c에서 동일하다. 그러나 도 3c에서 시간 해상도는 더 높기 때문에 도 3c는 중간 해상도를 나타내며, 도 3b는 낮은 해상도를 나타낸다.
그 후, 제3 또는 제4 높은 시간 또는 주파수 해상도에서 동작하는 오디오 렌더러(420)의 결과는 스펙트럼/시간 변환기(440)로 전달되어 도 1b와 관련하여 이미 논의된 바와 같이 시간 도메인 다중 채널 오디오 신호(450)를 생성한다. 스펙트럼/시간 변환기(440)는 오디오 렌더러(420)에 의해 생성된 스펙트럼 도메인으로부터의 데이터를 라인(450) 상의 시간 도메인으로 변환한다. 오디오 렌더러(420)가 동작하는 스펙트럼 도메인은 프레임에 대해 제1 숫자의 시간 슬롯 및 제2 숫자의 주파수 대역을 포함한다. 프레임은 제1 숫자 및 제2 숫자의 곱하기 결과와 동일한 다수의 시간/주파수 빈을 포함하고, 제1 숫자 및 제2 숫자는 제3 시간 또는 주파수 해상도, 즉, 높은 시간 또는 주파수 해상도를 정의한다.
해상도 변환기(710)는 제1 시간 또는 주파수 해상도와 연관된 확산 파라미터로부터 다수의 적어도 4 개의 확산 파라미터를 생성하도록 구성되고, 여기서, 이들 확산 파라미터 중 2 개는 시간에 인접한 시간/주파수 빈에 대한 것이고, 적어도 4 개의 확산 파라미터 중 다른 2 개는 주파수에서 서로 인접한 시간/주파수 빈에 대한 것이다.
확산 파라미터의 시간 또는 주파수 해상도가 방향 파라미터 보다 낮으므로, 파라미터 해상도 변환기는 디코딩된 확산 파라미터에 대해 다수의 변환된 확산 파라미터 및 디코딩된 방향 파라미터에 대해 제2 다수의 변환된 방향 파라미터를 생성하도록 구성되며, 여기서 제2 다수는 제1 다수 보다 높다.
도 7b는 파라미터 해상도 변환기에 의해 수행되는 바람직한 절차를 도시한다. 블록 721에서, 파라미터 해상도 변환기(710)는 프레임에 대한 확산/방향 파라미터를 획득한다. 블록 722에서, 확산 파라미터의 곱하기 또는 적어도 4 개의 높은 해상도 시간/주파수 빈으로의 복사 동작이 수행된다. 블록 723에서, 평활화 또는 저역 통과 필터링과 같은 선택적인 프로세싱이 높은 해상도 표현인 다중화 된 파라미터에 대해 수행된다. 블록 724에서, 높은 해상도 파라미터는 대응하는 높은 해상도 시간/주파수 빈에서 대응하는 오디오 데이터에 적용된다.
도 8a는 제1 양태에 따른 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함하는 인코딩된 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하기 위한 디코더의 바람직한 구현을 도시한다. 인코딩된 오디오 신호는 입력 인터페이스에 입력된다. 입력 인터페이스(input interface)(800)는 인코딩된 오디오 신호를 수신하고 인코딩된 오디오 신호로부터 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 전형적으로 프레임 단위로 분리한다. 이 데이터는 인코딩된 파라미터로부터, 양자화된 방향 파라미터가 예를 들어 방위 인덱스 및 고도 인덱스 인 양자화된 확산 파라미터 및 양자화된 방향 파라미터를 생성하는 파라미터 디코더(parameter decoder)(820)에 입력된다. 이 데이터는 양자화된 확산 파라미터 및 양자화된 방향 파라미터로부터, 양자화된 확산 파라미터 및 역 양자화된 방향 파라미터를 결정하기 위해 파라미터 역 양자화기(parameter dequantizer)(840)에 입력된다. 이 데이터는 하나의 오디오 포맷을 다른 오디오 포맷으로 변환하는데 사용될 수 있거나 오디오 신호를 다중 채널 신호 또는 앰비소닉스 표현(Ambisonics representation), MPS 표현 또는 SAOC 표현과 같은 다른 표현으로 렌더링하는데 사용될 수 있다.
블록 840에 의해 출력된 역 양자화된 파라미터는 블록 710에서 도 7a와 관련하여 전술한 바와 같이 선택적 파라미터 해상도 변환기에 입력될 수 있다. 변환되거나 변환되지 않은 파라미터는 도 8a에 도시된 오디오 렌더러(420, 440)에 입력될 수 있다. 인코딩된 오디오 신호가 인코딩된 전송 신호를 추가로 포함하는 경우, 입력 인터페이스(800)는 인코딩된 오디오 신호로부터 인코딩된 전송 신호를 분리하고 이 데이터를 도 8b와 관련하여 이미 논의된 오디오 운송 신호 디코더(340)로 공급하도록 구성된다. 결과는 오디오 렌더러(420)를 공급하는 시간 스펙트럼 변환기(430)에 입력된다. 오디오 렌더러(420)가 도 1b에 도시된 바와 같이 구현될 때, 시간 도메인으로의 변환은 도 1b의 합성 필터 뱅크(440)를 사용하여 수행된다.
도 8b는 인코딩된 확산 파라미터를 참조하는 비트 스트림으로 구성된 인코딩된 오디오 신호의 일부를 도시한다. 확산 파라미터는 도 8b에 도시되고 이전에 논의된 3 개의 상이한 모드를 표시하기 위해 바람직하게는 2 개의 모드 비트(802)와 관련되어 있다. 확산 파라미터에 대한 인코딩된 데이터는 페이로드 데이터(payload data)(804)를 포함한다.
방향 파라미터에 대한 비트 스트림 부분은 앞서 논의된 바와 같이 도 8c 및 도 8d에 도시되어 있다. 여기서, 도 8c는 원시 코딩 모드가 선택된 상황을 나타내고, 도 8d는 모델링을 갖는 엔트로피 디코딩 모드가 모드 비트 또는 모드 플래그(806)에 의해 선택/표시된 상황을 나타낸다.
도 8a의 파라미터 디코더(820)는 블록 850에 표시된 바와 같이 시간/주파수 영역에 대한 확산 페이로드 데이터를 디코딩 하도록 구성되고, 시간/주파수 영역은 바람직한 실시예에서 해상도가 낮은 시간/주파수 영역이다. 블록 851에서, 시간/주파수 영역에 대한 역 양자화 정밀도가 결정된다. 이 역 양자화 정밀도를 기반으로, 도 8e의 블록 852은 확산 파라미터가 연관된 시간/주파수 영역에 대해 동일한 양자화 정밀도를 사용하여 방향 파라미터의 디코딩 및/또는 역 양자화를 도시한다.
도 8e의 출력은 도 3c의 하나의 대역에 대한 것과 같은 시간/주파수 영역에 대한 디코딩된 방향 파라미터의 세트, 즉 도시된 예에서, 프레임에서 하나의 대역에 대한 4 개의 방향 파라미터이다.
도 8f는 디코더, 특히, 도 8a의 파라미터 디코더(820) 및 파라미터 역 양자화기(840)의 추가 특징을 도시한다. 역 양자화 정밀도가 확산 파라미터에 기초하여 결정되는지 또는 다른 곳에서 명시적으로 신호화 되거나 결정되는지에 관계없이, 블록 852a는 시간/주파수 영역에 대한 신호화 된 역 양자화 정밀도로부터 고도 알파벳의 결정을 나타낸다. 블록 852b에서, 고도 데이터는 블록 852b의 출력에서 역 양자화된 고도 파라미터를 획득하기 위해 시간/주파수 영역에 대한 고도 알파벳을 사용하여 디코딩 되고 선택적으로 역 양자화된다. 블록 852c에서, 시간/주파수 영역에 대한 방위 알파벳은 블록 851로부터의 역 양자화 정밀도로부터뿐만 아니라, 도 4에서 단위 구체의 준 균일 커버리지와 관련하여 이전에 논의되었던 상황을 반영하기 위해 양자화 또는 역 양자화된 고도 데이터로부터 결정된다. 블록 852d에서, 방위 알파벳으로 방위 데이터의 디코딩 및 선택적으로 역 양자화는 시간/주파수 영역에 대해 수행된다.
제2 양태에 따른 본 발명은 바람직하게는 이들 2 개의 특징을 결합하지만, 2 개의 특징, 즉 도 8a 중 하나 또는 도 8f의 다른 하나도 서로 별도로 적용될 수 있다.
도 8g는 원시 디코딩 모드가 선택되었는지 또는 도 8c 및 도 8d에서 논의된 모드 비트(mode bit)(806)에 의해 표시되는 모델링을 갖는 디코딩 모드에 따른 파라미터 디코딩 개요를 도시한다. 원시 디코딩이 적용되는 경우, 대역에 대한 구체 인덱스는 862에서 지시된 바와 같이 디코딩 되고, 대역에 대한 양자화된 방위/고도 파라미터는 블록 864에 지시된 바와 같이 디코딩된 구체 인덱스로부터 계산된다.
모델링을 통한 디코딩이 모드 비트(806)에 의해 지시될 때, 대역/프레임에서의 방위/고도 데이터에 대한 평균은 블록 866에 의해 지시된 바와 같이 디코딩된다. 블록 868에서, 대역 내 방위/고도 정보에 대한 거리가 디코딩 되고, 블록 870에서, 대응하는 양자화된 고도 및 방위 파라미터는 전형적으로 가산 연산을 사용하여 계산된다.
원시 디코딩 모드 또는 모델링을 사용한 디코딩 모드의 적용 여부에 관계없이, 디코딩된 방위/고도 인덱스는 도 8a의 840 및 블록 874에 도시된 바와 같이 역 양자화(872)되고, 결과는 대역에 대한 직교 좌표로 변환될 수 있다. 또는 방위 및 고도 데이터를 오디오 렌더러에서 직접 사용할 수 있는 경우, 블록 874에서 그러한 변환은 필요하지 않다. 직교 좌표로의 변환이 수행되는 경우 변환 전 또는 후에 잠재적으로 사용되는 파라미터 해상도 변환을 적용할 수 있다.
후속하여, 디코더의 추가적인 바람직한 구현과 관련하여도 9a 내지 9c를 또한 참조한다. 도 9a는 블록 862에 도시된 디코딩 동작을 도시한다. 도 8e 또는 도 8f의 블록 851에 의해 결정된 역 양자화 정밀도에 따라, 블록 248c의 기능적 구체 포인트 카운트는 인코딩 동안 또한 적용된 실제 구체 알파벳을 결정하기 위해 수행된다. 구체 인덱스에 대한 비트는 블록 862에서 디코딩 되고 2 개의 인덱스로의 분해는 864a에 도시된 바와 같이 수행되며 도 9a에 더 상세히 제공된다. 블록 864d, 864e에서의 재정렬 함수(864b, 864c) 및 대응하는 변환 기능은 최종적으로 도 8g의 블록 872에서 후속 역 양자화를 위한 고도 인덱스, 방위 인덱스 및 대응하는 알파벳을 획득하기 위해 수행된다.
도 9b는 다른 디코딩 모드, 즉 모델링을 갖는 디코딩 모드에 대한 대응하는 절차를 도시한다. 블록 866a에서, 평균에 대한 역 양자화 정밀도는 인코더 측에 대해 이전에 논의된 것과 일치하여 계산된다. 알파벳은 블록 866b 및 블록 866c 및 866d에서 계산되며, 도 8d의 대응하는 비트 808a, 808b가 디코딩된다. 재정렬 함수(866e, 866f)는 인코더 측에서 수행되는 대응하는 동작을 취소하거나 모방하기 위해 후속 변환 동작(866g, 866h)에서 수행된다.
도 9c는 바람직한 실시예에서 완전한 역 양자화 동작(840)을 추가로 도시한다. 블록 852a은 도 8f와 관련하여 이미 논의된 바와 같이 고도 알파벳을 결정하고, 방위 알파벳의 대응하는 계산은 또한 블록 852c에서 수행된다. 투영 계산 동작(820a, 820e)은 또한 고도 및 방위에 대해 수행된다. 고도(820b) 및 방위(820f)에 대한 재정렬 절차가 또한 수행되고, 대응하는 추가 동작(820c, 820g)이 또한 수행된다. 고도에 대한 블록 820d 및 방위에 대한 820h에서의 대응하는 간격 감소가 또한 수행되고, 블록 840a 및 840b에서 고도의 역 양자화가 수행된다. 도 9c는 이 절차가 특정 순서, 즉 고도 데이터가 먼저 프로세싱 되고 역 양자화된 고도 데이터를 기반으로 프로세싱 됨을 나타낸다. 방위 데이터의 디코딩 및 역 양자화는 본 발명의 바람직한 실시예에서 수행된다.
후속하여, 바람직한 실시예의 장점 및 장점이 요약된다:
* 모델의 일반성을 손상시키지 않으면서 DirAC에 의해 생성된 공간 메타 데이터의 효율적인 코딩. DirAC를 낮은 비트 레이트 코딩 체계에 통합하는 데 핵심적인 역할을 한다.
* 상이한 시간(또는 선택적으로 주파수) 해상도로 방향 및 확산 파라미터의 그룹화 및 평균화: 확산은 방향 보다 음장의 장기적인 특성을 유지하기 때문에 방향 보다 긴 시간에 걸쳐 평균화 된다.
* X, Y 및 Z 좌표 축에 대해 완전히 대칭인 3D 구체의 준 균일 동적 커버리지 및 원하는 각도 해상도가 가능하다.
* 양자화 및 역 양자화 연산은 일정한 복잡성이다(가장 가까운 코드 벡터를 검색할 필요가 없다).
* 하나의 양자화된 포인트 인덱스의 인코딩 및 디코딩은 구체 상의 총 양자화된 포인트 수에 대하여 일정하거나 최대의 로그 복잡성을 갖는다.
* 한 프레임에 대한 전체 DirAC 공간 메타 데이터의 최악의 엔트로피 코딩 크기는 항상 원시 코딩 보다 2 비트만으로 제한된다.
* 확장된 골롬-라이스 코딩 방법, 이는 잠재적으로 다른 알파벳 크기로 기호 벡터를 코딩하는 데 최적이다.
* 방향의 효율적인 엔트로피 코딩을 위해 평균 방향을 사용하여, 양자화된 평균 방향을 최고 해상도에서 각 방위 및 고도의 해상도로 매핑 한다.
* 혼합 확산 프레임에 대해 사전 정의된 임계 값 보다 높은 확산이 있는 방향에는 항상 원시 코딩을 사용한다.
* 해당 확산의 함수로 각 방향에 대한 각도 해상도를 사용한다.
본 발명의 제1 양태는 제1 및 제2 시간 또는 주파수 해상도 및 그와 같은 값의 양자화 및 인코딩으로 확산 파라미터 및 방향 파라미터를 프로세싱 하는 것에 관한 것이다. 이 제1 양태는 부가적으로 상이한 시간/주파수 해상도를 갖는 파라미터의 그룹화를 지칭한다. 다른 양태는 그룹화 내에서 진폭 측정 관련 가중치를 수행하는 것과 관련되고, 또한 추가적인 양태는 대응하는 가중치에 대한 기초로서 대응하는 확산 파라미터를 사용하여 방향 파라미터의 평균화 및 그룹화를 위한 가중치에 관한 것이다. 상기 양태는 또한 제1 청구 범위에서 설명되고 상세화 된다.
포함된 실시예에서 더 자세히 설명되는 본 발명의 제2 양태는 양자화 및 코딩을 수행하는 것에 관한 것이다. 이 양태는 제1 양태에 요약된 특징 없이 수행될 수 있거나 또는 제1 양태에 상세히 설명된 대응하는 특징과 함께 사용될 수 있다.
그러므로, 청구 범위 및 실시예 세트에서 구체화되고 청구 범위 및 종속 항의 상이한 종속 항에서 구체화되는 모든 상이한 양태는 서로 독립적으로 사용될 수 있거나 함께 사용될 수 있고, 가장 바람직한 실시예에 있어서, 청구 범위 세트의 모든 양태가 세트 예의 모든 양태와 함께 사용되는 것이 특히 바람직하다.
사례 세트는 다음 사례로 구성된다.
1. 확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하는 장치에 있어서,
확산 파라미터 및 방향 파라미터를 양자화 하기 위한 파라미터 양자화기(parameter quantizer)(210);
양자화된 확산 파라미터 및 양자화된 방향 파라미터를 인코딩 하기 위한 파라미터 인코더(parameter encoder)(220); 및
인코딩된 확산 파라미터 및 인코딩된 방향 파라미터에 대한 정보를 포함하는 인코딩된 파라미터 표현을 생성하기 위한 출력 인터페이스(output interface)(230);
2. 사례 1의 장치에 있어서,
파라미터 양자화기(210)는 비 균일 양자화기를 사용하여 확산 파라미터를 양자화 하여 확산 인덱스를 생성하도록 구성된다.
3. 사례 2의 장치에 있어서,
비 균일 양자화기의 임계 및 재구성 레벨을 획득하기 위해 파라미터 양자화기(210)는 채널 간 간섭 양자화 테이블을 사용하여 비 균일 양자화기를 도출하도록 구성된다.
4. 사례 1 내지 3 중 하나의 장치에 있어서,
파라미터 인코더(220)는,
인코딩 알파벳의 크기가 2의 거듭 제곱 인 경우, 이진 코드를 사용하여 원시 코딩 모드에서 양자화된 확산 파라미터를 인코딩 하도록 구성되고, 또는
인코딩 알파벳이 2의 거듭 제곱과 다른 경우, 천공된 코드를 사용하여 원시 코딩 모드에서 양자화된 확산 파라미터를 인코딩 하도록 구성되고, 또는
원시 코딩 모드로부터의 하나의 값에 대한 제1 특정 표식 및 코드 워드를 사용하여 양자화된 확산 파라미터를 하나의 값만의 모드로 인코딩 하도록 구성되고, 또는
양자화된 확산 파라미터를 제2 특정 표식, 2 개의 연속 값 중 작은 값에 대한 코드, 및 하나의 또는 각각의 실제 값 및 2 개의 연속 값 중 작은 값 사이의 차이에 대한 비트를 사용하여 2 개의 연속 값 전용 모드로 인코딩 하도록 구성된다.
5. 사례 4의 장치에 있어서,
파라미터 인코더(220)가 시간 부분 또는 주파수 부분과 관련된 모든 확산 값에 대해, 코딩 모드가 원시 코딩 모드인지, 하나의 값만의 모드인지 또는 2 개의 연속 값만의 모드인지를 결정하도록 구성되고,
원시 모드는 2 개의 비트 중 하나를 사용하여 시그널링 되고, 하나의 값만의 모드는 제1 값을 갖는 2 개의 비트 중 다른 하나를 사용하여 시그널링 되고, 2 개의 연속 값만의 모드는 제2 값을 갖는 2개의 비트 중 다른 하나를 사용하여 시그널링 된다.
6. 전술한 사례 중 하나의 장치에 있어서,
파라미터 양자화기(210)는
각각의 방향 파라미터에 대해 2 개 또는 3 개의 성분을 갖는 카테시안 벡터를 수신하도록 구성되고, 및
카테시안 벡터를 방위 값 및 고도 값을 갖는 표현으로 변환하도록 구성된다.
7. 전술한 사례 중 하나의 장치에 있어서,
파라미터 양자화기(210)는 방향 파라미터의 양자화를 위해, 양자화 정밀도를 결정하고, 양자화 정밀도는 방향 파라미터와 관련된 확산 파라미터에 의존하여, 더 낮은 확산 파라미터와 연관된 방향 파라미터가 더 높은 확산 파라미터와 연관된 방향 파라미터 보다 더 정확하게 양자화된다.
8. 사례 7의 장치에 있어서,
파라미터 양자화기(210)는 양자화 정밀도를 결정하도록 구성되어
양자화된 포인트가 단위 구체에 준 균일하게 분포되도록, 또는
양자화된 포인트가 x 축, y 축 또는 z 축에 대하여 대칭적으로 분포되도록, 또는
정수 인덱스에 매핑 함으로써 가장 가까운 양자화 포인트 또는 몇몇 가장 가까운 양자화 포인트 중 하나에 주어진 방향의 양자화는 일정한 시간 연산이 되도록, 또는
정수 인덱스 및 역 양자화로부터 방향으로 구체 상의 대응점을 계산하는 것은 구체 상의 전체 포인트의 수에 대해 상수 또는 로그 시간 연산이 되도록 한다.
9. 사례 6, 7 또는 8 중 하나의 장치에 있어서,
파라미터 양자화기(210)는 음의 값 및 양의 값을 갖는 고도 각도를 부호 없는 양자화 인덱스의 세트로 양자화 하도록 구성되고,
제1 그룹의 양자화 인덱스는 음의 고도 각도를 나타내고, 제2 그룹의 양자화 인덱스는 양의 고도 각도를 나타낸다.
10. 전술한 사례 중 하나의 장치에 있어서,
파라미터 양자화기(210)는 다수의 가능한 양자화 인덱스를 사용하여 방위를 양자화 하도록 구성되고, 양자화 인덱스의 수는 더 낮은 고도 각도에서 더 높은 고도 각도로 감소하여 제1 크기를 갖는 제1 고도 각도에 대한 가능한 양자화 인덱스의 제1 숫자가 제2 크기를 갖는 제2 고도 각도에 대한 가능한 양자화 인덱스의 제2 숫자 보다 높게 되고, 제2 크기는 제1 크기 보다 절대 값이 더 크다.
11. 사례 10의 장치에 있어서, 상기 파라미터 양자화기(210)는
방위와 연관된 확산 값으로부터 필요한 정밀도를 결정하도록 구성되고,
필요한 정밀도를 사용하여 방위 각도와 연관된 고도 각도를 양자화 하도록 구성되고,
양자화된 고도 각도를 사용하여 방위 각도를 양자화 하도록 구성된다.
12. 전술한 사례 중 하나의 장치에 있어서,
양자화된 방향 파라미터는 양자화된 고도 각도 및 양자화된 방위 각도를 가지며,
파라미터 인코더(220)는 먼저 양자화된 고도 각도를 인코딩 한 다음 양자화된 방위 각도를 인코딩 하도록 구성된다.
13. 전술한 사례 중 하나의 장치에 있어서,
양자화된 방향 파라미터는 한 페어의 방위 및 고도 각도에 대한 부호 없는 인덱스를 포함하고,
파라미터 인코더(220)는 부호 없는 인덱스를 부호 있는 인덱스로 변환하도록 구성되어, 0의 각도를 나타내는 인덱스가 가능한 값의 부호 있는 간격의 중간에 위치되고,
파라미터 인코더(220)는 양수 및 음수를 부호 없는 수로 인터리빙 하기 위해 부호 있는 인덱스로 재정렬 변환을 수행하도록 구성된다.
14. 전술한 사례 중 하나의 장치에 있어서,
양자화된 방향 파라미터는 재정렬되거나 또는 재정렬되지 않은 부호 없는 방위 및 고도 인덱스를 포함하고,
파라미터 인코더(220)는 페어 인덱스를 구체 인덱스로 병합하도록 구성되고,
구체 인덱스의 원시 코딩을 수행한다.
15. 사례 14의 장치에 있어서,
파라미터 인코더(220)는 구체 오프셋 및 현재 재정렬 또는 비 재정렬 방위 인덱스로부터 구체 인덱스를 도출하도록 구성되고,
구체 오프셋은 현재 재정렬된 또는 재정렬되지 않은 고도 인덱스 보다 더 작은 재정렬된 또는 재정렬되지 않은 고도 인덱스에 대응하는 방위 알파벳의 합으로부터 도출된다.
16. 전술한 사례 중 하나의 장치에 있어서,
파라미터 인코더(220)는 임계 값보다 낮거나 같은 확산 값과 연관된 양자화된 방향 파라미터에 대해 엔트로피 코딩을 수행하고 임계 값 보다 큰 확산 값과 연관된 양자화된 방향 파라미터에 대한 원시 코딩을 수행하도록 구성된다.
17. 사례 16의 장치에 있어서,
파라미터 인코더(220)는 양자화 알파벳 및 확산 파라미터의 양자화를 사용하여 임계 값을 동적으로 결정하도록 구성되거나,
파라미터 인코더(220)는 확산 파라미터의 양자화 알파벳에 기초하여 임계 값을 결정하도록 구성된다.
18. 전술한 사례 중 하나의 장치에 있어서,
파라미터 양자화기(210)는 양자화된 방향 파라미터로서, 고도 인덱스와 고도 인덱스와 연관된 고도 알파벳, 방위 인덱스 및 방위 인덱스와 연관된 방위 알파벳을 결정하도록 구성되고,
파라미터 인코더(220)는
입력 신호의 시간 부분 또는 주파수 부분에 대한 양자화된 방향 벡터로부터 평균 방향 벡터를 도출하도록 구성되고,
시간 부분 또는 주파수 부분에 대한 벡터의 최상의 각도 정밀도를 사용하여 평균 방향 벡터를 양자화 하도록 구성되고, 및
양자화된 평균 방향 벡터를 인코딩 하도록 구성되며, 또는
출력 인터페이스(230)는 추가적인 부가 정보로서 인코딩된 평균 방향 벡터를 인코딩된 파라미터 표현에 입력하도록 구성된다.
19. 사례 18의 장치에 있어서,
파라미터 인코더(220)는
평균 방향 벡터를 사용하여 예측 고도 인덱스 및 예측 방위 인덱스를 계산하도록 구성되고, 및
고도 인덱스와 예측 고도 인덱스 사이, 방위 인덱스와 예측 방위 인덱스 사이의 부호 있는 거리를 계산하도록 구성된다.
20. 사례 19의 장치에 있어서,
파라미터 인코더(220)는 작은 값에 대해 값을 더하고 큰 값에 대하여 값을 감산함으로써 부호 있는 거리를 감소된 간격으로 변환하도록 구성된다.
21. 전술한 사례 중 하나의 장치에 있어서,
파라미터 인코더(220)는, 양자화된 방향 파라미터가 낮은 코딩 모드 또는 엔트로피 코딩 모드에 의해 인코딩 되는지를 결정하도록 구성되고,
　출력 인터페이스(230)는 인코딩된 파라미터 표현에 대응하는 표식을 도입하도록 구성된다.
22. 전술한 사례 중 하나의 장치에 있어서,
파라미터 인코더(220)는 골롬-라이스 방법 또는 그 변형을 사용하여 엔트로피 코딩을 수행하도록 구성된다.
23. 사례 18 내지 22 중 어느 하나에 있어서, 파라미터 인코더(220)는
대응하는 0 값이 가능한 값의 부호 있는 간격의 중간에 있도록 평균 방향 벡터의 성분을 부호 있는 표현으로 변환하도록 구성되고,
양수와 음수를 부호 없는 숫자로 인터리브 하기 위해 부호 있는 값의 재정렬 변환을 수행하도록 구성되고,
평균 방향 벡터의 인코딩된 컴포넌트를 획득하기 위해 인코딩 함수를 사용하여 결과를 인코딩 하도록 구성되고; 및
방향 벡터의 대응하는 성분에 대한 최대 알파벳 크기에 따른 알파벳 크기를 사용하여 골롬-라이스 파라미터를 인코딩 하도록 구성된다.
24. 사례 19 내지 23 중 하나의 장치에 있어서,
파라미터 인코더(220)는 양수 및 음수를 부호 없는 수로 인터리빙 하기 위해 부호 있는 거리 또는 감소된 부호 있는 거리의 재정렬 변환을 수행하도록 구성되고,
파라미터 인코더(220)는 골롬-라이스(Golomb-Rice) 방법 또는 그 변형을 사용하여 재정렬 된 부호 있는 거리 또는 재정렬된 감소된 부호 있는 거리를 인코딩 하도록 구성된다.
25. 사례 24에 있어서, 파라미터 인코더(220)는 다음을 사용하여 골롬-라이스 방법 또는 그 변형을 적용하도록 구성되는 장치이다.
코딩 될 값의 최상위 부분 및 최하위 부분을 결정하는 단계;
최상위 부분에 대한 알파벳을 계산하는 단계;
최하위 부분에 대한 알파벳을 계산하는 단계; 및
최상위 부분에 대한 알파벳을 사용하여 단항에서 최상위 부분을 인코딩 하고 최하위 부분에 대한 알파벳을 사용하여 이진에서 최하위 부분을 인코딩 하는 단계.
26. 전술한 사례 중 하나의 장치에 있어서,
파라미터 인코더(220)는 코딩 될 값의 최상위 부분 및 최하위 부분을 결정하는 단계 및 최상위 부분의 알파벳을 계산하는 단계를 이용하여, 골롬-라이스 방법 또는 그 변형을 적용하도록 구성되고;
최상위 부분의 알파벳이 3과 같이 미리 정의된 값 보다 작거나 같은 경우 EncodeQuasiUniform 메소드가 전체 값을 인코딩 하는 데 사용되고, 천공된 코드와 같은 예시적인 EncodeQuasiUniform 방법은 단지 하나의 길이의 코드 또는 두 개의 길이만을 갖는 코드를 생성하며, 또는
인코딩 알파벳의 크기가 2의 거듭 제곱 인 경우 이진 코드를 사용하여 원시 코딩 모드에서 최하위 부분을 인코딩 하며, 또는 인코딩 알파벳이 2의 거듭 제곱과 다른 경우, 천공된 코드를 사용하여 원시 코딩 모드에서 최하위 부분을 인코딩 한다.
27. 전술한 사례 중 하나의 장치에 있어서, 제1 시간 또는 주파수 해상도로 확산 파라미터를 계산하기 위한 및 첨부된 청구항 제1항 내지 제15항 중 어느 한 항에 정의된 바와 같이 제2 시간 또는 주파수 해상도로 방향 파라미터를 계산하기 위한 파라미터 계산기를 더 포함한다.
28. 확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하는 방법에 있어서,
확산 파라미터 및 방향 파라미터를 양자화 하는 단계;
양자화된 확산 파라미터 및 양자화된 방향 파라미터를 인코딩 하는 단계; 및
인코딩된 확산 파라미터 및 인코딩된 방향 파라미터에 대한 정보를 포함하는 인코딩된 파라미터 표현을 생성하는 단계를 포함한다.
29. 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함하는 인코딩된 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하기 위한 디코더에 있어서,
인코딩된 오디오 신호를 수신하고 인코딩된 오디오 신호로부터 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 분리하기 위한 입력 인터페이스(800);
양자화된 확산 파라미터 및 양자화된 방향 파라미터를 획득하기 위해 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 디코딩 하기 위한 파라미터 디코더(820); 및
양자화된 확산 파라미터 및 양자화된 방향 파라미터로부터, 양자화된 확산 파라미터 및 역 양자화된 방향 파라미터를 결정하기 위한 파라미터 역 양자화기(840)를 포함한다.
30. 사례 29의 디코더에 있어서,
입력 인터페이스(800)는 인코딩된 오디오 신호에 포함된 코딩 모드 표식(806)으로부터, 파라미터 디코더(820)가 인코딩된 방향 파라미터를 디코딩 하기 위해, 원시 디코딩 모드 인 제1 디코딩 모드를 모델링 하거나 제1 디코딩 모드와 상이한 디코딩 모드 인 제2 디코딩 모드를 사용할지의 여부를 결정하도록 구성된다.
31. 사례 29 또는 30의 디코더에 있어서,
파라미터 디코더(820)는 인코딩된 오디오 신호의 프레임에 대한 인코딩된 확산 파라미터(804)를 디코딩 하여 상기 프레임에 대한 양자화된 확산 파라미터를 획득하도록 구성되고,
역 양자화기(840)는 양자화된 또는 역 양자화된 확산 파라미터를 사용하여 프레임에 대한 적어도 하나의 방향 파라미터의 역 양자화를 위한 역 양자화 정밀도를 결정하도록 구성되고,
파라미터 역 양자화기(840)는 역 양자화 정밀도를 사용하여 양자화된 방향 파라미터를 역 양자화 하도록 구성된다.
32. 사례 29, 30 또는 31의 디코더에 있어서,
파라미터 디코더(820)는 역 양자화 정밀도로부터 프레임에 대한 인코딩된 방향 파라미터를 디코딩 하기 위한 디코딩 알파벳을 결정하도록 구성되고, 및
파라미터 디코더(820)는 양자화된 방향 파라미터를 획득하기 위해 디코딩 알파벳을 사용하여 인코딩된 방향 파라미터를 디코딩 하도록 구성된다.
33. 사례 29 내지 32 중 하나의 디코더에 있어서,
파라미터 디코더(820)는 인코딩된 방향 파라미터로부터 양자화된 구체 인덱스를 도출하도록 구성되고, 및 양자화된 구체 인덱스를 양자화된 고도 인덱스 및 양자화된 방위 인덱스로 분해하는 단계를 포함한다.
34. 사례 29 내지 33 중 하나의 디코더에 있어서, 파라미터 디코더(820)는
역 양자화 정밀도로부터 고도 알파벳을 결정하도록 구성되며, 또는
양자화된 고도 파라미터 또는 역 양자화된 고도 파라미터로부터 방위 알파벳을 결정하도록 구성된다.
35. 사례 29 내지 34 중 하나의 디코더에 있어서, 파라미터 디코더(820)는
인코딩된 방향 파라미터로부터 양자화된 고도 파라미터를 디코딩 하고, 인코딩된 방향 파라미터로부터 양자화된 방위 파라미터를 디코딩 하도록 구성되고,
파라미터 역 양자화기(840)는 양자화된 고도 파라미터 또는 역 양자화된 고도 파라미터로부터 방위 알파벳을 결정하도록 구성되고, 방위 알파벳의 크기는 제2 절대 고도 각도의 고도를 나타내는 고도 데이터와 비교하여 제1 절대 고도 각도의 고도를 나타내는 고도 데이터에 대해 더 크고, 제2 절대 고도 각도는 제1 절대 고도 각도 보다 크고, 및
파라미터 디코더(820)는 양자화된 방위 파라미터를 생성하기 위해 방위 알파벳을 사용하도록 구성되거나, 또는 파라미터 역 양자화기는 양자화된 방위 파라미터를 역 양자화 하기 위해 방위 알파벳을 사용하도록 구성된다.
36. 사례 29 내지 35 중 하나의 디코더에 있어서,
입력 인터페이스(800)는 인코딩된 오디오 신호의 디코딩 모드 표식(806)으로부터 모델링하여 디코딩 모드를 결정하도록 구성되고,
파라미터 디코더(820)는 평균 고도 인덱스 또는 평균 방위 인덱스를 획득하도록 구성된다.
37. 사례 36에 있어서, 파라미터 디코더(820)는 프레임에 대한 양자화된 확산 인덱스로부터 프레임에 대한 역 양자화 정밀도를 결정하도록 구성되고(851),
프레임, 고도 평균 알파벳 또는 방위 평균 알파벳에 대한 역 양자화 정밀도로부터 결정하도록(852a) 구성되고,
인코딩된 오디오 신호의 비트(808b) 및 고도 평균 알파벳을 사용하여 평균 고도 인덱스를 계산하도록, 또는 인코딩된 오디오 신호의 비트(808a) 및 방위 평균 알파벳을 사용하여 평균 방위 인덱스를 계산하도록 구성된다.
38. 사례 36 또는 37 중 하나의 디코더에 있어서,
파라미터 디코더(820)는 디코딩된 고도 골롬-라이스 파라미터를 획득하기 위해 인코딩된 오디오 신호에서 특정 비트(808c)를 디코딩 하도록 구성되고,
디코딩된 고도 거리를 획득하기 위해 인코딩된 오디오 신호에서 추가 비트(808c)를 디코딩 하도록 구성되고, 또는
파라미터 디코더(820)는 인코딩된 오디오 신호에서 특정 비트(808a)를 디코딩 하여 디코딩된 방위 골롬-라이스 파라미터를 획득하도록 구성되고, 및 디코딩된 방위 거리를 획득하기 위해 인코딩된 오디오 신호에서 추가 비트(808f)를 디코딩 하도록 구성되고;
파라미터 디코더(820)는 고도 골롬-라이스 파라미터 및 디코딩된 고도 거리 및 고도 평균 인덱스로부터 양자화된 고도 파라미터를 계산하도록 구성되거나, 또는 방위 골롬-라이스 파라미터 및 디코딩된 방위 거리 및 방위 평균 인덱스로부터 양자화된 방위 파라미터를 계산하도록 구성된다.
39. 사례 29 내지 38 중 하나의 디코더에 있어서,
파라미터 디코더(820)는 양자화된 확산 파라미터(850)를 획득하기 위해 인코딩된 오디오 신호로부터 시간 및 주파수 부분에 대한 확산 파라미터를 디코딩 하도록 구성되고,
파라미터 역 양자화기(840)는 양자화된 또는 역 양자화된 확산 파라미터(851)로부터 역 양자화 정밀도를 결정하도록 구성되고,
파라미터 디코더(820)는 역 양자화 정밀도(852a)로부터 고도 알파벳을 도출하도록 구성되고 및 프레임의 시간 및 주파수 부분에 대한 양자화된 고도 파라미터를 획득하기 위해 고도 알파벳을 사용하도록 구성되고,
역 양자화기는 프레임의 시간 및 주파수 부분에 대한 역 양자화된 고도 파라미터를 획득하기 위해 상기 고도 알파벳을 사용하여 양자화된 고도 파라미터를 역 양자화 하도록 구성된다.
40. 사례 29 내지 39 중 하나의 디코더에 있어서,
파라미터 디코더(820)는 양자화된 고도 파라미터를 획득하기 위해 인코딩된 방향 파라미터를 디코딩 하도록 구성되고,
파라미터 역 양자화기(840)는 양자화된 고도 파라미터 또는 역 양자화된 고도 파라미터(852c)로부터 방위 알파벳을 결정하도록 구성되고, 및
파라미터 디코더(820)는 방위 알파벳(852d)을 사용하여 양자화된 방위 파라미터를 계산하도록 구성되거나, 또는 파라미터 역 양자화기(840)는 방위 알파벳을 사용하여 양자화된 방위 파라미터를 역 양자화 하도록 구성된다.
41. 사례 29 내지 40 중 하나의 디코더에 있어서, 파라미터 역 양자화기(840)는
역 양자화 정밀도(852a)를 사용하여 고도 알파벳을 결정하도록 구성되고, 및
역 양자화 정밀도 및 고도 알파벳을 사용하여 생성된 양자화 또는 역 양자화된 고도 파라미터를 이용하여 방위 알파벳(852c)을 결정하도록 구성되며, 및
파라미터 디코더(820)는 양자화된 고도 파라미터를 획득하기 위해 인코딩된 방향 파라미터를 디코딩 하기 위해 고도 알파벳을 사용하도록 및 양자화된 방위 파라미터를 획득하기 위해 인코딩된 방향 파라미터를 디코딩 하기 위해 방위 알파벳을 사용하도록 구성되며, 또는
파라미터 역 양자화기(840)는 고도 알파벳을 사용하여 양자화된 고도 파라미터를 역 양자화 하고 방위 알파벳을 사용하여 양자화된 방위 파라미터를 역 양자화 하도록 구성된다.
42. 사례 33의 디코더에 있어서, 파라미터 디코더(820)는
평균 고도 인덱스 또는 평균 방위 인덱스를 사용하여 예측 고도 인덱스 또는 예측 방위 인덱스를 계산하고, 및
방위 또는 고도 파라미터에 대한 거리를 획득하기 위해 골롬-라이스 디코딩 동작 또는 그 변형을 수행하고, 및
양자화된 고도 인덱스 또는 양자화된 방위 인덱스를 획득하기 위해 방위 또는 고도 파라미터에 대한 거리를 평균 고도 인덱스 또는 평균 방위 인덱스에 더하도록 구성된다.
43. 사례 29 내지 42 중 하나에 있어서,
역 양자화된 확산 파라미터의 시간/주파수 해상도 또는 역 양자화된 방위 또는 고도 파라미터 또는 역 양자화된 방위 파라미터 또는 역 양자화된 고도 파라미터로부터 도출된 파라메트릭 표현의 시간 또는 주파수 해상도를 목표 시간 또는 주파수 해상도로 변환하기 위한 파라미터 해상도 변환기(710), 및
디코딩된 다중 채널 오디오 신호를 획득하기 위해 목표 시간 또는 주파수 해상도의 확산 파라미터 및 방향 파라미터를 오디오 신호에 적용하기 위한 오디오 렌더러(420)를 더 포함한다.
44. 사례 43의 디코더에 있어서,
스펙트럼 도메인 표현으로부터의 다중 채널 오디오 신호를 목표 시간의 시간 해상도 또는 주파수 해상도의 시간 해상도 보다 높은 해상도를 갖는 시간 도메인 표현으로 변환하기 위한 스펙트럼/시간 변환기(440)를 포함한다.
45. 사례 29 내지 44 중 하나의 디코더에 있어서,
인코딩된 오디오 신호는 인코딩된 전송 신호를 포함하고, 입력 인터페이스(800)는 인코딩된 전송 신호를 추출하도록 구성되고,
디코더는 인코딩된 전송 신호를 디코딩 하기 위한 전송 신호 오디오 디코더(340)를 포함하고,
디코더는 디코딩된 전송 신호를 스펙트럼 표현으로 변환하기 위한 시간/스펙트럼 변환기(430)를 더 포함하고,
디코더는 역 양자화된 확산 파라미터 및 역 양자화된 방향 파라미터를 사용하여 다중 채널 오디오 신호를 렌더링 하기 위한 오디오 렌더러(420, 440)를 포함하고,
디코더는 렌더링 된 오디오 신호를 시간 도메인 표현으로 변환하기 위한 스펙트럼/시간 변환기(440)를 더 포함한다.
46. 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함하는 인코딩된 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하는 방법에 있어서;
인코딩된 오디오 신호로부터 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 분리하기 위하여 인코딩된 오디오 신호를 수신하고 단계(800);
양자화된 확산 파라미터 및 양자화된 방향 파라미터를 획득하기 위해 인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 디코딩 하는 단계(820); 및
양자화된 확산 파라미터 및 양자화된 방향 파라미터로부터, 양자화된 확산 파라미터 및 역 양자화된 방향 파라미터를 결정하는 단계(840)를 포함한다.
47. 컴퓨터 또는 프로세서 상에서 실행될 때, 사례 28 또는 46의 방법을 수행하기 위한 컴퓨터 프로그램.
파라미터 표현을 포함하는 본 발명에 따라 인코딩된 오디오 신호는 디지털 저장 매체 또는 비 일시적 저장 매체에 저장될 수 있거나 또는 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체를 통해 전송될 수 있다.
일부 양태는 장치와 관련하여 설명되었지만, 이들 양태는 또한 대응하는 방법의 설명을 나타내는 것이 분명하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다.
특정 구현 요구에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 전자적으로 판독 가능한 제어 신호가 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있으며, 이 것들은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 시스템이다.
본 발명에 따른 일부 실시예는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하고, 본 명세서에 기술된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 시스템이다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어 상에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 또는 비 일시적 저장 매체에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 따라서, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본원에 기술된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 여기에 기술된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.
따라서, 본 발명의 방법의 다른 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 장치를 포함한다.
추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위해 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 구체 예에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 구체 예에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
전술한 실시예는 단지 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 설명된 배열 및 세부 사항의 수정 및 변형은 당업자에게 명백할 것이다. 그러므로, 다음에 기재된 특허 청구의 범위에 의해서만 제한되고 본 명세서의 실시예의 설명 및 기술에 의해 제시된 특정 세부 사항에 의해 제한되는 것은 아니다.

Claims

확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하는 장치에 있어서,
제1 시간 또는 주파수 해상도로 확산 파라미터를 계산하고, 상기 제1 시간 또는 주파수 해상도와 상이한 제2 시간 또는 주파수 해상도로 방향 파라미터를 계산하기 위한 파라미터 계산기(100); 및
상기 확산 파라미터 및 상기 방향 파라미터의 양자화 및 인코딩된 표현을 생성하기 위한 양자화기 및 인코더 프로세서(200)
를 포함하는
장치.
제1항에 있어서,
상기 파라미터 계산기(100)는,
상기 확산 파라미터 및 상기 방향 파라미터를 계산하도록 구성되어,
상기 제1 시간 해상도가 상기 제2 시간 해상도 보다 낮거나, 상기 제2 주파수 해상도가 상기 제1 주파수 해상도 보다 크거나, 상기 제1 시간 해상도가 상기 제2 시간 해상도 보다 낮고 상기 제1 주파수 해상도가 상기 제2 주파수와 같은
장치.
제1항에 있어서,
상기 파라미터 계산기(100)는 주파수 대역 세트에 대한 상기 확산 파라미터 및 상기 방향 파라미터를 계산하도록 구성되고,
낮은 중심 주파수를 갖는 대역은 높은 중심 주파수를 갖는 대역보다 좁은
장치.
제1항에 있어서,
상기 파라미터 계산기(100)는 제3 시간 또는 주파수 해상도를 갖는 초기 확산 파라미터를 획득하고 제4 시간 또는 주파수 해상도를 갖는 초기 방향 파라미터를 획득하도록 구성되고; 및
상기 파라미터 계산기(100)는 상기 제3 시간 또는 주파수 해상도가 상기 제1 시간 또는 주파수 해상도 보다 높도록 상기 초기 확산 파라미터를 그룹화하고 평균화하도록 구성되고, 또는
상기 파라미터 계산기(100)는 상기 제4 시간 또는 주파수 해상도가 상기 제2 시간 또는 주파수 해상도 보다 높도록 상기 초기 방향 파라미터를 그룹화하고 평균화하도록 구성되는
장치.　
제4항에 있어서,
상기 제3 시간 또는 주파수 해상도와 상기 제4 시간 또는 주파수 해상도는 서로 동일한
장치.
제5항에 있어서,
상기 제3 시간 해상도 또는 주파수 해상도는 일정한 시간 또는 주파수 해상도이므로, 각각의 초기 확산 파라미터는 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈과 연관되며, 또는
상기 제4 시간 또는 주파수 해상도는 일정한 시간 또는 주파수 해상도이므로, 각각의 초기 방향 파라미터는 동일한 크기를 갖는 시간 슬롯 또는 주파수 빈과 연관되며, 및
상기 파라미터 계산기(100)는 제1 복수의 시간 슬롯과 연관된 제1 복수의 확산 파라미터에 대해 평균화하도록 구성되며, 또는
상기 파라미터 계산기(100)는 제2 복수의 주파수 빈과 연관된 제2 복수의 확산 파라미터에 대해 평균화하도록 구성되며, 또는
상기 파라미터 계산기(100)는 제3 복수의 시간 슬롯과 연관된 제3 복수의 방향 파라미터에 대해 평균화하도록 구성되며, 또는
상기 파라미터 계산기(100)는 제4 복수의 주파수 빈과 연관된 제4 복수의 방향 파라미터에 대해 평균화하도록 구성되는
장치.
제4항에 있어서,
상기 파라미터 계산기(100)는 가중 평균을 사용하여 평균화하도록 구성되고,
높은 진폭 관련 측정을 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터는 낮은 진폭 관련 측정을 갖는 입력 신호 부분으로부터 도출된 확산 파라미터 또는 방향 파라미터와 비교하여 높은 가중 계수를 사용하여 가중되는
장치.
제7항에 있어서,
상기 진폭 관련 측정은,
상기 시간 부분 또는 상기 주파수 부분에서 전력 또는 에너지 또는
상기 시간 부분 또는 상기 주파수 부분에서 1과 같거나 상이한 실제 음이 아닌 인덱스화 된 전력 또는 에너지 인
장치.
제4항에 있어서,
상기 파라미터 계산기(100)는,
상기 확산 파라미터 또는 상기 방향 파라미터가 상기 제1 또는 상기 제2 시간 또는 주파수 해상도에 대응하는 입력 신호의 시간 부분으로부터 도출된 진폭 관련 측정에 대해 정규화 되도록 평균화를 수행하도록 구성되는
장치.
제4항에 있어서,
상기 파라미터 계산기(100)는 가중 평균화를 사용하여 상기 초기 방향 파라미터를 그룹화하고 평균화하도록 구성되며,
낮은 확산을 나타내는 제1 확산 파라미터를 갖는 제1 시간 부분과 연관되는 제1 방향 파라미터는 높은 확산을 나타내는 제2 확산 파라미터를 갖는 제2 시간 부분과 연관되는 제2 방향 파라미터 보다 더 강하게 가중되는
장치.
제4항에 있어서,
상기 파라미터 계산기(100)는 상기 초기 방향 파라미터가 각각 2 개 또는 3 개의 방향 각각에 대한 성분을 갖는 카테시안 벡터를 포함하도록 상기 초기 방향 파라미터를 계산하도록 구성되며,
상기 파라미터 계산기(100)는 카테시안 벡터의 각각의 개별 성분에 대한 평균을 개별적으로 수행하도록 구성되며, 또는
상기 성분은 방향 파라미터에 대한 카테시안 벡터의 제곱 성분의 합이 일치되도록 정규화 되는
장치.
제4항에 있어서,
복수의 입력 채널을 갖는 입력 신호를 각 입력 채널에 대한 시간-주파수 표현으로 분해하기 위한 시간-주파수 분해기를 더 포함하고; 또는
상기 시간-주파수 분해기는 복수의 입력 채널을 갖는 상기 입력 신호를 제3 시간 또는 주파수 해상도 또는 상기 제4 시간 또는 주파수 해상도를 갖는 각각의 입력 채널에 대한 시간-주파수 표현으로 분해하도록 구성되는
장치.
제12항에 있어서,
상기 시간-주파수 분해기는 각각의 서브 대역 신호에 대해 복소 값을 생성하는 변조된 필터 뱅크를 포함하고,
각각의 서브 대역 신호는 프레임 및 주파수 대역 당 복수의 시간 슬롯을 갖는
장치.
제1항에 있어서,
상기 장치는 디코더로의 전송 또는 저장을 위해 상기 제1 또는 상기 제2 시간 또는 주파수 해상도의 표식을 양자화 및 인코딩된 표현으로 연관시키도록 구성되는
장치.
제1항에 있어서,
상기 확산 파라미터 및 상기 방향 파라미터의 양자화 및 인코딩된 표현을 생성하기 위한 상기 양자화기 및 인코더 프로세서(200)는, 상기 확산 파라미터 및 상기 방향 파라미터를 양자화 하기 위한 파라미터 양자화기 및 양자화된 확산 파라미터 및 양자화된 방향 파라미터를 인코딩 하기 위한 파라미터 인코더
를 포함하는
장치.
확산 파라미터 및 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 인코딩 하는 방법에 있어서,
제1 시간 또는 주파수 해상도로 상기 확산 파라미터를 계산하고 제2 시간 또는 주파수 해상도로 상기 방향 파라미터를 계산하는 단계 - 상기 제2 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도와 상이함 -; 및
상기 확산 파라미터 및 상기 방향 파라미터의 양자화 및 인코딩된 표현을 생성하는 단계
를 포함하는
방법.
인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하기 위한 디코더에 있어서,
제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터를 획득하기 위하여 인코딩된 지향성 오디오 코딩 파라미터를 디코딩 하기 위한 파라미터 프로세서(300); 및
인코딩 또는 디코딩된 확산 파라미터 또는 인코딩 또는 디코딩된 방향 파라미터를 제3 시간 또는 주파수 해상도를 갖는 변환된 확산 파라미터 또는 변환된 방향 파라미터로 변환하기 위한 파라미터 해상도 변환기(710) - 상기 제3 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도 또는 상기 제2 시간 또는 주파수 해상도와 상이하거나 또는 제1 시간 또는 주파수 해상도 및 제2 시간 또는 주파수 해상도와 상이함 -
를 포함하는
디코더.
제17항에 있어서,
스펙트럼 도메인에서 동작하는 오디오 렌더러(420) - 상기 스펙트럼 도메인은 프레임에 대해 제1 숫자의 시간 슬롯 및 제2 숫자의 주파수 대역을 포함하여, 프레임이 상기 제1 숫자 및 상기 제2 숫자의 곱하기 결과와 동일한 수의 시간/주파수 빈을 포함하도록 함 -
를 더 포함하고,
상기 제1 숫자 및 상기 제2 숫자는 상기 제3 시간 또는 주파수 해상도를 정의하는
디코더.
제17항에 있어서,
스펙트럼 도메인에서 동작하는 오디오 렌더러(420) - 상기 스펙트럼 도메인은 프레임에 대해 제1 숫자의 시간 슬롯 및 제2 숫자의 주파수 대역을 포함하여, 프레임이 제1 숫자 및 제2 숫자의 곱하기 결과와 동일한 숫자의 시간/주파수 빈을 포함하도록 함 -
를 더 포함하고,
상기 제1 숫자 및 상기 제2 숫자는 제4 시간-주파수 해상도를 정의하고,
상기 제4 시간 또는 주파수 해상도는 상기 제3 시간 또는 주파수 해상도와 같거나 높은
디코더.
제17항에 있어서,
상기 제1 시간 또는 주파수 해상도는 상기 제2 시간 또는 주파수 해상도 보다 낮고,
상기 파라미터 해상도 변환기(710)는 디코딩된 확산 파라미터로부터 제1 다수의 변환된 확산 파라미터를 생성하고, 디코딩된 방향 파라미터로부터 제2 다수의 변환된 방향 파라미터를 생성하도록 구성되며,
상기 제2 다수는 더 큰 상기 제1 다수 보다 큰
디코더.
제17항에 있어서,
상기 인코딩된 오디오 신호는 순차적인 프레임을 포함하고, 각 프레임은 주파수 대역으로 구성되고, 각 프레임은 주파수 대역 당 하나의 인코딩된 확산 파라미터 및 주파수 대역 당 적어도 두 개의 시간-순차 방향 파라미터를 포함하고, 및
상기 파라미터 해상도 변환기(710)는,
상기 디코딩된 확산 파라미터를 상기 주파수 대역 내의 모든 시간 빈 또는 상기 프레임 내의 상기 주파수 대역에 포함된 각 시간/주파수 빈에 연관시키도록 구성되고, 및 상기 주파수 대역의 적어도 2 개 이상의 방향 파라미터 중 하나를 시간 빈의 제1 그룹 및 상기 주파수 대역에 포함된 각각의 시간/주파수 빈에 연관시키도록 구성되고, 및 상기 적어도 2 개의 방향 파라미터의 제2 디코딩된 방향 파라미터를 상기 시간 빈의 제2 그룹 및 상기 주파수 대역에 포함된 각각의 시간/주파수 빈에 연관시키도록 구성되며, 상기 제2 그룹은 상기 제1 그룹의 임의의 시간 빈을 포함하지 않는
디코더.
제17항에 있어서,
상기 인코딩된 오디오 신호는 인코딩된 오디오 운송 신호를 포함하고,
상기 디코더는:
디코딩된 오디오 신호를 획득하기 위하여 상기 인코딩된 운송 오디오 신호를 디코딩 하기 위한 오디오 디코더(340); 및
디코딩된 오디오 신호를 상기 제3 시간 또는 주파수 해상도를 갖는 주파수 표현으로 변환하기 위한 시간/스펙트럼 변환기(430)
를 포함하는
디코더.
제17항에 있어서,
합성 스펙트럼 표현을 획득하기 위하여 상기 제3 시간 또는 주파수 해상도에서 오디오 신호의 스펙트럼 표현에 상기 변환된 확산 파라미터 및 상기 변환된 방향 파라미터를 적용하기 위한 오디오 렌더러(420); 및
상기 제3 시간 또는 주파수 해상도의 해상도 보다 높은 시간 해상도를 갖는 합성된 시간 도메인 공간 오디오 신호를 획득하기 위하여 상기 제3 또는 제4 시간 또는 주파수 해상도에서 상기 합성 스펙트럼 표현을 변환하기 위한 스펙트럼/시간 변환기(440)
를 포함하는
디코더.
제17항에 있어서,
상기 파라미터 해상도 변환기(710)는,
복사 동작을 사용하여 디코딩된 방향 파라미터를 곱하거나 또는
복사 동작을 사용하여 디코딩된 확산 파라미터를 곱하거나 또는
곱해진 방향 파라미터의 세트 또는 곱해진 확산 파라미터의 세트를 평활화 또는 저역 통과 필터링 하도록
구성되는
디코더.
제17항에 있어서,
상기 제2 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도와 상이한
디코더.
제17항에 있어서,
상기 제1 시간 해상도는 상기 제2 시간 해상도 보다 낮은, 또는
상기 제2 주파수 해상도가 제1 주파수 해상도 보다 크거나, 또는
상기 제1 시간 해상도는 상기 제2 시간 해상도 보다 낮고 상기 제1 주파수 해상도는 상기 제2 주파수 해상도와 동일한
디코더.
제17항에 있어서,
상기 파라미터 해상도 변환기(710)는,
상기 디코딩된 확산 파라미터 및 디코딩된 방향 파라미터를 한 세트의 대역에 대한 대응하는 개수의 주파수 인접 변환된 파라미터로 곱하도록 구성되고,
낮은 중심 주파수를 갖는 대역은 높은 중심 주파수를 갖는 대역 보다 적게 곱해진 파라미터를 수신하는
디코더.
제17항에 있어서,
상기 파라미터 프로세서(300)는 상기 인코딩된 오디오 신호의 프레임에 대한 양자화된 확산 파라미터를 획득하기 위하여 상기 인코딩된 오디오 신호의 프레임에 대한 인코딩된 확산 파라미터를 디코딩 하도록 구성되고, 및
상기 파라미터 프로세서(300)는 양자화된 또는 역 양자화된 확산 파라미터를 사용하여 상기 인코딩된 오디오 신호의 프레임에 대한 적어도 하나의 방향 파라미터의 역 양자화를 위한 역 양자화 정밀도를 결정하도록 구성되고, 및
상기 파라미터 프로세서는 상기 역 양자화 정밀도를 사용하여 양자화된 방향 파라미터를 역 양자화 하도록 구성되는
디코더.
제17항에 있어서,
상기 파라미터 프로세서(300)는,
상기 파라미터 프로세서(300)에 의해 역 양자화를 위해 사용되기 위한 역 양자화 정밀도로부터, 상기 인코딩된 오디오 신호의 프레임에 대한 인코딩된 방향 파라미터를 디코딩 하기 위한 디코딩 알파벳을 결정하도록 구성되고, 및
상기 파라미터 프로세서(300)는 결정된 디코딩 알파벳을 사용하여 인코딩된 방향 파라미터를 디코딩 하고 역 양자화된 방향 파라미터를 결정하도록 구성되는
디코더.
제17항에 있어서,
상기 파라미터 프로세서(300)는,
상기 방향 파라미터를 역 양자화 하기 위하여 상기 파라미터 프로세서(300)에 의해 역 양자화를 위해 사용되기 위한 역 양자화 정밀도로부터, 인코딩된 고도 파라미터의 프로세싱을 위한 고도 알파벳을 결정하도록 구성되고 상기 고도 알파벳을 사용하여 획득된 고도 인덱스로부터 방위 알파벳을 결정하도록 구성되고, 및
상기 파라미터 프로세서(300)는 상기 방위 알파벳을 사용하여 인코딩된 방위 파라미터를 역 양자화 하도록 구성되는
디코더.
인코딩된 확산 파라미터 및 인코딩된 방향 파라미터를 포함하는 지향성 오디오 코딩 파라미터를 포함하는 인코딩된 오디오 신호를 디코딩 하는 방법에 있어서,
제1 시간 또는 주파수 해상도를 갖는 디코딩된 확산 파라미터 및 제2 시간 또는 주파수 해상도를 갖는 디코딩된 방향 파라미터를 획득하기 위하여 상기 인코딩된 지향성 오디오 코딩 파라미터를 디코딩 하는 단계(300); 및
상기 인코딩 또는 디코딩된 확산 파라미터 또는 상기 인코딩 또는 디코딩된 방향 파라미터를 제3 시간 또는 주파수 해상도를 갖는 변환된 확산 파라미터 또는 변환된 방향 파라미터로 변환하는 단계(710) - 상기 제3 시간 또는 주파수 해상도는 상기 제1 시간 또는 주파수 해상도 또는 상기 제2 시간 또는 주파수 해상도와 상이하거나 또는 상기 제1 시간 또는 주파수 해상도 및 상기 제2 시간 또는 주파수 해상도와 상이함 -
을 포함하는
방법.
컴퓨터 또는 프로세서 상에서 실행될 때, 제16항 또는 제31항의 방법을 수행하는 컴퓨터 프로그램을 저장한 저장매체.
삭제