KR20210068112A

KR20210068112A - 공간적 오디오 파라미터 인코딩을 위한 양자화 체계의 선택

Info

Publication number: KR20210068112A
Application number: KR1020217013079A
Authority: KR
Inventors: 아드리아나 바실라체
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2018-10-02
Filing date: 2019-09-20
Publication date: 2021-06-08
Also published as: KR102564298B1; EP3861548A1; EP4432567A3; EP3861548B1; US11600281B2; WO2020070377A1; US11996109B2; CN113228168A; US20220036906A1; CN113228168B; GB2577698A; US20230129520A1; EP4432567A2; EP3861548A4

Abstract

오디오 프레임의 서브밴드의 각 시간-주파수 블록에 대해 방위각 및 고도를 포함하는 공간 오디오 파라미터를 수신하기 위한 수단을 포함하는 공간 오디오 신호 인코딩 장치가 개시된다. 각 시간-주파수 블록에 대한 제 1 거리 측정을 결정하고 각 시간-주파수 블록에 대한 제 1 거리 측정을 합산함으로써 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와, 각 시간-주파수 블록에 대한 제 2 거리 측정을 결정하고 각 시간-주파수 블록에 대한 제 2 거리 측정을 합산함으로써 오디오 프레임에 대한 제 2 왜곡 측정을 결정하는 단계와, 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 고도 및 방위각을 양자화하기 위한 제 1 양자화 체계 또는 제 2 양자화 체계 중 하나를 선택하는 단계이며, 여기서 선택은 제 1 또는 제 2 왜곡 측정치에 의존한다.

Description

공간적 오디오 파라미터 인코딩을 위한 양자화 체계의 선택

본 출원은 사운드 필드 관련 파라미터 인코딩을 위한 장치 및 방법과 관련되어 있으며, 오디오 인코더 및 디코더를 위한 시간-주파수 도메인 방향 관련 파라미터 인코딩에 한정되는 것은 아니다.

파라미터적 공간 오디오 처리는 파라미터의 집합을 사용하여 소리의 공간적 측면을 설명하는 오디오 신호 처리 분야이다. 예를 들어, 마이크 어레이(array)의 파라미터적 공간 오디오 포착(capture)에서, 마이크 어레이 신호에서, 주파수 대역 내 소리의 방향 및 주파수 대역 내 포착된 소리의 방향성 및 비방향성 부분 사이의 비율과 같은, 파라미터 집합을 추정하는 것은 일반적이고 효과적인 선택이다. 이들 파라미터는 마이크 어레이의 위치에서 포착된 소리의 지각적 공간 특성을 잘 설명한다고 알려져 있다. 이들 파라미터적 공간 오디오 처리는 파라미터의 집합을 사용하여 소리의 공간적 측면을 설명하는 오디오 신호 처리 분야이다. 예를 들어, 마이크 어레이(array)로부터의 파라미터적 공간 오디오 포착(parametric spatial audio capture) 시, 마이크 어레이 신호에서, 주파수 대역 내 소리의 방향 및 주파수 대역 내 포착된 소리의 방향성 및 비방향성 부분 사이의 비율과 같은 파라미터 집합을 추정하는 것은 일반적이고 효과적인 선택이다. 이들 파라미터는 마이크 어레이의 위치에서 포착된 소리의 공간지각적 특성을 잘 설명한다고 알려져 있다. 이들 파라미터는 공간적 소리의 합성, 바이노럴 헤드폰, 스피커 또는 앰비소닉(ambisonics)과 같은 다른 구성에 활용될 수 있다.

따라서 주파수 대역 내 직접 대 총 에너지 대 방향성 에너지 레이트(direct-to-total energy ratio)은 공간적 오디오 포착에 특히 효과적인 파라미터화이다.

주파수 대역 내의 방향 파라미터와 주파수 대역 내의 에너지 레이트 파라미터를 포함하는(소리의 방향성을 표시하는) 파라미터 집합은 오디오 코덱을 위한 공간 메타데이터(확산 간섭(spread coherence), 주변 간섭(surround coherence), 방향의 수, 거리 등과 같은 다른 파라미터를 포함할 수도 있음)로서 활용될 수 있다. 예를 들어, 이들 파라미터는 마이크 어레이로부터 포착된 오디오 신호에서 추정될 수 있으며, 예를 들어 스테레오 신호는 공간 메타 데이터와 함께 전달될 마이크 어레이 신호로부터 생성될 수 있다. 예를 들어, 스테레오 신호는 AAC(Advanced Audio Coding) 인코더로 인코딩할 수 있다. 디코더는 오디오 신호를 PCM(Pulse Code Modulation) 신호로 디코딩 할 수도 있고, 예를 들어 바이노럴 출력과 같은 공간적 출력을 얻기 위해 주파수 대역 내에서 소리를 (공간 메타데이터를 사용하여) 처리할 수도 있다.

전술한 해법은 특히 마이크 어레이(예를 들어, 휴대폰, VR(Virtual Reality) 카메라, 독립형 마이크 어레이)로부터 포착된 공간적 소리(spatial sound)를 인코딩하는 것에 특히 적합하다. 그러나, 예를 들어, 스피커 신호, 오디오 객체 신호 또는 앰비소닉 신호(Ambisonic signal) 등 마이크 어레이 포착 신호 외에 다른 입력 형식을 가진 인코더에도 바람직할 수 있다.

공간 메타데이터 추출을 위한 1차 앰비소닉(first-order Ambisonics: FOA) 입력 분석은 방향성 오디오 코딩(Directional Audio Coding: DirAC) 및 조화평면파 확장(Harmonic planewave expansion: Harpex)와 관련된 과학 문헌에 철저히 분석되어 있다. 이는 FOA 신호(더 정확하게는 여러 변형, B-포맷 신호)를 직접적으로 제공하는 마이크 어레이가 존재하고, 그러한 입력을 분석하는 것이 이 분야에서의 하나의 연구 주제가 되었기 때문이다.

인코더에 대한 추가적 입력은 5.1 채널 또는 7.1 채널 서라운드 입력과 같은 다중 채널 스피커 입력이 될 수 있다.

그러나, 고려되는 시간/주파수 서브밴드 각각에 대한 메타데이터의 방향성 요소는 결과 방향(resulting direction)의 고도 및 방위각(및 1-확산도인 에너지 레이트)을 포함할 수 있고, 이러한 메타데이터의 방향성 요소의 양자화는 현재 연구 주제이며, 가능한 한 적은 비트를 사용하는 것이 모든 코딩 체계에서 유리하다.

제 1 측면에 따르면, 오디오 프레임의 서브밴드의 각 시간-주파수 블록에 대해, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와, 각 시간-주파수 블록에 대한 제 1 거리 측정 - 제 1 거리 측정은 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 1 거리 측정을 합산함으로써 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와, 각 시간-주파수 블록에 대한 제 2 거리 측정 - 제 2 거리 측정은 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 2 거리 측정을 합산함으로써 제 2 왜곡 측정을 결정하는 단계와, 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 고도 및 방위각을 양자화하기 위한 제 1 양자화 체계 또는 제 2 양자화 체계 중 하나를 선택 - 선택은 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 수행하는 수단을 포함하는 장치를 제공한다.

제 1 양자화 체계는, 시간-주파수 블록 기반 단위 상에서, 구면 격자의 고도 값 집합 - 고도 값 집합 내 각 고도 값은 구면 격자의 방위각 값 집합에 매핑됨 - 에서 가장 가까운 고도 값을 선택함으로써 고도를 양자화하는 단계와, 방위각 값 집합 - 방위각 값 집합은 가장 가까운 고도 값에 따라 달라짐 - 에서 가장 가까운 방위각 값을 선택함으로써 방위각을 양자화하는 단계를 수행하는 수단을 포함할 수 있다.

고도 값 집합 내 고도 값의 숫자는 서브프레임에 대한 비트 해상도 인자에 의존할 수 있으며, 각 고도 값에 매핑된 방위각 값 집합 내 방위각 값의 개수 역시 서브프레임에 대한 비트 해상도 인자에 의존할 수 있다.

제 2 양자화 체계는, 평균 고도 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 고도를 평균화하는 단계와, 평균 방위각 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 방위각을 평균화하는 단계와, 고도의 평균값과 방위각의 평균값을 양자화하는 단계와, 오디오 프레임에 대한 중수 제거 방위각 벡터(mean removed azimuth vector) - 중수 제거 방위각 벡터의 각 성분은 시간-주파수 블록에 대한 중수 제거 방위각 성분을 포함하고, 시간-주파수 블록에 대한 중수 제거 방위각 성분은 시간-주파수 블록과 연관된 방위각으로부터 양자화된 방위각의 평균값을 빼서 형성됨 - 를 형성하는 단계와, 코드북을 사용하여 프레임에 대한 중수 제거 방위각 벡터를 벡터 양자화하는 단계를 포함한다.

제 1 거리 측정은 고도와 방위각에 의해 주어진 구체(sphere) 위 지점과, 제 1 양자화 체계에 따른 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 지점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 1 거리 측정은

에 의해 주어질 수 있고, 여기서

는 시간-주파수 블록 i의 고도이며,

는 시간-주파수 블록 i에 대한 제 1 양자화 체계에 따른 양자화된 고도이고,

는 시간-주파수 블록 i에 대한 제 1 양자화 체계에 따른 양자화된 방위각과 방위각 사이 왜곡의 근사값이다.

방위각과 제 1 양자화 체계에 따른 양자화된 방위각 사이 왜곡의 근사값은 180도를 n_i로 나눈 값으로 주어질 수 있고, 여기서 n_i는 시간-주파수 블록 i에 대한 제 1 양자화 체계에 따른 양자화된 고도에 대응하는 방위각 값 집합 내 방위각 값의 개수이다.

제 2 거리 측정은 고도와 방위각에 의해 주어진 구체 위 지점과, 제 2 양자화 체계에 따른 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 2 거리 측정은

에 의해 주어질 수 있고, 여기서

는 오디오 프레임에 대한 제 2 양자화 체계에 따른 양자화된 평균 고도이며,

는 시간-주파수 블록 i에 대한 고도이고,

는 시간-주파수 블록 i에 대한 제 2 양자화 체계에 따른 양자화된 중수 제거 방위각 벡터의 방위각 성분과 방위각 사이 왜곡의 근사값이다.

시간-주파수 블록 i에 대한 제 2 양자화 체계에 따른 양자화된 중수 제거 방위각 벡터의 방위각 성분과 방위각 사이 왜곡의 근사값은 코드북과 관련된 값일 수 있다.

제 2 측면에 따르면, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와, 각 시간-주파수 블록에 대한 제 1 거리 측정 - 제 1 거리 측정은 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 1 거리 측정을 합산함으로써 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와, 각 시간-주파수 블록에 대한 제 2 거리 측정 - 제 2 거리 측정은 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 2 거리 측정을 합산함으로써 제 2 왜곡 측정을 결정하는 단계와, 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 고도 및 방위각을 양자화하기 위한 제 1 양자화 체계 또는 제 2 양자화 체계 중 하나를 선택 - 선택은 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 포함하는 방법을 제공한다.

제 1 양자화 체계는, 시간-주파수 블록 기반 단위 상에서, 구면 격자의 고도 값 집합 - 고도 값 집합 내 각 고도 값은 구면 격자의 방위각 값 집합에 매핑됨 - 에서 가장 가까운 고도 값을 선택함으로써 고도를 양자화하는 단계와, 방위각 값 집합 - 방위각 값 집합은 가장 가까운 고도 값에 의존함 - 에서 가장 가까운 방위각 값을 선택함으로써 방위각을 양자화하는 단계를 포함할 수 있다.

고도 값 집합 내 고도 값의 숫자는 서브프레임에 대한 비트 해상도 인자에 의존하며, 각 고도 값에 매핑된 방위각 값 집합 내 방위각 값의 개수 역시 서브프레임에 대한 비트 해상도 인자에 의존한다.

제 2 양자화 체계는, 평균 고도 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 고도를 평균화하는 단계와, 평균 방위각 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 방위각을 평균화하는 단계와, 고도의 평균값과 방위각의 평균값을 양자화하는 단계와, 오디오 프레임에 대한 중수 제거 방위각 벡터 - 중수 제거 방위각 벡터의 각 성분은 시간-주파수 블록에 대한 중수 제거 방위각 성분을 포함하고, 시간-주파수 블록에 대한 중수 제거 방위각 성분은 시간-주파수 블록과 연관된 방위각으로부터 양자화된 방위각의 평균값을 빼서 형성됨 - 를 형성하는 단계와, 코드북을 사용하여 프레임에 대한 중수 제거 방위각 벡터를 벡터 양자화하는 단계를 포함한다.

제 1 거리 측정은 고도와 방위각에 의해 주어진 구체 위 지점과, 제 1 양자화 체계에 따라 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 지점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 1 거리 측정은

에 의해 주어질 수 있고, 여기서

는 시간-주파수 블록 i의 고도이며,

방위각과 상기 제 1 양자화 체계에 따른 양자화된 방위각 사이 왜곡의 근사값은 180도를 n_i으로 나눈 값으로 주어질 수 있고, 여기서 n_i는 시간-주파수 블록 i에 대한 제 1 양자화 체계에 따른 양자화된 고도에 대응하는 방위각 값 집합 내 방위각 값의 숫자이다.

제 2 거리 측정은 고도와 방위각에 의해 주어진 구체 위 지점과, 제 2 양자화 체계에 따른 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 지점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 2 거리 측정은

에 의해 주어질 수 있고, 여기서

는 시간-주파수 블록 i에 대한 고도이고,

시간-주파수 블록 i에 대한 제 2 양자화 체계에 따라 양자화된 중수 제거 방위각 벡터의 방위각 성분과 방위각 사이 왜곡의 근사값은 코드북과 관련된 값일 수 있다.

제 3 측면에 따르면, 적어도 하나의 프로세서와, 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치에 있어서, 적어도 하나의 메모리와 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서를 이용하여, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와, 각 시간-주파수 블록에 대한 제 1 거리 측정 - 제 1 거리 측정은 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 1 거리 측정을 합산함으로써 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와, 각 시간-주파수 블록에 대한 제 2 거리 측정 - 제 2 거리 측정은 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 제 2 거리 측정을 합산함으로써 제 2 왜곡 측정을 결정하는 단계와, 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 고도 및 방위각을 양자화하기 위한 제 1 양자화 체계 또는 제 2 양자화 체계 중 하나를 선택 - 선택은 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 수행하도록 하게 구성되는 장치를 제공한다.

제 1 양자화 체계는, 시간-주파수 블록 기반 단위 상에서, 구면 격자의 고도 값 집합에서 가장 가까운 고도 값을 선택함으로써 - 고도 값 집합 내 각 고도 값은 구면 격자의 방위각 값 집합에 매핑됨 - 고도를 양자화하는 단계와, 방위각 값 집합 - 방위각 각 집합은 가장 가까운 고도 값에 의존함 - 에서 가장 가까운 방위각 값을 선택함으로써 방위각을 양자화하는 단계를 수행하는 장치에 의해 실행될 수 있다.

고도 값 집합 내 고도 값의 숫자는 서브프레임에 대한 비트 해상도 인자에 따라 의존하며, 각 고도 값에 매핑된 방위각 값 집합 내 방위각 값의 개수 역시 서브프레임에 대한 비트 해상도 인자에 따라 의존할 수 있다.

제 2 양자화 체계는, 평균 고도 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 고도를 평균화하는 단계와, 평균 방위각 값을 제공하기 위해 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 방위각을 평균화하는 단계와, 고도의 평균값과 방위각의 평균값을 양자화하는 단계와, 오디오 프레임에 대한 중수 제거 방위각 벡터 - 중수 제거 방위각 벡터의 각 성분은 시간-주파수 블록에 대한 중수 제거 방위각 요소를 포함하고, 시간-주파수 블록에 대한 중수 제거 방위각 요소는 시간-주파수 블록과 연관된 방위각으로부터 양자화된 방위각의 평균값을 빼서 형성됨 - 를 형성하는 단계와, 코드북을 사용하여 프레임에 대한 중수 제거 방위각 벡터를 벡터 양자화하는 단계를 수행하는 장치에 의해 실행될 수 있다.

제 1 거리 측정은 고도와 방위각에 의해 주어진 구체 위 지점과, 제 1 양자화 체계에 따른 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 지점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 1 거리 측정은

에 의해 주어질 수 있고, 여기서

는 시간-주파수 블록 i의 고도이며,

방위각과 양자화된 방위각 사이 왜곡의 근사값은 180도를 n_i으로 나눈 값으로 주어질 수 있고, 여기서 n_i는 시간-주파수 블록 i에 대한 제 1 양자화 체계에 따른 양자화된 고도에 대응하는 방위각 값 집합 내 방위각 값의 개수이다.

제 2 거리 측정은 고도와 방위각에 의해 주어진 구체 위 지점과, 제 2 양자화 체계에 따라 양자화된 고도와 양자화된 방위각에 의해 주어진 구체 위 점 사이의 L2 놈(L2 norm) 거리를 포함할 수 있다.

제 2 거리 측정은

에 의해 주어질 수 있고, 여기서

는 시간-주파수 블록 i에 대한 고도이고,

는 시간-주파수 블록 i에 대한 제 2 양자화 체계에 따라 양자화된 중수 제거 방위각 벡터의 방위각 성분과 방위각 사이 왜곡의 근사값이다.

제 4 측면에 따르면, 오디오 프레임의 서브밴드의 각 시간-주파수 블록에 대해, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와, 각 시간-주파수 블록에 대한 제 1 거리 측정 - 제 1 거리 측정은 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사치임 - 을 결정하고 각 시간-주파수 블록에 대한 제 1 거리 측정을 합산함으로써 제 1 왜곡 측정을 결정하는 단계와, 각 시간-주파수 블록에 대한 제 2 거리 측정 - 제 2 거리 측정은 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사치임 - 을 결정하고 각 시간-주파수 블록에 대한 제 2 거리 측정을 합산함으로써 제 2 왜곡 측정을 결정하는 단계와, 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 고도 및 방위각을 양자화하기 위한 제 1 양자화 체계 또는 제 2 양자화 체계 중 하나를 선택 - 선택은 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 장치가 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램(또는 프로그램 명령어를 포함하는 컴퓨터 판독가능 매체)을 제공한다.

전자 장치는 본 명세서에서 설명된 장치를 포함할 수 있다.

칩셋(chipset)은 본 명세서에서 설명된 장치를 포함할 수 있다.

본 출원의 실시예는 최신 기술과 관련된 문제를 해결하는 것을 목표로 한다.

본 출원의 더 나은 이해를 위해, 첨부된 도면을 예로서 참조할 것이다.
도 1은 일부 실시예를 실행하기 적합한 장치의 시스템을 도식적으로 나타낸다.
도 2는 일부 실시예에 따른 메타데이터 인코더를 도식적으로 나타낸다.
도 3은 일부 실시예에 따라 도 2에 도시된 메타데이터 인코더의 동작의 흐름도를 도시한다.
도 4는 일부 실시예에 따른 메타데이터 디코더를 도식적으로 나타낸다.

이하에서는 효과적인 공간 분석 파생 메타데이터 파라미터의 제공을 위한 적절한 장치 및 가능한 메커니즘을 자세히 설명한다. 이하의 논의에서는 다중 채널 마이크 구현에 관하여 다중 채널 시스템이 설명된다. 그러나, 이상에서 설명했듯이, 입력 형식은 다중 채널 스피커, 앰비소닉(FOA/HOA) 등과 같은 임의의 적절한 입력 형식이 될 수 있다. 일부 실시예에서 채널 위치는 마이크의 위치를 기반으로 하거나, 가상의 위치 또는 방향이라는 것을 이해할 수 있다. 또한, 예시 시스템의 출력은 다중 채널 스피커 배열이다. 그러나 출력은 스피커 이외의 수단을 통해 사용자에게 제공될 수 있음을 이해할 수 있다. 또한, 다중 채널 스피커 신호는 2 이상의 재생 장치 오디오 신호로 일반화 될 수 있다.

메타데이터는 고려되는 각 시간/주파수 서브밴드에 대해, 적어도 고도, 방위각 및 결과 방향의 에너지 레이트로 구성된다. 방향 파라미터 성분인 방위각과 고도는 오디오 데이터에서 추출되고 주어진 양자화 해상도로 양자화된다. 결과 지표는 효율적인 전송을 위해 더 압축되어야 한다. 높은 비트레이트(bitrate)의 경우, 메타데이터의 고품질 무손실 인코딩이 필요하다.

이후에 논의되는 개념은 고정 비트레이트 코딩 접근법을 서로 다른 세그먼트 사이에 압축될 데이터에 대한 인코딩 비트를 분배하는 가변 비트레이트 코딩과 결합하여 프레임당 전체 비트가 고정되도록 하는 것이다. 시간-주파수 블록 내에서, 비트는 주파수 서브밴드 간에 전송될 수 있다. 또한 이후에 논의되는 개념은 방위각 및 고도 값에 대한 양자화 체계를 결정하는데 있어 방향 파라미터 구성성분의 차이(variance)를 활용하고자 한다. 즉, 방위각 및 고도 값은 각각의 서브밴드 및 서브프레임 기반 상의 여러 개의 양자화 체계 중 하나를 사용하여 양자화될 수 있다. 특정 양자화 체계의 선택은 상기 방향 파라미터 구성성분의 차이에 의해 영향을 받을 수 있는 결정 절차에 따라 이루어질 수 있다. 결정 절차는 각 양자화 체계에서 고유한 양자화 오차 거리의 계산을 사용한다.

도 1에는, 본 출원의 실시예를 구현하기 위한 예시 장치와 시스템이 도시되어 있다. 시스템(100)은 '분석' 부분(121)과 '합성' 부분(131)으로 도시된다. '분석' 부분(121)은 다중 채널 스피커 신호의 수신부터 메타데이터와 다운믹스 신호의 인코딩까지의 부분이고, '합성' 부분(131)은 인코딩된 메타데이터와 다운믹스 시그널의 디코딩부터 재생성된 신호의 제시(예를 들어, 다중 채널 스피커 형식)까지의 부분이다.

시스템(100)과 '분석'부분(121)의 입력은 다중 채널 신호(102)이다. 이하의 예시에서는 마이크 채널 신호 입력으로 설명하지만, 임의의 적절한 입력 형식이 다른 실시예에서 구현될 수 있다. 예를 들어, 일부 실시예에서 공간 분석기(spatial analyser) 및 공간 분석은 인코더의 외부에서 구현될 수 있다. 예를 들어, 일부 실시예에서 오디오 신호와 관련된 공간 메타데이터는 별도의 비트스트림(bit-stream)으로 인코더에 제공될 수 있다. 일부 실시예에서 공간 메타데이터는 공간(방향) 지표 값의 집합으로 제공될 수 있다.

다중 채널 신호는 다운믹서(103)와 분석 프로세서(105)로 전달된다.

일부 실시예에서 다운믹서(103)는 다중 채널 신호를 수신하고, 그 신호를 정해진 채널 숫자로 다운믹싱하며, 다운믹싱 신호(104)를 출력하도록 구성된다. 예를 들어, 다운믹서(103)는 다중 채널 신호의 2 오디오 채널 다운믹스를 생성하도록 구성된다. 채널 숫자는 임의의 적절한 개수로 정해질 수 있다. 일부 실시예에서 다운믹서(103)는 선택적이며 다중 채널 신호는, 이러한 예시에서의 다운믹스 신호와 동일하게, 처리되지 않은 채로 인코더(107)로 전달된다.

일부 실시예에서, 분석 프로세서(105)는 다중 채널 신호를 수신하고, 신호를 분석하여 다중 채널 신호 및 다운믹스 신호(104)와 관련된 메타데이터(106)을 산출하도록 구성된다. 분석 프로세서(105)는 각 시간-주파수 분석 구간에 대한 방향 파라미터(108)와 에너지 레이트 파라미터(110)( 및 일부 실시예에서는 간섭 파라미터와 확산 파라미터)를 포함하는 메타데이터를 생성하도록 구성될 수 있다. 일부 실시예에서 방향 및 에너지 레이트는 공간 오디오 파라미터로 고려될 수 있다. 즉, 공간 오디오 파라미터는 다중 채널 신호(또는 일반적으로 2 이상의 재생 장치 오디오 신호)에 의해 생성된 사운드 필드(sound-field)의 특징을 나타내기 위한 파라미터를 포함한다.

일부 실시예에서, 생성된 파라미터는 주파수 대역마다 다를 수 있다. 따라서 예를 들어 대역 X에서는 모든 파라미터가 생성되고 전송되나, 대역 Y에서는 오직 하나의 파라미터가 생성되고 전송되며, 또한 대역 Z에서는 어떠한 파라미터도 생성 및 전송되지 않는다. 이에 대한 실제 예시로는 최고 대역과 같은 일부 주파수 대역의 경우 지각적인(perceptual) 이유로 일부 파라미터가 필요하지 않을 수 있다는 것이다. 다운믹스 신호(104)와 메타데이터(106)는 인코더(107)로 전달된다.

인코더(107)는 다운믹스(혹은 그 외) 신호(104)를 수신하고 이들 오디오 신호에 적합한 인코딩을 생성하도록 구성되는 오디오 인코더 코어(109)를 포함한다. 일부 실시예에서 인코더(107)는 (메모리 상에, 적어도 하나의 프로세서 상에 저장된 적절한 소프트웨어를 실행하는) 컴퓨터 또는 대안적으로 예를 들어 FPGA나 ASICs를 사용하는 특정 장치일 수 있다. 인코딩은 임의의 적합한 체계를 사용하여 구현될 수 있다. 또한 인코더(107)는 메타데이터를 수신하고 정보의 인코딩되거나 압축된 형태를 출력하도록 구성된 메타데이터 인코더/양자화기(quantizer)(111)를 포함한다. 일부 실시예에서 인코더(107)는 도 1에 점선으로 도시된 전송 또는 저장 전에 인코딩 된 다운믹스 신호 내에 메타 데이터를 추가로 인터리빙(interleave)하거나, 단일 데이터 스트림으로 다중화하거나 임베딩(embedding)할 수 있다. 다중화는 임의의 적합한 체계를 사용하여 구현될 수 있다.

디코더 측에서, 수신 또는 검색된 데이터 (스트림)은 디코더 / 디멀티플렉서(decoder/demultiplexer)(133)에 의해 수신될 수 있다. 디코더/디멀티플렉서(133)는 인코딩된 스트림을 역다중화 하고, 다운믹스 신호를 획득하기 위해 오디오 신호를 디코딩 하도록 구성되는 다운믹스 추출기(135)로 오디오 인코딩 스트림을 전달할 수 있다. 유사하게, 디코더/디멀티플렉서(133)는 인코딩된 메타데이터를 수신하고 메타데이터를 생성하는 메타데이터 추출기(137)를 포함할 수 있다. 일부 실시예에서 디코더/디멀티플렉서(133)는 (메모리 상에, 적어도 하나의 프로세서 상에 저장된 적절한 소프트웨어를 실행하는) 컴퓨터 또는 대안적으로 예를 들어 FPGA나 ASICs를 사용하는 특정 장치일 수 있다.

디코딩된 메타데이터와 다운믹스 오디오 신호는 합성 프로세서(139)로 전달될 수 있다.

시스템(100)의 '합성' 부분(131)은 다운믹스 및 메타데이터를 수신하도록 구성된 합성 프로세서(139)를 추가로 도시하고, 다운믹스 신호와 메타데이터에 기초하여 다중 채널 신호(110)의 형태로 합성된 공간 오디오를 임의의 적합한 형식(이들은 다중 채널 스피커 형식일 수도 있고, 일부 실시예에서 사용 사례에 따라 바이노럴 또는 앰비소닉 신호와 같은 임의의 적절한 출력 형식일 수도 있음)으로 재생성한다.

그러므로, 요약하면 첫째로 시스템(분석 부분)은 다중 채널 오디오 신호를 수신하도록 구성된다.

그러면 시스템(분석 부분)은 (예를 들어 일부 오디오 신호 채널을 선택함으로써) 다운믹스를 생성하거나 또는 그 외 적합한 전송 오디오 신호를 생성하도록 구성된다.

그 후 시스템은 다운믹스(또는 보다 일반적으로 전송) 신호를 저장/전송하기 위해 인코딩을 하도록 구성된다.

이후 시스템은 인코딩된 다운믹스 및 메타데이터를 저장/전송할 수 있다.

시스템은 인코딩된 다운믹스 및 메타데이터를 검색/수신할 수 있다. 시스템은 그 후 인코딩된 다운믹스와 메타데이터 파라미터에서 다운믹스와 메타데이터를 추출하도록 구성될 수 있고, 예를 들어 인코딩된 다운믹스 및 메타데이터 파라미터를 역다중화하고 디코딩한다.

시스템(합성 부분)은 다중 채널 오디오 신호의 추출된 다운믹스와 메타데이터를 기초로 하여 다중 채널 오디오 신호의 출력을 합성하도록 구성된다.

도 2에서, 일부 실시예에 따른 분석 프로세서(105)와 메타데이터 인코더/양자화기(111)(도 1에 도시)의 예시가 더 자세히 설명된다.

일부 실시예에서 분석 프로세서(105)는 시간-주파수 도메인 변환기(201)를 포함한다.

일부 실시예에서 시간-주파수 도메인 변환기(201)는 다중 채널 신호(102)를 수신하고 단시간 푸리에 변환(Short Time Fourier Transform: STFT)과 같은 적합한 시간-주파수 도메인 변환을 적용한다. 이들 시간-주파수 신호는 공간 분석기(203)와 신호 분석기(205)로 전달될 수 있다.

그러므로, 예를 들어 시간-주파수 신호(202)는 시간-주파수 도메인 표현에서 다음과 같이 표현될 수 있다.

여기서 b는 주파수 빈 인덱스(frequency bin index)이고, n은 시간-주파수 블록(프레임) 인덱스이며, i는 채널 인덱스이다. 다른 표현에서, n은 원래 시간 도메인 신호보다 낮은 샘플링 레이트를 가진 시간 인덱스로 고려될 수 있다. 이들 주파수 빈은 하나 이상의 빈을 밴드 인덱스 k=0,…K-1의 서브밴드로 그룹화될 수 있다. 각 서브밴드 k는 가장 낮은 빈 b_k,low와 가장 높은 빈 b_k,high를 가지며, 서브밴드는 b_k,low부터 b_k,high까지의 모든 빈을 포함한다. 서브밴드의 폭은 임의의 적합한 분포를 근사화할 수 있다. 예를 들어, 등가 직사각형 대역폭 (Equivalent rectangular bandwidth: ERB) 척도 또는 바크 척도(Bark scale).

일부 실시예에서, 분석 프로세서(105)는 공간 분석기(203)을 포함한다. 공간 분석기(203)는 시간-주파수 신호(202)를 수신하고, 이러한 신호에 기초하여 방향 파라미터(108)을 추정하도록 구성된다. 방향 파라미터는 임의의 오디오 기반 '방향' 결정에 기초하여 결정된다.

예를 들어, 일부 실시예에서 공간 분석기(203)는 둘 이상의 신호 입력으로 방향을 추정하도록 구성된다. 이것은 '방향'을 추정하기 위한 가장 간단한 구성을 나타내며, 더 많은 신호로 더 복잡한 처리를 수행할 수 있다.

따라서 공간 분석기(203)는 오디오 신호의 프레임 내에서 각 주파수 대역 및 시간-주파수 블록에 대해 적어도 하나의 방위각 및 고도를 제공하도록 구성될 수 있고, 방위각

및 고도

로 표시된다. 방향 파라미터(108)는 또한 방향 인덱스 생성기(205)로 전달될 수 있다.

공간 분석기(203)는 또한 에너지 레이트 파라미터(110)를 결정하도록 구성될 수 있다. 에너지 레이트는 일 방향으로부터 도달했다고 고려될 수 있는 오디오 신호 에너지의 결정으로 볼 수 있다. 직접 대 총 에너지 레이트(direct to total energy ratio)

은, 예를 들어, 방향 추정의 안정성 측정을 사용하거나, 상관 측정 또는 비율 파라미터를 얻기 위한 다른 임의의 적절한 방법을 사용하여 추정될 수 있다. 에너지 레이트는 에너지 레이트 분석기(221) 및 에너지 레이트 결합기(223)로 전달될 수 있다.

따라서, 요약하면 분석 프로세서는 시간 도메인 다중채널 또는 마이크나 앰비소닉 오디오 신호와 같은 다른 형식을 수신하도록 구성된다.

이후, 분석 프로세서는 시간 도메인에 주파수 도메인 변환(예: STFT)을 적용하여 분석을 위한 적합한 시간-주파수 도메인 신호를 생성하고 방향 및 에너지 레이트 파라미터를 결정하기 위해 방향 분석을 적용할 수 있다.

분석 프로세서는 그 후 결정된 파라미터를 출력하도록 구성될 수 있다.

여기서는 각 시간 인덱스 n에 대한 방향 및 비율이 표현되지만, 일부 실시예에서는 파라미터가 여러 시간 인덱스에 걸쳐 결합될 수 있다. 설명된 바와 같이 주파수 축에도 동일하게 적용되며, 여러 주파수 빈 b의 방향은 여러 주파수 빈 b로 구성된 대역 k에서 하나의 방향 파라미터에 의해 표현될 수 있다. 본 명세서에서 논의된 모든 공간 파라미터에 대해서도 동일하게 적용된다.

도 2에는 일부 실시예에 따른 메타데이터 인코더/양자화기(111)의 예시가 도시되어 있다.

메타데이터 인코더/양자화기(111)는 에너지 레이트 분석기(또는 양자화기 해상도 결정기(determiner))(221)를 포함할 수 있다. 에너지 레이트 분석기(221)는 에너지 레이트를 수신하고, 분석으로부터 프레임의 모든 시간-주파수(TF) 블록에 대한 방향 파라미터에 대한 양자화 해상도(즉, 고도 및 방위각 값에 대한 양자화 해상도)를 생성하도록 구성될 수 있다. 이 비트 할당은 예를 들어 bits_dir0[0:N-1][0:M-1]로 정의될 수 있고, N = 서브밴드의 수이고 M = 서브밴드 내 시간-주파수(TF) 블록의 수이다. 즉, 어레이 bits_dir0는 사전 정의된 비트 수의 값(즉, 양자화 해상도 값)으로 현재 프레임의 각 시간-주파수 블록에 대해 채워질 수 있다. 각 시간-주파수 블록에 대한 사전 정의된 비트 개수의 값은 특정 시간-주파수 블록의 에너지 레이트에 따라 사전 정의된 값의 집합에서 선택될 수 있다. 예를 들어, 시간-주파수(TF) 블록에 대한 특정 에너지 레이트 값은 시간-주파수(TF) 블록에 대한 최초의 비트 할당을 결정할 수 있다.

TF 블록은 N개의 서브밴드 중 1개 내에서 시간에 대한 서브프레임이라고 할 수 있음을 기억하자.

예를 들어, 일부 실시예에서, 각 시간-주파수 블록에 대한 상기 에너지 레이트는 스칼라 비균일 양자화기를 사용하여 3 비트로 양자화될 수 있다. 방향 파라미터(고도 및 방위각)에 대한 비트는 테이블 bits_direction[]에 따라 할당된다; 에너지 레이트가 양자화 인덱스 i를 가지면, 방향에 대한 비트 수는 bits_direction[i]이다.

const short bits_direction [ ] = {

11, 11, 10, 9, 8, 6, 5, 3};

즉, bits_dir0[0:N-1][0:M-1]의 각 항목은 처음에 bits_direction[] 테이블의 값으로 채워질 수 있다.

메타데이터 인코더/양자화기(111)은 방향 인덱스 생성기(205)를 포함할 수 있다. 방향 인덱스 생성기(205)는 방향 파라미터(예컨대, 방위각 (k, n)및 고도 (k, n))(108) 및 양자화 비트 할당을 수신하고, 이로부터 양자화된 방향 파라미터를 나타내는 다양한 테이블과 코드북으로의 인덱스 형태의 양자화된 출력을 생성하도록 구성된다.

메타데이터 인코더/양자화기(111)에 의해 수행되는 작동 단계 중 일부가 도 3에 도시되어 있다. 이들 단계는 방향 파라미터의 양자화와 관련한 알고리즘 프로세스를 구성할 수 있다.

처음에 공간 분석기(203)로부터 방향 파라미터(고도 및 방위각)(108)를 얻기 위한 단계가 처리 단계(301)로 도시된다.

bits_dir0[0:N-1][0:M-1]의 형태로 각 서브밴드에 대한 비트의 초기 분배 또는 할당을 준비하는 상기 단계는 도 3의 (303)에 도시되어 있다. 이 때, 도 3에 도시되어 있듯이, N은 서브밴드의 수이고, M은 서브밴드 내의 시간 주파수 블록의 수이다.

처음에 방향 인덱스 생성기(205)는 할당된 비트의 수를 bits_dir1[0:N-1][0:M-1]로 줄이도록 구성될 수 있으며, 할당된 비트의 총합은 에너지 레이트를 인코딩한 이후에 남은 가능한 비트의 숫자와 동일하다. 초기 할당 비트 수의 감소는, 즉 bits_dir0[0:N-1][0:M-1]에서 bits_dir1[0:N-1][0:M-1]는 일부 실시예에서 다음과 같이 구현될 수 있다:

첫째로, 감소될 비트와 시간-주파수 블록 수 사이의 정수 나눗셈에 의해 주어진 비트의 양으로 시간-주파수(TF) 블록에 걸쳐 비트의 수를 균일하게 감소시킨다;

둘째로, 여전히 뺄셈해야 할 비트는 서브밴드 0, 시간-주파수 블록 0부터 시작하여 시간-주파수 블록당 하나씩 뺄셈한다.

예를 들어, 다음의 C 코드로 구현할 수 있다:

MIN_BITS_TF 값은, 허용되는 총 비트 수가 있는 경우 TF블록에 대한 비트 할당에 허용되는 최소값이다. 일부 실시예에서, 0보다 큰 최소 개수의 비트가 각 블록에 부과될 수 있다.

그 다음, 방향 인덱스 생성기(205)는 i=1에서 N-1까지의 서브밴드를 기초로, 서브밴드의 방향 구성성분을 양자화하기 위해 허용된 비트의 감소된 수를 구현하도록 구성될 수 있다.

도 3을 참조하면, 서브밴드 기반 단위로 방향 성분을 양자화하기 위한 비트의 초기 할당을 줄이는 단계: bits_dir1[0:N-1][0:M-1] (할당된 비트의 합 = 에너지 레이트를 인코딩한 후 남겨진 가능한 비트의 개수)는 도 3의 (305) 단계에 도시되어 있다.

일부 실시예에서, 양자화는 결정된 양자화 해상도에 의해 정의되는 룩업 테이블(look up table)에 의해 정의되는 구체 '표면' 상에 링으로 배열된 구면 격자를 형성하는 구체의 배열에 기초한다. 즉, 구면 격자는 구체를 더 작은 구체로 덮고, 더 작은 구체의 중심을 거의 등거리 방향의 격자를 정의하는 점으로 간주한다는 아이디어를 사용한다. 따라서 더 작은 구체는 임의의 적합한 인덱싱 알고리즘에 따라 인덱싱될 수 있는 중심점에 대한 원뿔 또는 입체각(solid angle)을 정의한다. 본 명세서에서는 구면 양자화가 하나의 적합한 양자화로 구술되었으나, 선형 또는 비선형도 사용될 수 있다.

이상에서 언급했듯이, 방향 파라미터(고도 및 방위각)에 대한 비트는 테이블 bits_direction[]에 따라 할당될 수 있다. 결과적으로, 구면 격자의 해상도는 에너지 레이트 및 양자화된 에너지 레이트의 양자 인덱스 i로 결정될 수 있다. 이를 위해, 다양한 비트 해상도에 따른 구면 격자의 해상도는 다음 테이블처럼 주어질 수 있다.

어레이 또는 테이블 no_theta는 적도(Equator)를 포함하여 구의 '북반구'에 고르게 분포되어 있는 고도 값의 수를 지정한다. '북반구'에 분포된 고도 값의 패턴은 대응되는 '남반구' 점에 대해서도 반복된다. 예를 들어, 에너지 레이트 인덱스 i=2는 방향 파라미터에 대해 5 비트가 할당된다. 테이블/어레이 no_theta에는, 4개의 고르게 분포된 '북반구' 값 [0,30,60,90]에 해당하는 4개의 고도 값이 주어지며, 또한 이는 4-1=3인 음의 고도값(도(degree) 단위) [-30, -60, -90]에 대응된다. 어레이/테이블 no_phi는 no_theta 어레이 내 각 고도 값에 대한 방위각 지점의 수를 특정한다. 이상에서의 에너지 레이트 인덱스 6의 예시에서, 첫 번째 고도 값 0은 어레이 no_phi 내 5번째 행 항목에 의해 주어진 12개의 등거리 방위각 값에 매핑되고, 고도 값 30 및 -30의 경우 어레이 phi_no 내 동일한 행 항목에 의해 주어진 7개의 등거리 방위각 값에 매핑된다. 이 매핑 패턴은 각 고도값에 대해 반복된다.

모든 양자화 해상도에 대해 '북반구'의 고도 값 분포는 대략 90도를 고도값의 수 'no_theta'로 나눈 값으로 주어진다. '적도' 아래의 고도 값에도, 즉 '남반구'의 값의 분포를 제공하기 위해서도, 유사한 규칙이 적용된다. 유사하게, 4 비트에 대한 구면 격자는 적도 위에 [0,45]의 고도 지점과 적도 아래에 [-45]의 단일 고도 지점을 가질 수 있다. 다시 no_phi 테이블을 보면 첫 번째 고도 값 [0]에 대해 8개의 등거리 방위각 값이 있고, 고도 값 [45] 및 [-45]에 대해 4개의 등거리 방위각 값이 있다.

이상의 내용은 구면 양자화 격자가 어떻게 표현되는지에 대한 예시를 제공하며, 다른 적합한 분포도 구현가능하다는 것도 이해할 수 있을 것이다. 예를 들어, 4 비트에 대한 구면 격자는 적도 위에 오직 [0, 45] 지점을 가지며 및 적도 밑에는 아무런 지점을 가지지 않을 수도 있다. 유사하게, 3 비트 분포는 구면에 퍼질 수도 있고 적도로만 제한될 수도 있다.

이상에서 설명된 양자화 체계에서, 결정된 양자화 고도 값이 최종적인 양자화 방위각 값이 선택되는 특정 방위각 값의 집합을 결정한다는 것에 주목해야 한다. 그러므로 앞으로는 이러한 양자화 체계를 고도 및 방위각 값 쌍의 공동 양자화(joint quantization)로 지칭할 것이다.

방향 인덱스 양자화기(205)는 i=1부터 N-1까지의 각 서브밴드에 대한 방향 성분(고도 및 방위각)을 양자화하는 다음의 단계를 수행하도록 구성될 수 있다.

a. 우선, 방향 인덱스 생성기(205)는 현재 서브밴드에 대해 허용된 비트의 산출된 수에 기초하여 결정하도록 구성될 수 있다. 즉, bits_allowed= sum(bits_dir1 [i][0:M-1]).

b. 이어서, 방향 인덱스 생성기(205)는 현재 서브밴드에 대한 모든 M개의 시간-주파수 블록들 중 하나의 시간-주파수 블록에 할당된 비트의 최대 숫자를 결정하도록 구성될 수 있다. 이는 다음 슈도코드문(pseudo code statement) max_b = max(bits_dir1[i][0:M-1])로 표현될 수 있다.

도 3을 보면, a 및 b 단계는 프로세싱 단계 (307)로 도시되어 있다.

c. max_b의 결정에 따라, 방향 인덱스 생성기(205)는 현재 서브밴드에 할당된 비트 수 내에서 각 시간-주파수 블록에 대한 고도 및 방위각 값을 함께 인코딩할지, 또는 추가 조건 테스트를 기초로 고도 및 방위각 값의 인코딩을 수행할지 결정한다.

도 3을 보면, 이상에서의 max_b와 관련된 결정 단계는 프로세싱 단계 (309)에 도시되어 있다.

추가 조건 테스트는 거리 측정 기반 접근에 기초할 수 있다. 슈도 코드 관점에서 이 단계는 다음과 같이 표현될 수 있다.

if(max_b<=4)

i. 현재 서브밴드의 서브프레임 데이터에 관한 두 거리 d1과 d2의 거리를 계산한다.

ii. if d2 < d1

현재 서브밴드의 모든 TF 블록에 대한 고도 및 방위각 값을 VQ 인코딩한다.

iii. Else

현재 서브밴드에 할당된 비트 수 내에서 각 TF 블록의 고도 및 방위값 값을 공동으로 인코딩한다.

iv. End if

상기 슈도 코드에서 프레임의 시간-주파수 블록에 할당된 비트의 최대 개수인 max_b가 사전 결정된 값 이하로 떨어지는지 확인하기 위해 초기에 max_b를 체크하는 것을 알 수 있다. 상기 슈도 코드에서 이 값은 4 비트로 설정되지만, 상기 알고리즘은 다른 사전 결정된 값을 저장하도록 구성될 수 있다는 것을 이해해야 한다. Max_b가 임계 조건을 충족하는지 여부를 결정함에 따라, 방향 인덱스 생성기(205)는 두 개의 개별 거리 측정값 d1과 d2를 계산한다. 각각의 거리 측정값 d1 및 d2는 방향 성분(고도 및 방위각)이 위 예시에서 설명된 대로 no_theta 및 no_phi와 같은 테이블을 사용하는 위에서 설명한 공동 양자화 체계에 따라 양자화되었는지, 또는 벡터 양자화 기반 접근법에 따라 양자화되었는지를 판단하는데 사용될 수 있다. 공동 양자화 체계는 각 고도 및 방위각 값의 쌍을 시간 블록 기반 단위로 공동으로 양자화한다. 그러나, 벡터 양자화 접근법은 프레임의 모든 시간 블록에 걸쳐 고도 및 방위각 값을 양자화하여, 프레임의 모든 시간 블록에 대해 양자화된 고도 값을 제공하고, 양자화된 n 차원 벡터를 제공하며, 양자화된 n 차원 벡터의 각 성분은 프레임의 특정 시간 블록의 방위각 값의 양자화된 표현에 대응한다.

이상에서 언급했듯이, 방향 성분(고도 및 방위각)은 구면 격자 구성을 사용하여 각 성분을 양자화할 수 있다. 결과적으로, 실시예에서 측정 거리 d1 및 d2 모두 단일 구체의 표면에 있는 두 지점 사이의 L2 놈(norm)에 기초할 수 있고, 이들 지점 중 하나는 양자화된 고도 및 방위각 성분

을 가진 양자화된 방향 값이고, 다른 지점은 양자화되지 않은 고도 및 방위각 성분

을 가진 양자화되지 않은 방향 값이다.

거리 d1은 이하 방정식에 의해 주어지며, 거리 측정은 현재 프레임의 시간-주파수 블록 M에 걸친 L2 놈의 합에 의해 주어지며, 각 L2 놈은 각 시간-주파수 블록에 대한 구면 격자 상의 두 지점 사이의 거리 측정이다. 첫 번째 지점은 시간-주파수 블록에 대한 양자화되지 않은 고도 및 방위각 값이고, 두 번째 점은 시간-주파수 블록에 대한 양자화된 고도 및 방위각 값이다.

각 시간-주파수 블록 i에 대해, 왜곡(distortion)

은 고르게 분포된 고도 값이 구면 격자의 북반구 및 남반구를 얼마나 많이 채우는지 결정하기 위해 테이블 no_theta를 사용함으로써, 고도 값

를 가장 가까운 고도 값으로 초기에 양자화하여 결정할 수 있다. 예를 들어 max_b가 4 비트로 결정되면, no_theta는 고도에 대해 0도 및 +/-45도의 세 가지 가능한 값이 있음을 표시한다. 따라서 이 예시에서 시간 블록에 대한 고도 값

은

를 제공하기 위해 0도 및 +/- 45도 값들 중 하나로 양자화된다.

테이블 no_theta 및 no_phi를 이용한 고도 및 방위각 값의 양자화와 관련하여, 상기 설명으로부터 고도 및 방위각 값은 이들 테이블에 따라 양자화될 수 있음이 이해될 것이다. 방위각 값을 양자화 한 결과로서, 왜곡은 위 식에서

로 주어지며, 여기서 phi(

)는 양자화된 세타

및 고르게 분포된 방위각 값 n_i의 수에 관한 함수이다. 예를 들어, 위 예시를 사용하여 양자화된 세타

가 0도라고 결정되면, no_phi 테이블로부터 방위각 값이 양자화 될 수 있는, 8개의 가능한 방위각 양자화 지점이 있음을 알 수 있다.

인 양자화된 방위각 값과 연관된 상기 왜곡을 간단화하기 위하여, 각도

는 180/n도로 근사되고, 즉 이는 두 개의 연속된 지점 사이 거리의 절반이다. 따라서, 위의 예시로 돌아가서, 양자화된 고도 값

이 0도로 결정된 시간 블록과 관련된 방위각 왜곡은 180/8도로 근사될 수 있다.

그러므로 현재 프레임에 대한 전체 왜곡 측정값 d1은 현재 프레임의 각 시간-주파수 블록 1~M에 대한

의 합으로 주어진다. 즉, 왜곡 측정 d1은 고도와 방위각 값이 시간-주파수 블록 기반 단위 상의 쌍으로 양자화되는 앞서 언급한 공동 양자화 체계에 따라 프레임의 시간 블록에 대한 방향 성분을 양자화한 결과인 양자화 왜곡의 측정을 반영한다.

프레임의 TF 블록 1에서 M까지의 거리 측정 d2는 다음과 같이 표현할 수 있다.

본질적으로 d2는 프레임의 시간-주파수 블록에 걸쳐 고도 및 방위각 값을 벡터 양자화한 결과로서 양자화 왜곡 측정을 반영한다. 요컨대 양자화 왜곡 측정은 프레임에 대한 고도 및 방위각 값을 단일 벡터로 나타낸다.

실시예에서, 벡터 양자화 접근법은 각 프레임에 대해 다음과 같은 형식을 취할 수 있다.

1. (a) 우선 프레임의 모든 TF 블록 1~M에 대한 평균 고도 값이 계산된다.

(b) 모든 TF 블록 1~M에 대한 평균 방위각 값 또한 계산된다. 실시예에서 평균 방위각 값의 계산은 다음의 C 코드에 따라 수행될 수 있으며, 이는 270도 및 30도의 두 각의 더 나은 물리적 평균의 표현은 330도이지만, “통상적” 평균을 150도라 하는 경우를 피하기 위한 것이다.

4개의 TF 블록에 대한 방위각의 평균값 계산은 다음에 따라 수행될 수 있다.

2. 벡터 양자화 접근법의 두 번째 단계는 만약 각 TF 블록에 할당된 비트의 수가 사전 결정된 값 (예컨대, max_b 임계 값이 4 비트로 설정되어 있을 때 3 비트) 미만인지 결정한다. 각 TF 블록에 할당된 비트 수가 임계값 미만이라면, d1 거리 측정과 관련하여 앞서 기술한 것 처럼 테이블 no_theta 및 no_phi에 따라 평균 고도값 및 평균 방위각 값이 모두 양자화된다.

3. 그러나, 각 TF 블록에 할당된 비트의 수가 미리 결정된 값 이상이라면 프레임의 M TF 블록에 대한 고도 및 방위각 값의 양자화는 다른 형식을 취할 수 있다. 이 형식은 초기에 평균 고도 및 방위각 값을 이전과 같이 양자화하는 것을 포함할 수 있다. 그러나 이전보다 더 많은 비트를, 예컨대 7 비트, 사용하면, 각 TF 블록에 해당하는 방위각 값과 프레임에 대한 양자화된 평균 방위각 값 사이 차이를 찾아 프레임에 대해 중수 제거 방위각 벡터(mean removed azimuth vector)를 구한다. 중수 제거 방위각 벡터의 구성성분의 수는 프레임 내 TF 블록의 수에 대응되고, 즉 중수 제거 방위각 벡터는 M 차원이며 각 구성 성분은 TF 블록의 중수 제거 방위각 값이 된다. 실시예에서, 중수 제거 방위각 벡터는 복수의 VQ 코드북으로부터 트레이닝된 VQ 코드북에 의해 양자화된다. 앞에서 언급했듯이, 방향 성분(고도 및 방위각)을 양자화하는데 사용할 수 있는 비트는 프레임마다 다를 수 있다. 결과적으로 복수의 VQ 코드북이 필요할 수 있고, 각 VQ 코드북은 코드북의 '비트 크기'에 따라 상이한 벡터의 수를 갖는다.

프레임에 대한 왜곡 측정 d2는 이제 위 방정식에 따라 결정될 수 있다.

는 현재 서브밴드의 TF 블록에 대한 고도 값의 평균값이고, N_av는 no_theta 및 no_phi 테이블에 따른 방법을 사용하여 평균 방향을 양자화하는데 사용되는 비트의 수이다.

는 해당 비트 수

(현재 서브밴드의 총 비트 수에서 평균 방향의 비트를 뺀 값, 공동 양자화 및 벡터 양자화 사이의 신호에서 1 비트를 뺀 값)에 대해, 트레이닝된 중수 제거 방위각 VQ 코드북에서 가져온 중수 제거 방위각 벡터이다. 이는

에 의해 주어진 각 가능한 비트 조합에 대해 훈련된 VQ 코드북이 있으며, 이는 최적의 평균 차이 방위각 벡터(mean difference azimuth vector)를 제공하기 위해 차례로 검색된다. 실시예에서 방위각 왜곡

는 각 코드북에 대해 사전 결정된 왜곡 값을 가짐으로써 근사된다. 일반적으로 이 값은 코드북의 트레이닝 과정에서 얻어질 수 있고, 즉 트레이닝 벡터의 데이터베이스를 사용하여 코드북이 트레이닝될 때 얻어진 평균 오류일 수 있다.

도 3을 참조하면, d1 및 d2 거리 측정의 계산과 d1 및 d2 값에 따른 방향 성분의 연관 양자화와 관련된 위 처리 단계가 처리 단계 (311)로 도시된다. 명확하게 하기 위해, 이들 처리 단계는 방향 파라미터의 양자화를 포함하고, 양자화는 현재 프레임의 TF 블록에 대한 공동 양자화 또는 벡터 양자화 중 하나로 선택된다.

서브밴드 내에서 M 방향 성분(고도 및 방위각 값)의 양자화를 위하여 상술한 공동 인코딩 체계 또는 상술한 VQ 인코딩 체계 사이에서 선택(311)하는 것을 이해하여야 한다. 도 3은 상기 인코딩 방식 중에서 선택하기 위해 거리 측정 d1과 d2를 계산한다. 그러나 거리 측정 d1 및 d2는 특정 값을 결정하기 위해 양자화된 방향 성분을 완벽하게 결정하는 것에 의존하지 않는다. 특히, 양자화된 방위각 값과 원래 방위각 값 사이의 차이 (즉, d1에선

, d2에선

) 와 관련된 d1과 d2의 관계에서, 방위각 왜곡의 근사치가 사용된다. 결합 양자화 방식 또는 VQ 양자화 방식이 사용되는지 여부를 결정하기 위해 방위각 값에 대한 전체 양자화 검색을 수행하게 되는 경우를 피하기 위해 근사치가 사용된다는 것을 이해하여야 한다. d1의 경우에서,

의 계산에 대한 근사를 사용하면 양자화된 세타 값에 매핑된 각 방위각 값에 대한

계산을 피할 수 있다. d2의 경우에서,

의 계산에 대한 근사를 사용하면 VQ 코드북의 각 코드북 항목에 대한 방위각 차이의 계산을 피할 수 있다.

변수 max_b가 사전 결정된 임계 값에 대해 테스트되는 조건 처리 단계(309)와 관련하여(도 3은 4비트의 예시를 도시한다), 사전 결정된 임계값에 관련한 조건이 충족되지 않으면, 방향 인덱스 생성기(205)는 전술한 바와 같이 공동 양자화 체계를 사용하여 고도 및 방위각 값을 인코딩한다. 이 단계는 처리 단계 (313)에 도시되어 있다.

단계 (306)의 결과인 단계 (315)가 도 3에 도시되어 있다. 이들 단계는 처리 단계(307 내지 313)가 서브밴드 기반 단위로 수행된다는 것을 나타낸다.

완전성을 위해, 도 3에 도시된 알고리즘은 이하의 슈도코드로 표현될 수 있고, 여기서 슈도 코드의 내부 루프에는 처리 단계 (311)이 포함되어 있음을 알 수 있다.

방향 데이터의 인코딩 :

1. For 각 서브밴드 i=1:N

a. 해당하는 에너지 레이트 값을 인코딩하기 위해 3 비트를 사용한다.

b. 현재 서브밴드의 모든 시간 블록에 대한 방위각과 고도에 대한 양자화 해상도를 설정한다. 양자화 해상도는 에너지 비율 값에 의해 주어진 사전 결정된 비트 수, bits_dir0[0:N-1][0:M-1]를 허용하여 설정한다.

2. End for

3. 할당된 비트 수를 bits_dir1[0:N-1][0:M-1]로 축소하고, 할당된 비트의 총합은 에너지 레이트를 인코딩한 이후에 남은 가능한 비트의 수와 동일하다.

4. For 각 서브밴드 i=1:N

a. 현재 서브밴드에 대해 허용된 비트를 계산한다. : bits_allowed= sum(bits_dir1 [i][0:M-1])

b. 현재 서브밴드의 각 TF 블록에 대해 할당된 비트의 최대 숫자를 발견한다 : max_b = max(bits_dir1 [i][0:M-1])

c. if(max_b

4)

i. 현재 서브밴드의 서브프레임 데이터에 대해 거리 d1과 d2를 계산한다.

ii. if d2 < d1

1. VQ는 현재 서브밴드의 모든 TF 블록에 대해 고도 및 방위각 값을 인코딩한다.

iii. Else

1. 현재 서브밴드에 대해 할당된 비트 수 내에서 각 TF 블록의 고도 및 방위각 값을 공동으로 인코딩한다.

iv. End if

d. Else

i. 현재 서브밴드에 대해 할당된 비트 수 내에서 각 TF 블록의 고도 및 방위각 값을 공동으로 인코딩함.

e. End if

5. End for

서브밴드 1:N에 대한 모든 방향 성분을 양자화한 후, 양자화된 방향 성분의 양자화 인덱스가 결합기(207)로 전달될 수 있다.

일부 실시예에서 인코더는 에너지 레이트 인코더(223)을 포함할 수 있다. 에너지 레이트 인코더(223)는 결정된 에너지 레이트를 수신하고(예를 들어 직접 대 전체 에너지 레이트, 확산 대 전체 에너지 레이트 및 잔여 대 전체 에너지 레이트) 이들을 인코딩/양자화하도록 구성될 수 있다.

예를 들어, 일부 실시예에서 에너지 레이트 인코더(223)은 각 서브밴드에 대해 3 비트를 사용하여 스칼라 비균일 양자화를 적용하도록 구성된다.

또한, 일부 실시예에서 에너지 레이트 인코더(223)는 서브밴드당 하나의 가중된 평균값을 생성하도록 구성된다. 일부 실시예에서 이 평균값은 각 시간-주파수 블록의 총 에너지 및 더 많은 에너지를 갖는 서브밴드에 기초하여 적용된 가중치를 고려하여 계산된다.

에너지 레이트 인코더(223)는 이어서 이를 결합기에 전달하고, 결합기는 이를 메타데이터와 결합하고 인코딩된 결합 메타데이터를 출력한다.

도 6에는 분석 또는 합성 장치에 사용될 수 있는 예시 전자 장치가 도시되어 있다. 이 장치는 임의의 적합한 전자 장치 또는 기기가 될 수 있다. 예를 들어, 일부 실시예에서 장치(1400)는 모바일 디바이스, 사용자 단말기, 태블릿 컴퓨터, 컴퓨터, 오디오 재생 장치 등이다.

일부 실시예에서 장치(1400)는 적어도 하나의 프로세서 또는 중앙 처리 장치(1407)를 포함한다. 프로세서(1407)는 본 명세서에서 설명된 방법과 같은 다양한 프로그램 코드를 실행하도록 구성될 수 있다.

일부 실시예에서, 디바이스(1400)는 메모리(1411)를 포함한다. 일부 실시예에서, 적어도 하나의 프로세서(1407)는 메모리(1411)과 연결되어 있다. 메모리(1411)는 임의의 적합한 저장 수단이 될 수 있다. 일부 실시예에서, 메모리(1411)는 프로세서(1407)상에서 구현 가능한 프로그램 코드를 저장하기 위한 프로그램 코드 섹션을 포함한다. 또한, 일부 실시예에서, 메모리(1411)는 데이터, 예를 들어 본 명세서에 설명된 실시예에 따라 처리되었거나 처리될 데이터를 저장하기 위한 저장 데이터 섹션을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드와 저장 데이터 섹션 내에 저장된 데이터는 메모리-프로세서 연결을 통해 필요할 때 마다 프로세서(1407)에 의해 검색될 수 있다.

일부 실시예에서 장치(1400)는 사용자 인터페이스(1405)를 포함한다. 사용자 인터페이스(1405)는 일부 실시예에서 프로세서(1407)과 연결될 수 있다. 일부 실시예에서, 프로세서(1407)는 사용자 인터페이스(1405)의 동작을 제어하고 사용자 인터페이스(1405)로부터 입력을 수신한다. 일부 실시예에서 사용자 인터페이스(1405)는 사용자가 예를 들어 키패드를 통해 장치(1400)에 명령을 입력하는 것을 가능하게 할 수 있다. 일부 실시예에서 사용자 인터페이스(1405)는 사용자가 장치(1400)로부터 정보를 획득할 수 있게 한다. 예를 들어, 사용자 인터페이스(1405)는 장치(1400)의 정보를 사용자에게 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 일부 실시예에서, 사용자 인터페이스(1405)는 본 명세서에서 설명된 바와 같이 위치 결정기와 통신하기 위한 사용자 인터페이스일 수 있다.

일부 실시예에서 장치(1400)는 입출력 포트(1409)를 포함한다. 일부 실시예에서 입출력 포트(1409)는 트랜시버를 포함한다. 그러한 실시예에서 트랜시버는 프로세서(1407)과 연결될 수도 있고, 예를 들어 무선 통신 네트워크를 통해 다른 기기 또는 전자장치와 통신을 가능하게 할 수도 있다. 일부 실시예에서 트랜시버 또는 임의의 적합한 트랜시버 또는 송신기 및/또는 수신기 수단은 유선 또는 유선 연결을 통해 다른 전자 장치 또는 기기와 통신하도록 구성될 수 있다.

트랜시버는 임의의 적합한 공지된 통신 프로토콜에 의해 추가적인 기기와 통신할 수 있다. 예를 들어, 일부 실시예에서 트랜시버는 적합한 범용 이동 통신 시스템(UMTS) 프로토콜, IEEE 802.X와 같은 무선 근거리 통신망(WLAN) 프로토콜, 블루투스와 같은 적합한 단거리 무선 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(IRDA)를 사용할 수 있다.

트랜시버 입출력 포트(1409)는 신호를 수신하고, 일부 실시예에서는 적합한 코드를 실행하는 프로세서(1407)를 사용하여 본 명세서에서 설명된 파라미터를 결정한다. 또한 장치는 합성 장치로 전송될 적절한 다운믹스 신호 및 파라미터 출력을 생성할 수 있다.

일부 실시예에서, 장치(1400)는 합성 장치의 적어도 일부로서 사용될 수 있다. 이와 같이 입출력 포트(1409)는 다운믹스 신호를 수신하고, 일부 실시예에서는 본 명세서에서 설명된 포착 장치 또는 처리 장치에서 결정된 파라미터를 수신하며, 적합한 코드를 실행하는 프로세서(1407)을 사용하여 적합한 오디오 신호 형식 출력을 생성하도록 구성될 수 있다. 입출력 포트(1409)는 예를 들어 다중 채널 스피커 시스템 및/또는 헤드폰 또는 그와 유사한 것에 대한 임의의 적합한 오디오 출력과 연결될 수 있다.

일반적으로, 본 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 그들의 임의의 조합으로 구현될 수 있다. 예를 들어, 일부 측면은 하드웨어로 구현될 수도 있는 반면, 다른 측면은 컨트롤러, 마이크로프로세서 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수도 있으나, 본 발명은 이에 제한되지 않는다. 본 발명의 다양한 측면이 블록도, 흐름도 또는 일부 다른 그림 표현을 사용하여 예시 및 설명될 수 있으나, 본 발명에서 설명된 이들 블록, 장치, 시스템, 기법 또는 방법은 비 제한적인 예시로서 하드웨어, 소프트웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 다른 컴퓨팅 디바이스 또는 그들 일부의 조합으로 구현될 수 있다.

본 발명의 실시예는 프로세서 엔티티와 같은 모바일 디바이스의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어, 또는 하드웨어, 또는 소프트웨어와 하드웨어의 결합에 의해 구현될 수 있다. 또한 이와 관련하여, 도면 내 논리 흐름의 임의의 블록은 프로그램 단계, 또는 상호 연결된 논리 회로, 블록 및 기능의 조합을 나타낼 수 있다는 점에 유의해야 한다. 소프트웨어는 메모리 칩, 또는 프로세서 내에 구현된 메모리 블록, 하드 디스크 또는 플로피 디스크와 같은 자기 매체, DVD 및 그 데이터 변형 CD와 같은 광학 매체에 저장될 수 있다.

메모리는 로컬 기술 환경에 적합한 임의의 유형일 수 있고, 반도체 기반 메모리 장치, 자기 메모리 장치 및 시스템, 광학 메모리 장치 및 시스템, 고정 메모리 및 이동식 메모리와 같은 임의의 적합한 데이터 저장 기술을 사용하여 구현될 수 있다. 데이터 프로세서는 로컬 기술 환경에 적합한 임의의 유형일 수 있으며, 비제한적인 예로서 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(DSPs), 주문형 집적 회로(ASIC), 게이트 레벨 회로 및 멀티 코어 프로세서 아키텍쳐에 기초한 프로세서 중 하나 이상을 포함할 수 있다.

본 발명의 실시예는 집적 회로 모듈과 같은 다양한 구성 요소에서 실행될 수 있다. 집적 회로의 설계는 대체로 고도로 자동화된 프로세스이다. 복잡하고 강력한 소프트웨어 툴들을 사용하여 로직 레벨 설계를 반도체 기판에 식각 및 형성 가능한 반도체 회로 설계로 변환할 수 있다.

프로그램은 잘 확립 된 설계 규칙과 사전 저장된 설계 모듈 라이브러리를 사용하여 반도체 칩에서 자동으로 컨덕터를 라우팅하고 구성 요소를 배치할 수 있다. 반도체 회로의 설계가 완료되면, 표준화 된 전자 형식 (예: Opus, GDSII 등)의 결과 설계가 반도체 제조 시설 또는 ”fab"으로 전송 될 수 있다.

전술한 설명은 예시적이고 비제한적인 방법으로서 본 발명의 예시적인 실시예의 완전하고 자세한 설명을 제공하였다. 그러나, 당업자가 첨부된 도면 및 청구범위를 읽다보면, 전술한 설명에 기초하여 다양한 수정 및 적응들을 떠올릴 수 있을 것이다. 그러나, 본 발명의 모든 교시 및 그와 유사한 수정은 첨부된 청구범위에 정의된 바와 같이 본 발명의 범위 내에 여전히 속할 것이다.

Claims

오디오 프레임의 서브밴드의 각 시간-주파수 블록에 대해, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와,
각 시간-주파수 블록에 대한 제 1 거리 측정 - 상기 제 1 거리 측정은 상기 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 상기 제 1 거리 측정을 합산함으로써 상기 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와,
각 시간-주파수 블록에 대한 제 2 거리 측정 - 상기 제 2 거리 측정은 상기 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 상기 제 2 거리 측정을 합산함으로써 상기 오디오 프레임에 대한 제 2 왜곡 측정을 결정하는 단계와,
상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 상기 고도 및 방위각을 양자화하기 위해 상기 제 1 양자화 체계 또는 상기 제 2 양자화 체계 중 하나를 선택 - 상기 선택은 상기 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 수행하는 수단을 포함하는
장치.
제 1항에 있어서,
상기 제 1 양자화 체계는, 시간-주파수 블록 기반 단위 상에서,
구면 격자의 고도 값 집합 - 상기 고도 값 집합 내 각 고도 값은 상기 구면 격자의 방위각 값 집합에 매핑됨 - 에서 가장 가까운 고도 값을 선택함으로써 상기 고도를 양자화하는 단계와,
방위각 값 집합- 상기 방위각 값 집합은 상기 가장 가까운 고도 값에 의존함 - 에서 가장 가까운 방위각 값을 선택함으로써 상기 방위각을 양자화하는 단계를 수행하는 수단을 포함하는
장치.
제 2항에 있어서,
상기 고도 값 집합 내 고도 값의 수는 상기 서브프레임에 대한 비트 해상도 인자에 의존하며,
각 고도 값에 매핑된 상기 방위각 값 집합 내 방위각 값의 개수 역시 상기 서브프레임에 대한 상기 비트 해상도 인자에 의존하는
장치.
제 1항 내지 제 3항 중 어느 한 항에 있어서,
상기 제 2 양자화 체계는,
평균 고도 값을 제공하기 위해 상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 상기 고도를 평균화하는 단계와,
평균 방위각 값을 제공하기 위해 상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 상기 방위각을 평균화하는 단계와,
상기 고도의 평균값과 상기 방위각의 평균값을 양자화하는 단계와,
상기 오디오 프레임에 대한 중수 제거 방위각 벡터 (mean removed azimuth vector) - 상기 중수 제거 방위각 벡터의 각 성분은 시간-주파수 블록에 대한 중수 제거 방위각 성분을 포함하고, 상기 시간-주파수 블록에 대한 상기 중수 제거 방위각 성분은 상기 시간-주파수 블록과 연관된 상기 방위각으로부터 상기 양자화된 방위각의 평균값을 빼서 형성됨 - 를 형성하는 단계와,
코드북을 사용하여 상기 프레임에 대한 상기 중수 제거 방위각 벡터를 벡터 양자화하는 단계를 포함하는
장치.
제 1항 내지 제 4항 중 어느 한 항에 있어서,
상기 제 1 거리 측정은 상기 고도와 방위각에 의해 주어진 구체(sphere) 위의 지점과, 상기 제 1 양자화 체계에 따른 상기 양자화된 고도와 양자화된 방위각에 의해 주어진 상기 구체 위의 지점 사이의 L2 놈(L2 norm) 거리를 포함하는
장치.
제 5항에 있어서,
상기 제 1 거리 측정은
에 의해 주어지며, 여기서
는 시간-주파수 블록 i의 상기 고도이며,
는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 고도이고,
는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 방위각과 상기 방위각 사이 왜곡의 근사값인
장치.
제 6항에 있어서,
상기 방위각과 상기 제 1 양자화 체계에 따른 상기 양자화된 방위각 사이 상기 왜곡의 근사값은 180도를 n_i로 나눈 값으로 주어질 수 있고, 여기서 n_i는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 고도
에 대응하는 상기 방위각 값 집합 내 방위각 값의 개수인
장치.
제 4항 내지 제 7항 중 어느 한 항에 있어서,
상기 제 2 거리 측정은 상기 고도와 방위각에 의해 주어진 구체(sphere) 위의 지점(point)과, 상기 제 2 양자화 체계에 따른 상기 양자화된 고도와 양자화된 방위각에 의해 주어진 상기 구체 위의 지점 사이의 L2 놈(L2 norm) 거리를 포함하는
장치.
제 8항에 있어서,
상기 제 2 거리 측정은
에 의해 주어지며, 여기서
는 상기 오디오 프레임에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 평균 고도이며,
는 시간-주파수 블록 i에 대한 상기 고도이고,
는 상기 시간-주파수 블록 i에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 중수 제거 방위각 벡터의 상기 방위각 성분과 상기 방위각 사이 상기 왜곡의 근사값인
장치.
제 9항에 있어서,
상기 시간-주파수 블록 i에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 중수 제거 방위각 벡터의 상기 방위각 성분과 상기 방위각 사이 상기 왜곡의 근사값은 상기 코드북과 관련된 값인
장치.
오디오 프레임의 서브밴드의 각 시간-주파수 블록에 대해, 방위각과 고도를 포함하는 공간적 오디오 파라미터를 수신하는 단계와,
각 시간-주파수 블록에 대한 제 1 거리 측정 - 상기 제 1 거리 측정은 상기 고도 및 방위각과, 제 1 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 상기 제 1 거리 측정을 합산함으로써 상기 오디오 프레임에 대한 제 1 왜곡 측정을 결정하는 단계와,
각 시간-주파수 블록에 대한 제 2 거리 측정 - 상기 제 2 거리 측정은 상기 고도 및 방위각과, 제 2 양자화 체계에 따른 양자화된 고도 및 양자화된 방위각 사이의 거리의 근사값임 - 을 결정하고 각 시간-주파수 블록에 대한 상기 제 2 거리 측정을 합산함으로써 상기 오디오 프레임에 대한 제 2 왜곡 측정을 결정하는 단계와,
상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록에 대한 상기 고도 및 방위각을 양자화하기 위해 상기 제 1 양자화 체계 또는 상기 제 2 양자화 체계 중 하나를 선택 - 상기 선택은 상기 제 1 및 제 2 왜곡 측정에 의존함 - 하는 단계를 포함하는
방법.
제 11항에 있어서,
상기 제 1 양자화 체계는, 시간-주파수 블록 기반 단위 상에서,
구면 격자의 고도 값 집합 - 상기 고도 값 집합 내 각 고도 값은 상기 구면 격자의 방위각 값 집합에 매핑됨 - 에서 가장 가까운 고도 값을 선택함으로써 상기 고도를 양자화하는 단계와,
방위각 값 집합 - 상기 방위각 값 집합은 상기 가장 가까운 고도 값에 의존함 - 에서 가장 가까운 방위각 값을 선택함으로써 상기 방위각을 양자화하는 단계를 포함하는
방법.
제 12항에 있어서,
상기 고도 값 집합 내 고도 값의 개수는 상기 서브프레임에 대한 비트 해상도 인자에 의존하며,
각 고도 값에 매핑된 상기 방위각 값 집합 내 방위각 값의 개수 역시 상기 서브프레임에 대한 상기 비트 해상도 인자에 의존하는
방법.
제 11항 내지 제 13항 중 어느 한 항에 있어서,
상기 제 2 양자화 체계는,
평균 고도 값을 제공하기 위해 상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 상기 고도를 평균화하는 단계와,
평균 방위각 값을 제공하기 위해 상기 오디오 프레임의 서브밴드의 모든 시간-주파수 블록의 상기 방위각을 평균화하는 단계와,
상기 고도의 평균값과 상기 방위각의 평균값을 양자화하는 단계와,
상기 오디오 프레임에 대한 중수 제거 방위각 벡터 - 상기 중수 제거 방위각 벡터의 각 성분은 시간-주파수 블록에 대한 중수 제거 방위각 성분을 포함하고, 상기 시간-주파수 블록에 대한 상기 중수 제거 방위각 성분은 상기 시간-주파수 블록과 연관된 상기 방위각으로부터 상기 양자화된 방위각의 평균값을 빼서 형성됨 - 를 형성하는 단계와,
코드북을 사용하여 상기 프레임에 대한 상기 중수 제거 방위각 벡터를 벡터 양자화하는 단계를 포함하는
방법.
제 11항 내지 제 14항 중 어느 한 항에 있어서,
상기 제 1 거리 측정은 상기 고도와 방위각에 의해 주어진 구체(sphere) 위 지점(point)과, 상기 제 1 양자화 체계에 따른 상기 양자화된 고도와 양자화된 방위각에 의해 주어진 상기 구체 위 지점 사이의 L2 놈(L2 norm) 거리의 근사값을 포함하는
방법.
제 15항에 있어서,
상기 제 1 거리 측정은
에 의해 주어지며, 여기서
는 시간-주파수 블록 i의 상기 고도이며,
는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 고도이고,
는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 방위각과 상기 방위각 사이 왜곡의 근사값인
방법.
제 16항에 있어서,
상기 방위각과 상기 제 1 양자화 체계에 따른 상기 양자화된 방위각 사이 상기 왜곡의 근사값은 180도를 n_i로 나눈 값으로 주어질 수 있고, 여기서 n_i는 상기 시간-주파수 블록 i에 대한 상기 제 1 양자화 체계에 따른 상기 양자화된 고도
에 대응하는 상기 방위각 값 집합 내 방위각 값의 개수인
방법.
제 14항 내지 제 17항 중 어느 한 항에 있어서,
상기 제 2 거리 측정은 상기 고도와 방위각에 의해 주어진 구체(sphere) 위 지점(point)과, 상기 제 2 양자화 체계에 따른 상기 양자화된 고도와 양자화된 방위각에 의해 주어진 상기 구체 위 지점 사이의 L2 놈(L2 norm) 거리의 근사값을 포함하는
방법.
제 18항에 있어서,
상기 제 2 거리 측정은
에 의해 주어지며, 여기서
는 상기 오디오 프레임에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 평균 고도이며,
는 시간-주파수 블록 i에 대한 상기 고도이고,
는 상기 시간-주파수 블록 i에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 중수 제거 방위각 벡터의 상기 방위각 성분과 상기 방위각 사이 상기 왜곡의 근사값인
방법.
제 19항에 있어서,
상기 시간-주파수 블록 i에 대한 상기 제 2 양자화 체계에 따른 상기 양자화된 중수 제거 방위각 벡터의 상기 방위각 성분과 상기 방위각 사이 상기 왜곡의 근사값은 상기 코드북과 관련된 값인
방법.